族谱网 头条 人物百科

随机博弈

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:946
转发:0
评论:0
定义这类博弈由一系列阶段组成。在博弈中每一阶段的起始,博弈处于某种特定状态。每一参与者选择某种行动,然后会获得取决于当前状态和所选择行动的收益。之后,博弈发展到下一阶段,处于一个新的随机状态,这一随机状态的分布取决于先前状态和各位参与者选择的行动。在新状态中重复上述过程,然后博弈继续进行有限或无限个数的阶段。一个参与者得到的总收益常用各阶段收益的贴现和,或是各阶段收益平均值的下极限来计算。数学描述随机博弈的组成部分有:有限参与者集I{\displaystyleI};状态空间M{\displaystyleM}(可以是有限集,也可以是可测空间(M,A){\displaystyle(M,{\mathcal{A}})});对于每一参与者i∈∈-->I{\displaystylei\inI},存在行动集Si{\displaystyleS^{i}\,}(可以是有限集,也可以是可测空间(Si,Si){\...

定义

这类博弈由一系列阶段组成。在博弈中每一阶段的起始,博弈处于某种特定 状态 。每一参与者选择某种行动,然后会获得取决于当前状态和所选择行动的 收益 。之后,博弈发展到下一阶段,处于一个新的随机状态,这一随机状态的分布取决于先前状态和各位参与者选择的行动。在新状态中重复上述过程,然后博弈继续进行有限或无限个数的阶段。一个参与者得到的总收益常用各阶段收益的贴现和,或是各阶段收益平均值的下极限来计算。

数学描述

随机博弈的组成部分有:有限参与者集 I {\displaystyle I} ;状态空间 M {\displaystyle M} (可以是有限集,也可以是可测空间 ( M , A ) {\displaystyle (M,{\mathcal {A}})} );对于每一参与者 i ∈ ∈ --> I {\displaystyle i\in I} ,存在行动集 S i {\displaystyle S^{i}\,} (可以是有限集,也可以是可测空间 ( S i , S i ) {\displaystyle (S^{i},{\mathcal {S}}^{i})} ); P {\displaystyle P} 是 M × × --> S {\displaystyle M\times S} 到 M {\displaystyle M} 的转移概率,其中 S = × × --> i ∈ ∈ --> I S i {\displaystyle S=\times _{i\in I}S^{i}} 是行动组合, P ( A ∣ ∣ --> m , s ) {\displaystyle P(A\mid m,s)} 是下一状态处于 A {\displaystyle A} 中的概率,而 A {\displaystyle A} 给定了当前状态 m {\displaystyle m} 和当前行动组合 s {\displaystyle s} ;从 M × × --> S {\displaystyle M\times S} 到 R I {\displaystyle R^{I}\,} 的收益函数 g {\displaystyle g} ,其中 g {\displaystyle g} 的第 i {\displaystyle i} 个坐标 g i {\displaystyle g^{i}\,} 是参与者 i {\displaystyle i} 的收益,而 g i {\displaystyle g^{i}\,} 是状态 m {\displaystyle m} 和行动组合 s {\displaystyle s} 的函数。

博弈以某个初始状态 m 1 {\displaystyle m_{1}} 开始。在阶段 t {\displaystyle t} 中,参与者最先观测到 m t {\displaystyle m_{t}} ,同时选择行动 s t i ∈ ∈ --> S i {\displaystyle s_{t}^{i}\in S^{i}} ,然后观测到行动组合 s t = ( s t i ) i {\displaystyle s_{t}=(s_{t}^{i})_{i}} ,然后以概率 P ( ⋅ ⋅ --> ∣ ∣ --> m t , s t ) {\displaystyle P(\cdot \mid m_{t},s_{t})} 自然选择 m t + 1 {\displaystyle m_{t+1}} 。一次随机博弈 m 1 , s 1 , … … --> , m t , s t , … … --> {\displaystyle m_{1},s_{1},\ldots ,m_{t},s_{t},\ldots } 定义了一个收益流 g 1 , g 2 , … … --> {\displaystyle g_{1},g_{2},\ldots } ,其中 g t = g ( m t , s t ) {\displaystyle g_{t}=g(m_{t},s_{t})\,} 。

例子

下面给出随机博弈的一个例子:

当前有任意个装着球的桶,每个桶中球的数目也是任意的,两位参与者轮流从中取出球,且需要遵守如下规则:

每一步应至少取出一只球,且只能从某一桶中取走部分或全部球;

谁取到最后一只球,谁就获胜。

重要结论

贴现因子为 λ λ --> {\displaystyle \lambda } ( 0 ≤ ≤ --> 1 {\displaystyle 0 )的贴现博弈 Γ Γ --> λ λ --> {\displaystyle \Gamma _{\lambda }} 中,参与者 i {\displaystyle i} 的收益是 λ λ --> ∑ ∑ --> t = 1 ∞ ∞ --> ( 1 − − --> λ λ --> ) t − − --> 1 g t i {\displaystyle \lambda \sum _{t=1}^{\infty }(1-\lambda )^{t-1}g_{t}^{i}} 。 n {\displaystyle n} 阶段博弈中,参与者 i {\displaystyle i} 的收益是 g ¯ ¯ --> n i := 1 n ∑ ∑ --> t = 1 n g t i {\displaystyle {\bar {g}}_{n}^{i}:={\frac {1}{n}}\sum _{t=1}^{n}g_{t}^{i}} 。

若存在有限多个状态和行动的二人零和博弈 Γ Γ --> n {\displaystyle \Gamma _{n}} (各自是 Γ Γ --> λ λ --> {\displaystyle \Gamma _{\lambda }} )的值为 v n ( m 1 ) {\displaystyle v_{n}(m_{1})} (各自是 v λ λ --> ( m 1 ) {\displaystyle v_{\lambda }(m_{1})} ),则 v n ( m 1 ) {\displaystyle v_{n}(m_{1})} 在 n {\displaystyle n} 趋于无穷时收敛到一个极限,且 v λ λ --> ( m 1 ) {\displaystyle v_{\lambda }(m_{1})} 在 λ λ --> {\displaystyle \lambda } 趋于 0 {\displaystyle 0} 时收敛到相同的极限。这一结论已被杜鲁门·彪利(Truman Bewley)和艾朗·克尔伯格(Elon Kohlberg)于1976年证明。

非贴现博弈 Γ Γ --> ∞ ∞ --> {\displaystyle \Gamma _{\infty }} 中,参与者 i {\displaystyle i} 的收益是各阶段收益平均值的极限。在定义二人零和博弈 Γ Γ --> ∞ ∞ --> {\displaystyle \Gamma _{\infty }} 的值与非零和博弈 Γ Γ --> ∞ ∞ --> {\displaystyle \Gamma _{\infty }} 的均衡收益之前需要注意一些事情:若对于每一 ε ε --> > 0 {\displaystyle \varepsilon >0} 都有正整数 N {\displaystyle N} 、参与者1的策略 σ σ --> ε ε --> {\displaystyle \sigma _{\varepsilon }} 和参与者2的策略 τ τ --> ε ε --> {\displaystyle \tau _{\varepsilon }} ,二人零和随机博弈 Γ Γ --> ∞ ∞ --> {\displaystyle \Gamma _{\infty }} 的一致值(uniform value) v ∞ ∞ --> {\displaystyle v_{\infty }} 存在,这样对于每一 σ σ --> {\displaystyle \sigma } 、 τ τ --> {\displaystyle \tau } 和每一 n ≥ ≥ --> N {\displaystyle n\geq N} ,博弈中由 σ σ --> ε ε --> {\displaystyle \sigma _{\varepsilon }} 和 τ τ --> {\displaystyle \tau } 定义的概率的 g ¯ ¯ --> n i {\displaystyle {\bar {g}}_{n}^{i}} 期望至少为 v ∞ ∞ --> − − --> ε ε --> {\displaystyle v_{\infty }-\varepsilon } ,由 σ σ --> {\displaystyle \sigma } 和 τ τ --> ε ε --> {\displaystyle \tau _{\varepsilon }} 定义的概率的 g ¯ ¯ --> n i {\displaystyle {\bar {弗朗索瓦{n}^{i}} 期望至多为 v ∞ ∞ --&g亚伯拉罕+ ε ε --> {\displaystyle v_{\infty }+\varepsilon } 。让·弗朗索瓦·梅顿斯(Jean Francois Mertens)和亚伯拉罕·奈曼(Abraham Neyman)于1981年证明二人零和随机博弈具有一致值。

若参与者数量有限且行动集和状态集有限,则有限阶段随机博弈总有纳什均衡,对于总收益是贴现和的无限多阶段随机博弈也是如此。尼古拉斯·维勒(Nicolas Vieille)已经证明当总收益是各阶段收益平均值的下极限时,所有具有有限状态和行动空间的二人随机博弈都有近似纳什均衡。不过,当参与者多于2名时,随机博弈是否存在这类均衡仍是一个极具挑战性的开放性问题。

应用

随机博弈在经济学、演化生物学和计算机网络中都有应用。 事实上,随机博弈是重复博弈这类每一阶段都处于相同状态的博弈的一般化形式。

有关随机博弈的最全面的参考书籍是奈曼和索林编著的文集。 菲拉尔和乌瑞兹所著的书籍更为基础,书中提供了马尔可夫决策过程(MDP)和二人随机博弈理论的严密的统一处理方法。 他们创造了Competitive MDPs这一术语来概括一人和二人随机博弈。

参考文献

一般参考

Anne Condon.The complexity of stochastic games. Information and Computation. 1992, 96 (2): 第203-224页. doi:10.1016/0890-5401(92)90048-K . ISSN 0890-5401 .


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 随机图
定义与模型随机图的“随机”二字体现在边的分布上。一个随机图实际上是将给定的顶点之间随机地连上边。假设将一些纽扣散落在地上,并且不断随机地将两个纽扣之间系上一条线,这样就得到一个随机图的例子。边的产生可以依赖于不同的随机方式,这样就产生了不同的随机图模型。一个典型的模型是埃尔德什和雷尼共同研究的ER模型。ER模型是指在给定n个顶点后,规定每两个顶点之间都有p的概率连起来(0⩽⩽-->p⩽⩽-->1{\displaystyle0\leqslantp\leqslant1}),而且这些判定之间两两无关。这样得到的随机图一般记作Gnp{\displaystyleG_{n}^{p}}或ERn(p){\displaystyleER_{n}(p)}。另一种随机图模型叫做内积模型。内积模型的机制是对每一个顶点指定一个实系数的向量,而两个顶点之间是否连接的概率则是它们的向量的内积的函数。一般来说,可以定义任意...
· 随机过程
定义设(ΩΩ-->,F,P){\displaystyle(\Omega,{\mathcal{F}},P)}为一概率空间,另设集合T为一指标集合。如果对于所有t∈∈-->T{\displaystylet\inT},均有一随机变量ξξ-->t(ωω-->){\displaystyle\xi_{t}(\omega)}定义于概率空间(ΩΩ-->,F,P){\displaystyle(\Omega,{\mathcal{F}},P)},则集合{ξξ-->t(ωω-->)|t∈∈-->T}{\displaystyle\{\xi_{t}(\omega)|t\inT\}}为一随机过程。通常,指标集合T代表时间,以实数或整数表示。以实数形式表示时,随机过程称为连续随机过程;以整数表示时,则为离散随机过程。随机过程中的参数ωω-->{\displaystyl...
· 随机试验
例子查论编
· 随机数
密码学范畴的随机数根据密码学原理,随机数的随机性检验可以分为三个标准:统计学伪随机性。统计学伪随机性指的是在给定的随机比特流样本中,1的数量大致等于0的数量,同理,“10”“01”“00”“11”四者数量大致相等。类似的标准被称为统计学随机性。满足这类要求的数字在人类“一眼看上去”是随机的。密码学安全伪随机性。其定义为,给定随机样本的一部分和随机算法,不能有效的演算出随机样本的剩余部分。真随机性。其定义为随机样本不可重现。实际上衹要给定边界条件,真随机数并不存在,可是如果产生一个真随机数样本的边界条件十分复杂且难以捕捉(比如计算机当地的本底辐射波动值),可以认为用这个方法演算出来了真随机数。相应的,随机数也分为三类:伪随机数:满足第一个条件的随机数。密码学安全的伪随机数:同时满足前两个条件的随机数。可以通过密码学安全伪随机数生成器计算得出。真随机数:同时满足三个条件的随机数。随机数在密码学...
· 随机分析
参看彭实戈伊藤清确定性模型伯努利过程随机过程布朗运动马可夫过程莱维过程

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信