phymath999: 纳什均衡 gauge01 utility01 game01 参与者的策略集合是什么，那么就可以有一个实数值与之对应。我们可以把上面的方程拆成两个方程来进一步把它一般化。一个方程是正则形式(Normal form game)的参与者程，描述策略规定结果的方式。另外一个方程描写参与者对于结果(outcome)集合的偏好(preference)。

Wednesday, October 2, 2013

纳什均衡 gauge01 utility01 game01 参与者的策略集合是什么，那么就可以有一个实数值与之对应。我们可以把上面的方程拆成两个方程来进一步把它一般化。一个方程是正则形式(Normal form game)的参与者程，描述策略规定结果的方式。另外一个方程描写参与者对于结果(outcome)集合的偏好(preference)。

智者的游戏——博弈论

博弈论（Game theory），有时也称为对策论，或者赛局理论，应用数学的一个分支，目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构（游戏或者博弈）间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。
概述

博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。表面上不同的相互作用可能表现出相似的激励结构(incentive structure)，所以他们是同一个游戏的特例。其中一个有名有趣的应用例子是囚徒困境。

具有竞争或对抗性质的行为成为博弈行为。在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋，打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。

生物学家使用博弈理论来理解和预测进化（论）的某些结果。例如，John Maynard Smith 和George R. Price 在1973年发表于《自然》杂志上的论文中提出的“evolutionarily stable strategy”的这个概念就是使用了博弈理论。还可以参见进化博弈理论（evolutionary game theory）和行为生态学（behavioral ecology）。

博弈论也应用于数学的其他分支，如概率，统计和线性规划等。

数学定义

范式博弈

范式博弈又被译为正则形式的博弈、策略型赛局或标准型赛局。

设定 $\mathrm{N}$ 是一个“参与者”(players)的集合。对于每一个“参与者” $i \in \mathrm{N}$ 都有一个给定的“策略”集合 $\Sigma\ ^i$ . 博弈（游戏）是一个函数，定义为:

$\pi\ : \prod_{i\in \mathrm{N}} \Sigma\ ^i \to \mathbb{R}^\mathrm{N}$

也就是说，如果我们知道了参与者的策略集合是什么，那么就可以有一个实数值与之对应。我们可以把上面的方程拆成两个方程来进一步把它一般化。一个方程是正则形式(Normal form game)的参与者程，描述策略规定结果的方式。另外一个方程描写参与者对于结果(outcome)集合的偏好(preference)。也就是：

$\pi\ : \prod_{i \in \mathrm{N}} \Sigma\ ^i \to \Gamma\$

这里 $\Gamma\$ 是游戏（博弈）的结果集合(outcome set)。对于每一个参与者 $i\in \mathrm{N}$ 都有一个偏好函数( preference function)

$\nu\ ^i : \Gamma\ \to \mathbb{R}$ .

展开形式的博弈

展开形式的博弈又可译为扩展形式的博弈、扩展式赛局或扩展型赛局。

正则形式的定义为数学家们提供了“均衡”(equilibria)问题的研究一个容易使用的表达式。因为它避免了怎么计算“策略”的问题，也就是说游戏是怎么进行的问题。

若要考虑游戏是如何进行的，展开形式的博弈是一个比较方便的表达式。这个形式与组合博弈论关系密切。这个定义通过一个树的形式给定。在树的每一个节点（vertex），不同的参与者选择一个边（edge）。

纳什均衡

纳什平衡，又称为非合作赛局平衡，是博弈论的一个重要概念，以约翰·纳什命名。

如果某情况下无一参与者可以独自行动而增加收益，则此策略组合被称为纳什均衡点。

例子

其经典的例子就是囚徒困境。囚徒困境是一个非零和博弈。大意是：一个案子的两个嫌疑犯被分开审讯，警官分别告诉两个囚犯，如果你招供，而对方不招供，则你将被立即释放，而对方将被判刑十年；如果两人均招供，将均被判刑两年。如果两人均不招供，将最有利，只被判刑半年。于是，两人同时陷入招供还是不招供的两难处境。但两人无法沟通，于是从各自的利益角度出发，都依据各自的理性而选择了招供，这种情况就称为纳氏均衡点。这时，个体的理性利益选择是与整体的理性利益选择不一致的。

囚犯甲的博弈矩阵		囚犯甲
囚犯甲的博弈矩阵		招供	不招供
囚犯乙	招供	各判刑两年	甲判刑十年,乙立即释放
囚犯乙	不招供	甲立即释放,乙判刑十年	各判刑半年

基于经济学中“理性经济人”的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被判刑半年就不会出现。事实上，这样两人都选择坦白的策略以及因此被判两年的结局被称作是“纳什均衡”（也叫非合作均衡），换言之，在此情况下，无一参与者可以“独自行动”（即单方面改变决定）而增加收获。

phymath999

Wednesday, October 2, 2013

No comments:

Post a Comment