phymath999: 纳什均衡等博弈解概念的知识论基础在于，“首先，博弈者被设想为对他们所参与的互动局势有一个完全模型。其次，他们被假设为，在考虑到其他每个人也正在做出任意高复杂性的最优计划的同时，做出任意高复杂性的最优计划；第三，所有这一切被假设为普遍知识” (Young，1998，651－2)。辅以其它假设，均衡等解概念可以看作是博弈者推演出的结果。Fudenberg & Levine (1998)指出三个问题：当博弈存在多重纳什均衡时，博弈者如何协调他们的信念以选择一个特定均衡是不清楚的；关于博弈本身的普遍知识很难建立；均衡理论在说明大多数实验中最初回合的行为上是糟糕的，即便对后来的回合的说明稍好些；从非均衡到均衡的跃迁在纯粹内省的理论中很难得到调和

Wednesday, April 1, 2015

纳什均衡等博弈解概念的知识论基础在于，“首先，博弈者被设想为对他们所参与的互动局势有一个完全模型。其次，他们被假设为，在考虑到其他每个人也正在做出任意高复杂性的最优计划的同时，做出任意高复杂性的最优计划；第三，所有这一切被假设为普遍知识” (Young，1998，651－2)。辅以其它假设，均衡等解概念可以看作是博弈者推演出的结果。Fudenberg & Levine (1998)指出三个问题：当博弈存在多重纳什均衡时，博弈者如何协调他们的信念以选择一个特定均衡是不清楚的；关于博弈本身的普遍知识很难建立；均衡理论在说明大多数实验中最初回合的行为上是糟糕的，即便对后来的回合的说明稍好些；从非均衡到均衡的跃迁在纯粹内省的理论中很难得到调和

【法宝引证码】 CLI.A.026456

发表评论	查看评论 0 条
大中小	【访问量】4941

理性、进化与均衡——博弈论解概念及其基础

丁利

【学科分类】法律经济学
【关键词】博弈论解概念基础理性进化均衡
【写作年份】2002年

【正文】
     理性、进化与均衡——博弈论解概念及其基础

  北京大学法学院法律经济学研究中心丁利


  自然比人类更早，而人类比自然科学更早
  ——Von Weizsacker


  引子

  在《从惊讶到思考——数学悖论奇景》中，描写了一个梵学家的女儿苏珊和父亲打赌的故事。苏珊认为父亲并非能够预测未来所有事情，梵学家不服。于是苏珊说，有一件事，我写在我的纸上。如果你预测它能发生，你就在你的纸上写个“是”，否则你就写个“不”。我们第二天看你预测的对不对。梵学家愉快地答应了。但第二天作父亲的却傻眼了，因为苏珊写的是“你在纸上写的是个不字”，而梵学家写的是个“是”字。不过他马上发现自己被女儿愚弄了，因为如果写个“不”字，那么苏珊说的刚好是这件事，他应该写个“是”字，所以怎么都不对。
  这个打赌——博弈的故事实际上可以看作是说谎者悖论的另一种形式。正如我们所知道的，所有的悖论都可以转化为一个关于不完备性的证明。那么，与元数学(meta-mathematics)——证明论(proof theory)中著名的哥德尔不完备性定理联系起来，我们会发现逻辑学和博弈论之间的一种什么样的关联呢？博弈论学者能避免梵学者的尴尬吗？或者，换句话说，如果这种尴尬是不可避免的，那么博弈论是如何应对从而为其合法性找到辩护理由的呢？
  探讨博弈论基础的工作几乎不可避免地要与数学基础联系起来。今天的博弈论思想已渗透到纯数学如数理逻辑中了。二者之间有着许多形式上的相似，如逻辑中的公理系统与其解释——即模型(model)之间的关系，可以看作是一种博弈；博弈论的纳什均衡解在数学上表现为一个不动点，哥德尔定理中自指自己在系统里不可证的不可判定命题也是一个不动点。而模态逻辑(modal logic)作为研究博弈论的知识论基础的标准工具，它与证明论有着本质上的联系。几乎所有的博弈都可以看作一个动力系统或用动力系统模拟，而源于数学基础研究的图灵机(turing machine)以及冯诺依曼提出的元胞自动机(cellular automata )则是动力系统理论的基础。那么，元数学的观念能否给我们提供理解博弈论及其解概念的洞察力？

  博弈论作为关于“理性人的互动(interaction)行为”（Aumann，1985，p35）的理论，借助以纳什均衡(equilibrium)（Nash, 1951）为核心的博弈解概念，已经发展成为分析二人以上社会中人们理性决策的行为选择模式的标准工具。在现代经济学尤其是微观经济学的发展中，博弈论已经占据了核心地位，并在深度和广度上继续取得巨大突破和惊人进展。
  博弈论作为研究者的数学建构，它能够取得成功，除了其内在逻辑上的简洁、和谐与质朴的美感，还应源于它的解概念为我们描述现实提供了具有直觉洞察力的观念。那么，在什么意义上，博弈论不仅是一种人类智力的构造，还是一种具有现实描述力的“社会物理学”？
  任何一个严肃的博弈论学者都不会对此问题视而不见。最近二三十年博弈论基础方面的发展，主要在这样几个方向上，在纳什均衡的弱化(generalization或extension)和精炼(refinement)的两个方面对解概念(solution concept)进行拓展，对解概念的知识论(epistemic)基础的探讨，博弈中的进化(evolution)和学习(learning)理论以及它们对解概念正当性(justifiability)的证明，实验经济学对各种博弈论结论的验证，在更弱理性假设上的个人理性决策理论以及基于此的博弈解概念。这些进展足以使我们能够对此问题勾勒出一个大致的轮廓，本文正是试图通过对博弈论发展进程中的这些重要工作的综览、总结和整理，讨论博弈论的基本解概念的合理性，其隐含的逻辑基础和知识论假设，这些前提条件及其推论与现实世界的关系，进而探讨博弈论未来的可能发展。
  我们的所有介绍和评述都建立在两个观念之上。首先，从一个形式化的理论系统的一致性(consistency)方面。在博弈者知道整个博弈模型的隐含假设下，纳什均衡及其精炼，是“一个解概念应该是自我实施(self-enforcement)的”这样一个观念的必然结果；这个自我实施的观念，在纳什均衡或者它的弱化与加强中，反映了各种各样的重要的思想和直觉。这些解概念，在知识论意义上，要求博弈者具备相应的知识和信念（信息结构）；通过对博弈论解概念的知识论分析，本身与数理逻辑特别是模态逻辑以及理论计算机科学的发展交织在一起，并且可能引申出更多有独立价值的结果。
  其次，从研究者的理论建构与其描述对象的关系方面。由于这些信息结构的要求很强，它们更确切地应该被看作是研究者的构建。那么这种建构如何能与现实联结起来呢？如果我们把所有行动看作是两种行动的叠加，即均衡行为与趋向均衡的行为。那么很强的信息结构指引下的均衡行为模式可以通过在模型中满足种种稳健性(robustness)和稳定性(stability)的要求以非均衡行为来近似地逼近。通过进化博弈和动力系统理论以及随机过程（与统计力学有关）中的长期(long-run)稳定行为或大范围统计结果，我们试图表明，博弈者“好像是（as if）”理性地选择均衡策略行为。


  博弈者、研究者与观察者：理论模型与描述对象

  博弈论首先是一门数学。“贝奈斯说得好，数学是研究可能的理想化结构的，那些结构可以在也可以不在物理世界中存在，也就是获得实现”(王浩，350)。易言之，数学是研究可能世界的，是为其它学科提供模式(pattern)的；作为经济学的博弈论，正如物理学一样，其研究者的使命是选择恰当的模式来描述现实（物理）世界。
  元数学的根本观念在于区分了系统外和系统内看问题，并尝试探讨一个理论能否成为自身的元理论。把从元理论（或者客观观察者(observer)）的角度看作为一个原则，我们严格区分研究者(researcher)和他的理论（通常所谓的模型）与理论对象（现象和事实）。对于博弈论学者来说，他参与的是一个研究者与研究对象之间的博弈（正如那个不幸的梵学家）。显然，现实世界的行为（纯策略）是无穷无尽的，而研究者的行为集合是各种各样的数学模型。不用说，研究者没有一个永远取胜的策略。但我们可以探究的是，研究者可采取的尽可能好的策略。
  虽然鲁宾斯坦认为，“一个（博弈）模型是我们关于现实的观念的近似，而不是现实的客观描述的近似”（Rubinstein, 1992）。但通过适当的分析，我们会发现二者之间的冲突是似是而非的。模型和现实之间通过我们的观念联结起来，只要我们按照直觉上合理的标准较好地刻画我们关于现实的观念（通过建立博弈模型），我们就会收获到作为副产品的“对现实的客观描述的近似”。
  从元理论的角度看，对于研究者来说，我们可以认为理论对象即世界的存在状态可被一组无限多的真命题（以研究者的语言或世界自身及其各种可能世界拓广为语言）来描述，这些真命题构成一个一致的逻辑上相容的体系，也就是说，世界的存在本身是没有矛盾的，矛盾只有可能出现于描述世界的理论中。但是由于理论的某种自我相关性(self-reference)，最精致的理论只能是世界本身。由于我们做不到这点，我们只能以有限的模式来描述无限的世界。即便我们能用无限多的命题来描述世界，它们与真实（或者说对世界的完备描述）之间也是类似可数(countable)无穷多的自然数与不可数无穷多的实数之间的关系。
  象物理学家面对自然一样，博弈论学者要努力对人类行为选择作出最本质的刻画。虽然研究对象是千变万化，而博弈论则通过一种几乎不变的语言的重组来应对。我们是通过结构来反映本质的。在几乎不改变基本概念的前提下，我们赋予它们更多更复杂的结构来刻画事物的所谓本质。如果我们比较幸运，有了一点理论进步，那也只不过是我们的理论精细化（fine）了，我们用更基本的元素的更复杂更细致的结构替代原来的结构，原来松散的东西被统一在新的系统里，一些原来所不能描述的命题在新的模型里能够得到描述。也就是说，我们以理论的精致化去接近世界的复杂性(complexity)。
  为了尽量实现理论的统一性（unity），我们只能选取抽象的数学工具，建立一个关于现实世界的模式。在我们建立的关于世界的模型里，它的概念和命题要有足够的抽象性以实现应用上的广泛性。理论里的基本逻辑原子应该有多重解释，因为我们应该尽量用简洁的系统描述尽可能多的现象而不是相反。这些概念和命题在语用学意义上对应解释为现实世界里的现象以及现象之间的关联。但这个对应是以某种“失真”为代价的。“虽然这有点象是悖论，然而所有的精确科学都被近似性这个概念支配着” 。如果我们有必要的能力，又有足够好的运气，模型在我们可接受的范围内会成为对现实的客观描述的近似。
  “一切现代科学都基于对手是愚蠢的这个假设上。如果说，这一假设在物理学中还是相当正确的话，那末在生物学中已不再是那么一回事（更不用说人文科学了）”（托姆，404）。博弈论与其它经济学理论的区别在于它研究“理性人的互动行为”。但它依然是通过模型来描述世界的。研究者描述了一个“理想场景（实验）”，作为研究者，他仅仅是他的理论建构对象的一个客观观察者，本身隔离于他的观察对象。而博弈论的特殊性正在于，一定意义上研究者要探讨这个实验中的博弈者（player）是如何象一个观察者一样思考并作出选择的。
  所谓我们可接受，意味着在接受对世界的粗粒化(coarse graining)刻画的同时，我们对模型的稳定性或稳健性施加了一定的要求。这一观念，与协调性一起，构成博弈论解概念背后的两个支撑。

  博弈的解及其基础

  博弈论是研究决策者互相作用、互相影响的现象的分析工具。“大致上，博弈论和经济理论关注于理性人(Homo rationalis)的互动行为。理性人是这样的一种人，总是有目的地和逻辑一贯地采取行动，他有明确的目标，只受尽可能接近地达致这些目标的欲望驱使，并具有这样做所需要的计算能力”(Aumann, 1985, p35)。作为个人理性决策的延伸，它有两个假设，一是每个博弈者是理性的，二是每个博弈者在决策时要考虑他们对其对手行为的知识和预期，也就是说他们是对策性地(strategically)思考问题的。
  那么，一个博弈就是策略互动情形的刻画，包括博弈者、他们可选择的行动集合、他们行动的先后顺序，他们在博弈进行到不同阶段所掌握的信息，他们的各种行动组合导致的结果；而博弈的解就是对一类博弈中能够产生的结果的刻画，换句话说，解概念给出了博弈可能如何进行的一个“理论预见(prediction)”。

  从要求不同研究者可以相互交流的角度看，我们构建模型是为了描述所观察到的时间过程中的现象，我们关心的重点是对这个过程提供一个协调的描述。这反映在理论上要求体系中至少要有可观察性（经验性）概念(observational concept)，因为如果没有可观察性概念，理论就不是可证伪的（falsifiable）；与之相对还会包括一定的理论性概念(theoretical concept)。至于我们是否能够完全严格地区分理论性概念与可观察性概念，要看我们以什么标准区分它们。在博弈论中，大致说来，我们可以认为博弈者的行为(action)，行为导致的结果(outcome) 或支付(payoff)等物理性(physical)的概念是可观察的。由于混合策略的存在，我们通常认为策略（strategy）是不能直接观察到的，只能通过行为体现出来，而博弈者的知识(knowledge)与信念(belief)，信息(information)，偏好(preference)以及计算与逻辑推理能力等决定他采取某种可观察行为的是理论性概念。对研究者来说，最终目的是要得出关于可观察概念的命题。虽然根据克雷格定理(Craig theorem)，如果不利用理论性概念，我们原则上也能作到这一点，但理论性概念的意义在于它们可以帮助我们直觉上确信那些关于可观察性概念的命题的合理性。并且，如果仅仅是罗列世界的各种现象，理论就没有价值了，因为它仅仅是就事论事，而缺少一种广泛性(universality)或一般性(generality)的理论是没有多少吸引力的。所以我们要尽量做到，可观察的行为好象是按照理论性概念所决定的方式生成的。
  如果我们认为博弈结构刻画了所有关于世界的物理方面的可能信息，那么博弈的解建立了可能世界与现实世界的关联。博弈结构给出了世界如何存在运行的所有逻辑可能性，而现实是我们不可能生活在所有可能世界里，博弈的解概念对每一个博弈场景都给出一个世界实际将如何存在运行的预见。所有的解都可以看作是观察者从系统外“看到”（数学证明）的。但如果仅仅是在数学上证明其存在性则还不够，我们要使它尽量成为构造性的。在系统内这是通过赋予博弈者一个知识或信念结构从而指导他的行动来实现的。在这样一个可能世界中，如果博弈者是非常完美的理性（象一个上帝一样的观察者），那么博弈的路径和博弈者的行为选择是严格决定论的；如果博弈者是完全无知的，那么他的行为选择就是完全随机的。现实的选择在二者之间有无穷多种可能性。我们通过在系统中加上一个知识结构来表明某些解确实是博弈的合理进行。这些知识结构体现了博弈者的理性程度，实际上我们所致力于的就是，博弈是如何在博弈者的知识和信息的作用下进行的，这些因素结合世界的物理规律所决定的世界的动力学过程是怎样的。

  按照宾莫尔的说法，博弈论可分为两个分支，一是知识论的；二是进化论的。博弈论学者，作为研究者或客观观察者，是以一个数学家的面目出现的，假设他知道所有能用他的语言所刻画的模型内的世界的一切。如果假设博弈者也是很好的数学家，并且没有他不知晓的事情，这就是为博弈论提供知识论基础所采取的正统方式。如果假设博弈者仅仅是很好的数学家，他只知道从他的基本知识中能证明的东西，结果就会大不一样（Binmore,1990; Shin,1993）。如果假设博弈者的计算和推理能力存在计算复杂性的限制，即他只能处理不超过某种复杂程度的问题，那么显然这是西蒙所提倡的有限理性的思路了；甚至，我们还可以假设他只能按照某种反应规则学习和适应，这就进入进化博弈的研究方向了。所以知识论方案可以看作是一种特殊的复杂的学习规则，或者是学习和进化的产物，这个规则使得他们一下子就进化到某种均衡解。原则上，进化博弈是最一般最广义的博弈，因为它不需要假定博弈者满足某种较强的理性，它关心的实质是，从观察者的角度看，博弈者是如何行为的以及这些行为导致的结果。
  本文要试图表达这样一个观念，即知识论与进化论关于博弈论解概念的解释与论证是一枚硬币的两面，它们是一个统一体系的两个支柱。纳什在他的博士论文里所指出的：“在所讨论的博弈中，对理性地进行博弈的可预期的行为的一个合理预测是什么？通过运用一些原则，如一个合理的预测应该是唯一的，参与人应能充分推理和利用知识，并且对于每一个参与人，关于其他参与人行动的知识将不会导致他的行动偏离这个合理的预期。这样我们就得到上面我们定义的解的概念。在这种解释下，我们需要假定参与人了解整个博弈的结构，从而能各自推导出这个预期。这是一个理性和理想化要求很强的解释” （Nash，1951，Appendix，23）。
  故此，纳什又提出“大众行为”(mass action)的解释。“在经济或国际政治的一些场合，利益集团不自觉地被卷入到一个非合作的博弈之中，这种不自觉使得这个场合变成了一个非合作博弈。在这种解释下，假定参与人对整个博弈的结构有完全的知识或者有能力进行复杂的推理不是必需的。但是我们假定参与人能对他们的各种纯策略的相对益处积累经验性的信息。我们假定存在一定的参与人群并且这些参与人的“中间分子”运用纯策略有一个稳定的平均频率”（Nash，1951，Appendix，21）。
  在van Damme (1995)看来，（知识论的）博弈论至少可以从如下三个方面来理解。一是描述性(descriptive)。“大致上讲，博弈与经济理论关注的是理性人(homo rationalis)的互动行为。理性人是这样的一种人，总是有目的地并逻辑一贯地行动，有明确的目标，只受尽可能达致这些目标的愿望驱使，并具备要求这样做的计算能力”(Aumann, 1985, p35)；二是可预见性(predictive)，即博弈论给出了人们将会如何进行一个博弈的预见；三是规范性(normal)，即博弈论可以看作是对博弈者如何行动的建议(recommendation)。“博弈论是关于智人(homo sapiens)的描述，事实上只有在他可以被模型化为理性人的程度上才可以这样讲。另一方面，当我们去建议人们时，很明显我们应该给予理性的、效用最大化的建议，也正是理性人要做的事情” (Aumann, 1985, p38)。
  而博弈论要做到描述性和预见性，恰恰是通过对博弈者提供一个规范性的可以自我实施的“建议”（recommendation）的方式实现的。所以，博弈论学者的种种探索努力只不过是受下述目的驱使：“理性决策的理论不应该是自我破坏的预言，以致使那些相信它的人产生偏离(deviate)（理论预言的行为选择）的激励”（van Damme, 1992，32）。所以理论要提供一个自我实施(self-enforcing)的行为范式(norm of behavior)，而这个范式（或协议(agreement)）构成一个纳什均衡是自我实施性质的必要条件。因此非合作博弈理论就要分析这几个论题：哪一个协议是自我实施的（均衡定义问题）？如何或者在什么条件下博弈者会达成一个协议（均衡得到问题）？哪个协议可能成为最终结论（均衡筛选(selection)问题）（van Damme, 1992，33）？。
  自我实施观念，本质上可以看作是一致性观念的极致。理性的核心是一致性，而在博弈者共享模型的假设下，只要我们假设博弈者有逻辑全知(logical omniscience)能力，那么博弈的解概念就是一个推理结果。解概念的知识论基础，就是通过运用可能世界方法等逻辑工具刻画博弈者知道或相信什么，以及它们所蕴涵的解概念。如奥曼(Aumann,1987)所强调：普遍知识(common knowledge)假设成为所有的博弈理论和许多经济理论的基础。无论讨论的是什么模型，模型本身必须被假设为普遍知识；否则模型就被不充分地构建，并且分析也就不连贯（coherent）（一致）了。“如果博弈模型是不完全的，那么一个人在不知道模型的不完全性由什么组成，也就是不知道博弈在其中进行的场景的情况下，他就不能区别出哪一个均衡是自我实施的”（van Damme, 1992，50）。而博弈模型的完全性意味着“任何（事先的）承诺可能性，任何关于重复博弈的观点，任何犯错误的可能性，或者任何以前观察到一些随机事件的可能性，都已经被模型刻画在博弈树中了” （Kohlberg & Mertens，1986，note 3rd）。
  显然，这个知识论前提的现实性是值得怀疑的。对于以纳什均衡为博弈的基本解概念，传统博弈论提供了几种本质上是知识论的看法，如事前交流(pre-play communication)、自我实现的预言(self-fulfilling prophecy)和焦点(focal point)解释。事前交流解释是说，如果博弈者事前讨论如何玩这个游戏，那么它一定是纳什均衡，要不就会至少有一个人有动力偏离这种玩法；自我实现的预言是说如果大家都知道一个理论预言游戏应该怎么玩，那它一定预言的是纳什均衡；至于焦点解释，则是说，“如果一个博弈有一种明显的玩法（从博弈结构本身或它的设定得出），那么博弈者们会知道其他博弈者正在干什么”，所谓均衡，就是大家都知道的明显的玩法。当然，我们可以提出一个更基本的问题，那就是这些知识解释前提从何而来。
  原则上，博弈论以及立足于其上的微观经济学，在观念上是假设博弈者象是理性地行为的。如果理性观念下的解概念是合理的，那么它应该在某些特定的环境里（不同环境基于研究者要描述的现象），通过相应的稳健性检验。稳健性检验的目的在于表明，如果模型足以抓住问题的关键，那么研究者的某种“不完备性”在一个合理的范围内应该不至于带来严重的问题。稳健性检验并非实验经济学，它实际上是一种元理论考察，较低层次理论上的复杂事物可以由更高层次的简单规则所描述。换句话说，我们不是用实验检验那样来判断我们的模型是否“正确”，而是假设，如果它原则上是正确的，那么这个“正确”的模型应该具有良好的“容错性”，我们对某些细节的必然“疏忽”是可以忽略的。
  我们是在非常宽泛的含义上使用稳健性概念。按照莱布尼兹的“同一原理”，如果我们不能区分事物，则把它们视为同一。用拓扑的语言，一个理论（譬如解概念），在两组事物之间建立了一个映射（或对应）关系。我们所使用的作为这两组事物的构件的开集的粗糙(coarse)和细致(fine)程度反映了我们的局限性，在同一开集内的事物超出了我们对细节的把握能力。那么，我们希望这个关系是连续的，我们不会因为一次几乎不可观察的细微失误就会导致大相径庭的剧变。
  显然如果用足够粗糙的拓扑来刻画值域，我们几乎总能作到使非连续的函数变为连续的。所以，不同的拓扑反映了不同的稳健性，数学上看几乎有无限多种，经验上何者有意义依赖于我们是如何对待近似性的，即什么样的两个博弈局势可以看作是近似的，什么样的博弈结局可以看作是可信的。
  进化博弈理论实际上是对博弈的解概念提供一种特殊的稳健性检验。现在我们会自然地把博弈的均衡策略看作是长期学习和进化所形成的稳定状态，至少是局部稳定状态。“动物或植物具有很少甚至没有理性的推理能力，但它们的行为却可以用纳什均衡来解释”（Kandori ，1997，244）。这也正如理性预期学派的创始人穆斯在回应对理性预期假设的批评时所讲，“鸟不懂空气动力学，但鸟照样飞得很好”，所以我们研究鸟的飞行可以假设鸟像懂得空气动力学一样。
  稳健性检验并非意味着，我们作为研究者主张，我们所生活的世界一定是稳定的或可预测的；恰恰相反，我们就是要尽量揭示这个世界几乎是无穷的复杂性。显而易见，从作为观察者的研究者的角度看，现实世界里存在非常广泛的非连续性现象，我们也可以通过模型描述它。实际上有很多博弈论的成果表明，在不连续的博弈中也存在纳什均衡。
  那么，我们看重连续性是说，博弈者作为信息和理性程度有限的决策者，只能假设他的主观“内部世界”里对外部世界的复杂描述做简单处理。这是因为，博弈结构中的连续性主要体现为支付函数的连续性，而支付函数从研究者的角度看反映了博弈者的技术与自然规律；而从博弈者策略选择的角度看，它还反映了博弈者的知识，特别是关于他的知识与自然规律的和谐。直觉上，我们应该接受如下假设，即博弈者的策略或行为选择规则（函数）是连续的，因为博弈者对事物的分辨程度是有一定界限的，或者说他做出行动的手会“颤抖”；在某一个范围内，他只能无差异地对待在客观观察者看来不同的事物，并作出同样的决策。
  哈肯就曾强调我们的社会是如何避免类似于混沌的那种高度不可预测性的，如果我们严肃地看待混沌动力学。我们可以象人择原理(anthropic principle)那样回答，即便我们认识到我们所生活的世界是混沌的，我们（作为博弈者）依然只能以简单的行动应付复杂的世界，虽然我们的目标和手段可能同时都在做适应性的调整。因为我们不能构造性（可操作）地完全认识这个混沌世界。我们关于“我们是无知的”这个苏格拉底式的元理论判断似乎只能影响我们的风险（不确定性）态度。另外，它与技术多样性之间有着密切关系，即技术多样性是对世界复杂性的应对。
  学习、进化与均衡

  关于纳什均衡等博弈解概念的知识论基础在于，“首先，博弈者被设想为对他们所参与的互动局势有一个完全模型。其次，他们被假设为，在考虑到其他每个人也正在做出任意高复杂性的最优计划的同时，做出任意高复杂性的最优计划；第三，所有这一切被假设为普遍知识” (Young，1998，651－2)。辅以其它假设，均衡等解概念可以看作是博弈者推演出的结果。Fudenberg & Levine (1998)指出三个问题：当博弈存在多重纳什均衡时，博弈者如何协调他们的信念以选择一个特定均衡是不清楚的；关于博弈本身的普遍知识很难建立；均衡理论在说明大多数实验中最初回合的行为上是糟糕的，即便对后来的回合的说明稍好些；从非均衡到均衡的跃迁在纯粹内省的理论中很难得到调和。
  虽然知识论基础的要求是如此之强以致我们很难认为它是现实的，但是正如Weibull (1998b)所指出，如果我们能够表明博弈者“好象是”具有很好的理性和知识一样行为的，那么这就为研究者采取这样一种描述世界的方式提供了合理性辩护。现在很活跃的进化博弈理论，就是要在更弱也更合理的假设上探讨博弈者的长期行为，以便达到与知识论殊途同归，甚而给出更丰富的结论。也就是说，我们要探讨的是，从长期或大范围来看，博弈者通过学习和进化，他们的行为模式，在统计或极限意义上是什么，以为各种解概念下的理性行为（包括均衡行为）提供合理化论证。特别地，针对纳什均衡特别是其精炼进化稳定策略，有众多结果刻画了在什么条件下，均衡解可以看作是进化和学习的收敛或统计意义上的近似，即Young (1998，662)所谓的“高理性的解概念能够从低理性的环境中涌现，如果我们赋予这个过程足够的时间进化。换句话说，社会反馈机制可以取代在个体方面的知识和推理能力的高水平。”

  一般来说，如Kandori（1997，243-244）所指出，在现代文献中，学习和进化被模糊地加以区分。关于学习的研究通常假设在一个固定匹配博弈中博弈者可以计算出最优反应，并探讨他们如何更新关于对手的策略的信念；而进化论的研究则并不必然假设博弈者具备最优化的能力，主要分析合理行为通过试错(trial and error)以及在博弈群体中的自然选择而进化。这样的区分意味着，进化可以看作仅仅要求最弱意义的理性，通常是仅仅具有根据过去的经验和观察调整成功和失败的行动被选择的机会的能力。
  易言之，博弈者“不相信或理解，他们自身的行为潜在地影响其对手的未来行动，并且他们不考虑对手也类似地调整自身行为的可能性”；“他们作出行为好象世界是固定的，即使他们自身的行为也向他们揭示出并非如此” (Mailath ，1998，1355)。
  一个典型的学习和进化过程本质上包括两方面内容，其一为“选择程序(selection process)”，其二为“突变程序(mutation process)”。选择程序在不同变量之间作出区分，突变程序则产生这些变量。在进化博弈中，我们要探讨的变量就是博弈中的策略。
  进化博弈理论既然是一种特殊的稳健性检验，那么其稳健性的标准是什么？可以从静态和动态两个方面考察。所谓静态，即不考虑动力学过程的细节（只要满足存在性），或者说仅仅根据一个状态所应具备的良好性质。这方面最有影响的是进化稳定策略。
  而对决定论动力系统而言，最基本的稳健性是，有限时间内系统状态对系统初值和参数的连续依赖性；进一步，我们关注的是长期行为而非短期行为，那么有李雅普诺夫稳定性，渐近稳定性；以及在参数扰动下的结构稳定性(structural stability) 。这是拓扑式的整体性观点。
  另一方面，是统计式的整体性观点。对非决定论的马尔可夫过程，概率论中的各种极限定理的应用，如大数定律、中心极限定理和遍历定理，都能揭示出在不同意义上的稳健性（或近似性）。

  我们列举一些重要的结果。
  静态考察中最著名的是进化稳定策略(evolutionary stability strategy)。在同类个体形成的社会中其成员成对地相互博弈。在每次博弈匹配中其成员从一个集合中选择行动，方式是要么从祖先那里继承行动模式要么根据突变安排行动。一个理想的均衡似乎应该能够导致这样一种结果，那就是，使博弈趋向一个固定状态(steady state)，所有个体选择均衡策略行动并且没有变异能够侵入群体并生存下来。进化稳定策略就有这种性质。
  进化稳定策略实际上是非常强的概念，因为在对称博弈中，进化稳定策略一定构成适度均衡(van Damme,1987)。在非对称博弈中，通过允许非对称的突变，或者把这个博弈对称化，依然可以定义进化稳定策略，并且在这样对称化的博弈中，进化稳定策略是严格均衡。由此，我们也就知道，对多数非对称博弈，进化稳定策略不存在。

  在动态考察中，关于理性行为，纳什均衡行为，各种纳什均衡的精炼以及纳什均衡的筛选有不少结果。
  Milgrom & John Robert (1991)表明，如果博弈者根据被适应性更新的预期选择最优反应，那么只有严格劣策略反复删除后的策略才保存下来；Hofbauer & Weibull (1996)表明，如果最初所有纯策略都在博弈者群体中出现了，那么在任何凸单调动力系统中，反复严格劣行动就会消失。从而在这类特定选择动力系统中，博弈者长期行为好象是理性的并且这种理性是共有知识(mutual knowledge)。
  纳什均衡是任何单调动力学过程（复制者动力学过程的扩展）的平稳点，当然并非所有平稳点都是纳什均衡。对任何弱支付正相关动力系统，李雅普诺夫稳定性（Lyapunov stablity）的状态构成一纳什均衡，此时每个个体的行为好象是他们预期到这个状态并根据此预期选择最优行动。
  与知识论博弈论中关于后向归纳的争论有关，实验经济学的很多文献得出对后向归纳不利的结论，而倾向于前向归纳。Noldeke & Samuelson (1993)支持了这种看法。Cressman & Schlag (1998)也表明，仅仅在简单的完美信息扩展型博弈中，后向归纳解可以被证明为合理；但Hart (2000)，在一个包含选择与突变成分的进化动力学中，如果突变率足够小，而群体数量足够地大，那么后向归纳解是进化稳定结果。特别地，策略稳定性解被揭示出与进化过程稳定性有密切关系(DeMichelis & Ritzberger, 2000)。
  进化博弈也用于识别严格纳什均衡，如下图的协作博弈中，存在两个不同的均衡，其一是支付占优均衡（C，C），另一个是风险占优的（M，M）。其对应的动力系统也就有多个渐近稳定的平稳点，不同的初始状态分布会收敛到不同均衡，这也正是路径依赖与锁定效应。动力系统的分岔理论表明，这是由系统的参数（这里是博弈结构）所决定的。Kandori, Mailath and Rob (1993) 表明，如果博弈者有可能突变，即以一定概率选择所有行动，那么只要突变的可能性足够地小，长期分布几乎集中在风险占优的均衡上；而Robson & Vega-Redondo (1996)则指出，如果存在随机匹配和对成功博弈者的模仿，那么支付占优的均衡能够成为长期结果。
  值得指出的是，把均衡看作重复进行的学习博弈的极限行为，要与重复博弈的结果区别开来。譬如重复囚徒困境博弈中由于声誉效应导致的合作解一般不可能出现（Tit-for-Tat并非进化稳定策略），除非我们考虑一个展开型博弈的进化处理。

  现在该是讨论进化博弈不能处理哪些问题的时候了。
  首先，现在的文献过于集中在收敛过程上了，而非线性动力系统向我们揭示出现实世界可能具有出人意料的复杂性。人类社会的博弈历史甚至整个世界也体现出这种复杂性，甚至学习和进化本身就会导致这种复杂性循环和混沌（Ponti, 2000; Schonhofer, 1999）。从研究者对世界做出客观描述的角度，这也是值得进一步探索的领域。
  其次，几乎所有目前研究进化博弈的文献都是假设同一个博弈场景重复出现，或者说今天的博弈结局并不影响明天的博弈环境。这样进化博弈模型似乎也仅在描述那些类似太阳每天东边升起西边落下的周而复始环境中的行为方面有很好的说服力。但“过去是不可追回的，未来是不可预知的”。并且，历史可能恰恰表现出另一种路径依赖性，今天不同的行动决定了明天不同的选择起点；如果我们把所有可能发生的行为都看作是均衡行为与趋向均衡的行为的简单叠加，并且把通过试错脱离一个过去的均衡的行为也看作一种趋向均衡的行为，这样处理有可能是可行的。当然，即使是从研究者角度的理论，也最终需要建立在最弱意义上的不变环境假设上，否则会出现无穷回归。

  与知识论框架同样，现在的进化博弈模型还没有很好地处理知识创新和技术进步。这是因为大部分模型通常是在技术不变的假设下，探讨博弈者如何通过试错和学习来选择合理策略与行为的。在多人互动的局势内，由于创新的本质在于，它至少对某些博弈者来说是“无知”的，从而博弈者之间存在异质性，但进化博弈的对称化处理通过博弈者能够模仿的预设把这个特点给掩盖了。也就是说，在进化博弈的框架内，创新和知识进步成了不证自明的前提。但是，在固定游戏中通过学习搜寻到最优（均衡）策略（博弈结构固定）与创新游戏的玩法（发现新的博弈结构）是不同的两回事。把通过试错脱离一个过去的博弈结构及其均衡的行为简单地看作一种趋向均衡的行为，容易漏掉一些重要的信息。
  人们为什么会去通过试错学习新知识（所谓实验中的最初行为），似乎只能在程序理性的角度上理解。这个问题本质上与“不知晓”、“信息价值”、“逻辑全知”和多样性问题有关。在直觉上，程序(procedural )理性与实体(substantive)理性是不同的。从元理论的角度，复杂的实体理性可以描述另一层次上简单的程序理性，譬如我们考虑计算复杂性等有界理性限制，那么程序理性可以看作是决策最优性与决策成本之间的权衡。只要我们假设未来自然状态至少在“知晓”的意义上是完全可知的，那么把程序理性与实体理性看作等价的就是可取的。Modica & Rustichini（1999）关于“不知晓”问题的结果可以作为一个佐证。但这种处理只有在个体决策的观点上才有意义；而在多人互动局势里，由于涉及到不同博弈者的主观模型之间的同构，经典的均衡分析似乎不能抓住问题的复杂性。


  主观模型与主观博弈

  在关于解概念的知识论基础中，博弈的结算函数（payoff function）（或者，如豪尔绍尼所强调的，关于结算函数的概率分布）通常被假设是普遍知识（即使在单人贝叶斯博弈中关于结算函数的条件也是不可缺少的）。结算函数可以认为是反映了物理规律和博弈者的技术约束的共同作用。博弈者怎么能在博弈前就知道所有决定博弈结果的物理规律呢？我们对将来的支付函数的知识可能只有我们到了将来才部分的知道。如果我们把它看作是博弈者“内部世界”的成分，那么不同博弈者之间是如何实现了这种一致性的呢？如果我们生活在一个周而复始的世界里，那么事情很显然。但我们偏偏生活在一个并非“太阳之下无新事”的世界里。所以迪克尔和古勒正确地指出，为博弈论提供知识论基础有一个重要的隐含前提，即博弈者不仅知道博弈的物理结构，而且象一个系统外的观察者一样“知道”博弈的知识结构，即“普遍知识的定义的标准解释隐含地假设了模型本身被普遍地知道”（Dekel & Gul， 1997， 98），由此博弈者能推导出博弈的均衡解来。
  与此相区别而又相关的是，理性的刻画在扩展型博弈中也遇到了许多难题。我们知道，对完全信息的扩展型博弈，它的解是后向归纳法。但在连锁店博弈和蜈蚣博弈中，后向归纳法得出的解是直觉上让人难以接受的。所以宾莫尔等人对奥曼的结果提出了强烈批评。在扩展型博弈中，对博弈者的理性要求他通常在非均衡路径上也是理性的。用逻辑语言来刻画，这就涉及到反事实条件句(couterfactual)。即，理论预言某种结果要发生（均衡路径），因为如果它不发生，那么就会发生另外某种结果（非均衡路径）。而第二种情况的发生，依赖于第一个预言不能发生从而博弈者是非理性的。如宾莫尔所批评的，如果真正观察到一个与理论不符的预言，还能保持“这个博弈者是理性的”判断吗？
  更重要的是，如Basu（1990）所表明的，对一些表面上看起来非常合理的性质，竟然不存在任何扩展型博弈的解概念能够满足它们。（1）理性的博弈者在任何信息集都选择支付最大化的行动；（2）博弈者起初确信其对手的理性并保持至与任何理性策略都不一致的行动被观察到；（3）如果理性的博弈者观察到其对手选择了非理性的行动，则他不能排除非理性对手的任何可能行动；（4）任何行动过程，如果导致的支付与按照理论的可能支付一样高的话，则也应该是理论允许的行动。
  Brandenburger & Keisler (1999)的结果应该是更本质、更基础性的。通过譬如“博弈者A相信博弈者B相信博弈者A相信博弈者B关于博弈者A所相信的东西是错的”这样的表述，他们发现，与塔式基关于“真观念不能在同层次一语言中被定义”类似，博弈论的可能性信息结构存在“定义性不完备”。
  超越模型（理论）是完全的且是博弈者所共知的假设，我们就进入了一个更具弹性的主观博弈的范式。而且我们能够弥补进化博弈框架对一次性博弈过程可能过于简化的处理。我们简单地假设研究者知道所有博弈者的所有“主观”信息结构和解概念，因为我们要探讨的就是这样一个研究者视角下的“博弈及其解概念”。每个博弈者的主观信息结构是他对博弈局势的一个了解，而他采用的解概念是一个相应的理解。自然，他们关于博弈的“主观模型”与研究者的“客观模型”比较都是不完整的。这个研究方案已经由Feinberg (2001) 、Greenberg (1996)、Nau (1999) 发展起来。
  这样的区分的价值我们可以通过下棋的例子说明。后向归纳曾被策梅罗用来证明一个定理，其推论是，象国际象棋、中国象棋、围棋等游戏本质上存在最优下法。在这种理想的博弈中，任何博弈者都不能利用对手的无知获得好处，但是我们都知道，现实世界里这些游戏的胜负往往取决于谁比对手更少犯错误。换句话说，真实世界里的博弈就是如何利用对手的无知取胜的艺术。这个特征只有在主观博弈的框架内才能得到说明。
  当然，博弈的主观处理的一个不利之处是，我们只能得到非常弱的解概念。这也正是最近关于很多纳什均衡解的一般化概念所揭示的，如猜测均衡(conjectural equilibrium) Battigalli and Danilo Guaitoli (1994)或可理性化的猜测均衡 (rationalizable conjectural equilibrium) （Gilli, 1999）（Rubinstein & Wolinsky, 1994）、自我巩固均衡(self-confirming equilibrium)（Fudenburg & Levine, 1993; Dekel, Fudenberg & Levine,1999）、主观均衡(subjective equilibrium)（Kalai & Lehrer, 1993b，1995），幻想均衡（mirage equilibrium）(Sakovics，2001)。Ewerhart (2002)通过要求博弈者事前证明其行为的合理性以及区分“真的”与“可证的”，表明弱劣策略重复剔除是可行的解概念。

  我们知道，博弈理论的预见性受两个问题的困扰。一是许多博弈中的均衡策略是混合策略；二是，即便如策略稳定性这样的精炼解概念也只能接受集值解，允许多重均衡。
  解概念给出了博弈可能如何进行的一个范围，即它论证了某些关于博弈会如何进行的描述不是合理的；如果辅以其他条件，似乎我们能够进一步缩小这个范围，譬如对混合策略的“纯化”，焦点效应以及塞尔滕与豪尔绍尼提倡的均衡筛选方案。这样的处理在很多情况下使得某个特定博弈成为可预言的(predictable)。
  那么，这样的处理过程会收敛到对博弈如何进行给出唯一的描述吗？答案应该是否定的。因为如果肯定的话，那么我们在引子里提到的梵学家打赌就永远不会输了。
  打赌的实际结果对博弈者而言可能是不知道的——虽然他通常会以为他至少部分地知道。现在我们关心的是，这个过程在观察者看来是不是一个严格决定的过程，即，如果事前均衡的存在性是先验确定的，那么它是否唯一；如果博弈者的非完备理性是过去的历史赋予他的，他对未来的非完全理性的选择是否也一定是如此且必然如此？这个问题可以归结为，观察者是否有一个严格形式化的公理体系来推演出关于存在的所有命题。哥德尔定理启发我们，肯定不能说总是如此。我们会发现博弈者有时处于左也不是，右也不是的两难处境，但现实总要二者择一，是左是右就靠掷色子来决定吧。我认为这种多重可能性中作随机选择时的对称破缺（symmetry-breaking）（或打破平局（tie-breaking））是博弈论本质上应该有的最重要的东西之一，非如此我们不能恰当理解一次博弈中的混合策略（一次意味着只能选择一种纯策略），也不会理解在多个纳什均衡中筛选时的随机选择（如性别战博弈）。所以，“自然无飞跃”这种单纯连续的观念是不恰当的，甚至突变理论的开创者托姆把突变视为严格决定论的也有失偏颇。真正的突变应该是进化过程中对称破缺式的分叉，过去的历史决定的是舞台，最终演出效果还要看演员发挥。
  不同均衡的出现有一个对称破缺机制起作用。每个均衡背后的知识基础都是自我相关的。这个推理过程会导致一个无穷回归，正是这种回归的循环和相互缠绕——博弈的本质特征，说明其中蕴藏着一种对称破缺式的“创造性”。将来某种程度上是现在选择的结果，而现在的选择又基于对未来的预期，这使得现在与将来之间的关系上有一种内禀的随机性。在混合均衡策略中的纯策略之间的选择问题也可以作类似的理解。所以，随机性给多重均衡和混合策略留下了一块地盘，我们只能接受它们。而实际上，我们作为一个社会在与自然博弈时，也正是允许个人自由选择（从客观观察者的角度来看是随机策略）的。
  另外，这种无穷回归显示的是知识如何合乎“元知识”的问题，即某种选择据以作出的知识须有一个元知识确认其合理性，最终是一个双方都认同的普遍知识（比如不能再回溯的传统）。霍华德开创的元博弈就是尝试解决这个问题，甚至包括纳什在内的博弈论学者最终关心的都是它，只不过没有明确讲出来。如哥德尔定理向我们揭示的，真实性不等同于可证性，后者的无限次推演也只能构成一个封闭的知识集，而前者所代表的知识集合是开放的。当然，进化过程中的博弈者可能会通过直觉上的内心确信超越这个无限层次而作出选择，但这已经是存在证明其合理性了。
  但我们似乎应该庆幸我们刚好生活在这样一个世界里。戴森有句话：如果少了一致性，宇宙就毫无伟大之处；如果缺乏多样性，世界也就失去了自由。严格决定论的世界里，我们活着意味着荒诞；而完全随机的世界里我们就没有任何可资凭借的知识，我们活着是运气使然，而从长远的眼光看我们都该死掉的（凯恩斯）。这样一种非严格决定论的得出，可能是以一种“人择原理”作基础的，即我们如此看待世界，是因为我们恰好生在这样一个世界里。


  结语无底的棋盘与永恒的博弈


  莱布尼兹有句名言：“我们生活的世界是所有可能世界中最好的”。这句话在今天听来简直就是博弈论学者说的，虽然我们知道老黑格尔曾以“凡是存在的都是合理的，凡是合理的都是存在的”搪塞过我们。我们还知道坚信理性人假设的社会科学家大多是不买那位辩证大师帐的，而莱氏作为数理逻辑的先驱则肯定会受到主张社会科学形式化者的青睐。莱布尼茨一生孜孜以求一种万能理论用以发现真理，这种理论要达到的水准是：我们有什么分歧吗？那好，让我们在黑板上算一算。当然他没有也不会成功。不幸的是，后世忠实地执行了莱布尼茨夙愿的数理经济学家们，却受到了他们这个行当的异教徒领袖——法学院教授科斯的嘲笑，他认为使他获得诺贝尔经济学奖的原因是他远离这种黑板擦经济学。
  可能世界至少有这样几个层次，即逻辑可能、技术可能与实施可能(enforceable)。逻辑可能是我们分析世界的助探工具，我们只有在其中翱翔才会保持我们对世界的好奇和创新的冲动；而技术可能中的最好，“囚徒困境”给我们的启发是一阶最优不容易做到；二阶最优即实施可能的最好，曾几何时，博弈均衡和机制设计理论给我们提供了极大的信心。但当我们从逻辑一步步进入历史和现实，我们好象又要怀疑我们曾经有过的乐观了。
  我们曾经提到，作为研究者的我们与我们的研究对象之间的博弈。这也可以看作是人类处境的恰当写照。作为博弈者的我们，永远不能摆脱两个基本限制。一是博弈者的知识的局限性，二是包括博弈者在内的环境即博弈对象的复杂性。二者之间存在着从元理论的角度看永远不能超越的界限。因为，我们实际上是把长期多次的、动态的问题转化成一次性（虽然可能是多阶段）、静态问题，把变化着的事物还原为假设不变也就不可再分析的“原子”之间的结构。在这个理论不断回归也不断精致化的过程中，即便能在自己构建的封闭的模型里一览无余，我们依然离外部开放世界无穷复杂的可能性非常遥远。
  从哥德尔定理及其推广——算法信息论，再考虑到随着博弈者的不断进化的技术和知识而表现得无穷无尽的博弈场景，我们可以推测理性必不能完备地解决这个刻划理性的问题，经济学罗列各种模型的发展历史只是反映了这个问题的复杂性。因为这个世界的复杂性使得我们“没有关于有界理性的统一理论，而且可能永远不会有”（Aumann, 1997）。我们的知识可能就象维特根斯坦所讲的，不是教你不胡说，而是教你一种精致的胡说。命中注定，我们是在一个无底的棋盘里进行永恒的博弈，不管是用理论，还是我们的存在本身。但重要的是，我们在博弈。

【注释】
本文根据作者在中国社会科学院经济研究所的博士后研究报告的前言与第三章的最后两节删略、修改而成（部分内容已发表），并省略了参考文献。有兴趣的读者请向作者索要完整的电子版(dingli@pku.edu.cn)。在运用博弈论与机制设计理论从实证或规范角度研究制度问题时，如何理解以纳什均衡为核心的解概念成为关键。这正是本文写作的初衷。欢迎批评。　
　　哥德尔(Kurt Godel)1931年在《论PM及相关系统中的形式不可判定命题》中提出了两个不完备性(incompleteness)定理并证明了第一个而给出了第二个的证明梗概。哥德尔定理（由罗塞尔修正过的）是：在任一公理集是递归集并能展开自然数论的一致的形式系统中，总存在系统不能证明也不能否证的命题，并且系统的一致性不能在系统中证明。这个结果，柯尔莫哥洛夫和察廷在算法信息论中，索洛维在模态逻辑中，甚至在拓扑意义上都有着众多的推广。这个定理被认为是“二十世纪最重要的数学命题”。见Davis(1956)。当然值得指出的是，对于不那么丰富的系统，譬如谓词逻辑演算，哥德尔本人还证明了其完备性，即“在所有可能世界中都为真” 的命题皆可证。
哥德尔定理中的不可判定命题，是在模型中为真但在系统中不可证，揭示出数学真理的非递归(recursive)构造性质和其背后的开放世界。它可以看作是“消极”意义上的，而作为均衡解的不动点则好象有所谓“积极”意义。这个区别似乎预示着，博弈论作为描述理性决策者在互动环境中如何行动的理论在根本意义上只能部分地得到成功。
博弈论总结性的文献，应该包括九十年代的几本教科书性质的专著（Fudenberg & Tirole, 1991; Myerson, 1991; Osborne & Rubinstein,1994），奥曼和哈特主编的百科全书式的《博弈论及其应用手册》（Aumann & Hart, 1992, 1994）。
我们在本文中特指非合作(non-cooperative)博弈。后者关注的是单个的博弈者的可能行动，前者关注的是博弈者团体的可能的联合行动。按照纳什的说法，在非合作博弈中，“我们假定每个博弈者都独立地行动，不同任何其他人进行合作，也不同任何其他人进行信息传递” （Nash,1951,286），实际上后面一条是不必要的。按照豪尔绍尼的看法，只有义务（协议、承诺、威胁）是有约束力并且可强制执行的，才会出现合作博弈。更进一步，如果博弈者之间形成了有约束力的契约，那么它也应该是一个非合作博弈的结果。故而，“结盟模型区别于非合作模型本质上是因为，它把重点放在博弈者团体能实现什么而不是单个博弈者能做什么上，并且它不考虑博弈者团体内部是如何作用的。如果我们希望在一个非合作博弈中模拟结盟形成的可能性，那么我们必须叙述结盟是如何形成的以及他们的成员是如何选择加入的。一个结盟博弈没有这些细节，这样一个博弈的结果也不依赖于它们”（Osborne & Rubinstein, 1994, 255-256）。所以，非合作博弈通常会被认为是更基本的博弈理论，本文以一种彻底的非合作的观点看待博弈，我们基本不会涉及合作博弈。
博弈论的巨大成功，不仅仅反映在1994年纳什(John Nash)、豪尔绍尼(John Harsanyi)、泽尔滕(Reinhard Selton)荣获诺贝尔经济学奖，以及以博弈论为工具研究信息经济学的詹姆斯·莫里斯James Mirrlees和威廉姆·威克瑞William Vickrey，阿克洛夫（G. Akerlof）、斯宾塞（M Spence）和斯蒂格里茨（J. Stiglitz）分别于1996、2001年也被授予诺贝尔经济学奖；更重要的是，博弈论在产业组织理论、契约理论、金融理论等领域有着广泛的应用。
实际上，有人这样嘲笑过，如果一个银行总裁在大街上点燃了他的裤子，博弈论学者也会找出理由来说他是理性的。　
　　试图对我们所涉及的领域（遑论整个博弈论）做一全貌概括几乎是一项不可能完成的任务，至少超出作者的能力。我们对材料的取舍只能根据作者的兴趣和对文献的了解择其要者。
van Damme(2000)、Hillas & Kohlberg (2001)、Samuelson（1997）和Squintani (2000)都是非常全面的综述。　
　　按照怀特海的说法，“模式具有重要性的看法和文明一样古老。每一种艺术都奠基于模式的研究。社会组织的结合力也依赖于行为模式的保持；文明的进步也侥幸地依赖于这些行为模式的变更。因而，把模式灌输进自然发生的事物，这些模式的稳定性，以及这些模式的变更，对于善的实现都是必要条件。数学对于理解模式和分析模式之间的关系，是最强有力的技术”。　
　　当然它要真正作到这点要求它在技术上提供如何把系统外的命题反映到系统内的形式化工具，比如哥德尔配数法。　
　　如果我们把哥德尔定理揭示出的理论的一致性与完备性之间的张力作为一个基本观点，那么我们还应该看到几组可能存在的概念，除了系统内与系统外，还有存在性与构造性，决定论与随机性，稳定性与稳健性，预测稳定性与结构稳定性，离散系统与连续系统等。　
　　让我们先对模型作个说明。数理逻辑里的模型是指一个形式系统的解释，系统中的真命题（公理和定理）在解释中取真值；而通常经济学（与物理学类似）所谓的数学模型是指对某种现象的理论描述。这两种用法之间的关系是很微妙的，我们有必要区分它们在不同场合的意义。　
　　或者命题与元命题，理论与元理论，语言与元语言。　
　　这可能会招致主张经济学是经世致用之学的人物的批评。
这里有一段关于经济学理论的“好像是”观点的精彩论述(Rubinstein, 1998, p10)：关于经济学家通常的“理性人”假设的传统辩护大致是这样的：在经济学中，我们主要感兴趣的是决策者的行为而非导向他的决策的过程。只要决策者的选择行为与一个理性人的是一致的，我们就可以接受好象他的行为是理性的。这对经济学的目的已经很充分了。
哥德尔不完备性定理可以给我们提供足够的观念支持。
罗宾逊夫人有句妙语，一比一的地图是无用的。　
　　数学结构反映了不同事物的本质共性，可以有不同的解释。阿罗指出，“抽象公设方法的巨大优点之一便是同一系统可以给出几种不同解释这一事实”(Arrow, 1951, p87)。
罗素，转引自西蒙，辛格《费马大定理》。
博弈论以及作为其基础的个体理性决策，特别强调了这样一个问题意识，即，我们的研究对象，作为一个理性的和智能的存在物，有一个关于包括其自身在内的世界的反映的“内部世界宇宙”，他的决策是建立在这个内部世界上的。由此带来这样几个问题，每个决策者的内部世界和客观观察者看来的外部世界是否是同构的？不同博弈者之间的内部宇宙是否同构？实际上，现在绝大部分博弈论成果都是隐含地建立在对这两个问题的肯定回答上的。
我们关注的主要是有限博弈，即博弈者集合、每个博弈者的纯策略集合以及博弈进行的时间（阶段）都是有限的。原则上，博弈者处在一个无限时间的博弈过程中，但由于博弈者的处理信息复杂性的限制，通常只能通过把无限过程以一个支付分布来替代的方式转换为有限博弈。
信息经济学（机制设计的应用）中很多问题是由于行为的不可观察性，或者严格来说，不可确证性(non-verifiable)导致的。显然此处的可观察性是不同层次上的。
参见林（1985）中详细介绍及评论。
如果我们把世界看作一个过程，那么原则上我们会接受扩展型博弈对世界的物理刻画，策略型为一平凡情形。当然，按照科尔伯格和默顿斯的观点，只有策略型才是重要的，或者换句话说，所有重要的扩展型博弈的信息都已包含进策略型了。我们后面会再次回到这个话题上来。　
　　在数学上，一个函数的可计算性意味着它是部分递归函数，或者可以通过一个构造性的机械程序（如图灵机）来实现；而一个对象的计算复杂性则可以以能够生成它的最短程序的信息来刻画。　
　　博弈论的经典之一《博弈和决策》的作者卢斯和莱法所指出:“如果我们的非合作理论导致一个策略选择的组合，并且它具有这样的性质，即关于理论的知识不会导致一个人作出一个不同于理论预见到的选择，那么理论剥离出来的策略一定是均衡点”(Luce & Raiffa, 1957, 173)；另外，塞尔滕也指出，“纳什意义上的均衡点的现代博弈理论的解释是建立在这样一个观念上，一个合理的理论不应该是自我破坏的预言，即使得相信它的人有激励偏离之”(Selton, 1985)。
我们用后者作前者的元理论。反映在研究对象上，我们要尽量做到的是，复杂对象的结构特征可以由简单对象的运动生成。　
　　汪丁丁（汪，1995）也强调了连续性假设在社会科学中的重要意义。　
　　如果事后实际结果对事前预期的均衡结果的偏离是如此之大以至成为不可接受的（譬如生与死），那么我们就几乎不能在进化过程中生存下去（除非我们总有运气）。所以我们能够生存下来意味着我们的我们关于外部世界的模型在某种意义上是稳健的。或者说，我们几乎总是能够避开那些“生死一线牵”的临界状态。
当然，如果接受布劳威尔的数学观，实数到实数的函数总是连续的。但我们此处不必把问题弄得过于复杂。　
　　参见Baye et al（1993）、Dasgupta & E. Maskin (1986)和Reny （1999）。Simon & Zame (1990)指出不连续性典型地产生于经济环境中的非决定性。
从应用的角度看，我们希望一个操作系统有很好的连续性。如田国强（Tian, 1987, 6-7）针对机制设计问题所指出：“如果一个机制不连续，行为人策略选择中的小变化会导致引出配置中的大跃迁。这样，即使策略选择非常接近于均衡策略，引出的配置结果也会远离均衡配置。因而对于一个用以重复过程的机制来说，这会导致严重问题，因为我们希望看到输出的信号接近均衡，结果规则中的不连续性，特别是在均衡附近，意味着即使信号几乎是对的也难以趋向实际的结果。如果机制是连续的，人们可以知道如果信号接近均衡，那么配置就会接近均衡配置”。
我们只能假设“自然无飞跃”，“太阳底下无新事”。
虽然混沌理论中的“蝴蝶效应”表明我们不能对天气做长期预测，但这并不妨碍我们能够以很高的精确度做短期预报。重要的是，虽然混沌状态不满足Lyapunov稳定性，但从系统参数的角度看却可能是“结构稳定”的，描述其运行机制的动力学方程可以认为抓住了其本质。　
　　Weibull（1995）、Samuelson （1997）和Fudenburg & Levine （1998）是重要的综述文献。
所以，我们基本不涉及“学习”理论。文中的学习通常指进化过程中的适应性行为，譬如复制和模仿等调整行为。　
　　按照沃尔弗兰姆的看法，所有的离散动力系统的长期行为都可以定性地分为四类，即：（1）不动点：、（2）周期运动：、（3）无限周期运动（混沌）和（4）界于混沌与秩序之间的运动。
进化博弈理论主要关注的是不动点和周期性运动。
Lyapunov稳定性意味着小的初始偏离不会带来大的结局偏离。
渐近稳定性意味着初始状态度小偏离可以被吸收掉。
廖山涛（1988）先生指出：“结构稳定性这一概念之所以广泛为人们接受，是由于在实际应用中所取得数学模型，比起真实现象来，往往经过了简化，因此要使所取模型成为有效，就希望虽有小扰动仍能有某种程度不变得结构”。Anderlini & Canning (2001)表明，结构稳定性等价于对有限理性的稳健性。
现代的进展，特别是符号动力系统理论和算法信息论的成果表明，在不同的理论层次上，一个随机过程可以由一个严格决定过程所模拟。
假设博弈者事前不知道在将要进行的博弈中的角色，这样他的策略就要刻画根据不同角色的相机选择。然后，让自然先行动，赋予每个博弈者一个角色。
许多作者提出其他一些概念，见参考文献。
Aoyagi (1996) Sonsino (1997)处理了博弈者具有一定的模式识别能力的情形。Fudenberg & Kreps (1993) Kalai & Lehrer（1993）Sandroni （1998a, 1998b）等表明，理性的学习也能导向均衡。
初始状态包含了博弈者的试探性行为(experimentation)。
如果百分之八十以上的博弈者最初选择C，收敛到（C，C）；反之，如有百分之二十以上的博弈者最初选择M，收敛到（M，M）。　
　　现代动力系统理论的发展启示我们，很多系统并不满足遍历性，概率论中的大数定律和中心极限定理由于有很强的前提条件不能随便运用。
虽然这个过程可能无比的复杂。　
　　博弈者的技术决定了他们所处的环境的特征（如可利用的资源），以及他们的行为与环境共同作用所能导致的结果，这是通过结算函数来体现的。　
　　同样，并非所有知识进步都可以被看作贝叶斯修正过程，因为贝叶斯修正隐含假设了不存在“不知晓”。
有一个自我相关问题，如何刻画学者关于机制设计的批评与建议是如何影响机制设计实践的？
Osborne & Ariel Rubinstein (1997)给出了程序理性观念下的均衡概念。
Rosenthal (1993)和Blonski (1999)讨论了所谓的“拇指规则”问题，后者特别强调了在什么意义上拇指规则与新古典实体理性的一致性。　
　　大部分机制设计问题可以运用均衡解概念，则是因为机制设计往往只能从统计意义上来考虑问题。另外值得指出的是，人类在制度实践中早已认识到哈耶克所强调的关于“无知”的问题并采取了相应的制度对策，即区分制度的不同层次。
Polak (1999)表明关于支付函数的普遍知识蕴涵着非常强的结论。
Reny(1993)则定义了，理性在每个相关信息集上是普遍信念的精确内涵，并证明，除非在一类非常稀少的博弈集合中，理性不可能在所有相关信息集上是普遍信念。当然，如Aumann & Brandenburger (1995)所表明的，并非要求所有信息都是普遍信念。Polak (1999)表明关于支付函数的普遍知识实际上蕴涵着理性是普遍信念。　
　　不同主观模型的代表即著名的对话：“子非鱼，安知鱼之乐？”“子非我，安知我不知鱼之乐”。　
　　标准的博弈理论假设博弈者有共同的博弈模型，而且与客观观察者的一致（即使对个体亦然），从而不会出现动态不一致(dynamical inconsistency)。哥德尔有句话，“人生的意义在于事与愿违”，但在经典博弈论的框架内，没有事与愿违和惊诧。另外，非完美记忆问题也只有在主观博弈（从而区分观察者和博弈者）的框架内才真正有意义。
这个框架内还可以施加种种（在研究者看来）合理的限制以得到更明确的关于博弈如何进行的描述。
Nau特别强调了“不完全模型”，即模型不是共同的。但他建议的以“无套利”(no arbitrage)作为更基本的前提似乎难以接受，因为我们从“无交易”定理得到的启发是，恰恰只有在非共同模型时才会出现套利。　
　　如同量子力学中的“多重可能世界”观点，理论的预见力必然要降低了。　
　　这是一个渊源可上溯到哈耶克（Hayek, 1945）并经汉恩强调的观念。
Battigalli (1999)表明他们是等价的。
量子力学测不准原理所讲的“上帝也掷骰子”本质地反映了我们所生活的世界的内禀随机性。
Foster and Young (2002)表明了，不管博弈者使用什么样的学习规则，这样一个反馈环都导致对其对手的下一期行为不能完全预见。这个结果在精神上类似于Wolpert (1999)关于未来不可计算的结论。　
　　事前的混合策略均衡，在纯策略选择的对称破缺之后，会导致可能与非均衡策略同样的结果。所以微观或局部合理的行为，可能在宏观上表现出随机性。当然局部随机性的事物也可能宏观上表现出有序性。譬如，在田忌赛马的故事中，均衡混合策略是随机安排出场次序。但可能照样会出现孙膑所策划的情形。
Binmore （1990）和Shin （1993）等人所强调的对知识作“证明”理解似乎受到其他博弈论学者的过分忽视了。
正如爱因斯坦所说，在物理学家眼里，时间实际上是不起作用的。

phymath999

Wednesday, April 1, 2015

No comments:

Post a Comment