概论

前言

这门课开头还是挺精彩的！

简介

【公开课】耶鲁大学：博弈论（中英双语字幕）

课程内容

第一讲导论—五个入门结论

Introduction: five first lessons

本讲说是五个结论，但没有想象中的那么严肃，其中结论 4 更是在开玩笑。

策略形式：行为影响结果，然而结果不仅取决于你的行为，还取决于其他人的行为。

结论 1：不选择严格劣势策略，原因是每次博弈会得到更好的收益。

本案例中人们不会选择劣势策略，反而选择优势策略，使总结果变得糟糕。

经济学 115，导致不充分的结果（Inefficient）即帕雷托效应。

公认的译法是帕累托效应，这里应该叫帕累托无效率，描述资源配置无法达到最优化的状态。

经典模型：囚徒的困境

A 认罪，B 不认罪，A 释放，B 判 5 年，反之亦然。

都不认罪，各判 1 年，都认罪，各判 2 年。

结论 2：理性选择导致次优的结果。

Rational choices can lead to bad outcomes.

协商难以达成目的的原因不是缺少沟通，而是没有强制力。

黑手党在书面协议不受保护的地方不断壮大，作为法律强制力的补充，维系所有合
同，不论是否合法。

结论 3：汝欲得之，必先知之。

You can’t get what you want , till you know what you want.

永远选择优势策略，选择非劣势策略，损失小，如果对手有优势策略则应以此作为选择策略的指导。

结论 4：耶鲁的学生很自私。

Yale students are evil.

结论 5：站在别人的立场去分析他们会怎么做。

Put yourself in other’s shoes and try to figure out what they will do.

选数游戏：从 1 到 100 之间选择一个号码填到下面的方框内，不要让你的同桌看到，我们会计算全班的平均数，谁选的数字最接近平均数的 2/3，谁就是赢家。

第二讲学会换位思考

Putting yourselves into other people’s shoes

开场提到的几个案例，囚徒困境的类似博弈：

合作完成家庭作业，动机每个人都想偷懒

价格竞争，两家企业都想削弱对方

公共问题，公共资源的使用。

如何才能形成博弈？

形成博弈要素：参与人（players），规定表述法 i 、j；
参与人的策略（strategies），规定表述法 𝒔𝒊 、𝒔𝒋
所有可能的策略集合𝑆𝑖 ，区别于参与人的策略 𝑠𝑖，此处用大写 S 来表示，如上节课选数游戏中，𝑆𝑖 = {1,2,3 … … 100}
某一次博弈 s，不带下标的小写 s 表示，称为策略组合（a strategy profile），也称策略向量、策略列表、策略剖面）
收益（payoffs）

选数游戏：具体规则见第一讲

没有写下 common knowledge 和 mutual knowledge 的区别，这是很重要的一点

剔除[ 68，100 ]，因为只有当所有人都选 100 时，100 的 2/3——66 又 2/3，才是个
合理的答案。剔除劣势策略，剩余的选择[ 1，67 ]，在这样的情况下，同理[ 45，67 ]
也被剔除了。

[ 45，67 ] 策略在原博弈中并不是弱劣势的，可是一旦我们排除掉了[ 68，100 ]，它
们就成为了劣势策略，即弱劣势策略。

剔除[ 68，100 ]，是一种直接思考；同时作为一个理性参与人的选择。

剔除[ 45，67 ]，则是站在别人的角度去思考的结果，因为对手不会选择劣势策略。

同时考虑到你的对手也是一个理性的参与人。

不断重复这个过程，最终会得到 1 的结果。

第三讲迭代剔除和中位选民定理

Iterative deletion and the median-voter theorem

选举案例：

假设两个候选人，一系列政治主张中，共有 10 个立场，每个政治立场都有 10%的得票，且平均分布，选民会投票给离他们最近的候选人。

当你自己选择其中一个时，获得全票，对手和你同时选择时，你们两人均分选票，非选择区域靠近那个候选人，该候选人获得全票，若该区域与两个候选人等距，则选票均分。

迭代剔除劣势策略主旨在对立场的换位思考，推测对手的行为策略，同时想想对手会站在你的立场，反复此过程，最终结果往往会导致唯一的选择。

预测结果是候选人会挤在 10 个立场中的中立地带，在政治学中这被称为中间选民定理。（Median Voter Theorem）也叫中间人投票定理，也可以通过偏好推导出来。

模型存在的问题：现实中选民并非均匀分布；选民常根据候选人的性格而非政治立场来进行投票，政治立场仅仅是单一维度；只适用于两个候选人的情况；同时存在弃权票；选民未必相信候选人所声明的立场。

多维度在政治课程中有完善的模型，本课程不讨论。

建立模型的目的：为了更好地描述事实激发灵感，模型由重要的事实抽象而来，逐步增加约束条件完善模型观察结果，比较分析结果的变化。

最佳对策 Best Response

一般译作最优反应，相应动态博弈中先行者的策略是反应对应

第四讲足球比赛与商业合作之最优反应

Best responses in soccer and business partnerships

点球博弈

冯·诺依曼—摩根斯坦(Von Neumann and Morgenstern)效用函数见《策略与博弈》 P21

合伙人博弈

此处介绍的边际收益与边际成本，鉴于本课程第六讲：古诺的双寡头模型中会涉及该知识，我个人将在第六讲的笔记中补充一部分经济学的知识。

存在外部性（externality）

上图中的交点即是著名的纳什均衡点，在此处参与人们都采用了自己的最优反应。

第五讲纳什均衡之坏风气与银行挤兑

Nash equilibrium: bad fashion and bank runs

应该是最优反应，定义不能有问题啊，简单地说纳什均衡是一组策略，其中每个 player 所选的策略都是对其他 player 所选策略的最优反应。

学习纳什均衡的动机：不为当时做出的决定后悔，因为已经采取了最优反应。

应该是各个 player 选择纳什均衡的动机；同样重要的一点是纳什均衡是自我实现的（self-fulfilling/self-enforcing）

任何参与人都严格不会改变策略，改变策略严格不会使参与人获得增益。

其他参与人不改变行为的前提下，自己改变行为并没有任何好处。

博弈会朝着趋向于一个均衡的方向自然发展，结果（self-enforcing）不断趋向一个纳什均衡。

寻找纳什均衡的一个有效方法是猜想与验证（guess and check）

较劣的不投资均衡相当于较优的纳什均衡处于帕累托劣势

协调之所以能达成在于他不同于囚徒困境，它没有去说服人们采取一个严格劣势策略。

协调博弈 coordination game 协调谬误

第六讲纳什均衡之约会游戏与古诺模型

Nash equilibrium: dating and Cournot

不同之处，上一讲的博弈只是协调博弈，无利益冲突

性别大战（ Battle Of The Sexes）

古诺的双寡头模型（Cournot Duopoly）

古诺在纳什出生前 100 多年即解出该博弈的答案

古诺博弈不同于第五讲中的合伙人曲线，合伙人曲线是向上倾斜的

这不是一个策略互补博弈，而是一个策略替代博弈

第七讲：纳什均衡之伯川德模型与选民投票

Nash equilibrium: shopping, standing and voting on a line

伯川德竞争（Bertrand competition）

古诺模型是产量上的竞争，而伯川德模型是在价格上的竞争

线性城市模型（Linear city model）

一个路贯穿城市，两个公司分别坐落在 0、1 点，消费者 y 到公司 1 的距离为 y，到公司 2 的距离为 1-y，假设每个消费者买且只买一个产品。消费者会选择对他而言总成本最小的

候选人选民模型（Candidate-Voter model）

假设选民在线上平均分布，选票的获得与第三讲中一致，与该模型的区别：①候选人的数目不固定； ②候选人不能选择他们的立场；

第八讲：纳什均衡之立场选择、种族隔离与策略随机化

Nash equilibrium: location, segregation and randomization

继续上一讲的候选人模型

结论 1：此模型可能存在多个纳什均衡

并非所有均衡中的候选人都保持中间立场

结论 2：如果左派有一个新的候选人加入，可能会导致右派获胜的概率增大，反之亦然。

结论 3：如果候选人太极端就会有新的中间候选人参选。

选址模型（Location model）

假设两个小镇，东镇和西镇；世界仅有两种人，高个和矮个；每种人都有 10 万，每个城镇都只能容纳 10 万人；

参与人：高个、矮个

策略：选择东镇还是西镇

如果城镇只有参与人是矮个，其他人都是高个，那么参与人的收益为 0，反之亦然；

如果是高个和矮个混居，数量都是城镇人口的一半则收益达到最大；如果城镇全是矮个或高个则收益是最大值的一半。

人们可以自由选择想要居住的城镇，如果选择一个城镇的数量超过了容积，则会从所有选择该城镇的参与人中随机抽取，分配到另一个城镇。

例如有 15 万人选择东镇，那么每个人只有 2/3 的概率可以住在这里，另外随机抽取5 万人，会被分配到西镇去。

①两个纳什均衡是种族隔离；一个纳什均衡是每个城镇中不同人种均匀分布；两者皆为严格均
衡，后者稳定性差，“弱均衡”

这三种情况下参与人都无法通过改变策略来取得更高的收益

②临界点（Tipping Point）

③另一个不太现实的均衡，所有人都选择同一个城镇而被随机分配

结论：

看上去毫无意义的博弈规则，有时是很重要的条件。
社会随机分配，其结果要比所谓的自主选择要好。

结论：

①模型中种族隔离的结果，不能作为人们喜欢种族隔离的论据。

②随机分配（randomization）；校车现象（bussing）

③可以通过自下而上的方式实现随机分配。

每个人都通过抛硬币的方式来决定去那个镇子，选址模型的另一个纳什均衡。

抛硬币的不确定性，引入混合策略（Mixed strategies），在这之前接触的都是可选的
纯策略。

猜拳博弈

在纯策略（pure）中没有纳什均衡

纳什均衡按 1/3 概率选择混合策略

在猜拳游戏中 1/3 的混合策略是应对 1/3 混合策略是最优反应，且是唯一一个纳什均衡

第九讲：混合策略定义及其在网球比赛中的应用

Mixed strategies in theory and tennis

混合策略的收益：

混合策略 𝑃𝑖 的预期收益，每个纯策略预期收益的加权平均数

《策略与博弈》中考虑混合策略的意义

理由 1：混合策略可能优于一些纯策略（这些纯策略本身并不劣于其他纯策略）。P101

理由 2：混合策略的最差情况可能好于所有纯策略的最差情况。P103

理由 3：如果我们只限于纯策略，那么，我们也许不能找到博弈的纳什均衡。P104

第十讲混合战略棒球，约会和支付您的税

Mixed strategies in baseball, dating and paying your taxes

举例：提高逃税的收益，将导致审计概率的提高，因此商学院高收入的教授反而拥有更高的纳税意愿，因为较高的审计概率的存在。

联邦审查率的设计更多的去审查富人，这并不是说明穷人比富人更诚实。

鉴于国会意愿属于富人阶层，让国会议员获得制定审查率的权利是不明智的，他们可能会报有其他政治目的而非提高税务系统的整体效率。

本讲有两个重点要补充：

1.关于混合策略的三种解释：（1）某个 player 随机化 ta 的策略（2）某个 player 对另一个人采取某种策略的概率估计（3）群体中特定参与人的比例

2.求混合策略的方法：（1）设某个 player 采取某个策略的概率，通过令另一个 player 的收益无差异来求这个概率（2）在给定另一个 player 的混合策略下，对某个 player 的收益函数求一阶条件可以求得另一个 player 的混合策略（3）无论用上述何种方法，最好算出来了检验一下是否有偏离该混合策略的激励，计算上只需要检验纯策略

第十一讲进化稳定：合作，突变，与平衡

Evolutionary stability: cooperation, mutation, and equilibrium

进化论（Evolution）

① 博弈论对生物学的重大影响，尤其在动物行为学中把基因看成策略，把遗传适应性当做收益，好的策略使种群不断壮大，即有适合基因的个体会繁衍，带有不适合基因的个体会灭绝。

将动物的行为（策略）看做是天生，而不是自由选择。

② 生物学尤其是进化生物学，对社会科学产生了重大影响。

一个经济学案例：假设市场中存在这样的公司，这些公司并不关心什么策略能最大化利润，什么策略能尽可能降低成本，它们可能毫无科学根据地选择策略，在竞争激励的市场环境下，只有那些成本较低但利润颇丰适应环境的公司才能得以生存下来。

简化模型，专注于种内竞争，通过双人对称博弈来进行研究，很大的种群采取的策略与生俱来，对其进行随机配对。即采取相对成功策略的个体数量会增长，相反则会减少。不存在基因的重新分配。

结论： ① 自然选择的进化结果是很糟的 ② 如果一个策略是严格劣势策略，那么它就不是进化稳定策略

第十二讲进化稳定：社会公约、侵略和周期

Evolutionary stability: social convention, aggression, and cycles

社会传统的进化（evolution of social convention ）

靠左行车还是靠右行车

类似性别大战（ Battle Of The Sexes）的收益矩阵

a 使用攻击性策略，不会躲避，b 仁慈性策略，在相撞前会规避

一个著名的例子就是 Chicken Game 叫做斗鸡博弈或胆小鬼博弈

《策略与博弈》 P33 鹰—鸽博弈（强硬—懦弱）

自然界中混合均衡的两个解释

① 基因本身是随机的 ② 稳定混合也意味着在进化稳定策略中，以这种比例稳定存在

第十三讲序贯博弈：道德风险，激励和饥饿的狮子

Sequential games: moral hazard, incentives, and hungry lions

序贯博弈（Sequential games）

参与人 2 在作出决定之前知道参与人 1 的决策，且参与人 1 知道这种情况。

希望得到一个更好的结果，某种动机却阻止我们达成更好的结局，称之为道德风险（moral hazard）。

典型的道德风险

选择限制项目的规模，或者说贷款额度，通过降低规模来降低被骗的风险。

激励设计（incentive design）动机不是上天赋予人们的，它是由合同双方设计出来的。 “有时大蛋糕的一小块，可能比小蛋糕的一大块要大。”

担保（collateral）

担保的作用在于，它降低了你不偿还贷款的收益。但却使你过的更好了，因为它改变了其他人的行为，这对你却是有益的。

承诺（commitment）

减少可选策略而改变其他人的行为，改变不了其他人的行为则毫无意义。

《奇爱博士》 Dr. Strangelove 斯坦利·库布里克 Stanley Kubrick

“必须要让对手知道。”

第十四讲逆向归纳：承诺、间谍和先行者优势

Backward induction: commitment, spies, and first-mover advantages

策略代换（Strategic Substitutes）

消费剩余（CS，consumer surplus）

① 需要一个有可信度的承诺

沉没成本（sunk cost）

② 对手知道你已经或者将要掌握更多信息，有时更多的信息反而会害了你。如果是真的信息，那就意味着它能领先于其他竞争对手先行动

③ 斯塔克伯格模型是个典型的先行者得利的范例，先行者一定会占优，更为重要的是有时候先发有优势，有时是劣势，有时候两者皆非

第十五讲逆向归纳：国际象棋，战略和可信的威胁

Backward induction: chess, strategies, and credible threats

策梅洛定理（Zermelo theorem）

两个参与人，完全信息博弈，博弈有限节数

完全信息博弈（games of perfect information）在任意一个节点上或者说每个节点上被轮中的参与者，都知道自己处在真个博弈的哪个节点的博弈。这也暗示着，参与者知道如何到达该节点。

第十六讲逆向归纳：声誉和决斗

Backward induction: reputation and duels

继续第十五讲最后的例子

加入一些条件，一个公司，处于垄断地位，垄断了十个不同的市场，假如它们有顺序性，垄断者会对第一个尝试进入者发起攻击，从而威慑后面观望者，对于最后一个市场垄断者不会发起进攻，因为没有建立威慑的动机了。

因为不可能去阻止第十个尝试进入者，所以第九个尝试进入者就成了最后一个，逆向归纳所有人都该进入市场。

即使有 𝜀（1%）的概率垄断者是疯狂的，他就可以用疯狂的名义吓退进入者。

即使在十个市场都处于垄断地位，人们也会进入并与之竞争，连锁店博弈（the Chain Store Paradox）。

预先抢投是一个关键点

优势定论 Dominance Argument

有时等待是个好策略。Sometimes waiting is a good strategy.

不要过度自信，也不要迷信先下手为强。

第十七讲逆向归纳：最后通牒和讨价还价

Backward induction: ultimatums and bargaining

即使在非常简单的游戏中，使用逆向归纳的时候也必须小心。

在现实世界当中，人们除了明显的收益还会关心其他东西。

两期议价博弈（two period bargaining）

第十八讲不完全信息：信息集和子博弈完美

Imperfect information: information sets and sub-game perfection

完全信息博弈（perfect information）

这里 Ben 跟很多书一样只讨论完全且完美信息的博弈，也就是说每个 player 对博弈的历史阶段都有完美记忆（perfect recall）

树上所有的信息集合都只包含一个节点的博弈。

不完全信息博弈（imperfect information）

子博弈（sub-game）：

子博弈是博弈的一部分，它满足以下三个条件。

① 子博弈必须从单个节点开始

② 它包含该节点的所有后代节点

③ 它不能破坏任何信息集合

子博弈完美均衡（SPE，sub-game perfect equilibrium）。

子博弈精炼纳什均衡的一个重要特点是它可以排除不可信的威胁

第十九讲子博弈精炼均衡：招商引资和战略投资

Subgame perfect equilibrium: matchmaking and strategic investments

源自策略的定义，它告诉每个参与人在不同信息集合下应该如何行动，即是有些博弈中信息集合无法获得，策略仍然为参与人在当前状况下提供指示。

介绍人博弈（Matchmaker game）

第二十讲子博弈精炼均衡：消耗战

Subgame perfect equilibrium: wars of attrition

决斗博弈：两个参与人，每个阶段每个参与人可以选择攻击（Fight）或者退出（Quit），同时给出选择，直到一方退出后立即结束。

消耗战（war of attrition）

行贿竞赛（bribery contests）

全薪拍卖（all pay auction）

第二十一讲重复博弈：合作与最后一局游戏

Repeated games: cooperation vs. the end game

重复互动（Repeated Interaction）：在一个正在进行的关系中，对于将来奖励的承诺和未来惩罚的威胁，可能会为现在的好行为提供激励。

要有一个明确的未来。重复互动博弈的重点在于明确的未来会为现在的行动提供激励。

连任失败效应（lame duck effect）

结论：如果一个重复的阶段博弈，有不止一个纳什均衡，可以通过预测不同策略造成的结果来未下一次行动提供激励，激励可视为奖励或者惩罚。

存在的问题，在第二阶段仍然有动机促使达成收益更高的均衡。

破产（Bankruptcy）

担保（Bail Out）

事前和事后的权衡效率讨论（discussion of trading off ex-ante efficiency and ex-post efficiency）

恐怖和扳机策略（Grim Trigger Strategy）

比较官方的叫法是触发战略，也有译法叫做冷酷战略的

与前面课程博弈的显著不同——无法确定博弈何时结束，没有明确的最后阶段，那么参与人便无法确定在什么时候背叛来赢得最后阶段的更高收益。

第二十二讲重复博弈：作弊，惩罚和外包

Repeated games: cheating, punishment, and outsourcing

权衡良好行为带来的前景，和不良行为招致的损失，从而抑制我们作弊的念头。

现在作弊的利益 ≤ 今后合作的利益（承诺 promise） − 今后欺骗的代价（threat）

需要承诺和威胁都真实可信。

今天的威胁不可信，因为明天仍然会遵循纳什均衡，那么今天的合作就没了基础。

保持威胁真实可信的方法是关注 SPE——特点每一个子博弈中都有纳什均衡，利用这个特点来寻找合作机会。

这个问题具有重复性，称为 𝛿，每个时期，𝛿的可能性在延续，如果可能性是1 − 𝛿那么可能博弈每个时期都会结束。

更为一般化的结论，如果一段持续关系能为今日的好行为提供激励，那它有助于让这段关系有个持续下去的高概率。

单期惩罚（one-period punishment）

单期惩罚是一个 SPE

如果希望进行一个较为温和的惩罚，需要使 𝛿 更大

更为温和的惩罚是可行的，需要在未来加更大的砝码

重复道德风险（Repeated Moral Hazard）

第二十三讲非对称信息：沉默，信号和教育之苦

Asymmetric information: silence, signaling and suffering education

信息披露的过程（Informational Unraveling）

重要结论：缺乏信息传达途径，或者说企业不像公布一些信息，这些现象本身也在传达着信息。

此案例为分离均衡（separating equilibrium）

貌似 Ben 没有时间讲混同均衡

结论：

一个好的信号不一定与很高的成本有关，但是要能通过成本区别不同的类型。
此处模型的缺陷：

（1）模型中没有学习的概念

（2）教育失去了社会用途，仅仅成为了区别优秀与差劲的工具

（3）教育加剧了不平等

第二十四讲非对称信息：拍卖和获奖者的诅咒

Asymmetric information: auctions and the winner’s curse

拍卖（Auction）

公共价值（common values）

私人价值（private values）

一般来说最后获胜的出价会比真实价值高很多

首次公开募股（Initial Public Offerings，简称 IPO）

油井的例子

拍卖形式

A 首价密封拍卖机制 First-price Sealed-bid auction A=D

B 第二价格密封拍卖 Second-price Sealed-bid auction 赢家支付第二高的出价

维克瑞拍卖（Vickrey auction）

C 公开增价拍卖（Ascending open auction）

D 公开降价拍卖（Descending open auction）逐步降价直到有人提出购买

荷兰式拍卖（Dutch auction）

概论#

前言#

简介#

课程内容#

第一讲 导论—五个入门结论#

第二讲 学会换位思考#

第三讲 迭代剔除和中位选民定理#

第四讲 足球比赛与商业合作之最优反应#

第五讲 纳什均衡之坏风气与银行挤兑#

第六讲 纳什均衡之约会游戏与古诺模型#

第七讲：纳什均衡之伯川德模型与选民投票#

第八讲：纳什均衡之立场选择、种族隔离与策略随机化#

第九讲：混合策略定义及其在网球比赛中的应用#

第十讲 混合战略棒球，约会和支付您的税#

第十一讲 进化稳定：合作，突变，与平衡#

第十二讲 进化稳定：社会公约、侵略和周期#

第十三讲 序贯博弈：道德风险，激励和饥饿的狮子#

第十四讲 逆向归纳：承诺、间谍和先行者优势#

第十五讲 逆向归纳：国际象棋，战略和可信的威胁#

第十六讲 逆向归纳：声誉和决斗#

第十七讲 逆向归纳：最后通牒和讨价还价#

第十八讲 不完全信息：信息集和子博弈完美#

第十九讲 子博弈精炼均衡：招商引资和战略投资#

第二十讲 子博弈精炼均衡：消耗战#

第二十一讲 重复博弈：合作与最后一局游戏#

第二十二讲 重复博弈：作弊，惩罚和外包#

第二十三讲 非对称信息：沉默，信号和教育之苦#

第二十四讲 非对称信息：拍卖和获奖者的诅咒#

概论

前言

简介