概论
前言
这门课开头还是挺精彩的!
简介
【公开课】耶鲁大学:博弈论(中英双语字幕)
课程内容
第一讲 导论—五个入门结论
Introduction: five first lessons
本讲说是五个结论,但没有想象中的那么严肃,其中结论 4 更是在开玩笑。
策略形式:行为影响结果,然而结果不仅取决于你的行为,还取决于其他人的行为。
结论 1:不选择严格劣势策略,原因是每次博弈会得到更好的收益。
本案例中人们不会选择劣势策略,反而选择优势策略,使总结果变得糟糕。
经济学 115,导致不充分的结果(Inefficient)即帕雷托效应。
公认的译法是帕累托效应,这里应该叫帕累托无效率,描述资源配置无法达到最优化的状态。
经典模型:囚徒的困境
A 认罪,B 不认罪,A 释放,B 判 5 年,反之亦然。
都不认罪,各判 1 年,都认罪,各判 2 年。
结论 2:理性选择导致次优的结果。
Rational choices can lead to bad outcomes.
协商难以达成目的的原因不是缺少沟通,而是没有强制力。
黑手党在书面协议不受保护的地方不断壮大,作为法律强制力的补充,维系所有合
同,不论是否合法。
结论 3:汝欲得之,必先知之。
You can’t get what you want , till you know what you want.
永远选择优势策略,选择非劣势策略,损失小,如果对手有优势策略则应以此作为选择策略的指导。
结论 4:耶鲁的学生很自私。
Yale students are evil.
结论 5:站在别人的立场去分析他们会怎么做。
Put yourself in other’s shoes and try to figure out what they will do.
选数游戏:从 1 到 100 之间选择一个号码填到下面的方框内,不要让你的同桌看到, 我们会计算全班的平均数,谁选的数字最接近平均数的 2/3,谁就是赢家。
第二讲 学会换位思考
Putting yourselves into other people’s shoes
开场提到的几个案例,囚徒困境的类似博弈:
合作完成家庭作业,动机每个人都想偷懒
价格竞争,两家企业都想削弱对方
公共问题,公共资源的使用。
如何才能形成博弈?
- 形成博弈要素:参与人(players),规定表述法 i 、j;
- 参与人的策略(strategies),规定表述法 𝒔𝒊 、𝒔𝒋
- 所有可能的策略集合𝑆𝑖 ,区别于参与人的策略 𝑠𝑖,此处用大写 S 来表示,如上节课选数游戏中,𝑆𝑖 = {1,2,3 … … 100}
- 某一次博弈 s,不带下标的小写 s 表示,称为策略组合(a strategy profile),也称策略向量、策略列表、策略剖面)
- 收益(payoffs)
选数游戏:具体规则见第一讲
没有写下 common knowledge 和 mutual knowledge 的区别,这是很重要的一点
剔除[ 68,100 ],因为只有当所有人都选 100 时,100 的 2/3——66 又 2/3,才是个
合理的答案。剔除劣势策略,剩余的选择[ 1,67 ],在这样的情况下,同理[ 45,67 ]
也被剔除了。
[ 45,67 ] 策略在原博弈中并不是弱劣势的,可是一旦我们排除掉了[ 68,100 ],它
们就成为了劣势策略,即弱劣势策略。
剔除[ 68,100 ],是一种直接思考;同时作为一个理性参与人的选择。
剔除[ 45,67 ],则是站在别人的角度去思考的结果,因为对手不会选择劣势策略。
同时考虑到你的对手也是一个理性的参与人。
不断重复这个过程,最终会得到 1 的结果。
第三讲 迭代剔除和中位选民定理
Iterative deletion and the median-voter theorem
选举案例:
假设两个候选人,一系列政治主张中,共有 10 个立场,每个政治立场都有 10%的得票,且平均分布,选民会投票给离他们最近的候选人。
当你自己选择其中一个时,获得全票,对手和你同时选择时,你们两人均分选票,非选择区域靠近那个候选人,该候选人获得全票,若该区域与两个候选人等距,则选票均分。
迭代剔除劣势策略 主旨在对立场的换位思考,推测对手的行为策略,同时想想对手会站在你的立场,反复此过程,最终结果往往会导致唯一的选择。
预测结果是候选人会挤在 10 个立场中的中立地带,在政治学中这被称为中间选民定理。(Median Voter Theorem)也叫中间人投票定理,也可以通过偏好推导出来。
模型存在的问题:现实中选民并非均匀分布;选民常根据候选人的性格而非政治立场来进行投票,政治立场仅仅是单一维度;只适用于两个候选人的情况;同时存在弃权票;选民未必相信候选人所声明的立场。
多维度在政治课程中有完善的模型,本课程不讨论。
建立模型的目的:为了更好地描述事实激发灵感,模型由重要的事实抽象而来,逐步增加约束条件完善模型观察结果,比较分析结果的变化。
最佳对策 Best Response
一般译作最优反应,相应动态博弈中先行者的策略是反应对应
第四讲 足球比赛与商业合作之最优反应
Best responses in soccer and business partnerships
点球博弈
冯·诺依曼—摩根斯坦(Von Neumann and Morgenstern)效用函数见《策略与博弈》 P21
合伙人博弈
此处介绍的边际收益与边际成本,鉴于本课程第六讲:古诺的双寡头模型中会涉及该知识,我个人将在第六讲的笔记中补充一部分经济学的知识。
存在外部性(externality)
上图中的交点即是著名的纳什均衡点,在此处参与人们都采用了自己的最优反应。
第五讲 纳什均衡之坏风气与银行挤兑
Nash equilibrium: bad fashion and bank runs
应该是最优反应,定义不能有问题啊,简单地说纳什均衡是一组策略,其中每个 player 所选的策略都是对其他 player 所选策略的最优反应。
学习纳什均衡的动机:不为当时做出的决定后悔,因为已经采取了最优反应。
应该是各个 player 选择纳什均衡的动机;同样重要的一点是纳什均衡是自我实现的(self-fulfilling/self-enforcing)
任何参与人都严格不会改变策略,改变策略严格不会使参与人获得增益。
其他参与人不改变行为的前提下,自己改变行为并没有任何好处。
博弈会朝着趋向于一个均衡的方向自然发展,结果(self-enforcing)不断趋向一个纳什均衡。
寻找纳什均衡的一个有效方法是猜想与验证(guess and check)
较劣的不投资均衡相当于较优的纳什均衡处于帕累托劣势
协调之所以能达成在于他不同于囚徒困境,它没有去说服人们采取一个严格劣势策略。
协调博弈 coordination game 协调谬误
第六讲 纳什均衡之约会游戏与古诺模型
Nash equilibrium: dating and Cournot
不同之处,上一讲的博弈只是协调博弈,无利益冲突
性别大战( Battle Of The Sexes)
古诺的双寡头模型(Cournot Duopoly)
古诺在纳什出生前 100 多年即解出该博弈的答案
古诺博弈不同于第五讲中的合伙人曲线,合伙人曲线是向上倾斜的
这不是一个策略互补博弈,而是一个策略替代博弈
第七讲:纳什均衡之伯川德模型与选民投票
Nash equilibrium: shopping, standing and voting on a line
伯川德竞争 (Bertrand competition)
古诺模型是产量上的竞争,而伯川德模型是在价格上的竞争
线性城市模型(Linear city model)
一个路贯穿城市,两个公司分别坐落在 0、1 点,消费者 y 到公司 1 的距离为 y,到公司 2 的距离为 1-y,假设每个消费者买且只买一个产品。消费者会选择对他而言总成本最小的
候选人选民模型(Candidate-Voter model)
假设选民在线上平均分布,选票的获得与第三讲中一致,与该模型的区别:①候选人的数目不固定; ②候选人不能选择他们的立场;
第八讲:纳什均衡之立场选择、种族隔离与策略随机化
Nash equilibrium: location, segregation and randomization
继续上一讲的候选人模型
结论 1:此模型可能存在多个纳什均衡
并非所有均衡中的候选人都保持中间立场
结论 2:如果左派有一个新的候选人加入,可能会导致右派获胜的概率增大,反之亦然。
结论 3:如果候选人太极端就会有新的中间候选人参选。
选址模型(Location model)
假设两个小镇,东镇和西镇;世界仅有两种人,高个和矮个;每种人都有 10 万,每个城镇都只能容纳 10 万人;
参与人:高个、矮个
策略:选择东镇还是西镇
如果城镇只有参与人是矮个,其他人都是高个,那么参与人的收益为 0,反之亦然;
如果是高个和矮个混居,数量都是城镇人口的一半则收益达到最大;如果城镇全是矮个或高个则收益是最大值的一半。
人们可以自由选择想要居住的城镇,如果选择一个城镇的数量超过了容积,则会从所有选择该城镇的参与人中随机抽取,分配到另一个城镇。
例如有 15 万人选择东镇,那么每个人只有 2/3 的概率可以住在这里,另外随机抽取5 万人,会被分配到西镇去。

①两个纳什均衡是种族隔离;一个纳什均衡是每个城镇中不同人种均匀分布;两者皆为严格均
衡,后者稳定性差,“弱均衡”
这三种情况下参与人都无法通过改变策略来取得更高的收益
②临界点(Tipping Point)
③另一个不太现实的均衡,所有人都选择同一个城镇而被随机分配
结论:
- 看上去毫无意义的博弈规则,有时是很重要的条件。
- 社会随机分配,其结果要比所谓的自主选择要好。
结论:
①模型中种族隔离的结果,不能作为人们喜欢种族隔离的论据。
②随机分配(randomization);校车现象(bussing)
③可以通过自下而上的方式实现随机分配。
每个人都通过抛硬币的方式来决定去那个镇子,选址模型的另一个纳什均衡。
抛硬币的不确定性,引入混合策略(Mixed strategies),在这之前接触的都是可选的
纯策略。
猜拳博弈
在纯策略(pure)中没有纳什均衡
纳什均衡按 1/3 概率选择混合策略
在猜拳游戏中 1/3 的混合策略是应对 1/3 混合策略是最优反应,且是唯一一个纳什均衡
第九讲:混合策略定义及其在网球比赛中的应用
Mixed strategies in theory and tennis
混合策略的收益:
混合策略 𝑃𝑖 的预期收益,每个纯策略预期收益的加权平均数


《策略与博弈》中考虑混合策略的意义
理由 1:混合策略可能优于一些纯策略(这些纯策略本身并不劣于其他纯策略)。P101
理由 2:混合策略的最差情况可能好于所有纯策略的最差情况。P103
理由 3:如果我们只限于纯策略,那么,我们也许不能找到博弈的纳什均衡。P104
第十讲 混合战略棒球,约会和支付您的税
Mixed strategies in baseball, dating and paying your taxes
举例:提高逃税的收益,将导致审计概率的提高,因此商学院高收入的教授反而拥有更高的纳税意愿,因为较高的审计概率的存在。
联邦审查率的设计更多的去审查富人,这并不是说明穷人比富人更诚实。
鉴于国会意愿属于富人阶层,让国会议员获得制定审查率的权利是不明智的,他们可能会报有其他政治目的而非提高税务系统的整体效率。
本讲有两个重点要补充:
1.关于混合策略的三种解释: (1)某个 player 随机化 ta 的策略 (2)某个 player 对另一个人采取某种策略的概率估计 (3)群体中特定参与人的比例
2.求混合策略的方法: (1)设某个 player 采取某个策略的概率,通过令另一个 player 的收益无差异来求这个概率 (2)在给定另一个 player 的混合策略下,对某个 player 的收益函数求一阶条 件可以求得另一个 player 的混合策略 (3)无论用上述何种方法,最好算出来了检验一下是否有偏离该混合策略的激励,计算上只需要检验纯策略
第十一讲 进化稳定:合作,突变,与平衡
Evolutionary stability: cooperation, mutation, and equilibrium
进化论 (Evolution)
① 博弈论对生物学的重大影响,尤其在动物行为学中把基因看成策略,把遗传适应性当做收益,好的策略使种群不断壮大,即有适合基因的个体会繁衍,带有不适合基因的个体会灭绝。
将动物的行为(策略)看做是天生,而不是自由选择。
② 生物学尤其是进化生物学,对社会科学产生了重大影响。
一个经济学案例: 假设市场中存在这样的公司,这些公司并不关心什么策略能最大化利润,什么策略能尽可能降低成本,它们可能毫无科学根据地选择策略,在竞争激励的市场环境下, 只有那些成本较低但利润颇丰适应环境的公司才能得以生存下来。
简化模型,专注于种内竞争,通过双人对称博弈来进行研究,很大的种群采取的策略与生俱来,对其进行随机配对。即采取相对成功策略的个体数量会增长,相反则会减少。不存在基因的重新分配。
结论: ① 自然选择的进化结果是很糟的 ② 如果一个策略是严格劣势策略,那么它就不是进化稳定策略
第十二讲 进化稳定:社会公约、侵略和周期
Evolutionary stability: social convention, aggression, and cycles
社会传统的进化 (evolution of social convention )
靠左行车还是靠右行车
类似性别大战( Battle Of The Sexes)的收益矩阵
a 使用攻击性策略,不会躲避,b 仁慈性策略,在相撞前会规避
一个著名的例子就是 Chicken Game 叫做斗鸡博弈或胆小鬼博弈
《策略与博弈》 P33 鹰—鸽 博弈 (强硬—懦弱)
自然界中混合均衡的两个解释
① 基因本身是随机的 ② 稳定混合也意味着在进化稳定策略中,以这种比例稳定存在
第十三讲 序贯博弈:道德风险,激励和饥饿的狮子
Sequential games: moral hazard, incentives, and hungry lions
序贯博弈 (Sequential games)
参与人 2 在作出决定之前知道参与人 1 的决策,且参与人 1 知道这种情况。

希望得到一个更好的结果,某种动机却阻止我们达成更好的结局,称之为道德风险 (moral hazard)。
典型的道德风险
选择限制项目的规模,或者说贷款额度,通过降低规模来降低被骗的风险。
激励设计(incentive design) 动机不是上天赋予人们的,它是由合同双方设计出来的。 “有时大蛋糕的一小块,可能比小蛋糕的一大块要大。”
担保 (collateral)
担保的作用在于,它降低了你不偿还贷款的收益。但却使你过的更好了,因为它改变了其他人的行为,这对你却是有益的。
承诺 (commitment)
减少可选策略而改变其他人的行为,改变不了其他人的行为则毫无意义。
《奇爱博士》 Dr. Strangelove 斯坦利·库布里克 Stanley Kubrick
“必须要让对手知道。”
第十四讲 逆向归纳:承诺、间谍和先行者优势
Backward induction: commitment, spies, and first-mover advantages
策略代换 (Strategic Substitutes)
消费剩余(CS,consumer surplus)
① 需要一个有可信度的承诺
沉没成本 (sunk cost)
② 对手知道你已经或者将要掌握更多信息,有时更多的信息反而会害了你。 如果是真的信息,那就意味着它能领先于其他竞争对手先行动
③ 斯塔克伯格模型是个典型的先行者得利的范例,先行者一定会占优,更为重要的是有时候先发有优势,有时是劣势,有时候两者皆非
第十五讲 逆向归纳:国际象棋,战略和可信的威胁
Backward induction: chess, strategies, and credible threats
策梅洛定理(Zermelo theorem)
两个参与人,完全信息博弈,博弈有限节数
完全信息博弈 (games of perfect information) 在任意一个节点上或者说每个节点上被轮中的参与者,都知道自己处在真个博弈的 哪个节点的博弈。这也暗示着,参与者知道如何到达该节点。
第十六讲 逆向归纳:声誉和决斗
Backward induction: reputation and duels
继续第十五讲最后的例子
加入一些条件,一个公司,处于垄断地位,垄断了十个不同的市场,假如它们有顺序性,垄断者会对第一个尝试进入者发起攻击,从而威慑后面观望者,对于最后一个市场垄断者不会发起进攻,因为没有建立威慑的动机了。
因为不可能去阻止第十个尝试进入者,所以第九个尝试进入者就成了最后一个,逆向归纳所有人都该进入市场。
即使有 𝜀(1%)的概率垄断者是疯狂的,他就可以用疯狂的名义吓退进入者。
即使在十个市场都处于垄断地位,人们也会进入并与之竞争,连锁店博弈(the Chain Store Paradox)。
预先抢投是一个关键点
优势定论 Dominance Argument
有时等待是个好策略。Sometimes waiting is a good strategy.
不要过度自信,也不要迷信先下手为强。
第十七讲 逆向归纳:最后通牒和讨价还价
Backward induction: ultimatums and bargaining
即使在非常简单的游戏中,使用逆向归纳的时候也必须小心。
在现实世界当中,人们除了明显的收益还会关心其他东西。
两期议价博弈 (two period bargaining)
第十八讲 不完全信息:信息集和子博弈完美
Imperfect information: information sets and sub-game perfection
完全信息博弈(perfect information)
这里 Ben 跟很多书一样只讨论完全且完美信息的博弈,也就是说每个 player 对博弈的历史阶段都有完美记忆(perfect recall)
树上所有的信息集合都只包含一个节点的博弈。
不完全信息博弈(imperfect information)
子博弈(sub-game):
子博弈是博弈的一部分,它满足以下三个条件。
① 子博弈必须从单个节点开始
② 它包含该节点的所有后代节点
③ 它不能破坏任何信息集合
子博弈完美均衡(SPE,sub-game perfect equilibrium)。
子博弈精炼纳什均衡的一个重要特点是它可以排除不可信的威胁
第十九讲 子博弈精炼均衡:招商引资和战略投资
Subgame perfect equilibrium: matchmaking and strategic investments
源自策略的定义,它告诉每个参与人在不同信息集合下应该如何行动,即是有些博 弈中信息集合无法获得,策略仍然为参与人在当前状况下提供指示。
介绍人博弈 (Matchmaker game)
第二十讲 子博弈精炼均衡:消耗战
Subgame perfect equilibrium: wars of attrition
决斗博弈:两个参与人,每个阶段每个参与人可以选择攻击(Fight)或者退出(Quit),同时给 出选择,直到一方退出后立即结束。
消耗战(war of attrition)
行贿竞赛(bribery contests)
全薪拍卖(all pay auction)
第二十一讲 重复博弈:合作与最后一局游戏
Repeated games: cooperation vs. the end game
重复互动(Repeated Interaction): 在一个正在进行的关系中,对于将来奖励的承诺和未来惩罚的威胁,可能会为现在的好行为提供激励。
要有一个明确的未来。重复互动博弈的重点在于明确的未来会为现在的行动提供激励。
连任失败效应(lame duck effect)
结论:如果一个重复的阶段博弈,有不止一个纳什均衡,可以通过预测不同策略造成的结果来未下一次行动提供激励,激励可视为奖励或者惩罚。
存在的问题,在第二阶段仍然有动机促使达成收益更高的均衡。
破产(Bankruptcy)
担保(Bail Out)
事前和事后的权衡效率讨论 (discussion of trading off ex-ante efficiency and ex-post efficiency)
恐怖和扳机策略(Grim Trigger Strategy)
比较官方的叫法是触发战略,也有译法叫做冷酷战略的
与前面课程博弈的显著不同——无法确定博弈何时结束,没有明确的最后阶段,那么参与人便无法确定在什么时候背叛来赢得最后阶段的更高收益。
第二十二讲 重复博弈:作弊,惩罚和外包
Repeated games: cheating, punishment, and outsourcing
权衡良好行为带来的前景,和不良行为招致的损失,从而抑制我们作弊的念头。
现在作弊的利益 ≤ 今后合作的利益(承诺 promise) − 今后欺骗的代价(threat)
需要承诺和威胁都真实可信。
今天的威胁不可信,因为明天仍然会遵循纳什均衡,那么今天的合作就没了基础。
保持威胁真实可信的方法是关注 SPE——特点每一个子博弈中都有纳什均衡,利用这个特点来寻找合作机会。
这个问题具有重复性,称为 𝛿,每个时期,𝛿的可能性在延续,如果可能性是1 − 𝛿那么可能博弈每个时期都会结束。
更为一般化的结论,如果一段持续关系能为今日的好行为提供激励,那它有助于让这段关系有个持续下去的高概率。
单期惩罚(one-period punishment)
单期惩罚是一个 SPE
如果希望进行一个较为温和的惩罚,需要使 𝛿 更大
更为温和的惩罚是可行的,需要在未来加更大的砝码
重复道德风险 (Repeated Moral Hazard)
第二十三讲 非对称信息:沉默,信号和教育之苦
Asymmetric information: silence, signaling and suffering education
信息披露的过程 (Informational Unraveling)
重要结论:缺乏信息传达途径,或者说企业不像公布一些信息,这些现象本身也在传达着信息。
此案例为分离均衡(separating equilibrium)
貌似 Ben 没有时间讲混同均衡
结论:
一个好的信号不一定与很高的成本有关,但是要能通过成本区别不同的类型。
此处模型的缺陷:
(1)模型中没有学习的概念
(2)教育失去了社会用途,仅仅成为了区别优秀与差劲的工具
(3)教育加剧了不平等
第二十四讲 非对称信息:拍卖和获奖者的诅咒
Asymmetric information: auctions and the winner’s curse
拍卖(Auction)
公共价值(common values)
私人价值(private values)
一般来说最后获胜的出价会比真实价值高很多
首次公开募股(Initial Public Offerings,简称 IPO)
油井的例子
拍卖形式
A 首价密封拍卖机制 First-price Sealed-bid auction A=D
B 第二价格密封拍卖 Second-price Sealed-bid auction 赢家支付第二高的出价
维克瑞拍卖 (Vickrey auction)
C 公开增价拍卖 (Ascending open auction)
D 公开降价拍卖 (Descending open auction) 逐步降价直到有人提出购买
荷兰式拍卖 (Dutch auction)