概论

前言

这门课开头还是挺精彩的!

简介

【公开课】耶鲁大学:博弈论(中英双语字幕)

课程内容

第一讲 导论—五个入门结论

Introduction: five first lessons

本讲说是五个结论,但没有想象中的那么严肃,其中结论 4 更是在开玩笑。

策略形式:行为影响结果,然而结果不仅取决于你的行为,还取决于其他人的行为。

结论 1:不选择严格劣势策略,原因是每次博弈会得到更好的收益。

本案例中人们不会选择劣势策略,反而选择优势策略,使总结果变得糟糕。

经济学 115,导致不充分的结果(Inefficient)即帕雷托效应。

公认的译法是帕累托效应,这里应该叫帕累托无效率,描述资源配置无法达到最优化的状态。

经典模型:囚徒的困境

A 认罪,B 不认罪,A 释放,B 判 5 年,反之亦然。

都不认罪,各判 1 年,都认罪,各判 2 年。

结论 2:理性选择导致次优的结果。

Rational choices can lead to bad outcomes.

协商难以达成目的的原因不是缺少沟通,而是没有强制力。

黑手党在书面协议不受保护的地方不断壮大,作为法律强制力的补充,维系所有合
同,不论是否合法。

结论 3:汝欲得之,必先知之。

You can’t get what you want , till you know what you want.

永远选择优势策略,选择非劣势策略,损失小,如果对手有优势策略则应以此作为选择策略的指导。

结论 4:耶鲁的学生很自私。

Yale students are evil.

结论 5:站在别人的立场去分析他们会怎么做。

Put yourself in other’s shoes and try to figure out what they will do.

选数游戏:从 1 到 100 之间选择一个号码填到下面的方框内,不要让你的同桌看到, 我们会计算全班的平均数,谁选的数字最接近平均数的 2/3,谁就是赢家。

第二讲 学会换位思考

Putting yourselves into other people’s shoes

开场提到的几个案例,囚徒困境的类似博弈:

合作完成家庭作业,动机每个人都想偷懒

价格竞争,两家企业都想削弱对方

公共问题,公共资源的使用。

如何才能形成博弈?

  • 形成博弈要素:参与人(players),规定表述法 i 、j;
  • 参与人的策略(strategies),规定表述法 𝒔𝒊 、𝒔𝒋
  • 所有可能的策略集合𝑆𝑖 ,区别于参与人的策略 𝑠𝑖,此处用大写 S 来表示,如上节课选数游戏中,𝑆𝑖 = {1,2,3 … … 100}
  • 某一次博弈 s,不带下标的小写 s 表示,称为策略组合(a strategy profile),也称策略向量、策略列表、策略剖面)
  • 收益(payoffs)

选数游戏:具体规则见第一讲

没有写下 common knowledge 和 mutual knowledge 的区别,这是很重要的一点

剔除[ 68,100 ],因为只有当所有人都选 100 时,100 的 2/3——66 又 2/3,才是个
合理的答案。剔除劣势策略,剩余的选择[ 1,67 ],在这样的情况下,同理[ 45,67 ]
也被剔除了。

[ 45,67 ] 策略在原博弈中并不是弱劣势的,可是一旦我们排除掉了[ 68,100 ],它
们就成为了劣势策略,即弱劣势策略。

剔除[ 68,100 ],是一种直接思考;同时作为一个理性参与人的选择。

剔除[ 45,67 ],则是站在别人的角度去思考的结果,因为对手不会选择劣势策略。

同时考虑到你的对手也是一个理性的参与人。

不断重复这个过程,最终会得到 1 的结果。

第三讲 迭代剔除和中位选民定理

Iterative deletion and the median-voter theorem

选举案例:

假设两个候选人,一系列政治主张中,共有 10 个立场,每个政治立场都有 10%的得票,且平均分布,选民会投票给离他们最近的候选人。

当你自己选择其中一个时,获得全票,对手和你同时选择时,你们两人均分选票,非选择区域靠近那个候选人,该候选人获得全票,若该区域与两个候选人等距,则选票均分。

迭代剔除劣势策略 主旨在对立场的换位思考,推测对手的行为策略,同时想想对手会站在你的立场,反复此过程,最终结果往往会导致唯一的选择。

预测结果是候选人会挤在 10 个立场中的中立地带,在政治学中这被称为中间选民定理。(Median Voter Theorem)也叫中间人投票定理,也可以通过偏好推导出来。

模型存在的问题:现实中选民并非均匀分布;选民常根据候选人的性格而非政治立场来进行投票,政治立场仅仅是单一维度;只适用于两个候选人的情况;同时存在弃权票;选民未必相信候选人所声明的立场。

多维度在政治课程中有完善的模型,本课程不讨论。

建立模型的目的:为了更好地描述事实激发灵感,模型由重要的事实抽象而来,逐步增加约束条件完善模型观察结果,比较分析结果的变化。

最佳对策 Best Response

一般译作最优反应,相应动态博弈中先行者的策略是反应对应

第四讲 足球比赛与商业合作之最优反应

Best responses in soccer and business partnerships

点球博弈

冯·诺依曼—摩根斯坦(Von Neumann and Morgenstern)效用函数见《策略与博弈》 P21

合伙人博弈

此处介绍的边际收益与边际成本,鉴于本课程第六讲:古诺的双寡头模型中会涉及该知识,我个人将在第六讲的笔记中补充一部分经济学的知识。

存在外部性(externality)

上图中的交点即是著名的纳什均衡点,在此处参与人们都采用了自己的最优反应。

第五讲 纳什均衡之坏风气与银行挤兑

Nash equilibrium: bad fashion and bank runs

应该是最优反应,定义不能有问题啊,简单地说纳什均衡是一组策略,其中每个 player 所选的策略都是对其他 player 所选策略的最优反应。

学习纳什均衡的动机:不为当时做出的决定后悔,因为已经采取了最优反应。

应该是各个 player 选择纳什均衡的动机;同样重要的一点是纳什均衡是自我实现的(self-fulfilling/self-enforcing)

任何参与人都严格不会改变策略,改变策略严格不会使参与人获得增益。

其他参与人不改变行为的前提下,自己改变行为并没有任何好处。

博弈会朝着趋向于一个均衡的方向自然发展,结果(self-enforcing)不断趋向一个纳什均衡。

寻找纳什均衡的一个有效方法是猜想与验证(guess and check)

较劣的不投资均衡相当于较优的纳什均衡处于帕累托劣势

协调之所以能达成在于他不同于囚徒困境,它没有去说服人们采取一个严格劣势策略。

协调博弈 coordination game 协调谬误

第六讲 纳什均衡之约会游戏与古诺模型

Nash equilibrium: dating and Cournot

不同之处,上一讲的博弈只是协调博弈,无利益冲突

性别大战( Battle Of The Sexes)

古诺的双寡头模型(Cournot Duopoly)

古诺在纳什出生前 100 多年即解出该博弈的答案

古诺博弈不同于第五讲中的合伙人曲线,合伙人曲线是向上倾斜的

这不是一个策略互补博弈,而是一个策略替代博弈

第七讲:纳什均衡之伯川德模型与选民投票

Nash equilibrium: shopping, standing and voting on a line

伯川德竞争 (Bertrand competition)

古诺模型是产量上的竞争,而伯川德模型是在价格上的竞争

线性城市模型(Linear city model)

一个路贯穿城市,两个公司分别坐落在 0、1 点,消费者 y 到公司 1 的距离为 y,到公司 2 的距离为 1-y,假设每个消费者买且只买一个产品。消费者会选择对他而言总成本最小的

候选人选民模型(Candidate-Voter model)

假设选民在线上平均分布,选票的获得与第三讲中一致,与该模型的区别:①候选人的数目不固定; ②候选人不能选择他们的立场;

第八讲:纳什均衡之立场选择、种族隔离与策略随机化

Nash equilibrium: location, segregation and randomization

继续上一讲的候选人模型

结论 1:此模型可能存在多个纳什均衡

并非所有均衡中的候选人都保持中间立场

结论 2:如果左派有一个新的候选人加入,可能会导致右派获胜的概率增大,反之亦然。

结论 3:如果候选人太极端就会有新的中间候选人参选。

选址模型(Location model)

假设两个小镇,东镇和西镇;世界仅有两种人,高个和矮个;每种人都有 10 万,每个城镇都只能容纳 10 万人;

参与人:高个、矮个

策略:选择东镇还是西镇

如果城镇只有参与人是矮个,其他人都是高个,那么参与人的收益为 0,反之亦然;

如果是高个和矮个混居,数量都是城镇人口的一半则收益达到最大;如果城镇全是矮个或高个则收益是最大值的一半。

人们可以自由选择想要居住的城镇,如果选择一个城镇的数量超过了容积,则会从所有选择该城镇的参与人中随机抽取,分配到另一个城镇。

例如有 15 万人选择东镇,那么每个人只有 2/3 的概率可以住在这里,另外随机抽取5 万人,会被分配到西镇去。

①两个纳什均衡是种族隔离;一个纳什均衡是每个城镇中不同人种均匀分布;两者皆为严格均
衡,后者稳定性差,“弱均衡”

这三种情况下参与人都无法通过改变策略来取得更高的收益

②临界点(Tipping Point)

③另一个不太现实的均衡,所有人都选择同一个城镇而被随机分配

结论:

  • 看上去毫无意义的博弈规则,有时是很重要的条件。
  • 社会随机分配,其结果要比所谓的自主选择要好。

结论:

①模型中种族隔离的结果,不能作为人们喜欢种族隔离的论据。

②随机分配(randomization);校车现象(bussing)

③可以通过自下而上的方式实现随机分配。

每个人都通过抛硬币的方式来决定去那个镇子,选址模型的另一个纳什均衡。

抛硬币的不确定性,引入混合策略(Mixed strategies),在这之前接触的都是可选的
纯策略。

猜拳博弈

在纯策略(pure)中没有纳什均衡

纳什均衡按 1/3 概率选择混合策略

在猜拳游戏中 1/3 的混合策略是应对 1/3 混合策略是最优反应,且是唯一一个纳什均衡

第九讲:混合策略定义及其在网球比赛中的应用

Mixed strategies in theory and tennis

混合策略的收益:

混合策略 𝑃𝑖 的预期收益,每个纯策略预期收益的加权平均数

《策略与博弈》中考虑混合策略的意义

理由 1:混合策略可能优于一些纯策略(这些纯策略本身并不劣于其他纯策略)。P101

理由 2:混合策略的最差情况可能好于所有纯策略的最差情况。P103

理由 3:如果我们只限于纯策略,那么,我们也许不能找到博弈的纳什均衡。P104

第十讲 混合战略棒球,约会和支付您的税

Mixed strategies in baseball, dating and paying your taxes

举例:提高逃税的收益,将导致审计概率的提高,因此商学院高收入的教授反而拥有更高的纳税意愿,因为较高的审计概率的存在。

联邦审查率的设计更多的去审查富人,这并不是说明穷人比富人更诚实。

鉴于国会意愿属于富人阶层,让国会议员获得制定审查率的权利是不明智的,他们可能会报有其他政治目的而非提高税务系统的整体效率。

本讲有两个重点要补充:

1.关于混合策略的三种解释: (1)某个 player 随机化 ta 的策略 (2)某个 player 对另一个人采取某种策略的概率估计 (3)群体中特定参与人的比例

2.求混合策略的方法: (1)设某个 player 采取某个策略的概率,通过令另一个 player 的收益无差异来求这个概率 (2)在给定另一个 player 的混合策略下,对某个 player 的收益函数求一阶条 件可以求得另一个 player 的混合策略 (3)无论用上述何种方法,最好算出来了检验一下是否有偏离该混合策略的激励,计算上只需要检验纯策略

第十一讲 进化稳定:合作,突变,与平衡

Evolutionary stability: cooperation, mutation, and equilibrium

进化论 (Evolution)

① 博弈论对生物学的重大影响,尤其在动物行为学中把基因看成策略,把遗传适应性当做收益,好的策略使种群不断壮大,即有适合基因的个体会繁衍,带有不适合基因的个体会灭绝。

将动物的行为(策略)看做是天生,而不是自由选择。

② 生物学尤其是进化生物学,对社会科学产生了重大影响。

一个经济学案例: 假设市场中存在这样的公司,这些公司并不关心什么策略能最大化利润,什么策略能尽可能降低成本,它们可能毫无科学根据地选择策略,在竞争激励的市场环境下, 只有那些成本较低但利润颇丰适应环境的公司才能得以生存下来。

简化模型,专注于种内竞争,通过双人对称博弈来进行研究,很大的种群采取的策略与生俱来,对其进行随机配对。即采取相对成功策略的个体数量会增长,相反则会减少。不存在基因的重新分配。

结论: ① 自然选择的进化结果是很糟的 ② 如果一个策略是严格劣势策略,那么它就不是进化稳定策略

第十二讲 进化稳定:社会公约、侵略和周期

Evolutionary stability: social convention, aggression, and cycles

社会传统的进化 (evolution of social convention )

靠左行车还是靠右行车

类似性别大战( Battle Of The Sexes)的收益矩阵

a 使用攻击性策略,不会躲避,b 仁慈性策略,在相撞前会规避

一个著名的例子就是 Chicken Game 叫做斗鸡博弈或胆小鬼博弈

《策略与博弈》 P33 鹰—鸽 博弈 (强硬—懦弱)

自然界中混合均衡的两个解释

① 基因本身是随机的 ② 稳定混合也意味着在进化稳定策略中,以这种比例稳定存在

第十三讲 序贯博弈:道德风险,激励和饥饿的狮子

Sequential games: moral hazard, incentives, and hungry lions

序贯博弈 (Sequential games)

参与人 2 在作出决定之前知道参与人 1 的决策,且参与人 1 知道这种情况。

希望得到一个更好的结果,某种动机却阻止我们达成更好的结局,称之为道德风险 (moral hazard)。

典型的道德风险

选择限制项目的规模,或者说贷款额度,通过降低规模来降低被骗的风险。

激励设计(incentive design) 动机不是上天赋予人们的,它是由合同双方设计出来的。 “有时大蛋糕的一小块,可能比小蛋糕的一大块要大。”

担保 (collateral)

担保的作用在于,它降低了你不偿还贷款的收益。但却使你过的更好了,因为它改变了其他人的行为,这对你却是有益的。

承诺 (commitment)

减少可选策略而改变其他人的行为,改变不了其他人的行为则毫无意义。

《奇爱博士》 Dr. Strangelove 斯坦利·库布里克 Stanley Kubrick

“必须要让对手知道。”

第十四讲 逆向归纳:承诺、间谍和先行者优势

Backward induction: commitment, spies, and first-mover advantages

策略代换 (Strategic Substitutes)

消费剩余(CS,consumer surplus)

① 需要一个有可信度的承诺

沉没成本 (sunk cost)

② 对手知道你已经或者将要掌握更多信息,有时更多的信息反而会害了你。 如果是真的信息,那就意味着它能领先于其他竞争对手先行动

③ 斯塔克伯格模型是个典型的先行者得利的范例,先行者一定会占优,更为重要的是有时候先发有优势,有时是劣势,有时候两者皆非

第十五讲 逆向归纳:国际象棋,战略和可信的威胁

Backward induction: chess, strategies, and credible threats

策梅洛定理(Zermelo theorem)

两个参与人,完全信息博弈,博弈有限节数

完全信息博弈 (games of perfect information) 在任意一个节点上或者说每个节点上被轮中的参与者,都知道自己处在真个博弈的 哪个节点的博弈。这也暗示着,参与者知道如何到达该节点。

第十六讲 逆向归纳:声誉和决斗

Backward induction: reputation and duels

继续第十五讲最后的例子

加入一些条件,一个公司,处于垄断地位,垄断了十个不同的市场,假如它们有顺序性,垄断者会对第一个尝试进入者发起攻击,从而威慑后面观望者,对于最后一个市场垄断者不会发起进攻,因为没有建立威慑的动机了。

因为不可能去阻止第十个尝试进入者,所以第九个尝试进入者就成了最后一个,逆向归纳所有人都该进入市场。

即使有 𝜀(1%)的概率垄断者是疯狂的,他就可以用疯狂的名义吓退进入者。

即使在十个市场都处于垄断地位,人们也会进入并与之竞争,连锁店博弈(the Chain Store Paradox)。

预先抢投是一个关键点

优势定论 Dominance Argument

有时等待是个好策略。Sometimes waiting is a good strategy.

不要过度自信,也不要迷信先下手为强。

第十七讲 逆向归纳:最后通牒和讨价还价

Backward induction: ultimatums and bargaining

即使在非常简单的游戏中,使用逆向归纳的时候也必须小心。

在现实世界当中,人们除了明显的收益还会关心其他东西。

两期议价博弈 (two period bargaining)

第十八讲 不完全信息:信息集和子博弈完美

Imperfect information: information sets and sub-game perfection

完全信息博弈(perfect information)

这里 Ben 跟很多书一样只讨论完全且完美信息的博弈,也就是说每个 player 对博弈的历史阶段都有完美记忆(perfect recall)

树上所有的信息集合都只包含一个节点的博弈。

不完全信息博弈(imperfect information)

子博弈(sub-game):

子博弈是博弈的一部分,它满足以下三个条件。

① 子博弈必须从单个节点开始

② 它包含该节点的所有后代节点

③ 它不能破坏任何信息集合

子博弈完美均衡(SPE,sub-game perfect equilibrium)。

子博弈精炼纳什均衡的一个重要特点是它可以排除不可信的威胁

第十九讲 子博弈精炼均衡:招商引资和战略投资

Subgame perfect equilibrium: matchmaking and strategic investments

源自策略的定义,它告诉每个参与人在不同信息集合下应该如何行动,即是有些博 弈中信息集合无法获得,策略仍然为参与人在当前状况下提供指示。

介绍人博弈 (Matchmaker game)

第二十讲 子博弈精炼均衡:消耗战

Subgame perfect equilibrium: wars of attrition

决斗博弈:两个参与人,每个阶段每个参与人可以选择攻击(Fight)或者退出(Quit),同时给 出选择,直到一方退出后立即结束。

消耗战(war of attrition)

行贿竞赛(bribery contests)

全薪拍卖(all pay auction)

第二十一讲 重复博弈:合作与最后一局游戏

Repeated games: cooperation vs. the end game

重复互动(Repeated Interaction): 在一个正在进行的关系中,对于将来奖励的承诺和未来惩罚的威胁,可能会为现在的好行为提供激励。

要有一个明确的未来。重复互动博弈的重点在于明确的未来会为现在的行动提供激励。

连任失败效应(lame duck effect)

结论:如果一个重复的阶段博弈,有不止一个纳什均衡,可以通过预测不同策略造成的结果来未下一次行动提供激励,激励可视为奖励或者惩罚。

存在的问题,在第二阶段仍然有动机促使达成收益更高的均衡。

破产(Bankruptcy)

担保(Bail Out)

事前和事后的权衡效率讨论 (discussion of trading off ex-ante efficiency and ex-post efficiency)

恐怖和扳机策略(Grim Trigger Strategy)

比较官方的叫法是触发战略,也有译法叫做冷酷战略的

与前面课程博弈的显著不同——无法确定博弈何时结束,没有明确的最后阶段,那么参与人便无法确定在什么时候背叛来赢得最后阶段的更高收益。

第二十二讲 重复博弈:作弊,惩罚和外包

Repeated games: cheating, punishment, and outsourcing

权衡良好行为带来的前景,和不良行为招致的损失,从而抑制我们作弊的念头。

现在作弊的利益 ≤ 今后合作的利益(承诺 promise) − 今后欺骗的代价(threat)

需要承诺和威胁都真实可信。

今天的威胁不可信,因为明天仍然会遵循纳什均衡,那么今天的合作就没了基础。

保持威胁真实可信的方法是关注 SPE——特点每一个子博弈中都有纳什均衡,利用这个特点来寻找合作机会。

这个问题具有重复性,称为 𝛿,每个时期,𝛿的可能性在延续,如果可能性是1 − 𝛿那么可能博弈每个时期都会结束。

更为一般化的结论,如果一段持续关系能为今日的好行为提供激励,那它有助于让这段关系有个持续下去的高概率。

单期惩罚(one-period punishment)

单期惩罚是一个 SPE

如果希望进行一个较为温和的惩罚,需要使 𝛿 更大

更为温和的惩罚是可行的,需要在未来加更大的砝码

重复道德风险 (Repeated Moral Hazard)

第二十三讲 非对称信息:沉默,信号和教育之苦

Asymmetric information: silence, signaling and suffering education

信息披露的过程 (Informational Unraveling)

重要结论:缺乏信息传达途径,或者说企业不像公布一些信息,这些现象本身也在传达着信息。

此案例为分离均衡(separating equilibrium)

貌似 Ben 没有时间讲混同均衡

结论:

一个好的信号不一定与很高的成本有关,但是要能通过成本区别不同的类型。
此处模型的缺陷:

(1)模型中没有学习的概念

(2)教育失去了社会用途,仅仅成为了区别优秀与差劲的工具

(3)教育加剧了不平等

第二十四讲 非对称信息:拍卖和获奖者的诅咒

Asymmetric information: auctions and the winner’s curse

拍卖(Auction)

公共价值(common values)

私人价值(private values)

一般来说最后获胜的出价会比真实价值高很多

首次公开募股(Initial Public Offerings,简称 IPO)

油井的例子

拍卖形式

A 首价密封拍卖机制 First-price Sealed-bid auction A=D

B 第二价格密封拍卖 Second-price Sealed-bid auction 赢家支付第二高的出价

维克瑞拍卖 (Vickrey auction)

C 公开增价拍卖 (Ascending open auction)

D 公开降价拍卖 (Descending open auction) 逐步降价直到有人提出购买

荷兰式拍卖 (Dutch auction)