概论
前言
在博弈论的框架下,重复博弈为我们理解人类行为提供了深刻的视角。特别是在涉及合作与竞争的情境中,礼尚往来的原则显得尤为重要。正如《外交》游戏所揭示的,合作的基础在于双方的信任与互惠,来而不往非礼也,强调了在互动中保持礼节的重要性。
在中国传统文化中,孔子的教诲尤为深刻。孔子曾以“辞让”作为道德行为的标杆,《史记》中关于尧舜禅让、吴泰伯及伯夷叔齐等人让位的记载,展现了古代贤者在面对利益冲突时如何通过礼让与合作来实现长治久安。这与道金斯在《自私的基因》中提出的观点相呼应,强调人类的合作本性与群居动物的特性。达尔文、特里夫斯和哈密尔顿和的研究进一步支持了这一观点,揭示了利他行为在进化中的重要性。
尤其是孔融让梨的故事,体现了利他主义的精神。这种精神在博弈论中可以与tit-for-tat策略相联系——即在合作的基础上,适时回应他人的行为,既能促进和谐,又能维护自身的利益。孔子对子路的教诲,正是强调了在国家治理中以礼为先,而非单纯的利益交换。
在面对囚徒困境时,单纯的短期利益往往导致互坑互害的局面,正如黄泛区的历史所示。为了避免这种情况,建立长期的合作关系至关重要,这正是重复博弈的魅力所在。通过低时间偏好,个体能够更好地考虑未来的利益,从而实现长久的合作与和平。
总之,重复博弈不仅仅是一种策略选择,更是一种反映人类道德与社会行为的深刻理论。通过理解这些原则,我们可以更好地应对当今复杂的社会互动与国际关系。
书籍简介
作者: 【美】罗伯特·阿克塞尔罗德(Robert Axelrod)
出版社: 上海人民出版社
原作名: The evolution of cooperation
译者: 吴坚忠
出版年: 2016-12
页数: 168
定价: 35.00元
装帧: 平装
ISBN: 9787208141407
内容简介
本书的重点是研究追求各自利益的个体的行为,并分析在社会系统中有哪些因素影响个体的行为,即本书将提出一些关于个体动机的假设,并在此基础上推断整个系统的行为结果。本书提出的合作理论是基于对追求自身利益的个体的研究,而且这些个体中并没有什么中心权威强迫他们相互合作。个体追求自身利益,彼此之间的合作便不是完全基于对他人的关心或对群体利益的考虑。
本书是行为领域的经典之作,主题是合作的产生和进化。作者以组织的两轮“重复囚徒困境”竞赛为研究对象,结果发现在两轮竞赛中胜出的都是最简单的策略“一报还一报”。这一策略简洁明晰,具有善良性、宽容性、可激怒性和策略性,其出色的竞赛表现为我们了解个人、组织和国家间合作产生和进化提供了积极的前景,其结论在社会科学的诸领域产生了广泛深刻的影响,被广泛征引。
作者简介
罗伯特·艾克斯罗德(Robert Axelrod,1943年5月27日-),密歇根大学政治学与公共政策教授,美国科学院院士,著名的政治科学家、行为分析学家及博弈论专家。除本书外,还著有《合作的复杂性》、《合作的竞化》等著作。
正文摘录
序 理查德·道金斯
这是一本乐观的书,但这种乐观是可信的,它不是天上掉馅饼式的、不切实际的天真愿望(或者革命的狂热)。
为了可信,一个乐观主义者首先必须承认基本的现实,它既包括人性的现实,也包括所有生命本性的现实。这里所说的生命是达尔文意义上的生命,它涵盖宇宙里的所有生命。在适者生存的达尔文世界里,充满着那些使得生存者生存下来的特质。按照达尔文的说法,我们悲观地假设生命在自然选择这一层面是极端自私的,对苦难无情地冷漠,残忍地损人利己。然而从这个被扭曲的起点开始,即使不必是刻意的,类似于友善的兄弟姐妹般的伙伴关系也会出现。这就是罗伯特·阿克塞尔罗德这本不平凡的书要传递的令人振奋的信息。
我写这个前言费了不少周折。20世纪70年代后期,在我的第一本书,也就是阐释了上述悲观原理的《自私的基因》出版之后几年,我意外地收到我原本不认识的美国政治学家罗伯特·阿克塞尔罗德寄来的信件,他发起了一个"重复囚徒困境"的计算机游戏竞赛,并邀请我参加竞赛。更准确地说,他邀请我提交一个计算机程序去参赛,这也表明了人和计算机的最重要差别是计算机程序没有有意识的远见。其实,那时我并不想参赛,但我深深被这个主意所吸引,即使是被动的,我也为这件事做了点有价值的贡献。阿克塞尔罗德是一位政治学教授,依我之见,他需要和进化生物学家合作。我写了一封信给他,推荐了W.D.汉密尔顿,一位可以说是当时最杰出的达尔文主义者。很可惜,他后来在2000年一次不幸的刚果丛林探险之后死去了。在70年代,汉密尔顿是阿克塞尔罗德所在的密歇根大学的同事,但在不同的系,他们互相不认识。收到我的信之后阿克塞尔罗德立即与汉密尔顿联系,他们合写的论文是这本书的基础,并缩写为本书的第五章。这篇论文与本书的题目一样,发表在1981年的《科学》杂志上,并获得美国科学促进协会的纽康伯·克利夫兰奖。
《合作的进化》的第一版于1984年出版,我立即怀着极大的热情阅读它,并以传福音的热情向我遇见的所有人推荐。在这本书出版后的几年中,牛津大学的我所教授的大学生都被要求写与阿克塞尔罗德这本书有关的论文,这是大家最愿意写的论文之一。但是这本书没有在英国出版,一般情况下,书面的东西不像电视那样容易受欢迎。于是,1985年,当英国广播公司(BBC)的杰里米·泰勒邀请我作为《地平线》节目的演讲嘉宾时,我非常高兴地接受了,这个节目就是以阿克塞尔罗德的工作为基础的。我们称这个节目为"好人先成功"。我不得不在一些我不习惯的地方做节目,在足球场、英国工业区的学校、废弃的中世纪修道院、百日咳接种疫苗的诊所和第一次世界大战战壕的复制品前。节目在1986年春天开播,虽然我不知道是否是因为我那难听的英格兰口音,这个节目一直没有在美国播出,但它还是取得了很大成功。它还使我在一段时间里成为"宽容的"、"不嫉妒的"和"善良的"公众代表,至少减轻了我由于《自私的基因》而得到的所谓自私自利的布道士的恶名。我的节目被称为"好人先成功",我被广称为"好好先生"。如此赞誉并非来自书或节目的内容。不过,在节目播出几周之后,我就被一些工业企业家请去吃饭,请教有关善良性的问题。大不列颠一家领先的服装连锁店的老板请我吃午饭,专门解释他的公司是如何善待他的员工的。一个大的糖果公司的女发言人也请我吃午饭,同样是为了说明在她的公司里销售巧克力的内在动机不是为了赚钱而是为了在民众中传播甜蜜和幸福。我担心这两位都有些说不到点子上。
我被一家世界上最大的计算机公司请去组织他们的高管进行一个一整天的策略游戏,目的是让他们一起友善地合作。他们被分成红、蓝、绿三组,游戏和本书的主题"囚徒困境"游戏差不多。不幸的是,这个公司想达到的合作目标并没有实现。就像罗伯特·阿克塞尔罗德预言的一样,虽然宣布游戏在下午4点结束,但红方和绿方很快在这个时间点前就陷入一连串的背叛之中。在我引导的讨论会上,对于突然打破先前一天的好愿望大家都感觉很糟。这些高管要想被说服再在一起工作之前必须接受咨询。
1989年,我应牛津大学出版社的要求出《自私的基因》的第二版。其中的两章包含了这十几年来最让我兴奋的两本书的内容,当然其中首先是阿克塞尔罗德的研究,还是叫"好人先成功"。当时我还是觉得阿克塞尔罗德的书应该在我的国家出版,于是我主动找了企鹅出版社,很高兴他们接受了我的推荐,决定出版并请我为他们的英国平装版写序。今天,我更高兴的是罗伯特·阿克塞尔罗德自己邀请我为他的新版书更新这个序。
毫不夸张地说,在《合作的进化》出版20年来,它已经形成一个新的研究领域。1988年,阿克塞尔罗德和他的同事道格拉斯·戴恩编辑了一个和《合作的进化》有关的研究出版物的注释文献,他们列出了到当时为止的250多个在"政治与法律"、"经济学"、"社会学和人类学"、"生物学应用"、"进化论"、"自动理论(计算机科学)"、"新的竞赛"及"其他"条目下的研究论文。阿克塞尔罗德和戴恩还合作在《科学》(1988年,第242卷,第1385~1390页)杂志上发表了题为《合作进化的进展》的论文,总结了1984年以来在这个领域的进展。从那篇综述以来,大约二十年过去了,被这本书激发出来的研究结果还在继续增加。下图是每年引用罗伯特·阿克塞尔罗德研究的科学论文的数量,图形曲线在《合作的进化》这本书出版的1984年后,变得向上陡峭起来,它清楚地说明一本有影响力的书对这个领域的发展所具有的作用。合作理论的进展出现在关于预防战争(Huth1988)、社会进化(Trivers1985)、动物之间的合作(Dugatkin1997)、人类历史(Wright2000)、进化对策论(Gintis2000)、创建社会资本的信任和回报的网络(Putnam2000)、微观经济学(Bowles2004)、科幻小说(Anthony1986)的书籍中和罗伯特·阿克塞尔罗德自己的书中(1997和2001)。但在认真思考这一大堆新的研究之时,我留下的最主要的印象是这本书的基本结论并不需要改变。这几年我坚持不懈地向学生、同事和见到的熟人介绍这些结论。我确实认为,如果每一个人都学习和理解它,这个星球就会更美好。世界的领袖们将陷入这本书所说的困境,直到他们读了这本书之后才能解脱。这对他们来说是件好事,而对我们其他人来说是福音。《合作的进化》值得取代《新旧约全书》。
理乍得·道金斯
2006年6月于牛津
第一部分 导论
第一章 合作的问题
在什么条件下才能从没有集权的利己主义者中产生合作?这个问题已经困惑人们很长时间。大家都知道人不是天使,他们往往首先关心自己的利益。然而,合作现象四处可见,它是文明的基础。那么,在每一个人都有自私动机的情况下,怎样才能产生合作呢?
我们对这个问题的回答极大地影响了我们在与他人的社会、政治、经济的交往时的思维和行为。其他人对这个问题的回答同样对他们是否愿意与我们合作有很大的影响。
最著名的回答是由托马斯·霍布斯(ThomasHobbes)在300多年前给出的。他悲观地认为,在有政府存在之前,自然王国充满着由自私的个体的残酷竞争引起的矛盾,生活显得"孤独、贫穷、肮脏、野蛮和浅薄"(Hobbes1651/1962,p.100)。按照他的观点,没有集权的合作是不可能产生的。因此,一个强有力的政府是必要的。从那时开始,关于政府的管理范围的争论就主要集中在人们是否可以期望在一些特定的领域,合作会在没有权威控制的情况下出现。
今天,国家在没有集权的情况下交往。因此产生合作的必要条件就与国际政治的许多中心问题有关。最重要的就是安全困境:国家往往通过那些威胁到其他国家安全的手段来寻求自身的安全。这个问题体现在区域冲突和军备竞赛上。相关的国际关系问题还有:联盟中的竞争、关税谈判和种族冲突(如塞浦路斯)。[1]
苏联1979年入侵阿富汗给美国出了个难题。如果美国不予反应的话,苏联就可能受到鼓励而尝试其他形式的不合作。另一方面,美国的任何不合作反应都可能引起某种形式的报复,这种报复又会引起反报复,进而发展成难以终止的双方敌对局面。国内许多关于外交政策的争论正是针对这类问题,这是因为它们确实是困难的选择。
在日常生活中,我们会问自己还要请多少次那些从来不回请我们的客人来就餐。一个机构中的管理者为了得到一些回报而给另一位管理者提供帮助。一个得到绝密消息的新闻记者为了得到进一步的消息而为消息来源保密。如果只有两个公司同时生产一个产品,一个公司定较高的价格是为了期望另一个公司也能保持高价,因为这样,双方都能得到好处(当然消费者吃亏了)。
在我看来,一个出现合作的典型例子是立法机构的行为模式的产生,例如美国参议院。每个议员都力图代表他的选民的利益,这就会与其他代表不同选民的参议员发生冲突,当然这是发生在利益完全相反的情况(零和博弈)下的。然而有很多机会,两位参议员可以采取对双方都有利的行动。这些对双方都有利的行为导致了参议院内的一套复杂的行为规范或者俗规的产生。其中,最重要的是回报准则,即帮助同僚解决难题并得到回报。这包括投票交易等许多形式的对双方有利的行为。因此,"可以毫不夸张地说,相互回报是参议院的生活方式"(Matthews1960,p.100;Mayhew1975)。
华盛顿并不总是这样。早期的观察家把华盛顿圈子里的人看成是无耻和靠不住的政客,是以"谬误、欺骗和背信弃义"为其特征的(Smith1906,p.190)。但到了20世纪80年代,回报的习俗终于得以创建。过去的20年里,参议院发生了许多变化:趋于更加分散化、更加开放和更加均分权力,但这并没有削弱回报的习俗(Omstein,Peabody,andRhode1977)。就像后面要提到的一样,为了解释以回报为基础的合作是如何出现和保持稳定的,并没有必要假设参议员们比以前更加诚实、宽宏大量或者更加热心公益。合作的出现只能解释为参议员追求自身利益的结果。
本书的重点是研究追求各自利益的个体的行为,并分析在社会系统中有哪些因素影响个体的行为,即本书将提出一些关于个体动机的假设,并在此基础上推断整个系统的行为结果(Schelling1978)。美国参议院是一个很好的例子,但相同的推理可以运用到其他情况中。
这个雄心勃勃的研究的目标是创建一个合作理论以帮助我们理解合作出现的必要条件。了解了合作出现的条件,就可以采取适当的行动来培育某个特定环境下的合作。
本书提出的合作理论是基于对追求自身利益的个体的研究,而且这些个体中并没有什么中心权威强迫他们相互合作。个体追求自身利益,彼此之间的合作便不是完全基于对他人的关心或对群体利益的考虑。假设个体追求自身利益就是为了研究这一难题。但必须强调的是这种假设的局限性实际上很小。如果一个姐姐关心她弟弟的利益,这位姐姐自己的利益可以被认为是包含在这种关心里的。但是,这并没有排除姐弟之间可能出现冲突。同样,一个国家也可能考虑友好国家的利益,但是这种考虑并不意味着友好国家之间总是能够为了双边利益而合作。这里之所以假设个体追求自身利益是因为关心他人并不能完全解决个体什么时候能相互合作,什么时候不能相互合作的问题。
合作中存在着一个根本问题,两个工业国家之间相互设置贸易壁垒便是一个很好的例子。由于自由贸易能给双方带来好处,因此,如果两个国家消除这些贸易壁垒都能受益。问题是,无论谁单方面采取行动消除自己一方的贸易壁垒,它都会发现自己处于不利于本国经济的贸易状态下。事实上,不论一个国家如何做,另一个国家保持它的贸易壁垒总是比较有利的。因此,每一个国家都有利益动机来保持贸易壁垒,尽管由此带来的结果比双方都合作差得多。
个体对自身利益的追求将损害整体的利益时,这个根本的问题就出现了。为进一步了解大量的具有这类性质的情况,需要有一个方法来表示这些情况的共同点,同时避免陷于每个情况的具体细节。幸运的是,我们有一个可用的方法:著名的"囚徒困境"游戏。[2]
在"囚徒困境"的游戏中,有两个对策者,他们可以有两个选择:合作或背叛,每个人都必须在不知道对方选择的情况下,作出自己的选择。不论对方选择什么,选择背叛总能比选择合作有较高的收益。所谓的"困境"是指,如果双方都背叛,其结果比双方都合作要糟。这个简单的游戏是本书全部分析的基础。
"囚徒困境"的游戏方法如图1.1。一方选行,合作或背叛;同时另一方选列,也是合作或背叛。这些选择放在一起就产生了如图1.1所示的四个可能的结果。在这个矩阵中,如果双方选择合作,双方都能得到较好的结果R,即"对双方合作的奖励"。在这个例子中R为3分,3也可以代表参赛者得到的奖金数。如果一方合作而另一方背叛,那么,背叛者得到"对背叛的诱惑"(T=5),而合作者则得到"给笨蛋的报酬"(S=0)。如果双方都背叛,那么双方都得到1分,即"对双方背叛的惩罚"(P=1)。
在这个游戏中,你将如何做呢?设想你处于行的位置,同时你认为对方将合作,那么你将得到图1.1中头一列的两个结果中的一个,你选择哪个:你可以选合作,那么你将得到"对双方合作的奖励"即3分。当然,你也可以选背叛,得到"对背叛的诱惑"即5分。换言之,如果你认为对方将会合作,那么你背叛将能得到更多的好处。反过来,如果你认为对方将背叛,那么你就处于图1.1中的第二列。你有两个选择,你选择合作,那么你就是"笨蛋",给你一个0分。你选择背叛,就会得到"对双方背叛的惩罚"即1分。因此,对方背叛,你也背叛将会更好些。这就是说,如果你认为对方将合作,你背叛能得到更多,如果你认为对方将背叛,你背叛也能得到更多。所以无论对方如何行动,你背叛总是好的。
到现在为止,你似乎知道该怎样做。但是,相同的逻辑对另一个人也同样适用。因此,另一个人也将背叛而不管你如何做。这样,你们将是双方背叛,只能得到1分,这比你们双方合作所能得到的"奖励"3分差很多。个体的理性导致双方得到的比可能得到的少,这就是"困境"。
"囚徒困境"是对一些非常普遍而有趣的情形的简单抽象。在这些情形中,从个人的角度考虑,背叛是最好的选择,但双方背叛会导致不甚理想的结果。"囚徒困境"的定义要求四个可能的结果之间保持一定的关系。第一个关系是四个结果的排序,对策者能够得到的最好的结果是T,即对方合作你背叛时所得到的"诱惑"。最差的是得到S,即当对方背叛时你合作。另外两个结果可以假设R比P好,即得到对合作的"奖励"比得到对背叛的"惩罚"要好。这样得到从最好到最差四个结果的排序是T、R、P和S。"囚徒困境"定义中包含的第二个概念是,对策者不能通过轮流背叛对方来摆脱"困境"。这个假设意味着,交替地背叛对方和被对方背叛的收益没有双方合作好。即假定"对双方合作的奖励"大于"对背叛的诱惑"和"给笨蛋的报酬"的平均值(即R>(T+S)/2),这个假设和四个结果的排序定义了"囚徒困境"。
如果两位自私者玩一次这个游戏,他们的选择会是背叛。这样,每一方所得将少于双方合作所能得到的。设想这个游戏要进行多次,而且双方知道具体次数,那么双方仍然没有合作的动机。为什么呢?首先,最后一次大家显然是不合作。在倒数第二次时,双方还是没有合作的动机。因为他们都预知对方在最后一次会背叛。如此推理下去,对两位自私者任何已知次数的游戏,从第一步开始就是双方背叛(LuceandRaiffa1957,pp.94—102)。然而,这个推理并不适用于游戏要进行无限多次的情况。在大多数实际情况下,对策者不能肯定什么时候是他们的最后一次对局。就像稍后要说明的一样,当游戏次数无限时,合作有出现的可能。于是,问题变成了去发现合作出现的充分和必要的条件了。
在本书中,我将考察每次只有两个对策者打交道的情况。尽管一个对策者可以与其他许多人打交道,但可以假设他每次只能与其中的一个打交道。[3] 同时,我们还可以假设对策者能够识别对方并且能记住与其打交道的历史。这种识别和记忆能力使得对策者在作决策时能够参考以往打交道的历史。
曾经有人提出过各种各样的解决"囚徒困境"的办法。每个办法都包含一些附加的改变策略的相互作用的措施,这些措施同时也使问题的性质发生了根本的变化。在许多情况下,这些补救措施是行不通的,所以原来的问题并没有解决。因此我们必须从问题的最基本形式来考虑。
1.对策者没有什么手段可以用来实施威胁或作出许诺(SchellingI960)。由于对策者不会许诺他们自己采取某种特定的策略,因此每个人都得考虑对方可能采用的所有策略。此外,每一个对策者都可以使用所有可能的策略。
2.没有什么办法能够确定对方在某个特定的对局中将如何选择,这就消除了使用"元对策"分析的可能(Howard1971)。"元对策"允许诸如"选择与对方相同的策略"的选择,同时也消除了通过观察对方与第三者对局而形成某种信誉的可能。因此对策者唯一可利用的信息是他们相互作用的历史。
3.不能消灭对方,也不能放弃对局,因此对策者在每次对局时只能选择合作或背叛。
4.不能改变对方的收益值。这个收益值已经包含了每个对策者关于对方利益的考虑(Taylor1976,pp.69—73)。
在这些条件下,没有行动支持的表态是没有意义的。对策者之间的交流只能通过他们的一系列行为来进行。这就是"囚徒困境"的最基本形式。
合作可能出现是因为对策者将再次相遇。这种(再次相遇的)可能性意味着今天作出的选择不仅决定当前对局的结果,而且还影响对策者以后的选择。因此未来会在当前投下它的影子并影响当前的对策局势。
有两个原因使得现在比未来更为重要。首先,对策者倾向于认为未来所得的价值随着时间的推移而减少。其次,对策者总会有些机会不再相遇。这种持续的关系会由于其中一个对策者迁移、改变职业、去世或破产而结束。
由于这些原因,下一步对局的收益总是被看作比当前一步的收益少。处理这个问题的一个自然的办法就是在累积收益值时把下一步对局的收益看作当前一步收益的一部分(Shubik1970)。下一步相对于当前一步的权重(或称为重要性)可以记作w。它表示每一步的收益相对于前一步收益的折扣程度。因此,它是一个折扣系数。
折扣系数可以用来确定整个序列的收益值。看一个简单的例子。假设每一步的重要性只有前一步的一半,即w=1/2,那么,一个双方背叛得1分的序列,在第一步的收益值是1,第二步是1/2,第三步是1/4。这个序列的累积值将是1+1/2+1/4…,它的和是2。一般情况下,每步得1分那么就有1+W+W 2 +W 3 …,当W大于零小于1时,这个无限序列的和具有简单的形式1/(1-W)。如果每一步只值前一步的90%,那么这个丨分的序列就值10分,因为1/(1-W)=1/(1—0.9)=1/0.1-10。相似地,如果w还是0.9,那么双方合作时每步得3分的序列将是30分。
现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛,即"总是背叛"(alwaysdefecting,简称ALLD),另一个对策者采用的策略是"一报还一报",即在第一步合作,然后就采用对方上一步的选择。"一报还一报"意味着在对方每一次背叛之后就背叛一次。当对方采用"一报还一报"时,采用"总是背叛"的对策者,将在第一局得到收益T,在而后的对局中都得他的值(或称为得分)就等于第一步是T,第二步是wP,第三步是w 2 P,如此类推。[4]
"总是背叛"和"一报还一报"都是一种策略。一般说来,一个策略(或决策规则)说明在任何可能出现的局势下如何去做。这个局势本身取决于游戏的历史。因此,一个策略在某个相互作用的格局下可能合作,在另一个格局下则可能背叛。另外,一个策略可以使用概率。例如,一个规则在每一步都完全随机地以相同的概率选择合作和背叛。一个策略还可以巧妙地使用至今为止的对策结果来确定下一步该如何做。例如,一个策略在每一步用复杂的方式(如马尔可夫过程)来仿真对方的行为,然后用统计推理的方法(如贝叶斯分析)来决定那些从长远来说似乎是最好的选择。或者,某个策略可以是其他一些策略的复杂的组合。
你可能忍不住要问:"什么是最好的策略?"换句话说,什么策略能使对策者得到可能的最高分?这个问题问得很好。但是就像以后要说明的一样,独立于对方所用策略之外的最好的决策规则是不存在的。从这个意义上说,"囚徒困境"完全不同于一般游戏,如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步。这种假定是这类游戏的基础,因为在这里,游戏者的利益是完全对抗的。然而"囚徒困境"所表示的情形却完全不同,对策者的利益并不是完全冲突的。双方可以通过合作而得到"对合作的奖励"R,也可以通过背叛而得到"对背叛的惩罚"P。如果你假定对方总是走你最担忧的一步,那么,你可能会认为其他人总是不合作,这就会使你也不合作,最后招来无休止的惩罚。所以与下棋不同,在"囚徒困境"中假定对方一心要赢你是不可靠的。
事实上,在"囚徒困境"中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大,即未来是重要的。换句话说,折扣系数W必须大到使未来在全部收益计算中显得很大。总的来说,如果你认为今后将难以与对方相遇,如果你不太关心自己未来的利益,那么,你现在最好是背叛,而不用担心未来的后果。
这样,我们得到了第一个正式的命题,但却是一个令人伤心的命题,即:如果未来是重要的,就不存在最优策略。
命题1:如果折扣系数w足够大,则不存在独立于对方所采用的策略的最优策略。
证明这个命题是不困难的。设想对方采用"总是背叛"策略,也就是他决不会合作,那么,不难理解你最好也是总是背叛。另外,假定对方采用一个被称为"永久报复"的策略,这个策略首先是采取合作直到你背叛,然后就一直以背叛来报复你。在这种情况下,你的最优策略是决不背叛。因为第一步背叛得到的好处最终将被长期的惩罚所抵消,它将使你得到长期的"惩罚"P而不是"奖励"R。当折扣系数w足够大时,这个论断是正确的。[5] 因此你是否合作,即使在第一步,也取决于对方采用什么样的策略。所以,当w足够大时,不存在最优策略。
在立法机构,如美国参议院的例子中,这个命题说明,如果存在一个很大的机会使得一个议员将与另一个议员再次打交道,那么就不存在独立于其他议员所采用的策略的最优策略。你最好与那些在将来会回报合作的人合作,但不要与那些将来的行为不太受现在影响的人合作(例如参见Hinckley1972)。达到稳定的相互合作的可能性取决于双方继续打交道的机会的大小,即w的大小。在国会的例子中,由于两年一次的议员更换率从头50年的40%下降到近几年的20%左右,两个议员继续打交道的机会增加很快(Young1966,pp.87–90;Polsby1968,Jones1977,p.154;Patterson1978,pp.143—144)。
然而,说继续打交道的机会对于合作发展是必要的并不等于说它是充分的。不存在单一的最优策略的认证留下了这样一个问题,在两个个体有足够大的概率继续打交道的情况下,会出现什么样的行为模式。
在继续研究可能出现的行为之前,我们最好仔细观察"囚徒困境"的框架里包含了哪些现实的特征。幸运的是,这个框架很简单,它避免了许多可能限制分析者的约束性假设。
1.对策者的收益不必是可比较的。例如:对一个记者的奖赏有可能是得到另一个内部消息,而对一个合作的官员的奖赏则可能是一次使他的政策建议得到好评的机会。
2.这些收益不必是对称的。当然从对策者双方的角度来看,收益自然应该绝对相等,但这并不是必要的。例如:你不必假设双方合作的奖励或者其他三个收益参数对每个对策者都同样重要。像前面所提到的,你不必假设它们是可以比较的。必须假设的是,对每个对策者来说,四种收益是按"囚徒困境"的定义要求排序的。
3.对策者的收益值只是相对的,不是绝对的。[6]
4.决定是否合作不必顾及他人的看法。时常会有人想阻拦而不是培育对策者之间的合作。商业上的勾结对参与者有好处,但对他人则可能不利。事实上,绝大部分的贿赂就是一个当事人高兴而其他人厌恶的合作的例子。因此,偶尔这个理论也会反过来被用于如何防止而不是促进合作。
5.不必假设对策者是理性的。不必假设他们总是企图争取最大利益。他们的策略有可能只是简单地反映标准的操作程序、经验、直觉、习惯或模仿他人(Simon1955!CyertandMarch1963)。
6.对策者的行为不必都是有意识的选择。一个人有时会回报一个恩惠,有时不会,他可能不会认真思考他采用的是什么策略。因此不必假设所有的选择都是深思熟虑的。[7]
这个框架之大,不仅包含了人,而且大到国家和小到细菌均包含在内。国家的一些行为显然可以解释为"囚徒困境"中的选择,如:关税的升降。没有必要假设这些行为是理性的或是追求单一目标的结果。相反,它们完全可能是错综复杂的官僚政治的结果(ADison1971)。
同样,在另一个极端,一个有机体不需要脑袋来玩游戏。例如,细菌对它们选择的化学环境是高度敏感的。因此它们能够对其他有机体的行为作出不同的反应。这些行为的条件策略是可以遗传的。而且,一个细菌的行为会影响周围有机体的适应性,就像其他有机体的行为会影响某个细菌的适应性一样。关于这方面的内容,我们将在第五章讨论。
现在先让我们把主要的兴趣放在人和组织上。为了通用性的缘故,我们最好记住没有必要假设人们是多么地深思熟虑和富有洞察力。也不要像社会生物学家一样,假设人类的主要行为是由基因引导的。这里所使用的方法是策略性的而不是遗传性的。
当然,把合作问题抽象为"囚徒困境"要忽略许多实际问题本身的重要特点。例如,这种完全的抽象没有考虑语言交流的可能、第三者的直接影响、一个选择的实现问题以及对方上一次选择的不确定性。在第八章中,一些类似的复杂因素将被加人基本模型中,显然还有许多因素值得考虑和研究。任何一个聪明人都肯定不会在作出重要选择时忽略这些复杂的因素。然而,不考虑这些复杂因素而作出的分析能够帮助我们弄清人们相互作用的一些微妙特征。否则这些特征在人们作出选择时容易被错综复杂的实际情况所淹没。正是现实的复杂性使得抽象的分析变得更有价值。
下一章通过研究什么是囚徒困境中的好策略来探讨合作的产生。使用的是一个新颖的方法:计算机竞赛。对策论专家被邀请提送他们所喜爱的策略。每个策略与其他所有策略逐个对局,看看哪个策略的表现从总体来说是最好的。令人惊讶的是:胜利者是所有提交策略中最简单的一个策略,它就是"一报还一报"。这个策略首先在第一步合作,然后就模仿对方上一步的选择。第二轮计算机竞赛有更多的参赛程序,它们是由一些业余爱好者和专家们提送的,他们都知道第一轮计算机竞赛的结果。然而,第二轮又是"一报还一报"取胜!对竞赛数据的分析揭示了一个成功的决策规则所应有的四个特性:只要对方合作你就合作以避免不必要的冲突;面对他人的无理背叛你是可激怒的;在给挑衅以反击之后你是宽容的;行为要简单清晰,使对方能适应你的行为模式。
这些竞赛的结果表明,在适当的条件下,合作确实能够在没有集权的自私自利者的世界中产生。在第三章中,我们将采用理论方法来探索这些结果究竟能适用多大范围。一系列命题的证明不仅说明了合作产生的条件,而且提供了合作演化的进程。这里先作一个简单的论述。合作的进化要求个体有足够大的机会再次相遇,使得他们能形成在未来打交道的利害关系,如果是这样的话,合作的进化可以分三个阶段。
1.起始阶段:合作可以在一个无条件背叛的世界里产生。零散个体之间几乎没有机会交往,合作也就不会产生。然而,以相互回报合作为宗旨的小群体之间,一旦有交往的可能,合作便会出现。
2.中间阶段:基于回报的策略能够在许多不同类型的策略组成的环境里成长起来。
3.最后阶段:基于回报的合作一旦创建起来,就能防止其他不太合作的策略的侵入。因此,社会进化的齿轮是不可逆转的。
第四章和第五章将具体说明这些结果的适用范围。第四章专门论述有趣的"自己活也让别人活"的系统。它出现在第一次世界大战的堑壕战中。在这次痛苦的冲突中,只要能得到对方士兵的回报,前线的士兵经常忍住不开枪打伤对方。使这个双方自我约束成为可能的是堑壕战的特点,即双方小股单位相互对峙一段相当长的时间。这些对立的士兵们为了保持双方合作的默契,实际上违抗了他们各自上司的命令。仔细观察这个实例可以发现,当合作的条件出现时,合作可以在原来毫无希望的情况下出现且保持稳定。特别是这个"自己活也让别人活"的系统说明了朋友关系不是合作产生的必要条件。在适当的条件下,基于回报的合作甚至可以在对抗双方中产生。
第五章(与进化生物学家威廉·D.汉密尔顿合着)的论述说明,合作可以在没有预见的情况下产生。合作理论可以说明从细菌到鸟的一个很宽范围的生物系统的行为模式。生物系统中的合作即使在参与者不相互联系,或它们没有能力评价自己行为后果的情况下也有产生的可能。使这种可能出现的前提是基因的进化机制和适者生存。一个能够从其他个体得到有利的反应的个体会有更多的后代,而且这些后代将继续这个能从其他个体引出有利反应的行为模式。因此,在适当的条件下,基于回报的合作在生物世界是稳定的。第五章还进一步描述了合作理论在领地、交配和疾病等方面的应用。结论是达尔文所强调的个体优势实际上就是相同或者其至不同种类个体之间合作出现的原因。只要适当的条件出现,合作就能够产生、成长并保持稳定。
虽然预见对于合作的进化不是必要的,但它的确很有帮助。第六章和第七章分别向参与者和改革者提供建议。第六章阐述了合作理论给任何处于"囚徒困境"的人的启示。以参与者的眼光来看,他们的目的就是尽可能做得更好些,而不要管其他人做得怎样。在竞赛结果和理论命题的基础上,我们可以向个体选择提供四个方面的建议:不要妒忌对方的成功,不要首先背叛,要对合作和背叛都作出回报,不要耍小聪明。
了解参与者的观点可以成为探索什么能使合作更容易从自私者中间产生的基础。因此,第七章描绘了一个具有远大眼光的改革者想要通过改变相互作用的条件来促进合作。为此,我们考虑了各种各样的方法,如使对策者之间的相互作用更持久、更经常,教育参与者更多地相互关心;教会他们理解回报的价值。这个改革者的观点为各式各样的问题提供了有远见的建议,从政府的控制力度到吉普赛人的困难,从"报还一报"的道德问题到写条约的艺术。
第八章扩展了合作理论应用的领域。它说明了不同类型的社会结构如何影响合作发展的方式。例如,人们的相互联系经常受到某些可以观察到的特征如性别、年龄、肤色和穿着风格的影响。这些特征导致了以偏见和地位层次为基础的社会结构。社会结构的另一个例子是声誉的作用。为创建和保持某人的声誉而奋斗可能是强烈冲突的主要特征。例如,美国政府1965年对越南战争的逐步升级的主要原因是它急于保持在世界舞台上的声誉以阻止对其利益的其他挑衅。这一章还考虑了政府如何保持它对自己公民的信誉。一个政府不能推行那些必然遭到大多数公民抱怨的规范。要使规范生效就要求所设置的规范能使大多数的公民觉得服从它能得到好处。这个方法揭示了权力运作的基础。工业污染的控制、离婚后对财产的监督都是它的具体应用。
在最后一章,我们的讨论从研究在没有集权的情况下合作如何在自私者中产生,扩展到分析当人们确实互相关心时会发生什么和当有集权时又会发生什么。基本方法还是一样:通过观察个体为了自身利益的所作所为来揭示群体的行为发展。这个方法超越了个人的视野。它告诉我们在给定的情况下如何促进稳定的双边合作。最有价值的发现是:具有预见能力的参与者了解合作理论的真谛后,可以加快合作的进化。
第二部分 合作的出现
第二章 “一报还一报”在计算机竞赛中的胜利
由于"囚徒困境"如此普遍地出现在从个人关系到国际关系的事务中,因此知道在这种情形下采取什么行动最好是很有用的。可是,第一章的命题说明没有最好的策略可用。什么是最好的策略部分取决于另一对策者会怎么做。而且,另一对策者会怎么做又很大程度地取决于这个对策者对你行为的预期。
为了摆脱这种困惑,可以通过收集那些有关"囚徒困境"的资料来获得有用的建议。幸运的是,在这个方面已经有了很多的研究。
通过使用实验对象,心理学家们已经发现,在"重复囚徒困境"中,所得到的合作和获得合作的特定模式取决于游戏的环境、各个对策者的品质特征及对策者之间的关系等各式各样的因素。由于在这个游戏中的行为反映了人们如此多的重要因素,"囚徒困境"已经变为一个标准的方式,用来探讨社会心理学中的各种问题,从中非的西方化的影响(Bethlehem1975)、职业妇女的侵犯性是否存在(Baefsky and Berger1974)到抽象和具体的思维风格的不同结果(Nydegger1974)。在过去的15年中,《心理学摘要》引用了好几百篇有关"囚徒困境"的文章。"重复囚徒困境"已成为社会心理学的标准实验手段。
与作为实验基础同样重要的是,用"囚徒困境"作为主要社会过程模型的概念基础。理查森的军备竞赛模型就是以"囚徒困境"的相互作用为基础的,不同的只是用竞争国家的军备预算每年玩一次游戏(Richardson1960;Zinnes1976,pp.330—340)。卖方市场的竞争也可以用"囚徒困境"来仿真(Samuelson1973,pp.503—505)。普遍存在的由集体行动产生集体利益的问题也可以作为多人的"囚徒困境"来分析(G.Hardin1982)。就连投票交易也被仿真成"囚徒困境"(Rikerand&ams1973)。事实上,许多重要的政治、社会和经济过程的最好的模型都是以"囚徒困境"为基础的。
还有第三类关于"囚徒困境"的文献,它既不是实验室里也不是实际生活中的经验问题,而是用抽象的博弈论来分析一些基本策略问题的特性,如理性的意义(LuceandRaiffa1957)、影响他人的选择(Schelling1973)和没有强迫的合作(Taylor1976)。
不幸的是,这三类文献都没有揭示如何更好地玩这个游戏。实验研究也没有什么帮助,因为所有实验都是基于对第一次见到这个游戏的人的选择的分析。他们对策略的微妙之处的认识是很有限的。虽然实验对象可能对每天都会发生的"囚徒困境"有许多经验,但是他们在正规的实验中使用这些经验的能力是有限的,有些"囚徒困境"的应用文献研究了富有经验的经济、政治方面的名流在实际情况下的选择。但是结果并没有多大帮助,因为大多数高水平的相互作用的进程相对来说是缓慢的,而且要改变环境是困难的。用这种方式分析和认同的选择总共不到十几个。最后,对策略相互作用的抽象分析通常包括对"重复囚徒困境"的一些变体的研究。它们通过引入一些对策上的变化,诸如允许相互依赖的选择(Howard1966,Rapoport,1967),或者给背叛加罚(TidemanandTullock1976,Clarke1980)来消除困境本身。
为了学到更多关于在"重复囚徒困境"中如何有效地选择,需要一个新的方法,这个方法必须从对非零和博弈所固有的策略可能性有深刻理解的人那里得到帮助。在非零和博弈中参与者的利益一部分是一致的,一部分是冲突的。应该考虑有关非零和博弈的两个重要事实:首先,第一章的命题说明,一个策略是有效的不仅取决于一个特定策略的特征,而且取决于它所要遭遇的其他策略的特性。其次,根据第一点,一个有效的策略必须在任何时候都能考虑到相互作用的历史。
研究在"重复囚徒困境"中有效选择的计算机竞赛满足了这些要求。在计算机竞赛中,每个参加者写一个体现在每一步中选择合作或不合作的规则的程序,这个程序在作选择时可以利用对局的历史。如果参加者主要是从那些熟悉"囚徒困境"的人中征募的,那么参加者的程序必将与其他有见识的人的程序相遇。这样就能保证竞赛的水平。
为了看看到底会发生什么,我邀请了博弈论专家提送程序参加上述的计算机竞赛。竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。按照事先宣布的竞赛规则,每一个参赛程序还要与它自己以及一个"随机"程序相遇。这个随机程序,以相等的概率随机地选择合作或背叛。每轮游戏有200次对局。[8] 每次对局的支付矩阵与在第一章中描述的一样。对双方合作奖励每人3分,对双方背叛只给1分。如果一个人背叛而另一人合作,背叛者得5分,合作者得零分。
没有参赛者因为超过规定时间而被取消资格。事实上为了得到每对参赛者得分的更稳定的估计,整个循环赛重复了5次,一共是12万次对局,24万个不同的选择。
提交的14个程序,来自5个学科:心理学、经济学、政治学、数学和社会学。附录A中列出了这些送交程序的人及其所属学科,并给出了他们的程序的名次和得分。
竞赛的一个显著特点是它允许不同学科的人以相同的形式和语言进行相互作用。绝大部分程序是来自那些已经在博弈论或在"囚徒困境"方面发表过论文的人。
由多伦多大学阿纳托尔·拉帕波特教授提交的"一报还一报"策略赢得了竞赛。它是所有提交程序中最简单的,结果却是最好的!
"一报还一报"开始选择合作,然后就按对方上一步的选择去做。这个决策规则是有关"囚徒困境"的最著名的也是被讨论最多的策略。它容易理解也容易被编成程序。它因为能引发人们的合作而著名(Oskamp1971,W.Wilson1971)。作为一个参赛者,它具有不易被剥削且能和与自己相同的策略相处很好的特性。在与所有参赛者都知道的"随机"程序相遇时,它就显出太宽容的不足来。
另外,众所周知,"一报还一报"是一个很有力的竞争者,在一次预赛中"一报还一报"名列第二,在另一次预赛中它名列第一。设计计算机竞赛程序的绝大部分人都知道这些结果,关于预赛的情况都通知了他们。所以毫不奇怪,他们中的许多人都使用了"一报还一报"的原则并且试图改进它。令人惊奇的是这些提交的复杂程序没有一个能够表现得像原本的"一报还一报"一样好。
这与计算机象棋比赛相反,计算机象棋比赛显然需要一定的复杂性。例如:在第二届世界计算机国际象棋锦标赛上,最简单的程序名列最后(Jennings1978),它是由瑞士苏黎士高级工学院的约翰·乔斯(JohannJoss)提交的。这次他也提交了一个程序参加计算机"囚徒困境"竞赛。他的程序对"一报还一报"作了一些小改动。但是,他的改动和其他人一样,只降低了这个策略的成绩。
对结果的分析表明,既不是这些参赛者的学科,也不是程序的长短使得一个规则相对来说是成功的。那么,原因是什么呢?
在回答这个问题之前,先解释一下竞赛的计分,在200次对局的游戏中,优秀成绩的基准线是600分,它相当于双方总是合作时对策者的得分。差劣成绩的基准线是200分,它相当于双方从来不合作时对策者的得分。虽然从0到1000分之间的得分是可能的,但大多数的得分在200和600分之间。胜利者——"一报还一报"一每次游戏的平均得分是504分。
出乎意料的是,有一个特性可以把得分相对高的程序和得分相对低的程序区别开来,它就是善良性,即从不首先背叛。为了方便地分析这个竞赛,一个善良的规则的定义被放宽到包括那些在最后几步(如199步)之前不背叛的规则。名列前8名的参赛者(或规则)都是善良的,其他则都不是。在善良的规则和其他规则的得分之间有个很大的差距。善良的规则的竞赛平均得分在472分到504分之间,而不善良的规则平均得分是401分。因此,不首先背叛或至少在游戏快要结束之前不背叛,是区分这次计算机"囚徒困境"竞赛中成功的规则和不成功的规则的唯一特性。
每一个善良的规则与其他7个善良的规则及它们自己相遇时,得分大约是600分,这是因为当两个善良规则相遇时,直到游戏结束之前它们都是相互合作的,实际上游戏终了战术的些微不同对得分没有太大的影响。
由于所有的善良规则相互之间相遇都得到大约600分,所以区分它们之间的相对名次的是它们与不善良规则相遇时的得分。这是很显然的。不显然的是,这8个名列前茅的规则的相对名次很大程度上只取决于其他7个程序中的2个。这2个规则对谁能得第一是关键因素,因为它们虽然自己表现得不怎么样,但却能决定前几个竞争者的名次。
影响排名的最重要的规则是以"结果最大化"原则为基础的。这个原则原来是用来解释在"囚徒困境"实验中被试验者的行为的(Downing1975),这个被称为"唐宁"(DOWNING)的规则颇具实力,是一个特别有趣的规则。作为一个相当复杂的决策规则的范例,"唐宁"很值得研究。和大多数其他的规则不同,它不只是"一报还一报"的变形,而是试图了解对方并在这个了解的基础上作出能得到长期的最好得分的选择。具体想法是:如果对方似乎不对"唐宁"的行为作出反应的话,"唐宁"将试着背叛,如果对方反应的话,"唐宁"就合作。为了判断对方的反应,"唐宁"估计对方在它合作之后合作的概率和在它背叛之后合作的概率。每走一步,它便对这两个条件概率作出新的估计,然后在假设它已经正确估计对方的情况下,作出自己长期支付最大化的选择。如果这两个条件概率具有相似的值,那么"唐宁"将决定背叛,因为对方似乎不管"唐宁"合作与否都做同样的事。相反,如果对方倾向于在"唐宁"合作之后合作而不是"唐宁"背叛之后合作,对方就是有反应的,那么,"唐宁"就将计算出对于有反应的对手最好是合作。在一定的条件下,"唐宁"甚至确定最好的策略是交替地合作、背叛。
在游戏一开始,"唐宁"不知道对方的这两个条件概率值。于是它假设它们都是0.5,在游戏进行之中,有实际的信息出现时它就不用这个估计了。
这是一个相当复杂的决策规则,但是它在实践中却有一个缺陷。由于初始假设对方是不反应的,"唐宁"在头两步肯定是背叛的。这头两次背叛遭致许多其他规则的惩罚,因此事情就糟在这个坏的开头上。然而,正是因为这样,"唐宁"才能成为决定前几名竞争者的名次的关键规则。第一名的一报还一报"和第二名的"泰德曼和奇露茨"(TIDEMANANDCHIHRUZZI)的反应使得"唐宁"认为,与它们合作比背叛更有好处,而其他所有的善良规则与"唐宁"相遇就走下坡路。
善良的规则在竞赛中之所以表现好在很大程度上是由于它们相互之间相处得很好,而且由于具有一定的数量使得它们能够大幅度相互提高它们的平均得分。只要对方不背叛,每个善良的规则一定是持续合作直到最后一步。如果有个背叛将会怎样呢?不同的规则的反应是很不一样的。而且它们的反应对于确定它们的最后成功是很重要的。一个重要的概念是决策规则的宽容性。一个规则的宽容性可以非正规地描述成它在对方背叛之后的合作倾向。[9]
所有善良规则中,得分最低的就是最少宽容性的规则,它是"弗里德曼"(FRIEDMAN),—个采用永久报复的完全不宽容的规则。它决不首先背叛,但是一旦对方背叛(即使是一次),"弗里德曼"就从此一直背叛下去。相反地,冠军"一报还一报"只不宽容一步,而后便完全原谅那个背叛。在一次惩罚之后,它就让过去的过去了。
不善良的规则在竞赛中表现不佳的主要原因之一就是,竞赛中的大部分规则都不是很宽容的。这里举一个具体的例子。"乔斯"(JOSS)是一个狡诈的规则,它试图偶尔进行背叛而不受惩罚。它是"一报还一报"的变形。像"一报还一报"一样,它总是在对方背叛之后立即背叛。但是它十次中会有一次是在对方合作之后背叛,而不是在对方合作之后总是合作。因此,它试图偷偷地偶尔占对方的便宜。
"一报还一报"得236分,"乔斯"得241分。
1——双方合作;
2——只有"一报还一报"合作;
3——只有"乔斯"合作;
4一一双方均不合作。
在第25步,"乔斯"又随机选择了另一个背叛。当然"一报还一报"在下一步也背叛。这样,另一回合的反射又开始了,它使得"乔斯"在奇数步时也背叛。这两个回合的反射使得双方在25步以后都是背叛。这一连串的双方背叛意味着在而后的游戏中每步它们只能得到1分。这个游戏的最后成绩是"一报还一报"得236分,"乔斯"得241分。我们注意到"乔斯"比"一报还一报"好一些,但它们都表现得很差。[10]
这个规则只是"一报还一报"的稍稍变形。但是事实上它的整体绩效却差多了。弄清楚这里的原因是很有趣的。表2.1列出了"乔斯"和"一报还一报"对局的每步记录。开始时双方合作,但是在第6步"乔斯"随机选择了一步背叛。下一步"乔斯"又合作。但是"一报还一报"用背叛来反应"乔斯"的上一步背叛,然后"乔斯"用背叛来反应"一报还一报"的背叛。因此,"乔斯"在第6步的一个背叛引起了"乔斯"和"一报还一报"之间背叛的反射,即造成了"乔斯"在而后一系列的偶数步时背叛和"一报还一报"在奇数步时背叛。
问题就出在"乔斯"在对方合作之后偶尔的背叛,再加上双方缺少宽容。从这里得到的启示是,如果双方以"乔斯"和"一报还一报"一样的方式进行报复的话,"乔斯"的贪婪就得不到好处。
这次竞赛的主要教训是认识到在双方竞争的环境下,避免反射效应是很重要的。一旦一方的背叛诱发一长串的报复和反报复,双方都要吃亏。要对选择作出精辟的分析必须深入三个层次来考虑这种反射效应。第一层次的分析是选择的直接效果。这是很容易的,因为背叛总是比合作赢得多。第二层次是考虑间接效果,即考虑对方是否处罚背叛。许多参赛者都考虑到了这个层次。但是第三层次的考虑要深刻得多,即为了反应对方的背叛,有人就会重复甚至扩大自己以前的挑衅性的选择。因此,一个单一的背叛从它的直接效果甚至第二层次的效果来说是成功的。但是真正的代价在于第三层次,即一个孤立的背叛变成了一连串无休止的报复。由于没有认识到这一点,许多程序到头来惩罚了自己。由于这种自我惩罚被对方延迟了几步,所以许多决策规则都没有考虑到这一点。
尽管事实上任何改善"一报还一报"的企图都没有奏效,但还是可以容易地找到在这次竞赛的条件下能比一报还一报"表现得更好的几个规则。这些规则的存在可以给轻信"以牙还牙"肯定是最好的策略的人一个警告。至少有三个规则如果参赛的话将赢得竞赛。
为了向可能的参赛者说明如何提交程序,一个示范程序被提供给了大家,事实上,如果有人简单地把它剪下后寄来,它将赢得这次竞赛。可惜没有人这么做。这个简单的程序只有在对方前两步连续背叛后才背叛。它是"一报还一报"的更加宽容的版本,它从不惩罚孤立的背叛。这个"两报还一报"(TITFORTWOTATS)规则的出色表现揭示了参赛者的一个共同错误,即预期相对于"一报还一报"更少点宽容能得到更多的好处,然而,事实上是更多点宽容才能得到更多好处。这个惊人的发现表明,即使是战略专家也没有给宽容的重要性以足够的重视。
另一个可以赢得竞赛的规则也被提供给参赛者们。它是预赛的胜利者,有关它的情况被列在征募参赛者的报告中。这个被称为"向前看"(LOOKAHEAD)的规则,是受到下棋程序中人工智能技术的启发。有趣的是,这个吸收人工智能技术的规则事实上比任何一个由博弈论专家专门设计来参加"囚徒困境"竞赛的规则要强。
第三个可以赢得竞赛的是个对"唐宁"稍加改动的规则。如果"唐宁"初始假设其他人是反应的而不是不反应的,它也会赢而且能赢得很多。那么这个使其他人成为胜利者的关键因素,自己就可以成为胜利者。"唐宁"关于其他人的初始假设是悲观的,如果持乐观态度,不仅假设更准确,而且能有更成功的表现。那时,"唐宁"就该名列第一而不是第十了。[11]
以上补充规则的分析结果支持了从分析参赛规则本身所得到的观点:即参赛者为了自己的利益太富于竞争性。首先,许多人在游戏中没有受到挑衅就早早地开始背叛,这个特点从长远来看是要付出大代价的。其次,任何参赛者所显示出来的宽容性比理想的要小得多("唐宁"可能是例外)。第三,最与众不同的规则"唐宁",由于对其他人的反应所作的初始假设太悲观而做了不少蠢事。
竞赛结果的分析表明,为了更好地应付双方竞争的环境有许多东西要学。即使是政治学、社会学、经济学、心理学和数学界的策略专家,也会犯诸如太计较自己的利益、不够宽容和对对方的反应太悲观等错误。一个特定策略的有效性不仅取决于它自己的特性,而且取决于它要相遇的其他策略的特性。因此,单一竞赛的结果是不能最后说明问题的,需要进行第二轮竞赛。
第二轮比赛的结果为洞察"囚徒困境"中有效选择的特性提供了强有力的根据,因为第二轮竞赛的参赛者,都得到了一份关于第一轮竞赛的详细分析报告,其中包括那些可以表现得很好的补充规则。因此他们不仅知道第一轮竞赛的结果,而且知道用于分析成功的思想和概念及所发现的易犯的策略性错误。另外,每个人都知道其他人也知道这些事。因此,第二轮比赛总该比第一轮有一个更高的起点,可以期望它的结果对于指导如何在"囚徒困境"中有效地选择是更有价值的。
第二轮的参赛人数大大超过第一轮,反应比预期的大得多,一共有来自6个国家的62个参赛者,他们大都是通过在小型计算机用户的杂志上的通告而征募来的。参加第一轮比赛的对策论专家们也被邀请再试一次。参赛者的范围从10岁的计算机爱好者到计算机科学、物理学、经济学、心理学、数学、社会学、政治学和进化生物学的教授,他们来自美国、加拿大、英国、挪威、瑞士和新西兰。
第二轮竞赛提供了一个机会,验证了从第一轮比赛分析中得出的结论和发现解释成功和失败的新概念。参赛者还从第一轮竞赛的经验中吸取了自己的教训,但不同的人得到的教训不同。第二轮竞赛中特别具有启发性的正是基于不同教训的参赛者相互作用的方式,"一报还一报"是第一轮中提交的最简单的程序,但它赢得了竞赛。它也是第二轮中最简单的程序,又赢得了第二轮的竞赛。虽然所有的参赛者都知道"一报还一报"赢得第一轮竞赛,但没有人能设计出一个比它更好的程序。
第二轮的参赛者都知道这个规则,因为他们都得到了有关第一轮竞赛的报告,报告说明了"一报还一报"是至今为止最成功的规则,阐述了它如何能诱导出很高程度的合作以及它如何是不可欺负的和它如何赢得第一轮比赛。报告还解释了它成功的某些原因,特别是它决不首先背叛("善良性")和它在对方背叛之后的合作倾向(只进行一次惩罚的"宽容性")。
尽管比赛规则清楚地说明允许任何人提交任何程序,即使是其他人写的程序,但是只有一个人提交"一报还一报",他就是在第一轮中提交"一报还一报"的阿纳托尔·拉帕波特。
第二轮比赛是在与第一轮比赛相同的方式下进行的,只是游戏最后一步的影响被消除了。正如在比赛规则中说明的,每一步结束游戏的概率为0.00346[12] ,这相当于设定w=0.99654。由于没人能知道最后一步会什么时候到来,因此在第二轮中最后一步的影响就被完全避免了。
另外,没有任何参赛者的个人特征和他提交的规则的竞赛成绩之间存在着显著的相关性。教授们并没有比其他人做得更好,美国人也没有比其他国家的人做得好,用Fortran写程序的也没有比用Basic的好,尽管Fortran通常能在更多类型的计算机上使用。参赛者的名单按照他们的成绩顺序列在附录A中,并附上了有关他们和他们的参赛程序的信息。
总的来说,尽管"一报还一报"是胜利了,但短的程序并没有比长的程序表现得更好。同样,在另一方面,长的(通常是更复杂的)程序也没有比短的程序做得更好。要确定什么决定了第二轮的胜利是件不容易的事。因为63个规则(包括随机程序)在循环赛中有3969个配对方式。这个特大的竞赛得分矩阵列在附录A中,并附有参赛者和他们程序的信息。在第二轮竞赛中一共有上百万次的对局。
和在第一轮一样,善良得到了回报。首先背叛通常要付出很大代价。超过一半的参赛程序是善良的。显然大部分的参赛者吸收了第一轮中首先背叛没有好处的教训。
在第二轮中,一个规则的表现和它是否善良之间同样有很大的相关性。在前15名的规则中,只有一个不是善良的(它名列第八)。在最后15名规则中只有一个是善良的程序。一个规则是否善良和它的竞赛得分的相关性是有意义的,其值为0.58。
区分善良规则好坏的一个特征是看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为"报复性的",如果它在对方的"无缘无故"的背叛之后立即以背叛报复。"无缘无故"的定义是不太明确的。但是,问题在于,除非一个策略能迅速对来自对方的挑战作出反应,否则,对方将简单地从这样一个好说话的策略身上获得越来越多的好处。
在第二轮比赛中,有好几个规则故意使用若干次背叛试试看它们能否讨到便宜。因此,在很大程度上,决定善良规则的最后名次的是它们能否很好地应付这些挑战。这些挑战者中有两个是特别重要的,我把它们称为"检验者"(TESTER)和"镇定者"(TRQUILIZER)。
"检验者"是由戴维·格拉德斯坦(DavidGladstein)提交的,在竞赛中名列46名。它被设计成专门欺负软骨头。但是一旦对方表示出不可欺负性,它就罢手。这个规则的不寻常之处是为了检验对方的反应,它在第一步就背叛,如果对方背叛,它就赶快抱歉,回之以合作。然后在其余的步中采用"一报还一报"。如果对方不反应它的第一步背叛,它就在第二步和第三步合作,但是在而后的步中它就每隔一步背叛一次。"检验者"与那几个在第一轮竞赛中可能取胜的补充规则对局时占了不少便宜。例如,"两报还一报"只有在对方前两步连续背叛时才背叛。但"检验者"从不连续背叛两次。因此"两报还一报"总是宽宏大量地与"检验者"合作,而被占了不少便宜。虽然"检验者"自己在竞赛中总的表现并不佳,但是它让那些"好说话"的规则吃了大亏。
"检验者"给一些在笫一轮竞赛中表现颇佳的规则带来了麻烦,其中包括莱斯利·唐宁(LeslieDowning)的结果最大化原则的三个变形规则。在第一轮中看来很有希望的"唐宁"的基础上,有两个分别提交的"改进的唐宁"程序,它们来自斯坦利·F.奎尔(StanleyF.Quayle)和莱斯利·唐宁自己。还有一个稍加变化的版本来自一个年轻的竞争者,11岁的史蒂夫·纽曼(SteveNewman)。可是,这三个都被"检验者"占了便宜,因为它们都计算出对于一个在自己合作之后有超过一半时间合作的程序,最好是继续与它保持合作。实际上如果它们像"一报还一报"及那些名列前茅的程序那样在第二步就立即用背叛反击"检验者"的话,它们的处境就会好得多。这可以使得"检验者"赶快抱歉,而后的情况就好多了。
"镇定者"采用更加"聪明"的方式来占人家的便宜。因此更难对付。"镇定者"首先争取与对方创建双方合作的关系,然后才偶尔试探看看是否有便宜可占。它是由克雷格·费瑟斯(CraigFeathers)提交的,在竞赛中名列27。这个规则通常是合作的。但是如果对方经常背叛的话,它就背叛。因此只要对方合作,它就会在开头十几步或二十几步中合作,然后再夹入一两次背叛。等到双方的合作已经创建,它指望能哄骗对方原谅它的偶尔背叛。如果对方继续合作,这种背叛就更加经常出现。然而只要"镇定者"平均得分保持在每步2.25分以上,它就不会连续背叛两次,而且背叛不会超过总数的1/4。它尽最避免自己做得太过分了。
对付像"检验者"和"镇定者"这类挑战性规则的最好办法是时刻准备报复来自对方的"无缘无故"的背叛。因此,善良能得到好处,报复也能得到好处。"一报还一报"综合了这些优点,它是善良的、宽容的和具报复性的。它从不首先背叛,它在作一次反击后就原谅一个孤立的背叛。但是不管过去相处的关系如何好,它总能被一个背叛所激怒。
第一轮竞赛的教训影响到第二轮竞赛的环境,因为参赛者都熟悉这些结果。第一轮计算机"囚徒困境"竞赛的报告(Axelrod1980a)总结了善良和宽容的好处,第二轮的参赛者都知道,像"两报还一报"和"改进的唐宁"这样宽容的规则如果参加第一轮竞赛的话,可以比"一报还一报"表现得更好。
在第二轮的竞赛中,许多参赛者显然希望这些结论还能成立。在62个参赛程序中,39个是善良的并且它们差不多都具有一定程度的宽容性。"两报还一报"由英国的进化生物学家约翰·梅纳德·史密斯(JohnMaynardSmith)提交,但它只名列24。如前所述有两个人提交"改进的唐宁",但它在第二轮比赛中名次落在了后边。
在从第一轮比赛中吸取不同教训的人之间的对局中似乎出现了一些有趣的现象,第一轮竞赛的教训一是要善良和宽容,教训二是要多占便宜,即如果其他人是善良和宽容的,那么就可以占他们的便宜。在第二轮中吸取教训一的人受到了吸取教训二的人的伤害。在第二轮中,像"镇定者"和"检验者"这样的规则,有效地剥削了那些太好说话的规则。但是吸取教训二的人自己总体表现也不佳。原因是在试图占他人便宜时,他们经常受到足够的惩罚以致双方的最终得分比双方合作可能得到的少。像"镇定者"和"检验者",只分别名列27和46。它们与只有不到1/3的规则相遇的得分超过"一报还一报"。没有任何试图使用教训二来占便宜的规则名列前茅。
虽然吸取教训二的规则能伤害吸取教训一的规则,但是在竞赛中没有任何参赛程序能从企图剥削"好说话"的程序中得到比它所受到的损害更多的好处。一些成功的程序倾向于对"一报还一报"作一些小的改进,以识别并用总是背叛对付那些似乎随机的和非常不合作的家伙。但这些想法的实现并没有比原本的"一报还一报"表现得更好,因为"一报还一报"与大家都相处得很好。就像它赢得第一轮竞赛一样,它赢得了第二轮竞赛。
现在要问的是,如果参赛程序的分布有很大的不同,第二轮竞赛的结果是否会有很大的变化?换一个方式问:"一报还一报"在多样化的环境中也能表现得很好吗?也就是说,它是否具有鲁棒性(robust)?回答这个问题的一个好办法是构造一系列假想的竞赛,这些竞赛分别具有完全不同类型的参赛规则。附录A中介绍了构造这些迥然不同的竞赛的方法。结果是"一报还一报"赢了这6个变形竞赛中的5个,在第6个中它名列第二。这些结果有力地证明了"一报还一报"的成功具有很高的鲁棒性。
检验这些结果鲁棒性的另一个方式是构造一系列假想的未来竞赛。一些规则将由于它们不太成功而不再出现在未来的竞赛中,而那些成功的规则将继续出现。这样的一系列竞赛,有助于我们分析在大部分参赛规则是较成功的,而不太成功的规则却很少见的环境中,会出现什么情况。这个分析是对一个规则的性能的很严格的检验。因为持续的成功要求这个规则必须与其他成功的规则很好地相处。
进化生物学提供了一个很有用的方法来考虑这样的动态问题(Trivers1971,Dawkins1976,pp.197—202;MaynardSmith1978)。想象有那么一群同种类的动物,它们相互之间经常接触。假设这种接触是以"囚徒困境"形式进行的。当两个动物相遇时,它们可以相互合作或者相互不合作,或者一个动物可以占另一个的便宜。进一步假设每个动物都能识别出那些曾经打过交道的动物,并能记住它们的一些突出特点,如是否经常合作等。一轮竞赛可以看作是仿真这些动物一代的行为。每种决策规则都被一大群动物采用,即一个动物既会遇到使用不同决策规则的动物,也会遇上使用同样决策规则的动物。
这种模拟的意义在于它可以仿真未来的竞赛,成功的参赛规则更有可能在下一轮中被釆用,而不成功的规则很少再被采用。更准确地说,一个给定规则的拷贝(或称为后代)的数量与它的竞赛得分成正比。我们可以简单地把个体所得的平均收益比看成个体的后代的期望数之比。例如在第一轮竞赛中一个规则得分是另一个规则的两倍,那么,在下一轮中提交的这个规则就是另一个规则的两倍。[13] 因此,像"随机"程序在第二代中就显得不重要了,而"一报还一报"和其他名列前茅的规则就会多起来。
在人类活动中,一个得分不佳的规则不太可能在将来出现的原因有几个。一个可能是人们会尝试不同的策略,然后坚持使用那些看来是成功的策略。另一个可能是使用一种规则的人看到另一些规则更为成功,他就改换采用这些更为成功的策略。还有一种可能则是一个占据关键地位的人,如国会议员或公司经理,如果他采用的策略不是很成功的,他就会被赶下台。因此在人类事务中的学习、模仿和选择使得这一过程得以进行,即相对不成功的策略在将来很少有机会再出现。对于"囚徒困境"竞赛,这个过程的仿真实际上是相当简单的。竞赛的矩阵给出了每个规则与其他规则相遇所得的分数。在某一代竞赛中规则之间的得分比就可以计算出这些规则在下一代竞赛中出现的比例。[14] 一个策略表现得越好,所占的比例就会增加越多。
这些结果显示了一个很有趣的过程。首先发生的是,名列最后11名的规则到第五代时就剩下原来的一半,而名列中间的规则保持原来的规模,名列前茅的规则却逐渐增加。到了第50代,名列最后1/3的规 则实质上已经消失,大部分名列中间的规则开始下降。而名列前1/3的规则在继续增长(参见图2.1)。
这个过程仿真了适者生存,一个在当前规则分布中平均来说是成功的规则将在下一代的规则分布中占更大的比例。开始时,所有类型的成功规则都将很快增长。但是在不成功的规则消失后,就要求成功的规则必须能与其他成功的规则相抗衡。
由于它没有引入新的行为规则,这个仿真提供的是一个生态的方法,它与允许通过变异引入新的策略的进化的方法不同。在这个生态的方法中,只改变给定规则的分布。不太成功的规则变得更少了,成功的规则得到了增长。个体类型的统计分布每一代都在变,它改变了每个个体相互作用的环境。
一开始,差的和好的程序具有相同的比例。但是随着时间的推移,差的被淘汰,好的则繁荣起来。如果成功是来自与其他成功的规则相互作用的话,这个成功将孕育着更多成功。另一方面,如果一个决策规则的成功是靠占人家的便宜得到的,那么当这些被占便宜的规则消失后,剥削者赖以成功的基础就被腐蚀了,剥削者也就要遭受同样的命运。
"哈林顿"(HARRINGTON),这个在第二轮竞赛的前15名中唯一的非善良规则,提供了生态消亡的一个绝好的例子。在生态竞赛的头200代左右,和"一报还一报"及其他成功的善良程序一样,"哈林顿"的百分比也在增长,这是因为"哈林顿"是一个占便宜的策略。但是到了第200代,情况就发生了转折性的变化。不太成功的程序已经基本消失,这意味着能被"哈林顿"占便宜的傻大头越来越少。不久"哈林顿"就赶不上那些成功的善良的规则,到第1000代,"哈林顿"就像被它占便宜的傻大头一样消失了。
生态分析表明,与那些本身得分并不佳的程序相遇时干得不错,这只不过是在经历一个自我毁灭的过程。非善良者在开头还显得挺有希望的,但是时间一长它就摧毁了它自己赖以成功的基础。
生态方法的结果说明了"一报还一报"的又一个胜利。在最初的竞赛中"一报还一报"领先一点点,而且在整个生态仿真过程中一直保持领先。到了第1000代,它是最成功的规则,并且比任何一个其他规则都增长得快。
"一报还一报"的所有记录是令人难忘的。概括地说,在第二轮竞赛中,"一报还一报"是62个参赛者中平均得分最高的规则。在6次为了反应不同类型规则的影响而构造的假想竞赛中,它又获得5次最高分和1次第二名。最后,在竞赛的生态仿真中它一直保持领先。加上它在第一轮竞赛中的胜利和它在实验室的对策实验中的良好表现。"一报还一报"显然是一个非常成功的策略。
第一章的命题1表明不存在独立于环境的绝对最好的规则。"一报还一报"的成功可以说明的是,它是一个很具鲁棒性的规则:即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和"一报还一报"很好相处就要求和它合作,这反过来就帮助了"一报还一报"。即使那些像"检验者"一样被设计成伺机占便宜而不被惩罚的规则,也很快向"一报还一报"道歉。任何想占"一报还一报"便宜的规则最终将伤害自己。
"一报还一报"从自己的不可欺负性得到好处是因为以下三个条件得到了满足:
1.遇到"一报还一报"的可能性是显著的。
2.一旦相遇,"一报还一报"很容易被识别出来。
3.一旦被识别出来,"一报还一报"的不可欺负性就显示出来。
因此,"一报还一报"从它自己的清晰性中得到好处。
另一方面,"一报还一报"放弃了占他人便宜的可能性。这种机会有时是很有利可图的,但是在广泛的环境中,试图占便宜而引来的问题也多种多样。首先,如果一个规则用背叛试探是否可以占便宜,它就得冒被那些可激怒的规则报复的风险。第二,双方的反击一旦开始,就很难自己解脱。最后,试图识别那些不反应的规则(如"随机"规则或者那些过分不合作的规则)并放弃与它们合作的努力,经常错误地导致放弃与其他一些规则的合作,而这些规则是可以被有耐心的规则像"一报还一报"挽救的。既能占便宜又不会付出太大的代价是第二轮竞赛中任何一个参赛程序都没有实现的。
"一报还一报"的稳定成功的原因是它综合了善良性、报复性、宽容性和淸晰性。它的善良性防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作,它的清晰性使它容易被对方理解,从而引出长期的合作。
第三章 合作的建立
第二章的竞赛方法探讨了当一个给定的个体与许多使用各种不同策略的其他个体相互作用时所发生的情况。结果说明了"一报还一报"的明显成功。而且,仿真未来竞赛的生态分析表明,"一报还一报"将继续繁荣,最终被大家所采用。
假设每个人最终都采用同样的策略,然后将会发生什么呢?人们有没有什么理由采用不同的策略呢?或者说,大家会保持选择这个公共的策略吗?
回答这个问题的一个很有用的方法是由进化生物学家约翰·梅纳德·史密斯(MaynardSmith1974and1978)提出的。这个方法假设存在一个全部采用某一个特定策略的群体和一个采用另外不同策略的变异个体。如果这个变异个体能得到的收益比群体中的个体得到的更多,那就称这个变异策略能侵入这个群体。换句话说,整个群体都采用一个策略,而一个采用新的策略的个体进到这个群体中来。这个新来者将只和原有群体中的个体相遇。而原有群体中的个体可以看作只和原有群体中的另一些个体相遇,因为新来者只是群体中可以忽略的部分。因此,如果新来的个体在与原有的个体相遇时比两个原有的个体相遇时得分高,那么就称新来的策略可以侵入原有策略。由于原有的个体几乎占有整个群体,所以侵入的概念等价于这个变异的个体干得比群体平均要好。这就直接导出了进化方法的一个关键的概念:如果一个策略不能被其他策略侵入,这个策略就是集体稳定的。[15] 这个方法的生物学意义是基于用适应性(即生存和后代的数量)来解释博弈的收益。由于所有变异都是可能的,如果有任何一个个体能侵入一个给定的群体,就可以假定变异有机会做到这一点。因此,只有集体稳定的策略才能在长期的均衡中使自己持续地作为大家都采用的策略。生物学的应用将在笫五章中讨论。但现在要指出的是,集体稳定策略的重要性在于只有它能面对任何可能的变异而保持整个群体的稳定。把集体稳定性应用到对人类行为的分析是为了发现什么样的策略能持续被一个群体采用而不至于去采用其他可能的策略。如果有一个更成功的可选策略存在的话,它就可能被"变异"的个体通过有意识的分析,或者通过"试错方法"或者只不过是幸运来发现。如果所有人都采用一个特定的策略而有一些其他策略能在当前群体的环境中做得更好,那么迟早会有人发现这些策略的。所以只有不可侵入的策略才能使它自己持续地作为大家所采用的策略。
需要提醒大家的是关于集体稳定策略的定义,它假设那些尝试新异策略的个体之间没有太多的接触。[16] 就像以后要说明的一样,如果他们以小群体出现,情况将可能有新的非常重要的发展。
把集体稳定性的概念应用到"重复囚徒困境",其问题在于很难真正地确定哪个策略具有集体稳定性,哪个没有。有人通过局限于分析简单策略的情况或者只考虑一些有限的策略集合来绕过这些困难。[17] 由于可以做出在"重复囚徒困境"中的所有集体稳定策略的特点来,这个问题现在已经被解决了。这些特点将在附录B中给出。
现在我们来着看一个特定的策略在什么条件下能够阻止其他策略的侵入。"一报还一报"是一个很好的例子。"一报还一报"在第一步合作,然后重复对方上一步的选择。因此一个采用"一报还一报"的群体将相互合作。每人每步将得到收益R。如果另一策略想侵入这个群体,它就必须得到比这个更高的期望值。什么样的策略与"一报还一报"的策略相遇能得到比这更高的收益呢?
首先这个策略必须在某个时候背叛,否则的话它也就是和对方一样得到R。当它首先背叛时,它将得到较高的收益T。但是"一报还一报"接着也将背叛。显然,"一报还一报"只有在游戏能持续足够长的时间,使得它的报复能抵消对方背叛所得到的好处时才能避免被这个策略侵入。事实上,如果折扣系数W足够大,没有策略能侵入"一报还一报"。
可以利用"一报还一报"只有一步记忆这一事实来说明这个问题。因为"一报还一报"只有一步记忆。那么有效的挑战者可通过重复最好的合作和背叛的组合序列来获取最大利益。由于这个记忆是短暂的,重复的序列只需要两步。显然,这两步组合可以是DC(背叛合作交替)或DD(总是背叛)。如果这两个策略不能侵入"一报还一报",就没有任何策略可以侵入它。那么"一报还一报"就是集体稳定的。
这两个潜在的挑战者在第一步得到的比R多,但在第二步得到的比R少。因此,如果未来相对现在来说不是那么重要的话,他们就能得到好处。然而,如果w足够大,"总是背叛"和"背叛合作交替"的策略就不能侵入"一报还一报",而且如果这两个策略不能侵入"一报还一报",那么其他策略也不能。这就是命题2。对它的证明在附录B中。
命题2:当且仅当w足够大时"一报还一报"是集体稳定的。且W的临界值是四个收益参数T、K、P和S的函数。 [18]
这个命题的意义是:在全部采用"一报还一报"的群体中,每一个人都与其他人合作。只要未来对现在有足够大的影响,那么没有人能够通过采用其他策略而干得更好。换句话说,只要折扣参数大于四个收益参数所确定的要求,"一报还一报"就是不可侵入的。例如:假设在图1.1所示的收益矩阵中,T=5,R=3,P=1和S=0,那么,下一步相对于当前步的重要性至少是2/3时(即w≥2/3),"一报还一报"就是集体稳定的。在这些条件下,如果其他人采用"一报还一报"策略,你能做到的最好的结果就是和他们一样与他们合作。反之,如果w小于这个临界值2/3,其他人都采用"一报还一报"策略的话,"背叛合作交替"策略便会占便宜。如果W小于1/2,甚至"总是背叛"策略都会占便宜。
这意味着如果对方明显虚弱,不能活太久,那么w的观察值就会下降,"一报还一报"的回报性就不再是稳定的了。恺撒大帝曾对为什么庞培的同盟者停止与其合作解释道:"他们认为庞培的前途是没有希望的。他们按照逆境中一个人的朋友也会变成敌人"的一般规则行事(由雷克斯·沃纳翻译,Warner1960,p.328)。
另一个例子是一个濒于破产的公司要把应收账款卖给清算代理商。这个买卖将打很大的折扣。因为:
一旦一个制造商开始走下坡路,即使是他最好的客户也开始以抱怨质量问题、不符合规格要求、到货迟缓或各种各样的原因而要求拒付货款。商业中最有力的道德执法者是持续的关系,即人们相信你能与客户或供应商继续做生意。当一个失败的公司失去这个自动的执法者,任何手段都将无法代替(Mayer1974,p.280)。 相似地,一个被认为在下次选举中将落选的国会议员就很难在原有的信任和声誉的基础上和同僚们做立法交易。[19]
还有许多例子说明长期的相互关系对合作的稳定性的重要性。在一个稳定的小镇或同一种族的邻里之间就容易创建互惠的规范。相反,一个访问教授就很可能受到其他教工的冷落,而他们对待固定同事并不这样。
人们会因为彼此之间存在持续的相互关系而合作。一个很有趣的实例发生在第一次世界大战的堑壕战中。在这个残酷的战争中,相互对立的人们之间发展出一个称为"自己活也让别人活"的系统。如果接到命令的话,部队就相互攻击。但是在大战役的空隙间,每一方都尽量避免太多地伤害对方,如果对方也是这样回报的话。这个策略并不一定是"一报还一报",有时是"一报还两报"。正如一个英国官员描述从法国手中接管一个新防区的回忆录中写的:
法国人实行的是在安静防区中不主动骚扰和只有受到挑战才给予强有力反击的策略。当我们从他们手中接管一个防区时,他们向我解释,他们所实行的被敌人所理解的准则是对方开一枪我们反击两枪,但从不首先开枪。(Kelly1930,p.18) 这种心照不宣的合作是很不合法的,但也是很有特色的。尽管将军们有战争热情并努力推行长期消耗战术,但这个系统仍自我发展和完善了好几年。这个故事的丰富细节将在下一章描述。
即使没有深入探讨堑壕战的细节,"一报还两报"策略的出现提醒我们,不要只局限于从纯"一报还一报"策略匆忙得出的结论。只有在未来的相互接触是足够重要的情况下,"一报还一报"才是集体稳定的。这一命题适用范围有多大呢?下一个命题说明这个结果确实是普遍的,实际上可以适用于任何可能首先合作的策略。
命题3:只有当W足够大时,任何可能首先合作的策略才可能是集体稳定的。
理由是,一个策略想要集体稳定,它就必须保护自己不受任何策略包括"总是背叛"策略的侵入。只要这个所考虑的策略一旦合作,"总是背叛"将在这一步得到T。另外,合作策略之间平均每步得分不会超过R。因此为了使这个群体平均不少于挑战者"总是背叛"的得分,这个策略群体的相互接触就必须持续足够长的时间,使背叛得到的好处在未来的接触中被抵消。这是问题的核心。正式的证明参见附录B。
"一报还一报"和一报还两报"策略都是"善良"的决策规则,它们决不会首先背叛。善良规则在阻止侵入时的优势是它们能得到在只包含一种策略的群体中所能得到的最高分数,这是采用相同策略的个体通过双方合作而实现的。
"一报还一报"和"一报还两报"之间有共同的地方。他们都在对方背叛之后报复。这个观察引出一个一般性的原则,因为任何愿意合作的集体稳定策略必须以某种方式使它自己不会被挑战者占便宜。这个一般性原则是,善良的规则必须能被对方的第一个背叛所激怒,即意味着在而后的某一步这个策略必须有用自己的背叛反击的机会。[20]
命题4:对于善良的策略,如果是集体稳定的,它就必须能被对方的第一个背叛所激怒。
道理是很简单的,如果一个善良的策略不被在第n步的背叛所激怒,那么它就不是集体稳定的,因为它能被只在第n步背叛的策略侵入。
以上两个命题表明,如果未来对现在有足够大的影响且策略本身是可激怒的,那么一个善良的策略就可能是集体稳定的。但是不管折扣系数w的值和收益参数T、R、P和S是多少,有一个策略总是集体稳定的,这就是"总是背叛"策略。
命题5:"总是背叛"策略总是集体稳定的。
如果对方一定背叛,你合作便毫无意义。在一个大家都采用"总是背叛"策略的群体中,每人每步得到P。如果没有其他人愿意合作的话,任何人没有办法做得比这更好。况且,任何合作的选择将得到"给笨蛋的报酬"S,而且将来没有任何机会补偿。
这个命题对合作的进化有很重要的意义。如果我们设想一个系统,从一开始所有的个体就不愿合作。"总是背叛"的集体稳定性就意味着没有任何单一的个体可以指望比继续背叛和不合作做得更好。一个"小人"的世界可以阻止任何使用其他策略的个体的侵入,只要这个新来者每次都是单个的话。当然,问题就在于在这个"小人"的世界里没有人会回报任何合作。然而,如果新来者是一个小群体,它们就有机会速立合作。
为弄清这是如何发生的,让我们看看第一章图1.1中收益矩阵的一个简单的数值例子。这个例子中"对背叛的诱惑"T=5,"对双方合作的奖励"R=3,"对双方背叛的惩罚"P=l。而"给笨蛋的报酬"S=0。还有假设双方再次相遇的概率是w=0.9。那么,在采用"总是背叛"的"小人"的群体中,每位将得到收益P,累计得分是10分。
现在假设有几个采用"一报还一报"策略的个体。"一报还一报"与"总是背叛"相遇,"一报还一报"在第一步被占便宜,然后它就不再与这个"小人"合作,因此,它在第一步得0分,在而后每步得1分,累计得9分[21] ,这个分数比"小人"们相互之间得10分少一点。可是,如果"一报还一报"与另一个"一报还一报"相遇,它们从一开始就达成合作,并每步都得到3分,累计分为30分。这个得分比"小人"们自己相遇的得分10分大得多。
如果这些采用"一报还一报"的新来者是整个群体可以忽略的部分,那么,"小人"们将总是与其他"小人"相遇,只能得到10分。因此,如果"一报还一报"能与其他"一报还一报"有足够多次的相遇,他们就能得到比10分更多的得分。如果它们有足够多的机会与那些回报它们合作的个体相遇(得30分)而不是与那些不合作的个体相遇(得9分),它们就能做到这一点。这个机会要多大才行呢?如果一个"一报还一报"与其他"一报还一报"相遇的比例是p,那么它与"小人"相遇的比例就是1-P。它的平均得分是30p+9(1-p)。只要这个得分大于10分,采用"一报还一报"就比采用大部分都采用的"小人"策略好,其实只要"一报还一报"有5%的比例与其他"一报还一报"相遇就行。[22] 因此,即使是一小群的"一报还一报"也能得到比它们所进人的群体的大部分"小人"更高的平均分。由于"一报还一报"之间相处得很好,所以它们并不需要太经常相遇,就能使它们的策略是首选策略。
由此可见,一个"小人"的世界很容易被一小群"一报还一报"侵入。举例子来说,假设在一个商学院里教师告诉一个班的学生要他们在自己的公司里首先采取合作行为,并回报其他公司的合作。如果学生们果真按此去做,并且如果他们没有分散太广(使得他们有足够的机会与他们的同班同学相遇),那么,学生们将发现他们所学到的东西得到了报偿。按刚刚讨论的数值例子,一个开始采用"一报还一报"的公司,只要有5%的比例与其他采用相同策略的公司相遇,它们就会乐于合作。
当期望的相互作用持续时间越长,或者说相互作用不会因时间的推移而明显减弱,所需的小群体就可以越小些。用w表示再次相遇的机会,假设游戏进行200步(相当于0.99654),在这个情况下只要有1‰的机会与相同的策略相遇,"一报还一报"就可以侵入"总是背叛"的世界中。即使在只有两步的游戏中(w=0.5),只要"一报还一报"有超过1/5的机会与相同的策略相遇,它就能够成功地侵入,即合作就能出现。
这种以一个小群体侵入的概念可以被精确定义并应用于任何策略。假设原有一个策略被一个群体的每个人都采用。有一个采用新策略的小群体来到,他们既与其他采用新策略的新来者相遇又与原来的个体相遇。采用新策略的新来者彼此相遇的比例是p。假定这一小群体的新来者相对于原有群体是很小的,使得实际上原有策略的个体都是与其他原有策略的个体相遇。那么,新来者的得分是彼此之间相遇的得分和与原来策略相遇的得分的加权平均。权重为这两个情况的出现频率p和1-P。另一方面,由于新来者是很少的,所以原有策略的平均得分实际上等于原有策略与其他原有策略相遇的得分。因此,只要新来者相互之间相处得很好而且相遇的比例足够大,那么,就有理由认为,新来者能侵入原有策略。
值得注意的是,上文的假设是,相遇的配对不是随机的。在随机配对的情况下,一个新来者可能难得与另一个新来者相遇,而且小群体的概念讨论的情况是:新来者对于原有群体的环境是微不足道的,但对新来者自己的环境来说却是重要的。
下一个结果将说明以最小的群体侵入"总是背叛"的最有效的策略是什么。它们是那些能把自己和"总是背叛"相区别的策略。一个策略是具有最大识别力的,如果它即使在对方一直不合作的情况下也会尝试合作,并且一旦它合作一步,它将决不会与"总是背叛"合作,而会同其他与自己相同的策略合作。
命题6:能以最小p值的一个小群体侵入"总是背叛"的策略是那些具有最大识别力的策略,如"一报还一报"。
很容易说明"一报还一报"是一个具有最大识别力的策略。它在第一步合作,但是一旦与"总是背叛"合作,它就将再也不与它合作。另一方面,它不间断地与其他"一报还一报"合作。因此"一报还一报"善于区别它的同类和"总是背叛",这个特性使它能以一个很小的群体侵入"小人"的世界。
小群体概念在引出了在"小人"世界中创建合作机制的同时也提出了另一个问题:即一旦像"一报还一报"这样的策略创建起来后,相反的情况是否会发生。实际上,这是十分令人吃惊而又很有趣的不对称。为了说明情况,让我们回忆一下善良策略(如"一报还一报")的定义,善良策略从不首先背叛。显然当两个善良策略相遇,它们每步都得R,这是一个个体与另一个采用相同策略的个体相遇所能得到的最高平均分数。这引出了如下的命题:
命题7:如果一个善良的策略不能被单个个体侵入,那么它也不能被这类个体的小群体侵入。
一个以小群体形式出现的策略其得分是以下两部分的加权平均:一是它与其他相同策略相遇的得分,一是它与占统治地位的策略相遇的得分。这两部分的得分都小于或等于占统治地位的善良策略的得分。所以如果原有的善良策略不能被单一个体侵入,那么就不能被这类个体的—个小群体侵入。
这个结论意味着善良策略没有"总是背叛"的那种结构性弱点。"总是背叛"能够阻止任何策略的侵入,只要这些采用其他策略的个体每次都是单独前来的。但是如果它们是以小群体(即使是一个很小的群体)的形式来到,"总是背叛"就能被侵入。对于善良的策略,情况就不同了。如果一个善良的策略能够阻止其他策略的单一个体的侵入,那么它就能阻止小群体的入侵,不论它有多大。因此,善良的策略能以"小人"策略所不能的方式来保护自己。
这些结果合起来描绘了一幅合作进化的图画。在参议院的例子中,命题5表明,如果没有小群体形式(或其他相似的机制),双方背信弃义的原有模式就不能被克服。小群体的形成很关键,它也许源于杰斐逊时代在新首都旅馆中住在一起的一群群代表们(Young1966),或许州的代表或一个州的政党的代表们是更重要的小群体(BogueandMarlaire1975)。命题7表明基于回报的合作一旦创建,即使有一小群不遵守这个参议员习俗的新来者,它也能保持稳定。并且这种回报模式创建后,命题2和命题3表明,只要两年一次的改选率不至于太大,它就是集体稳定的。
因此,合作可以在甚至是绝对背叛的世界中出现。如果只由一些散乱的个体去努力,合作是不能创建的。因为他们没有机会彼此相遇。但是,只要具有识别能力的个体之间有即使是很小的比例彼此相遇,合作就可以从这个小群体中出现。此外,如果善良策略(它们从不首先背叛)最终被所有的人采用,那么这些个体就能彼此善待。由于彼此之间相处很好,一个善良策略的群体,就像能保护自己不受其他单个个体的侵入一样,能保护自己不受采用其他策略的小群体的侵入。但是一个善良的策略要是集体稳定的,就必须是可激怒的。因此双方合作可以通过一小群依赖于回报的个体在没有集权的自私的世界中出现。
为了说明上述结果的广泛应用,下曲两章将探讨合作进化的实例。第一个实例说明,尽管战争时期双方之间残酷对抗,但是合作也能出现。第二个实例讨论的是生物系统,这个系统中的低级动物不能评价它们选择的后果。这些实例说明,在条件具备时,没有友谊和预见,合作也可以产生。
第三部分 没有友谊和预见的合作
第四章 第一次世界大战堑壕战中的“自己活也让别人活”的系统
……
这种进化机制不包括盲目的变异和适者生存。与盲目的变异不同,战士们清楚他们的处境并且主动地利用它。他们懂得他们行为的间接后果,就像被我称为反射原则一样,"使人家不舒服最终反过来使自己不舒服"(Sorfcy1919,p.283)。这些策略是基于思考和经验的,战士们学会了为了与敌人维持双方的克制,他们必须证明自己的实力和自己是可激怒的。他们懂得,合作必须基于回报。因此,策略的进化是基于精心思考而不是盲目的适应。这个进化也不包括适者生存,虽然无效的策略会导致一个部队更多的伤亡,但兵力的补充使这些单位本身仍然保留下来。
堑壕战中"自己活也让别人活"系统的持续和解体是与合作的进化理论完全一致的。另外,在"自己活也让别人活"的系统中,两个很有趣的发展在理论上是新的。这两个新的发展分别是伦理和仪式的出现。
所发展的伦理可以从以下事情中体现。一位英军官员这样回忆他面对德国撒克逊部队时的经历:
当我在A连队喝茶时听到一串射击声,我们就走出来观看出了什么事,我们发现战士们和德国人都正站在自己的堑壕外的土墙上。突然一阵炮火打来,但没有造成伤亡。这时双方跳下土墙,我们的士兵开始骂德国人。这时立即有一个大胆的德国人跳上土墙大声喊道我们很抱歉,但愿没有人受伤,这不是我们的错,这是该死的普鲁士炮兵干的。(Rutter1934,p.29) 这位撒克逊人的道歉不仅有助于防止报复,它还反映了由于违反相互信任而表示的道德的歉意和对某人可能被伤害的关心。
双方克制是一种相互间的合作,它确实改变了相互作用的性质,使得双方关心着对方的利益。这个改变可以用"囚徒困境"的术语来表述,即持续的双方合作的经历改变了双方的收益,使得双方合作比以前更有价值。
反过来说也对,当双方合作的模式被人为袭击所破坏时,一个强烈的报复伦理被激发了。这个伦理,不仅是采取回报策略的问题,而且还是一个道德问题,是一个如何才算适当地履行了对死去的同伴的责任的问题。报复又激起另一个报复。因此,合作与背叛都会自我强化。这些双方行为模式的自我强化,不仅仅只是体现在双方采用的策略上,而且体现在它们对结果的意义的感受上。用抽象的术语来说就是,不仅偏好影响行为和结果,行为和结果也会影响偏好。
堑壕战对理论的另一个发展是仪式。这个仪式表现在使用轻武器时的敷衍和炮兵的故意无伤害的射击。例如,德国人在一个地点"用老练的不变的炮火和差劲的射击实行他们的攻击行动,以满足普鲁士人的要求,而同时又不给托马斯·阿特金斯的部队造成严重伤害"。(Hay1916,p.206)更令人吃惊的是在许多防区出现的可预测的炮火。
由于他们【德国人】在选择目标、发射时间和轰炸次数上如此有规律,来到前线一两天后,琼斯上校已经发现他们的规律,并且知道一分钟后什么地方将落下炮弹。他的计算相当准确,他就像老练的参谋官员一样,知道当他到达那个被射击的地方之前炮火就会停止。(Hills1919,p.96) 另一方也在做同样的事,就像德军士兵写下的关于英军"夜间射击"的评论:
射击在七点发生——如此地有规律以至于你可以用它来对你的表,……它总有一个相同的目标,它的范围是很精确的,它从不打偏,也不打在目标的后面或前面。……甚至有些好奇的家伙在七点前一点点,爬出来看这突然的射击。(Koppen1931,p.135) 这些敷衍了事的例行射击显示了一个双关的信息,即对上级司令部表示他们在攻击,对敌人表示和平。这些人假装在执行进攻的命令,实际上并没有。阿什沃斯认为这个典型的行为不仅是为了避免报复:
在堑壕战中,形式上的攻击是一种仪式。敌对者以有规律的相互响应的各种武器发射来参加这种仪式。同时它表示和强化了双方相互同情的情绪和敌人也是共患难的伙伴的信念。(Ashworth1980,p.144) 因此这些仪式有助于增加道德的约束力使"自己活也让别人活"的系统的进化基础得到巩固。
在残酷的第一次世界大战的堑壕战中出现的"自己活也让别人活"的系统说明了友谊对于基于回报的合作的产生并不是必要的,在合适的环境下,合作甚至可以在敌对者之间产生。
堑壕中的士兵们显然清楚地理解和认识到回报在维持合作中的作用。下一章用生物的例子说明参与者的这种理解并不是合作出现和稳定所必需的。
第五章 生物系统中的合作进化(与威廉·D.汉密尔顿合著)
在前四章中,几个进化生物学的概念被借用来帮助分析人们之间的合作的出现。在这一章中,情况反过来了,那些用于理解人的行为的发现和理论现在用来分析生物进化中的合作。从这个研究中得出的一个重要结论是,预见对于合作的进化不是必要的。
生物进化的理论是以生存竞争和适者生存为基础的,而合作普遍存在于相同种类的个体之间,甚至存在于不同种类的个体之间。大约在1960年以前,进化过程的研究都没有对合作现象给予充分的重视。这种忽视来源于对一种理论的误解,这种理论将大多数适应性说成是种群或整个种类水平上的选择。结果,合作总被认为是一种适应。然而,最近对进化过程的评论已经表明,把选择看作是基于整个群体的利益是没有足够根据的。相反地,在种类或种群水平上的选择过程是很弱的,达尔文理论最初对个体的强调是更有效的。[24]
为了说明明显存在的合作及其相应的群体行为,如利他主义和竞争中的节制,最近进化理论分别在遗传亲缘理论和回报理论两个方面取得了进展。目前在野外考察和理论发展上所做的工作大部分都是有关亲缘理论的。正规的方法有多种多样,但亲缘理论越来越多地采用基因的眼光看待自然选择(Dawkins1976)。实际上基因在自己终有一死的载体之外看到存在于其他相关个体中自己的永恒拷贝。如果对局者有足够密切的关系,即使单个利他者有所损失,利他主义仍然给这组复制品带来了好处。与这个理论的预测相一致的是,几乎所有利他主义的实例和大部分观察到的合作行为(除人类以外)都是发生在密切的亲缘关系中,通常是在直系家庭成员中。工蜂的自杀性倒钩刺的进化就是这个理论的典型例子(Hamilton1972)。[25]
明显的合作例子(虽然几乎没有极端的自我牺牲)也发生在没有密切亲缘关系的情况下。对双方都有利的共生现象提供了许多令人惊叹的例子:真菌和藻类形成了地衣;胶树为蚂蚁提供住处和食物,反过来蚂蚁也保护了树(Jan zen 1966);还有,黄蜂寄生在无花果花内,作为果树唯一的传花粉和留种的手段(Wiebcs1976;Janzen1979)。通常,这种共生中的合作过程是很温和的,但是有时这些伙伴也会出现对抗,有时是本能的,有时是由特殊的遭遇而引发的(Caullery1952)。[26] 正如以后要讨论的那样,虽然可能也包含亲缘关系,但是共生关系主要说明了进化理论的另一个最新发展:回报理论。
从先驱者特里弗斯(Trivers1971)开始,合作本身并没有得到生物学家的重视,但是有关在冲突情况下的克制的相关论题,已经取得理论上的进展。与此有关的一个新的概念——"进化稳定策略"——已得到发展(MaynardSmithandPrice1973;MaynardSmithandParker1976;Dawkins1976,Parker1978)。通常意义下的合作由于某些困难而仍然处于模煳不清的状况,特别是考虑在原来自私的状态下合作的开始(Elster1979)和合作一旦创建后的持续稳定。因此,越来越需要一个正规的合作理论。对个人主义的强调主要集中在经常性欺骗行为上。这种欺骗,使得双方有利的共生现象的稳定性显得比在为种群利益而适应的观点下更成问题了。同时,其他曾经在亲缘理论范围内显然那么肯定的例子,现在也开始暴露出对局者并不像基于亲缘关系的利他主义所期望的那样有足够的亲密关系。鸟类的合作繁殖(Emlen1978;Stacey1979)和更普遍的灵长目类群体中的合作行为就是这样的(Harcourt1978,Parker1978,Wrangham1979)。要么合作的出现是不可靠的(一半亲缘利他性,一半欺骗),要么大部分的行为是基于稳定的回报。以前我们曾考虑到回报,可是对它的苟刻条件强调不足(LigonandLigon1978)。
这一章对生物学的新贡献体现在三个方面:
1.在生物学的意义上,这个模型对两个个体可能再次相遇的可能性的概率处理是新颖的,它使一些特定的生物过程,如老化、领地行为等更为清楚。
2.对合作进化的分析不仅考虑了一个给定策略的最终稳定性,而且还考虑了一个策略在非合作个体占优势的环境下的最初成活问题,以及一个策略在由其他采用各种各样复杂策略组成的多样化的环境下的鲁棒性问题。这种方法使我们对合作进化的整个过程比以前有了更深入的理解。
3.这些应用包括了在微生物层次上生物行为的相互作用,从而引出了对某些基本原理的猜测性假设,这些基本原理可以解释许多疾病的慢性和急性状态存在的原因和某些类型的遗传缺陷,如唐氏综合征。
许多由生物所追求的利益并不能均衡地由合作的群体共同享用。虽然"利益"和"追求"在意义上存在很大的不同,但是迄今为止这种表述确实成为所有社会生活的基础。问题是当一个人可以从双方合作中得到好处的时候,这个人也能够从剥削对方的合作中得到更多好处。过了一段时间,相同的个体将再次相遇,并允许有复杂的策略相互作用的模式。如前几章所描述的,"囚徒困境"为这种情形的内在策略可能性提供了形式化描述。[27]
在一次遭遇的情况下,背叛不仅是"囚徒困境"博弈论意义上的解,也是生物进化意义上的解。[28] 它是通过变异和自然选择的进化趋势的必然结果:如果收益被看作是适应性,且一对个体的相遇是随机和不重复的,那么任何釆用可遗传策略的混合群体都将进化到所有的个体都是背叛者的状态。并且,当整个群体都采用这个策略时,没有单一的不同的变异策略可以比背叛者做得更好。只要个体再也不相遇,背叛的策略就是唯一稳定的策略。
在许多生物学的环境下,相同的两个个体将不止一次相遇。如果个体能识别出前次相遇的个体和记住上次相遇的一些结果,那么策略的情形就变成更富有各种可能性的"重复囚徒困境"。一个策略可以使用以往的对局历史来决定它在当前步合作或背叛。但是,按照前面的解释,如果个体之间相遇的次数是已知的,"总是背叛"在进化中还是稳定的,而且是唯一的进化稳定策略。因为在最后一步的背叛对双方来说是最优的,那么在倒数第一步也将是背叛,如此下去回到第一步也—样。
第一章中所发展的模式是基于这样一个更实际的假设,即相遇的次数不是事先设定的,而是在当前步之后相同的两个个体将以概率W再次相遇。[29] 影响这个再次相遇概率大小的生物因素包括:个体的平均寿命、相对的流动性和健康状况。对于任何W值,无条件的背叛策略("总是背叛")总是稳定的。如果每个人都采用这个策略,那么没有任何变异的策略可以成功地侵入这个群体。
正规的描述是,如果采用某个策略的群体,不被采用其他不同策略的变异体侵入的话,这个策略就是进化稳定的。[30] 可能存在许多进化稳定策略。事实上,第一章的命题1曾指出,当W足够大时,不存在独立于群体中其他个体行为的最佳策略。不能只因为不存在最佳策略就认为分析是没有希望的。相反,第二章和第三章表明,不仅可以分析给定策略的稳定性,还可以分析它的鲁棒性和初始成活性。
令人吃惊的是这个对策论方法包含了一个广泛的生物学现实。首先,一个有机体,不需要有一个大脑来运用策略。例如,细菌有玩游戏的基本能力:(1)细菌对于所选的环境特别是化学环境有很高的反应能力;(2)这意味着它们能对周围的有机体的行为作出不同的反应,(3)这些行为的条件策略显然是可以遗传的,(4)一个细菌的行为能影响它周围的其他有机体的适应性,就像其他有机体的行为会影响这个细菌的适应性一样。最近的论证表明甚至连病毒也能使用条件策略(Rashness,Johnson,andPabo1982)。
虽然细菌对环境最新的变化或对以往环境的总体变化有不同的反应,且这些反应很容易体现在它们采用的策略中,但从其他方面来看它们反应的范围是有限的。细菌不能"记住"或"解释"一个过去复杂的变化序列,它们或许也不能区分不利的或有利的变化的来源。例如,一些细菌会分泌它们自己的抗菌素,称为细菌素。这些细菌素对产生它的菌株无毒,但却能损坏其他细菌。当一个细菌感觉到有敌对的分泌物在它周围时,它就能很容易地分泌出细菌素。但是它不能将产生的毒素指向攻击的发起者。
当沿着进化的阶梯成为中等复杂的生物时,博弈行为就变得更加丰富了。灵长目类,包括人类的智能,有了几个相应的发展:更复杂的记忆、更复杂的信息处理(用过去相互作用的历史来决定下一步行为)、对与同一个个体的未来相互作用的可能性的更好的估计能力以及更强的区分不同个体的能力。对其他个体的区别能力可能是最重要的,因为它允许同许多个体相遇而不必把它们相同对待,这使得有可能奖励某个个体的合作而惩罚另一个个体的背叛。
"重复囚徒困境"模型比初看起来限制更少。它不仅能应用于两个细菌或两个灵长目动物间的相互作用,而且能用于细菌群与寄主灵长目类动物之间的相互关系。这里不必假设双方的收益是可比较的,只要各方的收益满足第一章所定义的"囚徒困境"的不等式,分析的结果就是可用的。
这个模型假设选择是同时进行的,并具有离散的时间间隔。对于大多数分析的目的而言,这相当于连续的相互作用,两步之间的时间长度相当于一方行动而另一方反应的最短时间。虽然模型把选择处理成是同时进行的,但是如果把选择处理成是顺序进行的也不会有什么不同。[31]
现在转过来谈谈理论的发展,合作的进化可以用以下三个问题的形式来使其概念化。
1.鲁棒性:什么类型的策略可以在一个由其他采用多种多样的复杂策略构成的多样化的环境中繁荣生长?
2.稳定性:在什么条件下,这样的策略一旦完全创建就能阻止变异策略的侵入?
3.初始成活性:即使某个策略是鲁棒的和稳定的,它如何才能在一个不合作占优势的环境中得到立足之地?
第二章描述的计算机竞赛表明,基于回报的合作策略"一报还一报"是非常鲁棒的。这个简单的策略在两轮计算机竞赛以及第二轮竞赛的6次主要变形赛的5次中都赢了。生态分析发现,当不太成功的规则消失后,"一报还一报"能继续与那些开始就干得不错的规则很好地相处。因此,基于回报的合作能够在多样化环境中繁荣起来。
—旦一个策略被整个群体所采用,进化稳定性的问题就是看它是否能够阻止一个变异策略的侵入。第三章中数学分析的结果证明了:当且仅当个体之间的再次相遇的概率足够大时,"一报还一报"才是进化稳定的。
"一报还一报"不是唯一的能够进化稳定的策略。事实上,不管再次相遇的概率多大,"总是背叛"的策略是进化稳定的。这就引出了一个问题,合作行为的进化趋向最初是如何开始的。
遗传亲缘理论给出了一个似乎可以摆脱"总是背叛"策略均势的解释。对局者之间密切的亲缘关系使得真正的利他主义——一个个体为了另一个体的利益而牺牲自己的适应性——成为可能。当代价、利益和亲密关系使得亲属个体身上的利他基因有净收益时,真正的利他主义就能出现(Fisher1930,Haldane1955,Hamilton1963)。在单步"囚徒困境"中不背叛就是一种利他主义(这个个体放弃了他可能得到的收益)。因此,只要双方有足够密切的亲缘关系,这种行为就是能进化的(Hamilton1971,WadeandBreden1980)o实际上,可以用个体在其对手的所得中含有部分利益的方式来重新计算收益(即以所谓包含的适应性来重新计算收益),这种重新计算经常使不等式T>R和P>S不成立,在这个情况下合作变成无条件的最优选择。因此可以想象在类似"囚徒困境"的情况中,合作的好处最初将由有密切亲缘关系的一群个体所获得。显然,从成对的关系来看,父母和后代或者兄弟姐妹之间的配对是最有希望的。事实上,在这种关系中的合作(或者对自私的克制)的例子是很多的。
一旦存在合作的基因,选择将助长基于环境的合作行为的策略(Trivers1971)。一些像混乱的父性(Alexander1974)这样的因素和难以定义的群体分界现象总是导致潜在对手之间的亲缘关系的不确定。承认这种亲缘关系的改善并用以确定合作行为必将带来包含适应性的发展。一旦作出合作的选择,对亲缘关系的提示就是对合作的回报。每当亲缘关系较远或对亲缘关系有怀疑时,在对方的消极反应之后改用更自私的行为是有利的。因此需要有对另一个体的行为反应的能力,合作才能够渗透到越来越少亲缘关系的情形中去。最后,当两个个体再次相遇的概率足够大时,在没有任何亲缘关系的群体中,基于回报的合作也能够繁荣并且是进化稳定的。
符合这个情形的一个合作的例子是在鲈鱼产卵的关系中发现的(Fischer1980;Leigh1977)。这些鱼具有雌雄两性器官。它们形成配对并大致可以说是轮流充当高投资的伙伴(产卵)和低投资的伙伴(给卵授精)。在一天中有多至十次的产卵,每次只产几个卵。如果这个性角色的分工是不平等的话,这对伙伴关系就会破裂。这个系统似乎使性器官的大小在进化中更节约。但费希尔(Fischer1980)认为性器官在这种鱼类稀少并且趋于近亲繁殖时就已经进化了。近亲繁殖意味着这种配对的亲缘关系不需要进一步的亲缘关系就能促进合作。
另一个能在每一成员都采用"总是背叛"策略的情况下使合作开始的机制在第三章中已经描述过,它就是小群体。假设一个采用像"一报还一报"策略的小群体,小群体成员之间的相互作用的比例是p。如果这个小群体的成员与其他个体的相互作用的比例对于其他个体来说是可以忽略不计的,那么,这些采用"总是背叛"策略的个体,每步所能获得的得分,实际上还是等于P。如第三章所示,只要p和w足够大,"一报还一报"的小群体就可以在"总是背叛"策略占优势的环境中存活下来。
小群体经常与亲缘关系相关,并且在促进回报合作的初始成活性中相互强化。然而,小群体在没有亲缘关系时也可能起作用。
尽管"总是背叛"是进化稳定的,但即使没有亲缘关系,"一报还一报"也能以一个小群体的形式进入"总是背叛"的群体中。这是可能的,因为一小群的"一报还一报"使得它的成员有可能与另一个愿意回报合作的个体相遇。这是促使合作产生的机制,同时也提出了一旦像"一报还一报"这种类型的策略创建之后是否有相反的情况发生的问题。第三章的命题7证明了这里有一个有趣的不对称:社会的进化是不可逆转的。
从分析中引出的进化过程是这样的。开始的状态是"总是背叛",而且它是进化稳定的。但是基于回报的合作可以通过两个不同的机制取得立足之地。首先,是变异策略之间的亲缘关系,它使得这些变异体的基因与其他个体的成功有了利害关系。因此当从基因的限定而不是个体的眼光来看时,相互作用的收益发生了变化。第二个摆脱"总是背叛"的机制是变异策略以一个小群体的形式出现,它们互相提供了一个有意义的相互作用的比例。虽然它们是如此之少,使得它们与"总是背叛"个体的相互作用对这些个体来说是可以忽略的。接着,第二章描述的竞赛方法论证了在各种各样的策略中"一报还一报"是非常鲁棒的策略。它在大范围的环境中能表现得很好,并能在包含各种各样复杂的决策规则的生态仿真中取代所有的其他策略。并且在两个个体继续相遇的概率足够大的条件下,"一报还一报"本身就是进化稳定的。而且,由于能阻止所有其他变异策略的侵入,它的稳定性得到了保证。因此,基于回报的合作能够在一个非合作占优势的世界中产生,能够在一个多样化的环境中繁荣,并且一旦完全创建就能保护自己。
这个方法在生物学中的各种应用必须满足对合作进化的两个基本要求。基本的想法是,一个个体必须不能够侥幸逃脱而不受对方的有效报复。这就要求背叛的个体不会消失在匿名者的海洋中。高级生物通过它们发达的识别不同个体的能力来避免这个问题。但是低级生物必须依靠严格限制不同个体或者群体的数目的机制来保证它们能有效地相互作用。第二个使得报复有效的重要条件是两个个体再次相遇的概率W必须是足够大的。
当一个有机体不能识别曾与它相遇过的个体时,一个补充的机制会确保它的所有相互作用都是与同一个体进行的。这可以通过与对方保持持续的接触来实现。这种情况存在于大多数由不同的生物构成的互惠的共生现象中,例如寄居蟹和它的搭档海葵,蝉和寄生在它身上的各种微生物,以及树和它的寄生真菌等。
另一个不需要识别的方法是通过固定相遇的地方来保证配对双方的唯一性。例如:小鱼或甲壳动物移去或吃掉可能是它的捕食者的大鱼身上甚至是嘴里的真菌的共生现象。这种水生清扫工的共生现象发生在动物生活的一个固定范围或领域的海岸和礁群中(Trivers1971),在开放的海洋的自由混合的环境中似乎还没有发现这种现象。
其他共生现象也是以持续的关系为特点的。它们可能包括了个体的或者是近亲和无性种类或这些种类的个体间的看似永久的配对关系(Hamilton1972,1978)。相反,在自由混合和变换配对关系的条件下,由于识别困难更有可能导致剥削,如:寄生现象、疾病等。因此,蚂蚁参与许多共生现象并且有时对它有很大的依赖,而住所不太固定的蜜蜂则没有已知的共生者,只有许多寄生者(E.O.Wilson1971,Tretsman1980)。小的淡水动物绿螅与绿藻有永久的稳定关系,绿藻总是很自然地在绿螅的身上发现,并且很难除去。在这个种类中,绿藻通过卵传给后代。普通水螅也和绿藻有关,但没有卵的传播。可以说在这些种类中,传染使动物衰弱,并且伴随着病态症状。这些症状说明这类植物肯定是寄生的(Yonge1934,p.13)。[32] 可以看出,非永久的联系会使共生不稳定。
在那些对相同种类的不同成员只有有限的区别能力的种类中,回报性的合作可以在减少区别必要性的机制的帮助下保持稳定。领地化就是这样一个机制。"稳定的领地"这个词意味着两个非常不同的相互作用,即来自领地的相互作用的概率高而与陌生人的未来相互作用的概率低。在雄性领地鸟的例子中,鸟的鸣叫声通常使得邻居能相互识别。与这个理论相一致的是,这种雄领地鸟在听到不熟悉的雄鸟的叫声时,比听到邻居的叫声有更多的进攻性反应(EO.Wilson1975,P.273)。
如果能够不依靠提示的帮助(像地理位置等)就能在大范围中实现区别的话,回报的合作就能在较大范围的个体之间保持稳定。人类的这个能力是很发达的,通过面孔就可以区别不同的人。这个功能的专门化程度是通过"面部失认症"才发现的。正常的人只从面部特征就可以叫出一个人的名字,即使这些特征多年来已经有很大变化。患有"面部失认症"的人就不能做这样的联系。但是他除了失去一部分视野外,没有什么其他神经症状。引起这种混乱的损伤发生在大脑的一个特定部位:双侧枕叶,并延伸到颞叶的内表面。这个局部的因和特殊的果表明,对不同面孔的识别已经是很重要的工作,使得大脑中有一小部分组织专门负责它(Geschwind1979)。
就像识别对方的能力对于扩展合作稳定的范围是很有价值的一样,掌握继续相遇的可能性的迹象的能力有助于发现什么时候回报合作是稳定的,什么时候不是稳定的。特别是当未来相遇的相对重要性w小于稳定性阈值时,回报对方的合作就没有什么好处了。[33] 一方患有影响寿命的疾病就是一个降低w的可觉察的信号。因此处于伙伴关系的双方就可能变得较少合作性。同样,一方的年老也像疾病一样将导致对背叛的激励,即在将来相遇的可能性变得足够小时,争取一次性好处。
甚至在微生物水平中这个机制也在起作用。任何有机会通过传播过程蔓延到其他寄主的共生者,当与原来寄主的继续接触的可能性变小时就可能从共生转变为寄生。在寄生阶段它通过产生更多的扩散和传染的方式来加重剥削寄主。这种情况发生在寄主被严重伤害,或者得了其他致命寄生病和传染病,或者出现明显的衰老迹象的时候。事实上,通常是无害的或者甚至是有益的细菌在肠子穿孔时(即受到伤害时)起到一个腐败的作用(Savage1977)。在病人或老人身体表面的正常的寄生物(像白色念珠菌)也会变成危险的侵入者。
以上的讨论可能和癌症的病因也有点关系。如果考虑它是由于基因中潜带着的病毒引起的(Manning1975,Ortovc1977),癌症确实倾向于在从一代传给下一代的机会变小时发作(Hamilton1966)。一种肿瘤病毒,如伯克特淋巴瘤,就有快慢不同的感染阶段,慢的方式以慢性的单核苷形式出现,快的方式则是以急性单核苷或淋巴瘤的形式出现(Henle,Hcnlc,andLenette1979)。有趣的是,一些情况证明淋巴瘤能够因为寄主得了疟疾而发作。淋巴瘤会极快地增大,使得能够在病体死亡前与疟疾争相传播(可能是由蚊子传播)。考虑到其他同时传染两种或两种以上病原体或是一个病原体的两个菌株的情况,当前的理论普遍认为,如果疾病采用缓慢的双方最优的剥削方式,病人的病就是慢性的,如果疾病采用迅速而严厉的刹削方式,病人的病就是急性的。单一的传染可以指望是缓慢的过程。双重传染,就像由隐含的收益函数支配着,将立即引起突然的剥削,或者在一适当的年龄阶段发作。[34] "重复囚徒困境"的模型也可以试着用于解释一些类型的遗传缺陷随母亲的年龄而增加的现象(Stern1973)。这种结果导致了后代的各种严重的残疾。唐氏综合征(由第21条染色体的多余的拷贝造成的)就是一个大家熟悉的例子。它几乎完全取决于母亲的配对染色体的正规分离的失败,这可以说明与合作理论的可能联系。卵细胞(通常不是精子)形成过程中的细胞分裂是典型的不对称,并排斥进入细胞的"不幸的"一极(如所谓的极体)的染色体。似乎可能的是,当相同的染色体在一个双倍体组织中通过稳定的合作而得到好处的同时,存在着"囚徒困境"的情况:一个染色体可以"首先背叛"时使自己进入卵核而不是极体。你可以假想这个行为激发了另一个染色体在后续的分裂中相同的企图。当这个配对染色体的两个成员同时这么做,就将导致后代的多余染色
体。这些多余染色体的载体的适应性通常是很低的,然而被送进极体的染色体的适应性是零。因此,P大于S。要使这个模型起作用,在—个分裂的卵细胞中发生的"背叛"事件必须能被其他等待分裂的卵细胞所感知。这个触发性的行为的发生可能是纯粹投机的,就像细胞分裂中染色体可能有的自我助长行为。但是这些结果并不是不可想象的。毕竞一个具有单一染色体的细菌就能在不同的条件下做不同的事。因此,这个模型可以解释为什么随着母体年龄的增加卵细胞中的病态染色体出现的可能性也会增大。
在这一章,达尔文强调的个体优势被博弈论的术语形式化了,这个形式化提供了在没有参与者的预见性的情况下基于回报的合作进化的条件。
第四部分 对参与者和改革者的建议
第六章 如何有效地选择
虽然预见对于合作的进化不是必要的,但它却对我们很有帮助。因此这一章和下一章将分别对参与者和改革者提供建议。
这一章为那些处于"囚徒困境"的人提供建议。从个体的眼光看,目标是在与对手的一系列对局中尽可能地得高分。由于这个游戏是"囚徒困境",参与者会受到背叛的短期诱惑,但是通过与对方创建双方合作的模式可以得到更多的长期好处。对计算机竞赛的分析和理论研究的结果,为我们提供了一些有用的信息,即在不同的条件下什么样的策略会起作用和为什么这些策略能表现得好。这一章就是把这些发现转化成对参与者的建议。
在持续的"重复囚徒困境"中应如何表现,下面是四个简单的建议:
1.不要嫉妒;
2.不要首先背叛;
3.对合作与背叛都要给以回报;
4.不要耍小聪明。
不要嫉妒
人们习惯于考虑零和博弈,在这种情况下,一个人赢,另一个就输。一个很好的例子就是下棋比赛。为了能赢,一个参赛者必须在大部分时间里比对手做得更好。白棋赢黑棋就输。
然而生活中的大多数情况都是非零和的。一般来说,双方可以都做得很好,也可以都做得很差。双方的合作是可能的,但并不是总能实现。这就是为什么"囚徒困境"是各种各样的日常情形的有用模型。
在我的课堂中,我经常让几对学生玩几十步"囚徒困境"游戏。我告诉他们目标是他们自己得分,就像每一分就是一美元一样。我还告诉他们不要理会他们的得分是比对手好一些或差一些。只要他们能得到尽可能多的"美元"。
但是,这些指导一点也不起作用,学生们总是要找一个相对的标准来衡最他们是做得好还是做得差。他们通常使用的标准是把他们的得分与对手的得分相比较。迟早,一个学生为了领先或为了看看会发生什么而背叛,另一个学生也不甘落后而背叛。因此,情况由于双方的相互报复而恶化了。不久双方便会认识到他们做得不够好,其中一人试图恢复双方的合作,但另一个人不能肯定这是否是对方的一个花招,担心一旦合作开始后又要被占便宜。
人们倾向于采用相对的标准,这个标准经常把对方的成功与自己的成功联系起来。[35] 这种标准导致了嫉妒,嫉妒又导致企图抵消对方已经得到的优势。在"囚徒困境"的形式下,抵消对方的优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。
要求自己比对方做得好不是一个很好的标准,除非你的目的是消灭对方。在大多数情况下,这个目的是不可能实现的,或者追求这个目的有可能导致危险的冲突。如果你并不想消灭对方,比较你的得分与对方的得分就可能产生自我毁灭的嫉妒。一个更好的相对标准是把你所做的与处在相同情况下的其他人所做的做比较。对于一个给定的对方策略,你是否做得最好?其他人在这种情况下能做得更好吗?这就是检验表现是否成功的一个很好的标准。[36]
"一报还一报"由于与其他多种多样策略相处得很好而赢得了竞赛。平均来说,它比竞赛中的其他任何策略都做得更好。但是"一报还一报"从来没有一次在游戏中比对方得更多的分!事实上,它不可能比对方多得分。它总是让对方先背叛,并且它的背叛次数决不比对方的多。因此"一报还一报"不是得到和对方一样多的分,就是比对方略少。"一报还一报"赢得竞赛不是靠打击对方,而是靠从对方引出使双方有好处的行为。"一报还一报"如此坚持引出双方有利的结果,从而使它获得比其他任何策略更高的总分。
因此在一个非零和的世界里,为了你自己做得好,你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得更好就让他们每个人做得和你一样或略好些。没有理由去嫉妒对方的成功。因为在长时间的"重复囚徒困境"中,其他人的成功是你自己成功的前提。
国会是一个很好的例子。国会议员可以相互合作时不威胁到各自在选区的名望。对于一个议员的主要威胁不是另一个来自这个国家其他地区的议员的相对成功,而是来自可能在选区进行挑战的人。因此妒忌其他议员从双方合作得来的成功是没有多大意义的。
在生意场中也是这样,一个从供应商那儿买来东西的公司期望有一个供方和买方都有好处的成功的关系。妒忌供方的利润是完全没有意义的。任何通过不合作行为(如不按时付账)来减少这种利润的企图,都将激起供方的报复行动,报复行为可以采用多种形式,经常以不明显惩罚形式,诸如拖延发货,较低的质量保证,不愿意打折扣,或者不交换市场条件变化的信息(Macaulay1963)。这种报复使得嫉妒代价很大。买者不要担心卖方的相对利润,而可以考虑是否有其他更好的购买策略。
不要首先背叛
竞赛和理论分析的结果都表明,只要对方合作你合作就会有好处。第二章中的竞赛结果是很令人吃惊的。决定一个规则表现如何的唯一最好的特征是这个规则是否善良。也就是说这个规则是否不首先背叛。在第一轮竞赛中,前8名规则都是善良的,在后7名规则中没有一个是善良的。在第二轮竞赛中,前15名规则中只有一个是非善良的(它名列第8),而后15名规则中只有一个是善良的。
有些不善良的规则,使用相当复杂的方法来试探它是否能逃脱惩罚。例如"检验者"尝试在第一步背叛,如果对方报复的话,它就马上撤回。在另一例子中"镇定者"倾向于在背叛前等待十几步,看看对方是否能被哄骗和被偶尔占便究。如果是的话,"镇定者"就更频繁地增加背叛,直到对方反击而被迫撤回。但是这些尝试首先背叛的策略都表现得不怎么好。因为存在许多由于愿意报复而不被占便宜的策略,所以导致冲突的代价有时是很高的。
甚至许多专家也没有意识到善良性对避免不必要的冲突的价值。在第一轮竞赛中,由对策专家送来的规则中几乎有一半是不善良的。参考了第一轮的明显结果,第二轮比赛中大约有1/3的规则采用不善良的策略,但是,它们都没有占到便宜。
第三章的理论结果提供了另一个方式来说明为什么善良的规则能表现得如此好。由于善良的规则相互之间相处得很好,因此善良规则的群体是很难被侵入的。而且能够阻止单个变异个体侵入的善良规则的群体也能阻止这个变异规则的任何小群体的侵入。
理论的结果给善良策略的优势带来了一个很大的限制,即当未来的相遇相对于从背叛得到的直接好处不足够重要时,单等对方背叛就不是一个好主意。必须记住只有当折扣系数w相对于收益参数R、S、T和P足够大时,"一报还一报"才是一个稳定的策略。特别是命题2表明,如果折扣系数不足够大,当对方采用"一报还一报"时,你最好采用"背叛"和"合作"交替的策略或甚至总是背叛。因此,如果对方似乎不再见面,马上背叛比善良要好。
这个事实对于那些大家都知道的从一个地方迁移到另一个地方的群体有一个不幸的含义。一位人类学家发现当吉普赛人接近非吉普赛人时,总怕惹上麻烦,非吉普赛人接近吉普赛人时总怀疑会被骗。
例如,一个医生被叫去看一个病得很厉害的吉普赛小孩。他不是第一个被叫的医生,但他是第一个愿意来的医生。我们拥着他走向后卧室,但他在病人屋门前停下说这次上门是15美元,上次还欠我5美元,在我看病人之前付我20美元。""行,行,你会得到的,先看孩子吧,"吉普赛人恳求道。争执了几个回合后我出面调停,付10美元后医生查看了病人。看病之后,我发现这个吉普赛人出于报复,根本就不想付那另外的10美元。(Gropper1975,pp.106—107) 在加利福尼亚社区,时有发现吉普赛人不付医生账单,但是市政罚款却都是马上就付(Sutherland1975,p.70)。这些罚款大都是由于违反垃圾管理。这些吉普赛人每年冬天都回到同一城市。可以推测这些吉普赛人知道他们必须继续与这个城市的垃圾站打交道而不能换另一个。相反,在这个地区有足够的医生,得罪一个医生,在需要时可以再找另—个。[37]
短暂的接触不是使首先背叛有好处的唯一条件,另一个可能性是合作得不到回报。如果其他人都采用"总是背叛"的策略。那么一个单一的个体就不可能做得比使用"总是背叛"更好。但是,如第三章所示,即使回报性策略(如"一报还一报")之间相互作用的比例很小,采用"一报还一报"也比采用群体中大多数采用的"总是背叛"的策略好。第三章的数值例子说明,只要5%的比例与类似"一报还一报"的策略打交道就能使这个小群体的成员比大多数背叛的成员做得更好。[38]
那么是否有人会回报某人最初的合作呢?在某些情形下是很难预测的。但是如果有足够的时间尝试各种不同的策略,并且在某种方式下,更成功的策略能变得更普遍,那么你就完全可以相信,会有人回报合作的。理由是,即使是一个相当小的善良策略的群体也能侵入到"小人"的群体,并且在它们自己相互之间所得的高分的基础上成长起来。一旦善良的策略站稳脚跟它们就能抵制"小人"的反侵入。
当然,你可以尝试更保险的方式,即先背叛直到对方合作,才开始合作。然而,竞赛的结果表明,这实际上是一个很有风险的策略,因为你最初的背叛就可能引起对方的报复。并使你处于要么被占便宜要么双方背叛的两难境地。如果你惩罚对方的报复,这种反应就会一直延续下去。如果你宽恕了对方,你就得冒被欺负的风险。即使你能避免这些长远问题,对你的最初背叛的当下报复会使你希望自己从一开始就应该是善良的。
对竞赛的生态分析揭示了另一个为什么首先背叛是很冒险的道理。第二轮竞赛中前15名规则中唯一的非善良策略是名列第8的"哈林顿"。这个规则表现得很好。因为它与竞赛中的名次较低的规则相遇时得分都很高。在假想的未来生态竞赛中,名次较低的规则在群体中的比例越来越小。最终能被这个最初挺成功的非善良策略占便宜的策略就越来越少,接着它自己也消亡了。因此生态分析说明,与那些自己本身得分并不高的策略相遇你表现得很好是没有用的,它只不过是一个自我毁灭的过程。这个教训说明,虽然不善良在最初看来似乎是很有希望的,但长期下去它将毁坏使自己成功所必需的环境。
对合作与背叛都要给予回报
"一报还一报"超常的成功给出了一个简单的但又是很有力的建议:要回报。在第一步合作之后,"一报还一报"只是简单地回报对方在上一步的所为。这个简单的规则具有惊人的鲁棒性。它赢得了第一轮"囚徒困境"计算机竞赛,并取得比任何其他由对策专家们送来的规则更高的平均得分。每一个第二轮竞赛的参加者都知道这个结果,但"一报还一报"又赢了第二轮竞赛。这个胜利显然是令人惊讶的。因为每一个参赛者是在考虑了"一报还一报"在第一轮竞赛中的胜利结果之后,才提交他们的参赛规则的。显然人们都希望他们能干得更好,但是他们错了。
"一报还一报"不仅赢得竞赛本身,而且在假设的继续比赛中比其他任何规则表现得都好。这表明"一报还一报"不仅与最初的各种规则相处得很好,而且能与那些可能在未来群体中占较大份额的成功的规则也相处得很好。它不毁坏自己成功的基础,相反,它在与其他成功的规则相互交往中繁荣起来。
"一报还―报"所体现的回报在理论上也是很重要的。当未来相对于现在是足够重要的时候,"一报还一报"是集体稳定的。这就意味着,如果每个人都使用"一报还一报"策略,那么对一个特定的个体的最好建议就是也采用"一报还一报"策略。或者这么说,如果你能肯定对方是采用"一报还一报",并且这种交道将持续足够长时间,那么,你最好也采用相同的策略。"一报还一报"的回报性的精彩之处在于它能在很大范围的环境中表现出色。
事实上,"一报还一报"很善于区分哪些规则会回报它的最初合作而哪些则不会。从第三章引入的概念看,它是有最大识别力的。如命题6所示,这就使得它能够以一种小群体的形式侵入"小人"的世界。并且,它回报背叛也回报合作。这使得它是可激怒的。命题4证明了,像"一报还一报"这样的善良策略要阻止被侵入,就必须是可激怒的。在反应对方的背叛时,"一报还一报"保持了惩罚和宽恕的平衡。
"一报还一报"总是在对方每次背叛之后只背叛一次。这样它在竞赛中取得了成功。那么,是否总是严格的一对一回报才是最有效的平衡?这就很难说了,因为稍有不同平衡的规则并没有被提送参赛。但有一点是清楚的,即用多于一次背叛来回报对方的背叛将有可能使冲突升级。另一方面,少于一对一的回报将有被占便宜的危险。
"两报还一报"是一个只有当对方在前两步连续背叛时,它才背叛的规则。因此它是一对二回报。这个相对宽容的规则如果被提送就会嬴得第一轮竞赛。它能做得如此好是因为它能避免与某些甚至引起"一报还一报"麻烦的其他规则陷入双方报复的境地,但是当它真的被送交参加第二轮竞赛时,它甚至没有进入前1/3名次。原因是在第二轮竞赛中有些规则利用它对单一背叛的宽恕而占它的便宜。
以上分析的启示是,最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占"好说话"规则便宜的策略,那么,太多的宽恕就要付出代价。对一个给定的环境,准确的平衡是很难确定的,但是,竞赛的结果证明,对背叛类似一对一的反应可能在大多数情况下都是相当有效的。因此,对参与者的一个很好的建议是对合作和背叛都要给予回报。
不要耍小聪明
竞赛结果表明,在"囚徒困境"的情况下人们容易耍小聪明,然而复杂的规则并不比简单的规则做得更好。事实上,所谓最大化规则表现很差就是因为它们经常陷入双方背叛。这些规则的共同问题是,使用一些复杂的方法来推断对方。而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作,但是问题的关键是这些最大化规则没有考虑到它自己的行为会引起对方的变化。
在决定是否带伞时,我们并不需要担心老天会考虑我们的行为。
我们可以根据以往的经验,判断下雨的可能性。在零和博弈中,如下棋,我们可以放心地假设对手将走他所能发现的最危险的一步棋。并且我们可以依此去行动。因此,在我们的分析中尽可能地精明和复杂是有好处的。
非零和博弈——像"囚徒困境"——并不是这样。不像老天下雨,对方对你的行为是有反应的,也不像下棋的对手,在"囚徒困境"中的对方不应该被认为是一心想背叛你的。对方将把你的行为看作你是否回报合作的信号。因此,你自己的行为将会反射到你的身上。
试图使得分最大化的规则把对方看作环境的一个不变的部分而忽略了相互的作用,不管他们在有限的假设下所做的计算是多么的聪明。如果你离开对方适应你、你适应对方、对方又适应于你的适应这样一直下去的反应过程去仿真你的对方,那么你的聪明是不会有好结果的。这是一条充满成功希望的艰难之路,显然在两次竞赛中没有一个复杂的规则精于此道。
另一个太聪明的方式是使用"永久报复"的策略。这个策略只要对方合作它就合作,但是一旦对方背叛一次,它就决不合作。由于这个策略是善良的,它与其他善良的策略相处得很好。并且它与那些不怎么反应的规则(如完全随机的规则)相遇时,干得也不错。但它与许多其他规则相遇就干得很差,因为对于那些偶尔背叛但准备一旦受惩罚就撤回的规则来说,它太快放弃合作了。"永久报复"看起来似乎很聪明,因为它为避免背叛提供了最大的激励,但是它为了自己的利益显得太严厉了。
参加竞赛的规则中还有第三种太聪明的形式是,它们采用的概率策略是如此复杂以至于其他策略不能把它们与纯粹的随机选择区分开来。换句话说,就是太多的复杂性就显得是完全杂乱无章。如果你采用一个看起来是随机的策略,那么你也就显得对对方不反应,如果你是不反应的,对方就受不到与你合作的激励。因此复杂到不可理解是非常危险的。
当然,在许多人类事务中一个使用复杂规则的人可以向对方解释每一个选择的理由。然而,问题出现了。对方可能怀疑所提供的这些理由,因为它们是如此复杂显得好像是专门为这个场合设计的。在这个情况下对方将认为不值得有任何反应。因此,对方会把一个显得不可预测的规则看作是不可改造的。结果自然是导致背叛。
"一报还一报"在竞赛中得到巨大成功的原因之一是它具有很大的清晰性,即它非常容易被对方理解。当你使用"一报还一报"策略时,对方有很好的机会去理解你在干什么。你对任何背叛的一对一的反应是一个很容易被意识到的模式。而且你的未来行为是能被预测的。一旦这些情况发生了,对方能容易地发现应付"一报还一报"的最好方式就是与它合作。假设这个游戏有足够的可能继续下去,至少还有下一步相遇。那么当你遇到"一报还一报"策略时只有马上和它合作是最好的,这样你将可以在下一步得到一个合作。
另外,在零和博弈(如下棋)和非零和博弈(如"重复囚徒困境")之间有一个重要的不同。在下棋时,让你的对手猜疑你的企图是很有用的,你的对手越是怀疑,他(或她)的策略就越没效果。在对手的任何无效行为就是你的利益的零和博弈中,隐瞒你的企图是很有用。但是在非零和情况下,如此聪明不总是有好处的。在"重复囚徒困境"中,你要从对方的合作中得到好处。诀窍在于鼓励合作,一个好的方式就是清楚地表明你愿意回报,言语在这里是有帮助的。但大家都知道行动比言语更响亮。这就是"一报还一报"之所以如此有效的原因。
第七章 如何促进合作
这一章是从改革者的角度来看问题。本章提出的问题是为了促进参与者之间的合作,策略的环境本身要如何改变。上一章是从一个不同的角度考虑如何给处于一个给定环境的个体提建议。如果策略环境允许个体之间有足够长时间的接触,那么这些建议指出了为什么一个自私者在即使存在短期不合作的激励的情况下会愿意合作。但是如果这种接触不是持续性的,那么一个自私者将会通过短期的利益而得到好处,即背叛。然而这一章不考虑给定的策略环境,而是探讨如何通过改变策略的环境本身,例如通过增大未来的影响,来促进合作。
通常人们认为合作是件好事,从对局者本身的眼光考虑这是很自然的。毕竟双方合作在"囚徒困境"中对双方都有好处。所以,本章是用如何促进合作的观点来写的。然而如前面说过的,在一些情形中人们要做的却恰恰相反。为了防止公司联手固定价格或者防止潜在的敌人协调他们的行动,人们需要做破坏合作的事。
"囚徒困境"本身来源于这样一种情形。两个同案犯被逮捕并被分别审讯。他们可以坦白罪行而背叛对方,以期得到较轻的惩罚。但是如果他们两人都供认,那么这个坦白就不那么值钱了。另一方面,如果他们俩相互合作,拒绝供认,地方检察官只能给他们一个很小的惩罚。假设他们俩都不会因为告密而感觉道德上的不安或害怕,那么收益情况能构成"囚徒困境"(LuceandRaiffa1957,pp.94—95)。从社会的观点看,这两个同案犯最好不要不久又在同样的情况下被抓,因为只有这样他们才能通过出卖对方得到个人的好处。
只要这种接触不是重复的,合作就非常困难,这就是为什么促进合作的一个重要方法,就是安排两个人再次见面,使他们能相互认识,并能回忆起对方至今是如何行为的。正是持续的接触,使基于回报的合作的稳定成为可能。促进双方合作可以从三个方面着手:使得未来相对于现在更重要些,改变对策者的四个可能的结果的收益值;教给对策者那些促进合作的准则、事实和技能。
增大未来的影响
如果未来相对于现在是足够重要的话,双方的合作就会是稳定的。因为每个对策者可以用隐含的报复来威胁对方,如果相互之间的接触时间持续足够长,使得这种威胁能够奏效的话。用数值的例子来说明这是如何进行的能使增加未来的影响的不同方法系统化。
如前所述,假设下一步所得到的收益只是当前步得到同样收益的一个固定的百分比。这个折扣系数W反映了为什么未来不如现在重要的两个理由。首先,对策的任何一方可能去世、破产或迁移,或者这个关系由于其他原因而终止。因为这些因素是不能明确预测的,所以下一步就不如当前步重要,有时还可能没有下一步。另一个未来没有现在重要的原因是,每个人都愿意今天就得到一定的好处,而不愿等到明天去得到同样的好处。这些因素结合起来就使得下一步没有当前重要。
数值的例子是我们熟悉的"重复囚徒困境",它的收益值如下:当对方合作你背叛时则得到"诱惑"T=5,双方合作得到"奖励"R=3,双方背叛得到"惩罚"P=1,对方背叛你合作时则得到"笨蛋"的收益S=0。暂时先假设下一步的收益只相当于当前步的90%,即w=0.9。那么,如果对方采用"一报还一报"策略,你背叛就没有好处,这个结果可以从关于"一报还一报"什么时候是集体稳定的命题2直接得到。但我们可以再算算看是怎么回事。当遇到"一报还一报"策略时,你从不背叛,那么,你每一步得分是R。考虑到折扣率,它的累计期望得分是R+WR+w 2 R+w 3 R…,即R/(1-w),在R=3,w=0.9时,这个得分是30分。
你不能比这做得更好了。如果你总是背叛,你在第一步得到富有诱惑的T=5。但在此之后,你只能得到对背叛的惩罚P=1,这个积累值是14分。[39] 这显然没有你通过合作得到的30分好。你也可以试试采用背叛和合作交替的策略,重复地每两步占"一报还一报"一次便宜。但代价是每两步中有一步你要被占便宜,这时的得分是26.3分。[40] 这里然比总是背叛的14分好,但比与"一报还一报"总是合作的30分差。命题2的含义是:如果这两个策略与"一报还一报"的对策结果没能比双方合作好,那么,其他策略也不能。如果未来对现在有较大的影响,如折扣系数为90%,那么,与采用"一报还一报"的人合作是有好处的。正因为这样,采用"一报还一报"是有好处的。因此,在未来的影响较大的情况下,基于回报的合作是稳定的。
当未来的影响不是这么大时,情况就有所变化。假设折扣系数从90%变成30%,这个减少可能是由于终止相互接触的可能性变大,或者由于对实时的利益比对以后的报酬有更大的偏好,或者由于两个因素的组合。另外,假设对方采用"一报还一报",如果你合作,你每步将得到R,期望得分将和原来一样:R/(1-w)。但现在因为w值较低,它只值4.3分。你是否能做得更好?如果你总是背叛,第一步得T=5,以后的每步你得P=1,这个积累值是5.4分,它比你善良时所能得到的多。背叛与合作交替的策略做得更好,它得5.5分。所以当折扣系数不是足够高的话,合作就很可能被双方错过或者很快就消失掉。这个结果和采用"一报还一报"无关,因为第三章中的命题3表明,任何首先合作的策略只有在折扣系数足够大时才是稳定的。这意味着当未来相对于现在不是足够重要时,没有任何形式的合作是稳定的。
这个结论强调了促进合作的第一方法的重要性,即增大未来的影响。有两个基本的方法来做到这一点:使相互作用更持久和使相互作用更频繁。
最直接促进合作的方法是使相互作用更持久。例如,婚礼就是一个用来庆祝和促进持续关系的公共行为。相互作用的持久性不仅对相爱的人有用,对敌人也有用。能证明这一点的最令人吃惊的例子就是在第一次世界大战的堑壕战期间发展起来的"自己活也让别人活"的系统。正如第四章所述的堑壤战的与众不同之处在于,相间的小股部队要相互接触一段很长的时间。他们知道他们的相互接触将持续下去,因为没有人能到其他地方去。在更机动的战争中,一个小单位在每次战斗中可能遭遇不同的敌人单位。因此,你希望对方的个体或小单位将会在以后回报你而采取合作是没有好处的。但是在相对固定的战斗中,两个小单位之间的接触要持续一段相当长的时间。这种持续的接触,使得基于回报的合作是值得一试的,并且使合作得以创建。
另一个增大未来影响的方法是使接触更加频繁。在下一步接触很快就会发生的情况下,下一步就显然比通常更重要。这个接触速度的增加,自然反映在下一步相对于当前的重要性W的增加上来。
重要的是要知道折扣系数W是以这一步和下一步的相对重要性而不是以时间间隔为基础。因此,如果认为两年后的收益只值现在相同收益值的一半,那么,促进合作的一个办法就是使他们更经常接触。
增加两个给定的个体之间的相互接触频率的一个好方法是排除第三者。例如,当鸟类创建一个领地时就意味着它们只有少数的几个邻居。换句话说,它们将更经常地与这些邻近的个体打交道。在商业上也一样,一个有地方性基础的公司只和在同一地方的公司做买卖。同样,任何专业化公司也趋向于仅限于与少数几个公司接触以便使这种接触更加频繁。这就是为什么合作在小城镇比在大城市容易出现的一个原因。在某些行业中往往存在着限制竞争的默契,这也是为什么同类行业的公司都试图排斥那些可能扰乱这种默契的新公司。同样,一个巡回商人或打散工的人将更容易与那些定期见面的顾客创建合作关系。因此,原则总是一样的,经常接触有助于促进稳定的合作。
等级和组织在集中特殊个体之间的相互接触方面是特别有效的。官僚系统使人们的工作专业化,把做相关工作的人组织在一起。这种组织形式增加了相互接触的频度,使工作人员更容易创建起稳定的合作。另外当一个问题需要不同部门之间协调时,等级结构允许把这个问题提交给更高一级的政策制定者,这些人通常只处理这类问题。通过把人们束缚在长期的和多等级的游戏中,组织机构增加了未来相互接触的次数和重要性,因而促进了那些个人之间相互接触比较困难的大群体之间的合作的出现。进而导致了处理更大更复杂的问题的组织的进化。
集中的相互接触使得每个人只与其他少数几个人经常见面。在使得合作更稳定之外还有一个好处,即有助于合作的产生。正如第三章对小群体的论述,小群体的成员之间必须有一定的相互接触的比例。尽管他们主要是与大群体成员相互接触。前面的数据例子说明了采用"一报还一报"的小群体如何容易地侵入总是背叛的群体。在标准的收益值(T=5,R=3,P=1,S=0)和中等折扣系数(w=0.90)的情况下,小群体成员只要有5%与其他小群体成员接触的机会,就能使合作在一个"小人"的世界里产生。
集中接触是使两个人更经常见面的一个方法。在协商谈判中,另一个使接触更加频繁的方法是把问题分解成若干的部分。例如,可以将军备控制和裁军条约分解成许多阶段,这样就允许双方有更多步的相遇而不只是一两个大步。这样可以使回报更有效。如果双方都知道对方的一步不合适的策略可以通过下一步的回报来补偿,那么双方对整个过程可以按所期望的进行就更有信心。当然,军备控制的主要问题在于一方如何真正知道对方上一步干了什么,他们是合作地履行了他们的义务还是采用了欺骗手段进行背叛。但是如果双方对自己识别欺骗的能力缺乏信心,那么,有许多小的步骤比只有少数大的步骤更有助于促进合作。这种促进合作的稳定的分解是通过使当前步的欺骗所得少于以后的步骤中潜在的合作的所得来实现的。
分解是一个广泛使用的原则。亨利·基辛格(HenryKissinger)为了以色列在1973年战争后从西奈撤军安排了一系列的步骤,以便和埃及致力于与以色列关系正常化的步骤相协调。在商业上,商人们喜欢一个大订单分别按每次发货时间付款,而不愿等到最后付总账。使得当前步的背叛相对于整个未来的接触过程来说不是那么有诱惑力,这是促进合作的好方法。还有另一个方法是改变收益值本身。
改变收益值
那些碰到"囚徒困境"的人有一个共同的反应,即"应该有一个法律来防止这类事情的发生"。事实上,摆脱"囚徒困境"是政府的一个主要功能:即在个体没有个人激励去合作时保证他们无论如何也得做那些对社会有用的事。法律使人们交税,不偷盗,忠实履行与陌生人的合同。这每一件事都可以看作是有许多人参加的大"囚徒困境"。没有人愿意纳税。因为它的好处很难看到而代价是直接的。但是如果每一个人都纳税大家就能生活得更好,即分享学校、道路和其他公共设施的好处(Schelling1973)。这就是卢梭所说的政府的作用就是保证每一个公民"被强迫得到自由"(Rousseau1762/1950,p.18)。
政府所做的正是改变有效的收益值。如果你逃避交税,你就可能被抓并被送进监狱。这种前景使得背叛的选择不那么吸引入了。即使半官方也能通过改变对策者的收益值而实施他们的规矩。例如,在"囚徒困境"的原始故事中,两个同案犯被逮捕并被分别审讯。如果他们同属一个帮派组织,那么他们知道告密是要受到惩罚的。这将降低背叛同伙的收益值,使得他们都不坦白并由于他们双方保持沉默的合作而得到较轻的徙刑。
在收益结构上的大变化能够改变相互作用使得情况不再是一个"囚徒困境"。如果对背叛的惩罚是如此之大以至于不管对方如何选择,从短期来说合作都是最好的选择的话,那么就不再有困境。可是,收益值的改变没有必要如此激烈才能奏效,即使相当小的一点改变就可以有助于基于回报的合作的稳定,尽管这相互作用的情况仍然是"囚徒困境"。这是因为合作稳定的条件反映在折扣系数W和四个收益参数T、R、S和P的关系上[41] ,需要的是w相对于这四个系数要足够大。如果收益值改变了,情况就可能从不稳定的合作转变成稳定的合作。所以,通过改变收益值来促进合作没有必要去消除背叛的短期激励与合作的长期激励之间的紧张关系,而只要使对双方合作的长期激励大于对背叛的短期激励就行。
教育人们相互关心
在社会中,一个促进合作的极好的方法是教育人们关心他人的利益。家长和学校花了很大的努力去教育年轻人关心其他人的幸福。用博弈论的术语来说,这意味着这些长辈试图使孩子们形成这样的价值观念,即这些新一代的公民的偏好中,不仅有他们自己个人的利益,还至少在某种程度上结合了他人的利益。毫无疑问,在这样一个关心他人的社会里,即使遇到"囚徒困境",成员之间也容易达成合作。
利他主义就是描述这样一个现象,一个人的利益效用是与另一个人的福利相联系的。[42] 因此利他主义是一个人行为的动机。但是必须认识到,有一些看起来是宽宏大量的行为可能有其他各种原因而不是利他主义。例如,慈善行为往往不是出于对不幸者的关心而是为了它所能带来的社会赞赏。在传统和现代社会中赠送礼物可能是交换过程的一部分。它的动机更多的是使受惠者承担某种义务而不在于改善受惠者的福利(Biau1968)。
从生物进化的遗传学观点来看,利他主义能在亲属之间维持。冒着生命危险去抢救下一代的母亲能够增加她的基因拷贝的生存机会。这是遗传亲缘理论的基础,如第五章所讨论的。
人们之间的利他主义也可以通过社会化来维持。但是,这里有一个严重的问题。一个自私者可以从其他人的利他行为中得到好处而不给以任何回报。我们都遇见过一些令人讨厌的人,他期望其他人宽宏大量,只考虑自己的需要而不考虑别人的利益。必须把这种人与其他关心他人的人区别对待,免得被他占便宜。这个道理告诉我们,利他主义的代价可以通过首先对每一个人采用利他行为,然后只对那些有相同感情的人采取利他行为来控制。但是,这很快就使你回到以合作为基础的回报上来。
教育人们要回报
"一报还一报"可能是一个自私者可以使用的有效的策略。但是,它是一个人或国家要遵循的道德策略吗?当然,答案取决于什么是一个人的道德标准。也许最广泛接受的道德标准是以下这条金科玉律:己所不欲,勿施于人。在"囚徒困境"的情况下,这条金科玉律似乎意味着你应该总是合作,因为合作是你希望从对方得到的。这种解释说明,从道德的观点看,最好的策略是无条件合作,而不是"一报还一报"。
这个观点的问题在于人家打你一巴掌你还把另一边脸转过去鼓励对方再占你的便宜。无条件的合作不仅伤害你自己而且伤害了这个成功的剥削者接着要相遇的无辜的旁观者。无条件合作将会宠坏对方,并为社会留下了改造被宠坏者的负担。这说明回报是比无条件合作更好的道德基础。当然,如果你真正希望对方做的是让你背叛之后不受惩罚,那么按金科玉律你就得无条件合作,即让对方背叛后也能脱逃。
然而,基于回报的策略似乎没有达到道德的高度,至少按照我们日常的直觉是没有。回报当然不是道德的一个好的基础,但它不只是自私自利者的道德。它确实不仅帮助自己,而且帮助了别人。它是通过使剥削性策略难以生存来帮助别人。并且它不仅帮助他人,而且它对自己的要求只不过就是愿意向他人作出一些让步。一个基于回报的策略能让对方从双方合作中得到奖励,这也是当双方做得最好时它自己所能得到的同样报酬。
坚持公平是许多基于回报的规则的基本特征,这从"一报还一报"在"囚徒困境"竞赛中的表现可以清楚地看到。"一报还一报"赢得两轮竞赛,但是在任何一局中它从来没有得到比对方多的分数!确实,它不可能在一局中比对方得分更多,因为它总是让对方先背叛,并且它从来不会比对方的背叛次数多。它的胜利,不是靠比对方做得好,而是靠引导出对方的合作。用这个方式,"一报还一报"靠促进双方的利益而不是靠剥削对方的弱点来取得胜利。一个有道德的人也就不过如此了。
使"一报还一报"有点令人不舒服的是它坚持"以牙还牙"。这确实只是大致公平的,但问题在于是否还有其他选择。在人们可以依赖于集权推行公共标准的情况下,其他选择是存在的。对于罪行的惩罚可以不必和罪行本身一样痛苦。当没有集权的时候,参与者必须依靠他们自己相互给予激励来引导合作而不是引导背叛。在这种情况下,真正的问题是应该采用什么样的诱导方式。
"一报还一报"的麻烦在于一旦结下仇恨,它就会无休止地继续下去。确实,许多仇恨似乎都有这种性质。例如,在阿尔巴尼亚和中东,家族之间的仇恨有时持续了几十年。一个伤害由另一个伤害来偿还,并且每一次报复都引起了新一轮的报复。这种伤害来回反射直到最初的暴行消失在遥远的过去中(Black-Michaud1975).这是"一报还一报"的严重问题,一个更好的策略可能是一报还十分之九报。这样既能够减弱冲突的振荡,又能提供一个激励使对方不敢尝试无缘无故的背叛。它是一个基于回报的但又比"一报还一报"多一点宽容的策略。它也是大致公平的。但是在一个自私自利的没有集权的世界里,它确实不仅促进它自己的福利,而且增加其他人的福利。
一个采用基于回报的策略的社会确实能够自我控制。由于确保了对试图不合作的惩罚,这些不合作的策略就得不到好处。因而这些策略就发展不起来,也就提供不了一个供他人模仿的有吸引力的模式。
自我控制的特性给你一个额外的激励去把它传授给别人,即使这些人决不会与你打交道。自然,你想把回报教给那些你将打交道的人,以便你能创建一个双方都有好处的关系。但你也可以从那些你决不会与他们相遇的采用回报策略的人那里得到你个人的好处,即其他人的回报惩罚了那些试图占人家便宜的人,这有助于控制整个社会。并且,它减少了你将来必须对付的不合作的人的数目。
所以传授基于回报的善良策略对学生对社会并且间接地对教师都有帮助。难怪一位教育心理学家知道了"一报还一报"的优点后,建议在学校里教会学生如何回报(Calfee1981,p.38)。
改进辨别能力
从过去的接触中识别对方并记得这些接触的一些相关特征,这种能力对合作的持续是必要的。没有这些能力,一个人就不可能使用任何形式的回报,因此也就不能鼓励对方合作。事实上,持续合作的范围取决于这些能力,这种依赖性在第五章的生物系统的实例中看得最清楚。例如,细菌几乎是进化阶梯底层的生物。只有很有限的识别其他生物的能力,所以它们必须通过捷径来识别,即在一个时间内只和一方(寄主)创建关系。在这种方式下,细菌环境的任何变化都可以归咎于这个对方。[43] 鸟类有更强的辨别力,它们可以通过鸣叫声识别邻居。这种识别能力使得它们能够与其他若干的鸟创建合作关系或者至少避免过分的冲突。如第五章讨论的,人类的辨别能力已经发展到了在他们的大脑中有一个专门的部位来识别面孔的程度。这种识别神经接触过的个体的能力使得人类可以发展比鸟类更丰富的合作关系。
然而,即使在人类事务中,合作范围的限制往往是由于不能识别其他人的特征和行为而造成的,这个问题在达成国际核武器的有效控制上显得特别严重。这里的困难在于核实,即是否有足够的信息确认对方所真正采取的步骤。例如禁止一切核试验的条约就是由于区分核爆炸和地震在技术上存在困难而被搁延到最近。现在这个困难已被克服了(SykesandEverdcn1982)。
识别背叛什么时候发生的能力不是产生成功的合作的唯一要求,但它肯定是一个重要的条件。因此,通过改善对策者的基于过去的接触而相互识别的能力和确定以前已经发生过的行为的能力,持续合作的范围可以得到扩展。这一章已经说明了人们之间的合作能够通过各种技巧来促进。它们包括:未来的影响,改变收益值,教育人们关心他人的福利和教人懂得回报的价值。促进好的结果不仅是告诉对策者关于双方合作比双方背叛的所得更多这一事实,而且还是一个明确相互作用的特征从而得到一个长期稳定的合作进化的问题。
第五部分结论
第八章 合作的社会结构
在考虑如何才能开始合作的进化时,一些社会结构被发现是必要的,特别是第三章说明了,一个总是背叛的"小人"群体不会被单个采用如"一报还一报"的善良策略的个体侵入。但是如果入侵者有一个甚至很小量的社会结构,事情就不一样了。如果他们以一个小群体出现,使得他们有一个很小的百分比与自己小群体中的其他成员相互作用。那么,他们就能侵入"小人"的群体。
这一章探讨社会结构的附加形式,讨论四个能够引起有趣的社会结构形式的因素:标记、信誉、管理和领地。标记是一个人的固定特征,如能被对方观察到的性别和肤色。它能引起成见和地位层次的稳定形式。一个人的信誉是可塑的,当另一个人知道他在与其他人对局时所采用的策略时,他的信誉就产生了。信誉会带来各种现象,包括激励人们去创建恶棍的声誉和激励人们去阻止他人成为恶棍。管理是统治者与被统治者之间的一种关系。政府不能只靠威胁来统治,而必须使大多数被统治者自愿服从。因此,管理只是统治的严厉性和实施过程的问题。最后,当人们只和邻居而不是与所有其他人打交道时,领地问题就出现了。当策略在群体中传播开来时,出现了非常有趣的行为模式。
标记,成见,地位等级
人们相处的方式经常受到一些可观察的特征——如性别、年龄、肤色和穿着风格——的影响。这些特征使人们在和陌生人打交道时期望陌生人的行为会像其他具有相同可观察特征的人的行为一样。因此,从理论上讲,这些特征使得一个人即使在双方打交道之前就能知道一些有关对方策略的有用信息。这是因为人们通过这些可观察到的特征将对方列为具有相同特征的群体中的一员,进而得到关于这个人将如何行为的推断。
与某一标记相关的期望不需要从直接的个人经历中形成。它可以通过传媒从第二手经验来获得。对这些特征的解释甚至可以通过遗传和自然选择来形成。例如,海龟能够辨认另一个海龟的性别并据此作出反应。
一个标记可以定义为一个对策者的固定特征。这个特征在相互作用开始时能够被对方观察到。[44] 当有标记时,一个策略所做的选择不仅基于至今为止的相互作用的历史,而且还取决于对方的标记。
标记的一个很有趣但又令人担忧的后果是,它们能引起自我确认的成见。为了了解这是怎么发生的,我们假设每一个人不是具有蓝标记就是具有绿标记。再假设两个群体对自己群体中的成员是善良的,而对另一个群体的成员是刻薄的。具体地,可以假设两个群体的成员对自己群体成员之间采用的是"一报还一报",而对另一群体的成员采用的是"总是背叛"。并且假设折扣系数W足够大,使得"一报还一报"是集体稳定的(依据第三章命题2)。那么,一个单一的个体,不管他是蓝还是绿的标记,只能是按照其他人的做法去做,即对自己同类善良而对其他刻薄。
这种激励意味着成见的稳定,甚至当成见毫无客观依据时也是这样。蓝的认为绿的是"小人",每当他们遇上一个绿的,他们的信念就得到证实。而绿的认为只有其他绿的会回报合作,他们的信念也得到证实。如果你试图打破这个观念,你将发现你的收益值下降,并且你的希望将破灭。所以如果你和人家不一样,迟早,你要回到你所被期望的角色上来。如果你的标记说你是绿的,其他人就会把你当作绿的对待。并且由于如果你像绿的那样去行动你就会得到好处,所以你将确认其他人的期望。
这种成见有两个不幸的结局:一个是明显的,另一个是微妙的。明显的结果是每一个人都做得比可能的糟,因为群体之间的双方合作能提高每一个人的得分。微妙的结果来自蓝的和绿的群体在数量上的差别,即一个数量多,一个数量少。在这种情况下,在两个群体同时受到缺乏双边合作的损害时,少数群体的成员损害更大,所以少数群体经常寻求防卫性的孤立行为就不足为奇了。
为了解释原因,假设有80个绿的和20个蓝的在一个小镇上。每周每人相互接触一次,对于绿的来说,他们的大部分接触是发生在他们自己群体内部的,因而得到双方的合作。但是对于蓝的,他们的大部分接触是与另一个群体(绿的)发生的,因此得到的是双方背叛,这样占少数的蓝的平均得分就少于占多数的绿的平均得分。甚至当每个群体都倾向于同类交往时,情况也会如此。因为占少数的蓝与占多数的绿相遇的次数在少数者总的相遇次数中占的比例比在多数者总的相遇次数中占的比例要大(RytinaandMorgan1982)。结论是标记支持了使每一个人受害的成见。而少数人的群体会比其他人受更大的损害。
标记也会造成另一个结果,即它支持了地位等级。例如,假设每个人有一些特征,如身高、力量或皮肤光泽,这是可以观察和比较的特征。为了简单起见,假设不存在相同的值。这样,当两个人相遇时,哪个有较多的特征,哪个有较少的特征就很清楚。现在假设每一个人都欺侮那些在他之下的人,而对在他之上的人则是逆来顺受。现在的问题是,这种情况能稳定吗?
答案是肯定的,让我们举例来说明这个问题。假设当一个人遇到在他之下的人时采用的策略是交替地使用背叛和合作,而当对方一旦背叛一次,他就不再合作,这是很霸道的。因为他可以背叛别人但决不容忍别人背叛他。再假设一个人遇见在他之上的人的策略是合作,而当对方连续两次不合作时,就永远不再合作。这是软弱的,因为他可以容忍受到交替的背叛,但他也是可激怒的,因为他不能容忍太被占便宜。
这个行为模式创建了基于可观察的特征的地位等级。接近顶层的人做得不错,因为他们对几乎所有的人都称王称霸。相反,接近底层的人就做得很差,因为他们要对几乎所有的人逆来顺受。显而易见,这就是为什么接近顶层的人满足于这种社会结构。但是接近于底层的人能单独改变这种社会结构吗?
确实没有可能,因为在折扣系数足够大的时候,从欺侮你的人那里每两步得到一步安慰,总比背叛后面临无休止的惩罚要好。[45] 因此处于社会结构底层的人是陷入困境的。他或她做得很差,但试图要反抗这个系统则会更糟。
在对方策略不变的情况下,孤立无援的反抗是无益的。低层的反抗将最终伤害双方。如果较髙层在某种压力下可能改变他们的行为,那么低层的人在打算反抗时就应考虑到这一点。但是,这种考虑会使得较高层的人关心自己信誉的坚定性。为了研究这类现象,人们需要探讨信誉的形成。
信誉和威慑
一个人的信誉体现在其他人对他将采用的策略的信心上。信誉是通过观察这个人与其他人的相互作用时的行为来创建的。例如,英国的可激怒的信誉是通过它反击阿根廷的入侵收回福克兰群岛而创建的。
其他国家能够看到英国的行为,并据此推断它会如何对他们自己在将来的行为作出反应。特别相关的是,西班牙关于英国对直布罗陀的义务的推理和中国关于英国对香港承担的义务的推理。这些推理是否正确是另一码事。重要的是当第三者在观察时,当前选择的利害关系从当时的直接结果扩展到了对当事人的信誉的影响。
知道某些人的信誉能使你在作出第一次选择之前就能知道一些关于他们采用的策略的情况。这个可能性带来了一个问题,即确切知道对方所采用的策略有多大价值。衡量任何一个信息的价值的方法是计算在你有这个信息时所做的比没有这个信息时好多少(Raiffa1968)。因此,没有这个信息时,你做得越好,你对信息的需求就越少,那么这个信息就越不值钱。例如在两轮"囚徒困境"的竞赛中,"一报还一报"在不知道对方所采用的策略的情况下就做得很好。知道对手的策略只有在很少的情况下能使一个人做得更好。例如,如果已经知道对方的策略是"两报还一报"(即只有在对手在前两步连续背叛时它才背叛),那么你采用背叛与合作交替的策略就可能比采用"一报还一报"要好。但是在两轮竞赛中没有多少可剥削的策略。所以提前知道对方的策略也不能帮助你干得比"一报还一报"策略好。事实上,从知道对方策略中得到的好处很少,这正说明了"一报还一报"策略的鲁棒性。
关于信息的价值问题可以反过来讲:让其他人知道你的策略的价值(或代价)是什么?当然,答案取决于你所采用的策略。如果你采用的是可剥削的策略如"两报还一报",那么代价是很大的。另一方面,如果你采用的是最好与它完全合作的策略,那么你可能很愿意让人家知道你的策略。例如,如果你使用"一报还一报",那么你会很愿意让对方知道这一点,并且适应它。当然未来的影响必须足够大使得最好的反应是采用善良策略。事实上,如前面说过的,"一报还一报"的优点在于它在游戏的过程中容易被识别,即使采用它的人还没有创建起信誉。
对一个人来说,有一个牢固的采用"一报还一报"的信誉是很有好处的。但这确实不是一个最好的信誉,最好的信誉是恶棍的声誉。最好的一种恶棍是具有尽可能压榨对方又不容忍对方有任何背叛的信誉的恶棍。尽可能压榨对方的方法是频繁地背叛,恰好使得对方总是合作比总是背叛只好一点点。鼓励对方合作的最好方式是让大家知道如果对方一旦背叛,你就决不会再合作。
幸运的是,创建恶棍的信誉是不容易的。要让人家知道你是恶棍,你就必须经常背叛,这就意味着你很可能激怒对方来报复你。到了你完全创建信誉时,你很可能已经陷入许多毫无益处的毅力较量中去了。例如,对方即使只背叛一次,你也会在是按要创建的信誉所要求的那样去做,还是在当前接触中力图恢复友好关系之间左右为难。
当对方也试图创建他的信誉时,情况就更坏,因为他将不会宽恕你用来试图创建你的信誉的背叛。当双方都试图创建自己的信誉以便用来对付未来对策中的其他人时,他们就很容易卷入一连串的相互惩罚之中。
双方都有意假装没有注意到对方在试图干什么。双方都想显得是不可训练的以便使对方自愿停止欺负自己。
"囚徒困境"竞赛建议,一个使对策者显得不可训练的很好方式是采用"一报还一报"策略。这个策略的简单性,使得它容易表明它的固定的行为模式,并且它的易识别性使得对方很难继续假装不知道它。采用"一报还一报"是控制对方并让他适应你的一个有效方法。它拒绝被欺负,但它自己也不欺负人家。如果对方确实适应它了,其结果就是双方合作。事实上,威慑是通过信誉的创建而达到的。
创建信誉是要通过可信的威胁来达到威慑的作用。你试图作出某个反应的许诺,实际上当偶然情况发生了,你并不想真正去这样做。美国恐吓苏联不要夺走西柏林并扬言要发动一场战争来对付这种掠夺行为。为了使这个威胁可信,美国就得创建不管短期的代价有多大它都要能确实履行这个保证的信誉。
当1965年美国政府作出许诺要以发动一场战争来对苏联的决定作出反应时,越南就是美国政府要创建这个信誉的手段。在给国防部长罗伯特·麦克纳马拉的备忘录中,他的国际安全事务助理约翰·麦克劳顿描述了美国要保持信誉的迫切愿望,并把美国在越南的目标定义为:
美国的目标:
70%:避免美国因失败而丢脸(即保持一个保证人的信誉)。
20%:防止南越及邻近领土不落入中国人之手。
10%:使南越的人民可以享受一个更好的更自由的生活。
(引自SheehanandKenworthy1971,p.432) 通过获得一个强硬的信誉来保持威慑,不仅在国际政治上是重要的,在许多政府的国内事务上也是重要的。虽然本书主要涉及没有中央权威的情形,但这个框架确实可以用于有权威存在的许多情况。因为即使是最有效的政府,也不能把公民的服从看成是理所当然的。相反,政府和被统治者之间有对策关系。这种相互作用经常是以"重复囚徒困境"形式进行的。
政府与被统治者
政府必须阻止它的公民触犯法律。例如,为了有效地收税,政府必须保持对逃税者进行起诉的信誉。通常,政府用于调查和起诉逃税者的钱比从逃税者那里得到的罚款要多得多。当然政府的目的是要保持抓获和起诉逃税者的信誉以防止任何人在将来想逃税。税收的情形是这样,其他政策的情形也是这样,即保证公民服从的关键在于政府能够并且愿意投入比当前利益多得多的资源来保持它的强硬的信誉。
对政府和它的公民而言,其社会结构中只有一个主角和许多配角。与此类似的社会结构是垄断者试图阻止其他人进人他的市场,或国王试图阻止各个省的反抗。在上述任何情况下,关键是要通过保持强硬的信誉来防止挑战。为了保持这个信誉,就要求用超出某个具体事件所需要的强硬手段来对付这个特殊的挑战。
即使最强有力的政府也不能强迫推行它的政策。为了有效地控制,政府必须诱导大多数被统治者服从它的政策。要做到这一点就要求创建和实行一些规则,使得大多数的被统治者在大部分时间里,只要服从这些规则就会得到好处。对工业污染的控制就是个很好的例子。
根据肖尔茨的模型(Scholz1983),政府控制机构与被控公司的相互关系是处于"重复囚徒困境"。公司的选择是自愿遵守规则或违反规则,政府机构的选择是采取灵活的或强迫的执行方式来对付这个公司。
如果政府机构采用灵活的方式并且公司遵守这些规定,那么政府机构和公司都能从双方合作中得到好处。政府从公司的服从中得到好处,公司从政府的灵活性中得到好处。双方都避免昂贵的强迫和诉讼过程,社会也从完全服从的低代价经济中得到好处。但是如果公司违反规定,而政府机构采用强迫手段,则双方都会由于最终形成的法律关系而受到损害。如果政府机构采用的灵活政策看起来不会惩罚违法者,那么公司就会受到违反规定的诱惑。另外,政府机构也受到为了得到好处而对一个顺从的公司实施严厉措施的诱惑。
政府机构可以采用像"一报还一报"的策略,给公司自愿服从的激励,从而避免用严厉的措施来报复。在合适的收益和折扣参数的条件下,被控制者和控制者之间的关系可以是重复的自愿服从和灵活管理的有利于社会的关系。
肖尔茨的政府和被统治者之间的相互作用模型引入的一个新特征是政府还要考虑标准的强硬程度。例如,设定一个严格的污染标准就会增加违反这个标准的诱惑。另一方面,设立一个宽松的标准,就可能意味着允许更多的污染。同时,政府从自愿服从中得到的双方合作的收益就变小。这里的诀窍在于设立一个严格的标准,高到能得到最好的社会效益,但又不至于阻碍了大部分公司的自愿服从。
除了制定和实施标准以外,政府经常要处理个人之间的纠纷。离婚案是一个很好的例子,法院把孩子的监护权判给一方而要求另一方支付孩子的抚养费。由于抚养费的提供不可靠而使得这种判决名声不好。因此有人提出,通过允许监护方在对方不支付抚养费时取消对方探视孩子的权利,来赋予父母双方未来相互作用有回报的特点(MnookinandKomhauser1979)„这个建议使父母双方处于"重复囚徒困境",让他们在回报的基础上作决定,即用可靠的抚养费与定期的探视权作交易,通过促进父母双方基于回报的稳定合作的模式来保证孩子的利益。
政府不只是与它的公民有关系,而且与其他政府也有关系。在某些情况下,每个政府可以与任何其他政府进行双边接触。国际贸易的控制就是一个例子。在这里,一个国家可以对另一个国家的进口实行贸易限制,例如,对不正当的贸易行为的报复。但是政府还有一个没有考虑到的有趣特征是:它们有特定的领土。在一个纯粹的领土系统中,每一个体只有几个邻居,并且只与这些邻居打交道,这种社会结构的动态特性是下一节的主题。
领地
国家、企业、部落和鸟类都主要是在一定的领地内进行相互接触。它们与邻居的接触比与其他相距较远的个体的接触多得多。因此,它们的成功很大部分取决于它们与邻居相处得怎样。然而邻居还能起另外一个作用,就是邻居可以提供一个样板。如果邻居做得不错,这个邻居的行为就会被模仿。通过这种方式,成功的策略能够从一个邻居传播到另一个邻居,最终在整个群体中传播开来。
领地可以被认为有两种完全不同的方式。一种方式是地理的和物理的空间。例如,堑壕战中的"自己活也让别人活"的系统可以从前线的一个地方传到相邻的地方。另一种方式是特征的抽象空间。例如,某个企业在市场上销售含一定量糖和一定量咖啡因的饮料,这种饮料的"邻居"就是那些市场上具有不同的含糖量或含咖啡因量的饮料。相似地,一个政治上的候选人,将在自由与保守、国际主义与孤立主义两个方面确定自己的身份。如果选举中有许多候选人相互竞争,这个候选人的"邻居"就是那些具有相似地位的候选人。因此,领地既可以是抽象的空间也可以是地理上的空间。
除模仿之外,殖民化提供了另一个使成功策略能从一个地方传播到另一个地方的机制。如果一个不太成功的策略的地盘被一个较成功的邻居的子孙所占领,这就发生了殖民化。但是不管策略的传播是靠模仿还是殖民化,想法是相同的:邻居相互作用,最成功的策略传播到相邻的区域。个体保留在自己的区域内,但他们的策略能够传播。
为了能够分析这个过程,必须使其形式化。为了更好地说明,考虑一个简单的领地结构,即整个领地的划分使得每一个人在东西南北四面各有一个邻居。每一代中每一个人都得到一个由他与四个邻居相互作用的平均得分表示的成功分。然后,如果一个人有一个或多个更成功的邻居,那么他就会转变去采用他们中最成功的策略(如果有多个最成功的则采用随机办法挑一个)。
领地的社会结构有许多有趣的特性,其中一个是,在领地结构中一个策略至少比它在一个非领地结构中更容易防止被一个新策略侵入。要知道这是怎么回事,就必须把稳定性的定义扩展到领地系统。回忆一下第三章所述,如果一个策略能得到高于它周围群体平均的得分,那么它就能侵入这个群体。换句话说,如果一个新来的策略比本地策略做得更好,那么这个使用新策略的个体就能侵入本地的群体。如果没有策略能侵入本地的群体则本地策略就是集体稳定的。
为了把这些概念扩展到领地系统,假设一个采用新策略的个体被引入到一个采用本地策略的群体之中。如果整个领地的每一个区域最终都转换成这个新策略,那么就可以说这个新策略领地性地侵入本地策略。因此,如果没有策略能领地性地侵入本地策略的话,这个本地策略就是领地稳定的。[46]
所有这些引导出一个相当强的结果:一个策略要领地稳定并不比要集体稳定更难。换句话说,在一个领地社会系统中,一个策略要防止被侵入者取代所需要的条件并不比在一个每一个人都有相同机会相遇的社会系统中更严格。
命题8:如果一个规则是集体稳定的,那么它就是领地稳定的。
对这个命题的证明将给出对领地系统动态过程的深刻了解。假设—个领地系统,其中除了一个个体采用新策略外,其他均采用一个集体稳定的本地策略。这个情况如图8.1所示。
现在考虑这个新来者的邻居是否会采用新来的策略。因为本地策略是集体稳定的,所以被本地策略围绕的新来者所得的分就不如被本地策略围绕的本地人所得的分。并且,新来者的每一个邻居都有一个全部由本地策略围绕的本地邻居,因此新来者的所有邻居发现新来者不是他们所模仿的最成功的策略。所以,新来者的所有邻居将保持他们原来的本地策略,或者采用他们另一个本地邻居的策略。因此,一个新的策略不能在一个集体稳定策略的群体中传播开来。结果,一个集体稳定的策略也是领地稳定的。
集体稳定规则就是领地稳定规则的命题说明,在领地系统中防止侵入至少不比在自由混合系统中来得困难。一个隐含的结果是,在领地系统中一个善良规则维持双方合作所需要的折扣系数并不比这个善良规则成为集体稳定所需的折扣系数更大。即使在领地社会系统的帮助下能保持稳定,一个善良的规则也不是完全安全的。如果未来的影响很弱,即使有领地的帮助,也没有一个善良的策略能阻止侵入。在这种情况下研究侵入的动态过程有时是很复杂和有趣的。图8.2给出了这个复杂模式的一个例子。它描绘了一个"总是背叛"的个体侵入采用"一报还一报"的群体领地的情形。在这个例子中未来的影响是相当弱的,即折扣系数w=1/3。四个收益参数的选择提供了一个可能的复杂情况,即T=56,R=29,P=6和S=0。[47] 图8.2显示了在第1代、第7代、第14代和第19代之后出现的情况。"小人"侵入原来的"一报还一报"群体,形成了具有长边界和被合作者环绕的有趣的模式。
……
在这个稳定的策略模式中有几个显著的特征。首先,生存下来的策略一般都是结成大小不等的群。开始时随机散布的群体已经变成几个由相同规则形成的区域。有时这些规则能传播很长的距离。然而也有很少的几个被其他两三个不同区域包围的小区域,甚至有单个领地。
能生存下来的策略大多是在竞赛中得分较高的规则。例如"一报还一报",每次从4个拷贝开始,在最终的群体中平均出现有17个。但也有5个其他规则较多地出现在最终的群体中,最好的一个是由鲁迪·奈德格(RudyNydeggcr)提交的在循环赛中名列第31名的规则。在领地系统中,它平均有50个追随者。因此,一个在循环赛中只名列中间的规则在二维领地系统中却成为最成功的规则,这种情况是如何发生的呢?
这个规则的策略本身是很难分析的,因为它基于一个复杂的查表方式,根据前3步的结果来决定下一步该如何做。但是可以通过它与其他规则相遇的情况来进行分析。和其他生存下来的规则一样,"奈德格"决不首先背叛。但是,它的独特之处在于当对手首先背叛后,"奈德格"有时能让对方慷慨"道歉",使得它最终得到比双方合作更高的得分。这种情况发生在24个非善良规则中的5个规则身上。在循环赛中,这不足以使"奈德格"表现出色,因为它经常与其他非善良规则陷入麻烦。
在领地系统中,情况就不一样。通过使那5个非善良规则向他"道歉","奈德格"使得很多邻居都向它转化。当这些"道歉"者中有一个是"奈德格"的邻居,而它的其他3个邻居是善良规则时,"奈德格"就有可能比它的4个邻居或者甚至比它们的邻居们干得更好。这时,它不仅使这个"道歉者"转化过来,而且也使一些或全部邻居转化过来。因此,在基于通过模仿而扩散的社会系统中,即使在平均意义上说不是那么出色的规则也有很大的可能取得出色的成功。这是因为偶尔的成功会赢得很多的转化。"奈德格"的善良性使它避免了不必要的冲突,并在非善良规则被淘汰后还能保持它的胜利。"奈德格"的优势在于有5个规则会低声下气地向它道歉,而没有其他善良规则能从多于2个的规则身上引出这样的"道歉"来。
领地系统相当生动地说明了对策者的相互作用影响进化过程的方式。虽然有许多其他的有趣的可能性有待分析,但我们已经在进化的意义上分析了各种结构。[48] 本书中考虑的五个结构揭示了合作进化的各个不同的方面。
1.随机混合被用来作为最基本的结构。循环赛和理论上的命题说明了基于回报的合作如何能够在这种即使是最少的社会结构情况下成长起来。
2.对小群体的考察说明了合作的进化是如何开始的。小群体允许新来者至少有一个小的机会与其他新来者相遇,尽管新来者本身是原来群体的一个可忽略的部分。即使新来者绝大部分是与原来的非合作策略相遇,但采用回报的小群体的新来者能够侵入"小人"的群体。
3.当与通过它们自己相互作用的经历所得的信息相比,对策者之间拥有更多的信息时,群体的分化就发生了。如果对策者有标记指示它们的群体身份和个体的态度,成见和等级地位就会产生。如果对策者能相互观察到对方与其他个体的相互作用,它们就能创建信誉,而信誉的存在能导致一个以尽力阻止恶棍为特征的世界。
4.政府在使它的大部分公民服从方面有它自己的策略问题,这不仅是在某一特定情况下选择一个有效的策略的问题,而且还是一个如何设立标准;使得服从既对公民有吸引力又能有利于社会。
5.领地系统是考察如果对策者只和它们的邻居打交道并且模仿比它们做得更成功的邻居时,会出现什么情况。与邻居的相互作用,产生了特定策略传播的复杂模式,并且为有些做得很差的策略在某些情况下做得异常出色提供了可能。
第九章 回报的鲁棒性
进化的方法基于一个简单的原则:成功的东西更有可能在将来经常出现。但机制有各种各样,经典的达尔文进化中的机制是基于不同的生存和复制的自然选择。议会中的机制可能是那些有效地为选民提供法案和服务的议员们会增加再次当选的机会。商业界的机制可能是一个获利的公司可以避免破产。但是进化的机制不必是生与死的问题,对于有智能的对策者,一个成功的策略能更经常地在将来出现,是因为其他人转变过来采用这个策略。这种转变或多或少可以是对成功者的盲目模仿,或者是基于有意识的学习过程。
进化过程不仅要求成功的东西有或多或少的增长,为了使进化更深入它还要求多样性,即尝试新的东西。在遗传生物学中,这种多样性是由每一代基因的变异和改组来提供的。在社会过程中,多样性是由反复试错学习引入的,这种学习过程不一定反映高智能。一个新的行为模式可能作为旧行为的一个随机的变形而被接受,或者一个新的策略可以在以前的经验和怎样才能在将来做得最好的理性的基础上形成。
研究进化过程的不同方面,需要用不同的方法。有一些问题是关于进化过程的目的的。为了研究这些问题,集体(或进化)稳定的概念被用来说明进化过程将何时停下来,即确定哪些策略被大家采用时不被侵入。这种方法的优点在于能够很好地说明什么类型的策略能保护自己,在什么条件下能实现这种保护。例如,它说明了在未来影响足够大时,"一报还一报"是集体稳定的,而"总是背叛"策略在任何条件下都是集体稳定的。
集体稳定的方法的优势在于它能考虑所有可能的新策略,不管是原有策略的一点点变形,还是完全新的策略。稳定性方法的局限性在于它只说明什么策略在创建之后能够持续下去,却不能说明什么策略能首先创建。由于有许多不同的策略一旦创建一个群体就是集体稳定的,因此,知道哪个策略能首先创建是重要的,这需要不同的方法。
为了了解什么策略能首先创建,重点必须放在群体策略的多样性上。为了获得这种多样性,我们使用了竞赛的方法。这个竞赛方法本身鼓励提交复杂的策略,在第一轮竞赛中从对策专家那里得到了一些复杂的策略。通过让第二轮参赛者都知道第一轮竞赛的结果而使这些策略得到进一步改进。因此,新想法作为旧想法的改进或者作为那些可能做得很好的完全新的概念而加人竞赛。接着分析在这个多样化的环境中什么能做得最好,从而使我们了解了什么样的策略可以繁荣起来。
由于创建整个过程可能要花很多时间,另一个技术被用来研究当策略的社会环境变化时,它们的前景的变化。这个技术就是生态分析。它计算如果每一代策略出现的频率的增长与它们在前一代的成功成正比时会发生什么。它之所以是一个生态的方法,是由于它不引入新的策略,而只确定在竞赛中出现的各种策略在经过几百代以后的结果。它能够分析在一开始成功的策略是否在表现差的策略被淘汰后还能保持成功。在每一代中,成功策略的增长可以被看作是这个策略的使用者的较好的存活和复制,或者由于有较大的机会被其他人模仿。
与生态分析相关的是领地分析,它研究如果第二轮中的63个策略被散布在领地结构中且每一个位置都有4个邻居时所发生的情况。在领地系统中,成功的确定是局部的,每个有成功的邻居的位置将采用它的最成功的邻居的策略。像在生态仿真中一样,更成功的增长是由于较好的存活和复制,或者是由于有较大的机会被其他人模仿。
为了使用这些进化分析的方法,需要一个方式来确定任何一个给定的策略是如何与任何其他给定的策略对局的。在简单的情况下,可以用代数方法来进行计算,就像研究"一报还一报"遇见"总是背叛"时要如何做一样。在更复杂的情况下,可以用相互作用仿真并累计所得到的收益值来实现这个计算,就像进行"囚徒困境"的计算机竞赛一样。时间折扣和相互作用结束的不确定性,通过游戏长度的变化在竞赛中体现。随机特性的影响通过对相同的两个策略多次相互作用的结果的平均来克服。
这些进化的分析工具可以用于任何社会背景。在本书中,它们被用于一种特殊的社会情形,这种社会情形反映了最基本的合作困境。当每个人都能帮助其他人时,合作的潜力就会增加。但是当这种帮助是有代价的时候,困境就出现了。当从对方的合作中得到的好处大于自己合作的代价时,从合作中得到双方的好处的机会就能起作用。在这种情况下,双方将更愿意选择合作而不选择背叛。但是要达到你所喜欢的结果并不容易。这里有两个原因:第一,你必须得到对方的帮助,然而从短期效果来看,不帮助你对对方更有利。第二,你想得到别人的帮助,却不愿付出帮助别人的代价。[49]
合作理论的主要结论是令人鼓舞的,它们说明即使是在一个其他人不愿合作的世界里,合作仍然可以通过一小群准备回报合作的个体来产生。分析还表明合作能发展的两个关键前提是合作要基于回报和未来的影响要足够重要以使得回报稳定。但是,基于回报的合作一旦在群体中创建,它就能保护自己不受非合作策略的侵入。
看到合作能够开始,能够在一个多样化的环境中发展,并且一旦创建起来就能保护自己不受侵入是令人鼓舞的。但是有趣的是,创建这些结果只需对个体和社会环境作很少的假设。个体不必是理性的,即使在对策者不知道为什么或如何做时,进化过程也能让成功的策略发展起来。对策者不需要交换信息或承诺什么,他们不需要言语,他们的行为替他们说话。同时,这里不需要假设对策者之间相互信任,回报的使用足够使背叛得不到好处。这里利他主义也是不需要的,成功的策略甚至能够从自私者那里引出合作。最后,不需要中央权威,基于回报的合作能够自我控制。
合作的出现、发展和持续确实需要一点关于个体和社会背景的假设,它们要求个体能够识别出那些曾经相遇过的其他个体,并且要求记得它与这些个体相互作用的历史以便能作出反应。实际上,这些对识别和记忆的要求看起来并不那么高,即使是细菌也能在和另一个有机体接触时,通过采用只反应对方最近行为的策略(如"一报还一报")来满足这些要求。因此,既然细菌都能玩这些游戏,人和国家当然也能。
为了合作能稳定,未来必须有足够大的影响,这意味着相同的两个个体再次相遇的重要性要大到足以使得背叛是一个得不到好处的策略。它要求对策双方有一个足够大的机会再次相遇,并且他们再次相遇的意义不能被打太多折扣。例如,使得第一次世界大战中堑壕战中的合作成为可能的是这样一个事实:无人区两边相同的小单位必须保持很长时间的接触,如果一方打破默契,另一方就可以报复。
最后,合作的进化要求成功的策略能繁荣,并且要求有多种多样的策略可以使用。这些机制可以是经典达尔文主义的适者生存和变异,也可以是有意识的过程,如模仿成功的行为模式和聪明的新策略的设计。
为了合作能首先开始,还需要一个条件。因为在一个无条件背叛的世界里,单个提供合作的个体是不能成功的,除非周围的人愿意回报。在另一方面,合作可以从具有识别力的小群体中产生,只要这些个体有一个很小的相互作用的比例是在它们彼此之间进行的。因此,必须有一个采用具有如下两个特性的策略的个体组成的小群体:这些策略必须是首先合作,而且它们必须能区分对手是反应合作的还是不反应合作的。
合作进化的条件告诉了我们什么是必要的,但它们本身并没有告诉我们什么策略将是最成功的。为了回答这个问题,竞赛的方法提供了惊人的证据,说明了最简单的具有识别力的策略——"一报还一报"——的成功。通过在第一步合作,然后按对方上一步的方式去做,"一报还一报"与各种各样复杂的决策规则相处得很好。它不仅赢得了由对策专家提交的参赛程序进行的"囚徒困境"第一轮竞赛,而且赢得了包括了由参考了第一轮竞赛结果的人所设计的超过60个程序的第二轮竞赛。它还赢得了第二轮竞赛的6次变形赛中的5次(第6次变形赛中它名列第二)。给人印象最深的是,它的成功不只是与那些得分很差的策略相处得很好。假想的未来竞赛的生态分析说明了这一点,在几百轮的仿真竞赛中,"一报还一报"还是最成功的规则,这说明它与好的和坏的规则都能够相处得很好。
"一报还一报"的成功是由于它的善良性、可激怒性、宽容性和清晰性。它的善良性意味着它决不首先背叛,这个特性防止它陷入不必要的麻烦,它的可激怒性使对方一旦尝试背叛后就不敢坚持,它的宽容性有助于恢复双方合作,它的清晰性使得它的行为方式容易被辨识,一旦被识别,就容易看出与"一报还一报"相处的最好方式就是与它合作。
尽管"一报还一报"一直很成功,但它还不能称为"重复囚徒困境"的理想策略。首先,"一报还一报"以及其他善良策略要在未来影响足够大时才有效,但是即使这样,也没有能独立于其他人所采用的策略的理想策略。在一些极端的情况下,如在没有足够的其他人回报它的最初合作的情况下,即使是"一报还一报"也做得很差。"一报还一报"确实也有它的弱点。例如,对方一旦背叛,"一报还一报"总是以背叛回报,如果对方作同样的反应,结果将会是无止境的交替背叛。在这一点上"一报还一报"是不够宽容的。但是,"一报还一报"对待那些完全不反应的规则,如纯随机规则,又太宽容了。然而在众多设计来取胜的复杂策略所组成的多样性的环境中,"一报还一报"确实表现得很好。
如果一个善良的策略,如"一报还一报",最终被所有人采用,那么采用这个善良策略的个体,在与其他人相处时就能够表现得宽宏大量。事实上,一个善良策略的群体,能够像保护自己不受单个个体侵入一样保护自己不受任何这类策略的小群体侵入。
这些结果绘出了一幅合作进化的图画。合作能从小群体开始,在善良、可激怒和某种程度的宽容的规则中逐步成长,并且一旦成为一个群体,采用这种有识别力的策略的个体就能保护自己不受侵入,总体的合作水平是在上升而不是下降。换句话说:合作的进化是不可逆转的。
如第一章所述,从美国国会的回报规范的形成中可以看到这种机制。在建国初期,国会议员们由于他们的奸诈和背叛而闻名。他们相当不讲道德而且经常相互欺骗。然而,过了几年,合作的行为模式出现了并且保持稳定。这些模式就是基于回报的规范。
有许多机构也发展了基于相似规范的稳定合作模式。例如,钻石市场是由于它的成员只要口头保证或一个握手就能成交价值几百万美元的交易而闻名的。这里的关键因素在于参与者都知道他们还要一次又一次地打交道。因此,任何想占便宜的企图都是没有好处的。
在罗恩·卢西亚诺(RonLuciano)的回忆录中有一个很好的例子。卢西亚诺是一个棒球裁判员,有时也会伤风头痛:
经过一段时间我懂得信任一些投球手并在我不舒服的时候为我做裁判员。这不舒服的日子经常发生在狂欢夜之后,……在这些曰子里,我没有什么可做的,只是吃两片阿司匹林,尽量少叫喊。如果我所信任的人正在打球。我就会告诉他:"嘿,今天我不舒服,你最好帮我当裁判员。如果是一个好球,握起你的手套在适当的位置多停一秒钟,如果是一个坏球,就把它扔回去,请不要大声叫。" 这种对投球手的依赖之所以可靠是因为如果卢西亚诺怀疑他被欺骗了,他有的是机会去报复。
没有人用这种情况来占便宜,也没有击球手知道我在干什么,只有一次是爱迪赫尔曼裁决投球手时,这个投球手不服这个裁决。我笑,我大笑,但我没说一句话,尽管我真想说出实情。(LucianoandFisher1982,p.166) 一般的商业交易都是基于这样一个想法:持续的关系使得合作能在没有中央权威的帮助下得以发展,虽然法院为解决商业争端提供中央权威。但人们一般不借助这个权威。一个采购代理商表达了共同的商业态度:"一旦出了什么事,你与对方在电话中讨论如何解决问题。如果你还想再做生意,你就不要相互谈合同的法律条款。"(Macaulay1963,p.61)这个态度被广为接受,当一个包装材料制造商检查订货记录时,他会发现顾客订单的2/3是没有法律约束力的合同(Macaulay1963)。交易的公平不是靠法律诉讼的威慑来保证,而是由双方未来交易的好处的预期来保证的。
当这个未来相互作用的预期破灭时,就需要一个外来的权威。按照麦考莱的说法,也许绝大部分吵到法院的商业合同案例都是母公司错误地中止代理商的特权。这种冲突之所以要打官司是由于一旦特权被终止,在特许者和母公司之间就不再有未来双方交易的好处的前景。合作中止了,接下来就是耗费很大的法庭诉讼战。
在另一些情况下,双方有益的关系是如此普遍,使得参与者的各自特征变得模煳不清了。例如,伦敦劳合社(Lloyd’sofLondon)开始于一小群独立的保险代理商。由于一艘船和它的货物保险对一个代理商来说是一个大的负担,几个代理商经常相互做交易以分担这些风险。这种交易如此频繁使得这种保险逐步发展成一个具有自己正规结构的联盟组织。
未来相互接触的重要性能够为机构的设计提供指导。为了促进一个组织成员之间的合作,成员之间的关系应该使得个体之间有经常的和持续的相互作用。如第八章讨论的公司和官僚机构就是经常用这种方式组织的。
有时问题是要阻止合作而不是促进合作。例如,通过避免促进合作的条件来防止商业上的勾结。不幸的是,即使在自私者之间,合作也很容易发生。这说明防止勾结不是件容易的事。合作并不需要正规的协议或者面对面的协商。因此,防止勾结应该将注意力更多地集中在反垄断行动上,而不是去调查竞争公司的领导之间的秘密会面。
例如,政府要选两个公闭来竞争开发新的军用飞机的合同。由于航空公司的专业化程度很高,它们只为空军或海军生产飞机,这就存在一个趋势使有相同专业的公司在最终竞争中彼此相遇(Art1968)。两个给定公司之间的经常性接触使得它们相对容易达成默契和勾结。为了使这种默契更难,政府必须想办法减少专业化程度或弥补它的影响。这样有相同专业的一对公司在最后竞争中相遇的机会就会小些。这就使得它们以后相互作用的价值相对小些以减少未来的影响。如果下一个期望的相互作用足够遥远,在默契勾结的形式中回报合作就不再是稳定的策略。
没有正式协定也能达到合作的潜力在另一些情况下也有它光明的一面,例如,它意味着在控制军备竞赛中的合作没有必要完全通过追求正规的谈判协定来实现。军备控制也可以心照不宣地进行。当然,美国和苏联都知道它们要相互打很长时间的交道,这有助于创建必要的条件。这些领导人可能相互不喜欢对方,但是在第一次世界大战中那些学会"自己活也让别人活"的士兵们相互也不喜欢对方。
偶尔,一个政治领导人认为不必追求与另一个大国合作,因为一个更好的计划可以使它垮台。这是一种非常危险的行为,因为对方的反应不仅是拒绝正常的合作,它还有可能在它不可挽回地被削弱之前使冲突升级。例如,日本在珍珠港的孤注一掷,就是对美国旨在使它停止在中国的侵略所采用的经济制裁的反应(Ike1967,Hosoya1968)。日本决定在它变得更加虚弱之前进攻美国而不是放弃它所谓的生死攸关的地区。日本知道美国比自己强大得多,但是制裁的累积影响使得它认定攻击比等待局势变得更危急会更好些。
迫使某人垮台是通过使未来的相互作用变得更加有疑问而改变参与者的时间期望。没有未来的影响,合作变得很难维持。因此,时间期望的作用对维持合作是关键的。当相互作用有可能持续一段较长时间时,对策者就会一起关心他们的未来。合作的出现和持续的条件就成熟了。
合作的基础不是真正的信任,而是关系的持续性。当条件具备了,对策者能通过对双方有利的可能性的试错学习、通过对其他成功者的模仿或通过选择成功的策略剔除不成功的策略的盲目过程来达到相互的合作。从长远来说,双方创建稳定的合作模式的条件是否成熟比双方是否相互信任来得重要。
就像未来对于合作条件的创建是重要的·样,过去对现实行为的调控也是重要的。最基本的是对策者能够观察和反应对方以前的选择,没有这种利用过去的能力,就不能够惩罚背叛,对合作的激励也就消失了。
幸运的是,监视对方过去行为的能力不需要是完美的。"囚徒困境"的计算机竞赛假定完全知道对方以前的选择。可是在许多情况下,人们偶尔会对其他人的选择产生错觉。一个背叛可能被认为是合作,或者一个合作却被看作是背叛。为了探讨错觉的影响,计算机的第一轮竞赛在经过修正,即假设每一个选择都有1%的可能被对方误解之后,又进行了一次竞赛。与期望的一样,这些误解导致了更多的背叛。令人惊讶的"一报还一报"还是最好的决策规则,虽然它由於单个误解引起一连串交替报复而陷入麻烦,但它经常能用另一个错觉而中止这种反应。许多其他规则具有较少的宽容,因此,一旦它们陷入麻烦,就很少能摆脱出来。"一报还一报"在面对错觉时也能表现得很好,因为它乐于宽容,因此有机会重建双方合作。
时间期望的作用对机构设计有着重要的启示。在大的组织中,如商业公司和政府官僚机构,行政官员经常每两年从一个位置调到另一个相近的位置。[50] 这就给官员一个很强的短期行为激励而不顾组织的长期利益。他们知道不久就要被调到另一个位置去,他们在前一个位置上的选择的后果在离开这个位置之后就可能不算他们的责任了。这就给两个任期快结束的官员一个相互背叛的激励。因此,快速换班的结果使得组织内部的合作降低。
正如第三章指出的,当一个政治领导人再当选的机会看起来很小时,同样的问题也会出现。在即将届满的官员身上这个问题就更尖锐。从公众的立场看,一个面临事业终点的政治家会是危险的,因为追求个人利益的诱惑增加了,他不再为了获得双方利益而与选民保持合作的模式。
由于政治领导人的更换是民主政治的必要部分,这个问题必须用其他办法来解决。这里政党是有用的,因为它们能为它们选出的成员的行为向公众负责。选民和政党的关系是长期的,这就使政党要选出不会滥用权力的候选人。如果一个领导人被发现屈服于诱惑,选民们在下次评价选举同一政党的另一候选人时就会把它考虑进去。在水门事件之后选民对共和党的惩罚说明,政党确实要为其领导人的背叛负责。
—般来说,解决人事变动的组织办法需要考虑在特殊位置上个人任期之后的责任问题。对一个组织或公司而言,保证这种责任的最好方法是不仅考虑一个人在现在位置上的成功,而且还要考虑他留给下一任的位置的情况。例如,一个官员在就要调到新位置之前通过背叛同事而谋利,那么在评价这个官员政绩时就必须考虑这个事实。
合作理论对于人的选择以及机构的设计都有帮助。就个人来说,在进行这项研究中使我最吃惊的就是可激怒性的价值。在开始这个项目时,我相信人不要太急于发怒。"囚徒困境"的计算机竞赛的结果证明了快速反应挑战确实会更好。它表明如果你对无理的背叛反应缓慢,就会有一个发出错误信号的危险。让越多的背叛继续下去而不受惩罚,就越有可能使对方得出背叛能得到好处的结论。并且,这种模式创建得越强,就越难打破它。这意味着很快被激怒比慢些好。"一报还一报"的成功说明了这一点,通过马上反应,给对方一个反馈信号,背叛是没有好处的。
对潜在的违反军控条约的反应也说明了这一点。苏联对它与美国达成的条约的限度偶尔采取一些试探步骤,美国越快察觉这些试探并作出反应,情况就越好。等到它们积累起来就需要作出一个较大的,但有可能引起更多麻烦的反应。
反应的速度取决于发觉对方的一个特定选择所需要的时间。这个时间越短,合作就越稳定。一个快速的发现意味着相互作用的下一步就来得快,因此就增加了由系数W表示的未来的影响。因此,只有那些能够很快发觉被违反的军控条约才可能是稳定的。关键是要求这些违反能够在它们积累到使受害者的可激怒性已不够阻止背叛的程度之前被察觉。
与可激怒性的价值有关的竞赛结果与什么使得善良规则是集体稳定这样的理论分析是相辅相成的。为了能够阻止侵入,一个善良规则必须能够被对方的第一次背叛所激怒(第三章,命题4)。理论上,这个反应不需要是马上的,而且也不必一定要发生,但它必须是有一个最终要发生的真实的概率。重要的是不能使对方得到背叛的激励。
当然,可激怒性有它的危险,即如果对方确实只想尝试一次背叛,报复将导致进一步的报复,冲突将恶化成无止境的双方背叛,这当然是—个严重的问题。例如,在许多文化中家族之间的血恨会持续几年甚至几代(Hack-Michaud1975)。
冲突的持续是由于反射作用:双方用各自新的背叛反应对方上一次的背叛。一种解决办法是找一个中央权威,通过法律条款来控制双方。不幸的是,这种方法通常是不可行的。并且即使有法律的规定,通过法院处理像保证商业合同等日常事务的费用也使人望而却步。当采用中央权威是不可能的或代价太高的时候,最好的办法是依靠一个能自我控制的策略。
这样的自我控制的策略必须是可激怒的,但是反应必须不是太激烈以免导致一个无止境的背叛振荡。例如:假设苏联和其他华沙条约国128家联合着手使它们在东欧的武装力量的一部分动员起来。这样能使苏联在爆发常规战争中得到更多的优势。北大西洋公约组织的有效反应应该是加强它自己的鳖戒状态。如果苏联往东欧增加部队,作为反应,北大西洋公约组织就应该从美国增加部队。贝茨(Betts1982,pp.293—294)建议这种反应应该是自动的。这样就可以使苏联清楚地看到北约的这种增加部队是一个标准的程序,它只发生在苏联动员之后。他还建议这种反应是有限的。即,每三个苏军师动员起来就调进一个美军师。实际上,这有助于限制反射作用。
有限的可激怒性是一个用来达到稳定合作的策略的有效的特性。"一报还一报"是用与对方背叛完全等量的背叛来反应。但在许多情况下,如果这个反应稍稍少于挑衅的话,合作的稳定性便可以得到增强。要不然,就很容易陷入彼此无止境地反应对方的上一步背叛。有几个方法可以控制反射作用。一个方法是首先背叛的一方要认识到对方的反应不应该再引起自己的另一个背叛。例如,苏联应该认识到北约的动员只不过是对它自己行为的一个反应而已,不应该被看作是威胁。当然,即使北约的反应是自动的和可预测的,苏联也不会这样看问题。因此,如果北约的反应在某种程度上小于苏联的动员还是有用的,如果苏联对此的反应也在某种程度上小于北约的动员,那么战备的升级就会稳定下来,并可能反过来回到正常状态。
幸运的是,友谊不是合作进化所必要的。正如堑壕战的例子说明的,即使是敌人也可以学到在回报的基础上发展合作。对关系的要求不是友谊,而是持续性。在国际关系中,主要大国能够确定它们将年复一年地打交道下去,这是件好事。它们的关系不一定总是双方有利的,但它是持续的。因此,下一年的相互作用将在这一年的选择上有一个很大的影响,合作有一个很大的机会最终得到进化。
预见性也不是必要的。正如生物的例子所证明的。但是没有预见性,进化的过程将要花很长的时间。幸运的是,人类确实有这种预见性,并用它加速本来是一个肓目的进化过程。最令人吃惊的是第一轮
"囚徒困境"计算机竞赛和第二轮竞赛的差别。在第一轮中,参赛者是那些代表当时懂得如何能在"囚徒困境"中表现良好的对策专家。当他们的规则彼此配对时,他们的平均得分是2.1分,这只比从P=1(对双方背叛的惩罚)到R=3(对双方合作的奖励)的一半稍稍好一些。第二轮的参赛者做得好多了,平均得分是2.60分,这比从双方惩罚到双方奖励的3/4还好一些。[51] 因此,参赛者能够用第一轮的结果预计在第二轮中怎样才能干得好些。总的来说,他们的预见性得到了高分的报偿。
第二轮比第一轮更复杂,基于回报的合作牢固地创建起来。各种想占那些在第一轮中出现的简单规则的便宜的企图,在第二轮中都失败了,这说明了像"一报还一报"这样的回报性策略的超常鲁棒性。也许能够指望人们会从计算机竞赛的经验中懂得回报在他们自己的"囚徒困境"的相互作用中的价值。
一旦宣布遵循回报,就要去实行它,如果你期望其他人既回报你的背叛也回报你的合作,你就应该明智地避免引起任何麻烦。并且你应该明智地在其他人背叛之后背叛以表示你是不可欺侮的,因此你使用基于回报的策略是明智的。任何人都应该这样。在这种方式下,对回报的价值的评价是一种自我强化,一旦它产生作用,就会变得越来越强。
这就是第三章所创建的棘轮作用的基本点:一旦基于回报的合作在群体中创建起来,它就不能够被试图占人便宜的一个小群体所征服。稳定合作的创建如果只基于盲目的进化力量,它就需要一个很长的时间,如果是明智的人来操作的话,它就可以很快地实现。本书中经验的和理论的结果,有助于人们更淸楚地看到生活中潜在回报的机会。知道两次计算机"囚徒困境"竞赛结果的原因,了解回报成功的理由和条件,能为人们提供更多的预见。
我们可以更清楚地看到,"一报还一报"的成功不是由于它比与它打交道的任何人做得更好。它的成功是靠从其他人那里引出合作而不是靠背叛他们。我们习惯于把竞争考虑成只有一个胜利者,像踢足球或下棋,但世界上的事情很少像这样。在很多情况下,双方合作比双方背叛好。做得好的关键不在于征服对方而在于引导合作。
今天,人类面临的最重要的问题是,在国际关系舞台上,独立自私的国家在近于无政府状态下彼此对峙,这些问题中有许多采取的是"重复囚徒困境"的形式。具体例子是军备竞赛、核扩散、危机谈判和军事升级。当然,要在实际上了解这些问题就必须考虑许多不能并人简单的"囚徒闲境"形式中的因素,如意识形态、官僚政治、承诺、联盟、调解和领导地位。然而,我们可以利用我们拥有的洞察力。罗伯特·吉尔平(RobertGilpin1981,p.205)指出,从古希腊到现代的所有政治理论都说明了一个基本问题:人类(不管是出于自私或更宽大的目的)如何理解和控制似乎是盲目的历史的力量?在现代社会中这个问题由于有了原子弹而变得特别尖锐。
第六章中对"囚徒困境"竞赛者的劝告也可以作为对国家领导人的很好的劝告。不要妒忌,不要首先背叛,回报合作也回报背叛,不要太聪明。同样,第七章中促进"囚徒困境"中的合作的技术性探讨对促进国际政治中的合作也是有用的。
如何从合作中得到奖赏的问题核心在于试错学习是缓慢和痛苦的。这样的学习过程可能对长期发展有好处,但是我们可能没有时间等待这样盲目的过程而缓慢地走向基于回报的对双方有利的策略。也许,如果我们更好地了解这个过程,我们就能用我们的预见加快合作的进化。
附录A 竞赛结果
附录B 理论命题的证明
参考文献
译后记
我是在1986年第一次拜读罗伯特·阿克塞尔罗德教授的这本著作的,深深为其方法之精巧,分析之透彻,结果之精彩所吸引。特别是,与阿克塞尔罗德教授一年多的接触,使我更加迫切地要把它翻译成中文。回国后,我立即着手翻译,使得中译本在1995年出版。12年来,我利用业余时间,给学校的MBA班、各种组织的培训和企业内部进行了近百次的有关合作进化的讲座,内容涉及国际贸易、企业竞争、政府和公民、企业和员工之间的合作关系,听众的反馈十分积极,对书中阐述的道理非常认同,许多听众的评论是"终身受益"。这给我的—个信号是,大家对增进合作的愿望是非常强烈的。今天,《合作的进化》的中译本再版具有其特殊的意义。在过去的12年中,随着中国经济和社会的快速发展,以及市场竞争的日益激烈和进一步的对外开放,人们更加迫切地感到合作的重要性。在这期间,一件与福斯生活相关的大事就是中国重新进入世界贸易组织。随之而来的是中国和其他国家的双边贸易迅速增加,由此产生的倾销与反倾销问题此起彼伏。这一方而是由于一狴国家因与中国的贸易逆差不断上升而通过反倾销来保护本国国内工业,但更多的是由于一些中国出口企业在激烈的国际市场竞争中,缺乏自律,竞相低价出口以争夺市场,最终授人以柄而导致反倾销。这些企业的行为就是陷入了"囚徒困境",它们需要更多相互理解和合作。由此,我认为,这本书的再版是一件大好事。
原中译本的书名是《对策中的制胜之道》,我想该书的译名还是还其本来面目,称为《合作的进化》为好。因为本书所反映的哲理中最重要的一条是,"一报还一报"在每一局对策中得到的分数都不会比对手高,因此它不是"制胜"的策略;它是通过启发对方合作,避免两败俱伤,达到双赢而得到高分的。
本书的一个重要结论就是人们相互作用越频繁,合作的可能性就越大。当前随宥信息技术的普及,人们相互间交往的信息日益透明,信息反馈时间迅速缩短,人们的重复交易机会大大增加,这使得基于回报的策略的作用在增强。因此,我们有理由相信人们的合作性会逐步加强,人们的竞争行为必然从盲目走向理性。
本书的一个重要启示是合作的"进化"。也就是说,合作不是自然产生的,而是要经过一个过程的"进化"才能达成。在这个进化过程中,人们通过学习、试错逐步向合作演化。有时这个"进化"过程是漫长的,但是,我们相信,只要了解和学习合作的道理,人们的进化过程就会加快。因此,我希望有更多的人通过本书了解合作的原理,掌握书中关于合作的几点建议——不要嫉妒,不要首先背叛,对合作和背叛都要给以回报,不要耍小聪明,并积极参与社会的各种合作,促进加快合作的进化,通过进化而逐步成熟,最后达到"合作"与"和谐"。这就是本书的意义所在。
附录
合作的前提:读《合作的进化》
作者:giraffe
2008-06-27 14:16:31
[美]罗伯特.阿克塞尔罗德:《合作的进化》,吴坚忠译,上海世纪出版集团2007年版
这本书最早的译名是“对策之中的制胜之道”,不仅有点“媚俗”,而且还有点引人误解,因为人与人的“合作”关系与力求“制胜”的竞争关系有显著的不同,而书中所谓的“一报还一报”行为策略,并不是一个一心争胜的策略,事实上,它在单次博弈中的得分从不会“超过”对方,其竞争优势在于能促使合作秩序扩展从而能够和合作伙伴一起胜过“总是背叛”或“一有机会就背叛”的“小人”。这次再版,书名更为“合作的进化”,要确切多了,但更恰当的译名似乎应该是“合作的演化”。
按照自利理性人的假设,在人类社会中广泛存在囚徒困境(双方合作比不合作好;但一方背叛一方合作时,背叛方得分高于合作时得分;结果双方出于“理性”都选择背叛)是不足为奇的,陷入困境的“囚徒们”不互相背叛反而彼此合作,才是一件很奇怪而需要解释的事。
而本书中,密歇根大学政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)有关“重复囚徒困境”的计算机程序比赛得出了极有意思的结果:合作,更确切地说,不是那种“打左脸,把右脸也转过去给他”的善良,而是“人不犯我,我不犯人;人若犯我,我必犯人”的合作,在不同行为策略竞赛中胜出了。被淘汰的策略不仅仅包括了总是背叛的“小人”策略,还包括了总是合作从不背叛从而被“小人”占尽便宜的“善人”策略、一旦被背叛就永远不再合作的“记仇”策略、完全随机背叛或合作的任性策略、因“老谋深算”而过分复杂的种种策略……
返观现实,在人类社会生活中,合作的确是再寻常不过的现象——至少,比迷信理性自利假定的经济学家们推断的要多得多。
所以,不愿意修正自利人假定——他们很乐意将理性修正为有限理性——的科学家们不能不追问:人与人之间合作在一个广泛不合作的环境里是怎么发生的?合作产生后又怎么能在动态的多样化的“任何情况都可能发生的”社会环境中持续下去?已经在持续中的合作又怎么能避免被(背叛)破坏?
书中,这三个问题被分别称为“初始成活性”、“鲁棒性”和“稳定性”问题。
第一个问题:初始成活。
看来,一个合作取向的行为策略可以通过有意的分析、试错或仅仅是幸运而出现。而合作的出现,只需要一个采取合作策略的个体与另一个采取合作策略的个体相遇即可。
第二个问题的答案是:长期的相互关系是合作策略胜出的必要条件。
也就是说,继续打交道的机会对于合作的发展是必要的(这并不是说,它是充分的)。一次性的博弈,就是当知道以后“再也不见”的时候,自利者一有机会就会“宰你没商量”,合作看起来是“傻瓜”的选择。用书中的专业语词表达,就是“只要个体再也不相遇,背叛策略就是唯一稳定的策略”[1]。或者“未来相对于现在不是足够重要时,没有任何形式的合作是稳定的。”[2]
具体说来,在竞赛中胜出的“一报还一报”策略,因为从不先背叛,所以在每一局博弈中,其得分或者与合作对方一样多,或者低于首先背叛的对方。只有博弈者之间的接触不是一次性的,而是持续或反复发生的,背叛者因背叛而得到的好处,才有可能在未来的接触(被报复)中被抵消,而合作者才有足够的时间在后续合作中使其合作收益超过其因被背叛(以及实施后续报复)而产生的损失。
已知次数的多次博弈,按书中的说法,结果和一次性博弈是一样的:只要参与者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,参与者没有一次会合作。[3]对此,我持怀疑态度。因为这种倒推,逻辑上看来无懈可击,但不仅和生活经验不符,与其主要论点“长期关系有利于促成合作”也是不一致的。
首先,这个推理过程,立基于博弈双方能够预知对方在最后一局“必然”背叛,但是,这忽略了“未来”本身的不确定性。没有人真的能够确知“未来”,已知的未来博弈次数越多,双方就越是不能确定对方在最后一局是否会背叛——谁知道以后会发生什么呢?事实上,即使是一次性的博弈,也只是合作“很难”达成,而并非“一定不能达成”。我们都知道在旅游点买东西很容易上当,但并不是每次都会上当。要是没有这种不确定性,就根本无法想象在一个普遍不合作的世界怎么会有合作得以首次出现的机会了。
更容易理解的是,多次博弈给参与者提供了报复的机会。已知次数的博弈参与者不得不考虑,如果自己第一次不合作,第二次就会被报复。[4]所以,在对方失去报复机会之前,也就是最后一次之前的多次博弈中,合作比不合作明智。(用书中的词语来表达就是:博弈次数增加,会改变“未来”的重要性。)
第三个问题的答案是:报复对方的背叛。
“一报还一报”策略在对方第一次背叛时就报复。假如一个合作程序从不报复或者只在对方第N次背叛时才报复,就会被那些只背叛或只在第N-1次背叛的策略侵入。所以,对背叛的报复不仅必要,而且必须是及时的。
然而,对背叛的报复应当是有节制的。若报复被对方认为超过了挑衅,极有可能导致对方的进一步报复,由此陷入无止境的背叛振荡。由此,本书作者分析了,[5]假如“一报还一报”策略在报复时表现得更宽容,比如,报复反应稍稍少于挑衅的话,合作的稳定性将会增强。
如此这般的合作理论的确是鼓舞人心的:
“即使是在一个其他人不愿合作的世界里,合作仍然可以通过一小群准备回报合作的个体来产生。分析还表明合作能发展的两个关键前提是合作要基于回报和未来的影响就足够重要以使得回报稳定。但是,基于回报的合作一旦在群体中建立,它就能保护自己不受非合作策略的侵入。” [6]
值得注意的是,书中关注的行为策略软件竞赛不仅假定了个体是自利的,同时还假定了个体具有识别和记忆对方的能力,这使得该书的评论者很容易忽略在该书至后面[7]才突出强调的:个体能够识别和记忆曾相遇的其他个体也是合作的必要前提。
在本书的研究中,这一条件其实是合作的所有其他前提的前提。如果不能记忆和识别其他个体,个体不仅“不可能使用任何形式的回报,因此也就不能鼓励对方合作”;[8]而且也不能实施有效的惩罚,以迫使对方合作,并通过“杀一儆百”让自己的立场被其他参与者(实际或可能的合作对方)所了解。就“引入未来考虑”或令“未来具有足够大的影响”而言,只有两个个体在将来仍会再相遇时未来才具有影响,而未来将要相遇的这个两个个体,只能通过彼此过去的行为表现才能被辨认出来。归根结底,个体之间的合作,不能基于“我为人人,人人为我”这样抽象空泛的考虑,而只能是特定化为“我为你,你也为我”。
在转型社会,合作的不出现,或合作之被破坏,最常见的原因恰恰是缺乏这样的前提条件。这也是为什么与传统熟人社会相比,作为“陌生人世界”的现代工商社会中合作秩序的扩展更像是“奇迹”。当然,这也可用来解释在现代工商社会中商标、商号、身份证、信用等制度的重要性。
同样基于对转型社会里合作问题的关注,我们可以很容易地注意到本书中一再提到而许多评论者忽略的另一个前提:必须存在以相互回报合作作为宗旨的群体,合作才能在普遍不合作的世界中出现、存续并繁荣。
书中强调了,[9]在一个背叛广泛存在的世界中,有回报合作意向的单个个体或分散的孤立个体之存在,是不足令合作出现的。这些合作者必须有机会彼此交往,结成“群体”,哪怕是极小的群体,才有可能侵入一个以彼此背叛为均衡的“恶棍世界”。
很容易明白,在一个大家都采用“总是背叛”策略的群体中,孤独地与人为善(采取合作策略)的话,是无法避免吃亏上当的。“一报还一报”作为从不先背叛的策略也不例外。如前所述,“一报还一报”,在单次博弈中得分从不会超过对方,其优势只在于引发并扩展合作而与合作伙伴一起胜过不合作者;而这就意味着,即使是在这次比赛中脱颖而出的“一报还一报”,如果不是遇上同样采取合作策略的伙伴,也不可能有好的表现。[10]
仅仅就这一前提而言,道金斯对《合作的进化》的解读是不准确的,——这本书并传递如下“令人振奋的信息”:从“极端自私的、对苦难无情地冷漠、残忍地损人利己”这一扭曲的起点开始,“即使不是刻意的、类似于友善的兄弟姐妹般的伙伴关系也会出现”。[11]这本书说的不过是:假如有一个以合作为宗旨的群体存在,哪怕只是一个小小的群体,那么“合作可以在一个无条件背叛的世界里产生”,[12]并且以不可逆转的趋势扩展开来,占据优势。
我们这些为背叛所苦并期望促进合作的人,特别想知道的恰恰是:这样的合作者群体怎么会出现?或者说,这样的群体出现的现实条件是什么?而这是本书的研究不曾关心,当然也未作说明的。
众所周知,作为理论研究出发点的基本假设是非常重要的,它决定了你能提出什么样的问题,而问题本身又规定了探索答案的方向。《合作的进化》是基于自利个体的研究,所以才会将“合作怎么可能”当成问题。如果换个前提,像《走向统一的社会科学》、《人类的趋社会性及其研究》里提出的一样,把“强互惠”(reciprocity)以及“利他”作为人类独有的属性(attribute),那么人与人之间合作就不再成其为问题,成问题将是:人与人之间怎么会出现背叛呢?或者是:人与人之间的合作怎么会被破坏呢?
在我看来,最有意思的是:这两种针锋相对的假定,以及南辕北辙的提问方式,在关注当下合作与背叛并存的现实社会之问题,例如“如何才能促进合作避免背叛”时,看来会走到相近的结论上去。