登陆注册
5488100000008

第8章 打破“囚徒困境”(1)

在“囚徒困境”中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大,即未来是重要的。

囚犯的救赎

为了验证面对“囚徒困境”时人们可选择的策略以及这些策略的有效程度,美国的学者组织了一次以此为主题的计算机竞赛。竞赛要求参加者根据这一困境设计程序,并将程序输入计算机,通过各种程序的相互对局的最后得分评判优劣。

竞赛的游戏方法是:游戏双方都在不知对方将如何选择的情况下,选择合作或背叛。这些选择放在一起就产生了四个可能的结果,即:合作,合作;合作,背叛;背叛,合作;背叛,背叛。在这个游戏中,如果双方选择合作,双方都能得到较好的结果R,即“对双方合作的奖励”。在这个例子中R为3分,3也可以代表参赛者得到的奖金数。如果一方合作而另一方背叛,那么,背叛者得到“对背叛的诱惑”T=5。而合作者则得到“给笨蛋的报酬”S=0。如果双方都背叛那么双方都得到P=1,即“对双方背叛的惩罚”。

参赛者提出了各种程序,但是大致可分为“善良的”、“邪恶的”和“随意的”三类,竞赛的结果也许有些出人意料:“善良”即“以合作为主”的策略大获全胜,而“邪恶”即“以占便宜为主”的策略成绩不佳。

现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛,即“总是背叛”,另一个对策者采用的策略是“一报还一报”,即在第一步合作,然后就采用对方上一步的选择。“一报还一报”意味着在对方每一次背叛之后就背叛一次。当对方采用“一报还一报”时,采用“总是背叛”的对策者,将在第一局得到收益,在而后的对局中都得到相应的回击。这样,这个背叛者只是在第一局得到5分,而在以后的每局都只能得到1分,最终他可能会“战胜”对手,但由于总分仍然很低,而被淘汰出局。

你可能忍不住要问:“什么是最好的策略?”换句话说,什么策略能使对策者得到可能的最高分?这个问题问得很好。但是就像以后要说明的一样,独立于对方所用策略之外的最好决策规则是不存在的。从这个意义上说,“囚徒困境”完全不同于一般游戏,如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步,这种假定是这类游戏的基础。然而在这里,游戏者的利益并不是完全冲突的。双方可以通过合作而得到“对合作的奖励”R,也可以通过背叛而得到“对背叛的惩罚”P。如果你假定对方总是走你最担忧的一步,那么,你就会认为其他人总是不合作,这就会使你也不合作,最后招来无休止的惩罚。所以与下棋不同,在“囚徒困境”中假定对方一心要赢你是不可靠的。

事实上,在“囚徒困境”中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大,即未来是重要的。总的来说,如果你认为今后将难以与对方相遇,如果你不太关心自己未来的利益,那么,你现在最好是背叛,而不用担心未来的后果。

这样,我们得到了第一个正式的结论,但却是一个令人伤心的结论,即:如果未来是重要的,就不存在最优策略。

“一报还一报”的伟大胜利

区分善良规则好坏的一个特征是,看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为“报复性的”,如果它在对方的背叛之后立即以背叛报复。除非一个策略能迅速反应来自对方的挑战,否则,对方将简单地从这样一个好说话的策略身上获得越来越多的好处。

在比赛中,有好几个规则故意使用若干次背叛,试试看它们能否讨到便宜。因此,很大程度上决定善良规则的最后名次的是它们能否很好地应付这些挑战。

对付这类挑战性规则的最好办法是时刻准备报复来自对方“无缘无故”的背叛。因此,善良能得到好处,报复也能得到好处。“一报还一报”综合了这些优点,它是善良的、宽容的和具报复性的。它从不首先背叛,但是不管过去相处的关系如何好,它总能被一个背叛所激怒,而迅速作出反应。

生态分析的结果说明了“一报还一报”的又一个胜利。在最初的竞赛中“一报还一报”领先一点点,而且在整个生态模拟过程中一直保持领先。到了第1000代,它是最成功的规则,并且比任何一个其他规则都增长得快。

“一报还一报”的所有记录是令人难忘的。概括地说,“一报还一报”是62个参赛者中平均得分最高的规则。在竞赛的生态模拟中它一直保持领先。加上它在实验室的对策实验中的良好表现,“一报还一报”显然是一个非常成功的策略。

“一报还一报”的成功可以说明的是它是一个很具适应性的规则:即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和“一报还一报”很好相处就要和它合作,这反过来就帮助了“一报还一报”。即使那些被设计成伺机占便宜而不被惩罚的规则,也很快向“一报还一报”道歉。任何想占“一报还一报”便宜的规则最终将伤害自己。“一报还一报”从自己的不可欺负性得到好处,是因为以下三个条件得到了满足:1.遇到“一报还一报”的可能性是显著的;2.一旦相遇,“一报还一报”很容易被识别出来;3.一旦被识别出来,其不可欺负性就显示出来。因此,“一报还一报”从它自己的清晰性中得到好处。

另一方面,“一报还一报”放弃了占他人便宜的可能性。这种机会有时是很有利可图的,但是试图占便宜而引来的问题也多种多样。首先,如果一个规则用背叛试探是否可以占便宜,它就得冒被那些可激怒的规则报复的风险。第二,双方的反击一旦开始,就很难自己解脱。

“一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作。它的清晰性使它容易被对方理解,从而引出长期的合作。

你不必每次都赢

虽然预见对于合作的进化不是必要的,但它却对我们很有帮助。因此在这里将分别对参与者和改革者提供建议。

下面为那些处于“囚徒困境”的人提供建议。从个体的眼光看,目标是在与对手的一系列对局中尽可能地得高分。由于这个游戏是“囚徒困境”,参与者会受到背叛的短期诱惑,但是通过与对方建立双方合作的模式可以得到更多的长期好处。对计算机竞赛的分析和理论研究的结果,为我们提供了一些有用的信息,即在不同的条件下什么样的策略会起作用和为什么这些策略能表现得好。这一章就是把这些发现转化成对参与者的建议。

在持续的“重复囚徒困境”中应如何表现,下面是四个简单的建议:

1.不要嫉妒

人们习惯于考虑零和对局,在这种情况下,一个人赢,另一个就输。一个很好的例子就是下棋比赛。为了能赢,一个参赛者必须在大部分时间里比对手做得更好。白棋赢黑棋就输。

然而生活中的大多数情况都是非零和的。双方可以都做得很好,也可以都做得很差。双方的合作是可能的,但并不是总能实现。这就是为什么“囚徒困境”是各种各样的日常情形的有用模型。

人们倾向于采用相对的标准,这个标准经常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒,嫉妒导致企图抵消对方已经得到的优势。在“囚徒困境”的形式下,抵消对方优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。

要求自己比对方做得好不是一个很好的标准,除非你的目的是消灭对方。在大多数情况下,这个目的是不可能实现的。

“一报还一报”由于与其他多种多样策略相处得很好而赢得了竞赛。平均来说,它比竞赛中的其他任何策略都做得更好。但是“一报还一报”从来没有一次在游戏中比对方得更多的分!事实上,它不可能比对方多得分。它总是让对方先背叛,并且它的背叛次数决不比对方背叛的多。因此“一报还一报”不是得到和对方一样多的分,就是比对方略少。“一报还一报”赢得竞赛不是靠打击对方,而是靠从对方引出使双方有好处的行为。“一报还一报”如此坚持引出双方有利的结果,从而使它获得比其他任何策略更高的总分。

因此在一个非零和的世界里,你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得好就没有理由去嫉妒对方的成功。因为在长时间的“重复囚徒困境”中,其他人的成功是你自己成功的前提。

在生意场中也是这样,一个从供应商那儿买来东西的公司期望供方和买方都有好处的成功的关系。妒忌供方的利润是完全没有意义的。任何通过不合作行为(如不按时付账)来减少这种利润的企图,都将激起供方的报复行动,报复行为可以采用多种形式,经常以不明显惩罚形式,诸如拖延发货,较低的质量保证,不愿意打折扣,或者不交换市场条件变化的信息。这种报复使得嫉妒代价很大。买者不要担心卖方的相对的利润,而可以考虑是否有其他更好的购买策略。

2.不要首先背叛

竞赛和理论分析的结果都表明,只要对方合作你也合作就会有好处。竞赛结果是很令人吃惊的。决定一个规则表现如何的惟一最好的特征是这个规则是否善良。也就是说这个规则是否不首先背叛。在第一轮竞赛中,前8名规则中都是善良的,在后7名规则中没有一个是善良的。在第二轮竞赛中,前15名规则中只有一个是非善良的(它名列第8),而后15名规则中只有一个是善良的。

有些不善良的规则,使用相当复杂的方法来试探它是否能逃脱惩罚。例如尝试在第一步背叛,如果对方报复的话,它就马上撤回。在另一个例子中,它在背叛前等待十几步,看看对方是否能被哄骗和被偶尔占便宜。如果是的话,就更频繁地增加背叛,直到对方反击而被迫撤回。但是这些尝试道德背叛的策略都表现得不怎么好。因为存在许多由于愿意报复而不被占便宜的策略,所以导致冲突的代价有时是很高的。

甚至许多专家也没有意识到善良性对避免不必要的冲突的价值。在第一轮竞赛中,由对策论专家送来的规则中几乎有一半是不善良的。参考了第一轮的明显结果,第二轮比赛中大约有1/3规则用不善良的策略,但是,它们都没有占到便宜。

前面的竞赛结果提供了另一个方式来说明为什么善良的规则能表现得如此好,由于善良的规则相互之间相处得很好,因而善良规则的群体是很难被侵入的。而且能够阻止单个变异个体侵入的善良规则的群体也能阻止这个变异规则的任何小群体的侵入。

当然,你可以尝试更保险的方式,即先背叛直到对方合作,才开始合作。然而,竞赛的结果表明,这实际上是一个很有风险的策略,因为你的最初的背叛就可能引起对方的报复,并使你处于要么被占便宜要么双方背叛的两难境地。如果你惩罚对方的报复,这种反应就会一直延续下去。如果你宽恕了对方,你就得冒被欺负的风险。即使你能避免这些长远问题,对你的最初背叛的当下报复会使你希望自己从一开始就应该是善良的。

对竞赛的生态分析揭示了另一个为什么首先背叛是很冒险的道理。第二轮竞赛中前15名规则中惟一的非善良策略是名列第8的“哈林顿”。因为它与竞赛中的名次较低的规则相遇的得分都很高。在假想的未来生态竞赛中,名次较低的规则在群体中的比例越来越小,最终能被这个最初挺成功的非善良策略占便宜的策略就越来越少,接着它自己也消亡了。因此,只会占“傻瓜”的便宜是没有用的,它只不过是一个自我毁灭的过程。这个教训说明,虽然不善良在最初看来似乎是很有希望的,但长期下去它将毁坏使自己成功所必需的环境。

3.对合作与背叛都要给以回报

“一报还一报”超常的成功给出了一个简单的但又是很有力量的建议:要回报。在第一步合作之后,“一报还一报”只是简单地回报对方在上一步的所为。这个简单的规则惊人地有效。它赢得了第一轮“囚徒困境”计算机竞赛,并取得比任何其他由对策论专家们送来的规则更高的平均得分。每一个第二轮竞赛的参加者知道这个结果,但“一报还一报”又赢了第二轮竞赛。这个胜利显然是令人惊讶的。因为每一个参赛者都是在考虑了“一报还一报”在第一轮竞赛中的胜利结果之后,才提交参赛规则的。显然人们都希望能干得更好,但是他们错了。

“一报还一报”不仅赢得竞赛本身,而且在假设的继续比赛中比其他任何规则表现得都好。这表明“一报还一报”不仅与最初的各种规则相处得很好,而且能与那些可能在未来群体中占较大份额的成功的规则相处得很好,它不毁坏自己成功的基础,相反它在与其他成功的规则相互交往中繁荣起来。

同类推荐
  • 人口预测模型研究及应用

    人口预测模型研究及应用

    本书总结了人口预测的基本理论和方法及主要应用模型:尝试将灰色系统模型应用到区域流动人口规模预测,以期更好地描述未来特大城市人口的发展趋势和变动趋势;在此基础上对其人口政策的调整提供科学的依据和建议。
  • 经济学常识全知道

    经济学常识全知道

    冯雷钢编著的《经济学常识全知道:经典珍藏》讲述了:经济学不仅能够帮助我们更好地了解这个世界,还能够帮助我们更好地懂得生活、懂得人生,可以更深刻地用经济学常识去掌控我们的生活。让我们不仅仅知道如何理财、如何投资、如何消费、如何看待生活中的各种现象。《经济学常识全知道:经典珍藏》更能培养我们一种看问题的理念和思维方式,从而深刻地影响和改变我们的生活。所以,的作家萧伯纳说:“经济学是一门使人幸福的艺术。”
  • 激荡百年:大国农业

    激荡百年:大国农业

    在中国漫长的五千年历史中,没有哪一段历史能像1912年至2012年这样精彩,就在这短短的一百年中,中国经历了从军阀混战、割据分裂到内忧外患、强敌入侵再到建国统一、繁荣富强的坎坷历程。就在这激荡的百年时光里,中国农业在波动与革新中不断发展,逐渐进入平稳上升时期。在此后的发展中,作为国家的基础产业,中国农业已经开始走向世界。
  • 狐狸梦

    狐狸梦

    本书虽然是以童话风格所写,但是所阐述的都是经济学关键性的原理,和当代前沿的经济学争论热点问题。这是一个人情脉脉与人欲难填并存的世界,亦是现实社会的翻版。在这个隐喻的动物王国里,作者表达了极其深刻的理性洞察和永不泯灭的童心。
  • 哈佛教授讲授的300个经济学故事

    哈佛教授讲授的300个经济学故事

    基尼系数、恩格尔系数、拉弗曲线、破窗理论、银根紧缩 、市场泡沫、金融危机……这一系列陌生又严肃的经济学术语让我们面对经济学总是提不起劲。不过经故事包装,他们又变得亲和、好沟通。如果你是经济学的初级入门者,用故事来解释经济学再适合你不过了。
热门推荐
  • 海底月是天上月

    海底月是天上月

    如果说青春是一座桥,那么站在桥头和桥尾的区别在哪里?一场青春一座城,谁又把谁掩埋?高一这一年,叛逆执拗的女孩蒋娥遇上了生命中的注定宿风,情投意合之下开始偷偷交往。而青春的帷幕,刚刚拉开。好朋友张恺暗恋上了代班主任。闺蜜孙菲菲为爱一腔孤勇,而叶澜则在逃离命运的途中左右摇摆……随即牵扯而出的一连串命运纠葛,让他们防不胜防。一边是滚滚命运的考验,一边是青春的搏击战。--情节虚构,请勿模仿
  • 倾世双娇

    倾世双娇

    她们本是至亲姐妹,穿越后,姐姐想过平淡生活,而妹妹却为权势而不择手段。阴差阳错之下,姐姐成为妹妹夺权之路最大的障碍,姐妹之间的较量一触即发,一个步步紧逼,一个一心想挽回亲情,最终是狠心的妹妹上位,还是姐姐笑冠后宫?
  • 青楼梦

    青楼梦

    小说叙述苏州书生金挹香,认定妓女多情,便到青楼寻觅知己。他先后认识许多妓女,并与之结交,在虎丘集二十四名妓女办“闹红会”。蜂蝶使给他托梦,告他妻姓钮,有四妾……
  • 爱你到最后一个晴天

    爱你到最后一个晴天

    本书收录了青年作家多多的经典短篇小说。失恋时,爱情里多半是雨天,潮湿的空气夹杂着伤心的泪水,淋湿了整颗心。热恋时,爱情里多半是晴天,阳光和煦微风拂面,带来了所有好心情。爱你到最后一个晴天,不让雨天淋湿我们的爱情。本书通过不同人的视角去讲述发生在都市生活中你、我、他的爱情故事。
  • 烟火染上京

    烟火染上京

    六笙,父神母神第六女,诞生无尽之海,仙鹤神鸟飞翔啼鸣,祥云为伴。即渊神君,天地灵气而生,贵为四海八荒唯一一个神君。————“你这小生,怎这般不识趣”六笙恼怒地说“哦,那你说说我如何不识趣”座上男子手椅着头,仿佛一切都不曾入他眼。“我说你不识趣难不成我还冤枉的你不成”“姑娘,你说什么便是什么,怎这般无礼”座上的男人清冷的说。“你”六笙恼怒————“神君,君后说讨厌你”童子低着头小心翼翼地谈。“讨厌?四海八荒爱慕本君之人如江之流水,竟又睁眼说瞎话”说着便望往她的方向走去。站在那的童子低声说:他就知道,他们家神君容不得在君后眼里出现一点瑕疵。
  • 重生之两世杀手

    重生之两世杀手

    一代杀神,因为被最好的朋友出卖,于是在执行任务中反被将了一军,最后的时刻,他与那些人同归于尽,一醒来的时候,却发现自己穿越了,还是在一个以武为尊的世界中生活着,而穿越到一个倒霉蛋的身体上,前生的重重已经结束了,今生,我只为武道而存!
  • 世界第一的假面殿下

    世界第一的假面殿下

    弗尔德伦是全宿制贵族高校,并且超级看重学习成绩,在这所清洁、严谨、富有学术精神的学校里,学生被划分成六个不同的袖章等级,分别从白色、黄色、绿色,一直到蓝色、红色、黑色。白色的成绩是较差的,相当于初学者,恍如一片空白的白纸;黄色和绿色是稍显一般的成绩,蓝色以上都是成绩偏好的。而黑色,在全校总共也只有十个人,唯有成绩到达全校前十名的人才可以拥有黑色的袖章。在学校里,每个人都非常努力认真,用自己的汗水和勤奋争取着袖标颜色的晋级。温柔善良的女孩夏以然和哥哥夏洛茗都参加了入学测试,以然原本以为哥哥很笨,但是当成绩下来,夏洛茗拿了蓝色袖章,她只得了白色袖章的时候,她才发现其实两个人的差距,一直都很大……
  • 抢人

    抢人

    下午五点之前,王关吉就驱车一百公里赶到了平湖县城。他在城里转了几圈,找到一家很上档次的酒店,定了个单间。看看表已经五点多了,就掏出手机给沈燕子打电话。然而,电话没有人接。王关吉想是不是自己拨错了号码,摁一下重现键看看,并没有错。他想,不会错的,因为自己已经对这号码烂熟于心。没有人接,大概是沈燕子还没下班。于是就等。服务员小姐给他和司机沏上茶,自作主张地打开VCD,想让她的客人欣赏一会儿音乐,却被王关吉喝令关上了。他想,这小姐真是不识相,她不知道我正考虑事儿呢。这事儿那么重要,不好好考虑考虑怎么行呢。
  • 巫法无天

    巫法无天

    云尘遭同门陷害,被执法长老雷霸废去修为,含冤而死,后被玄黄界帝尊附体转世。修巫族战法,炼天巫霸体。战人族天骄,斩异族妖孽。建无上天朝,领人族崛起,称霸诸天,横行万界。闯秘境,入深渊,过死狱,入星空,悟长生之道,入羽化之境,成无上真仙。
  • 冷宫里的冷皇妃

    冷宫里的冷皇妃

    既然穿越,那就认真的再活一次吧,目标——成为大将军,跳出这个金牢笼。建议选一条线先看,完结后有兴趣再看另一条线,不要混着看,因为一些章节的内容会有重复。带“(副)”字样的就是衍生正文,不带的就是我按我的大纲写的正文,喜欢石戬铁飒军营元素的选衍生正文线,喜欢有宫廷剧情的选大纲正文线。用QQ阅读看的客官请注意,因为阅读平台上是系统编号所以和原本的有不同,请记住带(副)的第一章是跟在前面的第七十九章后面的,也就是衍生线的第一章