【囚徒困境】:明明合作有利,可为什么合作很难

囚徒困境(Prisoner‘s dilemma)是一个博弈论思想实验,涉及两个理性主体,他们要么为了共同利益而合作,要么为了个人利益而背叛伙伴。这一困境源于一个事实:虽然背叛对每个主体来说都是理性的,但合作却能为每个人带来更高的收益。

1.经典博弈

囚徒困境是一个博弈论思想实验,是梅尔里·弗勒德和梅尔文·德雷舍于1950年在兰德公司工作期间设计的,阿尔伯特·W·塔克后来将该博弈命名为囚徒困境,以监禁刑期来定义奖励。

威廉·庞德斯通在1993年出版的《囚徒困境》一书中描述了这个游戏的典型当代版本:两名犯罪团伙成员被捕入入狱。两人被单独监禁,无法与对方交谈或交流信息。警方承认,他们没有足够的证据以主要罪名定罪。他们计划以较轻的罪名判处两人每人一年监禁。

同时,警方向每个人提出了一项交易。如果他作证指控他的同伙,他将获得自由,而他的同伙将因主要罪名而被判三年监禁。而如果两名囚犯互相作证指认对方,两人都将被判两年监禁。

囚犯们有一点时间考虑,但在任何情况下,在做出不可逆转的决定之前,都不会知道对方的决定。每个人都被告知,对方也面临同样的交易。这里假定,每个囚犯只关心自己的福利——尽量减少自己的刑期。

这导致囚犯A和囚犯B可能出现三种不同的结果:

1 如果A和B都保持沉默,他们将分别服刑一年。

2 如果一人作证指控另一人,而另一人不作证,那么作证的人将被释放,而另一人将服刑三年。

3 如果A和B互相作证,他们将分别服刑两年。图片2.应对策略

两名囚犯分别关押在不同的房间,彼此无法交流。

假设两名囚犯都了解游戏的本质,彼此间没有忠诚度,并且在游戏之外没有获得惩罚或奖励的机会

我们经过推论,可以得出:无论对方做出何种决定,每个囚犯背叛对方都会获得更高的奖励。

推理过程如下:对于A来说, B要么合作,要么背叛。如果B合作,A因该背叛。因为无罪释放比坐一年牢要好。如果B背叛,A也应该背叛,因为坐两年牢比坐三年牢要好。

因此,无论B采取何种策略,A都应该选择背叛。 因为背叛是A的最佳应对策略。同样的推理,对B来说也应该选择背叛。总之,在以上假设下,背叛总比合作带来更好的收益,因此对双方而言,背叛都是严格占优策略。

1.重复博弈

而在实际交往中,更多出现的是多人、多次的博弈行为。如果两个玩家多次连续玩囚徒困境,记住对手之前的行动,并允许相应地改变策略,则该游戏称为重复囚徒困境。

重复囚徒困境是一些人类合作与信任理论的基础。假设该博弈能够有效地模拟两个人之间需要信任的交易,那么群体中的合作行为就可以用该博弈的多人迭代版本来建模。从囚徒博弈在上个世纪50年代被提出以来,研究人员就对多人迭代版本的囚徒博弈,在合作演化方面的应用进行了大量的研究。

其中密西根大学教授罗伯特·阿克塞尔罗德还组织了重复囚徒困境锦标赛,邀请全世界各地的博弈论爱好者提交计算机参赛程序,通过计算机程序来模拟不同策略的博弈。尽管参赛程序在算法复杂度、初始敌意、宽恕能力等方面的策略差异很大。但阿克塞尔罗德发现,就算从纯粹的自利角度来判断,长期来看,贪婪策略往往表现不佳,而利他策略则表现更佳。也就是说,重复囚徒困境这一博弈论实验,揭示了一种可能的人类关系机制:通过自然选择,从最初的纯粹自私行为演化为利他行为。什么样的策略能够在重复囚徒困境中获胜呢?

简单说,就是“以牙还牙”策略。有意思的是,这个获胜的策略是所有参赛程序中最简单的,阿纳托尔·拉波波特仅用了包括四行basic代码的程序就赢得了比赛。该程序的策略非常简单:第一次,首先选择合作;第二次,直接选择对手上一步所选的策略。也就是对方合作就合作,对方背叛就背叛。实际上,根据具体情况,一个比以牙还牙更好一点的策略是,在以牙还牙的基础上增加一点点宽恕,这使得的玩家偶尔可以从背叛的循环中恢复过来。

2.应对策略

最后,阿克塞尔罗德对得分最高的策略进行分析之后,总结出重复囚徒困境游戏中,取得成功策略必备的几个要点:首先,先示好,不率先采取背叛策略。其次,在必要时以牙还牙,进行报复。

也就是说,不分情况、始终保持合作,在博弈游戏中是个糟糕的选择。现实生活中也是一样,如果对方认为你没有报复的能力或软弱可欺,就很可能持续对你进行恶意利用或伤害。这一点和我们常说的“马善被人骑,人善被人欺”是一个道理,生活中与人为善当然不错,但要分人看情况。

第三,具备宽容。虽然在必要时会进行报复,但如果对手不再背叛,他们就会再次合作,这样可以避免长期的相互报复,从而在博弈游戏中得分最大化。武侠小说中经常说的,冤家宜解不宜结,冤冤相报何时了这些内容中所蕴含的智慧,在经典博弈论中也得到了体现。

第四,不嫉妒对方。博弈游戏要长期获胜,策略中就一定不能包括一定要比对方得分更多。这个策略也很有启发性,也就是在谋求与他人合作的过程中,做好自己、得到自己该得到的利益就行了。不要眼红、甚至嫉妒他人的获利情况。

图片三、最后的启发

囚徒困境是博弈论中非常经典的模型,它所反映的是在个体理性选择下,导致集体非最优的情况。

多重囚徒博弈策略对我们如何在关系中谋求合作很有启发,成功的合作关系不是简单的善意、也不是简单的以牙还牙,而是需要兼备善意、强硬、宽容及自信,并随机应变。

值得注意的是,生活中我们不仅会受到“理性”利益的驱使,还会受到更多“感性”的道德、文化观念的影响,现实中我们也不仅仅只有“合作”、“背叛”两种选择,而是还有更多的选择空间。应该警惕的是,避免因个人的一时贪欲,让集体掉入互害的模式。

譬如,在交通拥堵路段或单向放行的双车道情况,如果所有司机都遵守排队规则,那么整体通行效率就很高;但如果有个别司机选择变道加塞,自己可能会快一点,但很可能引发更大的拥堵,自己也走不脱。

又譬如,学生为了考出好成绩熬夜补课、卷学习,员工为了升职加薪、卷加班。本来大家可以正常按自己的节奏学习、工作的,但看到别人都在努力,自己也不得不跟着卷,最后所有人都变得迷茫、焦虑。

无论是交通出行的加塞者、还是被迫跟着卷学习、卷工作的的学生、员工。都不得不让人想起《笑傲江湖》中葵花宝典封面上那句“欲练此功,必先自宫”。

有独门秘籍当然好,可当全天下的人都拿到秘籍,都来练葵花宝典时,对大多数人来说,自宫就成了伤害,不仅无法在竞争中胜出,还废了自己。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

陕ICP备2023001301号-1