【囚徒困境】：明明合作有利，可为什么合作很难

囚徒困境（Prisoner‘s dilemma）是一个博弈论思想实验，涉及两个理性主体，他们要么为了共同利益而合作，要么为了个人利益而背叛伙伴。这一困境源于一个事实：虽然背叛对每个主体来说都是理性的，但合作却能为每个人带来更高的收益。

一、经典囚徒困境

1.经典博弈

囚徒困境是一个博弈论思想实验，是梅尔里·弗勒德和梅尔文·德雷舍于1950年在兰德公司工作期间设计的，阿尔伯特·W·塔克后来将该博弈命名为囚徒困境，以监禁刑期来定义奖励。

威廉·庞德斯通在1993年出版的《囚徒困境》一书中描述了这个游戏的典型当代版本：两名犯罪团伙成员被捕入入狱。两人被单独监禁，无法与对方交谈或交流信息。警方承认，他们没有足够的证据以主要罪名定罪。他们计划以较轻的罪名判处两人每人一年监禁。

同时，警方向每个人提出了一项交易。如果他作证指控他的同伙，他将获得自由，而他的同伙将因主要罪名而被判三年监禁。而如果两名囚犯互相作证指认对方，两人都将被判两年监禁。

囚犯们有一点时间考虑，但在任何情况下，在做出不可逆转的决定之前，都不会知道对方的决定。每个人都被告知，对方也面临同样的交易。这里假定，每个囚犯只关心自己的福利——尽量减少自己的刑期。

这导致囚犯A和囚犯B可能出现三种不同的结果：

1 如果A和B都保持沉默，他们将分别服刑一年。

2 如果一人作证指控另一人，而另一人不作证，那么作证的人将被释放，而另一人将服刑三年。

3 如果A和B互相作证，他们将分别服刑两年。2.应对策略

两名囚犯分别关押在不同的房间，彼此无法交流。

假设两名囚犯都了解游戏的本质，彼此间没有忠诚度，并且在游戏之外没有获得惩罚或奖励的机会。

我们经过推论，可以得出：无论对方做出何种决定，每个囚犯背叛对方都会获得更高的奖励。

推理过程如下：对于A来说， B要么合作，要么背叛。如果B合作，A因该背叛。因为无罪释放比坐一年牢要好。如果B背叛，A也应该背叛，因为坐两年牢比坐三年牢要好。

因此，无论B采取何种策略，A都应该选择背叛。因为背叛是A的最佳应对策略。同样的推理，对B来说也应该选择背叛。总之，在以上假设下，背叛总比合作带来更好的收益，因此对双方而言，背叛都是严格占优策略。

二、重复囚徒困境

1.重复博弈

而在实际交往中，更多出现的是多人、多次的博弈行为。如果两个玩家多次连续玩囚徒困境，记住对手之前的行动，并允许相应地改变策略，则该游戏称为重复囚徒困境。

重复囚徒困境是一些人类合作与信任理论的基础。假设该博弈能够有效地模拟两个人之间需要信任的交易，那么群体中的合作行为就可以用该博弈的多人迭代版本来建模。从囚徒博弈在上个世纪50年代被提出以来，研究人员就对多人迭代版本的囚徒博弈，在合作演化方面的应用进行了大量的研究。

其中密西根大学教授罗伯特·阿克塞尔罗德还组织了重复囚徒困境锦标赛，邀请全世界各地的博弈论爱好者提交计算机参赛程序，通过计算机程序来模拟不同策略的博弈。尽管参赛程序在算法复杂度、初始敌意、宽恕能力等方面的策略差异很大。但阿克塞尔罗德发现，就算从纯粹的自利角度来判断，长期来看，贪婪策略往往表现不佳，而利他策略则表现更佳。也就是说，重复囚徒困境这一博弈论实验，揭示了一种可能的人类关系机制：通过自然选择，从最初的纯粹自私行为演化为利他行为。什么样的策略能够在重复囚徒困境中获胜呢？

简单说，就是“以牙还牙”策略。有意思的是，这个获胜的策略是所有参赛程序中最简单的，阿纳托尔·拉波波特仅用了包括四行basic代码的程序就赢得了比赛。该程序的策略非常简单：第一次，首先选择合作；第二次，直接选择对手上一步所选的策略。也就是对方合作就合作，对方背叛就背叛。实际上，根据具体情况，一个比以牙还牙更好一点的策略是，在以牙还牙的基础上增加一点点宽恕，这使得的玩家偶尔可以从背叛的循环中恢复过来。

2.应对策略

最后，阿克塞尔罗德对得分最高的策略进行分析之后，总结出重复囚徒困境游戏中，取得成功策略必备的几个要点：首先，先示好，不率先采取背叛策略。其次，在必要时以牙还牙，进行报复。

也就是说，不分情况、始终保持合作，在博弈游戏中是个糟糕的选择。现实生活中也是一样，如果对方认为你没有报复的能力或软弱可欺，就很可能持续对你进行恶意利用或伤害。这一点和我们常说的“马善被人骑，人善被人欺”是一个道理，生活中与人为善当然不错，但要分人看情况。

第三，具备宽容。虽然在必要时会进行报复，但如果对手不再背叛，他们就会再次合作，这样可以避免长期的相互报复，从而在博弈游戏中得分最大化。武侠小说中经常说的，冤家宜解不宜结，冤冤相报何时了这些内容中所蕴含的智慧，在经典博弈论中也得到了体现。

第四，不嫉妒对方。博弈游戏要长期获胜，策略中就一定不能包括一定要比对方得分更多。这个策略也很有启发性，也就是在谋求与他人合作的过程中，做好自己、得到自己该得到的利益就行了。不要眼红、甚至嫉妒他人的获利情况。

三、最后的启发

囚徒困境是博弈论中非常经典的模型，它所反映的是在个体理性选择下，导致集体非最优的情况。

多重囚徒博弈策略对我们如何在关系中谋求合作很有启发，成功的合作关系不是简单的善意、也不是简单的以牙还牙，而是需要兼备善意、强硬、宽容及自信，并随机应变。

值得注意的是，生活中我们不仅会受到“理性”利益的驱使，还会受到更多“感性”的道德、文化观念的影响，现实中我们也不仅仅只有“合作”、“背叛”两种选择，而是还有更多的选择空间。应该警惕的是，避免因个人的一时贪欲，让集体掉入互害的模式。

譬如，在交通拥堵路段或单向放行的双车道情况，如果所有司机都遵守排队规则，那么整体通行效率就很高；但如果有个别司机选择变道加塞，自己可能会快一点，但很可能引发更大的拥堵，自己也走不脱。

又譬如，学生为了考出好成绩熬夜补课、卷学习，员工为了升职加薪、卷加班。本来大家可以正常按自己的节奏学习、工作的，但看到别人都在努力，自己也不得不跟着卷，最后所有人都变得迷茫、焦虑。

无论是交通出行的加塞者、还是被迫跟着卷学习、卷工作的的学生、员工。都不得不让人想起《笑傲江湖》中葵花宝典封面上那句“欲练此功，必先自宫”。

有独门秘籍当然好，可当全天下的人都拿到秘籍，都来练葵花宝典时，对大多数人来说，自宫就成了伤害，不仅无法在竞争中胜出，还废了自己。

一、经典囚徒困境

二、重复囚徒困境

1.重复博弈

2.应对策略

发表回复 取消回复

发表回复取消回复