以牙还牙
20 世纪 80 年代初,密歇根大学政治科学家罗伯特·阿克谢罗德(Robert Axelrod)邀请了世界各地的博弈论学者以电脑程序形式提交他们的囚徒困境博弈策略。这些程序两两结对,反复进行 150 次囚徒困境博弈。参赛者按照最后总得分排定名次。
冠军是多伦多大学的数学教授阿纳托·拉普波特(Anatol Rapoport)。他的取胜策略就是以牙还牙。阿克谢罗德对此感到很惊奇。他又举办了一次比赛,这次有更多的学者参赛。拉普波特再次提交了以牙还牙策略,并再次赢得了比赛。
以牙还牙是“以眼还眼”行为法则的一种变形:人家怎么对你,你也怎么对他。说得更准确点,这个策略在开局时选择合作,以后则模仿对手在上一期的行动。
阿克谢罗德认为,以牙还牙法则体现了任何一个有效策略应该符合的四个原则:清晰、善意、报复性和宽容性。再也没有什么字眼会比“以牙还牙”更加清晰、简单。这一法则不会引发欺骗,所以是善意的。它也是报复性的——也就是说,它永远不会让欺骗者逍遥法外。它还是宽容的,因为它不会长期怀恨在心,而愿意恢复合作。
以牙还牙一个非常引人注目的特征在于,它在整个比赛中取得了突出的成绩,虽然它实际上并没有(也不能)在一场正面较量中击败任何一个对手。其最好的结果是跟对手打成平手。因此,假如当初阿克谢罗德是按照“赢者通吃”的原则打分,以牙还牙的策略只可能失败或是打成平手,而不可能取得最后的胜利。[1]
不过,阿克谢罗德并没有按照“赢者通吃”的原则给结对比赛的选手打分,只有比赛结束才算数。以牙还牙策略的一大优点在于它总是可以将比赛引向结束。以牙还牙最坏的结果是,以遭到一次背叛重击而告终,也就是说,它让对手占了一次便宜,此后双方打成平局。
以牙还牙策略之所以能赢得这次锦标赛,是因为它通常都会竭尽全力促成合作,同时避免互相背叛。其他参赛者则要么太轻信别人,一点也不会防范背叛,要么太咄咄逼人,一心要把对方踢出局。
不过,尽管如此,我们仍然认为以牙还牙策略是一个有缺陷的策略。只要存在一丁点儿出现错误或误解的可能性,以牙还牙策略的胜利就会土崩瓦解。这个缺陷在人工设计的电脑锦标赛中并不可能,因为此种情况下根本不会出现错误和误解。但是,一旦将以牙还牙策略用于解决现实世界的问题,错误和误解就难以避免,结局就可能是灾难性的。
以牙还牙策略的问题在于,任何一个错误都会犹如“回声”一般反复出现。一方对另一方的背叛行为进行惩罚,从而引发连锁反应。对手受到惩罚之后,不甘示弱,进行反击。这一反击又招致第二次惩罚。无论什么时候,这一策略都不会只接受惩罚而不做任何反击。
举个例子:假设弗勒德和德雷希尔都采取以牙还牙策略。没有人先发起背叛,一段时间内,一切都顺利进行。然后,到了第 11 轮,假设弗勒德错误选择了背叛,或者选择了合作但德雷希尔却误以为他选择了背叛,不论是哪种情况,德雷希尔在第 12 轮都会选择背叛,而弗勒德却会选择合作,因为德雷希尔在第 11 轮中选择了合作。到了第 13 轮,角色就会转换过来。这种一方合作而另一方背叛的模式会继续反复进行下去,直到又一个错误或误解的出现恢复了合作或导致双双背叛。
在西弗吉尼亚与肯塔基的交界处,哈特菲尔德家族(Hatfields)与麦科伊家族(McCoys)家族的长期争斗可谓令人难忘。而在虚构世界中,马克·吐温笔下的格兰杰福特家族与谢泼德森家族的世代仇恨,为我们提供了另外一个生动的例子,说明以牙还牙的行动是怎样导致循环报复的。当赫克·芬恩试图了解格兰杰福特家族与谢泼德森家族世仇的源头究竟是什么时,他却遇到了“鸡生蛋还是蛋生鸡”的难题:
“这究竟是为了什么,巴克?——为了土地吗?”
“我估计是——我不知道。”
“那么,究竟是谁开的枪呢?是格兰杰福特家的人还是谢泼德森家的人?”
“天哪,我怎么会知道?那是多久以前的事啊。”
“有没有人知道呢?”
“噢,有的,老爸知道,我估计,还有其他一些老头子,不过现在他们也不晓得当初究竟发生了什么事。”
以牙还牙策略缺少的是一个宣布“到此为止”的方法。它实在太容易被激发起来了,而且不会轻易地宽恕。确实,后来的阿克谢罗德比赛的版本考虑了错误和误解的可能性,结果表明,其他那些更宽宏大量的策略优于以牙还牙策略。[2]
在这里,我们甚至可以从猴子那里学到一些东西。棉头狷猴被置于一个博弈中,每只猴子都有机会拉动一个杠杆,给另一只猴子喂食。但是拉动杠杆需要力气。对每只猴子而言,最理想的策略就是自己偷懒,而它的搭档拉杠杆。但是为了避免遭到报复,猴子们学会了合作。只要一个参与者不连续背叛两次以上,棉头狷猴的合作就会一直持续下去,这种策略类似于以牙还牙策略。[3]