Local EPUB Text
囚徒困境中的重复博弈
未知
囚徒困境中的重复博弈
到目前为止,我们对囚徒困境博弈建立了一次性决策模型。在博弈论的经典理论中,对两个面临20年监禁的共犯而言,这种建模是十分准确的,这确实是一个一次性决策。但是在总统竞选的例子中,这并不准确:采用正面还是负面策略的决策并非只在竞选开始时进行一次,而是每天都在进行。加油站的经营者每天甚至每个小时都可以改变自己的价格。经济学家将进行不止一次的博弈称为重复博弈(repeated game)。
当博弈重复进行时,策略和激励往往完全不同。特别是,参与者不再需要承诺策略来实现共同受益的均衡。为了弄明白为什么,我们回到只有两个加油站的小镇。想象你经营着美孚加油站。一个早晨,你也许会想:“今天我将要提高价格。当然一开始我会损失一些钱,但是这值得冒险,因为大陆石油加油站的经理也许会看到我们长期获益的机会。”因此,在博弈的第一回合,美孚的加油站采取了“高油价”的策略。
现在想象你经营着大陆石油加油站。当你看到美孚加油站提高了价格,你也许会想:“太好了,人们都会来我的店里加油,我将会赚到更多的钱。但是等一下,这并不持久。当美孚加油站开始亏损时,它除了降价之外别无选择。如果我也提高价格,也许美孚的经理将会保持高价,那么我们都能够获得更高的利润。”由此,在博弈的第二回合,美孚的加油站和大陆石油的加油站都采取了“高油价”的策略。
在第三回合将会发生什么呢?两个加油站的经理都会想:“如果另一个加油站维持高价的话,我降价将会带来更多利润。但是这不可能发生,是吧?如果我降价,另一个加油站也一定会被迫降价。因此我将会保持高价,同时看看对方是否也这么做。”于是,在博弈的第三回合,两个加油站再一次地采取了“高油价”策略。在接下来的第四、第五、第六回合中,同样的理由仍然成立。因此,在两个参与者的持续合作下,汽油维持了高价。
一报还一报策略
美孚的加油站和大陆石油的加油站的经理之间的思维过程是一报还一报(tit-for-tat)策略的典型例子。一报还一报是一种十分坦率的想法:无论对方做什么,你都会采取相同的行为作为回应。实际上,在囚徒困境式的重复博弈中,一报还一报策略十分有效。如果对方做出了合作举动(比如在加油站的例子中,采取高价),那么作为回应你也会进行合作(也提高价格)。如果对方采取了非合作的背叛举动(降低价格),你也会回敬以非合作举动(也降低价格)。两个都采取一报还一报策略的参与者能够很快就持续合作达成一致。
需要指出的是,重复博弈的参与者没有必要为了实现合作,而采取公开承诺策略或者签订明确的协议。例如,镇上两个加油站仅仅通过两个参与者的理性博弈,就能够长期维持高油价。实际上,签订明确协议维持高价的行为是违法的(合谋),而维持高价的公开承诺也不受消费者欢迎。因此,公司往往会通过微妙的手段让竞争对手了解自己将坚持采取一报还一报策略,由此降低了竞争对手降价对已经达成的高价均衡产生威胁的风险。阅读以下现实生活专栏了解这一类共同约定。
现实生活 价格一致承诺保证了什么
有些公司的广告宣称,如果你能够在其他地方发现更低的价格,他们将与之一致。潜台词是他们确信自己的价格是最低的。然而,这其中的博弈更为微妙,并且对消费者而言没有半点儿好处。实际上,博弈论表明价格一致承诺所保证的是更高的价格,而非低价。
在本书写作期间,相互竞争的两大家装巨头家得宝和劳氏公司采取了几乎相同的价格一致政策。两个商场都承诺不仅与对方的广告价格相一致,而且在其基础上再打九折。与之矛盾的是,这些保证意味着没有公司有动力实行低价。实际上,价格一致政策传达的是,公司将坚持一报还一报策略的清晰的公开信号。
想象一下,假设两个公司对同一款剪草机定价300美元。如果劳氏决定将价格降为250美元会怎样?家得宝的价格一致承诺意味着消费者从家得宝购买的话,可以再便宜25美元(更低的价格,比对方低10%),即225美元。结果导致劳氏的低价策略收效甚微。对家得宝而言亦是如此。
虽然我们并未就家得宝和劳氏的价格与成本进行经济分析,但是这个例子让我们能够一睹价格一致承诺令人惊奇的真实面目。博弈论告诉我们承诺更低价格并未像宣称的那样保证了低价。由于明确地就特定价格进行合作是违法的,一家公司的最好选择是采取一报还一报策略。公司只要做出合法的价格一致承诺并且广而告之,就能够为自己会采取一报还一报策略确立一个可置信的威胁。结果就是,高价得以维持,损害顾客利益的同时,公司暗中受益。
可见,一报还一报是一个特别有效的策略。然而为什么每次竞选中,参选者不会重复地采用正面广告回报只用正面广告的竞争对手,从而保证政治选举是正面的?有几点原因:一是竞选不像汽油销售,并非无限期地重复。随着选举日益临近,博弈越来越接近一次性博弈,背叛合作的激励越来越强。另一个原因在于,竞选的参与者首要关心的是相比于对手做得更好(比对手获得更多的选票),而加油站则更关心绝对收益(赚取尽可能多的利润)。
尽管一报还一报并非适用于所有情况,它仍然为我们分析诸多情形提供了极为有效的工具。实际上,政治学教授罗伯特·阿克塞尔罗德举办了一场数十个电脑程序基于不同策略相互竞争的比赛,试图找到在重复的囚徒困境博弈中能够获得最大收益的策略。最终,在14个参与竞争的策略中,由数学家阿那托·拉帕波特提交的一报还一报策略脱颖而出,成为最成功的策略。
以下换个视角专栏阐述了人类的很多情绪是从祖先的一报还一报博弈中演变而来的这一理论。
换个视角 一报还一报与人的情绪
为什么我们会感受到诸如同情、感激、报复、内疚和宽恕等不同的情绪?提出互惠利他主义理论的进化生物学家罗伯特·特里弗斯推测,我们进化出的此类情绪能够帮助我们在“博弈”中采取一报还一报策略实现合作,而这也让我们的祖先得以生存延续。
设想你是生活在原始社会的狩猎—采集部落成员。一天你收获颇丰,带回自己吃不完的食物,但是你的邻居一无所获。你可以选择合作(与邻居分享食物)或者选择不合作(自己拼命吃掉所有食物)。第二天,也许你的邻居有所收获,但你没有,并且他也做出了相同的选择。在这种情形下,相比于不合作(你们每个人轮流挨饿或狼吞虎咽),如果能够维持合作,你和邻居会生活得更好(分享食物并且每天都能吃得好)。
要实现持续的合作需要什么情绪呢?首先你必须有足够的同情心,分给你倒霉的饥饿邻居一些食物。接下来你的邻居应该心怀感激,使得他能够在第二天与你分享食物作为回报。如果某天你的邻居做出了非合作举动,拒绝与你分享食物,你需要诸如报复的情绪激励你采取惩罚措施,不与他分享食物。而如果你的邻居随后感到内疚,在接下来的一天与你分享,你需要诸如宽恕的情绪,让自己回到彼此分享的惯例中。
当然,没有人完全了解为什么人类具有感受这些情绪的能力。但有趣的是,我们很多情绪的存在仅仅是为了帮助我们在重复的囚徒困境博弈中,凭直觉选择一报还一报式的策略。