Local EPUB Text
一次性博弈与囚徒困境
未知
一次性博弈与囚徒困境
经典的囚徒困境(prisoners’ dilemma)是指双方都进行理性的决策,但对双方而言结果并不理想的一种博弈。这也适用于超过两个人的情形,并且不限于个人,对于组织也适用。
囚徒困境这一名称源于电视剧《法律与秩序》,或者其他警匪片中能看到的情形:你和一名同伙由于被怀疑犯下两桩罪行而遭到逮捕,其中一桩非常严重,而另一桩则轻微得多。警察将你们分别关押在不同的房间,一名警察坦白地告诉你,他们掌握了你们犯下轻微罪行的足够证据,但是另一桩严重罪行则证据不足。他想要至少有一个人为严重的罪行负责,因此他提出了一个交易:如果你认罪,但你的同伙拒绝认罪的话,你将会入狱1年,但你的同伙将由于犯下严重罪行,而面临最高20年的牢狱之灾。
如果你认罪的同时,你的同伙也认罪了会怎么样?警察不再需要你的证词就能够定罪,因此入狱1年的交易就取消了。但警察告诉你,作为合作的回报,你将获得减刑,只需入狱10年。如果你们两个都不认罪又会如何呢?警察叹气道:“那么你们两个都只会因为轻微的罪行定罪,每人入狱两年。”这时,你的脑海里冒出了一个想法:警察是否也向你的同伙提出了相同的交易?“当然”,他得意地笑道。
你暗自思忖,“如果我的同伙认罪了,我选择认罪将会获刑10年,而不认罪将会入狱20年。而如果我的同伙没有认罪,我选择认罪将会获刑1年,而不认罪将会入狱2年。因此,无论我的同伙做什么,对我来说认罪都是更好的选择。”尽管你们在犯罪时是搭档,但你马上意识到同伙也会有相同的逻辑。这意味着你们都将选择认罪,并且都面临10年监禁。只要你们两个能够设法合作,都拒绝认罪,那么你们就能够避免这个结局,每人只需服刑2年。
图9-1利用决策矩阵对这一困境进行描述。横向观察第一行可以发现,如果你的同伙认罪了,你将在自己的第三选择(10年监禁)和第四选择(20年监禁)之间进行选择。观察第二行可以发现如果你的同伙拒绝认罪,你将在自己的第一选择(1年监禁)和第二选择(2年监禁)之间进行选择。纵向观察每一列可以发现,对你的同伙而言,他也面临了同样的选择。你们两个所面临的激励意味着你们都将认罪,最终处于左上角的框内,即实现你们的第三选择。然而如果你们能够相互合作,最终可以处于右下角的框内,即两人都实现第二选择。
我们来看一下这种想法如何体现在总统竞选辩论中。2004年,乔治·布什与约翰·克里之间的总统选举竞争,被认为是近期最为负面的竞选之一。如果你负责运作布什的竞选,你的思路也许是这样的:“如果参议员克里采取负面竞选策略[1],我们就应该有力回击,不然就会让自己看起来很软弱。但是参议员克里并未采取负面策略的话,又会怎样呢?如果我们攻击他,但是他并没有回击,我们将会摧毁他赢得选举的机会。因此,无论对方做什么,我们都最好采取负面策略。”恰巧参议员克里的竞选团队也有同样的想法。结果就是:两方的竞选活动都采取了负面策略,两位候选人的声望都受到了损害,选民对政治程序越来越感到大失所望。
图9-1 囚徒困境
我们可以通过一个决策矩阵(见图9-2)对这一情形进行分析。首先,我们必须确定收益。对每一个候选人而言,首要的是轻松赢得竞选,而非激烈竞争(轻松获胜是他们的首选)。接下来相比于落选,他们宁愿面临激烈竞争(落选是他们的最后选择)。在每一种情形下,肮脏选举[2]是值得付出的代价。但是如果让候选人在负面有损声望(左上角的选择)和正面提高声望的激烈竞争(右下角的选择)两者之间进行选择的话,两位候选人必然更倾向于后者。
正如先前的囚徒困境,两位候选人都十分清楚自己的选择,并且意识到无论对手做什么,他们最好的选择都是采取负面策略。结果,他们都落入到自己的第三选择,而如果能够寻求合作的话,他们本来能够实现自己的第二选择结果。
图9-2 总统竞选中的囚徒困境
本章开头描述的乱扔垃圾“博弈”也可以通过一个决策矩阵进行分析。我们已经用数字标明了不同结果的正反两面。确切的数字大小并不重要。相反,真正重要的是它们的相对大小以及这些数字是正数、负数还是零。决策者想要得到最高的数值(或者尽可能失去较少的数值)。图9-3表明了在决定是否让你的垃圾随风远去时,你和你的邻居们所面临的决策收益情况(可以认为“你的邻居”是指社区中所有可能乱扔垃圾的其他人)。正如你所看到的,无论你的邻居是否乱扔垃圾,对你而言,乱扔垃圾都带来了较大的收益,同样,最终的结果是第三选择,尽管如果你和邻居们能合作的话,你们本来能够实现自己的第二选择。
图9-3 乱扔垃圾的收益
发现占优策略
在之前的囚徒困境中,无论你的同伙做什么,你都最好选择认罪。无论其他参与者选择什么策略,对于自己都是最佳的策略被称为占优策略(dominant strategy)。总统竞选中,负面竞选是两位候选人的占优策略,当然结果是两位候选人都名誉扫地。
图9-4 没有占优策略的博弈
当然,并非所有的博弈中,每位参与者都有占优策略。以大家熟知的游戏石头-剪刀-布为例(见图9-4)。如你所知,石头能打败剪刀,剪刀能打败布,而布能打败石头。由于每个参与者同时行动,预测对手的选择十分困难。无论从决策矩阵的纵向还是横向来看,都不存在一个策略,无论对手选择什么,你都一定能赢。
实现均衡
回顾第3章提出的均衡概念:当一个市场实现均衡价格和数量时,意味着当其他买者和卖者的行为一定时,没有任何一个买者有动力付更多钱,也没有任何一个卖者有动力接受更低的价格。均衡的概念在博弈论中也很常见:特别地,一种特殊类型的均衡被称为纳什均衡(Nash equilibrium),是指当其他参与者的选择既定,每位参与者都选择了最佳策略时所达到的均衡。换句话说,就是给定其他参与者的选择,没有参与者有动力改变自己策略的状态。这一概念是以著名的博弈论学者约翰·纳什命名的。
在类似石头-剪刀-布的博弈中,纳什均衡并不存在。比如你正在与朋友玩石头-剪刀-布,如果朋友选择剪刀,你选择了石头,那么你并没有改变选择的动力(石头能打败剪刀),但对方却有转向选择布的动力(布能打败石头)。而如果你的朋友转向选择布,这会让你转向选择剪刀(剪刀能打败布),如此往复。此时,博弈并不存在一个确定的结果,也就是说,一旦得知对方的选择,你们两个都会改变自己的策略。
而在囚徒困境中,则存在一个稳定的结果:你们两个都选择认罪。正如我们在囚徒困境中看到的,对于参与者而言,一个博弈的均衡结果并不一定是好的结果。这种负-负的结果被称为非合作均衡,因为参与者的行为都是孤立的,只考虑自己的个人利益。
尽管每个人都只考虑自己的个人利益,某些博弈中也存在稳定的正-正的结果。思考汽车驾驶的“博弈”:假定某个岛上只有两个汽车驾驶员,你是其中之一,你们两个朝向对方行驶。如果你决定在路右侧行驶,而另一个人决定在路左侧行驶,你们将会迎面相撞(这是你们两个的最差收益),这并非均衡。你的决定让对方有动力也选择在右侧行驶。当你们都靠右侧行驶时,你们将会避免事故的出现(这是你们的最好收益),并且你们没有人有动力改变。此时,靠右侧行驶就是一个正-正的结果。
正如你或许已经注意到的那样,博弈可能存在不止一个均衡结果。你们两个都靠左侧行驶也是一个均衡。的确,在美国之外的一些国家,例如英国、日本和澳大利亚,人们在汽车驾驶的博弈中已经达成了靠左行驶的均衡结果。这个例子也告诉:我们一场博弈在达到均衡结果时,并不一定存在占优策略。无论是靠右行驶还是靠左行驶都不是占优策略,最好的决策取决于另一个参与者怎么做。
通过承诺避免竞争
在我们对囚徒困境的讨论中,已经多次强调,如果博弈的参与者能够合作的话,他们的情况将会有所好转。那么他们为什么不合作呢?这并不仅仅因为他们被关在不同的房间而无法交谈(实际上,布什和克里本来可以互通电话,就正面竞选达成一致)。也不是简单的信任问题,而是即使你事先和同伙就不认罪达成一致,你也难免担心同伙会先行认罪违背你们的承诺。
实际上,问题比这还要复杂得多。即使你完全确定你的同伙值得信任,不会认罪,你仍然应该认罪(记住无论你的同伙做什么,你都最好认罪,这是一个占优策略)。在囚徒困境式的博弈中,预先商量好的合作协议很难得到执行,因为两个参与者都有很强的动机背叛对方。
这个问题得以解决的方法之一是建立背叛的惩罚机制,降低参与者的收益。为了保证合作策略得以实施,惩罚必须足够严厉,从而超过不合作的激励。这可行么?可行性取决于特定博弈的具体情形。在经典的囚徒困境中,想象如果你和同伙是同一个犯罪团伙的成员,一致同意如果有人针对其他人有罪进行作证,将会被惩罚处死。这戏剧性地将认罪的收益变为:较短的刑期,但刑满释放后被处死。在这种选择下,“不认罪”变成了一个更具吸引力的选择。
此类协议是承诺策略(commitment strategy)的典型例子,协议规定如果有人背叛了给定的策略,在未来可以对其施加惩罚。通过改变收益,就未来的惩罚达成一致,能够让参与者实现一个共同获益的均衡状态,否则这一均衡难以维系。
负面竞选的例子又能如何呢?很可惜,竞选中承诺策略难以奏效。参与竞选的政客们经常旗帜鲜明地当众承诺要进行正面竞选,当候选人采取负面手段时,选民会对违背承诺的候选人心生愤怒而转投他人。然而这一承诺策略要切实奏效,选民们必须足够愤怒,才能超过负面手段带来的选举优势。鉴于诸多类似承诺做出后就立马遭到背弃,这种承诺的限制实际上微乎其微。
基于公共利益促进竞争
通过承诺策略达成正-正结果对每个人都有好处。比如,在选举博弈中,如果候选人能够就正面选举达成一致,公众能够获益。选民可以避免负面选举带来的不愉快,选民投票率和政治活动的公共利益都会得到提升。
然而,在某些囚徒困境式的博弈中,阻止参与者进行合作有利于公共利益。我们之前针对典型的囚徒困境设想的承诺机制,与真实世界的现实情况相差无几。著名的沉默法则能够阻止黑帮成员与官方当局进行交谈,这让检察官几乎无法说服黑帮成员认罪,并且出面指认黑帮组织的领袖。这就是建立证人保护计划的原因所在,即试图增加认罪的收益,同时推动参与者回到追求自身利益的博弈状态。
考虑一个在商业领域更为常见的例子:假设一个小镇上有两个加油站,分别由大陆石油公司和美孚公司开设,每个加油站都可以在高油价和低油价之间进行选择。这让我们可以得到四种可能的结果和收益,如图9-5的决策矩阵所示:
·如果两个加油站都定低价,它们都将获得低利润。
·如果两个加油站都定高价,它们都将获得高利润。
·如果美孚定价高而大陆石油定价低,小镇的每个人都会去大陆石油的加油站加油。大陆石油的加油站将获得高利润,而美孚的加油站将亏损。
·如果美孚定价低而大陆石油定价高,相反的现象就发生了:每个人都去美孚的加油站加油,这会让美孚的加油站获得高利润,而大陆石油公司由于没有顾客光顾,将产生亏损。
图9-5 两个厂商竞争中的囚徒困境
到此为止,这一分析过程看起来似曾相识:这一博弈是囚徒困境的另一个应用,占优策略是低油价。尽管如果两个加油站能够就高油价达成一致,它们将获得更高的利润,但是它们仍然会选择定价较低的占优策略。这一非合作均衡对博弈的参与者,即两个加油站而言是坏消息,但是对可以低价加油的小镇消费者而言,则十分有利。
我们可以预料,两个加油站的经营者一定会试图找到合作的方法,以实现它们都能获得高利润的均衡(我们将在接下来的内容中探讨实现合作的一种途径)。但是小镇的消费者则想要阻止这一结果发生,因为这将会让他们没有选择,只能为汽油支付高价。我们甚至采用了一个略带负面的词语合谋,或共谋来指代此类商业领域的合作,而采用一个更为正面的词语竞争来指代非合作均衡。
在接下来的章节中我们将看到合谋实质上存在一个共同的问题:企业往往试图找到合谋的途径来索取高价,然而代表了消费者利益的政府则试图找到阻止它们的方法。用博弈论的语言来说,就是将改变价格竞争博弈规则的合谋裁定为非法行为。
[1] 负面竞选是指候选人通过散发对对手不利的负面新闻和广告,来降低对手的可信度。——译者注
[2] 肮脏选举是指用贿赂或暴力等舞弊手段影响选举。——译者注