bangst

学习进度

阅读时长

未满 1 分钟

最近阅读：未开始阅读

核心概念

待提炼

章节学习

1
献词
献给诺加、奥里和吉利 ——丹尼尔·卡尼曼献给范丁和莱莉亚 ——奥利维耶·西博尼献给萨曼莎 ——卡斯·R.桑斯坦
待学习
开始阅读
2
重磅赞誉
从“偏差”到“噪声”，作为心理学家的卡尼曼，挑战的是经济学的“理性人”假设，并因开启了行为经济学的大门而获得诺贝尔经济学奖。他一直关注的是人类在决策中是如何犯错的，在这本书中，他深入分析了噪声的影响，但也乐观地预期，可以通过发掘埋没在大数据中的信息来减少决策中的噪声，这可以说是大数据渗透到行为经济学领域的新趋势。巴曙松北京大学汇丰金融研究院执行院长，中国
待学习
开始阅读
3
测一测如何做一个聪明的决策者？
测一测如何做一个聪明的决策者？想知道你的判断是怎么掉入噪声陷阱的吗？扫码测一测，立即获取答案及解析，看看你的“降噪等级”。 1．卡尼曼是世界上第一个凭借心理学研究获得诺贝尔经济学奖的人。这个说法对吗？ A．对 B．不对 2．卡尼曼指出：人类判断出错的原因有两种。一种是偏差，另一种是什么呢？ A．误差 B．噪声 C．系统认知 3．在做一个判断时，以
待学习
开始阅读
4
推荐序1 在无法回避噪声的世界，更好地追求高级境界与极致效益
推荐序1 Preface 在无法回避噪声的世界，更好地追求高级境界与极致效益彭凯平清华大学社会科学学院院长每年七八月份，我都会参加清华大学的本科生招生工作，由此而目睹了一个问题：高考揭榜之后，高中毕业生及其家长应如何做好志愿填报？学校和专业的选择非常重要，很有可能会决定一个学生一辈子的命运，其中牵涉的问题就与我们心理学中一个重要的研究领域紧密相关，那
待学习
开始阅读
5
推荐序2 穿越噪声的决策
推荐序2 Preface 穿越噪声的决策朱宁上海交通大学上海高级金融学院金融学教授，副院长我抱着浓厚的兴趣读完了诺贝尔经济学奖得主丹尼尔·卡尼曼教授等的新作《噪声》一书，这本书汇集了卡尼曼教授近十年的最新发现。对于我所从事的行为金融学研究领域而言，《噪声》算得上是一本“专业书”，但是读完之后，我认为它很可能是卡尼曼教授继《思考，快与慢》后，又一次成功将
待学习
开始阅读
6
中文版序哪里有判断，哪里就有噪声
中文版序 Preface 哪里有判断，哪里就有噪声我们非常荣幸，也非常感激，能够在中国出版这本书。《噪声》重点关注人类的判断，关注它是如何出错的，以及如何让它变得更好。无论是医学、法律、公共政策、商业，还是日常生活领域中，我们做出判断的过程中存在的问题，是偏好根据经验做判断的人类的共性问题。数十年来，偏差问题备受瞩目。在《思考，快与慢》一书中，本书的作者
待学习
开始阅读
7
引言偏差与噪声，人类判断的两类错误
引言 Introduction 偏差与噪声，人类判断的两类错误试想一下，你的朋友组成了A、B、C、D共4支队伍，来到一个射击场。每队中有5个人，他们共用一支来复枪，且每人只开了一枪。图0-1显示了他们的射击结果。图0-1 4支队伍的射击结果理想情况是，每一枪都能正中靶心。 A队几乎达到了理想情况，他们的每一发子弹都紧紧围绕着靶心，接近完美模式。 B队的
待学习
开始阅读
8
第1章犯罪和充满噪声的判罚
第1章犯罪和充满噪声的判罚假设某人被指控犯了罪，例如到商店行窃、私藏海洛因、袭击他人或持枪抢劫，该案件可能的判决结果是什么？答案不应取决于该案件恰巧被指派给哪位法官、天气是冷是热，以及当地球队在前一天是输是赢。如果3个背景类似的人被指控犯有同一罪行，最后却得到截然不同的处罚，例如第一个人被判缓刑，第二个人被判2年有期徒刑，最后一个人被判10年有期徒刑，
待学习
开始阅读
9
第2章系统噪声，给人达成一致的错觉
第2章系统噪声，给人达成一致的错觉我们最初接触噪声，并对这个主题产生兴趣，并不是因为遇到了像刑事司法案件那般富有戏剧性的案例。实际上，这次邂逅纯属偶然，缘于一家保险公司，这家公司与我们中的两人所属的咨询公司有合作。我们的研究揭示了营利性组织中存在噪声问题的严重性——组织会因为决策中的噪声损失惨重。我们在保险公司的经历有助于解释为什么噪声问题常常被忽视，以
待学习
开始阅读
10
第3章单一决策，仅发生一次的重复决策
第3章单一决策，仅发生一次的重复决策到目前为止，我们所讨论的案例研究都与重复决策相关。比如，对盗窃犯的恰当判决是什么？对某一特定风险该收取多少保费？虽然每个具体的案例在某种意义上都是独特的，但像这样的判断属于重复决策。医生诊断患者，法官审理假释案件，招生人员审查入学申请书，会计师准备税单等，这些都是重复决策。正如前一章所介绍的，重复决策中的噪声可以通过
待学习
开始阅读
11
第4章什么是判断
第4章什么是判断本书论述的是一般意义上的专业判断，我们假设如果做判断的人有足够的能力，就能做出准确的判断。然而，判断这一概念本身包含着一个你不得不承认的事实：你永远无法确定一个判断是不是准确。请思考“判断问题”和“主观判断”这两个短语的差别。我们认为“太阳明天会升起”或“NaCl是氯化钠的化学式”这样的陈述并非判断，因为任何理性的人都会完全同意上述观点
待学习
开始阅读
12
第5章测量误差，噪声与偏差的代价一样大
第5章测量误差，噪声与偏差的代价一样大显而易见的是，一致性的偏差会引发代价高昂的错误。如果体重秤在你每次称体重时都自动加上一定的重量，如果一位乐观的经理总是预测项目只需花费实际所需时间的一半，如果一位谨小慎微的经理总是年复一年地低估未来的销售额，那么后果都将会非常严重。我们已经知道，噪声会引发代价高昂的错误。如果一位经理大多数时候预测的项目所需时间只是
待学习
开始阅读
13
第6章噪声分析：所有判断都存在3类噪声
第6章噪声分析：所有判断都存在3类噪声在上一章，我们讨论了单个案例中测量或判断的变异性。在单个案例中，判断的所有变异性都是误差，而误差由偏差和噪声组成。我们考察的判断系统，包括法院和保险公司的判断系统，它们的目的在于处理不同案例，并对这些案例进行区分。如果美国的联邦法官和保险理赔员对他们手头的所有案例都做出相同的判断，那他们就没有什么存在的价值了。对不同
待学习
开始阅读
14
第7章情境噪声，无时无刻不在影响着我们的判断
第7章情境噪声，无时无刻不在影响着我们的判断想象一名职业篮球运动员正在准备罚球的场景：他站在罚球线上，全神贯注地准备投篮。这是他练习过无数次的一系列动作，他能投中吗？我们无法预知结果。在NBA的比赛中，球员们通常能够4罚3中。显然，一些球员比其他球员表现得更好，但没有人能做到百发百中(3)。虽然篮筐一直都是距离地面3.05米，与罚球线的垂直距离一直是4
待学习
开始阅读
15
第8章群体是如何放大噪声的
第8章群体是如何放大噪声的个体判断中存在噪声的结果已经很糟糕了，但群体决策中的噪声危害更甚。群体决策可能会由于一些无关因素而朝任何一个方向改变。谁先发言、谁后发言，谁说话更自信，谁穿着黑色衣服，谁和谁挨着坐，谁在某个时刻笑了／皱眉了／呈现出其他身体姿势……所有这些因素都会影响结果。相似的群体每一天都会做出各种不同的决策，如雇用、晋升、破产、沟通策略、环境
待学习
开始阅读
16
第9章判断与模型，简单的模型普遍优于人类判断
第9章判断与模型，简单的模型普遍优于人类判断很多人都对预测未来的工作绩效感兴趣，不只是自己的，还有别人的。因此，绩效预测是用来考察预测性判断的实用例子。例如，一家大公司在招聘高管时，聘请了一家专业咨询公司对两名候选人莫妮卡和娜塔莉进行评估，并以取值为1～10分的量表对两人的领导力、沟通能力、人际交往能力、职业技能、应聘动机等维度进行打分（见表9-1）。你
待学习
开始阅读
17
第10章无噪声的规则
第10章无噪声的规则近年来，人工智能（Artificial Intelligence）特别是机器学习技术让机器能够执行许多以前只有人类才能执行的任务。机器学习算法可以承担人脸识别、语言翻译、分析医学影像等任务，并且可以以惊人的速度和准确性来处理计算问题，例如为成千上万名驾驶员迅速规划行车路线。它们还可以执行困难的预测任务：预测美国最高法院的判决；识别哪些
待学习
开始阅读
18
第11章哪里有预测，哪里就有客观无知
第11章哪里有预测，哪里就有客观无知我们经常同一些公司高管分享第9章和第10章中的研究内容，并通过发人深省的发现让他们意识到人类的判断是有限的。这些发现已经存在了半个多世纪，应该很少有人能避开它们，但人们仍然对这些发现很抵触。在我们的听众里，有一些高管会很自豪地告诉我们，相比于定量分析，他们更相信自己的直觉；其他人虽然没明说，但他们也有同样的看法。有关
待学习
开始阅读
19
第12章常态谷：事情虽无法预测，但可以被理解
第12章常态谷：事情虽无法预测，但可以被理解现在我们来考虑一个更大的问题：在这个世界上，有些问题容易解决，有些问题却充满了客观无知，那我们应如何自处呢？毕竟，在存在很严重的客观无知的情况下，我们很快就能意识到，用水晶球来预测未来是徒劳的，但我们通常并不会对这个世界产生这种体验。相反，正如上一章所提到的，我们一直在基于少量的有用信息来对未来做出大胆预测。在
待学习
开始阅读
20
第13章启发式、偏差与噪声
第13章启发式、偏差与噪声本书是对横跨半个世纪的关于人类直觉判断研究的延续，也就是所谓的“启发式和偏差研究项目”（heuristics and biases program）。《思考，快与慢》一书对该研究项目前40年的研究内容进行了回顾，探讨了能够解释“直觉思维的奇妙与缺陷”的心理机制。该项目的核心思想是，当回答一个难题时，人们会使用简化的思维操作系统—
待学习
开始阅读
21
第14章匹配，找到与你的预测最精准匹配的共识
第14章匹配，找到与你的预测最精准匹配的共识现在请看向天空，你认为两小时内下雨的可能性有多大？你可能很容易就答出了这个问题。你做出判断时毫不费力。你可能在不知不觉中就把对天空黑暗程度的评估转换成了概率判断。你刚刚做的事就是一种典型的“匹配”（matching）。我们将判断描述为一种思维操作，该思维操作会为主观印象或印象的某个方面在量表上找到对应的值。匹
待学习
开始阅读
22
第15章选取精确的量表，并多用相对判断
第15章选取精确的量表，并多用相对判断假设你是民事审判案件中的一名陪审员。你目前所掌握的证据大致如下，你要据此做出判断。琼·格洛弗（Joan Glover）诉General Assistance公司案一个名叫琼·格洛弗的6岁小女孩吞下了大量非处方抗过敏药AllerFree，需要住院治疗很长时间。大剂量的药物使她的呼吸系统变得很脆弱，因此她很容易患上哮
待学习
开始阅读
23
第16章模式噪声的构成
第16章模式噪声的构成还记得朱莉吗？我们在第14章中提到的那个早慧的孩子。你曾尝试预测她的大学GPA。以下是有关朱莉的详细介绍。朱莉是独生女。她的父亲是一位事业有成的律师，母亲是一位建筑师。朱莉大约3岁时，她的父亲患上了一种自体免疫性疾病，不得不居家办公。他花大量的时间陪伴朱莉，并耐心地教她读书识字。朱莉4岁时就能流畅地阅读。她的父亲也曾尝试教她算术，
待学习
开始阅读
24
第17章噪声源，偏差是引人注目的图形，而噪声是不受我们关注的背景
第17章噪声源，偏差是引人注目的图形，而噪声是不受我们关注的背景哪里有判断，哪里就有噪声，希望你现在也认同这一观点。我们也希望，对你而言这已不再是一件超乎想象的事。这也正是我们着手开展研究的主要动力。经过多年的努力，我们对这个问题的思考已经逐渐深入和完善。现在，来回顾一下我们已经了解的噪声成分、这些成分对噪声的重要影响以及它们在判断中所起的作用。噪声成
待学习
开始阅读
25
第18章卓越的判断者，卓越的判断力
第18章卓越的判断者，卓越的判断力至目前为止，我们主要谈论的是人类的判断，而没有对不同的判断者进行区分。显然，在任何一项任务中，有些人做出的判断要优于其他人。即使是由群体做出的判断，如果该群体由高能力个体组成，那么最终的判断也会更优。这就引出了一个重要的问题，即如何甄别出更好的判断者。有三件事至关重要。如果做判断的人受过良好的训练、更睿智且拥有正确的认
待学习
开始阅读
26
第19章消除偏差与决策卫生
第19章消除偏差与决策卫生许多研究人员和机构都力图减少判断偏差。在本章中，我们将分析他们的核心发现。我们将介绍消除偏差的各类干预措施之间的区别，并探讨其中一种值得进一步研究的干预措施。随后，我们将讨论如何减少噪声，并介绍决策卫生的概念。干预：事后及事前消除偏差减少偏差有两种主要方式，要描述它们的特点，一个好方法是回到测量类比。假设你家浴室里的体重秤在
待学习
开始阅读
27
第20章司法科学，信息排序是最大的噪声
第20章司法科学，信息排序是最大的噪声 2004年3月，在西班牙首都马德里，一组被放置在通勤列车上的炸弹爆炸，造成192人死亡，2000多人受伤。人们在犯罪现场的塑料袋上发现了一枚指纹，并通过国际刑警组织将其传送到了世界各地的执法机构。几天后，美国联邦调查局（FBI）犯罪实验室最终确认这枚指纹属于一个居住在俄勒冈州的美国公民布兰登·梅菲尔德（Brandon
待学习
开始阅读
28
第21章甄选与汇总，超级预测的两大策略
第21章甄选与汇总，超级预测的两大策略许多判断都涉及预测，比如，下个季度的失业率可能是多少？明年将售出多少辆电动汽车？2050年的气候变化会带来什么影响？盖完一幢新楼需要多长时间？某家公司的年收入是多少？新员工会有什么样的表现？新的空气污染管理制度的成本是多少？谁将赢得选举？这些问题的答案会产生重大影响，因为私人机构和公共机构的一些重要选择往往取决于这些
待学习
开始阅读
29
第22章医疗决策，用科学的诊断指南减少噪声
第22章医疗决策，用科学的诊断指南减少噪声几年前，我们的一位好朋友保罗被他的主治医师琼斯诊断为患有高血压。琼斯医生建议保罗尝试药物治疗，他给保罗开了利尿剂，但保罗的血压依旧很高，也就是说药物没起到效果。几个星期后，琼斯又开了第二种药物——钙通道阻滞剂，但效果依然不理想。这些结果使琼斯困惑不已。虽然过去的3个月保罗每星期都会来复诊，但他的血压只是略有下降
待学习
开始阅读
30
第23章绩效评估，用基于外部视角的共识框架做出量化判断
第23章绩效评估，用基于外部视角的共识框架做出量化判断让我们从一个练习开始：请选出3个你认识的人，他们可以是你的朋友或同事。请在友善、智慧和勤奋这3种特质上给他们进行1～5分的评分，其中1分是最低分，5分是最高分。现在再请另一个很了解他们的人（这个人可以是你的配偶、好友或者最亲密的同事）用同样的方式对这3个人进行评分。在某些评估中，你和其他评分者很可能
待学习
开始阅读
31
第24章人员招聘，以结构化指标衡量人才
第24章人员招聘，以结构化指标衡量人才如果你曾经找过工作，那么“招聘面试”这个词可能会唤起你的一些生动而紧张的回忆。工作面试，即求职者与未来的主管或人力专员会面，是进入许多组织的必经之路。在大多数情况下，面试遵循着既定的流程。在寒暄之后，面试官会要求应聘者描述他们的个人经历，或者详细地描述他们经历过的某些特定情形。再问一些诸如个人成就与挑战、工作动机以
待学习
开始阅读
32
第25章中介评估法，做出明智决策的核心方法
第25章中介评估法，做出明智决策的核心方法不久前，我们两个人（卡尼曼和西博尼）与我们的朋友丹·罗瓦洛（Dan Lovallo）一起，介绍过组织中使用的一种决策方法。这一方法的首要目的在于减少噪声，我们称之为中介评估法。该方法涵盖了我们前几章所介绍的大多数决策卫生策略，并且它的应用范围很广泛，只要在计划或选项的评估过程中需要考虑和权衡多维度信息，我们就可以
待学习
开始阅读
33
第26章减少噪声的成本
第26章减少噪声的成本每当我们建议人们消除噪声时，他们可能会以成本过高为由进行反对，并认为在极端情况下，减少噪声根本不可能。我们已经在商业、教育、政府以及其他领域听到过这种反对意见，这种观点虽然有一定的合理性，但言过其实了，或者只不过是一个借口。为了证明我们的这种反对意见更有说服力，举一个高中老师为文章评分的例子。有位高中老师每星期都要对学生撰写的25
待学习
开始阅读
34
第27章尊严，人之为人的重要价值观
第27章尊严，人之为人的重要价值观设想如下三个场景：你申请房产抵押，但被拒绝，其原因并非有人实际考察了你的情况，而是因为银行有严格的规定，认为你这种信用等级的人不能申请房产抵押；你的条件很出色，而且一家公司的面试官也觉得你很不错，但你的求职申请被拒绝了，原因是15年前你曾被判刑，而该公司明令禁止录用任何有犯罪前科的人；你被判有罪，但不能被保释，这并非由于
待学习
开始阅读
35
第28章规则还是标准
第28章规则还是标准如果我们的目标是减少噪声和了解如何减少噪声（或在多大程度上减少噪声），那么我们就有必要区分两种约束行为的方式：规则和标准。很多组织通常会选择其中的一种，或将两者结合起来使用。在商业领域，某家公司可能会有以下要求：员工必须在指定的时间内工作；每个人的休假时间不能超过两个星期；如果有人将公司的秘密泄露给媒体，那么他就会被解雇。我们也可以
待学习
开始阅读
36
回顾与总结正视噪声问题
回顾与总结正视噪声问题噪声是我们在做判断时不希望存在的变异，然而噪声实在太多了，本书的核心目标就在于解释为何会如此，以及我们应该如何应对噪声。本书涵盖的内容十分丰富，我们在这里仅从一个宽泛的视角来对书中的核心观点进行简要的回顾和总结。判断不是计算，也无须遵循精确的规则需要注意的是，不要把本书中的“判断”一词与“思考”一词混淆。判断是一个相对狭义的概念
待学习
开始阅读
37
结语一个噪声很少的世界
结语一个噪声很少的世界请想象一下，经过重新设计并减少了噪声的组织会是什么样子。医院、招聘委员会、经济预测机构、政府机构、保险公司、公共卫生机构、刑事司法系统、律师事务所和大学，都会对噪声问题保持警觉，并努力减少这些问题。噪声审查将会成为惯例，或许每年都能进行一次。未来，组织的领导者将会在更多领域中使用算法来代替人类判断，或将其作为人类判断的补充。人们会
待学习
开始阅读
38
附录1 如何进行噪声审查
附录1 如何进行噪声审查附录1是一份关于如何进行噪声审查的实用指南。你可以以企业顾问的视角来阅读这部分内容，设想一下这家企业雇用你来对它的一个部门员工的专业决策进行噪声审查。顾名思义，噪声审查的重点当然在于考察噪声的普遍性，然而，良好的噪声审查其实也能提供关于员工培训和工作监管中存在的偏差、盲点和缺陷的有价值信息。成功的审查有利于促进部门改革，包括改进专
待学习
开始阅读
39
附录2 决策观察者检查清单
附录2 决策观察者检查清单本附录给出了一份决策观察者（见第19章）检查清单的通用示例。这里提供的清单大致遵循做重要决策的时间顺序。清单中每一项之后的参考问题都对相应的项目做了进一步说明。决策观察者在审视决策过程时应该问自己这些问题。决策观察者不应照搬照抄这个清单。我们希望它发挥的作用是为决策观察者提供灵感和基准，并使决策观察者能够据此设计出适合自己的偏
待学习
开始阅读
40
附录3 对抗噪声，修正预测
附录3 对抗噪声，修正预测匹配性预测是我们依赖直觉式匹配过程而产生的错误（参见第14章）。当我们基于现有信息做预测时，我们会进行匹配性预测，就好像我们能够依据这些信息对结果做出完美的或准确率非常高的预测一样。让我们来回顾一下朱莉的例子，她4岁就能流利地阅读，那么她在大学时的GPA会是多少呢？如果你预测朱莉在大学时的GPA是3.8，这就意味着你从直觉上判断
待学习
开始阅读
41
致谢
我们要感谢很多人。林内亚·甘地（Linnea Gandhi）是我们的参谋长，她为我们提供了大量的指导和帮助，使我们的工作可以有条不紊地推进，让我们的工作充满欢声笑语。基本可以说，是她主持了本书的撰写。除此之外，她还为本书的初稿提出了许多宝贵建议，没有她，我们无法顺利完成本书。丹·罗瓦洛对成书也起到了非常重要的作用，本书的观点最初就源于他与人合著的一篇文章。我
待学习
开始阅读
42
译者后记
汪祚军中国科学院心理研究所博士，宁波大学教授感谢编辑部独具慧眼，能够邀请中国科学院心理研究所李纾研究员领衔本书的翻译工作。李纾老师是国内最早从事行为决策研究的专家，在行为决策领域深耕数十年，其提出的“齐当别”决策模型在心理学界具有重要的影响力。作为行为决策领域的一名研究者、李纾老师曾经的博士生，能够参与本书的翻译工作，我深感荣幸。在拿到本书的英文原书后
待学习
开始阅读
43
注释
引言偏差与噪声，人类判断的两类错误射击场只是一种隐喻：1778年，瑞士数学家丹尼尔·伯努利（Daniel Bernoulli）在一篇关于评估问题的论文中使用弓和箭进行了相同的类比。Bernoulli, “The Most Probable Choice Between Several Discrepant Observations and the For
待学习
开始阅读

Reader

章节阅读

Local EPUB Text

第21章甄选与汇总，超级预测的两大策略

许多判断都涉及预测，比如，下个季度的失业率可能是多少？明年将售出多少辆电动汽车？2050年的气候变化会带来什么影响？盖完一幢新楼需要多长时间？某家公司的年收入是多少？新员工会有什么样的表现？新的空气污染管理制度的成本是多少？谁将赢得选举？这些问题的答案会产生重大影响，因为私人机构和公共机构的一些重要选择往往取决于这些答案。

预测分析员的工作职责是分析预测何时会出错以及为何会出错，他们对偏差和噪声（也被称为不一致性或不可靠性）进行了明确的区分。人们一致认为，在某些情况下，预测者的预测是有偏差的。例如，官方机构在对预算进行预测时，会表现出不切实际的乐观。平均来说，他们对经济增长的预测高得离谱，而对赤字的预测则低得不切实际。实际上，无论他们这种不切实际的乐观是出于认知偏差还是政治目的，都无关紧要。

此外，预测者往往过于自信：如果要求将他们的预测用置信区间而不是用单点估计值来描述，他们倾向于选择更窄的区间，而实际上这样做并不合理。例如，一项正在进行的季度调查要求美国一些公司的首席财务官估计下一年标准普尔500指数的年回报率。首席财务官们要提供两个数字：一个是最小值，即他们认为实际回报率有1/10的可能性低于该值；一个是最大值，即他们认为实际回报率有1/10的可能性高于该值。这两个数值的置信区间是80%。然而，事实上实际回报率落入这个区间的可能性只有36%，也就是说，首席财务官们对自己预测的准确性过于自信了。

预测者也充满噪声。J.斯科特·阿姆斯特朗（J. Scott Armstrong）在《预测原理》（Principles of Forecasting）中指出，即使在专家中，“不可靠性也是判断预测的误差来源之一”。事实上，噪声是误差的主要来源。情境噪声很普遍：预测者自己的观点也并不总是前后一致。人与人之间的噪声也很普遍：预测者之间意见不一致，即便他们都是专家。如果让法学教授预测最高法院的裁决，你会发现大量的噪声。如果请相关专家预测实行空气污染管理制度的年度效益，你会发现巨大差异，例如从30亿美元到90亿美元不等。如果你让一群经济学家对失业率和经济增长情况做出预测，你也会发现他们的预测之间存在很大的差异。我们已经看到了许多存在噪声的关于预测的例子，而对预测的研究可以揭示更多问题。

改进预测的两种方法

研究也为减少噪声和偏差提供了建议。我们不会在此进行详尽描述，但会重点讨论两种广泛适用的减少噪声的策略。一种是应用我们在第18章提到的原则——选择更好的判断者，从而做出更好的判断；另一种是最普遍适用的决策卫生策略之一——汇总多项独立的评估结果。

对多个预测进行汇总的最简单方法是对它们取平均值。从数学的角度来看，平均值法能够保证减少噪声，具体地说，减少的量就是（1-判断总数平方根的倒数）。也就是说，如果你对100个判断取平均值，那么将减少90%的噪声，如果你对400个判断取平均值，则可以减少95%的噪声——基本上就消除噪声了。这一统计规律促使我们采用在第7章讨论过的群体智慧的方法。

由于平均值法不能减少偏差，对总体误差的影响取决于偏差和噪声的比例。这就是为什么当判断彼此独立时，群体智慧最有效，因为群体智慧中不太可能出现共同的偏差。大量实验证据表明，对多次预测取平均值会大大提高预测的准确性，例如在股票分析中，经济预测员的“共识”性预测最准确。就销售预测、天气预测和经济预测而言，一组预测者的未加权平均值优于大多数个体甚至所有个体的预测。而且，通过不同方法获得的平均预测具有相同的效果：在一个涵盖30项各领域的实证比较分析中，研究人员发现综合预测平均减少了12.5%的误差。

直接取平均值并不是对预测进行汇总的唯一方法。群体选择策略与直接取平均值的方法一样有效，即根据近期判断的准确性来选择最好的判断者，然后对少数判断者的判断取平均值。对尊重专家意见的决策者而言，他们更容易理解并采取一种既依赖于汇总又依赖于群体选择的策略。

产生汇总预测的一种方法是利用“预测市场”（prediction markets），在预测市场中，个体就各种可能的结果下注，从而得到激励来做出正确的预测。如果预测市场的价格表明某些事件发生的概率大约是70%，那么它们大约有70%的可能性会发生。从这个意义上说，大多数时候，预测市场的表现非常好。来自各个行业的许多公司都利用预测市场来汇总不同的观点。

另一个汇总不同观点的正式程序是德尔菲法（Delphi Method）。该方法的经典范式是一个包括多轮信息反馈的过程，在此过程中，参与者向组织者提交评估（或投票），并且彼此保持匿名。在新的一轮中，参与者都会给出自己评估的理由，并对其他人给出的理由做出回应，这个过程仍然是匿名的。这一过程鼓励估计值趋同（有时要求新的判断值落在前一轮判断分布的特定范围内，从而迫使估计值趋同）。这种方法能够同时从汇总和社会学习中获益。

德尔菲法在很多情况下都很好用，但是实施起来有一定的挑战性。有一个更简单的版本可以在单个会议中实施，那就是“迷你德尔菲法”。这个方法也被称为“评估-讨论-评估法”（estimate-talk-estimate），它要求参与者首先给出独立的（未公开的）评估，然后进行解释，并说明理由，最后根据其他人的评估和解释做出新的评估。共识性判断是第二轮中获得的个体估计的平均值。

良好判断计划的4个步骤

关于预测质量的一些最具创新性的研究超出了目前为止我们所探讨的内容。这些研究始于2011年，当时3位知名的行为科学家创立了“良好判断计划”（Good Judgment Project）。菲利普·泰特洛克（我们在第11章讨论过他对政治事件长期预测的评估）、他的妻子芭芭拉·梅勒斯以及唐·穆尔（Don Moore）联手提升我们对预测，特别是对为什么有些人擅长预测的理解。

良好判断计划首先招募了数以万计的志愿者，这些志愿者并非专家，而是来自各行各业的普通人。他们被要求回答数百个问题，例如：

·　印度或巴西是否会在未来两年内成为联合国安全理事会常任理事国？

·　在接下来的一年内会有国家脱欧吗？

从上述例子中我们可以看出，该计划主要关注国际大事。重要的是，回答这些问题引发了许多与日常生活更贴近的预测问题。比如一位律师被问到客户是否会胜诉，或是一个电视工作室被问到某个节目提案是否会大受欢迎，这些问题就涉及了预测技巧。泰特洛克和他的同事想知道是否有人尤其擅长预测，预测的能力能否习得或得到提高。

为了理解这些核心发现，我们需要解释一下泰特洛克和他的团队评估预测者时所采用方法的一些关键点。首先，他们使用的预测问题数量很大，而不只是一个或几个，因为那样的话，成功或失败可能全凭运气。如果你预测你最喜欢的队伍将赢得下一场比赛，而且它确实赢了，你也不一定是一个好的预测者。也许你总是预测你最喜欢的队伍会赢，如果这是你的策略，而他们只赢了一半的比赛，那么你的预测能力就不能算是特别厉害。基于这方面的考虑，为了减少运气的作用，研究人员验证了参与者在大量预测中的平均表现。

其次，研究人员要求参与者对事件发生的概率进行预测，而不是仅仅给出“会发生”或“不会发生”这种非此即彼的答案。对许多人来说，预测就是做是非题——站这方或者站那方。然而，考虑到我们在客观上对未来事件是无法知晓的，预测它们发生的概率才是更明智的选择。如果有人在2016年说“希拉里·克林顿有70%的可能性当选总统”，那他不一定是个糟糕的预测者。确切地说，有70%的概率会发生的事情仍然存在30%的不会发生的可能性。要知道预测者的水平高低，我们应该看他们估计的概率是否符合现实。假设一位名叫玛格丽特的预测者说，500个不同的事件发生的可能性为60%，结果其中300个真的发生了，那么我们就可以得出结论：玛格丽特的置信度被校准得很好。良好的校准是良好预测的前提之一。

再次，泰特洛克及其同事又对实验进行了改进，他们不仅要求预测者对一个事件是否会在12个月内发生做出一个概率估计，还让预测者根据新的信息不断修改自己的预测。假设你在2016年曾估计，英国在2019年底前脱欧的可能性只有30%，后来，新的民意调查结果显示，“脱欧”的选票持续增加，这时，你很可能会把你的预测值提高。公投结果公布后，我们仍然无法确定英国是否会在公布的时间内脱欧，但看起来可能性肯定会大得多。（事实上，英国已在2020年正式脱欧。）

泰特洛克和他的同事允许预测者根据新出现的信息更新预测，为了便于记分，他们把每次更新都视为一个新的预测。通过这种方式，良好判断计划的参与者被激励去密切关注新闻并不断更新他们的预测。这种方法反映出人们期望企业和政府预测人员也能够根据新的信息更新预测，尽管后者有可能因为改变主意而遭到批评。对这种批评有个非常常见的回应，有人认为它出自经济学家约翰·梅纳德·凯恩斯（John Maynard Keynes）：“当事实改变时，我改变了主意。你又能怎样？”

最后，为了给预测者的表现打分，良好判断计划使用了格伦·W.布赖尔（Glenn W. Brier）于1950年研发的系统。该系统被称为“布赖尔分数”（Brier scores），可以测量人们的预测值和实际值之间的差距。

布赖尔分数是一种巧妙的方法，它可以绕过一个与概率预测相关的普遍存在的问题：预测者通过避免采取大胆的立场来对自己的预测做两手准备。再想想玛格丽特的例子，在我们的描述中她是一个校准效果良好的预测者，因为她将500个事件的发生率定为60%，其中300个事件确实发生了。这个结果可能没有看上去那么厉害。如果玛格丽特是一个天气预报员，她总是预测有60%的可能性下雨，而且500天中有300天下雨，那么玛格丽特的预测是很准的，但也是无用的，因为玛格丽特其实是在告诉你，你可能每天都要带把伞以防万一。拿她和尼古拉斯做个比较，尼古拉斯预测有300天下雨的概率是100%，有200天下雨的概率是0。尼古拉斯和玛格丽特有同样完美的校准：这两位预报员都预测有X%的日子会下雨，且实际也正是如此，但显然尼古拉斯的预测更有价值：他没有为自己的预测做两手准备，而是明确地告诉你是否应该带伞。从技术上讲，尼古拉斯的判断除了校准效果好外，还有很高的辨析度。

布赖尔分数会对准确的校准和准确的辨析度打出高分。为了得高分，你不仅要在平均水平上是正确的（即校准效果良好），而且要能够表明立场，区分不同的预测（即具有高分辨率）。布赖尔分数以均方误差的逻辑为基础，分数越低越好——0分就是完美。

我们已经了解了评分机制，那么良好判断计划的志愿者表现如何呢？其中一个主要的发现是，绝大多数志愿者的表现都很差，但是有2%的人表现突出。前面说过，泰特洛克称这些表现良好的人为超级预测者。他们几乎从不犯错，他们的预测明显高于随机水平。值得注意的是，一位政府官员表示，这些人的表现明显“好于能够阅读情报和其他秘密数据的情报界分析师的平均水平”。这个类比值得我们反思，情报界的分析专家受过训练，能够做出准确的预测，而且，他们还可以了解机密信息，然而，他们的表现却比不上超级预测者。

永久测试版：一个特殊的思维循环

超级预测者为何如此优秀？与我们在第18章中的论述一致，我们可以合理地推测他们异常聪明。这种推测并没有错。在GMA测试中，超级预测者在良好判断计划中的表现比普通志愿者更好，而普通志愿者的成绩已经明显高于平均水平。但差别并不总是那么大，许多在智力测试中表现非常好的志愿者并没有成为超级预测者。除了常规智力，我们可以合理地预期超级预测者在数学方面的能力异常出色。他们的确如此。但他们真正的优势不是数学天赋，而是能够轻松自如地应用分析思维和概率思维。

想一想超级预测者对问题进行组织和分解的意愿和能力。他们不会对一个国家是否会退出欧盟、一场战争是否会在某地爆发这样的问题形成一个整体判断，而是将其分解为几个组成部分。他们会问：“什么情况下答案才是肯定的？什么情况下答案是否定的？”他们会问并试图回答一系列辅助问题，而不是给出一种直觉或整体的预感。

超级预测者也擅长从外部视角看问题，他们非常关心基准概率。正如第13章中对迈克尔·甘巴迪问题的阐述，你在关注甘巴迪的个人资料的细节之前，了解一下普通CEO在两年内被解雇或辞职的概率是很有帮助的。超级预测者会系统性地寻找基准概率，当被问及两个国家次年是否会因边境争端而发生武装冲突时，超级预测者们并不只关注或立即去关注这两个国家目前是否相处融洽。根据他们读到的新闻和分析，他们可能对此有一定的直观感受，但他们知道，对某件事情的直觉往往不可靠。相反，他们一开始会去寻找一个基准概率：他们会询问过去的边界争端升级为武装冲突的频率。如果这样的冲突很少发生，超级预测者将首先考虑这一事实，再去了解两国局势的详细信息。

简而言之，超级预测者的与众不同之处不在于他们智力过人，而在于他们明白如何运用智慧。他们运用智慧的技能反映了我们在第18章中描述的那种可能产生更好判断的认知风格，尤其是高水平的“积极开放性思维”。回想一下关于积极开放性思维的测试：它包括“人们应该考虑与他们的看法相悖的证据”和“关注与你意见不同的人比关注那些与你意见一致的人更有用”。显然，在这项测试中得分很高的人在新的信息出现时会大大方方地更新自己的判断，而不会反应过度。

为了描述超级预测者的思维方式，泰特洛克使用了“永久测试版”（perpetual beta）的说法。这是一个程序员常会使用的术语，指的是一个不打算在最终版本中发布，却被无休止地使用、分析和改进的程序。泰特洛克发现：跻身超级预测者行列的最有力的预测因素是“永久测试版”，即人们致力于更新看法和提高自我完善的程度。正如泰特洛克所说：“超级预测者之所以如此优秀，不在于他们是谁，而在于他们做了什么——艰苦的研究工作，仔细的思考和自我批判，对其他观点的收集和汇总，细微的判断和不懈的更新。”他们喜欢一个特殊的思维循环：尝试，失败，分析，调整，再试一次。

预测中的噪声和偏差

此时，你可能会想，人们可以被训练成超级预测者，或者至少变得更像一位超级预测者。事实上，泰特洛克及其合作者正在为此而努力。他们做的工作可以被视作了解“超级预测者为何表现如此出色，以及如何让他们更出色”的第二个阶段。

在一项重要的研究中，泰特洛克和他的团队将普通预测者随机分为3组，来测试不同干预措施对其后续判断品质的影响。这些干预措施恰好对应我们描述的改善判断的3种策略。

·　培训：一些预测者完成了一个概率推理的课程，以期提升他们的预测能力。在这个课程中，预测者们了解了各种偏差（包括忽视基准概率、过分自信和证实性偏差）、对不同来源的多个预测取平均值的重要性，并将参照类别纳入考量。

·　团队合作（一种汇总判断的形式）：让一些预测者组成团队，这样一来，他们就可以看到彼此的预测，并能够进行讨论。团队合作可以通过鼓励预测者应对相反的论点、保持积极开放的思维来提高准确性。

·　甄选：对所有预测者的准确度进行评分，在年终时，排名前2%的人被指定为超级预测者，并有机会在接下来的一年里与精英团队合作。

事实证明，这3种干预措施都非常有效，从某种意义上说，它们提高了人们的布赖尔分数，而且我们发现训练是有效的，团队合作更有效，甄选的效果最优。

这一重要发现证实了汇总判断和选择优秀判断者的价值，但这并不是全部。有了关于每次干预效果的数据，泰特洛克和梅勒斯的合作者维莱·萨托帕（Ville Satopää）开发了一种复杂的统计技术，以梳理每一种干预措施究竟是如何改善预测的。他推断，从原则上讲，一些预测者的表现比其他人更好或更差的主要原因有3个：

·　他们可以更熟练地发现和分析环境中与自己要做出的预测相关的数据，这也说明了信息的重要性。

·　一些预测者可能总倾向于错误地高估或低估预测的真实值。如果在成百上千的预测中，你在整体上高估或低估了发生某种变化的可能性，那么可以说，你受到了某种形式的偏差的影响，要么是倾向于支持改变的偏差，要么是倾向于保持稳定的偏差。

·　一些预测者可能不太容易受到噪声或随机误差的影响。正如在任何判断中一样，当我们进行预测时，噪声可能有许多触发因素；预测者可能对某条新闻反应过度（这是我们称之为模式噪声的一个例子），可能会受到情境噪声的影响，还可能在使用概率量尺时产生噪声。所有这些误差（以及很多其他误差）的大小和方向都是不可预测的。

萨托帕、泰特洛克、梅勒斯及其同事马拉特·萨利霍夫（Marat Salikhov）称他们的模型为BIN预测模型，BIN是Bias（偏差）、Information（信息）、Noise（噪声）这三个单词首字母的合称。他们测量了这三种因素在多大程度上提升了三种干预措施效果。

他们的答案很简单：这三种干预措施主要是通过减少噪声起作用的。正如研究人员所说：“干预措施提高准确性的主要手段是抑制判断中的随机误差的出现，然而，训练干预的初衷是减少偏差。”

鉴于训练的目的是减少偏差，一个不太出色的预测者会预测，减少偏差是培训的主要效果。然而，培训是通过减少噪声来起作用的。这种奇特的现象很容易解释。泰特洛克的训练的主要目的是对抗心理偏差。我们现在已经知道，心理偏差并不总是会造成统计偏差。当心理偏差以不同的方式影响不同个体的不同判断时，就会产生噪声。很明显，这里的情况就是这样的，因为所预测的事件是多种多样的。由于主题不同，同样的偏差会导致预测者反应过度或反应不足。我们不要认为他们会产生统计偏差，即预测者相信事件会发生或不会发生的普遍倾向。因此，培训预测者克服他们的心理偏差是有效的——通过减少噪声的方式。

团队合作对减少噪声有相当大的作用，同时也显著提高了团队提取信息的能力。这一结果与汇总的逻辑一致：几个人协同工作比一个人更善于发现重要信息。如果爱丽丝和布莱恩一起工作，爱丽丝发现了布莱恩错过的信号，那么他们进行联合预测会更好。在团队中工作时，超级预测者似乎能够避免群体极化和信息级联的危险。相反，他们会汇总不同个体的数据和想法，并以积极开放的方式充分利用综合的信息。萨托帕和他的同事解释了这一优势：“与培训方式不同的是，通过团队合作……预测者可以利用这些信息。”

甄选的总体效果最好，一些改进源于更好地利用了信息。超级预测者比其他人更善于发现相关信息，这可能是因为他们比一般参与者更聪明、更有动力、对做出此类预测更有经验。但甄选的主要作用还是减少噪声。超级预测者比普通人，甚至比受过训练的团队产生的噪声更少。这一发现也让萨托帕和其他研究人员大吃一惊：“超级预测者”的成功主要归功于他们在控制测量误差方面的出色能力，而不是其他人无法复制的对新闻的透彻解读。

甄选与汇总的有效之处

超级预测项目的成功突出了两种决策卫生策略的价值：甄选（超级预测者都超级棒）和汇总（预测者组成团队进行合作时表现更好）。这两种策略可以被广泛地应用在许多判断过程中。只要有可能，你应该通过组建业务能力出众且能力互补的判断者团队（由预测者、投资专家、招聘人员组成）来实现战略性合作。

到目前为止，我们已经考虑了通过对多个独立判断取平均值的方式来提高精确度，就像在群体智慧实验中一样。对高准确性判断者的评估进行汇总将进一步提高判断的准确性。通过汇总既独立又互补的判断，我们可以获得准确度上的进一步提高。试想有4个人是一场犯罪行为的目击证人（确保他们不会相互影响至关重要），他们从4个不同的角度目击了犯罪行为，那么将他们提供的信息进行汇总后其质量会好很多。

组建一个专业团队来共同完成判断任务，类似于组建一套综合测试来预测候选人未来在学校或工作中的表现。该任务的标准工具是多元回归（见第9章），它通过依次选择变量来执行。首先选择的是最能预测结果的第一个测试，然而，下一个测试不一定是第二有效的。相反，第二个测试提供了有效且与第一个测试无关的信息，为第一个测试增加了最大的预测力。例如，假设你有两个心理素质测验，其与未来的表现的相关系数分别为0.5和0.45，还有一个人格测验，其与未来表现的相关系数只有0.3，但与心理素质测验不相关。最佳的解决方案是首先选择更有效的那个心理素质测验，然后选择人格测验，因为这样会带来更多的新信息。

同样的道理，如果你要组建一个判断者团队，那么你当然应该先挑选最好的判断者。接下来，选择一个判断能力中等却能给团队带来一些新技能的人，而不是与第一个人高度相似且更善于判断的人，这样做可能效果更好。以这种方式组成的团队会更优秀，因为当不同个体的判断彼此不相关时，汇总判断的有效性会比判断存在冗余时提高得更快。在这样的团队中，模式噪声相对较高，因为个人对于每个案例的判断都会有所不同。矛盾的是，有噪声的群体的平均判断水平比高度一致的群体的平均判断水平更高。

我们需要注意的一个重点是：无论多样性如何，只有在判断真正彼此独立的情况下，对判断进行汇总才能减少噪声。正如我们在讨论群体中的噪声时所强调的，群体审议过程中增加的偏差往往比消除的噪声更多。一个组织想要利用多样性的力量，那它必须愉快地接受团队成员独立做出判断时产生的分歧。激发和汇总既独立又多样的判断往往是最简单、最便宜且适用范围最广的决策卫生策略。

阅读时长

核心概念

章节学习

第21章 甄选与汇总，超级预测的两大策略

第21章甄选与汇总，超级预测的两大策略