学习进度

0%

阅读时长

未满 1 分钟

最近阅读:未开始阅读

核心概念

待提炼

章节学习

  • 1

    献词

    献给诺加、奥里和吉利 ——丹尼尔·卡尼曼 献给范丁和莱莉亚 ——奥利维耶·西博尼 献给萨曼莎 ——卡斯·R.桑斯坦

    待学习
    开始阅读
  • 2

    重磅赞誉

    从“偏差”到“噪声”,作为心理学家的卡尼曼,挑战的是经济学的“理性人”假设,并因开启了行为经济学的大门而获得诺贝尔经济学奖。他一直关注的是人类在决策中是如何犯错的,在这本书中,他深入分析了噪声的影响,但也乐观地预期,可以通过发掘埋没在大数据中的信息来减少决策中的噪声,这可以说是大数据渗透到行为经济学领域的新趋势。 巴曙松 北京大学汇丰金融研究院执行院长,中国

    待学习
    开始阅读
  • 3

    测一测 如何做一个聪明的决策者?

    测一测 如何做一个聪明的决策者? 想知道你的判断 是怎么掉入噪声陷阱的吗? 扫码测一测, 立即获取答案及解析, 看看你的“降噪等级”。 1.卡尼曼是世界上第一个凭借心理学研究获得诺贝尔经济学奖的人。这个说法对吗? A.对 B.不对 2.卡尼曼指出:人类判断出错的原因有两种。一种是偏差,另一种是什么呢? A.误差 B.噪声 C.系统认知 3.在做一个判断时,以

    待学习
    开始阅读
  • 4

    推荐序1 在无法回避噪声的世界,更好地追求高级境界与极致效益

    推荐序1 Preface 在无法回避噪声的世界, 更好地追求高级境界与极致效益 彭凯平 清华大学社会科学学院院长 每年七八月份,我都会参加清华大学的本科生招生工作,由此而目睹了一个问题:高考揭榜之后,高中毕业生及其家长应如何做好志愿填报?学校和专业的选择非常重要,很有可能会决定一个学生一辈子的命运,其中牵涉的问题就与我们心理学中一个重要的研究领域紧密相关,那

    待学习
    开始阅读
  • 5

    推荐序2 穿越噪声的决策

    推荐序2 Preface 穿越噪声的决策 朱宁 上海交通大学上海高级金融学院金融学教授,副院长 我抱着浓厚的兴趣读完了诺贝尔经济学奖得主丹尼尔·卡尼曼教授等的新作《噪声》一书,这本书汇集了卡尼曼教授近十年的最新发现。对于我所从事的行为金融学研究领域而言,《噪声》算得上是一本“专业书”,但是读完之后,我认为它很可能是卡尼曼教授继《思考,快与慢》后,又一次成功将

    待学习
    开始阅读
  • 6

    中文版序 哪里有判断,哪里就有噪声

    中文版序 Preface 哪里有判断,哪里就有噪声 我们非常荣幸,也非常感激,能够在中国出版这本书。《噪声》重点关注人类的判断,关注它是如何出错的,以及如何让它变得更好。无论是医学、法律、公共政策、商业,还是日常生活领域中,我们做出判断的过程中存在的问题,是偏好根据经验做判断的人类的共性问题。 数十年来,偏差问题备受瞩目。在《思考,快与慢》一书中,本书的作者

    待学习
    开始阅读
  • 7

    引言 偏差与噪声,人类判断的两类错误

    引言 Introduction 偏差与噪声,人类判断的两类错误 试想一下,你的朋友组成了A、B、C、D共4支队伍,来到一个射击场。每队中有5个人,他们共用一支来复枪,且每人只开了一枪。图0-1显示了他们的射击结果。 图0-1 4支队伍的射击结果 理想情况是,每一枪都能正中靶心。 A队几乎达到了理想情况,他们的每一发子弹都紧紧围绕着靶心,接近完美模式。 B队的

    待学习
    开始阅读
  • 8

    第1章 犯罪和充满噪声的判罚

    第1章 犯罪和充满噪声的判罚 假设某人被指控犯了罪,例如到商店行窃、私藏海洛因、袭击他人或持枪抢劫,该案件可能的判决结果是什么? 答案不应取决于该案件恰巧被指派给哪位法官、天气是冷是热,以及当地球队在前一天是输是赢。如果3个背景类似的人被指控犯有同一罪行,最后却得到截然不同的处罚,例如第一个人被判缓刑,第二个人被判2年有期徒刑,最后一个人被判10年有期徒刑,

    待学习
    开始阅读
  • 9

    第2章 系统噪声,给人达成一致的错觉

    第2章 系统噪声,给人达成一致的错觉 我们最初接触噪声,并对这个主题产生兴趣,并不是因为遇到了像刑事司法案件那般富有戏剧性的案例。实际上,这次邂逅纯属偶然,缘于一家保险公司,这家公司与我们中的两人所属的咨询公司有合作。我们的研究揭示了营利性组织中存在噪声问题的严重性——组织会因为决策中的噪声损失惨重。我们在保险公司的经历有助于解释为什么噪声问题常常被忽视,以

    待学习
    开始阅读
  • 10

    第3章 单一决策,仅发生一次的重复决策

    第3章 单一决策,仅发生一次的重复决策 到目前为止,我们所讨论的案例研究都与重复决策相关。比如,对盗窃犯的恰当判决是什么?对某一特定风险该收取多少保费?虽然每个具体的案例在某种意义上都是独特的,但像这样的判断属于重复决策。医生诊断患者,法官审理假释案件,招生人员审查入学申请书,会计师准备税单等,这些都是重复决策。 正如前一章所介绍的,重复决策中的噪声可以通过

    待学习
    开始阅读
  • 11

    第4章 什么是判断

    第4章 什么是判断 本书论述的是一般意义上的专业判断,我们假设如果做判断的人有足够的能力,就能做出准确的判断。然而,判断这一概念本身包含着一个你不得不承认的事实:你永远无法确定一个判断是不是准确。 请思考“判断问题”和“主观判断”这两个短语的差别。我们认为“太阳明天会升起”或“NaCl是氯化钠的化学式”这样的陈述并非判断,因为任何理性的人都会完全同意上述观点

    待学习
    开始阅读
  • 12

    第5章 测量误差,噪声与偏差的代价一样大

    第5章 测量误差,噪声与偏差的代价一样大 显而易见的是,一致性的偏差会引发代价高昂的错误。如果体重秤在你每次称体重时都自动加上一定的重量,如果一位乐观的经理总是预测项目只需花费实际所需时间的一半,如果一位谨小慎微的经理总是年复一年地低估未来的销售额,那么后果都将会非常严重。 我们已经知道,噪声会引发代价高昂的错误。如果一位经理大多数时候预测的项目所需时间只是

    待学习
    开始阅读
  • 13

    第6章 噪声分析:所有判断都存在3类噪声

    第6章 噪声分析:所有判断都存在3类噪声 在上一章,我们讨论了单个案例中测量或判断的变异性。在单个案例中,判断的所有变异性都是误差,而误差由偏差和噪声组成。我们考察的判断系统,包括法院和保险公司的判断系统,它们的目的在于处理不同案例,并对这些案例进行区分。如果美国的联邦法官和保险理赔员对他们手头的所有案例都做出相同的判断,那他们就没有什么存在的价值了。对不同

    待学习
    开始阅读
  • 14

    第7章 情境噪声,无时无刻不在影响着我们的判断

    第7章 情境噪声,无时无刻不在影响着我们的判断 想象一名职业篮球运动员正在准备罚球的场景:他站在罚球线上,全神贯注地准备投篮。这是他练习过无数次的一系列动作,他能投中吗?我们无法预知结果。 在NBA的比赛中,球员们通常能够4罚3中。显然,一些球员比其他球员表现得更好,但没有人能做到百发百中(3)。虽然篮筐一直都是距离地面3.05米,与罚球线的垂直距离一直是4

    待学习
    开始阅读
  • 15

    第8章 群体是如何放大噪声的

    第8章 群体是如何放大噪声的 个体判断中存在噪声的结果已经很糟糕了,但群体决策中的噪声危害更甚。群体决策可能会由于一些无关因素而朝任何一个方向改变。谁先发言、谁后发言,谁说话更自信,谁穿着黑色衣服,谁和谁挨着坐,谁在某个时刻笑了/皱眉了/呈现出其他身体姿势……所有这些因素都会影响结果。相似的群体每一天都会做出各种不同的决策,如雇用、晋升、破产、沟通策略、环境

    待学习
    开始阅读
  • 16

    第9章 判断与模型,简单的模型普遍优于人类判断

    第9章 判断与模型,简单的模型普遍优于人类判断 很多人都对预测未来的工作绩效感兴趣,不只是自己的,还有别人的。因此,绩效预测是用来考察预测性判断的实用例子。例如,一家大公司在招聘高管时,聘请了一家专业咨询公司对两名候选人莫妮卡和娜塔莉进行评估,并以取值为1~10分的量表对两人的领导力、沟通能力、人际交往能力、职业技能、应聘动机等维度进行打分(见表9-1)。你

    待学习
    开始阅读
  • 17

    第10章 无噪声的规则

    第10章 无噪声的规则 近年来,人工智能(Artificial Intelligence)特别是机器学习技术让机器能够执行许多以前只有人类才能执行的任务。机器学习算法可以承担人脸识别、语言翻译、分析医学影像等任务,并且可以以惊人的速度和准确性来处理计算问题,例如为成千上万名驾驶员迅速规划行车路线。它们还可以执行困难的预测任务:预测美国最高法院的判决;识别哪些

    待学习
    开始阅读
  • 18

    第11章 哪里有预测,哪里就有客观无知

    第11章 哪里有预测,哪里就有客观无知 我们经常同一些公司高管分享第9章和第10章中的研究内容,并通过发人深省的发现让他们意识到人类的判断是有限的。这些发现已经存在了半个多世纪,应该很少有人能避开它们,但人们仍然对这些发现很抵触。 在我们的听众里,有一些高管会很自豪地告诉我们,相比于定量分析,他们更相信自己的直觉;其他人虽然没明说,但他们也有同样的看法。有关

    待学习
    开始阅读
  • 19

    第12章 常态谷:事情虽无法预测,但可以被理解

    第12章 常态谷:事情虽无法预测,但可以被理解 现在我们来考虑一个更大的问题:在这个世界上,有些问题容易解决,有些问题却充满了客观无知,那我们应如何自处呢?毕竟,在存在很严重的客观无知的情况下,我们很快就能意识到,用水晶球来预测未来是徒劳的,但我们通常并不会对这个世界产生这种体验。相反,正如上一章所提到的,我们一直在基于少量的有用信息来对未来做出大胆预测。在

    待学习
    开始阅读
  • 20

    第13章 启发式、偏差与噪声

    第13章 启发式、偏差与噪声 本书是对横跨半个世纪的关于人类直觉判断研究的延续,也就是所谓的“启发式和偏差研究项目”(heuristics and biases program)。《思考,快与慢》一书对该研究项目前40年的研究内容进行了回顾,探讨了能够解释“直觉思维的奇妙与缺陷”的心理机制。该项目的核心思想是,当回答一个难题时,人们会使用简化的思维操作系统—

    待学习
    开始阅读
  • 21

    第14章 匹配,找到与你的预测最精准匹配的共识

    第14章 匹配,找到与你的预测最精准匹配的共识 现在请看向天空,你认为两小时内下雨的可能性有多大?你可能很容易就答出了这个问题。你做出判断时毫不费力。你可能在不知不觉中就把对天空黑暗程度的评估转换成了概率判断。 你刚刚做的事就是一种典型的“匹配”(matching)。我们将判断描述为一种思维操作,该思维操作会为主观印象或印象的某个方面在量表上找到对应的值。匹

    待学习
    开始阅读
  • 22

    第15章 选取精确的量表,并多用相对判断

    第15章 选取精确的量表,并多用相对判断 假设你是民事审判案件中的一名陪审员。你目前所掌握的证据大致如下,你要据此做出判断。 琼·格洛弗(Joan Glover)诉General Assistance公司案 一个名叫琼·格洛弗的6岁小女孩吞下了大量非处方抗过敏药AllerFree,需要住院治疗很长时间。大剂量的药物使她的呼吸系统变得很脆弱,因此她很容易患上哮

    待学习
    开始阅读
  • 23

    第16章 模式噪声的构成

    第16章 模式噪声的构成 还记得朱莉吗?我们在第14章中提到的那个早慧的孩子。你曾尝试预测她的大学GPA。以下是有关朱莉的详细介绍。 朱莉是独生女。她的父亲是一位事业有成的律师,母亲是一位建筑师。朱莉大约3岁时,她的父亲患上了一种自体免疫性疾病,不得不居家办公。他花大量的时间陪伴朱莉,并耐心地教她读书识字。朱莉4岁时就能流畅地阅读。她的父亲也曾尝试教她算术,

    待学习
    开始阅读
  • 24

    第17章 噪声源,偏差是引人注目的图形,而噪声是不受我们关注的背景

    第17章 噪声源,偏差是引人注目的图形,而噪声是不受我们关注的背景 哪里有判断,哪里就有噪声,希望你现在也认同这一观点。我们也希望,对你而言这已不再是一件超乎想象的事。这也正是我们着手开展研究的主要动力。经过多年的努力,我们对这个问题的思考已经逐渐深入和完善。现在,来回顾一下我们已经了解的噪声成分、这些成分对噪声的重要影响以及它们在判断中所起的作用。 噪声成

    待学习
    开始阅读
  • 25

    第18章 卓越的判断者,卓越的判断力

    第18章 卓越的判断者,卓越的判断力 至目前为止,我们主要谈论的是人类的判断,而没有对不同的判断者进行区分。显然,在任何一项任务中,有些人做出的判断要优于其他人。即使是由群体做出的判断,如果该群体由高能力个体组成,那么最终的判断也会更优。这就引出了一个重要的问题,即如何甄别出更好的判断者。 有三件事至关重要。如果做判断的人受过良好的训练、更睿智且拥有正确的认

    待学习
    开始阅读
  • 26

    第19章 消除偏差与决策卫生

    第19章 消除偏差与决策卫生 许多研究人员和机构都力图减少判断偏差。在本章中,我们将分析他们的核心发现。我们将介绍消除偏差的各类干预措施之间的区别,并探讨其中一种值得进一步研究的干预措施。随后,我们将讨论如何减少噪声,并介绍决策卫生的概念。 干预:事后及事前消除偏差 减少偏差有两种主要方式,要描述它们的特点,一个好方法是回到测量类比。假设你家浴室里的体重秤在

    待学习
    开始阅读
  • 27

    第20章 司法科学,信息排序是最大的噪声

    第20章 司法科学,信息排序是最大的噪声 2004年3月,在西班牙首都马德里,一组被放置在通勤列车上的炸弹爆炸,造成192人死亡,2000多人受伤。人们在犯罪现场的塑料袋上发现了一枚指纹,并通过国际刑警组织将其传送到了世界各地的执法机构。几天后,美国联邦调查局(FBI)犯罪实验室最终确认这枚指纹属于一个居住在俄勒冈州的美国公民布兰登·梅菲尔德(Brandon

    待学习
    开始阅读
  • 28

    第21章 甄选与汇总,超级预测的两大策略

    第21章 甄选与汇总,超级预测的两大策略 许多判断都涉及预测,比如,下个季度的失业率可能是多少?明年将售出多少辆电动汽车?2050年的气候变化会带来什么影响?盖完一幢新楼需要多长时间?某家公司的年收入是多少?新员工会有什么样的表现?新的空气污染管理制度的成本是多少?谁将赢得选举?这些问题的答案会产生重大影响,因为私人机构和公共机构的一些重要选择往往取决于这些

    待学习
    开始阅读
  • 29

    第22章 医疗决策,用科学的诊断指南减少噪声

    第22章 医疗决策,用科学的诊断指南减少噪声 几年前,我们的一位好朋友保罗被他的主治医师琼斯诊断为患有高血压。琼斯医生建议保罗尝试药物治疗,他给保罗开了利尿剂,但保罗的血压依旧很高,也就是说药物没起到效果。几个星期后,琼斯又开了第二种药物——钙通道阻滞剂,但效果依然不理想。 这些结果使琼斯困惑不已。虽然过去的3个月保罗每星期都会来复诊,但他的血压只是略有下降

    待学习
    开始阅读
  • 30

    第23章 绩效评估,用基于外部视角的共识框架做出量化判断

    第23章 绩效评估,用基于外部视角的共识框架做出量化判断 让我们从一个练习开始:请选出3个你认识的人,他们可以是你的朋友或同事。请在友善、智慧和勤奋这3种特质上给他们进行1~5分的评分,其中1分是最低分,5分是最高分。现在再请另一个很了解他们的人(这个人可以是你的配偶、好友或者最亲密的同事)用同样的方式对这3个人进行评分。 在某些评估中,你和其他评分者很可能

    待学习
    开始阅读
  • 31

    第24章 人员招聘,以结构化指标衡量人才

    第24章 人员招聘,以结构化指标衡量人才 如果你曾经找过工作,那么“招聘面试”这个词可能会唤起你的一些生动而紧张的回忆。工作面试,即求职者与未来的主管或人力专员会面,是进入许多组织的必经之路。 在大多数情况下,面试遵循着既定的流程。在寒暄之后,面试官会要求应聘者描述他们的个人经历,或者详细地描述他们经历过的某些特定情形。再问一些诸如个人成就与挑战、工作动机以

    待学习
    开始阅读
  • 32

    第25章 中介评估法,做出明智决策的核心方法

    第25章 中介评估法,做出明智决策的核心方法 不久前,我们两个人(卡尼曼和西博尼)与我们的朋友丹·罗瓦洛(Dan Lovallo)一起,介绍过组织中使用的一种决策方法。这一方法的首要目的在于减少噪声,我们称之为中介评估法。该方法涵盖了我们前几章所介绍的大多数决策卫生策略,并且它的应用范围很广泛,只要在计划或选项的评估过程中需要考虑和权衡多维度信息,我们就可以

    待学习
    开始阅读
  • 33

    第26章 减少噪声的成本

    第26章 减少噪声的成本 每当我们建议人们消除噪声时,他们可能会以成本过高为由进行反对,并认为在极端情况下,减少噪声根本不可能。我们已经在商业、教育、政府以及其他领域听到过这种反对意见,这种观点虽然有一定的合理性,但言过其实了,或者只不过是一个借口。 为了证明我们的这种反对意见更有说服力,举一个高中老师为文章评分的例子。有位高中老师每星期都要对学生撰写的25

    待学习
    开始阅读
  • 34

    第27章 尊严,人之为人的重要价值观

    第27章 尊严,人之为人的重要价值观 设想如下三个场景:你申请房产抵押,但被拒绝,其原因并非有人实际考察了你的情况,而是因为银行有严格的规定,认为你这种信用等级的人不能申请房产抵押;你的条件很出色,而且一家公司的面试官也觉得你很不错,但你的求职申请被拒绝了,原因是15年前你曾被判刑,而该公司明令禁止录用任何有犯罪前科的人;你被判有罪,但不能被保释,这并非由于

    待学习
    开始阅读
  • 35

    第28章 规则还是标准

    第28章 规则还是标准 如果我们的目标是减少噪声和了解如何减少噪声(或在多大程度上减少噪声),那么我们就有必要区分两种约束行为的方式:规则和标准。很多组织通常会选择其中的一种,或将两者结合起来使用。 在商业领域,某家公司可能会有以下要求:员工必须在指定的时间内工作;每个人的休假时间不能超过两个星期;如果有人将公司的秘密泄露给媒体,那么他就会被解雇。我们也可以

    待学习
    开始阅读
  • 36

    回顾与总结 正视噪声问题

    回顾与总结 正视噪声问题 噪声是我们在做判断时不希望存在的变异,然而噪声实在太多了,本书的核心目标就在于解释为何会如此,以及我们应该如何应对噪声。本书涵盖的内容十分丰富,我们在这里仅从一个宽泛的视角来对书中的核心观点进行简要的回顾和总结。 判断不是计算,也无须遵循精确的规则 需要注意的是,不要把本书中的“判断”一词与“思考”一词混淆。判断是一个相对狭义的概念

    待学习
    开始阅读
  • 37

    结语 一个噪声很少的世界

    结语 一个噪声很少的世界 请想象一下,经过重新设计并减少了噪声的组织会是什么样子。医院、招聘委员会、经济预测机构、政府机构、保险公司、公共卫生机构、刑事司法系统、律师事务所和大学,都会对噪声问题保持警觉,并努力减少这些问题。噪声审查将会成为惯例,或许每年都能进行一次。 未来,组织的领导者将会在更多领域中使用算法来代替人类判断,或将其作为人类判断的补充。人们会

    待学习
    开始阅读
  • 38

    附录1 如何进行噪声审查

    附录1 如何进行噪声审查 附录1是一份关于如何进行噪声审查的实用指南。你可以以企业顾问的视角来阅读这部分内容,设想一下这家企业雇用你来对它的一个部门员工的专业决策进行噪声审查。 顾名思义,噪声审查的重点当然在于考察噪声的普遍性,然而,良好的噪声审查其实也能提供关于员工培训和工作监管中存在的偏差、盲点和缺陷的有价值信息。成功的审查有利于促进部门改革,包括改进专

    待学习
    开始阅读
  • 39

    附录2 决策观察者检查清单

    附录2 决策观察者检查清单 本附录给出了一份决策观察者(见第19章)检查清单的通用示例。这里提供的清单大致遵循做重要决策的时间顺序。 清单中每一项之后的参考问题都对相应的项目做了进一步说明。决策观察者在审视决策过程时应该问自己这些问题。 决策观察者不应照搬照抄这个清单。我们希望它发挥的作用是为决策观察者提供灵感和基准,并使决策观察者能够据此设计出适合自己的偏

    待学习
    开始阅读
  • 40

    附录3 对抗噪声,修正预测

    附录3 对抗噪声,修正预测 匹配性预测是我们依赖直觉式匹配过程而产生的错误(参见第14章)。当我们基于现有信息做预测时,我们会进行匹配性预测,就好像我们能够依据这些信息对结果做出完美的或准确率非常高的预测一样。 让我们来回顾一下朱莉的例子,她4岁就能流利地阅读,那么她在大学时的GPA会是多少呢?如果你预测朱莉在大学时的GPA是3.8,这就意味着你从直觉上判断

    待学习
    开始阅读
  • 41

    致谢

    我们要感谢很多人。林内亚·甘地(Linnea Gandhi)是我们的参谋长,她为我们提供了大量的指导和帮助,使我们的工作可以有条不紊地推进,让我们的工作充满欢声笑语。基本可以说,是她主持了本书的撰写。除此之外,她还为本书的初稿提出了许多宝贵建议,没有她,我们无法顺利完成本书。丹·罗瓦洛对成书也起到了非常重要的作用,本书的观点最初就源于他与人合著的一篇文章。我

    待学习
    开始阅读
  • 42

    译者后记

    汪祚军 中国科学院心理研究所博士,宁波大学教授 感谢编辑部独具慧眼,能够邀请中国科学院心理研究所李纾研究员领衔本书的翻译工作。李纾老师是国内最早从事行为决策研究的专家,在行为决策领域深耕数十年,其提出的“齐当别”决策模型在心理学界具有重要的影响力。作为行为决策领域的一名研究者、李纾老师曾经的博士生,能够参与本书的翻译工作,我深感荣幸。 在拿到本书的英文原书后

    待学习
    开始阅读
  • 43

    注释

    引言 偏差与噪声,人类判断的两类错误 射击场只是一种隐喻:1778年,瑞士数学家丹尼尔·伯努利(Daniel Bernoulli)在一篇关于评估问题的论文中使用弓和箭进行了相同的类比。Bernoulli, “The Most Probable Choice Between Several Discrepant Observations and the For

    待学习
    开始阅读

Local EPUB Text

第10章 无噪声的规则

第10章 无噪声的规则

近年来,人工智能(Artificial Intelligence)特别是机器学习技术让机器能够执行许多以前只有人类才能执行的任务。机器学习算法可以承担人脸识别、语言翻译、分析医学影像等任务,并且可以以惊人的速度和准确性来处理计算问题,例如为成千上万名驾驶员迅速规划行车路线。它们还可以执行困难的预测任务:预测美国最高法院的判决;识别哪些嫌疑人更可能在保释期逃脱;评估儿童保护部门接到的哪些电话更紧急,并需要工作人员上门访视。

尽管如今我们一听到“算法”一词,首先想到的是上面这些应用,但这个词还有更广泛的含义。在词典中,算法的定义是:在解决计算或其他问题时(尤其是借助计算机)所遵循的步骤或规则。根据这一定义,我们在上一章中所描述的简单模型和其他形式的机械性判断也属于算法。

事实上,从简单的规则到最复杂且难以理解的机器学习算法,许多机械性方法都可以胜过人类的判断。机械性方法之所以有这种出色表现,一个关键原因可能是所有机械性方法均无噪声,尽管这不是唯一的原因。

为了研究不同类型的基于规则的方法,并了解每种方法为何以及在何种条件下更有价值,我们从第9章的基于多元回归的简单模型(即线性回归模型)开始我们的旅程。由此出发,我们将在复杂性频谱上朝着两个相反的方向前进,首先从极端简捷的一端开始,然后朝着逐渐复杂的方向前进(见图10-1)。

图10-1 4类规则和算法的相对复杂性

简捷:稳定之美

罗宾·道斯(Robyn Dawes)是20世纪六七十年代美国俄勒冈州尤金市研究人类判断行为的团队中的另一位明星成员。1974年,道斯在简化预测任务方面取得了突破。他的研究思路令人惊讶:他建议不要使用多元回归模型来确定每个预测因素的精确权重,而应给所有预测因素分配均等的权重。

道斯将均等权重的公式定义为“非最适线性模型(improper linear model)。他出人意料地发现,这些均等权重模型(equal-weight models)的准确性与合适的回归模型差不多,且远胜于诊断性判断。

连“并非最合适的模型”的支持者也承认,这种说法是不可信的,并且与统计直觉相悖。的确,道斯及其助手伯纳德·科里根(Bernard Corrigan)最初曾努力将论文发表在学术期刊上,但是编辑们根本不认同。如果回顾一下上一章中的莫妮卡和娜塔莉的例子,你就会相信某些预测因素比其他预测因素更重要。例如,相比于职业技能,大多数人会给予领导力更高的权重。因此,简单的未加权平均值怎么可能比精细加权的平均值或专家判断更好地预测一个人的表现呢?

在道斯取得研究突破多年后的今天,人们已经很熟悉这种令其同时代人惊讶的统计现象。正如前文所解释的那样,多元回归模型计算出了最佳权重,从而使均方误差最小化,而多元回归使原始数据中的误差最小化,因此,公式会自行调整以便预测数据中的每个偶然因素。例如,如果样本中包含一些具有较高职业技能但是由于不相关原因而表现异常出色的经理,该模型就将增加职业技能的权重。

这其中的挑战是:当将公式应用于样本之外时,也就是用它预测不同数据集的结果时,这些权重将不再是最优的。原始样本中的偶然因素不再存在,因为它们是“偶然因素”。在新样本中,具有较高职业技能的经理并不会都表现出色,而且新样本中具有原公式无法预测的新因素。要衡量模型预测的准确性,正确的做法是观察它在新样本中的表现,也就是观察它的“交叉验证相关性”(cross-validated correlation)。事实上,回归模型在原始样本上过于出色,因此交叉验证相关性的表现几乎总是比它在原始样本中的表现差。道斯和科里根在几种情况下对均等权重模型和多元回归模型(交叉验证后)进行了比较。他们采用的一个案例就是预测伊利诺伊大学90名心理学研究生第一年的GPA,使用的是与学业成就相关的10个变量,如能力测试分数、大学成绩、各种同龄人评分(peer ratings,如外向性)以及各种自评(如责任心)等。标准多元回归模型的预测相关系数为0.69,经过交叉验证后降至0.57(PC=69%);均等权重模型与第一年GPA预测的相关系数与此大致相同,为0.6(PC=71%)。许多其他研究也得到了相似的结果。

当原始样本较小时,经过交叉验证后,准确性会降低更多,因为小样本的偶然性多,变异性较大。道斯指出,社会科学研究中通常使用小样本,以致所谓的最佳权重的优势消失殆尽。正如统计学家霍华德·怀纳(Howard Wainer)在一篇研究最适当权重估值的学术论文中所使用的副标题:它并不重要。用道斯的话说,“我们不需要比我们的测量更精确的模型”。均等权重模型之所以表现出色,是因为它不容易受样本中偶然因素的影响。

道斯的研究的直接理论成果值得广为人知:即使你缺少有关结果先前的数据,你也可以进行有效的统计预测,只需收集一些你认为与预测结果相关的预测因素即可。

假设你必须对已经在多个维度上获得评分的高管的绩效做出预测,如第9章中高管的例子所示。你相信这些评分有很强的预测力,但是你没有每个评分预测的准确性数据。你也不可能花费几年的时间来追踪大量管理人员的绩效情况,但是,你可以基于这7个评分的均等权重模型来做预测。那么,这个均等权重模型的预测效果如何呢?它与结果的相关系数将为0.25(PC=58%),远优于诊断性预测——相关系数为0.15(PC=55%),并且肯定与交叉验证后的回归模型非常相似,也不需要任何你没有的数据或任何复杂的计算。

用道斯的话说,均等权重模型具有“稳定之美”。研究判断的学生已对这句话达成共识。介绍这一观点的开创性文章的最后一句话给出了另一个精妙的总结:“应用均等权重模型所需的全部技巧是决定要关注哪些变量,并知道如何将这些变量进行叠加。”

更简捷:简约模型

另一种简化的方式是采用简约模型(frugal models)或简单规则。简约模型是对现实进行极端简化并无须复杂计算的模型,但在某些情况下,它们可以产生令人惊叹的预测效果。

令很多人感到惊讶的是,这些模型是基于多元回归的一个特征建立的。假设你使用了两个准确性很高的预测因素,它们与结果的相关系数分别为0.6(PC=71%)和0.55(PC=69%),且这两个预测因素彼此相关,相关系数为0.5。当将这两个预测因素进行最佳组合时,预测的准确性会有多好呢?答案令人失望,相关系数是0.67(PC=73%),这个结果比之前好,但并没有好太多。

该示例说明了一条一般性规则:将两个或多个相关预测因素组合后,预测效果相比于单个预测因素并不会好多少。因为在现实生活中,预测因素几乎总是相关的,所以这一统计事实支持使用包含少量预测因素的简约模型进行预测。与使用很多预测因素的模型相比,简单规则只需少量计算或根本无须计算,就能在某些情况下达到令人吃惊的预测效果。

一个研究团队于2020年发表了一项研究成果。他们将简约模型应用于一系列现实问题,内容包括在案件待审期间法官是否该批准被告的保释申请。这项决策隐含着对被告行为的预测,如果错误地拒绝保释,被告将被不必要地拘押,从而对个人和社会造成巨大损失;如果错误地批准保释,则被告可能在受审前逃脱,甚至犯下其他罪行。

研究人员仅使用两个可高度预测被告在保释期逃脱可能性的已知变量来建立模型:被告的年龄(年龄越大,逃脱风险较低)和未按时出庭受审的次数(有未按时出庭受审记录的人,更可能逃脱)。该模型将这两个变量转换为一系列分数,并针对风险进行评分,在计算被告保释期逃脱的风险时无须使用计算机,甚至不需要计算器。

当用真实数据来测试时,该简约模型的表现与那些使用众多变量的统计模型一样好,而在预测逃脱风险方面,简约模型比几乎所有法官的判断都要好。同样的简约模型采用少数几个整数(-3~+3)对最多5个特征进行评分,并以此来对各种任务进行预测,如基于乳房X线片判断肿瘤的严重程度、诊断心脏病、预测信用风险等。在所有这些任务中,简约模型的表现都与复杂回归模型一样好,只不过它通常不如机器学习模型的表现好。

另一项研究也证明了简约模型的有效性。另外一个研究小组研究了一个与上述案例相似但有所不同的司法问题:预测惯犯。研究人员在评估被告再次犯罪的风险时,使用的模型只有两个输入变量,但该模型的预测效果与使用137个变量的模型相同。毫无疑问,这两个预测因素(年龄和先前被定罪的次数)与保释模型中使用的两个因素密切相关,而大量证据表明,它们与犯罪行为也是紧密相关的。

简约模型的吸引力在于其透明性和易用性,而且相比于其他复杂模型,它只需略微牺牲一点准确性就能获得这些优势。

更复杂:机器学习

在旅程的第二部分,让我们在复杂性频谱上朝相反的方向前进。如果我们可以使用更多预测因素,收集更多数据,发现前人未发现的关系模式,并对这些模式进行建模以实现更好的预测效果,那会如何呢?从本质上讲,这就是人工智能的目的。

海量数据集对复杂分析至关重要。而获得此类数据集越来越容易,是近年来人工智能快速发展的主要原因之一。例如,大型数据集可以机械地处理“断腿的例外”(broken-leg exceptions)这种情况。这个有点神秘的短语可以追溯到前文中梅尔假想的一个示例:设想有这样一个模型,它可以预测人们今晚去看电影的可能性,无论你对该模型有多大信心,如果你碰巧知道某人刚摔断了腿,你都可能会比模型更准确地预测他今晚是否会去看电影。

在使用简单模型时,“断腿原则”给决策者提供了重要启示:它告诉人们何时需推翻模型,何时则不需要这样做。如果你掌握了模型未考虑的如“断腿”这样的决定性信息,你就应该推翻模型的建议。此外,即使你缺少此类信息,有时你也不会同意模型的建议。在这种情况下,你试图推翻模型的行为,反映了你对相同预测因素做出反应的个人模式。这种个人模式很可能是无效的,你的干预可能会降低预测的准确性,因此你应该避免推翻模型。

机器学习模型之所以能够在预测方面表现出色,其中一个原因就是,它们能够发现人类所无法想象的各种“断腿”情况。在具有大量案例、海量数据的条件下,追踪观影行为的模型真的会学习,例如在固定观影日去了医院的人当晚不太可能去看电影。可以说,以这种方式改进对不常见事件的预测,可减少对人工监督的需求。

人工智能不是魔法,也不需要理解什么,它仅仅是在识别模式。虽然我们必须佩服机器学习的力量,但我们也要明白,人工智能可能要花很长时间才能理解为什么断腿之人会错过电影之夜。

更明智的保释决策

在前面提到的研究团队将简单规则应用于保释决策问题的同时,由塞德希尔·穆来纳森(Sendhil Mullainathan)(6)领导的另一个团队训练了复杂的人工智能模型来执行相同的任务。研究团队获得了更大的数据集——包含758 027个保释裁定的案例库。对于每种情况,研究团队可以获得和法官一样的信息:被告的罪行、犯罪记录、未按时出庭受审的次数等。除年龄外,参与训练的算法没有其他任何人口统计学信息适合使用。对于每一起案件,研究人员还知道关于被告是否被释放,以及他如果被释放,之后是否会按时出庭或被重新逮捕(被告中有74%的人获得保释,其中15%的人在那之后没有按时出庭,26%的人则被重新逮捕)的信息。研究人员利用这一数据来训练一个机器学习算法,并评估了该算法的表现。该模型是通过机器学习构建的,因此并不限于线性组合。如果它在数据中检测到更复杂的规律,它就会使用此模式来改进预测。

该模型用于预测嫌疑人在保释期逃脱的风险,因此将风险量化为数字,而非只产生是否准予保释的决定。这种方法确定了最大可接受风险的阈值,即如果风险高于该阈值,就应该拒绝保释。然而,研究人员发现,无论如何设置风险阈值,使用该模型的预测得分都高于法官的预测。穆来纳森的团队计算得出,如果将风险阈值设置为一个值,使模型预测的拒绝保释人数与法官判决的拒绝保释人数相同,则犯罪率最多可降低24%,个中原因在于,被关押的人最有可能再次犯罪。相反,如果将风险阈值设置为使该模型在不提高犯罪率的情况下,尽可能减少被拒绝保释的人数,则研究人员计算得出,被羁押的人数最多可再减少42%。换句话说,机器学习模型在预测哪些被告属于犯罪高风险人群方面,表现要比法官好得多。

利用机器学习建立的模型,也比使用相同信息的线性模型成功得多,原因很有趣:机器学习算法在变量组合中发现了一些会被线性模型遗漏的重要信息。算法能对风险最高的被告进行归类,就证明它有能力找到很容易被其他模型忽略的模式。换句话说,数据中的某些模式尽管很少见,却非常准确地预测出了高风险人群。利用算法找到罕见但具有决定性作用的模式,让我们想起了“断腿”的概念。

研究人员还使用该算法为每位法官构建了模型,类似于我们在第9章中描述的判断模型(但不限于简单线性组合)。他们将这些模型应用于整个数据集,使团队能够模拟法官在遇到相同案件时可能做出的判决,并比较这些判决。结果表明,保释裁定中存在相当大的系统噪声,其中一些是水平噪声:根据宽容程度对法官进行分类时,20%最宽容的法官(即保释率最高的前20%的法官)准予保释的概率为83%,而20%最严厉的法官准予保释的概率为61%。法官对于哪些被告具有较高逃脱风险的判断方式也大不相同,被一位法官视为具有低逃脱风险的被告,可能被另一位更严厉的法官视为具有高逃脱风险。这些结果为模式噪声提供了清晰的证据。更详细的分析表明,案例之间的变异占总变异的67%,系统噪声占33%。系统噪声包括一些水平噪声,即平均严厉程度之间的差异,但其中大多数(79%)是模式噪声。

幸好,机器学习程序的高准确性并不以牺牲法官追求的其他目标,如种族平等为代价。从理论上讲,尽管该算法不使用种族相关数据,但它也可能会无意间加剧种族歧视。如果模型使用与种族信息高度相关的预测因素(如邮政编码),或是用于算法训练的数据源暗含偏见,则可能会出现种族歧视。例如,如果将过去的逮捕次数作为预测因素,而过去的逮捕次数受到种族歧视的影响,那么得到的算法也会存在歧视问题。

尽管从原则上讲,这种歧视无疑是一种风险,但在一些重要层面,该算法所做出的决策比法官群体中存在的种族歧视要轻微。例如,如果通过设置风险阈值使犯罪率与法官判决的犯罪率相同,则该算法可将有色人种被判入狱的概率减少41%。在其他情况下,算法也得出了类似的结果,即提高准确性不必以加剧种族歧视为代价。正如研究小组所指出的:通过训练,该算法很容易用于减少种族歧视。

另一项不同领域的研究阐述了算法如何在提高准确性的同时减少歧视。哥伦比亚商学院教授博·考吉尔(Bo Cowgill)考察了一家大型科技公司招聘软件工程师的情况。考吉尔并未使用人工筛选简历的方式来筛选可进入面试流程的人,而是基于该公司收到并评估过的超过30万份简历,来训练机器学习算法进行筛选。该算法选出的候选人比人工筛选的候选人被录取的可能性要高14%。当候选人收到录取通知后,算法组筛选出来的候选人,比人工组筛选出的候选人接受工作机会的可能性要高18%。该算法还根据种族、性别和其他指标选择了一组更加多样化的候选人,而它更有可能选择“非传统”候选人,例如非名校毕业生、缺乏相关工作经验以及没有推荐信的候选人。在筛选软件工程师的简历时,人们通常倾向于选择符合这一群体所有典型特征的人,而该算法则为每个相关预测因素赋予了适当的权重。

需要明确的是,这些例子并不能证明算法始终是公平、无偏见和非歧视的。大家比较熟悉的一个例子是:一个用于预测求职者能否通过面试的算法,实际上是根据过去的晋升决策数据训练出来的,因此,这种算法必然会重蹈过去晋升决策中人类所有偏差的覆辙。

构建一个使种族或性别不平等持续存在的算法,不仅是可能的,而且十分容易做到。许多算法已做到了这一点。这些例子表明,人们越来越关注算法决策中的偏见,但是,在得出关于算法的一般性结论之前,我们应当记住:某些算法不仅比人类判断更准确,而且也更公平。

为什么我们不更多地利用规则

通过这一简短的机械性决策之旅,我们总结出,各种规则之所以会超越人类判断,有两个原因。首先,如第9章所述,不仅仅是最新的和更为复杂的技术,所有机械性预测技术都能显著改善人类的判断。个性化的模式和情境噪声的结合会极大地影响人类判断的品质,因为简单的规则和无噪声是提高决策品质的关键。明智的简单规则比人类的判断要好很多。

其次,当数据足够丰富时,我们可以用复杂的人工智能技术找出有效的模式,并使其预测力远超简单模型。这些模型相对于人类判断的优势在于,它们不仅没有噪声,而且还具有利用更多信息的能力。

既然算法具有如此多的优点,得到大量证据的支持,那么为什么我们在本书中讨论的各种类型的专业判断,没有广泛地使用算法呢?尽管对算法和机器学习的讨论很热烈,但人们对它们的使用仍然很有限(一些特定领域除外)。许多专家不关心诊断性判断与机械性判断孰优孰劣,而是相信自己的判断。他们对自己的直觉充满信心,并对机器能否做得更好持怀疑的态度。他们将算法决策视为不人道的,认为使用算法是一种放弃责任的表现。

尽管算法决策已取得了令人瞩目的进步,但是在诸如医学诊断等领域,使用算法仍然不是惯常的做法,也很少有企业在招聘和晋升决策中使用算法。好莱坞电影制作公司的高管们是根据自己的经验判断而非公式来选择拍摄哪部电影的;图书出版商也在做同样的事情。而且,正如迈克尔·刘易斯(Michael Lewis)的畅销书《点球成金》(Moneyball)所讲述的那样,人们之所以对痴迷于统计的奥克兰田径队的故事印象深刻,恰恰是因为算法在运动团体中的运用是一种例外而非常规。即使在今天,教练、经理人以及与他们共事的其他人通常也更相信自己的直觉,并坚持认为统计分析不可能取代人类自身良好的判断力。

梅尔和他的合著者在1996年的一篇论文中,列举了精神科医生、医师、法官和其他专业人士反对机械性判断的至少17种理由,并对这些理由进行了驳斥。他们得出的结论是,需要结合社会心理因素来解释临床医生对这类判断的排斥,这些因素包括“对技术性失业的恐惧”“了解不足”和“对计算机的普遍厌恶”。

从那时起,研究人员已经确定了导致这种排斥的其他因素。我们不打算在这里对该研究进行完整的回顾,本书的目标是为改善人类判断提供建议,而不是像弗兰克尔法官那样,主张“用机器取代人类”。

但是,关于哪些因素会导致人类抵触机械性预测,其中的一些发现与我们对人类判断的讨论有关。最近的一项研究得出了一个重要观点:人们对算法并非全盘否定。例如,当从人类的建议和算法的建议之间进行选择时,人们通常会选择后者。对算法的抵制或厌恶并不代表一味地拒绝采用新的决策支持工具,人们愿意给算法机会,而一旦发现它会犯错误,就不会再信任它。

这种反应似乎是明智的:为什么要在你不信任的算法上浪费精力呢?作为人类,我们敏锐地意识到自己会犯错误,但这是我们不准备分享的特权,我们希望机器是完美的,如果机器不完美,那就丢弃它。

由于存在这种直觉性的期望,人们仍可能不信任算法,而继续相信自己的判断力,即使自己的判断明显不尽如人意。这种态度是根深蒂固的,除非算法能够达到近乎完美的预测准确性,否则这是不可能改变的。

幸好,可改进规则和算法的相关因素同样可用于改善人类的判断。我们不能奢望能够像人工智能模型一样有效地利用信息,但是至少可以努力模仿简单模型的简单性和无噪声性。在一定程度上,我们可以采用减少系统噪声的方法来提高预测判断的品质。如何改善我们的判断力是本书第五部分的主题。