学习进度

0%

阅读时长

未满 1 分钟

最近阅读:未开始阅读

核心概念

待提炼

章节学习

  • 1

    献词

    献给诺加、奥里和吉利 ——丹尼尔·卡尼曼 献给范丁和莱莉亚 ——奥利维耶·西博尼 献给萨曼莎 ——卡斯·R.桑斯坦

    待学习
    开始阅读
  • 2

    重磅赞誉

    从“偏差”到“噪声”,作为心理学家的卡尼曼,挑战的是经济学的“理性人”假设,并因开启了行为经济学的大门而获得诺贝尔经济学奖。他一直关注的是人类在决策中是如何犯错的,在这本书中,他深入分析了噪声的影响,但也乐观地预期,可以通过发掘埋没在大数据中的信息来减少决策中的噪声,这可以说是大数据渗透到行为经济学领域的新趋势。 巴曙松 北京大学汇丰金融研究院执行院长,中国

    待学习
    开始阅读
  • 3

    测一测 如何做一个聪明的决策者?

    测一测 如何做一个聪明的决策者? 想知道你的判断 是怎么掉入噪声陷阱的吗? 扫码测一测, 立即获取答案及解析, 看看你的“降噪等级”。 1.卡尼曼是世界上第一个凭借心理学研究获得诺贝尔经济学奖的人。这个说法对吗? A.对 B.不对 2.卡尼曼指出:人类判断出错的原因有两种。一种是偏差,另一种是什么呢? A.误差 B.噪声 C.系统认知 3.在做一个判断时,以

    待学习
    开始阅读
  • 4

    推荐序1 在无法回避噪声的世界,更好地追求高级境界与极致效益

    推荐序1 Preface 在无法回避噪声的世界, 更好地追求高级境界与极致效益 彭凯平 清华大学社会科学学院院长 每年七八月份,我都会参加清华大学的本科生招生工作,由此而目睹了一个问题:高考揭榜之后,高中毕业生及其家长应如何做好志愿填报?学校和专业的选择非常重要,很有可能会决定一个学生一辈子的命运,其中牵涉的问题就与我们心理学中一个重要的研究领域紧密相关,那

    待学习
    开始阅读
  • 5

    推荐序2 穿越噪声的决策

    推荐序2 Preface 穿越噪声的决策 朱宁 上海交通大学上海高级金融学院金融学教授,副院长 我抱着浓厚的兴趣读完了诺贝尔经济学奖得主丹尼尔·卡尼曼教授等的新作《噪声》一书,这本书汇集了卡尼曼教授近十年的最新发现。对于我所从事的行为金融学研究领域而言,《噪声》算得上是一本“专业书”,但是读完之后,我认为它很可能是卡尼曼教授继《思考,快与慢》后,又一次成功将

    待学习
    开始阅读
  • 6

    中文版序 哪里有判断,哪里就有噪声

    中文版序 Preface 哪里有判断,哪里就有噪声 我们非常荣幸,也非常感激,能够在中国出版这本书。《噪声》重点关注人类的判断,关注它是如何出错的,以及如何让它变得更好。无论是医学、法律、公共政策、商业,还是日常生活领域中,我们做出判断的过程中存在的问题,是偏好根据经验做判断的人类的共性问题。 数十年来,偏差问题备受瞩目。在《思考,快与慢》一书中,本书的作者

    待学习
    开始阅读
  • 7

    引言 偏差与噪声,人类判断的两类错误

    引言 Introduction 偏差与噪声,人类判断的两类错误 试想一下,你的朋友组成了A、B、C、D共4支队伍,来到一个射击场。每队中有5个人,他们共用一支来复枪,且每人只开了一枪。图0-1显示了他们的射击结果。 图0-1 4支队伍的射击结果 理想情况是,每一枪都能正中靶心。 A队几乎达到了理想情况,他们的每一发子弹都紧紧围绕着靶心,接近完美模式。 B队的

    待学习
    开始阅读
  • 8

    第1章 犯罪和充满噪声的判罚

    第1章 犯罪和充满噪声的判罚 假设某人被指控犯了罪,例如到商店行窃、私藏海洛因、袭击他人或持枪抢劫,该案件可能的判决结果是什么? 答案不应取决于该案件恰巧被指派给哪位法官、天气是冷是热,以及当地球队在前一天是输是赢。如果3个背景类似的人被指控犯有同一罪行,最后却得到截然不同的处罚,例如第一个人被判缓刑,第二个人被判2年有期徒刑,最后一个人被判10年有期徒刑,

    待学习
    开始阅读
  • 9

    第2章 系统噪声,给人达成一致的错觉

    第2章 系统噪声,给人达成一致的错觉 我们最初接触噪声,并对这个主题产生兴趣,并不是因为遇到了像刑事司法案件那般富有戏剧性的案例。实际上,这次邂逅纯属偶然,缘于一家保险公司,这家公司与我们中的两人所属的咨询公司有合作。我们的研究揭示了营利性组织中存在噪声问题的严重性——组织会因为决策中的噪声损失惨重。我们在保险公司的经历有助于解释为什么噪声问题常常被忽视,以

    待学习
    开始阅读
  • 10

    第3章 单一决策,仅发生一次的重复决策

    第3章 单一决策,仅发生一次的重复决策 到目前为止,我们所讨论的案例研究都与重复决策相关。比如,对盗窃犯的恰当判决是什么?对某一特定风险该收取多少保费?虽然每个具体的案例在某种意义上都是独特的,但像这样的判断属于重复决策。医生诊断患者,法官审理假释案件,招生人员审查入学申请书,会计师准备税单等,这些都是重复决策。 正如前一章所介绍的,重复决策中的噪声可以通过

    待学习
    开始阅读
  • 11

    第4章 什么是判断

    第4章 什么是判断 本书论述的是一般意义上的专业判断,我们假设如果做判断的人有足够的能力,就能做出准确的判断。然而,判断这一概念本身包含着一个你不得不承认的事实:你永远无法确定一个判断是不是准确。 请思考“判断问题”和“主观判断”这两个短语的差别。我们认为“太阳明天会升起”或“NaCl是氯化钠的化学式”这样的陈述并非判断,因为任何理性的人都会完全同意上述观点

    待学习
    开始阅读
  • 12

    第5章 测量误差,噪声与偏差的代价一样大

    第5章 测量误差,噪声与偏差的代价一样大 显而易见的是,一致性的偏差会引发代价高昂的错误。如果体重秤在你每次称体重时都自动加上一定的重量,如果一位乐观的经理总是预测项目只需花费实际所需时间的一半,如果一位谨小慎微的经理总是年复一年地低估未来的销售额,那么后果都将会非常严重。 我们已经知道,噪声会引发代价高昂的错误。如果一位经理大多数时候预测的项目所需时间只是

    待学习
    开始阅读
  • 13

    第6章 噪声分析:所有判断都存在3类噪声

    第6章 噪声分析:所有判断都存在3类噪声 在上一章,我们讨论了单个案例中测量或判断的变异性。在单个案例中,判断的所有变异性都是误差,而误差由偏差和噪声组成。我们考察的判断系统,包括法院和保险公司的判断系统,它们的目的在于处理不同案例,并对这些案例进行区分。如果美国的联邦法官和保险理赔员对他们手头的所有案例都做出相同的判断,那他们就没有什么存在的价值了。对不同

    待学习
    开始阅读
  • 14

    第7章 情境噪声,无时无刻不在影响着我们的判断

    第7章 情境噪声,无时无刻不在影响着我们的判断 想象一名职业篮球运动员正在准备罚球的场景:他站在罚球线上,全神贯注地准备投篮。这是他练习过无数次的一系列动作,他能投中吗?我们无法预知结果。 在NBA的比赛中,球员们通常能够4罚3中。显然,一些球员比其他球员表现得更好,但没有人能做到百发百中(3)。虽然篮筐一直都是距离地面3.05米,与罚球线的垂直距离一直是4

    待学习
    开始阅读
  • 15

    第8章 群体是如何放大噪声的

    第8章 群体是如何放大噪声的 个体判断中存在噪声的结果已经很糟糕了,但群体决策中的噪声危害更甚。群体决策可能会由于一些无关因素而朝任何一个方向改变。谁先发言、谁后发言,谁说话更自信,谁穿着黑色衣服,谁和谁挨着坐,谁在某个时刻笑了/皱眉了/呈现出其他身体姿势……所有这些因素都会影响结果。相似的群体每一天都会做出各种不同的决策,如雇用、晋升、破产、沟通策略、环境

    待学习
    开始阅读
  • 16

    第9章 判断与模型,简单的模型普遍优于人类判断

    第9章 判断与模型,简单的模型普遍优于人类判断 很多人都对预测未来的工作绩效感兴趣,不只是自己的,还有别人的。因此,绩效预测是用来考察预测性判断的实用例子。例如,一家大公司在招聘高管时,聘请了一家专业咨询公司对两名候选人莫妮卡和娜塔莉进行评估,并以取值为1~10分的量表对两人的领导力、沟通能力、人际交往能力、职业技能、应聘动机等维度进行打分(见表9-1)。你

    待学习
    开始阅读
  • 17

    第10章 无噪声的规则

    第10章 无噪声的规则 近年来,人工智能(Artificial Intelligence)特别是机器学习技术让机器能够执行许多以前只有人类才能执行的任务。机器学习算法可以承担人脸识别、语言翻译、分析医学影像等任务,并且可以以惊人的速度和准确性来处理计算问题,例如为成千上万名驾驶员迅速规划行车路线。它们还可以执行困难的预测任务:预测美国最高法院的判决;识别哪些

    待学习
    开始阅读
  • 18

    第11章 哪里有预测,哪里就有客观无知

    第11章 哪里有预测,哪里就有客观无知 我们经常同一些公司高管分享第9章和第10章中的研究内容,并通过发人深省的发现让他们意识到人类的判断是有限的。这些发现已经存在了半个多世纪,应该很少有人能避开它们,但人们仍然对这些发现很抵触。 在我们的听众里,有一些高管会很自豪地告诉我们,相比于定量分析,他们更相信自己的直觉;其他人虽然没明说,但他们也有同样的看法。有关

    待学习
    开始阅读
  • 19

    第12章 常态谷:事情虽无法预测,但可以被理解

    第12章 常态谷:事情虽无法预测,但可以被理解 现在我们来考虑一个更大的问题:在这个世界上,有些问题容易解决,有些问题却充满了客观无知,那我们应如何自处呢?毕竟,在存在很严重的客观无知的情况下,我们很快就能意识到,用水晶球来预测未来是徒劳的,但我们通常并不会对这个世界产生这种体验。相反,正如上一章所提到的,我们一直在基于少量的有用信息来对未来做出大胆预测。在

    待学习
    开始阅读
  • 20

    第13章 启发式、偏差与噪声

    第13章 启发式、偏差与噪声 本书是对横跨半个世纪的关于人类直觉判断研究的延续,也就是所谓的“启发式和偏差研究项目”(heuristics and biases program)。《思考,快与慢》一书对该研究项目前40年的研究内容进行了回顾,探讨了能够解释“直觉思维的奇妙与缺陷”的心理机制。该项目的核心思想是,当回答一个难题时,人们会使用简化的思维操作系统—

    待学习
    开始阅读
  • 21

    第14章 匹配,找到与你的预测最精准匹配的共识

    第14章 匹配,找到与你的预测最精准匹配的共识 现在请看向天空,你认为两小时内下雨的可能性有多大?你可能很容易就答出了这个问题。你做出判断时毫不费力。你可能在不知不觉中就把对天空黑暗程度的评估转换成了概率判断。 你刚刚做的事就是一种典型的“匹配”(matching)。我们将判断描述为一种思维操作,该思维操作会为主观印象或印象的某个方面在量表上找到对应的值。匹

    待学习
    开始阅读
  • 22

    第15章 选取精确的量表,并多用相对判断

    第15章 选取精确的量表,并多用相对判断 假设你是民事审判案件中的一名陪审员。你目前所掌握的证据大致如下,你要据此做出判断。 琼·格洛弗(Joan Glover)诉General Assistance公司案 一个名叫琼·格洛弗的6岁小女孩吞下了大量非处方抗过敏药AllerFree,需要住院治疗很长时间。大剂量的药物使她的呼吸系统变得很脆弱,因此她很容易患上哮

    待学习
    开始阅读
  • 23

    第16章 模式噪声的构成

    第16章 模式噪声的构成 还记得朱莉吗?我们在第14章中提到的那个早慧的孩子。你曾尝试预测她的大学GPA。以下是有关朱莉的详细介绍。 朱莉是独生女。她的父亲是一位事业有成的律师,母亲是一位建筑师。朱莉大约3岁时,她的父亲患上了一种自体免疫性疾病,不得不居家办公。他花大量的时间陪伴朱莉,并耐心地教她读书识字。朱莉4岁时就能流畅地阅读。她的父亲也曾尝试教她算术,

    待学习
    开始阅读
  • 24

    第17章 噪声源,偏差是引人注目的图形,而噪声是不受我们关注的背景

    第17章 噪声源,偏差是引人注目的图形,而噪声是不受我们关注的背景 哪里有判断,哪里就有噪声,希望你现在也认同这一观点。我们也希望,对你而言这已不再是一件超乎想象的事。这也正是我们着手开展研究的主要动力。经过多年的努力,我们对这个问题的思考已经逐渐深入和完善。现在,来回顾一下我们已经了解的噪声成分、这些成分对噪声的重要影响以及它们在判断中所起的作用。 噪声成

    待学习
    开始阅读
  • 25

    第18章 卓越的判断者,卓越的判断力

    第18章 卓越的判断者,卓越的判断力 至目前为止,我们主要谈论的是人类的判断,而没有对不同的判断者进行区分。显然,在任何一项任务中,有些人做出的判断要优于其他人。即使是由群体做出的判断,如果该群体由高能力个体组成,那么最终的判断也会更优。这就引出了一个重要的问题,即如何甄别出更好的判断者。 有三件事至关重要。如果做判断的人受过良好的训练、更睿智且拥有正确的认

    待学习
    开始阅读
  • 26

    第19章 消除偏差与决策卫生

    第19章 消除偏差与决策卫生 许多研究人员和机构都力图减少判断偏差。在本章中,我们将分析他们的核心发现。我们将介绍消除偏差的各类干预措施之间的区别,并探讨其中一种值得进一步研究的干预措施。随后,我们将讨论如何减少噪声,并介绍决策卫生的概念。 干预:事后及事前消除偏差 减少偏差有两种主要方式,要描述它们的特点,一个好方法是回到测量类比。假设你家浴室里的体重秤在

    待学习
    开始阅读
  • 27

    第20章 司法科学,信息排序是最大的噪声

    第20章 司法科学,信息排序是最大的噪声 2004年3月,在西班牙首都马德里,一组被放置在通勤列车上的炸弹爆炸,造成192人死亡,2000多人受伤。人们在犯罪现场的塑料袋上发现了一枚指纹,并通过国际刑警组织将其传送到了世界各地的执法机构。几天后,美国联邦调查局(FBI)犯罪实验室最终确认这枚指纹属于一个居住在俄勒冈州的美国公民布兰登·梅菲尔德(Brandon

    待学习
    开始阅读
  • 28

    第21章 甄选与汇总,超级预测的两大策略

    第21章 甄选与汇总,超级预测的两大策略 许多判断都涉及预测,比如,下个季度的失业率可能是多少?明年将售出多少辆电动汽车?2050年的气候变化会带来什么影响?盖完一幢新楼需要多长时间?某家公司的年收入是多少?新员工会有什么样的表现?新的空气污染管理制度的成本是多少?谁将赢得选举?这些问题的答案会产生重大影响,因为私人机构和公共机构的一些重要选择往往取决于这些

    待学习
    开始阅读
  • 29

    第22章 医疗决策,用科学的诊断指南减少噪声

    第22章 医疗决策,用科学的诊断指南减少噪声 几年前,我们的一位好朋友保罗被他的主治医师琼斯诊断为患有高血压。琼斯医生建议保罗尝试药物治疗,他给保罗开了利尿剂,但保罗的血压依旧很高,也就是说药物没起到效果。几个星期后,琼斯又开了第二种药物——钙通道阻滞剂,但效果依然不理想。 这些结果使琼斯困惑不已。虽然过去的3个月保罗每星期都会来复诊,但他的血压只是略有下降

    待学习
    开始阅读
  • 30

    第23章 绩效评估,用基于外部视角的共识框架做出量化判断

    第23章 绩效评估,用基于外部视角的共识框架做出量化判断 让我们从一个练习开始:请选出3个你认识的人,他们可以是你的朋友或同事。请在友善、智慧和勤奋这3种特质上给他们进行1~5分的评分,其中1分是最低分,5分是最高分。现在再请另一个很了解他们的人(这个人可以是你的配偶、好友或者最亲密的同事)用同样的方式对这3个人进行评分。 在某些评估中,你和其他评分者很可能

    待学习
    开始阅读
  • 31

    第24章 人员招聘,以结构化指标衡量人才

    第24章 人员招聘,以结构化指标衡量人才 如果你曾经找过工作,那么“招聘面试”这个词可能会唤起你的一些生动而紧张的回忆。工作面试,即求职者与未来的主管或人力专员会面,是进入许多组织的必经之路。 在大多数情况下,面试遵循着既定的流程。在寒暄之后,面试官会要求应聘者描述他们的个人经历,或者详细地描述他们经历过的某些特定情形。再问一些诸如个人成就与挑战、工作动机以

    待学习
    开始阅读
  • 32

    第25章 中介评估法,做出明智决策的核心方法

    第25章 中介评估法,做出明智决策的核心方法 不久前,我们两个人(卡尼曼和西博尼)与我们的朋友丹·罗瓦洛(Dan Lovallo)一起,介绍过组织中使用的一种决策方法。这一方法的首要目的在于减少噪声,我们称之为中介评估法。该方法涵盖了我们前几章所介绍的大多数决策卫生策略,并且它的应用范围很广泛,只要在计划或选项的评估过程中需要考虑和权衡多维度信息,我们就可以

    待学习
    开始阅读
  • 33

    第26章 减少噪声的成本

    第26章 减少噪声的成本 每当我们建议人们消除噪声时,他们可能会以成本过高为由进行反对,并认为在极端情况下,减少噪声根本不可能。我们已经在商业、教育、政府以及其他领域听到过这种反对意见,这种观点虽然有一定的合理性,但言过其实了,或者只不过是一个借口。 为了证明我们的这种反对意见更有说服力,举一个高中老师为文章评分的例子。有位高中老师每星期都要对学生撰写的25

    待学习
    开始阅读
  • 34

    第27章 尊严,人之为人的重要价值观

    第27章 尊严,人之为人的重要价值观 设想如下三个场景:你申请房产抵押,但被拒绝,其原因并非有人实际考察了你的情况,而是因为银行有严格的规定,认为你这种信用等级的人不能申请房产抵押;你的条件很出色,而且一家公司的面试官也觉得你很不错,但你的求职申请被拒绝了,原因是15年前你曾被判刑,而该公司明令禁止录用任何有犯罪前科的人;你被判有罪,但不能被保释,这并非由于

    待学习
    开始阅读
  • 35

    第28章 规则还是标准

    第28章 规则还是标准 如果我们的目标是减少噪声和了解如何减少噪声(或在多大程度上减少噪声),那么我们就有必要区分两种约束行为的方式:规则和标准。很多组织通常会选择其中的一种,或将两者结合起来使用。 在商业领域,某家公司可能会有以下要求:员工必须在指定的时间内工作;每个人的休假时间不能超过两个星期;如果有人将公司的秘密泄露给媒体,那么他就会被解雇。我们也可以

    待学习
    开始阅读
  • 36

    回顾与总结 正视噪声问题

    回顾与总结 正视噪声问题 噪声是我们在做判断时不希望存在的变异,然而噪声实在太多了,本书的核心目标就在于解释为何会如此,以及我们应该如何应对噪声。本书涵盖的内容十分丰富,我们在这里仅从一个宽泛的视角来对书中的核心观点进行简要的回顾和总结。 判断不是计算,也无须遵循精确的规则 需要注意的是,不要把本书中的“判断”一词与“思考”一词混淆。判断是一个相对狭义的概念

    待学习
    开始阅读
  • 37

    结语 一个噪声很少的世界

    结语 一个噪声很少的世界 请想象一下,经过重新设计并减少了噪声的组织会是什么样子。医院、招聘委员会、经济预测机构、政府机构、保险公司、公共卫生机构、刑事司法系统、律师事务所和大学,都会对噪声问题保持警觉,并努力减少这些问题。噪声审查将会成为惯例,或许每年都能进行一次。 未来,组织的领导者将会在更多领域中使用算法来代替人类判断,或将其作为人类判断的补充。人们会

    待学习
    开始阅读
  • 38

    附录1 如何进行噪声审查

    附录1 如何进行噪声审查 附录1是一份关于如何进行噪声审查的实用指南。你可以以企业顾问的视角来阅读这部分内容,设想一下这家企业雇用你来对它的一个部门员工的专业决策进行噪声审查。 顾名思义,噪声审查的重点当然在于考察噪声的普遍性,然而,良好的噪声审查其实也能提供关于员工培训和工作监管中存在的偏差、盲点和缺陷的有价值信息。成功的审查有利于促进部门改革,包括改进专

    待学习
    开始阅读
  • 39

    附录2 决策观察者检查清单

    附录2 决策观察者检查清单 本附录给出了一份决策观察者(见第19章)检查清单的通用示例。这里提供的清单大致遵循做重要决策的时间顺序。 清单中每一项之后的参考问题都对相应的项目做了进一步说明。决策观察者在审视决策过程时应该问自己这些问题。 决策观察者不应照搬照抄这个清单。我们希望它发挥的作用是为决策观察者提供灵感和基准,并使决策观察者能够据此设计出适合自己的偏

    待学习
    开始阅读
  • 40

    附录3 对抗噪声,修正预测

    附录3 对抗噪声,修正预测 匹配性预测是我们依赖直觉式匹配过程而产生的错误(参见第14章)。当我们基于现有信息做预测时,我们会进行匹配性预测,就好像我们能够依据这些信息对结果做出完美的或准确率非常高的预测一样。 让我们来回顾一下朱莉的例子,她4岁就能流利地阅读,那么她在大学时的GPA会是多少呢?如果你预测朱莉在大学时的GPA是3.8,这就意味着你从直觉上判断

    待学习
    开始阅读
  • 41

    致谢

    我们要感谢很多人。林内亚·甘地(Linnea Gandhi)是我们的参谋长,她为我们提供了大量的指导和帮助,使我们的工作可以有条不紊地推进,让我们的工作充满欢声笑语。基本可以说,是她主持了本书的撰写。除此之外,她还为本书的初稿提出了许多宝贵建议,没有她,我们无法顺利完成本书。丹·罗瓦洛对成书也起到了非常重要的作用,本书的观点最初就源于他与人合著的一篇文章。我

    待学习
    开始阅读
  • 42

    译者后记

    汪祚军 中国科学院心理研究所博士,宁波大学教授 感谢编辑部独具慧眼,能够邀请中国科学院心理研究所李纾研究员领衔本书的翻译工作。李纾老师是国内最早从事行为决策研究的专家,在行为决策领域深耕数十年,其提出的“齐当别”决策模型在心理学界具有重要的影响力。作为行为决策领域的一名研究者、李纾老师曾经的博士生,能够参与本书的翻译工作,我深感荣幸。 在拿到本书的英文原书后

    待学习
    开始阅读
  • 43

    注释

    引言 偏差与噪声,人类判断的两类错误 射击场只是一种隐喻:1778年,瑞士数学家丹尼尔·伯努利(Daniel Bernoulli)在一篇关于评估问题的论文中使用弓和箭进行了相同的类比。Bernoulli, “The Most Probable Choice Between Several Discrepant Observations and the For

    待学习
    开始阅读

Local EPUB Text

第22章 医疗决策,用科学的诊断指南减少噪声

第22章 医疗决策,用科学的诊断指南减少噪声

几年前,我们的一位好朋友保罗被他的主治医师琼斯诊断为患有高血压。琼斯医生建议保罗尝试药物治疗,他给保罗开了利尿剂,但保罗的血压依旧很高,也就是说药物没起到效果。几个星期后,琼斯又开了第二种药物——钙通道阻滞剂,但效果依然不理想。

这些结果使琼斯困惑不已。虽然过去的3个月保罗每星期都会来复诊,但他的血压只是略有下降,仍然很高。对于下一步的治疗方案,琼斯医生感到很苦恼,保罗也很焦虑,毕竟他年纪不算大,身体也一向健康。随后,琼斯医生寻思着尝试第三种药物。

就在这时,保罗搬到了一座新城市,在那里他咨询了另一位名叫史密斯的医生。保罗向史密斯讲述了他这些日子与高血压抗争的经历。史密斯立即回答说:“买一台家用血压计,在家测测看血压值是多少。我认为你根本没有高血压。你可能只是得了‘白大褂综合征’——一进医生办公室,血压就升高!”

保罗照办了,果然,他在家时测得的血压是正常的,而且从那以后一直很正常。在史密斯医生向保罗说了“白大褂综合征”这件事的一个月后,即便是在医生的办公室,保罗的血压也没有再高过。

医生的主要任务就是做出诊断——判断病人是否患病了,如果患病了,还要鉴定出是哪种疾病。在许多情况下,诊断是常规化的,甚至是机械化的,并且人们还制定了规则和程序以减少噪声。医生通常很容易判断某个人的肩膀有没有脱臼或脚趾有没有骨折,而在一些对技术性要求更高的问题上,医生也能比较容易地做出判断。比如,量化肌腱退化的程度时,医生的诊断产生的噪声就很小。当病理学家评估乳腺病灶的穿刺活检结果时,他们的评估是比较明确的,几乎没有噪声。

然而,有些诊断根本不涉及判断。医疗水平的进步往往是通过消除判断也就是将判断转变为计算来实现的。对于链球菌性咽喉炎的诊断,医生首先要对患者的咽拭子标本进行快速抗原检测,这种检测可以很快检测出患者是否出现链球菌感染。可以说,即便有这种快速抗原检测结果,链球菌性咽喉炎的诊断也存在噪声,但如果没有,那情况将更糟。如果你的空腹血糖水平为126mg/dL或更高,或是糖化血红蛋白(过去3个月内血糖的平均值)高于6.5HbAlc,你就会被诊断为患有糖尿病。在新型冠状病毒疫情出现的早期阶段,一些医生做初步诊断时是根据症状做出判断的,随着疫情的发展,检验变得越来越普遍,有了检验结果,判断就没有必要了。

当医生做判断时,他们的判断可能会有噪声,而且可能会出错,标准做法是建议患者再咨询另外一位医生,获取第二诊疗意见。在有些医院里,第二诊疗意见是必须给出的。当第二诊疗意见与首诊意见出现分歧时,噪声就出现了——当然,我们可能并不清楚哪位医生是正确的。一些患者(包括前文案例中的保罗)会惊讶地发现第二诊疗意见与首诊意见的分歧非常大。医疗领域存在噪声并不令人惊讶,真正令人惊讶的是其体量之庞大。

在本章中,我们要阐明医疗领域的噪声如何大到了令人惊讶的程度,并介绍医学界使用的一些减少噪声的方法。我们将着重讨论一个决策卫生策略:诊断指南。我们敏锐地意识到,与医学中的噪声以及医生、护士和医院采取的各种补救措施有关的内容中有非常多可写的,轻而易举便能写成一整本书。但值得注意的是,医学中的噪声并不局限于本章所关注的诊断性判断中的噪声,治疗过程也可能存在噪声,关于这个话题也有大量的文献可供参考。比如,对于心脏存在问题的患者,医生们对最佳治疗方案的判断存在惊人的差异,涉及的问题包括该用哪些药物、正确的手术方式是哪个,以及到底需不需要手术等。20多年来,达特茅斯·阿特拉斯项目(The Dartmouth Atlas Project)一直致力于记录“美国在医疗资源分配和使用上存在的显著差异”,当然,许多国家也存在医疗资源分配不均的情况。对于本书来说,我们只需要简单地探讨诊断性判断中存在的噪声就可以了。

医疗诊断中的噪声

有大量文献介绍了医学界存在噪声,其中许多是实证性的且验证了噪声的存在,也有许多文献是指导性的。一些医学领域的论文一直在提出各种各样的减少噪声的策略,这些论文如同一座座金矿,蕴藏着众多极其珍贵的想法,值得许多领域的专家、学者参考借鉴。

若噪声存在,就证明其中一位医生明显是正确的,另一位明显是错误的并且可能受到某些偏差的影响,正如我们料想的那样,医生的技能在其中发挥了关键作用。例如,一项针对放射科医生做出肺炎诊断的研究发现,噪声中很大一部分源自医生技能上的差异。具体而言,“技能的差异可以解释诊断决策中44%的变异”,这表明“提升技能比使用统一的决策指南更有效”。训练和甄选对于减少误差、消除噪声和偏差至关重要,在医疗领域也是如此。

在医学的某些领域,如放射学和病理学,医生对噪声的存在一清二楚。例如,放射科医生将诊断差异称为“阿喀琉斯之踵”。目前尚不清楚到底为什么放射学和病理学领域的噪声如此受关注,可能是因为这些领域的噪声确实比其他领域多,也可能是因为这些领域的噪声更容易被记录下来,我们猜想易于记录可能是更重要的原因。在放射学领域,人们更容易实施一些简单的噪声测试以及误差测试,例如,你可以再看一遍影像片子来对之前的评估结果进行重新评估。

在医学领域,人与人之间的噪声,或者说评估者信度(interrater reliability),通常用kappa统计量来衡量。kappa值越高,噪声越小。kappa值为1表示评估者们的评估完全一致;kappa值为0,则意味着评估者之间的一致性很差,就跟一群猴子往诊断列表上投飞镖差不多。根据该系数测量得到的信度,医学诊断的某些领域属于“轻度”或者“糟糕”,“糟糕”意味着该领域的噪声非常多。在大多数情况下,该系数测出的信度是“一般”,这当然有所改善,但依然表明其中存在着明显的噪声。随机选出100例药物,要求全科医生判断这些药物之间的相互作用是否具有临床意义,对于这一重要问题,医生们做出的判断“一致性很差”。在许多外行眼里,诊断肾脏疾病处于哪一阶段似乎比较简单,甚至很多医生也这样认为。但是,肾病专家们在基于肾病患者的标准化检测结果进行诊断时,仅勉强达到“中等程度的一致性”。

一项研究发现,关于乳腺病变是否为癌变这一问题,病理学家之间只能达成“一般”程度的一致性。在诊断乳腺增生病变时,一致性同样是“一般”。当医生根据核磁共振成像扫描结果判断椎管的狭窄程度时,一致性也是“一般”。这些发现很值得反思,因为我们说过,在医学的某些领域中噪声水平非常低,但在一些对技术性要求非常高的领域,医生们的诊断还远没有实现零噪声。关于是否会被确诊为患有癌症等严重疾病,患者有时就像在抽签,其结果取决于问诊的是哪位医生。

再来看看这些文献中的其他发现,它们源自那些噪声的严重程度尤其值得关注的领域。我们描述这些发现并不是为了对医务工作的现状做出权威性的论断(医务工作在不断地发展和改进,在某些情况下,发展和改进的速度很快),我们的目的是让大家认识到噪声是普遍存在的,不管是在不远的过去还是现在,噪声都屡见不鲜。

1.在美国,心脏病是男性和女性的主要致死原因。冠状动脉造影是检测心脏病的主要方法,可以评估急性和非急性情况下心脏动脉的阻塞程度。在非急性情况下,当患者反复出现胸痛,且有一条或几条动脉的阻塞程度超过70%时,医生通常会对患者实施支架置入术等治疗措施。然而,有资料显示,医生对血管造影图的解释存在一定的变异,这可能引发不必要的手术。一项早期研究发现,评估血管造影图的医生对大血管阻塞是否超过70%持不同意见,这种情况发生的可能性为31%。心脏病专家普遍意识到,在解读血管造影图时存在潜在的变异,尽管他们不断努力并采取纠正措施,但这个问题仍未解决。

2.子宫内膜异位症是本应该生长在子宫内的子宫内膜组织生长在子宫外所致,这种异位会令病人痛苦不堪,并且可能引发生育障碍。医生一般借助腹腔镜对这种疾病进行诊断,在诊断过程中,医生需要通过手术将腹腔镜的微型摄像头探入患者体内。研究人员让108名妇科医生观看了3名患者的腹腔镜检查视频并做出判断,其中2名患者患有不同程度的子宫内膜异位症,1名患者未患此病。然而,这些医生在判断子宫内膜异位病灶的数量和位置时,产生了很大分歧,并且这些判断在数量和位置上的相关性都很弱。

3.肺结核是全球范围内传播最广、致死率最高的疾病之一。仅2016年,就有1000多万人感染肺结核,死亡人数接近200万。胸部X线检测是一种广泛使用的肺结核检测方法,它可以检测肺部是否出现了由结核杆菌引起的空洞。医生们在肺结核诊断上存在的变异性已有近75年的详尽记录了。尽管这种现象在过去几十年中已有所改善,但研究发现,肺结核诊断中依然存在显著的变异性,诊断一致性仅为“中等”或“一般”。此外,不同国家的放射科医生在肺结核的诊断上也存在差异。

4.当病理学家分析黑色素瘤(最危险的皮肤癌)导致的皮肤病变时,只有“中等”程度的一致性。研究人员要求8位病理学家对每个病例进行诊断,所有病理学家全部达成一致或只有一位意见不一致的情况只占62%。另一项在肿瘤中心开展的研究发现,黑色素瘤的诊断准确率只有64%,这意味着每3个被诊断为黑色素瘤的病灶中就有1个属于误诊。还有一项研究发现,纽约大学的皮肤科医生有36%的可能性无法根据皮肤活检样本诊断出黑色素瘤。这项研究的作者总结道:“医生如果未能在临床上正确诊断出黑色素瘤,就会放任这种潜在致命疾病对患者的生命构成严重威胁。”

5.放射科医生通过乳房X线检测来诊断乳腺癌,这种诊断同样存在变异性。一项大型研究发现,放射科医生诊断结果的假阴性率为0%(每次的诊断都是正确的)~50%(甚至超过50%,也就是说在超过一半的情况中,放射科医生错误地将乳腺癌患者的X线片诊断为正常),而假阳性率为1%~64%(这意味着放射科医生将未患乳腺癌的人的X线片诊断为患有乳腺癌的可能性接近2/3)。同时,不同放射科医生诊断的假阴性率和假阳性率也不同,这证明确有噪声存在。

这些存在于不同人之间的噪声是当下的主要研究方向,但也有一些发现是关于情境噪声的。有时候,放射科医生两次评估同一张影像片子时会给出不同的意见,也就是说第二次给出的意见与第一次的意见不一致。但相比于与他人意见不一致的情况,与自己原有的意见不一致的情况较少出现。在重新评估血管造影显示的血管阻塞程度时,22名医生与自己原有意见不一致的可能性为63%~92%。我们可以看到,在那些标准模糊和判断情境复杂的领域中,评估者的信度可能非常差。

这些研究对这种情境噪声的成因没有明确的解释,而另一项不涉及诊断的研究发现了医学领域情境噪声的一个简单来源,这一发现值得患者和医生牢记。简而言之,医生在清晨比接近傍晚时更可能要求患者做癌症筛查。在一个大样本中,早上8点,乳腺和结肠筛查的预约率最高,为63.7%,到了上午11点,预约率下降至48.7%,中午时又上升至56.2%,下午5点则降至47.8%。因此,在一天中的晚些时候,医生建议就诊的患者做指南推荐的癌症筛查的可能性较小。

我们如何解释这些发现?有可能是因为医生们在遇到患有复杂疾病的患者后,他们的问诊进度会不可避免地落后,这些病情复杂的患者需要的诊断时间往往超过常规的20分钟。我们在前面提到过压力和疲劳等情境噪声的触发因素(见第7章),这样看来这些因素的确在起作用。一些医生为了赶上进度,跳过了对预防性健康措施的讨论。还有一个例子也能说明临床医生会受到疲劳的影响,那就是规范洗手的比率在轮班结束时会低一点,可以说洗手这一过程也充满了噪声。

诊断指南的价值

在不同医学问题的情境中,对噪声的存在及其数量进行全面记录,不仅对医学领域意义重大,而且对人类的认知也有举足轻重的贡献。虽然我们不知道目前是否有此类记录,但希望时机成熟后有人能够完成这一壮举。不过,即使现在没有这类记录,现有的研究结果也提供了一些线索。

在极端情况下,一些问题和疾病的诊断基本上是机械性的工作,不需要做出任何判断。还有一些情况,诊断虽然不是机械性的工作,却很简单直接:任何受过医学训练的人都可能得出同样的结论。在某些场景中,噪声的数量也能得到控制,比如说肺癌专家在进行诊断时,他们的专业性虽不能完全消除噪声,但能使噪声数量最少。有些疾病的诊断给了医生很大的判断空间,并且诊断的相关标准过于宽泛,这会导致噪声数量巨大,且难以降低。我们将看到,大部分精神病学诊断就属于这种情况。

怎样才能降低医学领域的噪声呢?我们在前面提到,培训可以提高医生的技能,而高超的技能当然对减少噪声有帮助。汇总多个专家的判断(如第二诊疗意见等)也能减少噪声。算法是一个特别有发展前景的诊断手段,医生们现在正在使用深度学习算法和人工智能来减少噪声。例如,这类算法已经被用于检测乳腺癌患者的淋巴转移情况。目前最好的算法的诊断准确性优于最好的病理学家。当然,算法是没有噪声的。深度学习算法在检测与糖尿病相关的眼部问题方面,已经取得了巨大的成功。人工智能在通过乳房X线检测诊断癌症方面的表现,几乎和放射科医生一样出色。如果人工智能进一步发展,它的表现可能会比人类更好。

未来医学界可能会越来越依赖算法。这个过程可以同时减少偏差和噪声,挽救生命并节省成本。但本章的重点是人类的判断指南,因为医学领域的情况能够充分说明,指南在某些实践应用中能够确保产生良好甚至极好的结果,而在其他应用实践中会产生更复杂的结果。

1952年由产科麻醉师弗吉尼亚·阿普加(Virginia Apgar)发明的阿普加评分(Apgar score),也许是诊断指南最知名的例子。过去,评估新生儿是否处于危险之中曾是医生和助产士需要做出的临床判断。阿普加评分给了他们一个标准化的指南,供他们评测婴儿的肤色、心率、反射动作、肌肉张力和呼吸状况。这些指标的首字母刚好组成Apgar:外貌(Appearance,指肤色)、脉搏(pulse,指心率)、痛苦反应(grimace,指反射动作)、活动(activity,指肌肉张力)和呼吸(respiration,指呼吸频率和力度)。在阿普加测试中,这5个指标分别对应3个分数:0、1和2。总分最高为10分。7分及以上就可被视为健康状况合格(见表22-1)。

表22-1 阿普加评分指南

要注意的是,心率是评分中唯一一个可以直接评分的项目,其他项目都需要先做一些判断。但是,由于判断被分解为多个相互独立的元素,每个元素都很容易评估,即使是那些仅受过少量训练的医师,在评估时也不太可能产生很大的分歧,因此阿普加评分产生的噪声很小。

阿普加评分展示了指南是如何发挥作用的,以及为什么指南能减少噪声。与规则或算法不同,有了指南仍需判断——决策不是直接进行计算。医师在阿普加评分的每一个项目上都可能存在分歧,因此在最终结论上也可能存在分歧。然而,指南成功地减少了噪声,因为它在预先定义好的维度上将一个复杂的决策分解成了许多简单的子判断。

如果用第9章讨论的简单预测模型来看待这个问题,我们就很容易看到指南的优势所在。临床医生是根据几条预测性线索来判断新生儿的健康状况的。情境噪声可能在其中发挥作用:就在某一天,或者就在某种情绪状态下,临床医生可能会关注一些相对不那么重要的预测因素,或忽略一些重要的预测因素。阿普加评分能够将医生的注意力集中在5个已经过实践验证的重要维度上。然后,评分标准清晰地描述了该如何评估每条线索,这大大简化了根据每条线索做出判断的过程,从而降低了噪声。最后,阿普加评分还规定了如何给各个预测因素赋权,并产生所需的总体判断,这个过程就是一项机械性的工作,而人类临床医生在给这些线索赋权时会存在差异。关注重要的预测因子,简化预测模型,以及进行机械性汇总——所有这些都降低了噪声。

类似的方法已被用于许多医学领域,比如用森特评分(Centor score)来指导链球菌性咽喉炎的诊断。病人如果出现以下症状或体征即得1分:咳嗽(Cough)、有渗出物(exudates,指喉咙后部有白色斑块)、颈部淋巴结肿痛(nodes)、体温高于38摄氏度(temperature)。这些症状的首字母组合刚好是Centor的前4个字母。这一指南由森特及其同事总结得出。根据病人的得分,医生可以决定是否推荐用咽拭子诊断链球菌性咽喉炎。使用该量表进行评估和评分相对直接,这样一来,有些人就不必接受链球菌性咽喉炎的测试和治疗了。

同样,乳腺癌诊断领域也制定了一套根据乳腺影像报告和数据系统(Breast Imaging Reporting and Data System,BI-RADS)进行诊断的指南,从而减少了对乳房X线片解读时出现的噪声。一项研究发现,BI-RADS提升了乳房X线片的评估者之间的一致性,这就表明,对于存在明显变异性的领域,指南可以有效地减少噪声。在病理学领域,关于人们使用指南来减少噪声,也有很多成功的例子。

伤脑筋的精神病学诊断

就噪声而言,精神病学是一个极端的例子。当使用相同的诊断标准诊断同一位患者时,精神科医生经常意见不一致。因此,至少从20世纪40年代起,减少噪声就成为精神病学界的头等大事。我们将看到,尽管指南在不断完善,但在减少噪声方面,诊断指南的作用非常有限。

1964年,一项针对91名患者和10名有经验的精神科医生的研究发现,两名医生意见达成一致的可能性只有57%。在另一项早期的研究中,两名州立医院的精神科医生单独对426名患者进行诊断,结果显示,他们在诊断精神疾病的类型时,诊断的一致性只有50%。另一项涉及153名门诊病人的早期研究发现,医生们在诊断方面的一致性只有54%。这些研究并没有明确噪声的来源。然而有趣的是,一些精神科医生倾向于将患者划分到特定的诊断类别中。例如,有些精神科医生更有可能诊断患者患有抑郁症,而另外一些则更有可能诊断患者患有焦虑症。

我们很快将看到,精神病学中的噪声水平仍然很高。为什么会这样?专家们给不出一个唯一且明确的答案,这意味着他们对噪声的解释本身就充满噪声。诊断类别过于宽泛无疑是其中一个因素。但是,为了初步揭示其中的原因,研究人员让一位精神科医生先面诊一位患者,在短暂休息后,再让另外一位精神科医生进行一次面诊。两位精神科医生随后会面,如果发现彼此意见不一致,再讨论具体的原因。

“医生之间的不一致”有很常见的原因:他们来自不同的学派,接受过不同的训练,拥有不同的临床经验,采用不同的面诊方式。“接受过发展心理学训练的临床医生,可能会将幻觉解释为受虐待所致的创伤经历的一部分”,但“具有生物医学背景的另外一位临床医生,可能会将幻觉解释为精神分裂过程的一部分”。这种差异就是模式噪声的例子。

然而,除了医生之间的不同,噪声的主要成因是“术语不够准确”。这种情况再加上专业人士对精神病学术语的普遍不满,促成了《精神疾病诊断准则手册(第3版)》(Diagnostic and Statistical Manual of Mental Disorders, DSM Ⅲ)于1980年改版完成。该手册首次提出了明确而详细的精神疾病诊断标准,朝着引入诊断指南迈出了第一步。

DSM Ⅲ促使大量的研究关注诊断是否存在噪声。DSM Ⅲ也被证明有助于减少噪声。但这本手册远没有达到完美。即使在2000年对第4版——DSM Ⅳ(初版于1994年出版)进行了重大修订之后,仍然有研究表明其中存在大量噪声。一方面,艾哈迈德·阿博拉亚(Ahmed Aboraya)及其同事得出结论称:“精神疾病诊断标准的使用已被证明能提高精神疾病诊断的可靠性。”另一方面,仍然存在着一个严重的风险,即对同一个病人要施以多种诊断,才能决定他是否应该入院治疗。

该手册的第5版——DSM Ⅴ于2013年发布。美国精神病学学会曾希望DSM Ⅴ能够减少噪声,因为其标准更客观、更清晰。但精神科医生的诊断仍然表现出明显的噪声。例如,塞缪尔·利布利奇(Samuel Lieblich)及其同事发现“精神科医生就患者是否患有重度抑郁症很难达成一致”。DSM Ⅴ的现场试验发现其“一致性仅达到最低水平”,这“意味着,在实验条件下,训练有素的专业精神科医生对患者是否患有抑郁症达成一致的可能性只有4%~15%”。另外一些现场试验表明,DSM Ⅴ实际上使情况变得更糟了,在所有主要领域中,一些诊断,比如混合性焦虑与抑郁障碍的噪声反而增加了。“DSM Ⅴ如此不可靠,以至于它在临床实践中显得毫无用处。”

在精神病学中,使用指南之所以很难取得成功,主要原因似乎是“某些疾病的诊断标准仍然模糊,难以操作”。一些指南通过将判断分解成不同的标准来减少分歧,进而减少噪声,但如果这些标准是相对开放的,噪声仍然可能存在。考虑到这一点,我们呼吁制定更标准的诊断指南,具体的改进包括:(1)明确诊断标准,舍弃模糊标准;(2)给出症状及其严重程度的“参考定义”,其依据的理论是“当临床医生对症状是否存在能够达成一致时,他们更有可能在诊断上也达成一致”;(3)除开放式谈话外,对患者进行结构化访谈,建议在访谈指南中纳入24个筛选问题,如焦虑、抑郁和饮食失调等问题,以便医生做出更可靠的诊断。

这些改进建议听起来不错,但能够成功地减少多少噪声,其结果尚未可知。一位观察者曾说:“诊断过程依赖患者的主观症状、临床医生对症状的解读,而且缺乏客观的测量手段(如血液测试),这些因素都在精神疾病诊断中埋下了不可靠的种子。”从这个层面上说,要想减少精神病学中的噪声,困难重重。

在这一特定问题上,现在做出自信的预测还为时过早,但有一点很清楚,一般来说,医学诊断指南在减少偏差和噪声方面非常成功。它们帮助了医生、护士和病人,极大地改善了公共卫生。因此,医学界需要更多的指南。