bangst

学习进度

阅读时长

未满 1 分钟

最近阅读：未开始阅读

核心概念

待提炼

章节学习

1
献词
献给诺加、奥里和吉利 ——丹尼尔·卡尼曼献给范丁和莱莉亚 ——奥利维耶·西博尼献给萨曼莎 ——卡斯·R.桑斯坦
待学习
开始阅读
2
重磅赞誉
从“偏差”到“噪声”，作为心理学家的卡尼曼，挑战的是经济学的“理性人”假设，并因开启了行为经济学的大门而获得诺贝尔经济学奖。他一直关注的是人类在决策中是如何犯错的，在这本书中，他深入分析了噪声的影响，但也乐观地预期，可以通过发掘埋没在大数据中的信息来减少决策中的噪声，这可以说是大数据渗透到行为经济学领域的新趋势。巴曙松北京大学汇丰金融研究院执行院长，中国
待学习
开始阅读
3
测一测如何做一个聪明的决策者？
测一测如何做一个聪明的决策者？想知道你的判断是怎么掉入噪声陷阱的吗？扫码测一测，立即获取答案及解析，看看你的“降噪等级”。 1．卡尼曼是世界上第一个凭借心理学研究获得诺贝尔经济学奖的人。这个说法对吗？ A．对 B．不对 2．卡尼曼指出：人类判断出错的原因有两种。一种是偏差，另一种是什么呢？ A．误差 B．噪声 C．系统认知 3．在做一个判断时，以
待学习
开始阅读
4
推荐序1 在无法回避噪声的世界，更好地追求高级境界与极致效益
推荐序1 Preface 在无法回避噪声的世界，更好地追求高级境界与极致效益彭凯平清华大学社会科学学院院长每年七八月份，我都会参加清华大学的本科生招生工作，由此而目睹了一个问题：高考揭榜之后，高中毕业生及其家长应如何做好志愿填报？学校和专业的选择非常重要，很有可能会决定一个学生一辈子的命运，其中牵涉的问题就与我们心理学中一个重要的研究领域紧密相关，那
待学习
开始阅读
5
推荐序2 穿越噪声的决策
推荐序2 Preface 穿越噪声的决策朱宁上海交通大学上海高级金融学院金融学教授，副院长我抱着浓厚的兴趣读完了诺贝尔经济学奖得主丹尼尔·卡尼曼教授等的新作《噪声》一书，这本书汇集了卡尼曼教授近十年的最新发现。对于我所从事的行为金融学研究领域而言，《噪声》算得上是一本“专业书”，但是读完之后，我认为它很可能是卡尼曼教授继《思考，快与慢》后，又一次成功将
待学习
开始阅读
6
中文版序哪里有判断，哪里就有噪声
中文版序 Preface 哪里有判断，哪里就有噪声我们非常荣幸，也非常感激，能够在中国出版这本书。《噪声》重点关注人类的判断，关注它是如何出错的，以及如何让它变得更好。无论是医学、法律、公共政策、商业，还是日常生活领域中，我们做出判断的过程中存在的问题，是偏好根据经验做判断的人类的共性问题。数十年来，偏差问题备受瞩目。在《思考，快与慢》一书中，本书的作者
待学习
开始阅读
7
引言偏差与噪声，人类判断的两类错误
引言 Introduction 偏差与噪声，人类判断的两类错误试想一下，你的朋友组成了A、B、C、D共4支队伍，来到一个射击场。每队中有5个人，他们共用一支来复枪，且每人只开了一枪。图0-1显示了他们的射击结果。图0-1 4支队伍的射击结果理想情况是，每一枪都能正中靶心。 A队几乎达到了理想情况，他们的每一发子弹都紧紧围绕着靶心，接近完美模式。 B队的
待学习
开始阅读
8
第1章犯罪和充满噪声的判罚
第1章犯罪和充满噪声的判罚假设某人被指控犯了罪，例如到商店行窃、私藏海洛因、袭击他人或持枪抢劫，该案件可能的判决结果是什么？答案不应取决于该案件恰巧被指派给哪位法官、天气是冷是热，以及当地球队在前一天是输是赢。如果3个背景类似的人被指控犯有同一罪行，最后却得到截然不同的处罚，例如第一个人被判缓刑，第二个人被判2年有期徒刑，最后一个人被判10年有期徒刑，
待学习
开始阅读
9
第2章系统噪声，给人达成一致的错觉
第2章系统噪声，给人达成一致的错觉我们最初接触噪声，并对这个主题产生兴趣，并不是因为遇到了像刑事司法案件那般富有戏剧性的案例。实际上，这次邂逅纯属偶然，缘于一家保险公司，这家公司与我们中的两人所属的咨询公司有合作。我们的研究揭示了营利性组织中存在噪声问题的严重性——组织会因为决策中的噪声损失惨重。我们在保险公司的经历有助于解释为什么噪声问题常常被忽视，以
待学习
开始阅读
10
第3章单一决策，仅发生一次的重复决策
第3章单一决策，仅发生一次的重复决策到目前为止，我们所讨论的案例研究都与重复决策相关。比如，对盗窃犯的恰当判决是什么？对某一特定风险该收取多少保费？虽然每个具体的案例在某种意义上都是独特的，但像这样的判断属于重复决策。医生诊断患者，法官审理假释案件，招生人员审查入学申请书，会计师准备税单等，这些都是重复决策。正如前一章所介绍的，重复决策中的噪声可以通过
待学习
开始阅读
11
第4章什么是判断
第4章什么是判断本书论述的是一般意义上的专业判断，我们假设如果做判断的人有足够的能力，就能做出准确的判断。然而，判断这一概念本身包含着一个你不得不承认的事实：你永远无法确定一个判断是不是准确。请思考“判断问题”和“主观判断”这两个短语的差别。我们认为“太阳明天会升起”或“NaCl是氯化钠的化学式”这样的陈述并非判断，因为任何理性的人都会完全同意上述观点
待学习
开始阅读
12
第5章测量误差，噪声与偏差的代价一样大
第5章测量误差，噪声与偏差的代价一样大显而易见的是，一致性的偏差会引发代价高昂的错误。如果体重秤在你每次称体重时都自动加上一定的重量，如果一位乐观的经理总是预测项目只需花费实际所需时间的一半，如果一位谨小慎微的经理总是年复一年地低估未来的销售额，那么后果都将会非常严重。我们已经知道，噪声会引发代价高昂的错误。如果一位经理大多数时候预测的项目所需时间只是
待学习
开始阅读
13
第6章噪声分析：所有判断都存在3类噪声
第6章噪声分析：所有判断都存在3类噪声在上一章，我们讨论了单个案例中测量或判断的变异性。在单个案例中，判断的所有变异性都是误差，而误差由偏差和噪声组成。我们考察的判断系统，包括法院和保险公司的判断系统，它们的目的在于处理不同案例，并对这些案例进行区分。如果美国的联邦法官和保险理赔员对他们手头的所有案例都做出相同的判断，那他们就没有什么存在的价值了。对不同
待学习
开始阅读
14
第7章情境噪声，无时无刻不在影响着我们的判断
第7章情境噪声，无时无刻不在影响着我们的判断想象一名职业篮球运动员正在准备罚球的场景：他站在罚球线上，全神贯注地准备投篮。这是他练习过无数次的一系列动作，他能投中吗？我们无法预知结果。在NBA的比赛中，球员们通常能够4罚3中。显然，一些球员比其他球员表现得更好，但没有人能做到百发百中(3)。虽然篮筐一直都是距离地面3.05米，与罚球线的垂直距离一直是4
待学习
开始阅读
15
第8章群体是如何放大噪声的
第8章群体是如何放大噪声的个体判断中存在噪声的结果已经很糟糕了，但群体决策中的噪声危害更甚。群体决策可能会由于一些无关因素而朝任何一个方向改变。谁先发言、谁后发言，谁说话更自信，谁穿着黑色衣服，谁和谁挨着坐，谁在某个时刻笑了／皱眉了／呈现出其他身体姿势……所有这些因素都会影响结果。相似的群体每一天都会做出各种不同的决策，如雇用、晋升、破产、沟通策略、环境
待学习
开始阅读
16
第9章判断与模型，简单的模型普遍优于人类判断
第9章判断与模型，简单的模型普遍优于人类判断很多人都对预测未来的工作绩效感兴趣，不只是自己的，还有别人的。因此，绩效预测是用来考察预测性判断的实用例子。例如，一家大公司在招聘高管时，聘请了一家专业咨询公司对两名候选人莫妮卡和娜塔莉进行评估，并以取值为1～10分的量表对两人的领导力、沟通能力、人际交往能力、职业技能、应聘动机等维度进行打分（见表9-1）。你
待学习
开始阅读
17
第10章无噪声的规则
第10章无噪声的规则近年来，人工智能（Artificial Intelligence）特别是机器学习技术让机器能够执行许多以前只有人类才能执行的任务。机器学习算法可以承担人脸识别、语言翻译、分析医学影像等任务，并且可以以惊人的速度和准确性来处理计算问题，例如为成千上万名驾驶员迅速规划行车路线。它们还可以执行困难的预测任务：预测美国最高法院的判决；识别哪些
待学习
开始阅读
18
第11章哪里有预测，哪里就有客观无知
第11章哪里有预测，哪里就有客观无知我们经常同一些公司高管分享第9章和第10章中的研究内容，并通过发人深省的发现让他们意识到人类的判断是有限的。这些发现已经存在了半个多世纪，应该很少有人能避开它们，但人们仍然对这些发现很抵触。在我们的听众里，有一些高管会很自豪地告诉我们，相比于定量分析，他们更相信自己的直觉；其他人虽然没明说，但他们也有同样的看法。有关
待学习
开始阅读
19
第12章常态谷：事情虽无法预测，但可以被理解
第12章常态谷：事情虽无法预测，但可以被理解现在我们来考虑一个更大的问题：在这个世界上，有些问题容易解决，有些问题却充满了客观无知，那我们应如何自处呢？毕竟，在存在很严重的客观无知的情况下，我们很快就能意识到，用水晶球来预测未来是徒劳的，但我们通常并不会对这个世界产生这种体验。相反，正如上一章所提到的，我们一直在基于少量的有用信息来对未来做出大胆预测。在
待学习
开始阅读
20
第13章启发式、偏差与噪声
第13章启发式、偏差与噪声本书是对横跨半个世纪的关于人类直觉判断研究的延续，也就是所谓的“启发式和偏差研究项目”（heuristics and biases program）。《思考，快与慢》一书对该研究项目前40年的研究内容进行了回顾，探讨了能够解释“直觉思维的奇妙与缺陷”的心理机制。该项目的核心思想是，当回答一个难题时，人们会使用简化的思维操作系统—
待学习
开始阅读
21
第14章匹配，找到与你的预测最精准匹配的共识
第14章匹配，找到与你的预测最精准匹配的共识现在请看向天空，你认为两小时内下雨的可能性有多大？你可能很容易就答出了这个问题。你做出判断时毫不费力。你可能在不知不觉中就把对天空黑暗程度的评估转换成了概率判断。你刚刚做的事就是一种典型的“匹配”（matching）。我们将判断描述为一种思维操作，该思维操作会为主观印象或印象的某个方面在量表上找到对应的值。匹
待学习
开始阅读
22
第15章选取精确的量表，并多用相对判断
第15章选取精确的量表，并多用相对判断假设你是民事审判案件中的一名陪审员。你目前所掌握的证据大致如下，你要据此做出判断。琼·格洛弗（Joan Glover）诉General Assistance公司案一个名叫琼·格洛弗的6岁小女孩吞下了大量非处方抗过敏药AllerFree，需要住院治疗很长时间。大剂量的药物使她的呼吸系统变得很脆弱，因此她很容易患上哮
待学习
开始阅读
23
第16章模式噪声的构成
第16章模式噪声的构成还记得朱莉吗？我们在第14章中提到的那个早慧的孩子。你曾尝试预测她的大学GPA。以下是有关朱莉的详细介绍。朱莉是独生女。她的父亲是一位事业有成的律师，母亲是一位建筑师。朱莉大约3岁时，她的父亲患上了一种自体免疫性疾病，不得不居家办公。他花大量的时间陪伴朱莉，并耐心地教她读书识字。朱莉4岁时就能流畅地阅读。她的父亲也曾尝试教她算术，
待学习
开始阅读
24
第17章噪声源，偏差是引人注目的图形，而噪声是不受我们关注的背景
第17章噪声源，偏差是引人注目的图形，而噪声是不受我们关注的背景哪里有判断，哪里就有噪声，希望你现在也认同这一观点。我们也希望，对你而言这已不再是一件超乎想象的事。这也正是我们着手开展研究的主要动力。经过多年的努力，我们对这个问题的思考已经逐渐深入和完善。现在，来回顾一下我们已经了解的噪声成分、这些成分对噪声的重要影响以及它们在判断中所起的作用。噪声成
待学习
开始阅读
25
第18章卓越的判断者，卓越的判断力
第18章卓越的判断者，卓越的判断力至目前为止，我们主要谈论的是人类的判断，而没有对不同的判断者进行区分。显然，在任何一项任务中，有些人做出的判断要优于其他人。即使是由群体做出的判断，如果该群体由高能力个体组成，那么最终的判断也会更优。这就引出了一个重要的问题，即如何甄别出更好的判断者。有三件事至关重要。如果做判断的人受过良好的训练、更睿智且拥有正确的认
待学习
开始阅读
26
第19章消除偏差与决策卫生
第19章消除偏差与决策卫生许多研究人员和机构都力图减少判断偏差。在本章中，我们将分析他们的核心发现。我们将介绍消除偏差的各类干预措施之间的区别，并探讨其中一种值得进一步研究的干预措施。随后，我们将讨论如何减少噪声，并介绍决策卫生的概念。干预：事后及事前消除偏差减少偏差有两种主要方式，要描述它们的特点，一个好方法是回到测量类比。假设你家浴室里的体重秤在
待学习
开始阅读
27
第20章司法科学，信息排序是最大的噪声
第20章司法科学，信息排序是最大的噪声 2004年3月，在西班牙首都马德里，一组被放置在通勤列车上的炸弹爆炸，造成192人死亡，2000多人受伤。人们在犯罪现场的塑料袋上发现了一枚指纹，并通过国际刑警组织将其传送到了世界各地的执法机构。几天后，美国联邦调查局（FBI）犯罪实验室最终确认这枚指纹属于一个居住在俄勒冈州的美国公民布兰登·梅菲尔德（Brandon
待学习
开始阅读
28
第21章甄选与汇总，超级预测的两大策略
第21章甄选与汇总，超级预测的两大策略许多判断都涉及预测，比如，下个季度的失业率可能是多少？明年将售出多少辆电动汽车？2050年的气候变化会带来什么影响？盖完一幢新楼需要多长时间？某家公司的年收入是多少？新员工会有什么样的表现？新的空气污染管理制度的成本是多少？谁将赢得选举？这些问题的答案会产生重大影响，因为私人机构和公共机构的一些重要选择往往取决于这些
待学习
开始阅读
29
第22章医疗决策，用科学的诊断指南减少噪声
第22章医疗决策，用科学的诊断指南减少噪声几年前，我们的一位好朋友保罗被他的主治医师琼斯诊断为患有高血压。琼斯医生建议保罗尝试药物治疗，他给保罗开了利尿剂，但保罗的血压依旧很高，也就是说药物没起到效果。几个星期后，琼斯又开了第二种药物——钙通道阻滞剂，但效果依然不理想。这些结果使琼斯困惑不已。虽然过去的3个月保罗每星期都会来复诊，但他的血压只是略有下降
待学习
开始阅读
30
第23章绩效评估，用基于外部视角的共识框架做出量化判断
第23章绩效评估，用基于外部视角的共识框架做出量化判断让我们从一个练习开始：请选出3个你认识的人，他们可以是你的朋友或同事。请在友善、智慧和勤奋这3种特质上给他们进行1～5分的评分，其中1分是最低分，5分是最高分。现在再请另一个很了解他们的人（这个人可以是你的配偶、好友或者最亲密的同事）用同样的方式对这3个人进行评分。在某些评估中，你和其他评分者很可能
待学习
开始阅读
31
第24章人员招聘，以结构化指标衡量人才
第24章人员招聘，以结构化指标衡量人才如果你曾经找过工作，那么“招聘面试”这个词可能会唤起你的一些生动而紧张的回忆。工作面试，即求职者与未来的主管或人力专员会面，是进入许多组织的必经之路。在大多数情况下，面试遵循着既定的流程。在寒暄之后，面试官会要求应聘者描述他们的个人经历，或者详细地描述他们经历过的某些特定情形。再问一些诸如个人成就与挑战、工作动机以
待学习
开始阅读
32
第25章中介评估法，做出明智决策的核心方法
第25章中介评估法，做出明智决策的核心方法不久前，我们两个人（卡尼曼和西博尼）与我们的朋友丹·罗瓦洛（Dan Lovallo）一起，介绍过组织中使用的一种决策方法。这一方法的首要目的在于减少噪声，我们称之为中介评估法。该方法涵盖了我们前几章所介绍的大多数决策卫生策略，并且它的应用范围很广泛，只要在计划或选项的评估过程中需要考虑和权衡多维度信息，我们就可以
待学习
开始阅读
33
第26章减少噪声的成本
第26章减少噪声的成本每当我们建议人们消除噪声时，他们可能会以成本过高为由进行反对，并认为在极端情况下，减少噪声根本不可能。我们已经在商业、教育、政府以及其他领域听到过这种反对意见，这种观点虽然有一定的合理性，但言过其实了，或者只不过是一个借口。为了证明我们的这种反对意见更有说服力，举一个高中老师为文章评分的例子。有位高中老师每星期都要对学生撰写的25
待学习
开始阅读
34
第27章尊严，人之为人的重要价值观
第27章尊严，人之为人的重要价值观设想如下三个场景：你申请房产抵押，但被拒绝，其原因并非有人实际考察了你的情况，而是因为银行有严格的规定，认为你这种信用等级的人不能申请房产抵押；你的条件很出色，而且一家公司的面试官也觉得你很不错，但你的求职申请被拒绝了，原因是15年前你曾被判刑，而该公司明令禁止录用任何有犯罪前科的人；你被判有罪，但不能被保释，这并非由于
待学习
开始阅读
35
第28章规则还是标准
第28章规则还是标准如果我们的目标是减少噪声和了解如何减少噪声（或在多大程度上减少噪声），那么我们就有必要区分两种约束行为的方式：规则和标准。很多组织通常会选择其中的一种，或将两者结合起来使用。在商业领域，某家公司可能会有以下要求：员工必须在指定的时间内工作；每个人的休假时间不能超过两个星期；如果有人将公司的秘密泄露给媒体，那么他就会被解雇。我们也可以
待学习
开始阅读
36
回顾与总结正视噪声问题
回顾与总结正视噪声问题噪声是我们在做判断时不希望存在的变异，然而噪声实在太多了，本书的核心目标就在于解释为何会如此，以及我们应该如何应对噪声。本书涵盖的内容十分丰富，我们在这里仅从一个宽泛的视角来对书中的核心观点进行简要的回顾和总结。判断不是计算，也无须遵循精确的规则需要注意的是，不要把本书中的“判断”一词与“思考”一词混淆。判断是一个相对狭义的概念
待学习
开始阅读
37
结语一个噪声很少的世界
结语一个噪声很少的世界请想象一下，经过重新设计并减少了噪声的组织会是什么样子。医院、招聘委员会、经济预测机构、政府机构、保险公司、公共卫生机构、刑事司法系统、律师事务所和大学，都会对噪声问题保持警觉，并努力减少这些问题。噪声审查将会成为惯例，或许每年都能进行一次。未来，组织的领导者将会在更多领域中使用算法来代替人类判断，或将其作为人类判断的补充。人们会
待学习
开始阅读
38
附录1 如何进行噪声审查
附录1 如何进行噪声审查附录1是一份关于如何进行噪声审查的实用指南。你可以以企业顾问的视角来阅读这部分内容，设想一下这家企业雇用你来对它的一个部门员工的专业决策进行噪声审查。顾名思义，噪声审查的重点当然在于考察噪声的普遍性，然而，良好的噪声审查其实也能提供关于员工培训和工作监管中存在的偏差、盲点和缺陷的有价值信息。成功的审查有利于促进部门改革，包括改进专
待学习
开始阅读
39
附录2 决策观察者检查清单
附录2 决策观察者检查清单本附录给出了一份决策观察者（见第19章）检查清单的通用示例。这里提供的清单大致遵循做重要决策的时间顺序。清单中每一项之后的参考问题都对相应的项目做了进一步说明。决策观察者在审视决策过程时应该问自己这些问题。决策观察者不应照搬照抄这个清单。我们希望它发挥的作用是为决策观察者提供灵感和基准，并使决策观察者能够据此设计出适合自己的偏
待学习
开始阅读
40
附录3 对抗噪声，修正预测
附录3 对抗噪声，修正预测匹配性预测是我们依赖直觉式匹配过程而产生的错误（参见第14章）。当我们基于现有信息做预测时，我们会进行匹配性预测，就好像我们能够依据这些信息对结果做出完美的或准确率非常高的预测一样。让我们来回顾一下朱莉的例子，她4岁就能流利地阅读，那么她在大学时的GPA会是多少呢？如果你预测朱莉在大学时的GPA是3.8，这就意味着你从直觉上判断
待学习
开始阅读
41
致谢
我们要感谢很多人。林内亚·甘地（Linnea Gandhi）是我们的参谋长，她为我们提供了大量的指导和帮助，使我们的工作可以有条不紊地推进，让我们的工作充满欢声笑语。基本可以说，是她主持了本书的撰写。除此之外，她还为本书的初稿提出了许多宝贵建议，没有她，我们无法顺利完成本书。丹·罗瓦洛对成书也起到了非常重要的作用，本书的观点最初就源于他与人合著的一篇文章。我
待学习
开始阅读
42
译者后记
汪祚军中国科学院心理研究所博士，宁波大学教授感谢编辑部独具慧眼，能够邀请中国科学院心理研究所李纾研究员领衔本书的翻译工作。李纾老师是国内最早从事行为决策研究的专家，在行为决策领域深耕数十年，其提出的“齐当别”决策模型在心理学界具有重要的影响力。作为行为决策领域的一名研究者、李纾老师曾经的博士生，能够参与本书的翻译工作，我深感荣幸。在拿到本书的英文原书后
待学习
开始阅读
43
注释
引言偏差与噪声，人类判断的两类错误射击场只是一种隐喻：1778年，瑞士数学家丹尼尔·伯努利（Daniel Bernoulli）在一篇关于评估问题的论文中使用弓和箭进行了相同的类比。Bernoulli, “The Most Probable Choice Between Several Discrepant Observations and the For
待学习
开始阅读

Reader

章节阅读

Local EPUB Text

第23章绩效评估，用基于外部视角的共识框架做出量化判断

让我们从一个练习开始：请选出3个你认识的人，他们可以是你的朋友或同事。请在友善、智慧和勤奋这3种特质上给他们进行1～5分的评分，其中1分是最低分，5分是最高分。现在再请另一个很了解他们的人（这个人可以是你的配偶、好友或者最亲密的同事）用同样的方式对这3个人进行评分。

在某些评估中，你和其他评分者很可能会给出不同的评分，那么出现这种差异的原因是什么呢？你可能会发现，答案在于你们是如何使用量表的，我们称这种量表为水平噪声。也许你认为，需要“特别出众”才能给5分，而另一位评分者则可能认为只需达到“还不错”的水平就能给5分。除此之外，你们之间的差异还有可能是由你们对被评估者的看法不同造成的，例如你们在理解被评估者是否友善以及如何确切地定义美德等问题上存在差异。

现在想象一下，如果要基于你们的评估来确定这3个人能否升职和加薪，并且假设你和另一位评估者是在同一家重视友善、智慧和勤奋的公司工作，你们之间的评分会有差异吗？这种差异会和前面的练习中出现的差异一样大吗？还是更大？不管你的答案是什么，公司的政策和量表上的差异都可能产生噪声，事实上，这种现象在不同组织进行绩效评估时普遍存在。

绩效评估本质上是一种判断工作

几乎所有大型组织都会定期对员工进行正式的绩效评估，而那些被评估的人并不喜欢这种评估。正如有家报纸的标题所示，“研究发现，基本上每个人都讨厌绩效评估”。我们认为，每个人都知道绩效评估会受偏差和噪声的影响，但是大多数人并不知道其中到底存在多少噪声。

在一个理想化的世界里，评估绩效并不是一个判断工作，因为评估人借助客观事实就足以裁定员工工作表现的好坏。但问题在于，大多数现代组织与经济学鼻祖亚当·斯密（Adam Smith）提到的扣针厂没有什么共同之处。在亚当·斯密提到的扣针厂中，每个工人的产出都可以量化。但对一家公司的首席财务官或研发部主管来说，他们的产出是什么呢？当代知识工作者需要平衡多种工作目标，有时这些目标甚至是互相矛盾的。只关注其中一个目标，在做评估时就可能犯错，导致评估结果不准确，并带来负面的激励效果。例如，医生每天接诊的患者数量是医院生产力的一个重要衡量指标，但你并不希望医生一门心思只关注这一指标，更不会只根据接诊人数对他们进行评估和奖励。也就是说，即使是可量化的绩效指标，也需要放在一定的背景条件下进行评估，例如，评估销售人员的销售额或程序员编写的代码行数时，就要考虑具体情况，因为并非所有客户都同样“难伺候”，也并非所有软件开发项目都一模一样。鉴于这些挑战，我们无法完全根据客观的绩效指标对人们进行评估。因此，以判断为基础的绩效评估无处不在。

25%是信号，75%是噪声

有关绩效评估实践的研究文章已经发表了成千上万篇，其中大多数人都发现这些评估充满了噪声。这一发人深省的结论主要是通过对360度绩效评估的研究得出的。这类研究需要多个评估者共同参与，并且基于多个绩效维度对同一个人进行评估。在进行数据分析时我们会发现，这类研究的结果并不理想：真正的差异——个人绩效产生的差异通常不超过总差异的20%～30%，其余70%～80%的差异是系统噪声。

这些噪声是从哪里来的？得益于多项关于工作绩效评估变异性的研究，我们现在已经知道，系统噪声的所有成分都在起作用。

在绩效评估的背景下，这些噪声成分是显而易见的。请想象两位评估者：琳恩和玛丽。如果琳恩的评估标准比较宽松，而玛丽的评估标准比较严格，换言之，琳恩对所有人的评分都比玛丽的更高，那么就出现了水平噪声。就像我们在讨论法官判决的案例时所看到的那样，这种噪声可能表示琳恩和玛丽真的对被评估者形成了不同的印象，也可能表示她们对被评估者的印象相同，但使用评估量表的方式存在差异。

现在，如果琳恩要对你进行评估，而且碰巧她对你和你的工作印象极差，她一向宽松的标准可能会与她对你的特殊（负面）的评价相抵消。这就是我们所说的稳定模式——一个特定评估者对特定被评估者的反应，这种模式是琳恩所独有的，这就是模式噪声的来源。

最后要讲的是情境噪声。玛丽可能在填写评估表之前发现有人把她停在停车场的车撞坏了，这让她在做评估时心情极差；琳恩可能刚刚收到了丰厚的奖金，这让她在做评估时心情极好。类似这样的事情当然可能会产生情境噪声。

关于如何将系统噪声分解为水平噪声、模式噪声和情境噪声这三种成分，不同的研究会给出不同的结论。我们肯定可以想明白，为什么不同组织的噪声成分会有所不同。当然所有形式的噪声都是我们不希望存在的。这些研究所传达的基本信息只有一个：大多数绩效评估结果与被评估者的真实绩效之间的关系远非我们想象中那么紧密。正如一篇综述文章中总结的那样：员工真实的工作绩效和对工作绩效进行的评估之间的关系可能很弱，或者说，两者之间的关系还不确定。

此外，组织中的绩效评估之所以无法反映员工的真实绩效，原因有很多。例如，评估者实际上可能不会尽可能准确地评估绩效，但可能会“策略性地”对员工进行评估。一些其他动机可能使评估者故意给员工打高分，例如为了避免煎熬的反馈性谈话(10)，为了帮助一个一直在寻求晋升机会的人，甚至只是为了摆脱一个表现不佳的团队成员——该成员需要有良好的评价才可能被调到其他部门。

这些策略性的考虑当然会影响评估，但它们并不是唯一的噪声来源。我们之所以知道这些，全要归功于一种自然实验：仅以研发为目的的360度反馈系统。在这些系统中，受访者被告知他们的反馈并非用于绩效评估，如果评估者真的相信了这种说法，那么这就能防止他们夸大或降低评价。事实证明，研究性评估确实会对反馈产生影响，但系统噪声仍然很高，而且相比于被评估者的实际绩效系统，噪声能够解释更多的变异性。可以看出，即使是纯粹的研究性的反馈机制，评估中也仍然充满噪声。

一个早就发现却没有解决的问题

如果绩效评估系统如此不可靠，那么实施绩效评估的人就应该已经注意到并力图改进这个体系。事实上，在过去的几十年里，众多组织的确对这些评估制度进行了无数次的改革。这些改革也采用了一些我们提出的减少噪声的策略，但在我们看来，人们做得还远远不够。

几乎所有组织都使用汇总策略来减少噪声。人们通常将汇总评估与360度反馈系统相结合，这在20世纪90年代成为一些大公司的标准做法，《人力资源管理》（Human Resources Management）杂志在1993年推出了一期关于360度反馈系统的专刊。

虽然对所有评估者的评估进行平均有助于减少系统噪声，但值得注意的是，360度反馈系统并非是为了解决这个问题而开发的，它的主要目的是测量出一些领导看不到的东西。这个评估系统要求被评估者的同事和下属而不仅仅是其领导参与对他们的绩效评估，这样一来，评估的本质就已经改变了。从理论上讲，这种转变是一种改进，因为这使得人们的工作并不是为了取悦领导。360度反馈的盛行与非固定的、基于项目的组织形式是契合的。

一些证据表明，360度反馈系统是一个有用的工具，因为它可以对客观、可量化的绩效做出预测。然而，这种反馈系统自身也会制造一些问题。计算机的普及使得在反馈系统中添加更多问题变得轻而易举，组织的多重目标以及越来越多的限制也增加了岗位描述的维度，许多反馈问卷变得异常复杂，过度设计的调查问卷比比皆是。例如，有一份调查问卷要求每个评估者对被评估者在11个维度上进行46项评估。通常来说，人们是无法回忆和处理多个被评估者在多维度上准确且相关的表现的，因此，从某种角度来看，这种过于复杂的方法不仅无用，而且有害。我们知道，光环效应意味着看上去相互独立的维度实际上不会被独立对待，对最初几个问题给予一个强烈肯定或否定的评估后，后续问题的答案就会相应地偏向同一个方向。

更重要的是，360度反馈系统的发展成倍地增加了参与反馈的时间成本。中层管理者被要求填写针对各层级同事的几十份调查问卷，这种情况在很多组织中屡见不鲜，有时他们还需要填写针对其他组织中的员工的调查问卷，因为现在许多公司都要求客户、供应商和其他业务合作伙伴提供反馈。即便这样做的出发点是好的，但是当时间有限的评估者们遭受一系列问卷的“轰炸”时，我们就别指望他们能够提供高品质的信息。在这种情况下，减少噪声要付出的代价可能会非常大，这是我们将在第六部分讨论的问题。

最后，360度反馈系统也存在所有绩效评估体系都无法避免的一种通病——悄无声息地出现评估通胀。比如，一家大型工业公司曾观察到，公司98%的管理者被评为“完全符合预期”。当几乎所有人都获得了最高评价时，这些评估的真实价值就值得怀疑了。

相对判断的优点

从理论上讲，解决评估通胀问题的一个有效方法是在评估过程中引入一些规范，其中一个普遍的做法是强制排名（forced ranking）。在强制排名体系中，评估者不仅不能给所有人最高的评分，而且评分还必须遵循预先设定的评分分布。杰克·韦尔奇（Jack Welch）在担任通用电气CEO时曾倡导强制排名这种做法，以此来防止评估通胀，以及确保绩效考核的“公正”。许多公司都采用了这个方法，但由于它会对员工士气和团队合作产生不良影响，人们渐渐就不再使用这种方法了。

无论排名有什么缺点，排名的噪声都比评分的要小。我们在惩罚性损害赔偿的例子中看到，相对判断中的噪声比绝对判断中的噪声要少得多，因此这种关系也被证明适用于绩效评估。

想要了解其中的原因，请看图23-1，它展示了两种评估员工表现的量表。A组对员工进行绝对评分，我们称之为匹配性操作——找到与员工“工作表现”印象最接近的分数。相比之下，B组要求在特定维度（如安全性）上将每个人与同组的其他人进行对比，要求主管使用百分位数来评定员工在特定人群中的排名。从图中我们可以看到，主管已在百分位数量表上找到了3名员工的位置。

图23-1　绝对量表和相对量表的示例

B组的方法有两个优点。第一，每次只在一个维度上对所有员工进行评估（在这个例子中评估的是安全性），这是一种减少噪声的策略，即将复杂判断结构化地分解成多个维度的单一判断，我们将在下一章详细讨论这一策略。结构化是一种限制光环效应的手段，它通常可以将一个人在不同维度上的评估限制在一个小范围内。当然，只有在像本例这样对每个维度分别进行排名时，结构化才能起作用。如果在“工作表现”这种定义不清晰的总体判断上对员工进行排名，则不会减少光环效应。

第二，正如我们在第15章中讨论的那样，排序同时减少了模式噪声和水平噪声。当你将两个团队成员的绩效相互比较而不是单独给每个人打分时，出现评估不一致（产生模式噪声）的情况会少一些。更重要的是，排名自动消除了水平噪声。如果琳恩和玛丽对同一个包含20名员工的团队进行评估，尽管琳恩比玛丽的评估标准更宽松，她们给出的平均评分会有所不同，但她们给出的平均排名不会存在差异——一个标准宽松的评估者和一个标准严苛的评估者采用的是相同的排名方式。

事实上，强制排名的主要目的在于减少噪声，它确保了所有评估者都有相同的平均值和相同的评分分布。如果规定了评分的分布，排名就是强制的。例如，某一条规则可能会规定“被评为最优的人数不可以超过被评估者总人数的20%，垫底的人数也不可以少于总人数的15%”。

排名，但不强制

从原则上说，强制排名理应给评估带来巨大的改善，结果却往往适得其反。这里我们不打算就其可能带来的所有不良后果展开讨论，这往往与执行不力有关，而非原则本身的问题，但我们还是可以从强制排名体系的两方面问题中吸取一些具有普遍性的教训。

首先是绝对绩效和相对绩效之间的混淆。任何公司都不可能有98%的经理在绩效表现上跻身群体的前20%、前50%甚至前80%。但如果预期的绩效是事先定义好的绝对绩效，那么经理们都能“达到预期”也并非不可能。

许多高管并不认同几乎所有员工都能达到预期标准这一点，他们认为，如果是这样的话，肯定是期望标准设置得太低了，要不就是因为自鸣得意的组织文化。诚然，这种解释可能是正确的，但大多数员工也可能确实达到了高预期标准，而且在高绩效组织中，这种情况完全有可能出现。例如，当你听说所有成功执行太空任务的宇航员都完全达到了预期标准，你并不会嘲笑国家航天部门的绩效管理程序太过宽松。

重点是，只有当组织关心相对绩效时，依赖于相对评估的体系才是合适的。例如，无论人们的绝对绩效如何，都只有一定比例的人可以晋升，此时，相对评估才可能有意义——参考军队的晋升机制。但是，如果像很多公司那样，评估的目的只是衡量员工的绝对绩效水平，此时强制使用相对排名便不合逻辑了。强制规定将一定比例的员工评为不符合（绝对）预期，这不仅残忍而且荒谬——如果说在一支精锐部队中，有10%的人必须被评为“不满意”，那么这种做法就太愚蠢了。

其次，有些组织认为强制的评估分布反映了潜在的真实绩效分布（通常指接近正态分布），然而，即使群体中的绩效分布是已知的，同样的分布也可能不会出现在一个较小的群体中，如由一名评估者评估的小型员工群体。如果从几千人中随机挑选10人，你不能保证其中一定有两个人属于总体的前20%。“不能保证”是保守的说法，实际上，这种情况发生的概率只有30%。而在实践中，这个问题会更加严重，因为团队的构成不是随机的。一些团队成员可能全是高绩效人员，而另一些团队则可能完全由低绩效人员组成。

在这种情况下，强制排名的做法不可避免地会产生错误和不公正。例如，假设一个评估者所评估的团队由5个绩效表现相同的人组成，他们的实际绩效表现相差无几，而其评分却要符合强制性、差别化的评分分布，这样的做法并不能减少错误，反而会增加错误。

批评强制排名方法的人经常把攻击的重点放在排名原则上，他们谴责这一原则的残忍、不人道，并认为采用这种方法会适得其反。无论你是否接受下述辩驳，强制排名的致命缺陷不是“排名”，而是“强制”。不管是因为将相对量表用于衡量绝对绩效，还是因为做判断者被迫要将无法区分的绩效区分开来，只要判断中强制使用了不合适的量表，不管你怎么选择量表，都会自动增加噪声。

确保有一个达成共识的参考框架

对于各种组织为改进绩效评估的测量方式所做的努力，说其结果“令人失望”都算是保守的，这些努力的结果是：绩效评估的成本直线上升。2015年，世界四大会计师事务所之一德勤（Deloitte）经过计算发现，公司每年要花费200万工时用于评估6.5万名员工的绩效。绩效评估可以说是组织中最可怕的仪式之一，那些不得不进行评估的人和不得不接受评估的人都痛恨绩效评估。一项研究发现，90%的管理者、员工和人力资源主管都认为，他们的绩效管理流程无法实现预期的效果，相关的研究证据也证实了大多数管理者的这种感受。这一发现令人震惊。虽然绩效反馈与员工发展计划相结合时可以带来一些改进，但绩效评估对员工工作积极性的打击同它带来的激励一样大。正如一篇评论文章总结的那样：几十年来，无论人们尝试了什么方法来改进绩效管理流程，绩效评估仍然会产生不准确的信息，并且对提升绩效几乎起不到任何作用。

由于对绩效管理流程感到绝望，越来越多的公司正在考虑做出一种极端的选择：彻底取消评估体系。这场“绩效管理革命”的支持者包括许多技术公司、一些专业服务机构和少数传统行业的公司，他们的目标是关注发展性的、面向未来的反馈，而不是回顾性的评估。有些公司甚至采用非数字型的评估指标，这意味着他们放弃了传统的绩效评估方式。

对于绝大多数没有放弃绩效评估的公司来说，它们可以做些什么来对其进行改善呢？它们可以采用的减少噪声的策略就是选择合适的量表，以确保不同的判断依据的是相同的参照系。研究表明，改进评估方式并对评估者进行培训有助于提高评估者使用量表的一致性。

需要指出的是，绩效评估量表必须使用具体的描述，只有这些描述足够具体，人们对它们的理解才能够保持一致。许多组织都会使用“行为锚定评估量表”（behaviorally anchored rating scales），该量表上的每个评定等级都对应着具体的行为描述，图23-2的左侧给出了一个示例。

图23-2　行为锚定评估量表（左）和案例量表（右）的例子

然而，有证据表明，行为锚定评估量表不足以消除噪声。不过，进一步的参照框架培训（frame-of-reference training）则被证明有助于确保评估者之间的一致性。在这一步流程中，评估者将接受相关培训来对绩效的不同维度进行识别。他们通过视频中的案例来练习进行绩效评估，并通过与专家提供的“真实”评估做比较来了解自己的评估水平。视频中的案例可以作为参考案例，每一个案例都定义了绩效量表上的一个锚定点，这样就形成了一个案例量表，如图23-2的右侧所示。

使用案例量表对每个新成员进行评估时，我们都可以将评估对象与锚定案例做比较，这样一来，评估就变成了一种相对判断。由于相对判断比评分更不容易受到干扰，案例量表比使用数字、形容词或行为描述的量表更可靠。

参照框架培训在几十年前就已经为人们所知，用它进行评估，结果显然更加准确，噪声数量也更小，然而，这种方法却难以得到普及。我们很容易猜到其中的原因，参照框架培训、案例量表以及其他力图达到相同目标的工具都很复杂，而且构建这样的工具需要花费大量时间。为了保证切实可用，它们常常需要根据公司的需求甚至为评估部门专门定制，并且要随着岗位要求的变化而不断更新。这些评估工具要求公司在已经投入巨大资金的绩效管理系统中追加新投入，这与现在的做法背道而驰。在第六部分，我们会介绍更多有关减少噪声成本的内容。

此外，对于任何组织来说，如果控制了评估者在评估过程中的噪声，也就限制了评估者按照自身意图来影响评估的空间。要求管理人员接受额外的评估者培训，在评估过程中投入更多精力并放弃对结果的一些控制，这些举措肯定会面对相当大的阻力。值得注意的是，迄今为止，大多数关于参照框架培训的研究使用的被试都是学生，而非实际管理者。

绩效评估这一大课题产生出了许多现实问题和哲学问题。例如，有些人会问，在当今的组织中，个人绩效的概念在多大程度上是有意义的，因为组织的成果往往取决于人们之间的互动。如果我们认为这个概念确实是有意义的，那么就需要想一想，在一个既定的组织中，个人绩效水平是如何分布的，例如，绩效是否服从正态分布，或者是否存在做出极大贡献的“超级人才”。如果你的目标是让人们表现出最好的一面，那么你自然会问，衡量个人绩效并用衡量结果来激发人们的恐惧与贪婪是不是最好的方法？这是不是有效的方法？

如果你正在设计或修改组织的绩效管理体系，那么你就需要回答以上问题乃至其他更多问题。我们的目的不是研究这些问题，而是提出一个更为温和的建议：如果你确实测量了绩效，你的绩效评估过程很可能充满了系统噪声，因此这些评估过程可能基本上是无用的，甚至会适得其反。减少噪声是一项挑战，因为它无法通过简单的技术修复来解决。它要求评估者对自己做出的判断有清晰的思考。你很有可能会发现，可以对量表进行清晰的界定，可以训练人们始终按照相同的方法使用这一量表，以此来提升判断品质。这种降噪策略也适用于许多其他领域。

阅读时长

核心概念

章节学习

第23章 绩效评估，用基于外部视角的共识框架做出量化判断

第23章绩效评估，用基于外部视角的共识框架做出量化判断