学习进度

0%

阅读时长

未满 1 分钟

最近阅读:未开始阅读

核心概念

待提炼

章节学习

  • 1

    各方赞誉 Fooled by Randomness

    各方赞誉 Fooled by Randomness 这是一本奇特的书。作者的观点特别重要,如果你正要购买基金,我强烈建议你先读这本小册子。 汪丁丁 北京大学中国经济研究中心和浙江大学经济学院 经济学教授、《财经》学术顾问 本书的内容很容易理解,但这并不会让阅读本书变得多余。正如作者在他的观察中发现的,数学是后天学的,但懂数学却是天生的。生活中,随机性无处不在

    待学习
    开始阅读
  • 2

    专家推荐 Fooled by Randomness

    专家推荐 Fooled by Randomness 巴菲特如此总结一生投资赚钱的经验:投资成功,只要能够尽量避免犯下重大错误,投资者只需要做很少的正确事情就足以保证盈利了。 巴菲特的成功秘诀可以归纳为两个基本点:一是成大功,二是避大险。成大功,才能赚大钱,但避大险更重要。很多人开始成了大功,后来却未能避开大险,结果死得很惨。只有很少人活到最后,赚到最后,笑到

    待学习
    开始阅读
  • 3

    自序 任何人都会买卖 Fooled by Randomness

    自序 任何人都会买卖 Fooled by Randomness 10年来,谈论人类面对随机性时所持的偏见(不管是后天习得或与生俱来)的论著已相当多。写这本书时,我根据的原则是避免讨论我没有亲身经历的事,或不是我独自发展出来的东西;以及我还没有吸收消化完全,没办法不费吹灰之力写出来的东西。任何有上述问题的材料我都弃而不用。我也删除了一些内容,包括频频提及的研究

    待学习
    开始阅读
  • 4

    前言 幸运的交易员 Fooled by Randomness

    前言 幸运的交易员 Fooled by Randomness 本书谈的主题是分明靠运气,却被误认为是凭非运气(即技术)才完成的事;以及更普遍来说,分明是随机现象,却被误认为是非随机现象(即决定论)。所谓幸运的傻子,正是这样的写照。幸运的傻子运气好得出奇,却煞有介事地把自己的成功归诸其他特定原因。这种似是而非的现象,常出现在许多始料未及的地方,连科学也不例外,

    待学习
    开始阅读
  • 5

    第一章 赚钱的随机性

    第一章 赚钱的随机性 塔利波和约翰是如此不同,他们迥异的操盘方式也让他们的生活有着巨大落差,随机性为何让约翰如此大富大贵? 多疑的塔利波 迷上证券交易 某年春天,塔利波(Nero Tulip)参观芝加哥商业交易所(Chicago Mercantile Exchange)时目睹一宗怪事,就此迷上证券交易。当时有一辆红色敞篷保时捷跑车,以市区限速好几倍的速度疾驰

    待学习
    开始阅读
  • 6

    第二章 奇特的结算方法

    第二章 奇特的结算方法 那些成功人士其实只是转盘赌博中的幸运儿罢了,只是,他们的幸运究竟能持续多久? 首先我要老调重弹:不管是战争、政治、医疗或投资各方面,我们都不能以成败论英雄,而必须从“假如历史以另一种方式呈现”的另类成本来论断成败。这种以不同方式呈现的历史,我们称之为“另类历史”。我们不能单凭结果就判定一项决策的优劣,但这样的观点似乎只有失败的人才会接

    待学习
    开始阅读
  • 7

    第三章 从数学的角度思考历史

    第三章 从数学的角度思考历史 历史存在着多种可能,我们不能被历史的一小段过程所迷惑,而要在较大尺度的历史范围内考察一切。 欧洲花花公子的数学 纯粹数学家给人的刻板印象是面无血色、胡须蓬乱、指甲不修,悄无声息地埋首在书籍堆积如山、杂乱无章的书桌上。他挺着啤酒肚、肩膀消瘦,在脏乱的办公室里沉浸于工作中,对周遭混乱的环境视若无睹。他讲起英语来带着浓厚低沉的东欧口音

    待学习
    开始阅读
  • 8

    第四章 随机性和科学知识分子

    第四章 随机性和科学知识分子 人类究竟是怎么了,竟会把胡言乱语也当成妙笔生花? 科学知识分子与人文学者 蒙特·卡罗发生器能够带领我们更接近人文领域。科学知识分子和人文学者之间的分野越来越明显,终于爆发所谓的“科学论战”,使得文科的非科学研究者与文学素养相当的科学知识分子相互对垒。20世纪90年代在维也纳,这两种取向开始分道扬镳,当时一群物理学家认为,由于科学

    待学习
    开始阅读
  • 9

    第五章 最不适者可能生存吗?

    第五章 最不适者可能生存吗? 要叫烂交易员放弃头寸,比叫他们离婚还难。 新兴市场高手卡洛斯 我以前常在纽约各种聚会场合碰到卡洛斯,他总是穿得十分体面,但在女士面前有点害羞。只要逮住机会,我经常紧抓着他不放,请教他赖以为生方面的事情。他从事的是新兴市场债券的买卖,这位好好先生总是有问必答,但神情显得紧张。他的英语虽然讲得流利,但说话时却需要使上一些力气,使头部

    待学习
    开始阅读
  • 10

    第六章 偏态与不对称

    第六章 偏态与不对称 我的意见是市场上涨的可能性比较高(我看好后市),但最好是卖空(我看坏结果),因为万一市场下跌,它可能跌很多。 概率和期望值 作家兼科学家古尔德有一阵子是我崇拜的角色模范,他曾被诊断罹患致命的胃癌,关于他能活多久,他收到的第一个信息是:这种病的存活期的中位数,约8个月。他觉得这个信息很像《圣经》中的以赛亚(Isaiah)告知希西家王(Ki

    待学习
    开始阅读
  • 11

    第七章 归纳法的问题

    第七章 归纳法的问题 索罗斯到处宣称自己容易犯错,却仍拥有那么强大的力量,因为他知道本身的缺点,其他人却自视甚高。 被漠视的归纳问题 接着我们从比较宽广的科学知识的哲学观点来讨论相同的问题。关于推论,有个问题很有名,称做归纳法问题。这个问题困扰科学很长的时间,但是科学不像金融市场那样身受其害。为什么?因为随机成分使它的影响加剧。归纳问题在金融界的重要性甚于其

    待学习
    开始阅读
  • 12

    第八章太多 “下一个富翁”

    第八章太多 “下一个富翁” 外表看起来不像有钱人的人,最有可能是巨富?这是双重的存活者偏差,也就是错上加错。 如何消除失败之痛 何谓快乐 马克和妻子珍娜以及3个孩子住在纽约市的公园大道。他的年收入有50万美元,但视景气好坏而起伏。他不相信目前的好年头能够维持下去,对于近来收入激增,心理上也还没调适好。马克年近40,身材矮胖、皮肤粗糙,看起来比实际年龄老10岁

    待学习
    开始阅读
  • 13

    第九章 买卖证券比煎蛋容易

    第九章 买卖证券比煎蛋容易 一群整体能力欠佳的经理人,仍会有少数人的绩效记录很好。就是蒙古首都乌兰巴托的温度变化,也可能与某种证券的价格走势百分之百相关。 今天下午我和牙医有约,主要是他想问我有关巴西债券的事情。我可以相当放心地说,他懂得怎么治疗牙齿,尤其是我带着牙痛进去,出来时疼痛大幅减轻,对他的信心也就更强。因为对于治疗牙齿一窍不通的人,很难减轻我的疼痛

    待学习
    开始阅读
  • 14

    第十章 生活中的非线性现象

    第十章 生活中的非线性现象 要是埃及艳后克丽奥佩特拉的鼻子稍微短些,全球的命运就将改写。 接下来我要从新的角度探讨生命并不公平这句老掉牙的话。令人惊讶的是:生命是以非线性(nonlinearity)的方式呈现不公平。本章要探讨的是生活中一点小小的优势,可以带来高得惊人的报偿,或者更邪恶的是,根本连一点优势也没有,却因随机性提供小小的帮助而鸿运当头。 最后一根

    待学习
    开始阅读
  • 15

    第十一章 我们是概率盲

    第十一章 我们是概率盲 某些偏见已经深深嵌进我们的大脑里,阻碍我们处理较复杂、可能需要更精确评估概率的环境。 只能想象一种状态 3月的短暂假期内,你有两个选择,第一个是搭机到巴黎,第二个是前往加勒比海。你觉得去哪里都无所谓,没有什么差别;但也许只要你的老婆随便说几句话,你就会选好目的地。想到可能的度假地点时,你的脑海浮现两幅截然不同的影像。第一幅影像中,你腋

    待学习
    开始阅读
  • 16

    第十二章 赌徒的迷信和笼中的鸽子

    第十二章 赌徒的迷信和笼中的鸽子 斯金纳的实验告诉我们其实在事物之间建立因果关系方面,我们并不比鸽子更高明。 赌徒的迷信 首先,回顾我早年在纽约当交易员的日子。刚踏进这一行时,我任职于瑞士第一波士顿投资公司(Credit Suisse First Boston),那时公司位于五十二街和五十三街、麦迪逊大道和公园大道的街区中间。虽然位于中城,它还是被称做华尔街

    待学习
    开始阅读
  • 17

    第十三章 概率与怀疑论

    第十三章 概率与怀疑论 卡涅阿德斯是一位巧舌如簧的怀疑论者。科学家也比科学危险,因为他们是凡人,也会被凡人的偏见污染。 请你身边的数学家为概率下个定义,他很可能告诉你怎么去计算它。第三章讨论过概率不是谈运气的问题,而是指我们相信有另类的结果、原因或动机存在。我们也说过,数学是用以思考而不是计算的工具。此处我们要再次向古人请求更多指引,因为概率对他们而言不过是

    待学习
    开始阅读
  • 18

    第十四章 掌控随机现象

    第十四章 掌控随机现象 战败后的安东尼众叛亲离,连坐骑都投奔敌人屋大维,命运如此捉弄,我们能如何应对? 出身贵族的法国古典派作家蒙特朗(Henry de Montherlant)得知将因一种退化性疾病而失明时,他觉得最适当的做法是自行了结生命。这正是古典派作家的结局。为什么?因为面对随机问题时,斯多噶学派的教条即是选择能够掌控自己命运的方法。最终,他们可以在

    待学习
    开始阅读

Local EPUB Text

第九章 买卖证券比煎蛋容易

第九章 买卖证券比煎蛋容易

一群整体能力欠佳的经理人,仍会有少数人的绩效记录很好。就是蒙古首都乌兰巴托的温度变化,也可能与某种证券的价格走势百分之百相关。

今天下午我和牙医有约,主要是他想问我有关巴西债券的事情。我可以相当放心地说,他懂得怎么治疗牙齿,尤其是我带着牙痛进去,出来时疼痛大幅减轻,对他的信心也就更强。因为对于治疗牙齿一窍不通的人,很难减轻我的疼痛,除非他那一天运气特别好;或者是这一辈子运气都很好,虽然对治疗牙齿一无所知,却还是成了牙医。看到他墙上挂的学位证书,我认定他若是纯凭运气,要考试一再答出正确的答案、实习治疗几千颗蛀牙的结果令人满意,终于得以侥幸毕业,这样的概率非常小。

那天晚上,我计划去卡内基音乐厅听演奏会。我对那位钢琴家所知不多,甚至忘了她那念起来很拗口的外国名字,只记得她曾在莫斯科某所音乐学院研习,但我依然相信我能够听到美妙的钢琴演奏。由于过去的钢琴演奏技巧精湛,因而能登上卡内基音乐厅演奏,现在却被证明纯靠运气而享有盛名,这样的可能性微乎其微。不幸碰到一位骗子在台上乱敲发出刺耳的声音,这种概率确实很低,所以我把它完全排除。

上个星期六我在伦敦。星期六的伦敦很奇妙,人群熙攘,但看不到上班日子里机械工业的忙碌景象或者星期日的冷清。我手上没带表,也没特地想到哪里去,就这样信步逛到维多利亚与阿尔伯特博物馆(Victoria & Albert Museum),站在我喜爱的卡诺瓦(Canova)雕刻作品前面。由于过去的专业训练,我心里马上浮现一个疑问:随机性是不是在这些大理石雕像完成的过程中扮演某种重要的角色?这些雕像栩栩如生,比大自然本身的创作更为和谐与平衡。如此精巧的作品有可能是运气下的产物吗?

我也可以对在实体世界或在极少出现随机性的行业中工作的任何人,提出相同的问题。但事情一旦和商业扯上关系,就会出现问题。我现在觉得心烦,因为很不幸,明天和一位基金经理人有约,他想请我和我的朋友帮忙找投资人。他自称绩效记录良好,我只能推论他已经学会买卖证券,而买卖证券比煎蛋还容易。他曾经赚到钱,这个事实或许值得注意,但并不是很重要,这并不是说绩效记录永远都不重要。有些时候,我们可以信赖一个人的绩效记录,但可叹的是这样的例子并不多。读者应该料想得到,那位经理人提出说明时,我一定会毫不留情地猛轰,尤其如果他没有表现出一丁点的谦虚态度或自我怀疑的话。对于每天应付随机性的人,我觉得保持这种态度是应该的。我也可能提出他始料未及的问题,由于他过去的成果,他也许不曾想过这些问题。我或许会告诉他,马基雅维利(Machiavelli)认为运气在人生遭遇中至少占50%的比重(其余则靠机巧和胆识),而那还是在现代市场创立之前的环境。

本章将讨论绩效记录和历史时间序列一些有违直觉但很有名的特征。这里所谈的观念,名称有几种,如存活者偏差、数据挖掘(data mining)、数据探索(data snooping)、过度配适(overfitting)、回归平均值(regression to the mean)等,基本上它们都是因为观察者对随机现象的重要性认知错误,因此过度夸张过去的绩效。这个观念显然令一些人坐立难安。它也可以引用到可能具有随机性,但比较一般性的状况,例如选择医疗方法或者解读巧合事件。

有人要我说明财务研究将来对一般科学的可能贡献时,我引用了数据挖掘的分析和存活者偏差的研究为例。它们已在财务学中更上一层楼,但可以沿用到所有的科学研究领域。为什么财务学的内容那么丰富?因为很少研究领域像它那样,拥有很多的信息,譬如大量的价格数列,但是无法像物理学那般进行实验。于是对过去数据的依赖,成了它显而易见的瑕疵。

被数字愚弄

统计学是一把双刃剑

我经常被问到这样的问题:“你以为自己是谁,竟想告诉我,这辈子我可能只是纯凭运气而已?”嗯,没人真的相信自己只是运气不错。我使用的方法是,利用我们的蒙特·卡罗发生器,可以制造出纯属随机的状况。我们可以和传统的方法背道而行,也就是不去分析真实的人希望从中找到的某些属性,而是根据既知的属性来创造一些仿真的人物。这么一来,就可以制造某些完全取决于运气的状况,不必靠一丝技能或“混为一谈表”中所说的非运气。换句话说,我们可以用人为的力量制造一些供作嘲笑的无名小子;在我们的设计中,他们不具备任何能力,完全就像安慰剂一样。

第五章谈过有些人的特质恰好暂时符合当时的随机结构,因而能够存活。这里我们谈的是更为简单的状况,其中的随机结构为已知。第一个例子是一句流行格言:即使是停住不动的时钟,一天也有两次正确。我们将稍为引申,说明统计学是一把双刃剑。我们借用前面说过的蒙特·卡罗发生器,虚构一万个投资经理人(不见得必定要用发生器,我们也可以用硬币,甚至使用简单的代数,但用发生器来说明比较精彩且有趣)。假设他们每个人的赚赔概率恰好各半:年底时每个人都有50%的概率赚到1万美元,50%的概率赔掉1万美元。我们再多加一条限制,一旦某位经理人某年的表现很差,便从样本中剔除,跟他说再见,祝他余生好运。如此运作很像传奇性的投机分子索罗斯,据说他曾告诉被招来开会的经理人:“明年你们有一半的人会出局。”(带着东欧口音。)和索罗斯一样,我们的标准定得极高,我们只留下毫无污点的经理人。对于表现不够好的经理人,我们没有耐性。

蒙特·卡罗发生器会掷出硬币,出现正面的话,某位经理人那一年会赚1万美元;出现反面则会赔1万美元。第一年结束时,预期会有5000位经理人各赚1万美元、5000位经理人各赔1万美元。接着再仿真第二年。同样,预期会有2500位经理人连续第二年获利。再过一年是1250位,到了第4年是625位,而第5年只剩下313位。在输赢概率各半的游戏中,我们现在有313位经理人连续5年获利。这纯粹是靠运气得来的。

质疑“依靠能力”

我们把以上论点再延伸,好让它更有趣些。我们创造出一大群人,清一色是能力欠佳的经理人。所谓能力欠佳的定义是他们的期望报酬为负值,也就是运气和他们过不去。现在指示蒙特·卡罗发生器从罐子里取球。罐中有100颗球,其中45颗是黑球、55颗是红球。每次取出后再放回去,因此红球、黑球的比率不会变。如果取出黑球,经理人赚1万美元;取出红球,赔1万美元。因此每位经理人可望有45%的概率赚到1万美元,55%的概率赔掉1万美元。平均来说,每一回合经理人会赔1000美元,不过这只是平均值而已。

第一年结束时,我们预期会有4500位经理人获利(占45%),第二年,其中的45%的人获利,也就是2025位,第3年有911人,第4年是410人,第5年有184人。我们封给他们响亮的头衔,让他们穿名牌西装。没错,存活下来的经理人,只占原始群体的2%以下。这些人现在是众所瞩目的焦点,没有人会去提另外98%。我们能够得到什么结论?

第一个有违直觉的结论是:一群整体能力欠佳的经理人,仍会有少数人的绩效记录很好。事实上,假使有位经理人不请自来,站到你家门口,你无从得知他是好经理人还是坏经理人。即使整个群体都由长期而言必将赔钱的经理人组成,结果也不会有显著的变化。为什么?由于波动性的关系,其中有些人会赚到钱。由此可见市场的波动反而对坏投资决策有帮助。

第二个有违直觉的论点是:我们所关心的绩效记录的极大值的期望值(expectation of the maximum),受原始样本的大小影响较大,受每位经理人的个别运气影响较小。换句话说,某个市场中,绩效记录杰出的经理人数目多寡,主要取决于当初选择这一行而没去念牙医系的经理人数目;至于他们个别的获利能力,影响则没那么大。它同样也取决于市场的波动性。为什么我使用极大值期望值的概念?因为我根本不关心平均绩效记录。我能看到的只会是表现最好的经理人,不是所有的经理人。如果1997年入行的经理人多过1993年,那么2002年的“优秀经理人”会多于1998年—我敢说一定如此。

时间会消除随机性

从更技术性的角度来说,我不得不指出,人往往相信他们能从所见到的样本导出分布的性质。谈到取决于极大值的事物时,我们所推导的则是完全不同的另一种分布,也就是表现最佳者的分布。我们把这种分布的平均值,以及赢家和输家都包含在内、无条件分布两者间的差距,称做存活者偏差—这里指的是原来的群体中有约3%的人连续5年赚到钱。此外,本例也说明了遍历性(ergodicity)的性质,也就是时间会消除随机性的恼人影响。展望未来,尽管5年来这些经理人获有利润,我们预期将来某个时期,他们的绩效累计起来会是损益两平。他们的表现不会比原始群体中很早就中箭落马的人好。唉,关键在于“长期”!

几年前,我对那时候的“宇内高手”某甲说,绩效记录没有他想象的那般重要,他觉得这句话很伤人,气得拿打火机掷我。我从这件往事学到很多。务必牢记,每个人都认为自己的成功全凭实力,毫无侥幸,只有失败时才会认为是运气使然。他所在的是一个由“杰出交易员”所组成,当时获利颇丰的部门。当他在部门内业绩领先群雄时,更是志得意满、不可一世。他们后来在1994年纽约酷寒的冬天中炸毁—由于格林斯潘(Alan Greenspan)出乎意料地调高利率,造成债券市场暴跌。有趣的是,6年后我再也看不到他们有任何人仍在交易,因为遍历性。

前面说过,存活者偏差取决于母群体的原始大小。一个人过去赚到钱这个信息,本身既无意义且不重要。我们必须知道他所属群体的大小。换句话说,如果不知道曾有多少经理人尝试过且失败,我们没办法评估绩效记录的有效性。要是原始群体只有10个经理人,那么我会毫不考虑地把一半的积蓄交给表现优异者。如果原始群体有一万名经理人,我会对他们的操作成果视而不见。这一阵子,不少人都被吸引到金融市场来,许多大学毕业生踏进社会后第一件工作便是交易,失败了再转行去学牙医。

如果像童话故事那样,这些虚构的经理人化为真人,其中一位可能是明天上午11点45分我要见的那个人。为什么我会选11点45分?因为我会问问他的交易风格,我需要知道他怎么操作。要是那位经理人过分强调以往的绩效,我便可以借口说我已经和别人约好一道吃饭必须赶紧过去。

无巧不成书

接下来讨论真实生活中,我们对机缘巧合的分布所持有的偏见。

神秘信件

1月2日你接到一封匿名信,说这个月股市会上涨。结果股市果然上涨,但你不以为意,因为大家都知道有元月效应这回事(历年来1月的股价涨多跌少)。到了2月1日,你又接到另一封信,说股市将下跌。这一次,又给那封信说中了。3月1日再接到一封信,情形一样。7月,你对那位匿名人士的先见之明很感兴趣,对方邀你投资某个海外基金。于是你把全部的积蓄拿出来投资。两个月后,那些钱有如肉包子打狗,一去不回。你伏在邻居的肩膀上号啕大哭,他告诉你,他也接过两封这种神秘信,但寄到第二封就停了。他说,第一封信的预测正确,但第二封不正确。

这是怎么一回事?那些骗子玩的把戏是,他们从电话簿找出1万个人名,寄出后市看涨的信给其中一半的人,后市看跌的信给另一半的人。一个月后,将有5000人接到的信预测正确,然后再针对这5000人如法炮制。再一个月后,剩2500人接到的信预测正确,如此直到名单上剩下500人,其中会有200人受骗上当。因此骗子只要花几千美元的邮资,便可赚进数百万美元。

网球赛中的电视广告

看电视上的网球比赛转播时,经常会有一些基金大做广告,吹嘘它们直到当时为止的表现,比别人好几个百分点。但是同样的,如果报酬率没有市场的涨幅高,会有人做广告吗?向你推销的投资,它们的成功完全靠运气得来的概率很高。这种现象就是经济学家和保险业者所说的逆向选择(adverse selection)。由于这种选择偏差,评估主动上门推销的投资时,所用的标准应该比你自己去寻找投资机会,所用的评估标准严格。比方说,如果全部的经理人有1万名,那么我主动去找经理人时,有2%的机会碰到纯靠运气而活的经理人。但是如果待在家里,有经理人前来按门铃,对方纯靠运气而活的可能性接近100%。

生日悖论

向不懂统计学的人说明数据挖掘问题时,最简单的方法是利用所谓的“生日悖论”,不过它其实不能算是悖论,只是反直觉的奇怪现象。随便找一个人,你和他的生日碰巧是同一天的概率是1/365.25,碰巧同年同月同日生的概率更是低得多。因此和某人的生日同一天,是你会在晚餐桌上大谈特谈的巧事。一个房间内有23个人,任意两人生日同一天的概率有多少?约为50%。关键在于我们没有指明哪两个人必须同一天生日;任意两人都可以。

世界真小!

一个人在万万想不到的地方偶然遇见亲朋好友的这种情况往往也会造成对概率的类似误解。这时候,人们往往带着惊讶的口吻说:“世界真小。”但是这种事情并非难以发生—这个世界比我们想象的要大得多。其实我们根本没有真正想过在某时某地遇见某人的概率到底有多少。相反的,我们谈的只是任何偶遇,也就是和过去认识的任何人,在将来任何地方巧遇的概率。后者的概率高得多,或许比前者高数千个数量级。

统计学家观察资料,测试某种特定的关系时,例如了解政府宣布某件事和股市波动性的相关性,他们很可能对所得的结果信以为真。但是当我们把数据交给计算机去处理,寻找任何关系时,肯定会有某种虚假的关联性出现,例如股市的涨跌竟和妇女裙摆的高度有关,正如生日碰巧落在同一天,而人们看到这种结果后总是瞠目结舌。

数据挖掘

中新泽西州彩票两次的概率有多少?1.7×10-9。但这种事情就是发生在亚当斯(Evelyn Adams)身上。读者可能觉得,幸运之神一定特别眷顾这个人。哈佛大学的戴亚康尼斯(Percy Diaconis)和莫斯泰勒(Frederick Mosteller)利用上面说过的方法估计,某个人在某个地方,以完全未指明的方式,碰到那么幸运的巧事的概率,居然高达1/30!

有些人做数据挖掘的工作已经进入神学的领域—毕竟古地中海人也是从鸟的内脏发现重要的事情。德罗斯宁(Michael Drosnin)所写的《圣经密码》(The Bible Code),把数据挖掘工作扩延到圣经的注释上,是挺有趣的一件事。德罗斯宁当过新闻记者,但似乎不曾受过任何统计学的训练。他在一位“数学家”的研究协助下,借解读圣经密码而“预测”到以色列总理拉宾(Rabin)将遇刺,他曾经通知拉宾此事,但拉宾不以为意。《圣经密码》发现圣经中有统计上的不规则性,因此有助于预测类似的事件。不用说,这本书卖得很好。

书评的偏差

我喜欢逛书店,漫无目标地一本接一本浏览,想要决定是不是值得花时间去读某本书。我常常一时冲动,根据浮泛但有提示作用的线索来买书。我往往只看书封的介绍就做决定。书封通常有某人的推荐语,不管那个人有没有名气,或是从书评中摘录一段文字刊载出来。名气响亮且为人敬重的人,或者知名杂志的推荐,会促使我下定决心买某本书。

这有什么不对?我倾向于把书评和最好的书评混为一谈。前者是指对一本书品质的好坏所做的评估,后者则遭相同的存活者偏差玷污。我把一个变量的极大值分布误认为那个变量本身。除了最好的推荐语,出版公司绝不会把其他任何东西放在书封上,有些作者更过分,找来评语冷淡,甚至持负面看法的书评,从里面挑一些看来好像在赞美的字眼。英国金融数学家威尔莫特(Paul Wilmott)说我写的是他“头一次遇到的坏书评”,但他却能从里面摘录一些话,放在书封上当推荐语。后来我们成为朋友,让我有机会讨到他的签名。

我第一次被这种偏差愚弄,是16岁时根据哲学家萨特在书封上写的推荐语,而购买了美国作家多斯·帕索斯(John Dos Passos)写的《曼哈顿中转站》(Manhattan Transfer)。萨特言下之意,指多斯·帕索斯是当代最伟大的作家。寥寥数语,可能是在一时的狂喜和激情中脱口而出的,却使多斯·帕索斯成了欧洲知识界的必读作品,因为萨特的话被误以为是对多斯·帕索斯著作的一般看法,而不是最好的推荐语。尽管当时获得一些佳评,多斯·帕索斯最后还是由绚烂归于平淡。

历史资料回测程序

有位程序设计师帮我设计了一套历史资料回测程序(backtester)。这套软件程序连接到一个历史价格数据库,可以让我观察:利用不同的操作法则,能够得到什么样的绩效。由此得出的绩效数字,是根据过去的价格资料计算的。我可以只用机械式的操作法则,比方说,在纳斯达克上市的股票,只要收盘价比上个星期的平均价格高1.83%,我就买进。订了这个法则,马上就能算出我的绩效如何。屏幕上会跳出那个操作法则得到的假设性绩效记录。如果我对结果不满意,可以把百分率调整为1.2%。我也可以设定更为复杂的法则。就这么一直试下去,直到找到绩效令人满意的操作法则。

我到底在做什么?没错,是在一组可能行得通的操作法则中寻找存活者。我拿法则去套用数据,这件事称做数据探索。只要靠运气,我尝试的次数越多,越有可能找到一个非常适合过去数据的法则。一个随机系列总会呈现某种可察觉的形态。我相信西方世界一定有某种证券,它的价格和蒙古首都乌兰巴托的温度变化百分之百相关。

一个随机系列总会呈现某种可察觉的形态。

谈到技术层面,还可以做更糟糕的延伸。沙利文(R. Sullivan)、蒂默曼(A. Timmerman)及怀特(H. White)最近写了一篇出色的论文,谈到今天使用中的法则之所以获得成功,有可能是存活者偏差的结果。

假使长期下来,投资人从非常宽广的空间中,挑出技术性操作法则来做实验。原则上,这个空间包含数千种参数化后的各种法则。随着时间的推移,以前碰巧表现非常好的法则受到越来越多人注意,被投资圈誉为“重量级的竞争者”,而不成功的操作法则比较有可能被人遗忘。……如果一段时间下来,被人视为可行的操作法则数量够多的话,那么在很大的样本中,有些法则就算真的缺乏预测资产报酬率的能力,也会纯因运气,产生十分突出的绩效。当然,这种情况下,只根据一组存活下来的法则去做推论,可能产生误导作用,因为它并没有考虑原来全部的法则;这些法则大多不可能有较差的表现。

我在个人的事业生涯中,亲眼目睹历史资料回测被滥用的情形,不得不说上几句。市面上有一种叫做欧米加交易站(Omega TradeStation)的历史数据回测软件,成千上万交易员都在使用。它甚至有本身的程序语言。利用计算机操作的当日冲销交易员经常彻夜不眠,忙着从数据中测试出一些性质,他们的行为就像把猴子丢到打字机前面,不告诉它们应该敲出什么书,它们终究有望在某个地方找到黄金。许多人深信不疑。

我有位学历显赫的同行,越来越相信这种虚拟世界,以至于对现实状况完全视若无睹。终究他还保有一丁点常识,但面对一大堆仿真结果,这些常识便迅速消失得无影无踪,也或许是他根本连一点常识也没有,这点我实在不明白。仔细观察他的行为,我发现他可能还拥有的怀疑天性,竟在数据的压力下消失不见了。或者,他有十分强烈的怀疑精神,只是用错了地方。唉,休谟!

用统计方法建立医学知识

医学一向是靠试误法(trial and error)来累积知识的,换句话说,是靠统计方法建立医学知识。我们知道,对症下药有可能是完全靠运气治好的,而且医疗实验中,有时可能纯粹基于随机原因,导致某些药物治疗成功。我不是医学专家,但5年来看了不少医学文献,应该有资格来关心他们的标准,并于下一章进一步说明。医学研究人员很少是统计学家,统计学家也很少是医学研究人员,许多医学研究人员甚至不知道有这种偏差存在。没错,随机原因扮演的角色也许不大,但肯定存在。最近有份医学研究报告指出,抽烟反而能减少乳癌。这与以前所有的研究相互抵触。根据逻辑,这个结论有问题,可能纯属巧合。

被业绩数字愚弄

大体来说,华尔街的分析师都受过充分的训练,有能力察觉企业在报告盈余时玩弄的会计花招。这场游戏中,他们通常能够赢过企业界。但是他们还没受过能够处理随机现象的训练。一家公司的盈余某年增加,没有人会马上注意到。连续两年增加的话,它的名字会开始出现在计算机屏幕上。到了第三年时,分析师就会建议投资人买进。

和前面所谈的绩效记录问题一样,假设一开始有1万家公司,平均而言只能勉强赚到无风险报酬率,也就是报酬率和政府公债的收益率差不多。它们从事各式各样具波动性的事业,到了第一年年底,会有5000家“明星”公司的盈余增加(假设没有通货膨胀),另有5000家“蹩脚”公司亏损。3年后,我们会有1250家“明星”公司。投资公司的股票评估委员会会将这些公司的名单交给你的往来业务员,并且“强烈建议买进”。业务员会留下语音信息,说他有个热乎乎的建议,值得立即采取行动。他会用电子邮件寄给你一长串的公司名称,而你可能因此买进其中一两家公司的股票。负责管理你的退休基金计划的经理人,也同样会取得整张名单。

同样的道理也可用于投资范畴的选择。假设你处于1900年,有阿根廷、俄罗斯、英国、德国等许多国家数百项股票市场的投资可选。理性的人不只会买美国等新兴国家的股票,也会买俄罗斯和阿根廷的股票。接下来的历史,我们都很清楚:英美等国的股票市场表现都非常好,投资俄罗斯的人,手头上持有的股票却和中等品质的壁纸相去不远。表现很好的国家,占原始投资数目的比率不大;由于随机性,少数一些投资类别可望有很好的表现。有些“专家”会说出一些傻话(当然带有自私的目的),例如“在任何20年的期间内,市场只涨不跌”,我很好奇,他们是不是知道有上述问题的存在。

癌症治疗

从亚洲或欧洲旅行回来后,时差常使我很早就起床,偶尔我会打开电视机,看看有没有什么市场信息。叫我惊讶的是,这个时段竟有许多另类医药供货商大肆宣传他们的产品疗效,这个时段的广告费率无疑比较低。为了证明他们所说真实不虚,他们会找来用他们的方法而治愈的人上台做见证,比方说,我看过一位罹患喉癌的病人说,他吃了一种综合维生素,结果捡回一条命,而那种维生素的价格十分低廉,只卖14.95美元。他应该是很真诚的,当然他也可能会因为现身说法而得到报酬,例如终身免费供应那种药品之类的。虽然时代不断在进步,人们依然听信这种信息,以为某些疾病可以靠这些方法治好,而科学证据的说服力竟然不敌外表真诚且情绪化的证词。这种证词不一定都出自普通人嘴里,诺贝尔奖得主的越界发言也时有所闻,例如获得诺贝尔化学奖的鲍林(Linus Pauling),据说相信维生素C具有很好的医疗效果,本人每天大量服用。由于他的强力推荐,一般人便相信维生素C真的具有疗效。许多医学研究无法证实鲍林的说法,但一般人对此却充耳不闻,他们宁可采信“诺贝尔奖得主”的证词,即使他没有资格讨论和医学有关的事情。

有些人信口雌黄,所说的许多话除了为自己赚进银子外,大致无害,但不少癌症患者可能因此舍弃比较有科学根据的治疗方法,改用这些“另类医药”,结果丧失宝贵的生命。读者可能要问,我的意思是不是说,现身作证的人看起来满脸真诚,却不表示他真的被那些产品治好。其实这是由于所谓的“自发性复原”(spontaneous remission),也就是说,由于迄今仍不明朗的原因,极少数癌症患者的癌细胞“神奇地”被消灭,因此“奇迹似的”复原了。某种变化导致患者的免疫系统把体内所有的癌细胞全给消灭,这些人不吃那些包装精美的药丸,只喝一杯佛蒙特州的泉水或嚼牛肉干,也能不药而愈。再者,这些自发性复原或许没有那么自发性,因为它们实际上可能有其原因,只是我们还没有察觉。

已故天文学家萨根(Carl Sagan)致力于提倡科学思想,十分厌恶不科学的行为。他曾经调查人们到法国卢尔德(Lourdes)去,只要触摸圣水便可治疗癌症的传闻。他发现一件有趣的事实:造访该地的全部癌症患者,治愈率低于自发性复原的统计数字,也低于未曾前往卢尔德的患者的平均治愈率!难道统计学家可以据此推论,癌症患者到过卢尔德之后,存活率反而更低?

随机现象看起来不随机

20世纪初,学者开始发展各种技术来处理随机结果的概念。有几种方法被人设计出来,用以察觉异常现象(anomalies)。皮尔逊(Karl Pearson)教授设计出第一种非随机检定方法。上过统计学入门课程的人都知道奈曼–皮尔逊(Neyman-Pearson)检定法。皮尔逊教授设计的非随机检定方法,其实是做偏离正常值的检定,但就目的来说,属同一回事。1902年7月,他调查了数百万个所谓的蒙特·卡罗结果,发现这些结果并非完全随机,而且具有很高的统计重要性,其误差低于10-9。什么?转盘转出的结果不随机?这个发现令皮尔逊教授大吃一惊。但是这个结果本身并没有告诉我们什么事情;我们知道世界上根本没有纯随机抽样这种东西,因为抽样的结果取决于设备的品质。够多的小事集中在一起,我们就能在某些地方发现非随机现象,例如转盘本身可能不是摆得很平,或者旋转的球不是很圆。统计学的哲学家把这叫做参考个案问题(reference case problem),用以解释实务上没办法真正取得随机,只有理论上才找得到。此外,经理人会质疑这种非随机现象能否造就真的能够赚钱的法则。如果我需要赌一万次,每次一块钱,才可望赚到一块钱,那不如兼差去当大楼管理员。

但是这个结果还有另一个可疑的成分。这里和实务更有关系的地方,是下面所说非随机性的严重问题。连这位统计学之父也忘了随机连续序列不一定要呈现随机的模式(pattern);事实上,数据如果完美到未呈现任何模式,反倒十分可疑,让人觉得有捏造之嫌。单一的随机连续序列势必呈现某种模式—如果我们努力去找的话,一定找得到。皮尔逊教授等学者很早就对创造人为随机数据发生器很感兴趣,由此得出的随机数表,可以作为各种科学和工程仿真(蒙特·卡罗仿真器的前身)的输入资料。问题出在他们不希望这些随机数表呈现任何形式的规则性,而真正的随机现象看起来并不随机!

癌症丛集(cancer clusters)这种现象非常有名,从这种现象的研究,可以进一步说明上述的道理。假设随机掷出16支飞镖到一个正方形,它们插中正方形中任何一个地方的概率相同。现在把这个正方形分成16个更小的正方形。这么一来,我们预期每个小正方形平均会有一支飞镖在上面—但这只是平均值而已。16支飞镖恰好分别插中16个不同的正方形,这样的概率非常低。比较常见的结果是,一些正方形里面会有一支以上的飞镖,许多正方形则一支飞镖也没有。这些格子如果不出现(癌症)丛集,将是极为罕见的事。现在,把插有飞镖的格子覆盖在任何地区的地图上,一些报纸就会宣称其中某个地方(飞镖数高于平均值者)的辐射线太强,造成癌症病例显著增多,因而促使律师开始去找癌症患者,准备索赔。

科学知识中的偏差

同理,科学也被有害的存活者偏差给污染,而影响研究成果的发表方式,因为没有产生任何成果的研究不会见诸文字,这一点和新闻报道一样。这事听起来似乎挺合理,因为报纸不必弄个耸动的标题,报道昨天没有发生什么新事情(不过圣经倒是很聪明,说“太阳底下没有新鲜事”。这句话提供的信息是一切事情如常运行)。问题出在将“发现没有事情”和“没有去发现”两者混为一谈。什么事情也没发生这个事实,可能包含重要的信息,正如在《银色马》(Silver Blaze)中福尔摩斯指出的,奇怪的事是狗并没有吠。造成更大问题的是,许多科学成果没有发表,因为它们的数据并未呈现统计上的显著差别,不过实际上它们还是提供了一些信息。

不做任何判断比较安全

我常被问到这个问题:何时才是真的不靠运气?说实话,这个问题我答不上来。我只能说,某甲的运气看起来比某乙差,但我对这种知识怀有的信心很薄弱,以至于不具意义,我宁可存疑。别人经常误解我的意见。我从没说过每位富人都是傻瓜,以及每位不成功的人运气都不好。我只能说,由于缺乏更多的信息,我宁可不做任何判断。这样比较安全。