Local EPUB Text
数据挖掘
随机性是一个难以捉摸的概念。圆周率是一个典型的随机数。著名物理学家理查德·费曼(Richard Feynman)年轻时能一口气说出圆周率的768位数字,其中第763~768位为“999999”,然后说“以此类推”,此后大笑起来。他的笑话广为人知,后人将圆周率的第763位称为“费曼点”。当然,圆周率已经扩大到数万亿的数字,没有任何模式被检测到。但实际上,与任何随机序列一样,圆周率的展开有明显的模式。没有这些模式,它就不是随机的!
还有一个费曼的故事告诉我们,历史是如何欺骗人们,在随机事件中找到意义的。费曼在房间里读书时,他有一种强烈的预感,他的祖母已经去世了。此时,另一个学生喊道:“费曼,你有个电话。”(当时麻省理工学院的宿舍只有一部电话。)费曼走向电话,他十分害怕即将听到的内容。直到他听到这个电话是另一个学生打来的,说他把书忘在教室里了。费曼心想,人们一定经常有这样的预感。在大多数时候,没有发生任何事,因预感没有实现,所以它被遗忘了。但在极少数情况下,仅仅是偶然,预感就实现了。例如,如果电话说他的祖母去世了怎么办?极端的经历及经常重复的事情会改变大多数人的认知。对费曼来说,预感的实现是数据挖掘的一个例子。许多人有同样的预感时,肯定会有一些惊人的巧合。金融市场也是如此。随着大量研究人员进行的诸多研究,他们肯定会发现各种明显的市场异象,与所谓的“以此类推”大相径庭。
检验数据挖掘的最佳方法是重复实验。这是最常见的,例如,在新药测试中。若在几个独立的试验中重复出现这种效应,那么其不太可能是数据挖掘的产物。不幸的是,就金融市场历史而言,我们只能“看一次电影”。证券价格的历史记录只有一个。近一个世纪以来,美国有成千上万只股票的历史数据,这是一把双刃剑。大样本增加了可执行的统计测试能力,但也增加了许多数据挖掘发现的异象,我们需要的是一个新的数据集。
最好的解决方案是再等一个世纪,让自然提供一个新的数据集。然而,这种选择对目前的投资者没有吸引力。更可行的办法是使用迄今未经审查的国际数据。虽然样本周期较短,研究对象较少,且数据通常不那么清晰,但国际数据可以用来进行独立的假设检验。问题是,随着全球金融数据库的爆炸式增长,未经审查的数据变得越来越少。
还有一种由坎贝尔·哈维(Campbell Harvey)教授提出的替代方法,是使用更高的标准来确定存在真正的投资异象,而不是随机波动。对异象的标准统计检验假定了正在进行的研究是唯一相关的研究,但若有数百名研究人员和投资者进行了数千项研究,显然违反了这一标准。问题在于使用更高的标准也不能完全解决问题。挖掘出的数据结果不断克服障碍,进而引起更多学者的关注。