Local EPUB Text
宽客在数据挖掘中存在错误
在金融业,数据挖掘可谓臭名昭著。实际上,最应该进行批评的是与它可交换的另一种术语:过度拟合。数据挖掘是一个实证科学,是第6章讨论的主要学科框架中的一个。一般数据挖掘技术被理解为利用大量数据获取所发生事件的信息,并不关心事件发生的原因。数据挖掘和理论驱动型科学最大的不同在于:为了相信自己能正确预测未来发生的事情,理论家对理解事情为什么发生会很感兴趣。然而,正如我们所了解到的,理论家也利用历史数据寻找何种理论能够解释所发生的事情。这是一个明确的界限,足以阐明做得好的实证科学和做得好的理论科学之间的有效的区分是不完全清晰的。唯一可辨别的区别是,在理论科学中,人们期望推导出看上去合理的解释说明,而在实证科学中,分析数据的方法是最主要的研究内容。换句话说,几乎所有的人都要进行数据挖掘,即使只是不严谨的数据分析。这不是问题。我们从没有听过便宜的股票表现优于昂贵的股票,除非有数据支持这个结论。如果数据强有力地反驳这个观点,就没有人支持它是一个有效的投资方向。
在更广泛的社会经济领域的各行各业,数据挖掘都有着成功的应用。在国防行业,数据挖掘广泛应用在反恐领域。你肯定听说过美国政府详细调查了数百万的电话号码和电子邮件信息,希望能够预测和阻止恐怖袭击。政府并没有雇用专人偷听每个人的通话记录和在电脑终端阅读电子邮件。而是,利用计算机算法识别被定义的模式,这些模式对于发现潜在的恐怖袭击活动很有帮助。
本章我们已经给出了一些数据挖掘的成功案例。亚马逊网站基于你的购买记录和浏览记录,利用数据挖掘,对你可能喜欢的书籍种类给出相关建议。客户关系管理软件包(custom relationship management,CRM)帮助商家对顾客进行数据挖掘,使得利益最大化,使得销售人员将注意力集中在最具潜力的客户身上,花费更少的时间在没有利益可图的客户身上。人力资源部使用数据挖掘工具详细研究哪个高校的毕业生能成为最优秀的雇员(雇员的“优秀品质”是由生产力和品质进行测量)。科学家也在大量使用数据挖掘技术。尤其是在基因学领域,遗传信息模式使得某个具体的基因和人类健康及行为之间建立关系。所以,鉴于数据挖掘技术广泛应用于社会和自然科学学科的许多领域,认为数据挖掘技术不能应用于资本市场是有失公平的。但是,也许更重要的是,正如第3章所描述的,大部分宽客对数据挖掘策略并不感兴趣。相反,他们利用基于强大的潜在的经济准则的相关策略。许多宽客对拟合参数和数据挖掘中量化研究过程的其他方面十分认真。简言之,数据挖掘在金融领域不应该臭名昭著,但它很大程度上是一个悬而未决的问题,因为许多宽客不会首先进行数据挖掘。
过度拟合完全是另外一回事。过度拟合模型意味着研究者试图从数据中提取太多的信息。一个足够复杂的模型很好地解释过去是可能的。但是利用一个过度复杂的模型,对过去很好地进行解释,这与未来有什么关系呢?结论是:完全没有。想象曾有一段时间,每当美联储宣布利率决定时,标准普尔500指数平均会下跌1%。但是我们仅有少量的美联储通告观察数据,而这所有的通告都是有关利率上调的。如果过度拟合,我们将得出结论:美联储通告总是负面新闻。只要未来美联储通告与过去通告的方向一致,结论就是成功的。但是如果下一次联储宣布降低利率,会发生什么事情呢?这个策略很可能会遭受损失,因为他主要利用的是利率上升的样本。因此,我们应该注意数据过度拟合的问题。
作为一个试验,我在亚马逊网站建立了一个新的账户,随意点击了一些我感兴趣的书籍。返回来的推荐书目不如我主账户的推荐书目理想。因为我主账户是大量真实的数据,而新账户中的书目少于20个,且是随意点击的不同类型的书目。新账户中的推荐书目很可能存在过度拟合,而旧账户的书目存在过度拟合的可能性比较小。
为了估计模型的既定参数,宽客需要大量的数据。过度拟合忽略了这个基本事实,利用有限的数据解释过多的信息是不现实的。这些模型能够很好地刻画过去,但是未来的某一时刻与过去的步调不一致时,模型就会失败。在量化金融领域,过度拟合的必然结果就是损失金钱。毫无疑问,发现过度拟合的问题时,应该消除这个问题。说所有宽客都过度拟合他们的模型是不正确的。对过度拟合有过错的大都是进行数据挖掘的宽客。在数据挖掘策略中,我发现一个有用的准则,相对较长周期而言,较短周期更能经得起数据挖掘的考验。
第一,这可能是因为进行短周期的分析,能获得很多交易数据观测值,可供分析的数据量在逐步增长。如果一个策略持有头寸平均1年,将需要数百年的数据才能对策略的回报率进行实质性的统计分析。相比之下,如果交易美国股票的策略持有头寸为1分钟,那么每只股票每天将有390个交易周期(每个交易日有390分钟),每年大约有100000个交易周期(每年有250~260个交易日),如果1000只股票被交易,每年大约需要观察1亿个交易周期,产生足够多的可供分析的数据。记住,当使用的模型对于可供分析的数据量过于复杂时,就会出现过度拟合的问题。可供分析的数据量越大,对于模型复杂度既定的情况,过度拟合发生的可能性越小。
第二,在较短的周期内,理论家不能对人们的交易行为进行有用的解释,实用指导是,持有周期少于1天的策略,数据挖掘策略可能更有用。对于持有周期近似为一个星期的策略,将数据挖掘技巧与健全的市场理论相结合的混合策略更有用。第三,对于期望持有周期为数月或数年的策略,如果依赖数据挖掘技巧,可能是不奏效的。
过度拟合策略不仅仅是可能的,而且实际发生在一些量化交易者中。但是,正如不能因为一些人易于过度分析而拒绝分析一样,我们不能因为一些人很可能(或者很容易)做得不好而快速驳回量化模型(甚至数据挖掘)。