Local EPUB Text
数据驱动型阿尔法模型
这类模型有两大优势。首先,与理论型策略相比,数据挖掘明显更具有技术挑战性,并且在实业界使用很少。这意味着市场上少有竞争者,这是大有裨益的。由于理论驱动型策略通常易于理解,并且在构建相应模型时所使用的数学工具通常来说也并不复杂,所以进入的门槛自然会低一些。数据驱动型策略就没有这样的优势,进入门槛比较高。其次,数据驱动型策略可以分辨出一些市场行为,无论该行为目前是否可以用理论加以解释,从而即使不理解某些市场行为的成因依然可以发现它们。相比而言,理论驱动型策略只能捕获到人们已经对其有所认识的一些行为,从而将其范围局限于上文我们所提及的6种类型。
例如,在股票、期货或外汇市场,很多高频交易者喜欢使用纯粹经验主义的数据挖掘的方法去设计其短期交易策略。这类数据挖掘类策略在高频交易中的应用很成功。如果设计得当,这类策略可以分析出市场的运作规律,而不必担心背后的经济理论或理论解释。由于目前缺乏人工和电脑程序化高频交易的理论基础,基于经验的方法要比理论型方法大有优势。此外,在高频交易的时间尺度上数据资源非常丰富,经验主义者可以通过各种数据进行验证,最终找到具有统计学意义上的显著性的结果。
但是,数据挖掘型策略也有很多缺陷。首先,研究人员必须决定用什么数据去建模。如果他所使用的数据和想要预测的东西根本没有联系或者联系甚微,他可能得到看似显著实际很荒谬的结果。例如,使用过去50年每天的月相去预测股市的价格。其次,如果研究人员使用所有被认为有助于进行市场预测的变量,那么算法所需要的计算量会大到无法实现。例如,要对两年的盘中实时数据进行较为全面的搜索去寻找具有一定预测能力的指标,即便涉及的变量只有少数几个,使用一台电脑连续工作也得需要3个月的时间。除了计算量上的困难之外,还有个问题需要考虑。使用这种方式从历史数据得到策略,相当于假设了未来和历史的表现会很类似,而实际上很多时候未来的走势会和历史数据差别很大,即便差别不大也只是在较短时间内。为解决这一问题,数据挖掘类策略需要经常性的调整,以便与市场变化保持一致,而这种调整本身又含有很大风险。
另一个问题是,仅仅根据数据挖掘算法设计的阿尔法模型,会让人觉得有些靠不住。如果输入变量中噪声信息过大,包含着很多错误的信号,会误导数据分析人员,干扰其判断。总之,尽管存在一些例外,仅使用数据挖掘技术去制定策略用于预测市场走向,通常并不可行。
尽管数据驱动型交易策略面临着上文所提及的诸多挑战,仍有交易者使用这些策略,因此值得花些功夫对这些策略有所了解。首先关注问题的框架。数据驱动型策略观察目前的市场环境,在历史数据中寻找类似的环境,根据历史来判断未来某一种可能情形出现的概率。当历史数据支持某种交易策略时,模型便选择进行该交易,否则便不选择该种交易。
值得一提的是,尽管和主观判断型交易策略存在类似之处,数据驱动型量化策略在数学上通常是难以理解的。技术分析人士(也称为“图表师”,因为他们经常使用图表分析交易价格、交易量等),通过寻找市场行为中重复的模式,希望能对未来进行预测。
所以,基本上使用数据挖掘策略的宽客都是首先观察目前的市场环境,然后在历史数据中寻找类似的环境,来衡量市场接下来的几种走势的出现概率,基于这种可能性进行交易。在这一流程中,他们至少要搞清楚以下几个问题。
首先,如何定义“目前的市场环境”?牢记一点:在量化交易策略中不允许存在任何模糊的余地。仅仅告诉电脑“找出历史上和现在很相像的市场环境”是远远不够的。我们必须精确地定义“现在”“环境”具体指什么。说到“现在”,即便我们不去探讨时间的哲学概念,“现在”可以指一瞬间、刚过去的10分钟、过去的10年等。这并不存在统一的标准,宽客在这一点上可以根据自己的偏好进行选择。所以,即便是在极其依赖经验主义的数据驱动型量化策略中,主观判断也是设计策略的关键因素。谈及“环境”,我们是考虑价格因素,还是交易量或基本面数据?这不仅仅是个学术问题:对小型技术公司股票的价格变动的处理方式和处理大型多元化金融公司的股价波动的手段是否相同,涉及市场如何运作的基本理念问题。
其次,寻找“相似”模式使用什么搜索算法?随之而来的一个问题是:如何定义“相似”?另一个相关问题是:算法采用什么方法来给出未来各种可能情况的概率?这些都是最不容易概念化又最具技术性的问题。选择适用于所要处理数据集的统计工具是极为重要的,宽客必须重视这一点。在量化分析中最为常见的蠢事儿就是把统计工具应用到错误的问题中。关于统计工具的选择,有很多的门道和技巧,对于如何选择统计方法很难有个统一的回答。
再次,如何确定历史数据的回溯时间段?显然地,追溯历史数据寻找相似模式时要回溯多久是个更加直接的问题。通常是选择折中方案,这种方案常见于量化研究和主观型投资管理中。一方面,时点靠近现在的数据对预测未来作用更大,因为这些数据和现在以及不远的未来都最为相关。人类的行为是否在变化仍值得商榷,但是有一点却是肯定的:科技以及由此导致的人类交流的方式在不断进化中,不仅如此,进化的速度随着时间不断加快。市场结构同样也在进化。纽交所梧桐树时代的数据和现在完全电子化交易的时代能有什么太大关系呢?另一方面,将数据挖掘工具应用于当前资本市场含有噪声的数据集时,统计学意义上的显著性通常是至关重要的。对于绝大多数统计学上的假设检验方法而言,样本量越大,从数据得到的结论可靠性会越高。所以,越近期的数据越相关,越多的数据结论越准确。因此,在对具有这种动态特征的系统进行统计分析时,宽客必须在这些相互冲突的特征间进行权衡。