Local EPUB Text
第2章 研究方法
不是所有有价值的事情都能被认为有价值,也不是所有被认为有价值的事情就真的有价值。
——阿尔伯特·爱因斯坦
在这本发人深思的著作中,作者测试了超过6 400种技术分析方法,并发现当将它们运用到标普500的交易时,没有任何一种方法能够创造统计上的显著收益。
——摘自Amazon.com上一条顾客对某本书的评论
1994年,所罗门兄弟固定收益套利组的前负责人约翰·默瑞威萨(John Meriwether)成立了被称为长期资本管理(LTCM)的对冲基金。长期资本管理公司的董事会中拥有两位后来获得诺贝尔奖的经济学家,这家公司平时主要是基于不同种类债券之间的价差最终必然会收敛的推断来开发量化投资策略。它通过使用高杠杆来放大每笔交易中计划获得的微小价差,并获得了巨大的成功。随后他们将固定收益套利扩展到其他类型的交易之中,但公司最后却也倒闭了。1998年,一场从亚洲扩散至俄罗斯的货币危机最终导致了全球债券市场的动荡。许多长期资本管理公司的交易失败了,同时他们使用的巨额杠杆也轰然倒塌。纽约联邦储备银行展开了3.6亿美元的紧急援助,来防止可能会使得金融市场瘫痪的一连串违约行为的发生。造成这一垮台的原因是:尽管有获得过诺贝尔奖的经济学家的参与,但是长期资本管理公司却并没有完全理解其所采用的量化策略。它只是通过使用数据挖掘技术来分析债券之间的历史价差,从而并未能意识到这种行为的潜在风险(这样的风险将会建议他们更保守地使用杠杆)。
数据挖掘就是通过计算机在数据库中寻找数据之间的相关性(例如不同类型债券之间的历史价差),而并不去了解造成和改变那些相关性的潜在因素(例如,重新给风险定价)。数据挖掘的一个额外风险是,分析师制定出的策略可能只是“拟合”数据库:他们的策略在一组数据下有效,但可能在另一组(即未来的数据)下不那么有效。本书中的策略并不是通过数据挖掘技术实现的。我们所做的几乎所有的测试完全是基于现有的金融和投资理论。其中,有一部分理论从量化的观点来看是有效的,而有些则不是。有效的测试通过展示所得到的结果——以超额收益的方式——证明了其背后的投资理论在运用到选股时的有效性。
本书中我始终坚持的一个原则是不加入那些我还没有完全理解的策略。一个得以充分理解的量化策略测试能成为某一投资工具的一部分:因为理解了为什么策略有效以及它怎样有效之后,这个策略便成为能够盈利以及和其他策略组合使用的组件。此外,一个基于正确投资理论并被完全理解的量化策略测试将成为投资者理解股票市场如何工作的思维模式的一部分。基于赢利性、估值、现金流、成长性、良好的资产配置、投资时机的重要性以及市场评估风险的方式,本书所提及的测试可以让投资者更好地理解投资策略的重要性。
然而仅是基于成熟的金融理论对所构建的量化投资策略进行测试是不够的,同时还必须基于若干统计样本。一个朋友曾经提醒过我,统计是(或可能是)一门能用数字证明任何你想证明的艺术。本书中的测试经过了精心的设计来避免统计偏差,包括预测偏差、生存偏差、重述偏差以及因为测试时间过短或测试样本过少而产生的偏差。本章陈述了我们进行测试的研究方法,包括我们所研究的数据库,如何构建测试,如何评价测试结果,以及如何阅读在接下去几章内容中会频繁出现的回溯测试的总结。对本章内容的详细阅读可以为理解后续几章的内容提供良好的基础。
最后,正如本章前面所引用的爱因斯坦的名言以及我们在第1章讨论内容中所暗示的,不是所有可以被量化的投资策略都是重要的。定量分析,正如在本书中所作的那样,可以让投资者看到投资市场中范围更广的趋势或倾向。然而,有很多在投资实践中的艺术,很难甚至不可能封装在一个量化测试中。因此,我们将用本书中所给出的测试来捕获投资收益的主要驱动因素,而将那些投资艺术中更精细的部分留给投资艺术家们。
数据库
我们的研究以标准普尔的Compustat Point in Time数据库为起点。在我看来,Point in Time在目前可以用来回测美国和加拿大公司基本数据的数据库中是首屈一指的。它是Charter Oak投资系统公司的创始人马库斯·博格(Marcus Bogue III)以Compustat公司收集的第一手数据为基础而创建的,因此命名为标准普尔Compustat。它包含了从1987年开始的约25 000家公司的约150项基本数据项。在1987年该数据库包含了将近7 000家活跃公司的数据,这个数据在1997年又上升到大约10 000家,并在其余我们测试的时间段内均保持在10 000家以上。除少数例外,我们的回测将覆盖从1987年到2006年这20年的数据。
Point in Time数据库具有三个重要特征来帮助研究人员构建无偏的统计检验:
第一,它不仅包含了现在尚在运营的公司,也包含了那些破产的、被收购的以及私有化的公司等(Compustat通过称呼“研究的”或“活跃的”公司以区分它们的状态)。通过在回溯测试中涵盖了所有无论今天是否活跃的公司,研究人员可以避免生存偏差的出现,即从数据库中剔除运营较差的公司、而仅保留运营较好公司时的测试结果。
第二,Point in Time数据库中的每个数据项都被标识了一个历史时间(时间点),这个时间点是该数据第一次出现在数据库中的时间。这个关键的特性避免了预测偏差,即在回测中使用在测试时点并不可用的未来数据。例如,如果一家公司在2008年3月公布了2007年第四季度的利润,回测时如果将这个数据用在2007年12月,测试的效果就会得到明显的提升。因为投资者实际上并不能基于历史数据给出如此精准的预测,尤其是当公司的报告数据好于预期结果时。正因为标普Compustat数据库引入了时间点,所以Point in Time数据库不仅能够回答投资者知道什么,更重要的是,能够回答他们是什么时候知道的。
当研究人员使用Point in Time以外的数据库时,他们每月使用基本面数据时会加入3~4个月的滞后期以避免预测偏差。但是这样的技术存在着一定的问题,如可能因为会计上的困难,某些公司没有及时按季度或者按年度公布其数据,从而导致某些情况下公布延迟超过了一年。此外,多年来证券交易委员会(SEC)针对上市公司的申报要求已逐渐变得非常严格,因此对于最新数据的滞后时间在对以前的数据进行处理时可能是不够的。我们认为Point in Time这种“标注了可用时间点”[1]的特性使得其能够提供正确的回测结果。
第三,Point in Time数据库包含了非重申的,或者说是第一次公布的数据。非重申数据指的是公司原始公布的、先于任何后续修改的历史数据。当一个上市公司出售或停止了它的业务,并完成大型业务并购,改变会计准则,或者修正之前的会计错误(误述)时,会计准则是允许其重述它之前的报表结果的,从而使财务报表的阅读者能够更容易地对比过去和现在的财务数据。当这样的重述发生之后,数据原始发布的时间点就会被修改,从而将其用于回测将不再可靠。例如,2006年国防合约商Raytheon关停了商用飞机部门并将其重点放在军事装备上面。因此,它重申了2005年的每股净利润(EPS)从2.08美元下调至1.80美元,以及将2004年的EPS从0.99美元下调至0.85美元(见表2.1)。2007年Raytheon停止了其Flight Options私人飞机所有权的部分业务,这也导致了2005和2006年EPS的上调重申。这样的重申常常在公司进行大型收购或停止亏损业务时发生,从而导致测试结果出现显著的偏差(因为重述数据在测试时间段上是不可获得的)。
表2.1 Raytheon公司的原始及重述数据
资料来源:公司公告
所有的测试都在Charter Oak投资系统公司的Venues数据引擎上运行,它是专门为复杂的金融数据分析而设计的。这个灵活的软件为分析师提供了在数据项之间建立相关性的功能(例如工业和公司,公司和发行股票),并能够同时进行跨行业板块(使用一个或多个公司的集合)操作和时间序列(跨不同时间区间)分析。有了Venues数据引擎,Compustat Point in Time数据库基本成为了我们可以大展身手的“运动场”。
回溯测试选股样本
本书所涉及的测试均从我们的回溯测试选股样本开始。它是Compustat Point in Time数据库的子集,涵盖了大约2 200家美国公司。在2006年,这些公司中市值最小的约为5亿美元,市值最大的(如埃克森石油公司)为4 470亿美元。之所以选取小型、中型和大型市值的公司群体作为域,是因为这些公司的市值足够大,从而使个人和机构投资者都能参与投资,而且也足以避免在微型市值股票中常有一些波动性和不稳定结果的出现。因此,为了构建我们的选股样本,首先要排除各种外国公司、若干控股公司和投资基金,以及其他不寻常的实体(排除名单包括加拿大公司、美国存托凭证/股份、有限合伙企业、房地产投资信托基金、封闭式基金,以及指数)。然后,纳入了所有其他剩下的股价在2美元以上(未并股调整)的公司,以及在当时股票市值大于标准普尔500公司平均市值1/50以上的公司。对股价大于2美元的要求筛选出了波动微小且低价的股票。而市值约束则确保了在类似的市值级别内选择公司,而不论市场的上下变化。
表2.2 回测样本:公司数、市值以及股价
资料来源:标普Compustat数据库,Charter Oak投资系统公司
如表2.2所示,我们使用的选股样本的规模从1990年的1 800家公司到1996年的2 700家,平均数约为2 200家。此外,图2.1所示为数据库中按市值决定的公司的分布,与2006年末一样。请注意在该样本中有超过1 100家公司的市值处在10亿到50亿美元之间。我认为该类介于中小市值之间的股票会为企业投资者提供大量潜在投资理念。
图2.1 回测选股样本的市值分布(2006)
组合收益和持有时间
我们回溯测试投资组合的年收益将按照投资组合年度平均价格的变化,再加上分红及过去12个月内根据投资组合形式的现金等价物的分配来计算(例如,我们在1988年构建一个投资组合,该回报的计算时间为1989年1月~1989年12月)。价值分配的组合包含诸如业务拆分(并股)[2]。回报是基于年度基础上的复利。一些定量研究假设采用价格和分红的季度或者月度复利来计算。我们采取了我认为一种较保守的方法,即假设理论投资者对用每一个策略构建的投资组合均持有1年,并且不会立即把收到的分红进行再投资。但是,我们假设会把所有在1年内收到的钱,包括分红和价值分配,再投资到下1年的策略中。在本书中你看到的收益计算方法(复利年度增长率和平均超额收益)应用于策略投资组合,回溯测试股票范围及标普500,均基于等值加权。我们之所以选择用等值加权(对比市值权重)收益,是因为我们假设投资者会在组合内购买任何股票,而不考虑其规模,且会在每一只股票中投入同样数额的钱。由于我们在2006年回溯测试选股样本里面最小的市值都在5亿美元以上,因此只有大型机构才可能被禁止购买在投资组合中的最小股票。
本书中提到的所有投资组合持有的时间均为12个月。我选择12个月的持有期,而非月度或者季度,或长于一年的期限,是因为12个月的持有期能避免有关过度交易的问题,同时能给投资者保留一个合理的时间观察他们的股票购买成功与否。例如,在标准普尔证券研究部门,我们主要追随“按合理价格成长”的投资哲学,对此分析师会推荐低于“公平”市场价格的成长性公司的股票。我们采用12个月的目标价格,附带平均持有期分别为6个月、1年和1年半和采用过去几年标准普尔成分股成功的实际投资记录。季度或月度的持有期主要适合于高净值的投资者或由定量分析导向的机构,因其能够以在每个头寸承诺大额资金来减轻此类高换手策略产生的交易费用。1年的持有期也有利于保持税收效率,因为超过一年后要征收长期资本所得税。
图2.2 回测选股样本的行业分布(2006)
测试是如何构成的
本书中的测试均由五等分测试构成,即回溯测试选股范围根据我们测试的每个公司的因子值被等分为5组。例如,假设我们测试一个策略,该策略买入高营业利润率的公司,并卖出低营业利润率的公司。软件首先会按照营业利润率将回测选股样本中的所有公司从高到低排序,数据库中没有营业利润率的公司将被剔除。接着营业利润率排名前20%的公司将会被放入第一分位,接下来的20%放入第二分位,以此类推,最后的20%将被放入最低的分位。我们本可以将测试以十等分划分(10个投资组合),或者四等分、三等分,甚至二等分。但是我们测试的主要目的在于确定哪个投资策略从定量的观点来看是有效的。五等分测试能够清楚地回答这个问题:如果策略有效,最高分位将战胜市场,最低分位将输给市场,而且在每个分位的收益之间将存在一定的线性关系(即最高分位应有最高的超额收益,然后是第二个五分位、第三个五分位,等等)。
我们绝大多数的测试是在20年的时间段上进行的,从1987~2006年,除了涉及现金流量表(追溯到1989年,因此样本期为18年)数据[3]外,还包括一些技术指标,或基于市场每日价格(追溯到1991年,因此样本期为16年)数据的测试。在回测投资策略的过程中,测试在尽量长的时间段上执行是非常重要的。测试时间越短,越有可能在测试期间内有效,而在未来却有可能无效。可靠的回测将经历不同的经济和市场环境,这样的特点只有在测试年数足够多的情况下才能体现。我们大多数策略所测试的这20年时间跨度包含了三次牛市(1988~1990、1991~2000、2003~2007[4]年),三次熊市(1990、1998[5]、2000~2002年),几个市场横盘整理期(1992、1994、2004年的大部分),一次股市泡沫(1999年),以及两次经济衰退(1990~1991、2001年)。
根据每年测试的策略因子值而把公司或者股票划分为5部分,即五分位。每个五分位均被看作是一个投资组合,代表了一组落入某一个五分位的股票。每年我们将为每个投资组合计算总平均收益,然后将每年分位投资组合的收益连接起来计算每个五分位的总收益和收益的复合年增长率(CAGR)。如果测试有效,那么最高分位的CAGR应该高于整个回测选股范围的CAGR,而最低分位的CAGR应该低于回测选股范围的CAGR。
一个简单的测试范例将告诉你这是如何工作的。比如说我们打算测试一个买入低市销率的股票并卖出高市销率的股票的策略。为了简化,我们只在3年内测试这个策略,即从2003年到2005年。我们将在2003年12月、2004年12月,以及2005年12月构建投资组合[6]。具有最低市销率的公司将被分配到最高分位,而具有最高市销率的公司将被分配到最低分位。由于我们在2003年底首次构建了分位的集合,因此我们第一年的组合收益将从2004年1月开始计算到12月。然后我们将分别计算2005年和2006年的分位(组合)收益。结果显示在表2.3中(注意到下面显示的收益已经被指数化,即在原来的值上加1,然后相乘得出复合收益率——因此第一分位在2004年的实际收益率为26%,2005年为11%,2006年为21%)[7]。
表2.4给出了链接收益,它是通过将前面年份的收益相乘得到的一个复合收益。第一分位2004年的链接收益就是1.26倍的原始收益(表2.3中2004年的实际收益乘以1)[8],2005年的链接收益为1.40,它等于1.26乘以1.11(表2.3中2005年的实际收益),2006年的链接收益为1.69,它等于1.40乘以1.21(表2.3中2006年的实际收益)。总收益计算方法为最后一个链接收益减1。收益的复合年增长率的计算方法为将最后一个链接收益开3次方,然后减去1,这里的3表示复合收益的年数。例如:
单因子测试中的组合规模往往比较大,这是因为我们从平均大小为2 000家公司的样本中选股,并仅仅剔除了那些没有要测试的因子值的公司。上面这组测试的投资组合规模大约为450。记住,本书中回测的目的是为了展示一个投资策略的有效性。我并不一定会推荐购买一个由450只股票组成的投资组合。只要我们知道策略是有效的,这个策略就可以以不同的方式来使用。例如,根据你使用的软件,通常能很容易构建出一个投资组合,它包含了在一个给定策略中排名前30或前50的公司(例如,30只拥有最低股价与销售额比率(P/S)的股票)。我们在测试大量策略中得到的经验是,较为集中的投资组合的效益往往要好于广泛分散的投资组合——只要这个测试是有效的。在第13章,将因子集成进你的投资方法,将深入讲解如何使用策略。
表2.3 市销率策略样本:各分位的指数收益率
表2.4 市销率策略样本:各分位的链接收益、总收益以及复合年增长率
双因子测试
在单因子回测中,我们将回测选股样本按照单一投资准则(例如,股价与销售额比率(P/S)、股本盈利(ROE)或每股盈余增长率(EPS growth))对回测选股范围进行排序并划分为5个分位。但本书还有一部分重要的内容将专门告诉投资者如何有效地组合策略。在大多数情况下,我们的组合测试会包含两个投资准则:第一、例如股价与销售额比率和股价与账面价值比率;第二、股本盈利和相对价格强度。前述应用在分位测试和计算收益的基本方法在这里同样适用,但在为双因子构建投资组合时,我们并不会给两个因子赋予相同的权重,相反我们先基于第一个因子构建一个集合,再用第二个因子从这个集合中筛选股票。
我们举例来说明这一点。假设我们要测试股价与销售额比率(P/S)因子和股价与账面价值比率(P/B)因子的组合。对于我们的最高的五分位(前五分之一位),我们想要那些同时拥有最低股价与销售额比率和最低股价与账面价值比率的公司。我们的软件程序将会执行如下步骤来构建第一分位:
(1)用股价与销售额比率对回测选股样本中的所有公司排序。在这个例子中,我们将按股价与销售额比率从低到高排序,因为我们想要在最高的分位中得到最低的因子值。
(2)选择这个排名中前20%的公司——20%拥有最低股价与销售额比率的公司。如果我们在2 000家公司中进行这个测试,那么这一步将选出大约400家公司。
(3)接着按照股价与账面价值比率对400家通过股价与销售额比率测试的公司还是从低到高排序。
(4)选择这个排名中前20%的公司——20%拥有股价与账面价值比率的公司。如果我们在第2步得到400家公司,那么在这一步结束之后我们将得到大约80家公司。
(5)重复步骤(1)~(4),直至我们得到回测中每一年的最高分位的投资组合。
分析软件将为每个五分位的计算重复上面的步骤。每个五分位之间的差别仅仅在于计算机程序挑选的公司将位于排名中的哪一个20%:第二个五分位挑选那些排名在20%~40%的公司,第三个五分位是排名在40%~60%的公司,第四个五分位是排名在60%~80%的公司,而底部的五分位则挑选排名低于80%(底部的20%)的公司。而上述排序的过程对于每个分位来说都是相同的。
通过这种方式来测试双因子策略,我们特意强调了第一个因子的作用。原因有两点:首先,有些策略较其他策略效果更强,因此我们想要起到在强调效果更强的因子的同时弱化较弱因子的作用。同时,通过这样的方式选择投资组合而不是使用两个因子选股结果的交集,我们能够获得一个规模相对较大而且稳定的投资组合(对比于我们通过使用两个因子选股结果的交集得到的变化的组合规模)。一个相对较大而且稳定的投资组合规模有助于确保测试的可靠性。
超额收益测试
本书中的单因子和双因子策略在18~20年的期间内每年执行一次,并计算其同期对比于全选股范围和等权重的标普500的复合年增长率。除了每年计算收益之外,我们还在这18~20年的期间内每季度地测试策略。尽管我们是按季度测试的,但持有时间仍然维持12个月。也就是说,每季度的投资组合将会持有一段相互重叠的12个月。通过按季度的测试,我们将得到72~80个年度投资组合收益而不是仅仅18~20个。在每个日历年度中的四个不同点执行测试而得到的大量投资组合有助于确保测试不会受到过分的统计性或季度性的影响。总之,季度性的测试提高了可靠性。我们用季度测试的结果来为每个五分位计算平均超额收益,并展示在每个回测汇总中(见图2.3)。
*标普500等权重平均收益 **按季度测试,持有期为一年:算术平均超额收益
资料来源:Standard & Poor's Compustat Point in Time Database. Charter Oak Investment Systems
(续上)
图2.3 回测汇总图表样例:投入资本金回报率和市销率
回测汇总表格和图表
按年度和按季度的测试结果都会呈现在我们的回测汇总表格以及相应的图表中(见图2.3)。花点时间来熟悉这个模板是值得的,因为本书中几乎所有统计结果都用这种方式表达。
(1)计算测试收益的年度区间。大多数的测试在20年的区间上执行(和现金流相关的测试在18年的区间上执行)。它还显示了每一个五分位的列标题,我们的回测选股范围,以及等权重标普500收益。之所以加入标普500收益,是因为投资者可以轻易地通过购买指数基金而获得类似于标普500的收益。
(2)基于每年执行一次的组合收益的每个分位复合年增长率。
(3)对比回测选股样本的平均超额收益。这些收益值代表了每季度执行一次(参见上文超额收益测试一节)组合超额收益(超过或低于回测选股范围的收益)的平均值。注:因为这些收益是每季度执行一次策略后所得到的,而上面的复合年增长率是用每年执行一次策略的收益计算出的,所以,平均超额收益应该可以认为比复合年增长率更可靠。
(4)X年前投资的10 000美元的价值,这里的X表示进入回测组合的年数。基于每年执行一次策略的组合收益。
(5)策略收益超过选股范围收益的次数在一年时间内所占的百分比。基于每季度执行一次策略的组合收益。
(6)策略收益超过选股集合收益的次数在滚动3年时间内所占的百分比,即,如果一个投资者在接下来的3年中遵照该策略进行投资,那么有多少百分比的时间该投资者能够战胜市场?基于每季度执行一次策略的组合收益。
(7)在一年时间内实现的最大收益。(每季度执行一次)
(8)在一年时间内承受的最大损失。(每季度执行一次)
(9)每个分位收益的夏普比率。夏普比率(Sharp ratio)是衡量一个策略的风险调整收益的常用工具。这里风险被定义为波动率,即该策略对比无风险收益[9]的超额收益标准差。夏普比率计算方法为用某个五分位的收益减去国库券的收益(“无风险”收益),再除以该分位收益的标准差。夏普比率越高,该策略在每单位风险(标准差)上创造出的超额收益就越多。
(10)分位收益的标准差。用来衡量该策略每个分位收益的波动率。该值越高表示策略波动越大,反之表示策略越稳定。
(11)每个分位收益相对于回测选股范围的Beta值。表示该策略的波动性和回测选股范围的相关程度。该值大于1表示该策略的波动比样本更大,而该值小于1则表示策略的波动比样本更小。
(12)每个分位收益相对于回测选股范围的Alpha值。Alpha表示了一个策略风险调整后的超额收益[10]。Alpha和夏普比率有许多方面的不同,但主要在于它使用Beta来表示风险而不是夏普比率在计算过程中用到的策略收益的标准差。
(13)平均投资组合规模。分位投资组合在测试期间的平均规模。
(14)平均战胜选股样本的公司数量。该值表示在分位组合中平均有多少家公司战胜了选股样本。
(15)平均输给选股样本的公司数量。该值表示在分位组合中平均有多少家公司输给了选股样本。
(16)分位组合中第一个因子值的中位数。在这个例子中,表中数值表示每一个分位组合的投入资本金回报率的中位数。我们使用中位数而不是平均值,从而避免该值被极端值(例如一只P/E为500的股票)的影响而出现偏差。
(17)分位组合中第二个因子值的中位数。如果该策略是单因子策略那么将不存在这一栏。在这个例子中,表中数值表示每一个分位组合的股价与销售额比率的中位数。
(18)分位组合在测试期间的平均市值。
图表
图2.3是每个策略都会附带的两张图的一个例子。第一张图展示了每个分位对比于选股范围的平均超额收益(包括等权重标普500)。超额收益是基于每季度执行一次策略的组合收益来计算的。第二张图,同样是基于每季度执行一次策略的组合收益,展示了最高和最低的分位在滚动3年期间上的年化超额收益。为了计算这些数值,我们用选股样本的3年复合收益率减去分位的3年复合收益率,并将之年化。这张图告诉你如果采用该策略可以在接下来的3年中预期怎样的收益。它同时概述了该策略在历史上的执行效果。(注意到在第二张图中的3年复合增长率表示了接下来3年的收益,图中的日期表示了每3年的最后一天。)
如何识别一个有效的量化策略
一个有效的量化策略应该具备以下全部或者大部分的特征。除了少数的例外,本书中的策略均满足下列的衡量标准:
(1)最高分位显著地战胜选股样本。对于平均组合规模较大(通常超过300个公司)的单因子策略而言,最高分位平均获得相对于选股样本至少2%的超额收益是比较理想的。对于更集中的双因子策略而言,超额收益大于4%或更多是比较理想的。
(2)最低分位显著地输给选股样本。对于单因子策略而言,最低分位平均比基准低至少2%(超额收益为-2%或更低)是比较理想的。对于双因子策略,低4%或更多。如果该策略要用于卖空,比基准低8%~10%或更低是较好的。
(3)分位和超额收益之间存在明显的线性关系。这表示第一分位表现应好于第二分位,第二分位应好于第三分位,依次类推。超额收益的趋势越平滑,或越线性,我们就越能确保该策略是真正有效的(也就是说这是一个通用的、理由充分的、对许多股票都有效的策略,而不是一个统计意义上的异常情况)[11]。
(4)收益随时间变化的稳定性。策略的第一分位应该在每年60%或更多的测试期间内战胜选股样本,胜率在70%或以上则更佳[12]。而最低分位应该在每年60%或更多的测试期间内败给选股样本。同样的,这个比率在70%或以上更佳。与此观点相同,我更倾向于那些在多年中能够提供持续而且稳健的超额收益的策略,而不是在短时间内获得很大超额收益而在剩余时间超额收益极低的策略。
(5)最高分位的低波动性和低最大损失/最低分位的高波动性和高最大损失。这些因素的重要性取决于你承担风险的能力以及投资的时间范围。计划在多年中坚持一个特定策略的投资者基本不需要考虑波动率的影响。而想要在单一的一年中“尝试”某个策略的投资者应该考虑那些较低波动的策略,因为它们的最大损失较低[13]。夏普比率和Alpha都能够用来提供一个策略风险调整收益的参考值,其中风险由波动率表示(参见上一节关于Alpha和夏普比率的说明)。
如何使用回测汇总图表
当评价一个定量测试时,我总是从检查CAGR和对比选股样本的超额收益(回测汇总中的第2行和第3行,见图2.3)开始。平均超额收益vs.选股样本(见图2.3)能够让人对分位的超额收益有一个大概的印象。注意到组合CAGR减去选股样本的CAGR和超额收益数值不同。差异的存在有两点原因:①CAGR表示了复合收益,而超额收益是简单的平均;②CAGR基于按年度执行的测试,而超额收益基于按季度执行的测试(两个测试的持有时间——12个月——是相同的)。按季度执行的测试提供了更大的样本数量,因此能够提供统计上更可靠的结果。然而,在大多数情况下基于复合年增长率的超额收益和季度平均超额收益的差别很小。同时注意到对于某些策略而言,第二而不是第一分位具有最强的超越市场表现。只要这样的表现是显著而且稳定的,策略同样是很有用的。
下一个比较点是策略的稳定性。如果一个策略仅在40%或50%的时间上有效,那么这个策略并不值得去做。最开始我会看一年时间中策略战胜选股样本的百分比以及滚动3年时间的百分比(见图2.3的第5行和第6行)。我同样也会看滚动3年时间上的年化超额收益图(同样在图2.3中)。这个图显示了如果你在过去20年的任何一个3年中坚持这个策略,你每年可以预期的超额收益。一般而言,这个图中会出现少量时间段最高分位输给市场和/或最低分位战胜市场的情况。
同样地,尽管风险容忍是相对的,但一个分位的最大损失(第8行)却不是这样的。我特别倾向于那些第一分位的最大损失等于或低于选股范围的最大损失,同时最大损失多少随着分位下降而线性变化(第五分位的最大损失最高,第四分位次之,等等)。一个具有高超额收益、多年非常稳定、并且最大损失不高于15%的策略则是我认为优秀的策略[14]。
收益的标准差(第10行)以及策略相对于选股样本的Beta值(第11行)能让人深入了解策略收益的波动率。我倾向于最大损失,因为它从下跌的角度告诉我们在每个持有期末时的预期。
Alpha(第12行)是Beta的近亲。特别地,Alpha是一个投资策略的实际收益和通过策略相对于市场的Beta值计算出的预期收益之差。就其本身而言,Alpha可以认为是高于市场收益的一个“风险调整”衡量标准[15]。在解释Alpha时,该值越高越好,它可以被解读为一个百分比。因此,一个在最高分位Alpha为0.05的投资策略可以被看成是一个最高分位组合能够获得5%风险调整的高于市场回报的策略。我们将向你展示许多稳定的策略,它们最高分位的Alpha均为0.05或更高(同时最低分位的Alpha为-0.1——-10%——或更低)。作为一个替代性选择,有人可能会用夏普比率(第9行)。这里,一个策略的夏普比率高于标普500的夏普比率或许表示该策略值得进一步研究。
一个可能会考虑的因素是平均组合规模(第13行),战胜/输给市场的公司数目(第14、15行),测试组合中因子值的中位数(第16、17行,如果测试使用了两个因子),以及平均的市值(第18行)。平均组合规模可以让人了解一个策略的集中程度。一个策略越集中,你越能在最高分位预期更多的超额收益,在最低分位预期更大的负超额收益。战胜市场的公司数目能够让你了解到该策略在最高分位的超额收益所覆盖的范围,而输给市场的公司数目则让你了解该策略在最低分位的负超额收益所覆盖的范围有多广(例如,对于一个卖空策略)。你将注意到在其他所有条件相同的情况下,最高分位中胜者(获得正超额收益)和败者(获得负超额收益)的比率将随着策略变得更加集中(组合规模更小)而变得更高。测试组合因子值的中位数能够为投资者提供一个估量潜在投资策略或创建选股标准的参照基准。
行业测试
对于本书中的每一个单因子策略,我们同样提供了一个测试来展示这个因子策略在每个行业板块上的效果。行业板块代表了全球经济中各大类的相关产业,由全球行业分类标准(CIGS)定义划分标准,由标准普尔和MSCI Barra共同发展。在同一个行业板块中的公司通常具有共有的基本特征。总共有10个GICS板块。下面列表中展示了这些板块及它们包含的主要产业(称为“产业集群”)。
能源
材料
工业
资本货物
商业服务与供应品
交通运输
可选消费品
汽车与汽车零部件
耐用消费品与服装
消费者服务
媒体
零售业
日常消费品
食品与主要用品零售
食品、饮料与烟草
家庭与个人用品
医疗保健
医疗保健设备与服务
制药与生物科技
金融
银行
综合金融
保险
房地产
信息科技
软件与服务
技术硬件与设备
半导体与半导体生产设备
电信业务
公共事业
我们分别在最高(第一)分位和最低(第五)分位对行业板块进行单因子策略的测试。行业板块测试的目的在于确定一个策略是否在某些行业板块上比在其他板块上更有效。因为在我们的测试期间,回测选股样本在不同行业板块上的收益是变化的(例如,金融股战胜了选股样本,而可选消费品行业却输给了选股样本),并且我们并不知道具体每个板块未来的表现会如何,所以我们通过比较分位收益和对应行业板块收益来计算最高和最低分位的超额收益,而不是和选股样本比较。以市销率策略为例,我们计算能源板块收益如表2.5所示[16]。超额收益是通过每个分位的复合年增长率减去能源板块的复合年增长率而得到的。
表2.5 行业测试样例:市销率策略,在能源行业中的链接收益
(续表)
资料来源:公司报表
值得注意的是,对于板块测试我们仅每年计算一次收益;与基础测试、策略的非行业板块测试不同,我们并不是基于每季度执行的测试计算超额收益。这可能会导致有些不可靠,但按年度执行的测试应该足够让你了解一个策略在不同行业上的效果。
行业汇总图表
除了行业测试中使用两张表格以及在行业表格中删除了一部分在非行业汇总表格中的元素之外,行业汇总图表中的元素和普通非行业板块回测的汇总图表基本相同。每组行业汇总表格同样包含了一张展示每个行业的平均超额收益(最高和最低分位)的图表。图2.4是投入资本金回报率策略的行业测试的例子。顶部的表格展示了最高(第一)分位在每个行业板块中的表现,下面的表格展示了最低(第五)分位的表现。
(1)计算测试收益的年份(以及标题栏)。
(2)每个策略在最高分位(顶部表格)和最低分位(底部表格)按行业测试的复合年增长率。
(3)整个行业板块的复合年增长率(行业板块由我们的选股样本按照前述的GICS准则划分)。
(4)每个策略在最高或最低分位在不同行业的超额收益,由该分位的CAGR(第2行)减去全行业的CAGR得到。
(5)X年前投资的10 000美元的价值,这里的X表示我们在回测中所包含的年数。
(6)对应行业板块上策略收益超过选股样本收益的次数在1年时间内所占的百分比。
(7)对应行业板块上策略收益超过选股集合收益的次数在滚动3年时间内所占的百分比。
(8)在任何一年时间内实现的最大收益。
(续上)
* Equal-weighted average of S&P 500 returns.
资料来源:Standard & Poor's Compustat Point in Time Database, Charter Oak Investment Systems
图2.4 行业策略结果图表样例:投入资本金回报率
(9)在任何一年时间内承受的最大损失。
(10)分位收益的标准差。
(11)每个分位收益相对于对应行业的Beta值。
(12)每个分位收益相对于对应行业的Alpha值。
(13)在测试期间内平均投资组合(最高或最低分位)规模。
图2.4中的直方图仅仅显示了超额收益的情况,根据最高和最低分位表格中第4行所对应的每个行业的数据。这个直方图能让人很容易地浏览一个策略在全体行业的表现情况。
在行业收益计算时需要特别注意的一点是:因为行业测试结果可能会因为一个行业板块中不同的产业特性而存在偏差,我们在“产业集群中立”的基础上计算分位的收益。产业集群如前文在GICS标准讨论后附的行业板块分组列表所示。一个产业集群中立的测试表示我们根据产业集群来选择最高和最低的分位,然后再将产业集群的结果合并构成行业板块组合。比如说,在GICS医疗保健行业板块,有两个产业集群:①医疗保健设备与服务;②制药与生物科技。因为生物科技公司通常有较高的市销率(在我们的测试期间是10倍的销售量),一个简单的医疗保健行业市销率测试的最低分位很有可能都是由生物科技公司构成的。为了避免对于某个产业集群的偏差,我们采用产业集群中立测试的方法。
结语:为什么我们没有都变得很富有?
你将在本书中看到的许多策略在最高分位获得了超过6%的超额收益,以及在最低分位低于-8%的负超额收益。在从1988年1月~2007年12月的20年间——本书的测试区间——我们选股范围的平均年化收益率大约为14%。如果你的股票组合能够平均每年赢得20%的收益(14%的市场收益率加上书中某一策略最高分位6%的超额收益率),你可能已经准备退休并开始享受游艇生活了。不幸的是,长时间地获得20%的平均年化收益率是非常困难的。
尽管本书中的策略是有预测性的,并且的确为投资者提供了获得高于市场收益的可能性,但真正完全实现在回测汇总中所看到的超额收益仍然存在着许多障碍。第一个主要障碍是交易成本。这些成本不仅仅包括经纪人的佣金,同样包括了投资者在买入或卖出股份时支付的微小“价差”[17]。比如说,如果一只股票在股市上的买入价为25美元,卖出价为25.25美元,那么买家,必须以卖出价支付,将付出高于股票均衡价格(假设位于价差的中间)12.5美分的价格。这意味着投资者一买入股票即损失了0.5%,并可能在卖出时会损失另一个0.5%。尽管价差会根据交易股票的流动性而变化,但其中的交易成本还是很显著的。
对于机构和其他大型投资者,市场价格的冲击,或延误,通常是交易成本中最大的一部分。延误常常发生在当资产管理人要完成一桩大宗的买入或卖出,因而抬高了买入价格或拉低了卖出价格。市场冲击很大程度上取决于目标股票的流动性以及交易的规模。专业的资产管理人比我更清楚市场冲击的详细情况,并且个人投资者对于大多数活跃交易的股票几乎不需要担心市场冲击的作用。
对于最低分位的策略,如果适用的话,超额收益同样被卖空交易特有的成本所削减,包括了股利成本(借得股份获得的股利必须支付给所有者)以及保证金贷款利息费用。对于机构卖空组合可能会涉及更多的费用,而且有时股票则完全不能被借入(对个人投资者同样适用)。
另外一个可能的阻碍是这样的:在过去十分有效的策略有可能在未来并不同样有效。在这本书中,我们力图寻找我所谓的基础策略,即在年复一年中,不同经济和市场环境下始终有效的投资方法。基础策略例如赢利性、估值,以及现金流等,永远都不会过时。这是因为他们正是创造一个有价值投资的基础。然而,某些投资策略很可能在长时间后失效或被市场参与者所过度利用。比如说,在1998~2000年间,遵照买入低市盈率股票策略的投资者——一个在过去效果非常好的策略——惨败给了市场。在1999年3月~2000年3月之间,这个策略输给市场达到惊人的31%,投资者在这个巨大的牛市中仅仅获得了3%的收益。尽管我很希望本书中的策略能够在未来提供很好的超额收益,但过去的结果并不能保证未来的成功(我可以看到我的“合规主任”在看到这点之后所露出的满意的微笑)。
最后,应该记住的是测试结果中的超额收益是在18~20年的测试区间上的平均值。这意味着在任何一年中的超额收益可能与平均值差得很远。本书中的策略因为具有长时间的稳定性而被选中,但只要你坚持原则,遵行一个在过去被证明成功的策略的时间越久,那么你在未来获得大量超额收益的可能性也就越大。
注释
[1]数据的可获得日期,表示Compustat数据库用户在这个时点之后才可获得上市公司的历史数据。
[2]在并股中,一个公司的子公司或者部门从母公司中拆分出来,新公司的股份分配给现有的股东。通常的结果是母公司的股价下降,因为其一部分如今被作为另一个实体进行交易。如果不考虑并股或其他价值分配,“母”股票的持有者看起来似乎损失了大量的价值,但实际上这些价值仅仅是被重新分配而已。
[3]1987年,金融会计标准委员会要求公司提供现金流量表,并将现金流量(收入和支出)分为经营性、投资性和融资性几类。但这个标准直到1989年才得到广泛接受。
[4]我们的测试在1987~2006年内执行(在这些时间上构建投资组合),收益计算则在12个月之后,从1988~2007年。
[5]1998年的市场下跌可以看作是一个“小熊市”;道琼斯工业综合指数下跌19.3%,从1998年7月的9 388点~1998年8月底的7 539点。下跌的原因是始于自亚洲扩散到俄罗斯的全球性货币恐慌(货币价格的剧烈下跌)。
[6]我们特地选择这3年正是因为测试在这期间表现十分良好,因此不要对结果表示过分惊讶。
[7]实际用来计算收益的计算机代码因为其使用的软件包而不同。对于上面展示的测试,公司根据一整年的销售额除以年末的总市值。缺少销售额或市值数据的公司将被剔除。“分片”程序完成排序和将公司分组的功能。收益的计算为价格的变化加上红利,再加上现金等值的价值分配。
[8]我们对每个分位的第一期收益乘1,因为1表示了每个分位指数的起点(0%的初始收益)。
[9]定义风险为资本真正损失(v.s账面损失)的可能性。更准确的定义是购买力永久性损失的可能性,该定义考虑了因为通货膨胀所导致的资本减少。如果你打算持有股票1年或更短(本书中我们假设1年的持有期),波动率肯定是一种风险。对于更长的持有时间,投资风险(商业活动自身损失的可能性)是更加重要的因素。估值(对一项投资支付过高价格的风险)是另一个重要的风险因素。
[10]技术上而言,Alpha衡量了在策略带来的给定风险水平(相对于市场基准的波动率,用Beta来衡量)上时,投资者的实际收益和其预期收益的差值。换句话说,Alpha是策略超越市场收益的部分,这部分不能用Beta解释。
[11]超额收益是线性的表示在测试的投资因子和超额收益之间存在较强的相关性。
[12]在他的书中,The Warren Buffett Portfolio:Mastering the Power of the Focus Investment Strategy,作者Robert G. Hagstrom告诉我们即使最好的投资者也只能在60%~70%的时间上战胜市场。(一个著名的例外是巴菲特,他在1957~1969年的每一年中都战胜了市场)。
[13]同样青睐最大损失呈线性的策略(最高分位最低而之后的分位依次升高),并在最高分位中有较高的最大收益。
[14]正如之前提到的,并不是书中的所有策略都有低的最大损失。读者必须自己决定在一个策略中能承受多大的波动。
[15]即使用Beta来衡量风险。
[16]注意到表2.5列出了链接收益,即实际收益(未列出)相乘得到的复合收益。
[17]当你购买股票时,需要支付买入价,即交易员愿意卖出的最低价;而当你卖出股票时,需要支付卖出价,即交易员或其他买家愿意买入的最高价。买入价和卖出价之间的价差是交易成本中重要的一部分,而且这部分对于某些股票来说可能更大。例如,流动性不佳的股票通常有更大的价差。