Local EPUB Text
附录A 统计学基础
本附录由注册金融分析师、注册市场技术分析师,得克萨斯州圣安东尼奥圣玛丽大学比尔格里赫商学院(Bill Greehey School of Business,St.Mary's University,San Antonio,TX)金融学教授小理查德·J.鲍尔(Richard J.Bauer,Jr.)博士撰写。
学习目标
·熟悉描述性统计和推理性统计的区别;
·熟悉计算中心趋势和离散的常用指标;
·熟悉回归的概念;
·熟悉与现代投资组合理论(MPT)有关的基本假设和统计学方法。
由于金融资产价格基本上是变化频次很高的数值,因此主要应用于数据分析的各种统计技巧,运用在投资中也不足为奇。根据林德、马沙尔和沃森(Lind,Marchal & Wathen,2002)的观点,统计学是“针对收集、组织、展示、分析和解读数据的更精确的决策科学”(第3页)。在附录A中,我们将介绍与证券分析有关的重要的统计和数量分析方法,当然这些统计方法也常用于其他类型的资产。附录A中的内容主要是帮助读者熟悉这些方法,而不是详细介绍这些方法。
回报
金融学中,回报是指投资的回报。假设我们以每股50美元的价格买入一股,并持有一年,获得2美元的红利,然后以53美元卖出。我们可以按照下列方式计算股票的回报:
推广使用,计算投资回报的公式为:
式中 R——股票回报;
Pt——第t天的价格;
Pt-1——第t-1天的价格;
Dt——第t天的收益。
式(A-1)适用于债券、期权和期货等,主要的区别在于红利可以用利息或其他收入代替。
我们经常谈论回报,但是回报可能并不代表已经实现的收益。即使我们继续持有股票,依然可以谈论前一年的回报。我们可以假定自己已经卖掉了这只股票,以此计算回报。我们关注股票的回报而不是价格,其中有很多重要原因,我们将在下文逐一解说。
概率和统计
大多数统计学方法的基础是概率。概率与这个问题相关:出现这样的结果,难道仅仅是因为偶然?概率的概念很微妙,如果深入讨论,不免要引出艰深的哲学辩论。例如,我们可以问:“地球上出现生命完全是出于偶然吗?是否有其他机制决定了地球上生命的诞生?”如果事情并非随机发生,我们就说它来自一个确定的过程。
股票的价格有随机论和决定论两种观点。股票价格是随机的吗?换言之,股票收益是随机的吗?当平均收益很稳定时,偏离平均收益是随机发生的吗?我们在第4章中看到,人们对于此类问题的争论由来已久,而且这种争论还会继续。不管你的观点是什么,概率概念和统计观念已广泛应用于投资研究。
统计学的一个关键概念是独立性(independence)。如果两起事件是独立的,那么无论第一起事件的结果是什么,都不会影响第二起事件结果发生的概率。假设你要抛一枚硬币,这枚硬币经过仔细称量,可以确保被抛出正反面的概率都是1/2。抛了5次硬币后,你发现连续5次都是正面朝上。接下来一次抛掷,正面朝上的概率是多少?由于前面已经发生了连续5次正面朝上的情况,看起来这一次应该是反面朝上的概率会超过正面朝上的概率,因为连续5次正面朝上的概率很小。但是第6次抛掷,正反面的概率是一样的。这6次抛掷硬币的行为是相互独立的,后来的结果不会影响前面的。如果你通过实施统计检验来分析投资,你就得考虑独立性这个概念。很多统计检验都假定事件是独立的。
与投资有关的两个数学/统计学术语需要我们了解,一个是置换(permutation),另一个是组合(combination)。我们可以假设现在考虑对5种股票进行投资,它们分别是可口可乐公司股票(KO)、百事可乐公司股票(PEP)、IBM公司股票(IBM)、微软公司股票(MSFT)和麦当劳公司股票(MCD)。
置换是指改变项目的顺序。我们不会按照原来的顺序排列,可以按照IBM公司股票、可口可乐公司股票、麦当劳公司股票、微软公司股票和百事可乐公司股票这样的顺序排列。当然,5个项目的排列方式可以有120种。如果你想购买这5种股票,顺序不同不会对整体产生影响。因此,我们在这里不讨论置换。
“组合”这一概念在投资中有更深刻的意义。在投资组合中,排序并不重要。由可口可乐公司股票和微软公司股票构成的投资组合与由微软公司股票和可口可乐公司股票构成的投资组合是一样的。5种股票可以有5种不同的单种股票组合,10个不同的两种股票组合,10个不同的3种股票组合,5个不同的4种股票组合以及1个5种股票组合。无须很多种股票,就可以构造出多种投资组合。假设有100种股票可供选择,就会有75 287 500个5种股票的投资组合;假设有500种股票可供选择(例如,美国标准普尔500指数的成分股),就会有245 810 588 801 891 000 000个10种股票的投资组合。
在上文的讨论中,我们列举的是权重相同的股票组合,即两种股票组合,每一种股票都占50%。如果我们赋予不同股票以不同的权重,比如说,微软股票占78%,可口可乐公司股票占22%,就可能产生无限个股票投资组合(设定我们可以购买不同份额的股票)。由此可见,不同投资者在决定构建自己的投资组合时,即便选择的股票种类是一样的(例如都选择道琼斯工业股票),最终的结果也会千差万别。
统计描述
在统计学里,统计描述(descriptive statistics)和统计推断(inferential statistics)是有分别的。统计描述从字面上看,就是对手上的数据做出描述或指出数据的特征。统计推断是指根据观察的现象或现象的假设做出有关数据的推论。我们首先来看一下统计描述。
如何描述一组事件的结果?各项结果的相似度如何?这些结果是大概率事件还是小概率事件?若干组事件结果之间的关联性如何?它们是相似结果还是不同结果?这些结果是否与时间有关?也就是说,后来发生事件的结果一般与之前发生事件的结果不同?我们尝试用描述性统计解决这些问题。
中心趋势指标
描述一系列数据的逻辑出发点是提出这个问题:“什么是典型结果?”用统计学的术语来描述“典型结果”,也就是“中心趋势”。测量中心趋势的方法有许多种,每一种方法的切入点都不同。
为了揭示不同的方法,我们假定手上有百事公司股票(PEP)9个月的投资收益数据(2004年1~9月),收益分别是1.4%、9.8%、4.1%、1.2%、-2.1%、1.4%、-7.2%、0.0%和-2.2%。
1.平均值
评估中心趋势的第一种方法叫作平均值,这也是最常用的方法。一般来说,我们也称之为均值(average)。计算平均值的方法是将这9个月的收益加总,然后再除以9。
请注意,平均值0.7%并不是某个观察到的数值,虽然我们实际上称之为平均收益。
2.中值
评估中心趋势的第二种方法是中值。计算中值的方法是先将所有的数据排序(这里我们按照升序排列)。这个序列排位最中间的数值称为中值。本例中,中值为1.2%。有半数收益都超过了1.2%,而另一半的收益低于1.2%。当收益分布偏向更高值或者更低值的一边时,整体分布没有呈现对称形态,此时我们常用到中值。
3.众数
第三种评估中心趋势的方法是众数。众数是指出现频率最高的数字。在前面的序列中,众数是1.4%。如果这个数字含有更多的小数位,如1.368%,那么高频率发生的概率就很小。如此一来,也不会具有多大意义。因此在分析股票收益数据中,很少有人偏爱众数这一指标。
4.几何平均值
在各类统计学课本中,上面三种评估中心趋势的方法是标准方法。但是,还有一种平均值方法可以用于金融学中:几何平均值。之前的平均值可以称为算术平均值(arithmetic mean)。为了表明算术平均值和几何平均值的区别,我们可以考虑一项4年期限的投资资产,年收益分别是90%、-40%、60%和-50%。算术平均值的算法如下:加总4个收益,然后除以4,得数为15%。作为年收益来说,这个数值看起来相当不错了。但是考虑到某个人以1000美元为原始资本投资于这一资产,1年后他获得1900美元;2年后,资产为1140美元;3年后,资产价值为1824美元,到第4年末的时候,只有912美元。本来15%的算术平均收益,怎么会造成这种结果呢?这个例子表明了算术平均值的缺点,尤其用于百分比来看,更是如此。
如果采用几何平均值,本例中可以将4个数(1.9、0.6、1.6和0.5)乘积的4次方根减去1,得出-2.3%。这4个乘数分别是由1加上每一年对应的收益率得来的。将初始资本1000美元乘以这4个乘数,得到912美元,就是这4年的最终资产值(terminal wealth)。将最终资产值除以初始资本,再取这个数值的n次方根(n是指对应的数据个数),然后再减去1,就得出了几何平均值。如果使用金融计算器,我们可以将最终价值912美元输入到终值寄存器;将4输入个数寄存器;将1000美元输入现值寄存器;然后设置利率百分比。由这个操作步骤可见,几何平均值相当于我们所说的复合回报率(compound rate of return)。
理解算术平均值和几何平均值的区别非常重要,我们常听到的平均值实际上是几何平均值。几何平均值与某一时期所获的投资收益有着直接的关联。几何平均值一般都小于算术平均值。如果每一个周期的收益相等,几何平均值将等于算术平均值。收益率的波动越大,则几何平均值和算术平均值之间的区别就越大。前面所举的例子中,4年里收益在-50%~+90%波动,由此可以看到几何平均值和算术平均值之间的明显差别。投资者只会因为较高的几何平均收益值欣喜若狂,算术平均值并不是他们关注的重点。这也进一步说明了投资中一定要注意波动性。
在分析股票收益的时候,你可能很少用到众数。但是,算术平均值、中值和几何平均值各有其用途。这意味着无论是算术平均值还是几何平均值,都有自己的实用价值。
离散指标
金融学中,对待“风险”有多种思维方式。其中一种就是将风险看作结果的不确定性。如果结果A比结果B的波动性更大,我们则认为结果A是风险更高的选择。从上文对于几何平均值的讨论中可知,如果投资对象波动性较大,我们很难得到某个特定的最终资产值。
衡量波动性的两个指标是方差(variance)和标准差(standard deviation)。两者联系紧密,因为后者是前者的平方根。标准差更常用到,其优点是它的单位与平均值单位相同,而方差(即标准差的平方)的单位和量值比较难解释。
为了简便起见,我们假设手上有4年的年收益数据,以此来计算对应的标准差。假设4年的收益率为12%、-5%、21%和12%,将这4个百分比加总再除以4,得出算术平均值,这很简单。接下来,我们计算它们与均值之差的平方并加总。最后我们将这个求和得数除以3,再取平方根,就得到了标准差。如下面的公式所示,其中σ代表标准差。
你可能和大多数人一样,在想为什么这里是除以3,而不是4。也可以除以4,只是意义不同。在统计学中,我们采用的是样本(sample),而不是总体(population)。总体是指可能结果的完整集合或者研究对象的完整集合。例如,当我们考虑美国的成年人人口时,样本是我们研究的特定对象,希望通过对样本的研究,做出有关总体的推论。我们可以随机抽取1000个成年美国人作为我们的样本。在这个标准差的公式中,我们可以除以4,如果我们假定这代表了总体的结果。但是,由于我们更加关注未来若干个周期的情形,我们可以用3个结果作为总体中的一个样本。出于这一层复杂的原因,我们选择了3作为除数,而不是4,获得所谓的无偏估计(unbiased estimate),而本例中的3又称为自由度(degree of freedom)。
开始时的自由度为4。计算标准差所需要的平均值时,我们已经使用了1个自由度,因此只剩下4-1=3个自由度,我们使用3作为除数。在只有4个结果的例子中,选择3或者4作为除数会造成相当大的差别。当然,如果我们有101个观察对象,我们选择101或者100的话,就不会有如此大的差异。因此,有关这里的除数到底是用n还是n-1,使用者不用太担心。通常情况下不会有太大的差别。
了解了标准差这一概念后,我们可以分析如何利用收益数据进行统计分析,这将与利用价格的数据获得完全不同的结果。假设我们观察了某种股票的4个价格:40.00、44.00、48.40和53.24。计算均值得到46.61,标准差为5.70。然而,如果我们计算收益(不考虑分红因素),则收益率就是10%、10%和10%。仔细观察发现,在计算出的收益少了一个数据,因为我们主要关注的是价格变化。我们需要一个起始价格来计算第一个期的收益,或者我们需要用最后一期的价格来计算最后阶段的收益。使用收益,我们的平均值是10%,标准差就是0。
如果我们把风险看成是波动性,这里就碰到了一个难题。单看价格,我们觉得股票风险较高,因为波动性较大,标准差高达5.7。如果单看收益,我们可以说股票根本没有什么风险,收益无波动,标准差是0。哪一种观点正确?要知道收益无波动,是因为价格上涨趋势强劲。有一句古话:“趋势会永远是你的朋友吗?”我们刚刚展示了此论断的统计学证据。可以看到,这里没有哪一种观点是正确的。你要格外留意正在发生的情况以及它们对于价格和收益的影响。
变量之间的关系
到目前为止我们讨论的是针对一个变量的统计方法。现在可以拓宽眼界,考虑多个变量的情况。可以肯定,情况将变得更加复杂。
对于单个变量,我们用方差来量度变化程度。对于两个变量,则可以使用协方差(covariance)。协方差的计算方法与方差计算方法类似。我们用百事可乐公司股票(PEP)和可口可乐公司股票(KO)的4个月收益为例,说明如何计算协方差。2004年1~4月百事可乐公司股票收益分别是1.4%、9.8%、4.1%和1.2%。可口可乐公司股票(KO)的同期收益分别是-3.0%、1.5%、1.2%和0.05%。这一时期的百事可乐公司股票的平均收益为4.125%(标准差为4.008%),而可口可乐公司股票平均收益是5.0%(标准差是2.076%)。计算协方差时,我们将百事可乐公司股票和可口可乐公司股票的每一期收益减去均值,并将两者得数分别相乘,然后加总,最后再除以期数减去1。这样我们就可以得到i和j之间的协方差covij。公式如下:
方差的主要问题是其计算结果的单位无意义,协方差存在同样的问题,很难解释协方差数值的意义。对于方差的这个问题,我们通过使用标准差解决;针对协方差,我们用不同的方法。我们将协方差分别除以两个变量各自的标准差,结果的范围是-1~+1。这个得数我们称为相关系数(correlation coefficient)。使用之前的协方差计算例子,我们得出相关系数:
这个系数表明百事可乐公司股票和可口可乐公司股票的正相关程度较高。
如果我们要观察一个变量在若干个连续时间间隔的情况,可将其视为时间序列变量、时间序列数据或时间序列,如果两个变量之间的相关系数是+1,就表明两者完全正相关:当变量X上升时,变量Y也上升;当变量X下降时,变量Y也下降。如果两个变量完全负相关,相关系数是-1,那么两者的方向刚好相反:当变量X上升时,变量Y下降;当变量X下降时,变量Y上升。若两者之间的相关系数为0,则代表两者之间不存在可见的关系。假如变量Y上升,对于Y来说没有可预见的方向。Y有可能上升,也有可能下降,还有可能保持原地不动。
观察两个变量之间的关联程度有两种方法,一种是将两个变量与时间的关系分别在图中表达出来,另一种是将两个变量分别在X轴和Y轴上表现出来。图A-1显示了可口可乐公司股票(股票代码为KO)和百事可乐公司股票从2000年1月到2004年12月的月收益图。第二种表达方式如图A-2所示。
图A-1 可口可乐公司股票和百事司乐公司股票收益月线图(2000年1月~2004年12月)
从图A-1中可以看出,当百事可乐公司股票收益曲线上升时,可口可乐公司股票收益曲线也上升;当百事可乐公司股票收益曲线下降时,可口可乐公司股票收益曲线也下降。假如两种股票收益呈负相关,两条收益曲线的动向应该刚好相反。这两种股票这一段时期的相关系数是0.489。从美国标准普尔500指数中随机选取两个成分股,计算两者的收益曲线的相关系数,通常是在0.2~0.5之间的范围内,这种关联度我们称为弱正相关。与两个随机选取的股票相比,我们可以预测可口可乐公司股票和百事可乐公司股票的关联系数更大,两者的正相关主要原因在于这两个公司同属一个行业。
现在请看图A-2。在本例中,我们看到最佳拟合直线(这里稍作解释)穿越了左下角到右上角的收益曲线。假如股票之间是负相关,则这条线应该从左上角到右下角。如果两者的相关系数是0,表明点的分布就如同围绕着中心的枪靶环数一样从中心开始向四周蔓延开来。各点之间看似没有一点可见的关联性,而最佳拟合直线也应该成为水平线。
图A-2 可口可乐公司股票和百事可乐公司股票的月收益图比较(2000年1月~2004年12月)
上面讨论相关性的时候,我们谈到了最佳拟合直线。在图的点上,我们要做一次最小二乘法线性回归拟合过程。假设我们认为两个变量X和Y的数据点和前例是一样的,如图A-2所示,画出回归线,使得实际数据点和回归线之间的差值的平方和最小,我们就称这条线为最小二乘回归线(least-squares regression line),或者最佳拟合直线(line of best fit)。统计学家已经给出了这条线的方程式,这样读者就可以自行计算,找到最小二乘回归线的斜率和截距,无须画出多条曲线和尝试画出回归线。这条线的方程式是Y=a+bX。使用这种标记法,则最小二乘回归线的方程式就是:
式中,n是指观察数据的数量,Xi是指第i个X变量。求和符号表示将所有的X数据进行加总。其他的求和符号原理一样。
这一计算过程可以借助微软Excel电子表很快完成。在微软Excel电子表中完成回归计算有多种方法,一种方法是将直线和方程的数据直接输入,如图A-2所示。由于我们使用的是可口可乐股票数据/百事可乐股票数据比率,可以把这个方程解释为:可口可乐股票收益可以通过特定月份百事可乐股票的收益进行估计,将百事可乐股票的收益乘以0.4564(斜率),然后加上-0.0063(截距)。
相关系数有一个很好的额外优点就是如果取相关系数的平方,就获得了R2,即判定系数(coefficient of determination)。由于相关系数的范围是-1~+1,因此R2的数值也是0~1(平方不可能是负数)。此外,这一数值还能用来量度拟合程度。如果R2是0.45,则我们可以认定可口可乐公司股票收益45%的波动是来自于可口可乐公司股票与百事可乐公司股票收益的关联性。R2越高,拟合度越高。本例中R2为0.158,说明可口可乐公司股票收益15.8%的波动,起因是可口可乐公司股票与百事可乐公司股票收益存在关联关系。这个比率听起来不高,但是两种随机股票之间典型的相关系数一般为0.2~0.5。这意味着某种股票的收益只能通过另一种股票收益的4%~25%(也就是0.2~0.5的平方)来解释。有时候两种股票的相关系数小于0.2,意味着R2可能接近0。
在继续分析之前,我们先来思考一下股票收益的典型关联关系。股票通常倾向于同时上涨或下跌,正如我们看到存在正相关关系。但是,股票之间的这种关系并不稳定,而是呈松散的关联关系。有时候人们认为股票价格只能代表噪声,这种观点意味着股票之间的关联性很微弱。在通信理论中,人们说的是信噪比。设想一下听到广播演讲的情况,在不存在干扰、信号传输完美的情况下,与信号对应的演讲词很容易辨别和理解。假如干扰比较严重,例如无线电广播站比较远、天气不好,或者家里有吹风机的干扰(噪声),噪声越大,信噪比越低,就越难听清楚正在广播的演讲内容。同理,若股票的价格具有低信噪比,所有存在的形态或关系都很难辨认。
每个周期内尚未解释的变量Y称为误差项或者残差(residual)。举例说明这种情况。2000年5月,百事可乐公司股票的收益是11.414%,而可口可乐公司股票的收益是12.963%。使用图A-2显示的线性回归方程,我们可以估计可口可乐公司股票的收益是4.579%(0.4564×11.414%-0.63%)。请注意我们改变了截距表达方式,原来是-0.0063,现在是-0.63%。我们估算中出现了8.384%(12.963%-4.579%)的误差。进行回归时,我们假设误差因素是随机出现的,彼此之间没有多大关联。但当使用时间序列数据时,误差因素本身会产生关联,这称为自相关(autocorrelation)或者序列依赖(serial dependence)。有一项名为杜宾-沃森检验(Durbin-Watson test)的统计测验方法可以帮助我们检查自相关情况。如果存在自相关现象,则拟合回归线很有可能不正确。
在线性回归中,被解释的变量称为因变量(dependent variable)。用于解释其他变量的变量称为自变量(independent variable)或者解释变量(explanatory variable)。我们可以将回归的概念推广到多个自变量的情况。这称为多元回归(multiple regression)法。逻辑上讲,两个解释变量要好于一个变量,三个要好过两个,依此类推。实际上几乎所有包括在回归中的附加的解释变量都会提高R2。例如,我们可以将巴黎的月平均气温作为一个系列数据帮助我们解释股票的收益。尽管这在逻辑上讲不通,因为巴黎的气温和股票收益没有因果联系。但是R2有可能因此提高。使用多个自变量时,研究者会关注调整后的R2。当线性回归方程中加入更多的自变量时,调整后的R2值变小了,实际上这有助于更好地平衡收益和成本。那么加入特定的变量是否有益呢?
实施多元回归过程中经常碰到的问题就是多重共线性(multicollinearity)。多元回归中的几个变量有较大的相关性时,就会出现这个问题。假设我们现在想要了解影响2005年美国标准普尔500指数股票收益的所有因素,而每种股票都经历了很多变化(2005年市值与2004年市值的对比),比如资产变化、销售变化、收益变化和股东权益变化。这些变量之间都相互关联,那么多元线性回归就会出现多重共线性现象。由此引发了很多问题。其中一个重大问题就是,人们搞不清楚究竟哪一个自变量是更具有统计显著意义的变量。
统计显著意义一词是指某次偶然发生的结果有多大可能还会发生?比如,在投掷硬币比赛中,设想要求80 000名在足球场上观赛的人站起来掷硬币。如果正面朝上,他们就站着;如果正面朝下,他们就坐下。第一次掷完后,我们可以估计大约有40 000人继续站着。再掷一次后,估计还有20 000人站着。可能需要掷16次来确定最后的胜者。如果人群中某个人连续16次掷出正面朝上,那么我们不必惊讶。
人们经常用5%作为是否具有统计显著性的一个门槛值。假如我们观察某个事物,概率在5%以下,表明其发生纯属偶然。到达5%,我们就要关注其统计显著性了。如果我们需要用更精确的测试来确定,就要使用1%作为临界值。当然,某一事件具有统计显著意义,并不代表它具有经济上的重要性。统计学家可以说某个特定的交易规则表明了已经发现的统计显著关系,但是交易者可能会说:“太棒了!但是由于交易成本和其他因素,我无法按照这个规则盈利。”
统计推断
在统计推断这一节,我们努力使用观察到的数据,根据其一般特征或额外观察现象的特征进行推理判断。我们经常会检查某个特定的假说是真还是假。比如一个假说可能是:“这条曲线的斜率是1。”要验证假说,我们必须做出一些假设。最关键的假设就是有关概率分布(probability distribution)的假设。
最著名的概率分布就是正态分布(normal distribution),也称为“高斯分布”(Gaussian distribution)。这个分布首先由18世纪德国数学家卡尔·高斯定义,因其形状像钟,也称为钟形分布(bell curve)。这一分布只需要用两个参数,即平均值和标准差就能描述出来。由于平均值和标准差的数量无限多,因此正态分布的数量也是无穷多的。正态分布有如下三个重要的特点:
·呈钟形,顶点在中间。平均值、中值和众数都在顶点。
·以平均值为轴,呈左右对称分布。
·左右两端逐渐靠近X轴,形成左右尾部,向两个方向无限延伸。
正态分布非常重要,主要是因为中心极限定理(central limit theorem)。从某个总体中获得多个样本,计算每个样本的均值,然后将样本的均值画出其分布图,这些均值呈现正态分布。当样本的数量增大时,样本均值的分布会越来越接近于正态分布。中心极限定理对于统计检验具有重要意义。
我们应该记住有关正态分布的两个基本数据。首先,大约2/3的数据将会位于均值的一个标准差范围内(可能高于或低于均值);第二,大约95%的数据会位于均值的两个标准差范围内。
股票价格呈现正态分布吗?答案是否定的。因为股票的价格不可能为负值。对于正态分布来说,所有的数值都是可能存在的,包括正数和负数,即使某些数值很少出现。股票收益是否呈现正态分布?答案也是否定的,因为股票收益不可能低于-100%,只是股票收益可以大于100%。然而股票收益的分布要比股票价格分布更接近于正态分布。2000年1月~2004年12月百事可乐公司股票的月收益图如图A-3所示。
图A-3中,横坐标的每一格代表5.0%的收益。在长达60个月的周期内,有26次收益位于0~5.0%范围内。刻度的大小对于整体图像外观有影响。只有几个竖条较明显,而多数收益是扁平的。在本例中,我们可以看到百事可乐公司股票并不是一个正态分布,但整体类似一个钟形。有多种标准的统计检验法可以评估给定的样本数据是否符合正态分布。
逻辑上讲,由于股票收益不可能小于-100%,因此不可能完全符合正态分布。如果我们将价格取对数,情况又如何?这类被称作对数收益,是否符合正态分布呢?如果答案是肯定的,那么这些数据就遵从对数正态分布。我们先来看从0到无穷的对数值。对于股票收益来说,对数正态分布是一个更合理的假设。然而股票收益的精确分布却很难确定。金融研究者至今还在讨论用来表达股票收益的最佳分布图形是什么,我们在第4章讨论过这个问题。
图A-3 百事可乐公司股票月收益直方图(2000年1月~2004年12月)
我们在前面讨论标准差的时候,提到过“自由度”这个概念。这一术语在描述概率分布的时候再次浮出水面。最简单的方法是把它看成是用来定义一个统计分布的参数。对于正态分布来说,我们需要两个参数:平均值和标准差。
有三种重要的分布:卡方(Chi-Square)、t分布和F分布。所有这些分布都可以通过标准正态分布的变量加以调整而得到。标准正态变量是指遵循正态分布,均值为0、标准差为1的情况。我们可以轻易将大多数变量转化成标准正态变量。假设我们从一个样本中观察到了24,其均值是20,标准差是5。首先我们计算观察值与均值的距离。将24减去均值20,得到了4。第二步我们将这个偏离的距离除以标准差(这里是0.8(=4/5)),就可以知道这个数据离均值0.8个标准差。
卡方分布是建立在标准正态变量求和的基础上的。如果是建立在两个标准正态变量基础上,我们可以说它具有两个自由度。如果是建立在3个标准正态变量基础上,我们就说具有3个自由度。随着自由度的提高,分布逐渐接近正态分布。卡方分布主要用于拟合度的检验。术语“检验统计量”是指从某个样本计算出来的值,用于检验特定的假设,比如:“一袋M&M糖果所有颜色的概率均等吗?”许多检验统计量都遵循卡方分布,因此卡方分布也很有用。
t分布或者“学生氏”分布(“学生”是第一个发现这种应用的统计学家的笔名)在统计学中应用非常广泛。在真正的标准偏差未知的情况下使用t分布,对于小样本来说显得格外重要。随着自由度(样本大小减去1)的提高,t分布与正态分布会越来越接近正态分布。当自由度达到30时,和正态分布非常相似。t分布的图像呈左右对称分布,形状与正态分布类似,但是尾部更大。通常用于检验回归系数(如截距和斜率)的统计显著性。t统计数据的一个应用见下文。
最后一个常见的分布是F分布。F分布是建立在两个变量的比率基础上的,每个变量都遵循卡方分布。F分布主要用于检验样本是否具有同样的方差,常在回归中作为拟合度的衡量标准,因为这个比率刚好是解释变量与非解释变量之比。
现在让我们来看一下这些概念如何联合应用,主要用线性回归的数据说明。将2000~2004年百事可乐公司股票的月收益作为变量y,将同期的美国标准普尔500指数月收益作为变量x。我们可以使用微软Excel进行回归计算。表A-1显示了结果,最重要的数值加了灰色背景。
表A-1 百事可乐公司2000~2004年月收益Excel回归结果
我们先来看回归线的截距和斜率。截距已经标记出来,是0.0096。斜率是系数一栏里的X变量1,数值为0.3321。斜率接近股票的β值,详见下文。从技术层面上看,应该从每个变量中减去无风险资产(美国短期国库券或者美国长期国债等)的月收益。但是我们现在不想把事情搞得太复杂。实际操作中,减不减去无风险资产的收益并不重要。普通股票的β值(衡量风险的方法之一)是1。我们可以看到,百事可乐公司股票的β值比一般股票的β值小。此外,R平方(标记为R2)的值是0.0747。这说明我们的回归解释了这一时期百事可乐公司股票7.47%的变化。在斜率(0.3321)后面,我们看到了t统计值是2.1640。按照常识判断,超过2的t统计值具有统计显著性,因此这里已经超越了这个临界值。标记为P值的变量值表明我们碰到这个给定值是随机的。斜率的t值的P值是0.0346,说明这个t值随机发生的概率只有3.46%。在大多数的学术研究中,P值小于5%(有时候是1%)就表明具有统计学显著性。以上分析的这些信息称作t检验。最后,我们考虑一下F值,表中列出的数据是4.6828,其统计学显著意义的值是0.0346,与t的结果一样,即它们代表的信息是一样的。除非你是在做多元回归分析,否则斜率的P值和F数值的显著性值是一样的。表中列出的其他数据有各自的用途,这些信息可以从任何一本标准的统计学教程上获得。
这些统计结果告诉我们了什么?这些结果表明,我们的回归方程看起来部分解释了百事可乐公司股票收益的方差。从统计的角度来看,这些结果很重要。但是我们只能解释百事可乐公司股票收益7.47%的变化。而这一数据从实际操作上来看是否有意义,还要取决于其他考量因素。
现代投资组合理论
我们在童年时代就学过投资组合理论:不要把所有的鸡蛋都放在一个篮子里。然而,现代投资组合理论始于1952年哈里·马科维茨(Mark Markowitz)。他给出了股票投资组合,即不同投资组合之间的多种数学关系。他的理论的部分重要结果如下:
·投资组合的平均收益是所有单个股票平均收益的算术平均值。
·投资组合收益的标准差是一个二次函数。
·投资组合的标准差一般总小于单个股票标准差的算术平均值。
·即使各种资产之间存在比较微弱的正相关关系,这对于多样化投资也有诸多好处。
·如果投资者只关注平均收益和组合的标准差,这很有可能从逻辑上就排除了许多可以考虑的投资组合。
·对于大型的投资组合,每种股票的方差对于整体投资组合的方差影响不大。但是每种股票收益和所有其他股票的收益的协方差非常重要。
现在我们把这些观点重新梳理一下。
考虑两种股票的组合(或者投资组合),即X和Y。假设我们已经估算出了每种股票的预期收益(平均值)和收益的标准差。我们可以计算所有单个股票预期收益的算术加权平均值,以确定由X和Y构成的投资组合的预期收益(平均值)。因此,将投资组合的预期收益用Rp表示,我们得出如下公式:
Rp=wxRx+wyRy
由X和Y构成的投资组合的收益标准差如何计算?这个问题更加复杂。这个公式涉及了平方根(因此这是二次函数),具体如下:
这个等式中的rxy表示股票X和股票Y之间的相关系数。如果这个系数为1(表示完全正相关),则这个等式就可以简化为:
但是在现实中根本不可能存在完全相关的两种股票。当rxy小于1时,投资组合的标准差永远小于两种股票标准差的算术加权平均值。这说明在减少风险方面,多样化投资具有明显优势。
接下来我们可以通过图A-4的风险-回报空间,来看看这个投资组合的情况。这幅图是用百事可乐公司股票和可口可乐公司股票2000~2004年的月收益数据绘制的。请注意曲线展示了标准差的二次函数性质。此外,还要注意由80%的可口可乐公司股票和20%的百事可乐公司股票构成的投资组合,要比单纯由可口可乐公司股票构成的组合更好。我们为什么这样说呢?因为左上角上的点表示有更多的收益和更少的风险,这是我们更乐于看见的。两种股票的收益的相关系数是0.489。因此,即便两种股票具有弱正相关,多样化投资仍有更大的优势。
假如两种股票的相关度更高,这个曲线会如何变化?这条线的两端分别代表了两种股票分别占100%的情景,曲线靠近两端部分更加平直。如果两者的相关系数是+1,表示完全正相关,这就是一条直线。假如相关性降低,这条曲线会如何变化?向纵坐标弯曲的角度会更大。在完全负相关(相关系数为-1)的情况下,只有一种投资组合概率,那就是标准差为0的垂线。绝大多数情况下两者的相关系数为0.2~0.5。因此图A-4的图像是典型形状。
当我们把计算范围扩大并超过两种股票时,预期收益仍然是每一种股票收益的算术加权平均值,而标准差就是每一种股票的方差加上交叉项(与2wxwyσxσyrxy类似)。当我们将3种股票的可能组合画出来时,就可以看到图A-5所示的情形。
图A-4 两种股票的投资组合收益与标准差
图A-5的详细分析可以暂时放一放,现在先来看看股票1、股票2和股票3的投资组合情况。这幅图是使用1000种不同组合画出的。如果我们扩充点的数量,空白区域将会逐渐被填充。因此,这里没有可能的投资组合的曲线,只有可能的投资组合的曲线区域。
如果我们把股票的数量扩充为4种,则组合的方差计算将在下面的矩阵中加入所有的项并除以3(见图A-6)。
图A-5 3种股票组成的投资组合收益与标准差
图A-6 4种股票的方差
图A-6显示的小方格对角线的项是每一种股票的方差,其他项是协方差项。由于股票1和股票2的协方差与股票2和股票1的协方差一样,因此,这个矩阵实际上是沿着对角线呈对称分布的。请注意有4个方差项,12个协方差项。协方差在投资组合方差计算过程中的重要性一般是方差的3(=12÷4)倍。当考虑的股票数量更多时,单独的方差项也将变得越来越不重要。例如,如果考虑加入第5种股票,矩阵就会增加到25个格子。第5种股票的方差将占这25个格子的1个。然而,会有8个额外的协方差项加入到这个矩阵中,代表了第5种股票与其他4种股票的协方差。对于更大型的投资组合来说,每一种股票的方差相对来说都不太重要。重要的是每种股票与剩余其他股票的协方差。这一观点提示了资本资产定价模型的原理,我们稍后再详细介绍。
图A-7 有效集合
现在回到图A-5。我们到底想要哪一个投资组合?在回答这个问题之前,我们先来看另一个概念。先看图A-7,图中显示了5种股票收益的平均值和标准差估计情况。哪一种投资(组合)是最吸引人的呢?首先我们认定投资者在没有获得更多回报的前提下,不会承担更多的风险。用投资界的行话来讲,我们认定投资者的态度是厌恶风险的。由此推知我们应该会喜欢示意图的左上角的股票。股票A比股票B更好,因为同等风险条件下,它的回报更高。同样对于股票C和股票D,也能得到同样的结论。我们还可以认定股票A比股票C更吸引人,因为在同等收益条件下,股票A的风险更小。按照投资组合的理论,我们认为A好于B,B好于C,A好于C。这样我们就可以来比较A和E了。很难说明哪一项更受投资人偏爱,这要取决于投资人对于风险的承受能力。喜欢冒险的投资人可能喜欢E,而保守的投资人可能更偏向A。A和E比其他组合占优的现象表明它们成了所谓的有效集合(efficient set)。
我们可以将有效集合的概念扩展到所谓的有效边界(efficient frontier)。我们在此回顾一下图A-5,主要关注其他附加的信息。从P点到Q点(股票3上的点)曲线上边沿的投资组合代表了有效边界。这些投资组合要么在给定的标准差条件下具有最高的收益,要么在给定的收益水平下标准差最小。这些投资组合对于理性的投资者来说吸引力最大。投资者是否会选择沿着P点到Q点的投资组合,主要取决于他们对风险的承受能力。这称为均值-方差分析框架(mean-variance framework)。
投资组合理论尽管看似不错,但在应用的时候仍有两个重要的障碍需要克服。第一,马科维茨没有规定如何得到计算公式的输入变量,也就是说,他没有具体说明如何估算预期收益和标准差。当然,我们可以使用历史数据来估算,但是应该使用哪一周期的数据呢?6个月的月收益?还是52个星期的日收益?这里没有明确的答案。第二,随着投资组合规模的增大,公式输入的数量呈指数倍增加。对于一个100种股票的投资组合来说,投资者需要100种股票的预期收益、100个标准差以及4950个相关系数。以当前的计算能力来看,从一个给定的数据样本中计算这些数值不难,但是在20世纪60年代初,这可是一项耗时耗力的巨大工程。
截至1964年,有人在加入了一些理论后制定了一种更简便的计算方法。这一方法的诞生,威廉·夏普(William Sharpe)功不可没。这一理论就是著名的资本资产定价模型,它建立在多项简化的前提基础上,包括无交易成本、无税收等,然而最重要的是关于一致预期的假设。这意味着所有的投资者对投资组合理论的计算变量有着同样的看法,他们也同意所有股票预期收益和标准差及其关联性(或者说协方差)。在此基础上,所有的投资者确定了相同的有效边界,然后我们加入了零风险的资产(如美国国库券)存在的假设。
请看图A-5,从零风险点开始的线与有效边界相切。切点标记为组合M。之前的问题“我应该持有怎样的投资组合”,现在转变为“零风险资产和资产组合M如何搭配”。从零风险点到投资组合M点,零风险资产与投资组合M遵循这条线的轨迹。从投资组合理论上来讲,这条线上的组合可以支配线下面的所有组合。这样一来,这条线就成了有效边界。投资组合M现在表现出了特殊的重要性,每一位投资者都希望拥有这种组合。这说明所有投资者拥有的自己的投资组合,都属于组合M的一部分,这个组合包含了所有的股票(因为每种股票肯定会有人持有,而且每个投资人手头上肯定有几种股票)。愿意承受更高风险的投资者可能会把所有的资金都投入M,更谨慎的投资者可能会把30%的资金投入M,另外70%资金投入零风险的资产(美国国库券)。不管是哪一种方式,M组合内部具体股票的份额是一样的。
通过这些分析(当然我们没有一一回顾详细复杂的推导过程),可以看出对于任一股票i的预期收益ri,可以通过下列公式推算出来,我们把这一公式叫作资本资产定价模型(CAPM)等式:
ri=rf+βi(rm-rf)
式中,
这意味着β就是股票和市场的相关系数乘以股票收益标准差与市场收益标准差的比率。也就是说,假设股票与市场的相关系数为0.4,且股票的收益标准差是市场收益标准差的3倍,那么β值就是1.2(=0.4×3)。
一直以来,人们认为预期收益为:
预期收益=无风险收益+风险溢价
例如,某公司债券的预期收益等于同期美国长期国债(从违约风险角度来看是无风险资产)收益加上违约风险溢价,再加上可能的流动性风险溢价。为了计算这个公司股票的预期收益,需要加上额外的风险溢价,普通股东之所以拥有剩余索取权,是因为公司普通股比债券具有更高的风险。
因此,资本资产定价公式具有多年来人们一直在使用的结构。区别是风险溢价是可以量化的。请注意所有风险都来自股票与市场的关联性。这类风险不可能通过多样化投资进行分散,因此称为不可分散风险,也称为系统风险。β值用来量度系统风险。所有公司都有类似的系统风险,因为那些公司按照相似的规则在同样的赋税、政治领导和货币政策条件下运营。但是这些因素对于不同股票的影响是不同的。假如某些公司举债额度更高,或者成本结构中的固定成本更高,那么它的系统风险可能更高,或者说其β值更高。
资本资产定价模型管用吗?不能用简单肯定或否定来回答。如何检验资本资产定价模型,人们一直争论不休。支持资本资产定价模型的证据很多,鱼龙混杂。个股的β值往往不稳定。例如,我们曾经用月收益数据计算了百事可乐公司股票1995~1999年的β值,这个数值为1.466。当我们计算2000~2004年的β值时,这个数值为0.332(见上文有关回归的讨论)。如果我们深入分析百事可乐公司股票,这样大的差别解释得通。然而,有时候公司在几个阶段的β值改变,无法找到明显的原因,但是投资组合的β值更稳定一些。假如某个股票基金的β值是1.18,而股市在这一阶段处于上涨态势,则该基金的收益会超过美国标准普尔500指数的收益。假如市场整体下跌,股票基金的表现也有可能比市场的情形更糟糕。尽管β值有缺陷,但是在市场上的应用极其广泛,这主要是因为我们没有更好的选择。
市场整体的β值是多少?由于资产间的协方差与资产的方差相同,因此任何资产与自己的关联系数是1,而β的表达式为1。在实践中,美国标准普尔500指数通常用来表达市场投资组合的情况。股票β值超过1的股票是超出平均风险水平的股票,若股票β值低于1,则其风险也低于一般水平。
业绩表现的测量
业绩表现的测量既可以在微观层面也可以在宏观层面测定。关于微观层面的业绩表现测量,在第22章中我们介绍了多种评估交易策略的业绩表现的方法。
现在我们来讨论宏观层面对业绩表现的测量。提出这样一个问题:“我们如何判断投资者的总体投资表现是好还是坏?”这就要从宏观层面上对业绩表现进行评定。我们如果雇用资金管理人(如股票基金管理人),就更需要了解这个问题。我们要在给定的风险水平下,确定总体业绩表现如何。
衡量业绩表现方法最简单的一种就是测量收益风险比率。通过投资无风险资产(如美国国库券),我们可以获得无风险收益。由此,我们可以测量每单位风险对应的投资资产的收益减去无风险资产的收益,以此来评估投资的价值。将投资的平均收益减去无风险收益,然后除以这个阶段收益的标准差。假如ABC基金获得的平均收益率为12%,而标准差是20%,无风险收益率为4%,则对业绩的测量结果就是0.4(=(12-4)/20)。这种方法称为夏普业绩评定法或者夏普比率,以提出者威廉·夏普命名。
将这个理念应用在资本资产定价模型中,符合逻辑的方式是测量每单位的β值对应的剩余收益,这种方法称为特雷诺业绩评定法(Treynor measure of Performance)。以前面的例子说明,ABC基金的β值是1.1时,得出的特雷诺业绩评定值为7.27(先计算12%-4%,得到8%,再用8除以1.1,得到7.27)。
还有一种与β值有关的业绩评定法称为詹森α(Jensen's alpha)。假设我们可以估计市场的风险差额,即Rm-Rf=6%。我们用同样的方法评估基金ABC,预期收益为10.6%(=4%+1.1×6%)。然后用实际收益12%减去预期收益得到1.4%,这个值就是詹森α值。因此,α是衡量差额收益的方法,是超越根据资本资产定价模型推算的预期超额收益。我们常说资金经理是在寻找α值,也是这个道理。
特雷诺和詹森的评定方法如图A-8所示。假设你使用特雷诺和詹森的方法来对两种投资组合X和Y的业绩表现进行排序。X投资的特雷诺指标较高,而詹森α值较低。但是多数情况下两个指标的表现应该是一致的,建立在资本资产定价模型β值的这两种评定方法,都没有提到这个资本资产定价模型设计者夏普的名字。
图A-8 特雷诺和简生业绩评定比较
从图像上来看,夏普比率方法与图A-8显示的特雷诺方法一样,区别在于前者在X轴上用标准差,不是β值。
1994年,摩根大通公司(J.P.Morgan)提出了一种新的评估风险的方法。这种名为风险价值(value-at-risk,VaR)的方法,主要是从公司整体层面来看待风险。银行一般使用这种方法,主要出于监管目的。风险价值告诉我们特定时间内(如一天内)最大损失有可能发生的数值(一般情况下有95%的概率)。由于没有人能够预见未来,因此这种方法是建立在特定前提之上的。比如,某个投资公司拥有多种美国和外国证券,现在从三个维度来看风险:持有美国股票的风险、持有外国股票的风险和汇率风险。风险价值可以帮助我们分析这三个风险组成部分的变动情况(读者可以对这三类风险进行更细致的分类),以及彼此的关联度。将这些信息输入执行风险价值计算的计算机程序中,最后得出结果。比如,如果风险价值只是360万美元,意味着这个投资公司一天损失超过360万美元的概率小于5%。由于这种算法很复杂,只有金融机构使用这种方法。
高级统计方法
有些研究者使用了非常复杂的统计方法进行投资分析。限于篇幅,本书不可能详细讨论所有高级的统计方法。我们希望能让读者了解一些主要的高级统计方法。
本附录多次提到了“时间序列”。它是指我们在多个连续的时段观察的数据。时间序列模型是指分析时间序列数据的统计学方法。
当研究者开始对某个给定的时间序列进行研究时,首先要问的问题是:“这个序列是静态的吗?”你可以将静态想成是大致稳定的某种结构。股价常常是非静态的,因为价格可以上涨、下跌,或者在趋势附近波动。
附录中提到,我们常常更关注收益,而不仅仅是价格。收益是静态的,这一点恰好是一大优势。如果对于一个非静态的序列进行统计,我们很难找到有意义的结论。使用单位根测验(unit root rest)来测试静态性,如果时间序列拥有单位根,则证明它不是静态的。因此我们通常希望排除这个序列具有单位根这一可能性。
两个序列数据有可能都是非静态的,但是将两个序列经过某种数学(线性)组合后,也可能得到一个静态序列。当出现这种情况时,我们称这两个序列是协整的(cointegrated)。协整分析法广泛应用于金融领域,而且这种方法的其他应用也很有前景。
在过去10~15年里,金融学界的流行词是首字母缩写ARCH和GARCH的方法。前者是后者的组成部分,所以我们只介绍后者。GARCH代表广义自回归条件异方差性(generalized autoregressive conditional heteroscedasticity)。这个概念听起来非常复杂,事实也的确如此。但是这个名词背后的基本原理很简单:当你分析许多金融时间序列数据时,普通的回归方法行不通,因为时间序列数据会随着时间的流逝不断变化。
当时间序列的波动性(可以把波动性认为是股票收益的标准差)不稳定(或者不一致)时,这就是异方差的情况。回顾一下1987年市场爆仓前后的情况,或者想象20世纪90年代的网络股泡沫现象,就很容易理解波动性会随着时间变动。
使用ARCH和GARCH来估算波动性,我们可以举出三个理由来说明估算波动性为何越来越重要:
·过去几十年中,期权合约的使用数量与日俱增。期权定价模型中的计算过程中,有一个关键变量就是估算资产的波动性。
·过去几十年中,包含了波动性变化的多个关键时期。1987年股市爆仓、1997年亚洲金融危机、俄罗斯政府停止支付贷款、1998年长期资本管理公司无力清偿债务、2001年世贸中心遭到袭击、2002年安然公司欺诈案以及2008~2009年的次贷危机等,都属于这样的时期。
·风险价值的应用日渐普遍,需要对波动性进行估算。
我们还有可能碰到的另一个术语是最大似然率(maximum likelihood)。这个概念可以让我们对数据进行回溯分析,从而对概率分布做出推断,旨在寻找最有可能导致这些数据结果的分布。最大似然率技巧可以应用于不同的统计学问题中。在回归计算的时候还可以替代最小二乘法。
人工智能
人工智能(artificial intelligence)是指使用计算机来模仿自然界发现的智力过程。人工智能的研究者都会高估他们创造的机器智力行为或者机器思维过程的能力,但是人工智能的确取得了巨大成功,必将对我们将来的社会产生更大的影响。你只要看一看最近电子商品商店最新款的机器人设备,就能窥见人工智能的潜力。我们在这里介绍人工智能的三大突破性发展:专家系统、神经网络和遗传算法。
为了建立专家系统,你需要一个合作专家。专家系统试图将某位专家针对特定对象的思考过程建立一个模型。例如,程序员可能会采访医生,试图确定他们做出决策的规则。医生可能会说先来测量病人的体温。如果病人发烧了,你可以执行一系列的诊断程序。如果病人没有发烧,你可能有另一套诊断步骤。当然这个诊断步骤可能非常长,因为不同疾病有不同的方法。有些诊断可能没有结果,系统就会提示需要请示医生。这种情况就是专家系统没法解决的。如果你有一名像沃伦·巴菲特(Warren Buffett)这样的投资专家,你可以建立一个专家系统,模拟他的股票选择过程。当然,研究者发现想要破解许多专家的决策过程非常难。专家在很多无法模拟的情况下似乎都有第六感帮助他们决策。
神经网络背后的基本概念是使用计算机程序来模拟人类大脑神经元的工作过程,这些神经元在大脑中可以产生感觉、思考、感受和行为等信号指令。神经网络由输入层面和输出层面构成,两者之间还有许多隐形的层面。神经网络的设计者确定在输入和输出层面中间应该设置多少个层面?它们彼此的作用机理是什么?在投资应用中,公司的财务和股票价格数据为输入值,而买/卖决策将是输出值。有评论认为,神经网络简直就像个黑匣子。你输入了变量,也获得了输出的数值,但是你不清楚中间发生了什么。这个看法的确有些道理。神经网络的建立,通常是通过试验、错误、再试验这样的过程进行的,而不是依赖某种类似于建筑或工程图纸的东西。神经网络的捍卫者反驳说很难对神经网络进行分解,并探索其内部的结构。
遗传算法(genetic algorithm,GA)是从它们模仿特定的遗传过程(如突变)而得名的,是一种优化的算法。它们试图将所谓的适应度(fitness)最大化或者最小化。
将问题影射成为二进制的1序列和0序列。例如,我们考虑股票选择策略的时候,序列上的位置1和位置2与股票股本回报率的四分位数对应。00意味着你从特定股票组合中选择的股票,其股本回报率属于低四分位数。同理,01、10和11可以代表其他3个四分位数。如果我们继续使用这个方法来测量其他变量,那么可以回答某个序列(序列1和序列2的形态)表明了我们在最高四分位的股票股本回报率、最高四分位的每股利润增长、最低四分位的市盈率和最高四分位的价格相对强弱指标。
遗传算法常常在随机产生的序列群体开始,然后序列会经过不同的遗传算法,如突变和相交(两个序列尾部交叉),种群不断演变。这个演变过程将朝向更高的适应度(fitness)发展。在投资应用中,适应度可以指遵从某种战略所获得的收益。
使用遗传算法的两个主要障碍是:①将问题影射成数字串,问题的表达过程很复杂;②有时候,尤其是在投资应用中,似乎很高的适应度(称为拟合函数)可能会产生非常差劲的结果,因为受到测试数据中不常见现象的驱动,系统会逐渐收敛于某个算法。对于这些基本技术加以完善之后,遗传编程这类方法可能会在投资界中得到更好的利用。
复习题
1.请说明统计描述和统计推理的区别。
2.2005年VLO和TSO的月收盘价格见表A-2(因股票拆分和红利,调整了收盘价)。
(1)请计算每一种股票的月收益。
(2)请计算每一种股票的下列项目:
1)月收益的算术平均值;
2)月收益的中值;
3)月收益的几何平均值。
(3)请解释说明众数为什么不是这一组数据中的重要统计值。
表A-2 VLO和TSO的月收盘价
资料来源:http://finance.yahoo.com。
3.请利用第2题中提供的数据,计算VLO和TSO月收益的标准差。请解释说明标准差与风险的关系。
4.VLO股票和TSO股票的相关系数是多大?请解释说明相关系数的意义。
5.请使用TSO股票的月收益作为因变量,VLO股票的月收益作为自变量。
(1)计算最小二乘回归线。
(2)回归线的R2是多少?这个数值如何解释?
(3)假如VLO股票的月收益是3.4%,按照给定的回归方程,你估计TSO股票最好的月收益是多少?