Local EPUB Text
分析数据
未知
分析数据
虽然在大学时期我很喜欢统计学课程,但我也认为这些课程太抽象了,我无法将它们与现实生活中的例子联系起来。说来有点儿遗憾,如果我一早知道统计学对于理解数据如此重要,当初就会更加认真地学习统计学了。
数据分析工具
面对一个大样本数据的时候,你可能会希望先对数据进行汇总,生成概括统计量,然后再进行更复杂的分析。你可以从计算平均值和标准差这两个统计量着手,平均值指所有数据点的平均值,标准差指数据值偏离平均值的程度。如果数据并不是均匀地围绕平均值分布,则该平均值可能不是最能代表该样本的统计量,这种情况下你可以估计一下样本的中位数(样本中按数值大小排列位于正中间的数据点)或者众数(样本中出现得最频繁的数据点)。此外还有一些概括统计量可体现样本的数据分布情况,包括衡量样本数据分布对称性的偏度,和衡量样本数据偏离均值频度的峰度。
对于更偏向以视觉化方式理解数据的人,你可以看到他们会经常制作数据分布图。如果你的数据比较离散,即数据值只有有限的几个,那么你可以计算每个值出现的次数,制作一个频率表,并根据该频率表制作频率分布图。图5–1中的频率表和频率分布图显示了2016年年初的美国公司债券评级数据(标准普尔信用评级)。
如果你的数据是连续型数据,即数值可以是最小值和最大值之间的任何值,那么你可以对这些数据进行分组,并计算每组中的数据量,然后将结果用直方图表示。如果你的直方图呈现标准化概率分布(正态分布、对数正态分布或指数分布),你就可以根据标准化分布的特征对你的数据做出统计学评价。为了阐释这一点,我将计算出的2015年年底所有美国公司的市盈率(PE)数据制成了分布图(见图5–2)。
图5–1 美国公司债券评级数据(2016年1月)
资料来源:标普公司资本智商原始数据
最后,你还可以使用统计方法和统计工具来衡量两个或多个变量之间的相互关系。
最简单的方法是计算变量之间的相关系数,该系数的取值范围在1(两个变量一致地朝同一个方向变动)和–1(两个变量一致地朝相反的两个方向变动)之间。与该系数比较相似的一个系数是协方差,用于衡量两个变量之间的协动性,但其取值范围不限于–1到1之间。要想直观地表示两个变量之间的关系,最简单的方法是使用散点图,将每个变量的值参照另一个变量在图中标示出来。如图5–3所示,我将美国公司的历史市盈率与预期收益增长率(分析师估计值)的相关关系在图中标示出来以验证“成长越快的公司其市盈率也越高”这一传统观点的正确性。
图5–2 美国公司市盈率(2016年1月)
资料来源:http://www.damodaran.com
图5–3 美国公司的历史市盈率以及未来五年的预期每股收益增长率(2016年1月)
对于支持这一传统观点的人来说,好消息是该观点总体来说的确是正确的,因为市盈率和公司成长性之间存在着正相关关系,但坏消息是两者之间的相关性并不高(仅为20%)。如果数据分析的目的是利用一个变量来预测另一个变量的变化,那么最合适的分析方法就是回归分析。通过回归分析,你可以找到最适合这两个变量相关程度的回归线。从图形的角度来看,在散点图中能直观表示的是简单回归。图5–3显示了我对美国公司历史市盈率和预期收益增长率进行回归分析后得出的结果。左上方的回归方程式中,括号里面的数字是t统计量,t统计量大于2即表示该统计结果具有统计显著性。根据回归分析结果可知,预期增长率每上升1%,市盈率便增加0.441。你可以利用该回归分析预测增长率为10% 的公司的市盈率:
预期市盈率 = 19.86 + 44.10 ×0.10 = 24.27
注意,该预期市盈率的误差范围较大,这表明此回归分析结果的预测能力较低(R2为21%)。回归分析最大的优势在于它可用于多个变量,即分析一个因变量(你要解释的变量)与多个自变量之间的关系。因此,如果你要研究公司的市盈率与风险性、增长率和利润率之间的关系,你可以进行多元回归分析,将市盈率作为因变量,将风险性、增长率和利润率作为自变量。
分析中的偏差
统计工具可以帮助我们实现多种统计分析,包括上一节中提到的所有分析。但它是一柄双刃剑,因为可能出现“输入的是垃圾,输出的也是垃圾”的情况。纵观商业和金融领域的数据分析状况,我得出了以下观察结果:
1.我们太过信赖平均值:尽管我们已经开发出了各种数据分析工具,但出乎意料的是,大部分的商业和投资决策依然建立在简单的统计平均值的基础上。我看到过很多投资者和分析师辩称某公司股票价格低是因为该公司的市盈率低于行业平均值,或者某公司债务过高是因为该公司的负债率高于市场平均值。不仅是对于非对称的数据分布,仅关注平均值这一集中趋势测量结果价值不高,而且,仅关注平均值对样本中的大量数据而言也是一种巨大的浪费。若在20世纪60年代,分析师可能还会以耗时和难以操作为理由进行反驳,但在今天这个数据时代,还有什么理由只计算平均值呢?
2.并非所有数据都呈正态分布:对于统计学课程,比较遗憾的一点是,大部分人都只记得一种数据分布形式,即正态分布。正态分布是一种极为优美、便捷的分布形式,只需平均值和标准差这两个概括统计量就可以概括其全部特征,并且尤其适合在概率陈述中使用,例如:“由于其距离平均值有3个标准差,因此其发生的概率仅为1%。”然而可惜的是,现实生活中的大部分数据都并非呈正态分布,特别是商业和金融领域的数据。即便如此,分析师和研究人员依然基于正态分布的统计方法对相关数据做出预测、建立模型,并屡屡因实际结果超出预计范围而感到惊讶。1
3.异常值问题:异常值通常会削弱统计结果的效力,因此很多研究人员采取的对策是将异常值从数据中剔除——从源头抑制问题,这也不足为奇。但剔除异常值很可能会导致偏差,因为与你的事先假设不符的异常值会被率先删除,而与事先假设相符合的异常值则保留了下来。事实上,如果把商业和投资行业的工作看作危机处理,那你就会知道最需要关注的正是那些异常的数据,而不是那些与假设完全相符的数据。