Local EPUB Text
从大数定律到正态分布
如果我们向上抛一枚硬币,每一次硬币落下后哪一面朝上本来是偶然的。但我们上抛硬币的次数足够多后,达到上千次或者上万次以后,我们就会发现,硬币每一面向上的次数约占总次数的1/2。这种情况下,偶然中包含着必然。必然的规律和特性在大量的样本中得以体现。
虽然随机事件单独来看无规律可循,但在大量重复出现的条件下,往往呈现几乎必然的统计特性,这个规律就是大数定律。 通俗地说就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它发生的概率。
第一个创立大数定律的是那位提出“效用”概念的丹尼尔·伯努利的大伯雅各布·伯努利(雅各布·伯努利的兄弟约翰·伯努利是丹尼尔的父亲。在科学史上,一个家族跨世纪的几代人中,众多父子兄弟都是科学家的较为罕见,瑞士的伯努利家族最为突出:3代人中产生了8位科学家)。
在雅各布创立大数定律以前,人们对概率的概念多半从主观方面来解释,就像在赌博中对胜负几率的预判,被解释为一种“期望”。但是,对那些无法计算所有可能性的情况,这种思维方式就不管用了。雅各布认识到,要处理更大范围的问题,必须选择另一条道路。他提出“后验地去探知无法先验地确定的东西,也就是从大量同类事例的观察结果中去探知它”。这样,对概率的解释就从主观的“期望”转到了客观的“频率”。
雅各布认为“频率的不稳定性随观察次数的增加而减少”。比如,称量某一物体的重量,假如衡器不存在系统偏差,由于衡器的精度等各种因素的影响,对同一物体重复称量多次,可能得到多个不同的重量数值,但这些测量结果的平均值一般来说将随称量次数的增加而逐渐接近于物体的真实重量。
大数定律就是如此简单,“即使一个没有受过教育,以前也未受过训练的人,凭天生的直觉也会理解的”。
雅各布去世后,大数定律的精髓在学术界流传开来。一位法国数学家亚伯拉罕·棣莫弗由此对概率论兴趣倍增,并开始对这神秘的“机会”进行研究。
人物简介:亚伯拉罕·棣莫弗
亚伯拉罕·棣莫弗(Abraham de Moivre)1667年5月26日生于法国维特里的弗朗索瓦,1754年11月27日卒于英国伦敦。
棣莫弗出生于法国的一个乡村医生之家,其父一生勤俭,以行医所得勉强维持家人温饱。他自幼接受父亲的教育,之后被送到教会学校念书。在学校教育期间,棣莫弗常常偷偷地学习数学。在早期所读的数学著作中,他最感兴趣的是惠更斯于1657年出版的《论赌博中的机会》一书,引发了他对概率的兴趣。
亚伯拉罕·棣莫弗
1686年时棣莫弗移居到了英国,他一边靠做家庭教师糊口(自到英国伦敦直至晚年,他一直做数学方面的家庭教师),一边开始如饥似渴地学习。1697年,由于英国皇家学会秘书E.哈雷的努力,棣莫弗当选为英国皇家学会会员。棣莫弗的天才及成就逐渐受到了人们广泛的关注和尊重。哈雷将棣莫弗的重要著作《机会学说》呈送牛顿,牛顿对棣莫弗十分欣赏。据说,后来遇到学生向牛顿请教概率方面的问题时,他就说:“这样的问题应该去找棣莫弗,他对这些问题的研究比我深入得多。”
棣莫弗终生未婚。尽管他在学术研究方面颇有成就,但却贫困潦倒。他在87岁时患上了嗜眠症,每天睡觉长达20小时。当达到24小时长睡不起时,他便在贫寒中离开了人世。
棣莫弗对于科学的贡献在于,他发现了概率论中最重要的一种分布,也是自然界最常见的一种分布——正态分布。
观察周围的自然现象就会发现,大部分实际存在的随机变量都具有“中间大、两头小、左右对称”的特点。无论是测量某物体长度的结果,某地区的年平均气温、降水量,某农作物的产量,还是人的身高和智力水平等,都符合这样的特征。这种随机变量所服从的分布被称为正态分布。正态就是常态的意思,即正常情况下的随机变量总服从这种分布。
由于德国数学家高斯率先将其应用于天文学家研究,故正态分布又叫高斯分布,后人也常常误认为正态分布的发现者是高斯。但事实是,正态分布的数学表达是由棣莫弗于1738年再版的《机会学说》中首次提出的。
棣莫弗所研究的结果可以解决一系列实际应用问题。比如,保险费用该如何定价,或者对于中奖率为5%的奖券,如要使得中奖概率达到90%,至少应该购买多少奖券,凡此等等。它显示了概率论的广阔应用范围。时至今日,正态分布牢固地占据了概率论和统计分析的主导地位,成为许多统计方法的理论基础,并在物理测量分析、社会经济统计、自然生物统计等领域广泛应用。
正态分布如此重要,我们有必要花一些笔墨来介绍。
图4-1 正态分布研究图(1)
举个例子来说,我们测量某个学校5年级学生的身高,这个学校的5年级共有10个班,每个班有50个学生。我们测量完第一个班50个学生后,把这50个统计数据制作成一张频数表。由这个频数表资料可以绘制成一张直方图,如图4-1正态分布研究图(1)。
补充知识:频数表
频数表是统计描述中经常使用的基本工具之一。在观察值个数较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编制频数分布表,简称频数表。
频数表的编制:
第一步:求全距。找出观察值中的最大值与最小值,其差值即为全距(或极差)。
第二步:确定组段和组距。根据样本含量的大小确定“组段”数。第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下限与上限。各组段的起点和终点分别称为下限和上限,某组段包含下限,但不包含上限,其组中值为该组段的(下限+上限)/2。相邻两组段的下限之差称为组距。
第三步:列表划记。确定组段界限,采用计算机或用划记法将原始数据汇总,得出各组段的观察例数,即频数,得到所需的频数表。
由图4-1可以看出,高峰位于中部,左右两侧大致对称。在得到这个学校的5年级10个班,共500个学生的身高数据后,按频数表资料绘制成的直方图更加清晰地显示出这样的规律,如图4-2正态分布研究图(2)。
我们可以设想,随着观察例数逐渐增多(比如我们不仅测量了这所学校5年级学生的身高,还得到了同一城市里所有学校5年级学生的身高数值),组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线,如图43正态分布研究图(3)。
图4-2 正态分布研究图(2) 图4-3 正态分布研究图(3)
这条曲线近似于数学上的正态分布。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。
正态分布有这样一些特征:
首先,正态曲线在横轴上方均数处最高。
其次,正态分布以均数为中心,左右对称。
另外,正态分布有两个参数,即均值 μ 和标准差 σ 。均值是总体各单位值的平均数。标准差是总体各单位值与其平均数离差平方的算术平均数的平方根(μ 是位置参数,当σ 固定不变时,μ 越大,曲线沿横轴越向右移动;反之,μ 越小,则曲线沿横轴越向左移动。σ 是形状参数,当μ 固定不变时,σ 越大,曲线越平阔;σ 越小,曲线越尖峭)。
补充知识:标准差
虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,其检测值应该很紧密的分散在真实值周围。如果不紧密,与真实值的距离就会大,准确性当然也就不好了,不可想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法好坏的最重要也是最基本的指标。标准差正是反映组内个体间的离散程度的指标。它的定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。
简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值与其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
例如在物理科学中,作重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值作比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。
标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定,故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。
补充介绍:标准差在金融投资中的应用
用标准差衡量基金稳定性:
在投资基金上,大多数人重视的是业绩,但往往在买进了近期业绩表现最佳的基金之后,发现基金表现反而不如预期。这是由于所选基金波动性太大,没有稳定的表现。
衡量基金波动程度的工具就是标准差。在这里标准差是指基金可能的变动程度,标准差越大,基金未来净值可能变动的程度就越大,稳定度就越小,风险就越高。
比方说,一年期标准差是30%的基金,表示这类基金的净值在一年内可能上涨30%,但也可能下跌30%。因此,如果有两只收益率相同的基金,投资人应该选择标准差较小的基金(承受较小的风险得到相同的收益),如果有两只相同标准差的基金,则应该选择收益较高的基金(承受相同的风险,但是收益更高)。
理性投资人判断基金时会同时考察收益和风险,以此来作出较优的判断。例如,A基金二年期的收益率为36%,标准差为18%;B基金二年期收益率为24%,标准差为8%,从数据上看,A基金的收益高于B基金,但同时风险也大于B基金。A基金的“每单位风险收益率”为2(0.36/0.18),而B基金为3(0.24/0.08)。因此,原先仅仅以收益评价是A基金较优,但是经过标准差即风险因素调整后,B基金似乎更为优异。
用标准差分析股市:
股票价格的波动是股票市场风险的表现,因此股票市场风险分析就是对股票市场价格波动进行分析。波动性代表了未来价格取值的不确定性,这种不确定性一般用方差或标准差来刻画。有人对中国上证指数和美国标准普尔指数(1996—2002年之间的)波动情况作过分析,其结果为:
上证综指的业绩标准差≈45.2489073
上证波动率标准差≈0.063167
标准普尔指数业绩标准差≈21.70647
标准普尔波动率标准差≈0.023647
因为标准差是绝对值,不能通过标准差对中美直接进行对比,而变异系数可以直接比较。计算可得:(变异系数C·V =(标准偏差SD ÷平均值MN )×100%)
上证业绩变异系数≈2.18926148
上证波动率变异系数≈0.5462
标准普尔业绩变异系数≈3.2247
标准普尔波动率变异系数≈0.3476
通过比较可以看出上证波动率变异系数要大于标准普尔波动率变异系数。
图4-4 正态分布面积图
正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。这里有几个非常重要的面积比例:轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(μ -σ ,μ +σ )内的面积为68.268949%,横轴区间内的面积为(μ -1.96σ ,μ +1.96σ )内的面积为95.449974%,横轴区间(μ -2.58σ ,μ +2.58σ )内的面积为99.730020%。如图4-4正态分布面积图。
每一本统计学教材中都附录了一张“正态分布概率积分表”,正态曲线下任何一定区间的面积都可以通过查此表求得(此表很容易获得,本书就不附录了)。这也就意味着:对于正态或近似正态分布的资料,已知均数和标准差,就可对其概率分布作出概约估计。比如,长期来看,随即数值落在(μ -σ ,μ +σ )内的概率约为68%;落在(μ -1.96σ ,μ +1.96σ )内的概率约为95%;落在(μ -2.58σ ,μ +2.58σ )内的概率约为99%。
这似乎是常识的精髓,实际上也确是常识的精髓。那么它能不能被应用在套利机会的分析中呢?
我认为答案是可能的。如果我们能够证明两个商品价格之间的关系,比如,比价(而不是价差)的波动是一个随机过程,而这些随机数值总体上是一个正态或近似正态分布,并通过以往的数据积累得到均值和方差,那么我们就有可能依据“正态分布概率积分表”来判断:在每一个数值(比如:比价)出现时,在此点进行套利交易“成功”或“失败”、比价扩大或缩小的概率是多少。
现在就让我们试着证明一下。