Local EPUB Text
1662年
统计学、死亡率表、期望寿命
继机遇赌博之后,投资领域首次领略到全新概率推理的好处。反过来,在投资领域应用概率推理又进一步推动了概率论的发展,统计学相关领域的发展也由此展开。在这部分的介绍中,我首先得解释人们如何创建人类死亡率表以及这些表又是如何被用来确定人寿年金的现值的(人寿年金的支付额取决于年金领取者的剩余寿命)。
进行人口普查的历史至少可以追溯到罗马共和国时期。著名的《末日审判书》(Doomsday Book)则是多年之后才出现的人口普查清册,是1086年英国人出于征税目的而编制的。不过,针对该书的数据类型(其实所有数据类型都可以),格兰特(1662)编写了他第一部出版的统计分析著作,成为我们知道的第一位统计学家。在当时,格兰特的分析是独一无二的,就是放到现在他的统计模型亦是令人称奇的高深。只是那时候人们还不知道用图形来表示时间序列或者横截面数据,他只能用表格的形式来演示。
依据安德斯·哈尔德(2003)的描述,格兰特的分析是基于每周搜集的伦敦人口重要统计量数据,数据的起始时间是1604年,某些数据的时间截至1672年。 [15]和现代优秀的统计学家一样,格兰特因为担心误差所以调整不合理的峰值,进行一致性检验并寻找支持性证据。例如,为了计算伦敦的家庭数,他分别依据出生、死亡以及房子数设计了三种计算方法。然后寻找有效方法来归纳这些数据。例如,他按照死亡原因总结了死亡人数(第2章)见表1-2:
表 1-2
格兰特将每年死亡原因中固定的部分(“慢性的”)与变动的部分(“流行的”)区分开来。他注意到许多居民对某些死亡原因过于恐惧,因此他希望他的统计数据能让人们放宽心。他还用其他表格列示了不同死亡原因随时间变化而变化的时间序列数据。尽管格兰特还不能准确理解样本规模对降低风险的作用,但他已直觉地感受到当他将样本按时间段(如按时代)进行划分后,趋势会越发明显。利用这些数据,格兰特率先观测到男性和女性占人口的比率相当接近,而且长时间稳定不变。他提出并检验了如下假设:在人口死亡相对较多的年份,新生儿出生较少。
对随后概率论发展最为重要的是,格兰特首次尝试构建死亡率表。为了制作该表,格兰特必须从数据中推断出总人口的变化以及不同年龄段的死亡人数。由于他没有直接的相关信息,他想出了一个聪明的办法,可以依据现有数据推算出来。表1-3就是格兰特最后得到的死亡率表(哈尔德,2003,p.102):
表 1-3
值得指出的是,在17世纪这种分析方法最初被称为“政治算术”,随后被称为“统计学”。“统计”(statistics)一词的来意是指搜集并分析与国事相关的事实(status为state的拉丁语)。
1669年克里斯汀·惠更斯和他的弟弟路德维希·惠更斯在格兰特死亡率表的基础上进行了多项统计创新(这些结果后来出版于克里斯汀·惠更斯的《拉普拉斯全集》)(Oeuvres Complètes,第6卷,1895年)。路德维希希望通过格兰特表格,根据一个人的目前年龄推算出他的预期寿命。为了实现这一目的,他假定,在格兰特的观测范围内,死亡概率的分布是相同的。哈尔德(2003,p.107)用表1-4表述了路德维希的计算结果。
表1-4 路德维希·惠更斯的死亡率表
表中变量x和l x数据直接取自格兰特的表格;d x是l x的一阶方差;t x是各年龄段起点与终点之间的中点。假定各年龄段的死亡率分布相同,那么t x就等于那些d x个死亡人数的平均寿命。路德维希推理到,1822年是100个新生儿生存的总年份数:36个人平均生存3年,24个平均生存11年,15个平均生存21年。依此类推,所有年份的总和为1822年。这样,100个新生儿在0岁时预期的寿命为1 822/100=18.22=E(t 0)岁。同理,64个人在6岁时的预期寿命为1714/64=26.78=E(t 6)岁。如果已知某个人现在的年龄,我们用E(t x)减去x就可以得到他剩余的寿命。克里斯汀当时40岁,路德维希推算他的剩余寿命在17.5年和15年之间,也就是活,克里斯汀大约还能活16.5年。
克里斯汀将弟弟的分析更深入一步。他把表格中第一列和第二列的数字当成一个连续函数,这是最早的分布函数。他演示了如何计算剩余寿命的中值而不是期望值。他还计算了在两个人A和B中,后去世的那个人的期望剩余寿命。也就是说,如果T A(一个随机变量)是A的剩余寿命,T B是B的剩余寿命,他计算的是E[max(T A,T B)]。首先,对A剩余寿命T A的各个数字,他计算E(T B|T B≥T A)。接着他对各种可能的期望寿命计算加权平均和,权重为T A的概率。这里我们看到了条件期望概念的最早运用。如果定义T=max(T A,T B),我们可以得到生存者的剩余寿命E(T)=E[E(T|T A)],这就是我们现在说的迭代期望原则。