Local EPUB Text
收集数据
未知
收集数据
在数字处理过程中,第一步是收集数据。在人类历史中的大部分时间,这都是一个极为耗时且需要手动操作的步骤。数据大体上有以下几种来源:调研、实验或组织实体(如政府、证券交易所、监管机构和私营公司等)保存的记录。随着人们越来越多地使用电脑进行交易、处理工作,数据被更多地记录在网上,这使得创建和维护数据库变得更为简单。
收集数据时面临的选择
在使用数据时,你会面临一个基本问题:要多少数据才算够?你可能会面临两种选择:第一,精心收集少量数据样本;第二,收集大量数据样本,其中包含着无意义且可能存在错误的数据。(这种划分可能过分简化了该选择过程。)在做选择时,你需要遵循“大数定律”,该定律是统计学的基本原理之一。简言之,“大数定律”表明样本量越大,根据样本计算得出的统计数据就越准确。如果你认为此说法不太合理,那么你可以这样想:样本量越大,每个数据点可能出现的错误在平均之后产生的影响就会越小。
假设你要抽取样本来了解某个流程,这时你要决定样本的组成。对于财务数据来说,你可能有以下选择:
1.上市公司的数据与私营公司的数据:全球大部分上市公司都需按照要求公布财务报表。因此,与私营公司相比,收集上市公司的数据会容易得多。
2.财务数据与市场数据:对于上市公司,你不仅能获得其财务报表数据,还能从金融市场中获取其价格变动数据和交易(买卖价差和交易量)数据。
3.国内数据与全球数据:有很多研究员,特别是美国的研究员,在研究时常常只关注本国国内数据,一方面是因为他们认为国内的数据更可信且更容易理解,另一方面是因为这些数据更容易获取。考虑到公司和投资者的全球化趋势,仅关注国内数据已不再适应当前形势,当你预期你的结论具有全球性影响时就更是如此。
4.定量数据与定性数据:在数据库中,绝大部分数据都为定量数据,一部分原因在于所能收集到的数据中大部分都是定量数据,另一部分原因在于定量数据比定性数据更容易存储和检索。因此,收集有关每个上市公司的董事数量的数据是很容易的,但若要收集有关公司董事会上所发生的意见不合的数据,那就会困难得多。不过,随着社交媒体网站的迅速发展,阅读、分析和存储定性数据的技术也将趋于完善。
你对数据类型的选择关系到你会得出何种分析结果,因为你做的选择会在无形之中导致你的样本出现偏差。
数据收集的偏差
对于那些仍然坚信数据具有客观性的人来说,只要仔细关注一下数据收集的过程,就会发现这种观点是站不住脚的。具体而言,抽取样本的过程就至少会存在两种偏差。如果你的目标是展示客观事实,则这些偏差会立即产生明显的负面效果,但如果你希望数据能体现你的观点,则这些偏差对你来说就是个很好的机遇。
选择偏差
从统计学概论课程中我们学到,我们可以通过从较大的总体中抽取样本来获得对总体的认识。这种方法完全合理,但前提是这些样本是随机抽取的样本。随机抽取样本看似轻而易举,但要在商业和投资领域做到这点实非易事。
• 在某些情况下,为了得到预期结果,你会对样本的观测数据进行有意的挑选,这时你带入的抽样偏差就是比较明显的。因此,如果某研究人员的研究目的是说明公司通常都可以做出优质投资,则他可能只会使用入选标准普尔500指数的公司作为样本。这些公司是美国市值最高的公司,是昔日的成功让它们拥有了今日的地位,因此它们能够做出优质投资不足为奇,但这项结论并不能推广到市场上的其他公司。
• 另外,收集数据的过程中也可能会存在不太明显的偏差,尽管你可能认为你所做的选择无甚影响。例如,当你使用的数据库其中只有上市公司的资料时,你可以选择仅收集上市公司的数据作为样本。然而,依据这些数据得出的结论无法推广到所有公司,因为私营公司比上市公司规模更小,业务范围更局限于当地。
我认为比较有用的一项原则是,在采集样本时,研究者可以同时观察被排除在样本之外的数据,看是否存在偏差。
幸存者偏差
幸存者偏差是我们在抽样过程中必须克服的另一个问题,它指的是当你出于某种原因忽略被排除在外的那部分数据时所带入的偏差。举个简单的例子,我在纽约大学的同事斯蒂芬·布朗曾针对对冲基金回报率开展了一项研究。多项对冲基金回报率研究都得出结论,认为对冲基金的回报率“甚高”(超出预期),但斯蒂芬·布朗指出,很多分析师都犯了同一种错误,即选择目前存在的一些对冲基金,然后对其进行回溯分析,看它们在过去一段时间内的回报率。在这样做的时候,分析师实际上忽略了对冲基金行业的一个残酷现实,即那些表现很差的对冲基金都被挤出了市场。由于没有将此类对冲基金的回报率计算在内,因此样本的统计结果被显著拉高了。斯蒂芬·布朗经过研究得出以下结论:由于幸存者偏差的影响,对冲基金平均回报率被拉高了2%~3%。对于失效率较高的研究领域,幸存者偏差的影响往往会更大。因此,对于投资者而言,相比于研究成熟的消费品公司的数据,在研究科技初创公司的数据时,研究者需要格外注意幸存者偏差可能造成的影响。
噪声和错误
在计算机数据时代,随着人们越来越少地采用手动输入数据的方式,我们已经学会了更加信任数据,甚至是过于信任它们了。但即使是在管理最为严格的数据库中,也依然存在数据输入错误,其中有些错误的严重程度大到足以影响你的研究结论。因此,研究人员应至少在统计前将所有数据浏览一遍,检查出可能存在的严重错误。
另一个问题是数据缺失,造成数据缺失的原因可能是数据不可得或者数据未被录入数据库中。要解决这个问题,你可以删除与缺失数据相关的观察结果,但这样不仅会减小你的样本量,还可能会引入偏差(比如当部分样本子集中的数据缺失情况比另一部分样本子集的缺失情况更多时)。我曾经主要使用美国数据进行分析,而自从转向使用全球数据后,我便更加频繁地遇到该问题。例如,我认为租赁承诺对公司来说是一项负债,于是在确定公司的债务情况时我会将租赁承诺转化为负债计算进去。在美国,公司必须按规定披露公司的租赁承诺信息,但在很多新兴市场,特别是亚洲地区,国家对公司并无此要求。因此,我面临两种选择。第一种是采用传统的债务定义,即将租赁排除在负债范畴之外。然而在我的全球样本中,有一半的公司确实会公布其租赁数据,对于这些公司,采用传统的债务定义会大大降低对其财务杠杆的测量的准确性。第二种选择是将所有未公布租赁协议的公司排除在样本之外,但这样不仅会使样本数量减半,还可能导致严重的偏差。我采取了折中方案,对于美国公司,我将租赁承诺当作负债处理,而对于美国以外的公司,我根据公司当年的租赁成本预估其未来的租赁承诺,再将其纳入统计中。