Local EPUB Text
数据来源
获取数据的来源众多。最为直接,也可能最具有挑战性的是,从源头直接获得原始数据。换句话说,宽客直接从纽交所(NYSE)得到在纽交所交易的股票的价格数据。这种做法的一个好处是,宽客可以最大限度地控制数据的清洗和存储,并且在速度上也具有很大的优势。但这么做也具有很高的成本。例如,需要与每一个数据源都建立联系,如果我们需要在多个市场和多个交易所交易多种金融产品(如股票和期货),数据源的数量就会很庞大。对每一个数据源,都需要相应的软件,把数据源处的数据格式转化为量化交易系统可以使用的某种格式。
主要的数据源及数据种类包括以下几种。
·交易所:价格、交易量、时间戳、持仓量、空头持仓量、订单簿数据。
·监管机构:各个公司的财务报表、个股的大股东持股情况以及内部买卖活动。
·政府:宏观经济数据,如失业率、通货膨胀及GDP数据。
·公司:财务报告及其他公告(如红利的变化等)。
·新闻机构:新闻报道。
·数据专营供应商(或数据加工者):可能有用的一些生产数据。如经纪公司经常发布关于上市公司的报告,一些公司追踪并发布基金的现金流数据。
由于从数据源直接获取数据涉及大量的工作,很多公司使用数据供应商提供的加工后的数据。例如,有些数据供应商从世界各地的监管文件中提取财务报表数据,进行加工整理创建量化的数据库并授权给量化交易者使用。在这一例子中,数据供应商解决了把来自各种数据源的数据置于统一框架下并进行存储和分类的问题,因而得到报酬。但如果量化交易公司想要搜集世界上很多公司的价格数据和基本面数据。通常来说,不同的公司提供的数据类型会各不相同,一家公司只提供其中一种类型的数据。例如,对某只股票而言,一个数据供应商可能提供价格数据,另一个供应商则可能提供基本面数据。这些数据供应商在识别股票的方式上可能也会各不相同。一个供应商可能用股票代码,另一个供应商则可能用SEDOL码或其他标识符[1]。关于同一个有价证券有着不同的数据集时,宽客必须找到一个途径,保证这些数据能够和其内部数据库中这家公司的记录统一起来。用于帮助实现这一目的的工具通常称为证券主管(security master),因为控制文件将数据供应商识别股票的多种方式统一映射到宽客在其自己的交易系统中所使用的特定识别方法。
你可能会猜到,有一些公司可以提供统一格式的数据库,用以整合来自不同数据供应商和不同类型的数据。这种公司被称为第三方数据供应商(tertiary data vendors),通过整合数据使宽客更容易使用数据而获利。这种公司与很多数据源以及二手数据供应商建立联系,建立并维护证券主管系统,甚至做一些数据清洗(一个我们马上会详细讨论的主题)的工作。因此,这些第三方数据供应商在量化交易公司中很流行。但是,我们应该意识到,虽然这些公司带来了很多便利,但也在宽客和原始数据之间加了一层,从而导致丧失速度优势,也可能会丧失一部分对数据清洗、存储方法或获取方式的控制权。
[1] SEDOL全称是Stock Exchange Daily Official List,是英国和爱尔兰股票的唯一证券识别码列表。其他股市上常用的证券识别码有International Securities Identification Number(ISIN),Committee on Uniform Security Identification Procedures(CUSIP)。CUSIP基本上是美国和加拿大的股票使用。很多数据供应商也使用他们自己的证券识别码。