Local EPUB Text
粗糙的钻石
拉尼尔的观点可能会让一些读者感到悲观。在现有的体系中,人们大量公开关于自己的数据,以换取互联网提供的服务——搜索、地图、数字助理,等等。对人们来说,为什么用金钱而不是有价值的服务来换取数据是重要的?
这一观点的主要倡导者是谷歌首席经济学家哈尔·范里安(Hal Varian)。他认为,如今数据无处不在,稀缺的是理解这些数据的人才和计算能力。范里安还认为,AI服务要想获得成功,就不能有任何东西来阻挡塞壬服务器“自然”收集数据的工作,同时,对于有才华的工程师和有洞察力的投资者,我们要充分奖励他们在机械和基础设施上的贡献。在这种观点中,数据更像是资本而非劳动成果:它们是一种来自于公共领域的自然可得资源(可免费获取),并且只有通过程序员、企业家和风险投资家的辛勤工作才能转化为有用的东西,这些人理应拥有这些数据。23
另一种思考是这个观点的方式与亚当·斯密经典的“钻石–水”悖论有关。斯密发现,水在使用中如此珍贵,但却没有什么交换价值;而钻石的用途如此有限,却有着巨大的交换价值,这是自相矛盾的。最终在19世纪后期,“边际革命”解决了这种钻石–水的悖论。威廉·斯坦利·杰文斯、里昂·瓦尔拉斯和卡尔·门格尔(你可能记得我们在第1章中提过这两位)认为,交换价值是由商品最后一可用单位的边际价值决定的,而不是消费的平均价值。虽然水的平均价值很高,但是由于水很丰富,它的边际价值很低。范里安的论点是,尽管数据从总体上或平均水平上来看可能具有巨大价值,但从边际水平上看,个人数据的价值并不高。
如果我们把重点放在传统的、ML前的统计数据的使用上,范里安的论点是有说服力的。标准统计学的目标是测量一些感兴趣的参数,最典型的例子就是人口某些特征(如收入)的平均值。在一般假设下,可以用来衡量人口的平均收入的额外个人收入值的边际价值是迅速递减的,因为你观测到的数据量越多,你对这个平均值的不确定性就越小。不确定性的边际减少值以个体数据量的1.5次方递减,这种数学关系如图5-4所示。
图5-4 数据价值在标准统计估计问题中作为观测数量的函数,边际价值迅速下降
注:感谢妮可·英茉莉卡(Nicole Immorlica)提供的图表。
例如,假设当我们观察100个个体时,多一个个体数据,不确定性边际减少一个单位,那么当我们观察100万个个体时,这个值仅仅是百万分之一。此外,极其精确地知道具体数量很少真正有用。大多数时候,只知道它的大概情况就能达到我们的目了。一个想在社区里开财富管理公司的企业家想知道平均收入是10万美元还是20万美元,但不需要知道它是20万美元而不是20.1万美元。最初收集的数据不仅仅减少了更多的不确定性:最开始的减少(从巨大的不确定性到合理有界的猜测),也比后来的精进更有价值。因此,在标准的统计学世界中,数据会迅速失去其价值。对于标准统计学,“大数据”基本上是无用的,小数据就足够了。
ML的世界与标准统计学的世界是不同的,有两个原因反映了为什么在经典统计学视角中数据的价值如此之小。首先,ML和标准统计之间的方法差异在于它们与复杂性的关系。回想一下,不同复杂性的问题需要不同量级的数据。统计学的目标是解决一个单一、简单的问题。在ML中,随着数据量的增加,样本的复杂性也随之增加,为了解决这个问题,我们尝试教会AI系统更复杂的新东西。
对于任何一个明确定义的学习任务,数据往往在有限范围的数据量内具有边际价值,这些数据量的大小接近问题的样本复杂性。当可用数据量远低于样本复杂程度时,由于没有足够的数据,甚至学习过程都无法开始。超过这个规模,大部分学习已经开始,因此额外的数据会迅速影响我们上面强调的收益递减。
数据价值模式如图5-5所示。每条垂直线表示机器视觉中某些问题的样本复杂度,越靠右表示问题越复杂。需要注意的是,曲线在代表样本复杂度的点附近急剧上升之后,其形状至少在一段区间内与我们在经典统计学中看到的非常接近。一旦我们获得了足够的数据,能在特定的ML任务上取得进展(如识别照片中是否存在人),这个问题就变成了一个经典的统计问题,而更多数据就以类似的速度失去了它们的价值。在我们达到这一点之前,因为相反的原因,数据在很长一段时间内是无用的,然后在非常短的时间内变得非常有用,在这个范围内,数据教会系统它需要知道什么。
图5-5 在机器视角下,数据价值在典型的ML定义域中作为观测数的函数,每条垂线表示某特定问题的样本复杂性
注:感谢妮可·英茉莉卡提供的图表。
然而,尽管此模式适用于ML系统想要学习的任何给定任务,但如图所示,系统的总体学习是完全不同的。虽然在任何时候,系统都只是在一定的数据范围内学习一件或几件事情,但是与此同时,系统都最有可能学习某些东西。在上图中,搜集到1/3数据(被标记的照片)的视觉系统已经掌握了人识别技术,因此,更多被标记的照片就没有什么价值了。该系统还没有足够的数据来理解照片中行为的本质,毕竟这个问题太复杂了。不过,在这两种复杂的学习场景中,它可以学会为照片中的所有离散对象做上标记。因此,额外的数据对识别和分析问题都毫无用处,但对标记问题非常有用。从这个角度来看,边际价值的主要决定因素不是给定的ML问题的统计量,而是不同问题复杂性的分布。
就像经典统计学一样,还有第二个关键问题决定了数据的边际价值:解决数据允许ML处理的每个问题的重要性。如果早期的简单问题比之后的复杂问题有更大的价值,那么数据的价值就越来越低。然而,如果后来困难的问题比早先容易的问题更具价值,那么随着可用数据的增加,数据的边际价值可能会增加。一个典型的例子是语音识别。早期的ML语音识别系统比后来的系统更快地获得了准确率。然而,没有极高准确度的语音识别系统几乎没有什么用处,因为用户要花大量时间来纠正错误。这意味着,相对于前90%的准确度,最后几个百分点的准确度可能会对系统的价值产生更大的影响。在这里边际价值增长到可以填补最后一个差距的程度。
要理解这些动态,可以思考一个经常被滥用的人类学习的类比。我们描绘的类比是学习过程之间的类比,而并不是说AI真的和人类一样。对于任何给定的技能,一开始学习大多是无用的,然后是非常有用的,最后又是无用的。例如,在你掌握微积分之前,学习数学对于提高你对微积分的理解几乎毫无用处——这看起来是极其复杂的。一旦你对微积分有了足够的了解,额外的学习很快就会变得浪费和多余。然而,在某个关键时期,学习对于掌握微积分是极其有价值的。
在接受数学教育的大多数时候,你将或多或少地掌握一些有用的技能(乘法、三角函数、微积分、概率论等),学习也因为掌握这些技能变得有价值,但对于掌握其他技能几乎没有立竿见影的效果。随着你学到更多的东西,学习数学的边际收益是增加还是减少,取决于复杂的技能是否比简单的技能具有更高或更低的价值。这取决于多个因素,并且这种关系可能并不总是有明确的方向:乘法可能比几何更有用,但不如微积分有用,而微积分你甚至要在以后才学到。但是,关于教育在劳动力市场上回报的总体证据表明,额外教育的价值不会很快褪去:拥有高等学位的人比只接受过基础教育的人收入更高,其差距超过接受过基础教育的人超过未受过教育的人的收入。24
我们猜测ML也有类似的情况。虽然额外的数据可能不能改善某些已成熟的服务(如选择你喜欢的电影),但同样的数据可能会改善其他处于早期发展阶段的服务(如虚拟现实、语音翻译)。在许多情况下,更复杂和更高要求的服务更有价值。如图5-5所示,后期服务获得的价值大于早期服务获得的价值。如果这是真的,那么数据实际上可能会增加而不是减少回报,因为更多的数据可以解决更复杂、更有价值的问题。另外,由于人类的文化总是以新的方式发展,AI/ML将永远需要更多的数据来跟进。即使AI最终“学会了一切”而且数据的回报率变得递减,也只有当我们拥有了不仅能够模仿单个人的人类智能,还能模仿所有的集体人类智能的AI系统时,那一天[1]才能在遥远的未来到来。
[1] 是指不再需要更多数据的那一天。——译者注