Local EPUB Text
粉刷数字
在与拉尼尔和其他合作者进行的一项工作中,我们中的一个人试图解释为什么塞壬服务器会容忍这种浪费。一个有用的类比是马克·吐温的《汤姆·索亚历险记》中的一个故事。在这个故事中,汤姆试图让他的朋友们帮他承担刷围栏的责任。他的第一个方法是给他们钱,但是失败了。他很快意识到,如果他假装很喜欢这项任务,朋友们不仅会同意为他做这项工作,而且还会为这项特权向他支付报酬。大量的心理学文献表明,在适当的社会背景下,劳动变成了休闲,工作变成了娱乐。30
塞壬服务器是汤姆的现代版。它们开始在正常的业务过程中收集用户数据,结果发现用户们正在高兴地为它们下金蛋。社交网站的用户免费提供珍贵的贴有标签的照片与朋友联系。谷歌通过YouTube上有趣的视频加强了ML分析能力。很少有用户会因为他们的贡献而得到丰厚的报酬,这使得出售广告和越来越多AI服务的塞壬服务器获得巨额利润。
塞壬服务器,尤其是数据收集领域的领头羊(脸书和谷歌),不太可能通过为数据付费来提高其数据质量或自身的容量。基本问题是,只有几个塞壬服务器在竞争用户数据。它们都知道,如果某个服务器开始为某些数据付费,服务之间的竞争将很快迫使它们为目前免费获得的所有数据付费。付费给用户,即使是在相对有限的富有价值的环境中,也可能会破坏塞壬服务器利用免费数据的业务模式。这有以下几方面的原因。
最基本的是,塞壬服务器的市场力量(经济学家称之为买方独家垄断或买方寡头垄断力量)意味着,市场做出任何改变而使用户从他们的数据中得到报酬,都会增加塞壬服务器的成本。
买家垄断力量在数据劳动力市场上的重要性首次在格雷、苏瑞以及经济学家萨拉·金斯利(Sara Kingsley)合著的一篇论文中得到强调。31在那之后,苏瑞与合作者通过实证分析证实了mTurk的任务发帖者有着显著的买方垄断力量,即使鉴于时间和Turk用户们在完成工作的兴趣方面对于任务类型具有专一性,它们还不算市场上的大玩家。32
塞壬服务器的买方垄断力量要强大得多。它们提供了更多这种形式的潜在工作机会。虽然这很难被量化,但很有可能大部分有价值的网上数据,甚至所有的网上数字数据都是由脸书和谷歌收集的:2015年,谷歌在互联网搜索(大多数浏览是从这儿开始的)中占64%的市场份额;脸书的15亿用户平均每天花50分钟在其网站或App上。33这些巨头控制巨大的市场份额,这意味着如果目前免费的数据价格上涨,它们将受到重大冲击。
鉴于完成大多数生产工作并不是工人们明确寻求的单独“众包”,而是在网上互动的娱乐过程中完成的,竞争的公司必须建立质量和用户投入相当的服务,才能够高效利用查询用户信息获得有价值的数据。几家初创企业采用了这种模式,以吸引用户使用另一种社交网络(如empowr[1])或数据管理服务(如Datacoup[2])。然而,它们只吸引了少数对这个想法有依恋的用户。大多数用户更喜欢他们的大部分朋友使用的以及提供更高质量服务的网络。
有一家初创公司成功地从用户那里获得了更多有用的数据,它叫reCAPTCHA[3],大多数互联网用户都很熟悉它,因为它总是在用户访问某些在线服务之前先让用户解几道题,来验证他们不是机器人。虽然reCAPTCHA要求用户解决验证码问题是出于安全目的,但验证码被设计为数字化文本的数据源,并逐渐成为训练文本自动识别和其他基于ML系统的数据源。不过,请注意,reCAPTCHA之所以成功,正是因为它与现有的塞壬服务器合作,并被纳入了它们的产品,而且从未提供过货币支付。在2009年谷歌以3000万美元的价格收购了reCAPTCHA后,马萨诸塞州的一名用户以reCAPTCHA是无薪劳动为由起诉谷歌违反劳动法,但没有成功。34
在数据劳动力市场上,塞壬服务器的大多数潜在竞争对手会发现,它们很难像塞壬服务器那样有效率地利用数据。正如我们在上面强调的,只有拥有大量的计算和数据处理能力,才能实现最高端的AI服务。这些能力仅仅被少数数码巨头所掌握。当然,一家初创企业可以收集数据,并期望将其卖给塞壬服务器,但与此同时,塞壬服务器对如何通过走旁门左道不交钱而得到数据有着同样强烈的兴趣。简而言之,塞壬服务器占据了“数字公地”(digital commons)的中心地带,这里的空间只属于少数玩家。现在它们的利益与科技奴隶是对立的,后者目前自愿在这片土地上耕种。
除了市场结构和AI技术的本质,社交媒体的本质也使这些网站特别能够抵制竞争的影响。第一,大多数用户喜欢使用包含他们所有朋友的社交网络并希望成为其中一部分。这些网络效应可能使其竞争对手难以进入市场,除非对方有足够的资金常年为用户提供补贴,同时,围绕着“金钱不转手”的社会规范甚至会让这种战略难以成功。许多社会科学家也认为,塞壬服务器使用类似于赌场所使用的技术,使其内容具有成瘾性。35这些属性共同提高了塞壬服务器的操纵能力,将用户牢牢锁定在可能不符合他们长远利益的行为模式中。
第二,正如经济学家罗兰·班纳博(Roland Bénabou)和诺贝尔奖获得者让·梯若尔在2003年和2006年对类似于汤姆·索亚问题的分析得到的结论,为活动付费往往会削弱内在动机(如娱乐和社会压力)。36如果用户因提供在线数据而得到支付,这可能是在告诉用户,他们目前所认为的娱乐活动实际上是有利于塞壬服务器的,他们理应获得报酬,这就破坏了娱乐的价值。付费也可能会破坏人们对参与社会协作动机的感知,即这种参与可能会给“作为网络社区一分子”的用户带来社会回报。更阴暗的一面是,付费也可能会削弱内容的黏性[4],因为它通过更清楚地说明经济关系的本质,打破了在线娱乐的“魔咒”。
第三,尽管媒体报道了数据经济,但是大多数用户仍然没有意识到企业从他们的数据中获得的价值。37为了让用户提供最有价值的数据,塞壬服务器必须对标签、注释和其他用户输入要素发出明确的请求。当用户意识到当前情况的“可怕”之处时,他们在线互动的态度可能会发生改变,这将对塞壬服务器带来巨大的成本并造成破坏,还会给它带来不可预测性。脸书利用用户的新闻源做“情感价值实验”这一秘密被公开后,在公众中引起了轩然大波,而且研究表明,意识到这种“令人毛骨悚然”的监测技术的那些用户往往会对数字服务变得不再信任,或直接换一种方式使用这些服务,这就减少了他们的数据的价值。38
第四,要实现拉尼尔对数据作为劳动成果的愿景,需要构建各种复杂的技术系统。许多数字系统的架构必须进行调整,以跟踪数据的源头和使用痕迹,因此用户至少可以从他们的数据产生的平均价值中得到奖励,但在理想情况下,他们的数据能够在一些场合下产生独特的价值。39首先,ML系统必须被设计成用来决定对它们特别有价值的数据;然后,它们对数据的要求需要被引导到面向消费者的产品上;最后,这些产品需要被设计成以入侵性最小的方式向用户查询额外的数据。
这个问题的另一方面是,用户可能会觉得定期在互联网上进行交易很麻烦。我们假设脸书给杰拉15美元,让她提供几分钟的时间,但是如果杰拉提供的信息实际价值是15美分或者是150美元,那该怎么办呢?这就必须建立个人顾问系统来指导用户的选择,并且在处理所有支付时偶尔收到用户的反馈。即使有了这样的系统,用户对网络互动的认知和社会态度的基本转变也是必要的。
相反,必须要有一种更有效的方法让塞壬服务器确保它们所接收数据的质量和价值。几年前,当微软尝试为用户的数据付费时,大量机器人突然涌现,它们利用这个系统榨取大量现金而不给公司提供价值。如果没有某种方式来跟踪用户(这必然会给用户本身带来更大的负担),为数据付费就很容易被他人利用。
我们强调的最后三个因素基本就是“将数据视为劳动成果”可能会遭到社会阻力的主要原因。但我们相信这些因素将被中期的收益所抵消。然而,当这些因素与塞壬服务器的垄断力量、网络效应以及操纵用户心理的兴趣相结合时,塞壬服务器还未进行这一雄心勃勃的转变就不足为奇了。
另外,亚马逊、苹果和微软等在数据上不太具有优势的塞壬服务器可能同时具备使竞争成为可能的规模,以及打破这种低效买家垄断的动力。通过创建另一种替代形式来普遍关注网上的“免费”内容,它们可能有助于打破竞争对手的主导商业模式,并开辟竞争机会。然而,这一行业结构使得任何私人实体都不可能自行转向更高效的模式。因此,我们可能需要社会和监管的压力来催化变革。
[1] empowr(https://www.empowr.com)是为用户提供民主社会媒体体验的平台。公司由其“公民”管理,旨在通过民主化其核心要素(如用户界面设计等)为其“公民”提供经济机会,并将公司97%的收入返还给他们。——译者注
[2] Datacoup(https://datacoup.com/)是一家从个人购买个人数据(如社交媒体活动记录或信用卡交易记录),并以月费形式出售给信息经济人的初创公司。——译者注
[3] reCAPTCHA是谷歌的验证码工具。——译者注
[4] 这里的“黏性”是指旧访客的比例。——译者注