Local EPUB Text
现代深度学习
比赛规则如下:参赛者向大赛管理方监管的服务器提交图片识别软件。根据要求,软件将会处理十万张新图片。由于图片随机排列,呈现的物品分散,软件将需通过编程和算法,对每张图片上五种识别出的物品进行命名。
ImageNet竞赛分为三项:图像分类、分类定位、检测。分类项目旨在测试计算机算法能否将图片正确分类并标上恰当的标记;分类定位项目用于评估对已标记图片以及图片上的物体位置的复制能力。最后的检测项目借鉴了其他项目的元素,但评价标准更为严格,图片数量众多,每张图片上呈现好几样微小的物体。随着时间的发展,比赛会新增了一些项目,如视频流的识别,保证比赛跟上技术的发展。
2010年比赛的获胜者是来自日本电气股份有限公司(NEC)和伊利诺伊大学香槟分校。在10万张测试图片中,获胜的神经网络的出错率是28%。两支亚军团队的错误率分别是33.6%和44.6%。为了更好地分析这个比赛结果,我们来对比一位未经过特别训练的普通人,他对图片进行分类的能力相当突出,错误率只有5%。
2011年第二届ImageNet竞赛成绩显示,尽管参赛团队几乎都没有使用神经网络,但这一年中机器视觉算法还是取得了较大进步。来自XRCE技术公司的团队错误率只有25%,比上一届冠军降低了2.4%的出错率,两支亚军队伍的错误率分别是31%和36%。
当第三届ImageNet竞赛在2012年9月30日深夜落下帷幕时,机器视觉领域发生了永恒的改变。这届比赛既没有狂热的媒体,也没有华而不实的颁奖礼。但是如果监管比赛的机架式服务器有反应的话,它们将会彼此拥抱,热烈庆祝。
东京大学团队研发的SuperVision神经网络,正确率高达85%,创下了世界软件识别比赛中骄人的成绩。错误率降低15%~25%听起来并不太多,可是对于计算机-视觉研究界而言,他们过去苦苦努力为了提高不到1%的正确率,这成绩就像是看到一个人人生第一次达到专业田径选手的水平,四分钟内跑完一英里。
SuperVision的发明者是亚历克斯·克里泽夫斯基(Alex Krizhevsky)、伊利亚·斯图斯盖尔(Ilya Sutskever)两名同学和他们的老师戈弗雷·辛顿(Geoffey Hinton)。Super Vision属于卷积神经网络。卷积神经网络的许多特征是建立在三十多年前福岛博士发明的神经认知器的技术基础上的。其余的改良部分是来自于由纽约大学扬·勒丘恩、斯坦福大学的吴恩达(Andrew Ng)和蒙特利尔大学的约书·本吉奥组成的研究小工的工作成果。SuperVision是一个大型的神经网络,由工人神经元组成矩阵,矩阵组成机架,机架再组成一个30层神经网络。东京团队做了一个大胆的举动,他们开放码源,让任何人都能使用和修改。这个举动在计算机视觉界内轰动一时。
深度学习人工神经网络已成为图片识别软件新的黄金准则。在SuperVision取得2012届图片识别比赛的辉煌胜利之前,几乎没有人使用卷积神经网络。但在2012年后,不使用卷积神经网络的研究团队甚至不敢再参加竞赛了。
SuperVision获胜后的下一年,冠军的错误率降低至11.2%,亚军紧跟其后,数据分别是12%和13%,所有人都使用的是指定的深度学习卷积神经网络。2014年,谷歌团队创下了6.66%的错误率新低。来自牛津大学的团队使用了更庞大的卷积神经网络,但错误率是7.1%。2015年,微软北京研究实验室团队(由首席研究员孙剑带领)使用了152层深度神经网络,赢得了三个比赛项目的冠军。值得一提的是,微软团队这一年的错误率仅有3.57%,历史上首次低于人类的错误率5%。
在取得这些胜利之后,机器视觉其他的研究方法仿佛都要被淘汰。算法不再局限于物体识别,已经开始从计算机视觉领域扩展至所有人工智能领域。人工智能发生了永恒的改变,无人驾驶汽车发展的最后一道障碍——软件的人工感知能力——终于被扫除了。
这场巨大的胜利后不久,各方开始尝试合作。Nvidia 推出了深度学习卡,是克里泽夫斯基的SuperVision网络在低功耗硬件上的衍生产品。Nvidia的商业应用程序目标何在?毫无疑问,是无人驾驶汽车。该系统被名副其实地命名为DRIVE PX,它能同步处理超过12个视频频道的实时内容。一年后,速度更快、造价更低、质量更优的计算机卡推出,自动深度学习的技术研发竞赛拉开了大幕。