人工智能未来的数据标注将会是自我标注

2017 年 7 月,最后一届 ImageNet 挑战赛落幕。

为何对计算机视觉领域有着重要贡献的 ImageNet 挑战赛,会在 8 年后宣告终结?

毕竟计算机系统在图像识别等任务上的准确率已经超过人类水平,每年一次突破性进展的时代也已经过去。

近日,FAIR(Facebook AI Research) 的 Ross Girshick 、何恺明等大神联手,在 ImageNet-1k 图像分类数据集上取得了 85.4% 的准确率,超越了目前的最好成绩,而且没有使用专门为训练深度学习标记的图像作为训练数据。

然而,这不能怪大家不努力,只怪 Facebook 实在太土豪。10 亿张带有 hashtag(类似于微博里面的话题标签)的图片,以及 336 块 GPU,敢问谁能有这种壕气?

Facebook 表示,实验的成功证明了弱监督学习也能有良好表现,当然,只要数据足够多。

话不多说,我们一起来看看 Facebook 是怎样用数据和金钱砸出这个成果的。

以下内容来自 Facebook 官方博客,人工智能头条 编译:

图像识别是人工智能研究的重要领域之一,同时也是 Facebook 的一大重点关注领域。我们的研究人员和工程师希望尽最大的努力打破计算机视觉系统的边界,然后将我们的研究成功应用到现实世界的问题中。为了改进计算机视觉系统的性能,使其能够高效地识别和分类各种物体,我们需要拥有至少数十亿张图像的数据集来作为基础,而不仅仅是百万量级。

目前比较主流的模型通常是利用人工注释的单独标记的数据进行训练,然而在这种情况下,增强系统的识别能力并不是往里面“扔”更多的图片那样简单。监督学习是劳动密集型的,但是它通常能够达到最佳的效果,然而手动标记数据集的大小已经接近极限。尽管 Facebook 正在利用 5000 万幅图像对一些模型进行训练,然而在数据全部需要人工标记的前提下,将训练集扩大到数十亿张是不可能实现。

我们的研究人员和工程师想出了一个解决办法:利用大量带有“hashtag”的公共图像集来训练图像识别网络,其中最大的数据集包括 35 亿张图像以及 17000 种 hashtag。这种方法的关键是使用现有的、公开的、用户提供的 hashtag 作为标签,而不是手动对每张图片进行分类。

这种方法在我们的测试中运行十分良好。我们利用具有数十亿张图像的数据集来训练我们的计算机视觉系统,然后在 ImageNet 上获得了创纪录的高分(准确率达到了 85.4%)。除了在图像识别性能方面实现突破之外,本研究还为如何从监督学习转向弱监督学习转变提供了深刻的洞见:通过使用现有标签——在本文这种情况下指的是 hashtag——而不是专门的标签来训练 AI 模型。我们计划在不久的将来会进行开源,让整个 AI 社区受益。

▌大规模使用 hashtag

由于人们经常用 hashtag 来对照片进行标注,因此我们认为这些图片是模型训练数据的理想来源。人们在使用 hashtag 的主要目的是让其他人发现相关内容,让自己的图片更容易被找到,这种意图正好可以为我们所用。

但是 hashtag 经常涉及非可视化的概念,例如 “#tbt” 代表“throwback Thursday”;有些时候,它们的语义也含糊不清,比如 “#party”,它既可以描述一个活动,也可以描述一个背景,或者两者皆可。为了更好地识别图像,这些标签可以作为弱监督数据,而模糊的或者不相关的 hashtag 则是不相干的标签噪声,可能会混淆深度学习模型。

由于这些充满噪声的标签对我们的大规模训练工作至关重要,我们开发了新的方法:把 hashtag 当作标签来进行图像识别实验,其中包括处理每张图像的多个标签(因为用户往往不会只添加一个 hashtag),对 hashtag 同义词进行排序,以及平衡常见的 hashtag 和少见的 hashtag 的影响。

为了使标签对图像识别训练更加有用,我们团队训练了一个大型的 hashtag 预测模型。这种方法显示了出色的迁移学习结果,这意味着该模型在图像分类上的表现可以广泛适用于其他人工智能系统。

▌在规模和性能上实现突破

如果只是用一台机器的话,将需要一年多的时间才能完成模型训练,因此我们设计了一种可以将该任务分配给 336 个 GPU 的方法,从而将总训练时间缩短至数周。随着模型规模越来越大——这项研究中最大的是 ResNeXt 101-32x48d,其参数超过了 8.61 亿个——这种分布式训练变得越来越重要。此外,我们还设计了一种删除重复值(副本)的方法,以确保训练集和测试集之间没有重叠。

尽管我们希望看到图像识别的性能得到一定提升,但试验结果远超我们的预期。在 ImageNet 图像识别基准测试中(该领域最常见的基准测试),我们的最佳模型通过 10 亿张图像的训练之后(其中包含 1,500 个 hashtag)达到了 85.4% 的准确率,这是迄今为止 ImageNet 基准测试中的最好成绩,比之前最先进的模型的准确度高了 2%。再考虑到卷积网络架构的影响后,我们所观察到的性能提升效果更为显著:在深度学习粒使用数十亿张带有 hashtag 的图像之后,其准确度相对提高了 22.5%。

在 COCO 目标检测挑战中,我们发现使用 hashtag 预训练可以将模型的平均精度(average precision)提高 2% 以上。

这些图像识别和物体检测领域的基础改进,代表了计算机视觉又向前迈出了一步。但是除此之外,该实验也揭示了与大规模训练和噪声标签相关的挑战和机遇。

例如,尽管增加训练数据集规模的大小是值得的,但选择与特定识别任务相匹配的一组 hashtag 也同样重要。我们选择了 10 亿张图像以及 1,500 个与 ImageNet 数据集中的类相匹配的 hashtag,相比同样的图像加上 17,000 个 hashtag,前者训练出来的模型取得了更好的成绩。另一方面,对于图像类别更多更广泛的任务,使用 17,000 个主 hashtag 训练出来模型性能改进的更加明显,这表明我们应该在未来的训练中增加 hashtag 的数量。

增加训练数据量通常对图像分类模型的表现是有益,但它同样也有可能会引发新的问题,如在图像内定位物体的能力明显下降。除此之外我们还观察到,实验中最大的模型仍然没有能够充分利用 35 亿张巨大图像集的优势,这表明我们应该构建更大的模型。

▌未来的图像识别:更大规模、自我标注

本次研究的一个重要结果,甚至比在图像识别方面的广泛收益还要重要,是确认了基于 hashtag 来训练计算机视觉模型是完全可行的。虽然我们使用了一些类似融合相似的 hashtag,降低其他 hashtag 权重的基本技术,但并不需要复杂的“清洗”程序来消除标签噪声。相反,我们能够使用 hashtag 来训练我们的模型,而且只需要对训练过程进行微小的调整。当训练集的规模达到十亿级时,我们的模型对标签噪音表现出了显著的抗干扰能力,因此数据集的规模在这里显然是一个优势。

在不久的将来,我们还会设想使用 hashtag 作为计算机视觉标签的其他方法。这些方法可能包括使用人工智能来更好地理解视频片段或更改图片在 Facebook 信息流中的排名方式。hashtag 还可以帮助系统更具体地识别图像是不是属于更细致的子类别,而不仅仅是宽泛的分类。一般情况下,图片的音频字幕都是仅宽泛地注释出物种名称,如“图片中有一些鸟类栖息”,但如果我们能够让注释更加精确(例如“一只红雀栖息在糖枫树上”),就可以为视障用户提供更加准确的描述。

此外,这项研究还可以改进新产品以及现有产品中的图像识别功能带来。例如,更准确的模型可能会促进我们改进在 Facebook 上呈现 Memories(与QQ的“日迹”相似)的方式。随着训练数据集越来越大,我们需要应用弱监督学习——而且从长远来看,无监督学习会变得越来越重要。

这项研究在论文“Exploring the Limits of Weakly Supervised Pretraining”中有更详细的描述。


推荐文章

如果说有一项技术彻底改变了 21 世纪,那一定是人工智能。Google 新掌门人 Sundar Pichai 曾说:“人工智能带给我们生活和工作的改变,甚至将超过火和电。”虽然噱头满满,但不可否认的是,人工智能正在翻天覆地的改变着人们的生活方式。以前只有在科幻小说中才能了解到的工具和生活方式正在人工智能的加持下,从各个角度渗透进我们的日常生活,并带动着技术进步、产业升级、推动市场经济整体快速发展。因此,正确理解人工智能的概念就变得非常重要。本文将帮助你理解人工智能的定义、阶段、类型以及研究领域。人工智能的定义1956 年,John McCarthy(1927~2011)在达特茅斯会议上提出了“人工智能 (artificial intelligence,AI)”一词。他将人工智能定义为:“制造智能机器的科学与工程。”‘The science and engineering of making intelligent machines.’人工智能也可定义为能够执行需要人类智能的任务的计算机系统的开发,如制定决策、检测对象、解决复杂问题等等。  人工智能的阶段很多文章都认为,强人工智能(Artificial General Intelligence)、弱人工智能(Artificial Narrow Intelligence)以及超人工智能(Artificial Super Intelligence)是不同类型的人工智能。其实更确切地说,它们是人工智能的三个阶段。弱人工智能(ANI)弱人工智能,又称为狭义人工智能。在这一阶段,机器并不具备任何思维能力,只是执行一组预定义的功能,如语音识别、图像识别等,是擅长单个方面的人工智能,类似高级仿生学。它们只为解决某一特定具体的任务而存在,大多是统计数据,从中归纳出模型。比如, AlphaGo 只会下围棋,并不能执行其他任务。  弱人工智能的例子包括 Siri、Alexa、自动驾驶汽车、AlphaGo、人形机器人 Sophia 等。到目前为止,几乎所有基于人工智能的系统都属于弱人工智能。强人工智能(AGI)强人工智能,又称为通用人工智能。不同于弱人工智能,强人工智能可以像人类一样应对不同层面的问题,而不仅仅只是执行一组预定义的功能。不仅如此,强人工智能还具有自我学习、理解复杂理念等多种能力。也正如此,强人工智能的开发比弱人工智能要困难得多。事实上,人工智能国际主流学界所持的目标也仅局限于弱人工智能。目前很少有人进行强人工智能的研究,也尚未形成相应的成果。  强人工智能还被许多科学家视为对人类生存的威胁, Stephen Hawking 警告称:“完全人工智能(Full Artificial Intelligence)的发展可能意味着人类文明的终结……人工智能一旦脱离束缚,会不断加速重新设计自身。而人类由于受到生物进化的时间限制,无法与之竞争,很可能会被取代。”超人工智能(ASI)当弱人工智能已经大部分实现,强人工智能正在通过深度学习不断逼近之时,超人工智能的概念呼之欲出。在这一阶段,计算机的能力将超越人类。目前,强人工能智能是电影和科幻小说中描述的一种假想情景:机器已经接管世界。  “人工智能(我指的不是狭义的人工智能)的发展速度快得令人难以置信。除非你能够直接接触到 DeepMind 这样的组织,否则你根本不会知道人工智能的增长速度有多快——它正以接近指数级的速度增长。在五年内(最多十年)将存在发生危险事件的风险。"——Elon Musk人工智能的类型当有人让你解释不同类型的人工智能系统时,你必须根据它们的功能进行分类。密歇根州立大学 Arend Hintze 将人工智能分为以下几种类型:单一反应型、有限记忆型、具有心智型以及自我意识型。单一反应型(Reactive Machine AI)这种类型的人工智能是最基本的人工智能系统,它仅基于当前数据运行的机器,只考虑当前情况。也就是说,反应型机器只能进行反应,它既没有记忆能力,也无法利用过去的经验来制定现在的决策。  反应型机器的一个典型例子就是著名的 IBM 国际象棋程序 Deep Blue 。1997 年 5 月,它以 3.5:2.5 的战绩击败了世界冠军 Garry Kasparov,成为首个在标准比赛时限内击败国际象棋世界冠军的计算机系统。Deep Blue 看似拥有人的智慧,实际上,它只关注棋盘上的现状,并在可能的走法中作出决策。除了遵守重复棋局不能连续出现三次的规定外,和经验丰富的人类不同,它对过去并没有任何概念。目前的人工智能,要么对世界没有概念,要么只对其执行的特定任务有极其有限、具体的概念。Deep Blue 的创新之处在于,它放弃了拓宽计算机可能考虑的棋路范围的这种思路。相反,开发人员找到了一种方法,让它缩小自己的“视角”,根据它对某些走法的结果进行评估,停止追求一些可能的走法。类似地,AlphaGo 也无法评估所有的走法,但它采用了比 Deep Blue 更为复杂的方法:使用神经网络来评估棋局的走势。这种类型的人工智能无法在专业领域之外发挥作用,而且容易被愚弄。它们无法通过交互的方式成为世界的组成部分。很显然,它们只是最基本的人工智能系统,并不符合我们对人工智能系统的未来预期,即能够与人类展开真正的互动,甚至对周围的环境作出真实的反应。有限记忆型(Limited Memory AI)有限的记忆,顾名思义,指人工智能可以通过研究以往的数据作出明智的决策。这种类型的人工智能具有短暂或临时的记忆,可以用来存储过去的经验并评估未来的行为。  自动驾驶汽车就是这种类型的人工智能,它利用最近收集的数据作出即时决定。例如,使用传感器识别过马路的行人、陡峭的道路以及交通信号等,从而作出更好的驾驶决策,这有助于防止交通事故的发生。然而,自动驾驶汽车的历史信息存在的时间很短暂,无法像经验丰富的人类驾驶员那样将其存储在“经验库”中。这种类型的人工智能,并不能构建全面的“表现”(representations),它并不能记住自己的经验,并学会如何应对新的情况。具有心智型(Theory Of Mind AI)心智理论,心理学术语,是人类能够理解自身及周围人的心理状态的能力。这一理论来源于哲学,进入心理学领域后,慢慢成为认知心理学与神经心理学的研究重心之一。心智理论是人类社会形成的关键,通过这一理论,人们可以更好地理解社交、互动的内在动力。试想,如果人类不能理解彼此的动机和意图,那么,相互间的沟通、合作就会变得异常困难,甚至毫无可能。  这种类型的人工智能较前两种更为先进,它在心理学中扮演着重要的角色,主要体现在对机器“情商”的开发上。如果人工智能系统真的能够与人类并肩行走,它们就必须能够明白,每个人都有思想和感受,理解人类预期,并由此调整自身行为,这正是我们目前的人工智能与未来的人工智能之间的重要差异。自我意识型(Self-aware AI)这是人工智能发展的最后一步:构建一套能够形成自我表征的系统。像 Elon Musk 和 Stephen Hawkings 这样的天才一直警告我们警惕人工智能的进化。让我们祈祷,我们永远不会达到这种人工智能的状态。因为,在这种状态下,机器将拥有自己的意识,它能够意识到自我,知道自己的内部状态,还可以预测他人的感受。当前,具有自我意识的人工智能离我们还有很远的距离。然而在未来,到达超人工智能的阶段仍存在可能。  人工智能的研究领域人工智能可以通过以下技术解决现实问题:机器学习深度学习自然语言处理机器人模糊逻辑专家系统  机器学习机器学习是一门借助机器解释、处理和分析数据以解决实际问题的科学。它的根源可以追溯到 1952 年就职于 IBM 的 Arthur Samuel(被誉为“机器学习之父”)设计的一款西洋跳棋程序。机器学习有三种类型,分别为监督式学习、无监督式学习和强化学习。毫无疑问,机器学习有助于人类克服知识和常识方面的瓶颈,而我们认为这些瓶颈会阻碍人类水平的人工智能的发展,因此许多人将机器学习视为人工智能的梦想。想了解有关机器学习的更多信息,你可以浏览以下博客:Machine Learning Tutorial for BeginnersWhat is Machine Learning? Machine Learning For Beginners深度学习深度学习是在高维数据上实现神经网络以获得洞察力并形成解决方案的过程。深度学习是机器学习的一个高级领域,可以用于解决更高级的问题,它是 Facebook、自动驾驶汽车、Siri、ALexa 等虚拟助手人脸认证算法背后的逻辑。想了解有关深度学习的更多信息,你可以浏览以下博客:What is Deep Learning? Getting Started With Deep LearningDeep Learning Tutorial: Artificial Intelligence Using Deep Learning自然语言处理自然语言处理是一门从人类自然语言中提取洞察力,以便与机器交流并发展业务的科学。它也是人工智能中最古老、研究最多、要求最高的领域之一。开发智能系统的任何尝试,最终似乎都要解决一个问题,即使用何种形式的标准进行交流。例如,比起使用图形系统或基于数据系统的交流,语言交流通常是首选。20 世纪四五十年代,人们使用有限自动机、形式语法和概率建立了自然语言理解的基础。但是,20 世纪五六十年代,早期使用机器翻译语言的尝试被实践证明是徒劳无功的。20 世纪 70 年代,当时的潮流趋于使用符号方法和随机方法。进入 21 世纪后,随着机器学习的兴起,自然语言处理迎来新的突破,并推动了随机过程、机器学习、信息提取和问答等现有方法的应用。比如,Twitter 使用自然语言处理技术来过滤推文中的恐怖主义的语言,Amazon 使用自然语言处理了解客户评论并改善用户体验。机器人人工智能机器人是在现实环境中行动的人工智能体,通过采取负责任的行动来产生结果。这一领域在计

热门文章

        对数据标注行业稍微有些了解的人都知道数据标注进入门槛低,适合很多人兼职也适合创业。        正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。        但是目前有个有趣的现象,那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑?为什么有些人会说数据标注就是个坑呢?        其实对与有上述问题认识的人我们认为,这些人多数都是有于对这个行业对自身条件的不了解,盲目的开始进入数据标注行业的。为什么我们会这样说呢?下面就给给大家来分析下到底有哪几方面的原因:        一、有相当一部分人是听了朋友或者网上消息说这行很火爆,好做,门槛低,也有一部分人了因此租办公室买电脑招人,然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业,更没有认真仔细得去调查分析,到底自己能不能做好一个项目,到底自己能不能有质有量按时交付的完成一个项目,到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。        二、数据标注项目虽然入门门槛低,但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目,还有一部分人由于自己对标注项目重视程度不足接到项目之后呢?不仔细认真的去阅读理解项目规则,更没有很好的对规则质检标准去培训员工,而对员工的要求主要看重每天的产出效率,从而导致接到手的项目做的质量很差,频繁的返工,有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少,最终的结果就是做好些个项目但基本都是赔钱。        三、虽然业内人都 说数据标注简单,但是标注项目他也是一个系统性的工程,一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平,质量管理能力,运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱,要赚钱不是那么简单的。        四、还有些工作室 、小公司因为对行业不够了解等他们做了一段时间后发现,自己团队经常会没有项目做,而自己团队接项目的业务能力又不具备,甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目,时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。        五、下来要说的就是一部分人人兼职人员由于认识不到位,对项目的规则质量要求 文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算,最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。        标注行业本身由于进入门槛低,做的人很行业内盲目打价格战,导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱,所以在这里也提醒大家做任何事都要谨慎而行。