数据标注是什么？机器感知世界的起点

谷歌AI团队近日推出了一款新型图像标注方式——“流体标注”，即采用机器学习来注释分类标签并勾勒出图片中的每个对象和背景区域。谷歌官方表示其可将标记数据集的速度提高三倍。

百度众测平台去年曾发布了5000万元的数据标注任务，而今年预计将达3亿元。面对如此大的市场需求，效率低、交付质量参差不齐的人工标注方式亟待改善。谷歌此次推出的“流体标注”如何为图像标注提速？

数据标注——机器感知世界的起点

“数据标注是人工智能产业的基础，是机器感知现实世界的起点。从某种程度上来说，没有经过标注的数据就是无用数据。”美国加州科技大学校长秦志刚教授在接受科技日报记者采访时表示，机器识别事物主要通过物体的一些特征。被识别的物体还需要通过数据标注才能让机器知道这个物体是什么。

数据标注是什么？机器感知世界的起点

在机器的世界里，图像与语音、视频等一样，是数据的一个种类。近年来，随着数码产品以及存储技术的迅速普及和发展，人们每天都可通过相机、可视电话、监控及医疗设备等制造大量图像。因此，现阶段图像已然成为标注产业发展的重点对象。

如果素材是一张人物图像，那么需要标注的信息往往是性别、面部朝向、人种、有无帽子眼镜等，也可以人为地将人物和背景的区域划分开来。将成千上万张经过标注的图片组成的数据集“投喂”给机器，它才能在一张全新的图像中分辨出人物在哪个区域、具有怎样的外貌特征。对于人来说“小儿科”的思考历程，机器却需要大量的标记数据集进行训练。

机器学习——缓解人工标注的压力

提到人工智能产业，人们往往联想到繁华的城市和干练的IT精英，但实际上，支撑起人工智能的数据标注产业，却是一个劳动密集型产业。百度搜索“数据标注”，会出现很多图片语音视频数据采集、标注公司。随机选择一个此类词条点进去，往往会看到“万人数据标注团队”等类似宣传语。可见人工标注是目前数据标注的主要方式。

“谷歌推出的流体标注模型主要利用人工智能学习的基础，对图像数据进行自动标注，对于标注不准确或者出现偏差的地方可以通过人工调整，从而提高标注效率。”秦志刚指出，即便该模型可借助机器学习提升标注速度，但最初还需进行人为地数据标注，为其提供初始训练数据集。事实也正是如此，为了标注图片，谷歌预先以约一千张具有分类标签和信任分数的图片训练了语意分割模型。

但该模型尚不完美，谷歌称，物体边界标记问题、界面操作速度以及类别扩展等仍需进一步研究或完善。

人工智能——致力于生活中的简单应用

虽然还有诸多难题尚待攻克，但以流体标注模型为代表的数据标注新方式无疑顺应着人工智能的大潮流。实际上，自人工智能逐渐走热以来，很多行业都想搭上这个热潮。然而，在灼热的潮流背后，掩藏着一个根本性的问题：人工智能终将走向何方？

“人工智能的本质是机器拥有‘学习’的能力，可想而知，人工智能可以极度缩短人类自身的学习时间，从而将人从大规模脑力学习活动中解放出来，去专注于更有价值的工作。”秦志刚表示，虽然人们普遍认为人工智能终将到来，但现阶段人工智能产业仍在云端。目前大多数人工智能的应用只能生存在高性能处理器的大型厂房中，就如同第一代通用计算机ENIAC一样“大而笨重”。“众所周知，随后的几十年内计算机飞速发展到小型的笔记本电脑，功能却比ENIAC更强大。人工智能也当如此”。

界面简单、功能友好、毫无相关知识基础的人都能使用并获得舒适感，这是秦志刚设想的人工智能时代。一枚小小的人工智能芯片，可以完成学习、训练、推理等一系列“思考”过程，而它的终端表现则或许只是人们生活中最为常见的简单应用。如下班回家，不需再拿出钥匙开门，智能门锁就像一位尽职的管家，会在第一时间感知你的到来，为你敞开家门。“十年之后，人工智能将会成为主流，潜移默化渗透到生活中的各种角落。别看是小事情，背后却是高密集的技术支撑。”秦志刚表示。

“愿景十分美好，但如何将人工智能落地和普及推广？这将是我们下一步亟待攻克的难题。”秦志刚说。

上一篇:AI 和教育到底谁在变革谁？

下一篇:2019数据标注行业的发展速度更加令人惊叹！人工智能外包公司、人工智能企业部门、第三方数据标注与审核公司三分市场

推荐文章

数据标注员人工智能背后的人工力量

数据标注员人工智能背后的人工力量“导语：机器学习必需数据标注” “目前我国已有庞大的数据加工队伍，仅北京就有一百多家专门从事数据标注的公司，全国从事这项工作的人大概超过千万，很多头部的互联网技术企业都有自己的数据标注公司。” 目前人工智能落地场景不断丰富，智能化应用正改变着我们的生活。而在AI产业高速发展的背后，数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话，“有多少智能，就有多少人工”。目前AI算法能学习的数据，必须通过人力逐一标注，这些人力为AI产业提供养料，构建了AI金字塔的基础。近日，支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”，这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式，计划旨在通过AI产业释放出的大量就业机会，在贫困地区培训相关职业人才、孵化社会企业，让贫困群众实现在家门口就业脱贫。这些从业者不需要背井离乡，她们可以受训上岗，为AI机器学习进行数据的分类和标注工作，让机器可以快速学习和认知文字、图片、视频等内容，成为一名“AI培育师”。机器学习必需数据标注 AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能，是数据智能的深度学习时代，可以说谁掌握了数据，谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释，当前的人工智能也被称作数据智能，在这个发展阶段，神经网络的层数越多，神经网络越深，需要用于训练的数据量越大，“比如目前人脸识别做得好的是中青年人脸识别系统，因为年轻人坐车住酒店，采集的数据量大，小孩和老年人数据相对较少。” 但同时，只有数据是没用的。对于深度学习来讲，数据只有加上标签才有意义，才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。王金桥介绍，从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框，比如检测目标是车，标注员就需要把一张图上的所有车都标出来，画框要完全卡住车的外接矩形，框得不准确机器就可能“学坏”。再比如人的姿态识别，就包括18个关键点，经过训练的标注员才能掌握这些关键点的标注，标注完成的数据也才能符合机器学习的标准。不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注，还有一些需要专业背景的标注，比如在医疗数据标注中，标注员需要做医疗图像的分割，把肿瘤区域标出来，类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字，需要的也是掌握那门语言的标注员。人工标注帮助AI快速落地随着人工智能的发展，数据的训练量非常大，数据标注公司应运而生，这些公司以网络方式运作，一个平台有产品经理和项目经理，接到一个任务就找人来做，大家通过网络群组报名后，由产品经理来培训，之后各自领取自己的任务，登录账号进行标注，检验经理校验合格后就付钱，不合格则需要重新修正。 “目前已经形成庞大的数据加工队伍，仅北京就有一百多家专门从事数据标注的公司，全国从事这项工作的人大概超过千万，很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说，“这个阶段数据对性能的贡献是最大的，数据越多越丰富、代表性越强、模型效果越好，算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利，但标注公司除外。” 据王金桥介绍，国外也是一样，无人零售、无人驾驶等都需要大量的人力，基于用工成本的问题，除了隐私数据之外，他们会把标注工作放在第三世界国家完成，马来西亚、泰国、印度等国家都有数据标注分公司。常见的报道中，数据标注总被描述为“血汗工厂”，这项工作和从业者被描述得廉价低质，人被重复性机械式的劳动异化。在王金桥的解释下，这一刻板印象也被逐渐打破。他直言，目前这种大量的人工标注是有价值的，因为理论上解决问题很难，但有了大量数据，设计深度学习网络，可以在特定场景特定应用中用数据训练神经网络，从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。 “比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中，无人机拍摄画面后，由人来检测，随着数据量增加，机器得到的训练越来越充分，机器慢慢可以自动检测，类似工作可以很大程度上由机器代劳。”王金桥说，目前人工智能的智能性虽然比较弱，但在各行各业都会带来改变，这是AI推动产业革命的机会。数据标注需求持续增加 “现在科研界研究的都是无监督、小样本的深度学习，通过三维合成数据，用虚实结合的数据生成方式来训练机器，尽量减少数据的采集和标注，让机器自主学习、自主进化。”王金桥说，但由于缺乏理论上的突破性技术，所以虽然技术增长速度很快，但整体水平还比较低，目前的深度学习还是依赖基于统计意义的大数据模型，这要求数据足够多、足够均衡、基本满足真实世界的分布。因此，标注这项工作会一直存在。但王金桥也表示，随着无监督、小样本深度学习的进步，重复性标注的工作量会越来越少。“机器的识别和人一样，人经过几千年的进化，用语言用文字记录和存储几千年的文明，所以看到桌子就知道是桌子，看到灵芝知道是灵芝。机器也需要不断理解更多的内容，有数据标签，它才能学习，才会有智能。数据的加工是一个长期存在的过程，由画框到基础词汇，慢慢形成自己的知识图谱，才能自我推理和思考。” 目前的数据标注公司基本采取“计件付费”的模式，标注员的待遇与任务量和难度直接相关，熟练工一天能标几千张图片，月收入最高过万。这项工作也有一定专业性，受过培训才知道怎么标、标得清楚，人也要认真细心。“每天产生的数据量太大了，数据量持续增加，对标注的需求也持续增加。”王金桥说。据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍，贵州万山仅仅是一个起点，未来项目的整体规划将聚焦贫困地区，寻找更多更适合发展“AI标注”产业的地区来落地。同时，也希望更多的人工智能企业加入，把AI标注的订单定向输送给贫困地区，为贫困群众提供更多就业机会。陈丽娟说。延伸阅读 AI数据服务发展新方向：细分化、多模态、专业化数据表明，当前AI发展出现了细分化、多模态以及专业化三大特征。相应的，新变化对于AI数据服务行业也形成了一定的影响与方向指引。当前AI已经进入技术落地阶段，应用场景涉及安防、金融、家居、交通等各大行业。而未来，在数据标注行业，从业者也将随着AI行业而一同进入细分市场追逐阶段。同时多模态也成为了AI技术发展的一个特征。所谓多模态，即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳，安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业，企业也需要适应AI技术发展的多模态特征，掌握对多维传感器融合的数据采集与标注。此外，尽管当前AI技术已经进入落地阶段，但是头部AI企业的落地场景相较传统行业的AI落地场景，在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向，所以数据服务企业也需要在这些前沿场景中不断探索，才能在行业竞争中获得长期发展。（来源：环球网）

数据标注是什么？机器感知世界的起点

推荐文章

热门文章