数据标注这份工作,不是你想做就能做

        想给Google标数据,你得先拿到医师资格证才行。

        同样的目前数据标注行业的发展还很混乱,没有相应的门槛就导致出各方面的问题,行业准入,门槛标准,人员素质,数据安全这些问题迫切需要加强规范。目前国内已经有郑州点我科技在做这方面的行动了,据点我科技方面透露目前他们申请的数据行业标注员培训证书的国家认证即将要审核下来,接下来公司会围绕着数据标注员的培训方面做工作。目前从项目方业务标注公司的调研来看标注员从业资格认证将从 行业发展、标注规范、业务标准、数据安全,保密规则等方面做培训以引导行业人员各方面素质的提高。

  在一排一排的电脑前,这里的年轻人们一边浏览照片和视频,一边标记他们看到的每样东西。有的是在为无人驾驶公司标注路上的汽车和红绿灯,有的是在为无人售货公司标注面包牛奶巧克力。

河南省郏县睿金科技公司总部的工人正在标注数据河南省郏县睿金科技公司总部的工人正在标注数据

  据《纽约时报》的报道,在位于中原腹地的河南河北,数据标注正在渐渐成为最新的劳动密集型行业。

  有多少人工,就有多少智能。目前的人工智能在被投喂了大量数据之后,才能认出三岁小孩子都能认出的东西,学会“黑猫白猫都是猫”。

当然,狸花猫也是猫当然,狸花猫也是猫

  然而,在人工成本更高以及对数据标注要求更复杂的硅谷,工程师们需要寻找其他出路来获取大规模的高质量有标记数据。

  众包

  在人工费用高昂的硅谷,工人的最低时薪约为13美元左右。对于很多创业公司和中小企业来说,雇工人标注数据实在承受不起。最经济的方法就是把大量任务拆分成小任务,再以低廉的价格分发到用户手中。

  其中最有名的在线众包平台就是亚马逊旗下的AmazonMechanicalTurk了。

  在MechanicalTurk上,发布者可以自行上传标注任务,用户只需要填写简单的个人信息就可以开始工作。为了搞清楚 MechanicalTurk到底是怎么工作的,硅星人也注册了一个账号。

  在 MechanicalTurk的开始页面,有各种奇奇怪怪的任务。这其中包括“标注厨房里的事物”,“找出电子邮件地址和发件人名字”,“给图片中的物体勾线”等等。

  每个任务中包含若干个被称为HIT(人类智能任务,HumanIntelligenceTask)的小任务,标注员每完成一个小任务可以获得相应的报酬。

  其中最便宜的一个是给图片中的建筑分类,判断这个小楼是属于拉丁裔、亚裔还是中东人。每完成一个可以获得1美分(约7分人民币)报酬。

而最贵的一个,是找一位中文母语者按要求录150句中文,可以获得6美元。而最贵的一个,是找一位中文母语者按要求录150句中文,可以获得6美元。

  除了这些简单易懂,点一下鼠标就能完成的任务,在 MechanicalTurk上还有更多高要求的标注工作。

  比如,有一个任务要求标注者看10秒钟视频,并用一句话描述视频里的内容。在描述时,不能出现拼写和语法错误,也不能加以主观臆断,在囊括所有重要内容的同时又不能描述太多不重要的细节。

  而实现这么一个高要求的任务,发布者只需要付出0.3美元赏金。

建议家长拿这个玩意儿训练小朋友写英语短句建议家长拿这个玩意儿训练小朋友写英语短句

  尽管任务复杂报酬低廉,MechanicalTurk上的任务还是供不应求。一些低要求的工作被放出来不到十秒,就被抢光了。

  截至2011年1月,MechanicalTurk上的注册工人数量已经达到了50万,在这些人的帮助下,有无数资金不充裕的人工智能研究得以实现。

  此外,在网站输入验证码时,其实我们也在顺便做数据标注,只不过得不到报酬罢了。

比如这种标出路牌的验证码比如这种标出路牌的验证码

  而其实, MechanicalTurk(直译为机械土耳其人)的名字早就剧透了人工智能训练的本质。

  1769年,初代 MechanicalTurk的发明者——匈牙利机械师沃尔夫冈·冯·肯佩伦制造了一个“能战败人类”的下棋木偶。这个“智能”木偶在欧洲和美洲几乎战无不胜,连拿破仑一世和本杰明·富兰克林都成了它的手下败将。然而直到1857年,《国际象棋月刊》才揭露,其实傀儡里坐了一个象棋国手。

而电脑屏幕背后的人,又和机器里坐着的象棋国手有什么区别呢?而电脑屏幕背后的人,又和机器里坐着的象棋国手有什么区别呢?

  和专业人士合作

  众包模式固然有种种优点,但它的缺点也是致命的。

  当我向一位Google工程师朋友提起 MechanicalTurk的时候,他表示“我们不敢用 Turk标注”。

  因为众包模式,通过 MechanicalTurk标注的数据良莠不齐,花钱标注已经花了大功夫,整理和“清洗”数据又要浪费很多时间。尤其对于很多专业领域来说,普通人根本无法完成数据标注。

比如这种,你能告诉我哪个是有病变的吗?比如这种,你能告诉我哪个是有病变的吗?

  2017年,GoogleAI公布了一项突破性研究成果:通过机器学习技术,AI能够从病人的视网膜眼底照片中自动诊断出潜在的病变情况,来提前发现糖尿病性视网膜病变,进行及时的治疗和预防,让患者保住视力。

  但想要教会AI什么是正常的眼底照片,什么是有潜在病变的眼底,这个过程并不容易。

  为了获得高质量的标注图片,真正让AI的诊断水平达到执业医师的同等标准,Google与印度和美国的眼科医生合作,创建了含有12万张图像的开发数据集,再由3到7名眼科医生联合评估图片中的病变。

  最终,共计54名医生从这些视网膜眼底照片素材中标记出超过88万个确诊症状。这些图片和标记全部被用来训练深度卷积神经网络,最终使得AI的诊断准确率逼近甚至超越了医生。

  在GoogleBrain参与另一个与寿命预测相关的项目的工程师StevenZhan告诉我,他们的数据集标注工作基本无法众包,都是交给医生来完成的。

  虽然在未来,AI很有可能发展到“自己教自己”这一步。但目前为止,大部分的数据标注工作都是由真人完成的。这个工作不像大家想象的那么简单,而是充满了复杂的判定和繁琐的重复。

  而随着人们对数据的需求越来越高,也有越来越多的人开始靠标注数据为生。

  皮尤研究中心预测,这种零碎的数据标注工作将在未来几年内成为美国经济的重要组成部分。在2016年,有大约5%的美国人通过 MechanicalTurk这样的在线标注平台赚钱——这个数量已经超过了优步司机。

  在可见的未来里,人类还将继续为人工智能打工。

  在中国如此,在美国也一样。

推荐文章

基于深度学习的现代计算机视觉模型,其性能主要取决于的大量已标注的可用训练数据集,例如 Open Images 数据集。然而,如何获得高质量的训练数据,成为计算机视觉发展的主要瓶颈。如在无人驾驶、机器人和图像搜索之类的应用中,使用的一些像素级目标预测任务,比如语义分割任务,格外的需要更大更好的数据集。事实上,传统的手工标注工具需要标注人仔细点击图像中每个对象的边界,用来划分图像中的目标,这项工作非常乏味:COCO+Stuff 数据集中标注单个图像就需要大概 19 分钟,而标记整个数据集甚至需要 53000 个小时!左图| COCO 数据集中的一张图片; 右图|左图的像素级语义分割结果。(来源:Image credit)谷歌的研究人员设计了一种机器学习驱动的工具,将在 2018 年 ACM 多媒体会议的“ Brave New Ideas ”环节展示,可以用于标注图像数据中每个目标的轮廓和背景,将其应用在标注分类数据上,可以让标记数据集的生成速度提高至传统方法的 3 倍。该方法被谷歌称之为流体标注(Fluid Annotation),从强语义分割模型的输出开始,人工标注者可以使用用户界面,通过机器辅助方法进行编辑修改。谷歌开发设计的界面允许标注者选择要改正的内容和顺序,让他们能集中精力去处理机器尚未理解和标注的图像。图 | 对 COCO 数据集中的图像使用流体标注的可视化界面。(来源:gamene)为更准确的对图像进行标注,谷歌首先通过预训练的语义分割模型(Mask-RCNN)来处理图像。这一过程会生成约 1000 个图像分割区域及其标签和置信度。置信度最高的分割区域用来初始化标签,呈现给标注者。然后标注者可以:(1)从机器生成的候选分类标签中为当前区域选择标签。(2)对机器未覆盖到的目标添加分割区域。机器会识别出最可能的预生成区域,标注者从中选择分割效果最好的一个。(3)删除现有分割区域。(4)改变重叠区域的深度顺序。Demo 链接:https://fluidann.appspot.com(PC 平台可用)图 |使用传统人工标注工具(中列)和流体标注工具(右列)在 COCO 数据集的三张图像上比较标注结果。虽然使用人工标注工具时,目标的边界一般更准确,但同一对象的标注有时会存在差异,其主要是因为人类标注者通常对某一确定目标的类别有不同意见。图片来源:sneaka(上),Dan Hurt(中),Melodie Mesiano(下)。在让图像标注变得更快、更容易这个问题上,流体标注工具的出现只是第一步。未来团队的目标是改进对目标边界的标注,进一步利用人工智能提升界面运行速度,最终可以处理以前无法识别的类别,让数据收集变得越来越高效和快捷。

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。