揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

注:原文来自“腾讯科技”,本文转载来自36氪。


    大型科技公司对注释数据的工作往往保持沉默,因为他们面临着隐私维权人士对他们存储并与外部企业共享大量个人数据的担忧加剧


划重点

  • 在AI系统能够学习之前,必须有人标记提供给它的数据,这项工作对自动驾驶汽车、监控系统和自动化医疗等AI的创造至关重要。

  • 大型科技公司对注释数据的工作往往保持沉默,因为他们面临着隐私维权人士对他们存储并与外部企业共享大量个人数据的担忧加剧。

  • 数以万计的上班族和通常在家里工作的独立承包商,正通过Amazon Mechanical Turk等众包服务对数据进行注释和贴标签,每个标签只能赚几分钱。

8月17日消息,据外媒报道,在距离孟加拉湾约60公里远的印度布巴内斯瓦尔市中心,纳米塔·普拉丹(Namita Pradhan)坐在办公桌前,盯着世界另一端某家医院录制的视频。

视频显示了某人结肠的内部,普拉丹正通过视频寻找息肉,即大肠中可能导致癌症的小肿块,看起来有点儿像黏糊糊的痘痘。当她找到息肉时,会用她的电脑鼠标和键盘标记,在这个小凸起周围画个数字圆圈。普拉丹没有接受过专门的医学培训,但她正在帮助训练一个人工智能(AI)系统,这个系统最终可以完成医生的工作。

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

在一座小型办公楼的四楼,数十名印度年轻男女在办公桌前认真工作,普拉丹就是其中之一。他们接受的训练是对各种数字图像进行注释,从街道场景中的停车标志和行人,再到卫星照片中的工厂和油罐车,他们都能精确定位。

科技行业的大多数人都会告诉你,AI是他们行业的未来,这项技术正在快速发展,这要归功于一种叫做机器学习的东西。但科技公司的高管很少讨论其创建过程中的劳动密集型努力。AI正在向人类学习,而且是向很多人类学习。

但在AI系统能够学习之前,必须有人标记提供给它的数据。例如,人类必须精确定位息肉。这项工作对自动驾驶汽车、监控系统和自动化医疗等AI的创造至关重要。然而,科技公司对这项工作保持沉默,因为他们面临着隐私维权人士对他们存储并与外部企业共享大量个人数据的担忧加剧。

今年早些时候,资深科技编辑凯德·梅茨(Cade Metz)设法帮我们了解下AI培训的幕后场景,这是硅谷奇才们很少会同意的。梅茨在印度进行了一次漫步旅行,走访了五个办公室,那里的人们正在从事培训AI系统所需的、几乎没有终点的重复工作,所有这些工作都由名为iMerit的公司运营。

有像普拉丹女士这样的肠道测量师和区分咳嗽好坏的专家,有语言专家和识别街景标识的专业人士。什么是行人?那是双黄线还是虚白线?将来,机器人汽车需要知道其中的区别。

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

图2:iMerit员工必须为他们贴标签的工作学习不同寻常的技能,比如在人体肠道上发现有问题的息肉

梅茨所看到的场景看起来不太像我们想象中的未来,或者至少是你可能想象的自动化未来。办公室可以是呼叫中心或支付处理中心,其中一个位于加尔各答西部低收入居民区中央的一栋旧式公寓楼中,那里挤满了行人、汽车三轮车和街头小贩。在他参观过的布巴内斯瓦尔以及印度、尼泊尔、菲律宾、东非和美国的其他城市,数以万计的上班族都在致力于训练机器。

还有数万名工人,也就是通常在家里工作的独立承包商,也通过Amazon Mechanical Turk等众包服务对数据进行注释,这种服务让任何人都可以将数字任务分配给美国和其他国家的独立工人,工人们每个标签能挣几分钱。

总部设在印度的iMerit,为科技和汽车行业的许多大牌公司贴数据标签。该公司以保密协议为由,拒绝公开这些客户的名字。但该公司最近透露,其在全球九个办事处的2000多名员工正在为亚马逊的在线数据标签服务SageMaker Ground Truth做出贡献。之前,它还将微软列为客户。

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

图3:在印度加尔各答Metiabruz社区的iMerit办公室展示的艺术品

可以肯定的是,AI将来可能会掏空就业市场。但就目前而言,它正在创造收入相对较低的工作岗位。根据研究公司Cognilytica的数据,2018年数据标签市场价值超过5亿美元,到2023年将达到12亿美元。研究表明,这类工作占建设AI技术所花费时间的80%。

这项工作是剥削性的吗?这取决于你住在哪里,你在做什么。在印度,这是通往中产的门票。在美国新奥尔良,这是一份体面的工作。但对于作为独立承包商的人来说,这往往是一条“不归路”。

有些技能是必须学习的,比如在视频或医学扫描中发现疾病的迹象,或者在汽车或树的图像周围画数字套索时保持手部稳定。在某些情况下,当任务涉及医疗视频、色情或暴力图像时,工作就会变得可怕。

克里斯蒂·米兰德(Kristy Milland)说:“当你第一次看到这些东西时,会深深地感到不安。你不想回去工作,你可能不会回去工作了。”米兰德花了数年时间在Amazon Mechanical Turk上做数据标签工作,现在已经成为代表这项服务的工人的劳工维权人士。她称:“对于我们这些负担不起失去工作的人来说,你就只能继续忍受。”

在去印度之前,梅茨曾试着在众包服务上给图片贴上标签,在耐克标识周围画数字框,并识别“工作不安全”的图片。他当时显得非常笨拙。在开始工作之前,他必须通过测试,但却接连失败了三次。给图像贴上标签以便人们可以立即在网站上搜索零售商品,更不用说花时间将裸体女性和性玩具的粗糙图像识别为“NSFW”,并不完全是鼓舞人心的。

AI研究人员希望他们能够建立能从少量数据中学习的系统。但在可预见的未来,人类的劳动依然是必不可少的。微软的人类学家玛丽·格雷(Mary Gray)说:“这是个隐藏在技术之下、不断扩张的世界,很难将人类排除在循环之外。”

寺庙之城

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

图4:员工离开印度布巴内斯瓦尔的iMerit办公室,这家私人公司是由Radha和Dipak Basu创立的,他们都在硅谷工作过很长时间

布巴内斯瓦尔又被称为“寺庙之城”。古老的印度教圣地矗立在城市西南端的路边市场上,包括可以追溯到公元10世纪的巨型石塔。在市中心,许多街道没有铺设路面。奶牛和野狗在轻便摩托车、小汽车和卡车之间徘徊。

这座城市拥有83万人口,也是一个快速增长的在线劳动力中心。从寺庙出发大约15分钟的车程,在市中心附近一条铺好路面的路上,一座白色的四层建筑坐落在一堵石墙后面。里面有三个房间,房间里摆满了长长的桌子,每个都有自己的宽屏电脑显示屏。这就是普拉丹女士给视频贴标签的地方。

24岁的普拉丹在城外长大,并从当地一所大学获得了学位,在接受iMerit的工作之前,她在那里学习生物学和其他学科。这是她哥哥推荐的工作,他本人此前已经在公司工作了。普拉丹在工作日时住在她办公室附近的一家旅社,每个周末都乘公交车回家。

梅茨曾在今年1月份参观了普拉丹的办公室。许多身穿印度传统服装、带着长长金耳环的女士坐在长长的桌子旁,普拉丹女士穿着一件绿色的长袖衬衫、黑色的裤子和白色的系带鞋,为美国的一位客户注释视频。在通常每天8小时的工作中,这位害羞的女士观看了十几个结肠镜检查视频,不断地倒转视频,以便更近距离地查看各个帧。

每隔一段时间,普拉丹就会找到她想要的东西,她会用数字“包围盒”套住它。她画了数百个这样的包围盒,给息肉和其他疾病征兆贴上标签,比如血块和炎症。

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

图5:普拉丹(右二)在布巴内斯瓦尔的iMerit办公室和同事们一起工作

普拉丹的客户是美国的一家公司,iMerit不允许透露它的名字,它最终将把普拉丹的工作输入给AI系统,这样它就可以学会自己识别医疗状况。结肠镜的主人不一定知道视频的存在,普拉丹女士也不知道这些视频是从哪里来的,iMerit也是如此。

普拉丹女士在与一位非实习医生进行为期七天的在线视频通话时学会了这项任务。这位医生住在美国加州奥克兰,帮助培训许多iMerit办公室的工作人员。但是有些人质疑,是否应该由经验丰富的医生和医学生自己做这类标签。

威尔·康奈尔医学(Weill Cornell Medicine)和纽约长老会医院(NewYork-Presbyterian)的放射学家、初创公司MD.ai.的联合创始人乔治·施(George Shih)博士说,这项工作需要“有医学背景,并具备解剖学和病理学相关知识的人”。MD.ai.帮助企业为医疗保健构建AI。

在聊起普拉丹的工作时,她说那“很有趣”,但是很累。至于视频的图形化本质?她承认:“一开始很恶心,但后来你就习惯了。”

普拉丹标注的图像很可怕,但没有iMerit处理的其他图像那么可怕。他们的客户也在建立AI,可以识别和删除社交网络和其他在线服务上不想要的图片。这意味着需要标注色情、暴力和其他有害的图像。

这项工作可能会让从业者感到非常不安,iMerit试图限制他们审查这类内容的数量。在AI初创企业Clarifai负责数据注释工作的利兹·奥沙利文(Liz O‘Sullivan)表示,色情和暴力与更无害的图片混合在一起,那些贴上可怕标签的图片被隔离在不同的房间里,以保护其他员工。奥沙利文曾与iMerit在此类项目上密切合作。

奥沙利文说,其他标签公司将让员工对这些图片进行无限数量的注释。她指出:“如果这会导致创伤后应激障碍或者更糟情况,我不会感到惊讶。在道德上不受谴责的公司根本不愿意承担这样的责任。你必须用其他工作来填充色情和暴力,这样工人就不必看色情和斩首等内容。”

iMerit在一份声明中表示,它不会强迫员工查看色情或其他攻击性内容,只有在有助于改善监控系统的情况下才会承担这项工作。据一位公司高管透露,普拉丹和其他贴标员每月的收入在150美元到200美元之间,同时可为iMerit带来800美元到1000美元的收入。

按照美国的标准,普拉丹的工资低得不像话。但对于她和这些办公室的其他许多人来说,这大约与数据录入工作的平均工资差不多。尽管工作单调乏味,但它能帮助付得起公寓的费用。

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族图6:iMerit员工普拉森吉特·拜迪亚与妻子派克在西孟加拉邦工作,他很满意当前的工作

普拉森吉特·拜迪亚(Prasenjit Baidya)在距离印度东海岸、西孟加拉邦最大城市加尔各答约50公里的农场长大。他的父母和大家庭仍然住在他儿时的家中,那是19世纪初建造的砖房。他们在周围的田里种植水稻和向日葵,并在铺满屋顶的地毯上烘干种子。

他是家里第一个接受大学教育的人,其中包括电脑课。但是学校没有教他那么多知识,教室里平均25个学生才能分配到一台电脑。大学毕业后,他自学了计算机技能,当时他报名参加了名为Anudip的非营利组织举办的培训课程。这是一位朋友推荐的,每月的费用相当于5美元。

Anudip在印度各地开设英语和计算机课程,每年培训约22000人。这家机构直接将学生推荐给iMerit,它的创始人在2013年将iMerit作为姐妹业务建立起来。通过Anudip,拜迪亚在加尔各答的一家iMerit办公室找到了工作,他的妻子巴纳利·派克(Barnali Paik)也是如此,她在附近的一个村庄长大。

在过去的六年中,iMerit从Anudip雇佣了超过1600名学生。目前,该公司的员工总数约为2500人,其中超过80%的人来自月收入低于150美元的家庭。

iMerit成立于2012年,仍然是一家私人公司,它让员工执行数字任务,比如转录音频文件或识别照片中的物体。全球各地的企业付钱给公司,而且越来越多地,他们在协助AI训练方面的工作。与丈夫迪帕克(Dipak)共同创立了Anudip和iMerit的拉达·巴苏(Radha Basu)说:“我们想让低收入背景的人进入科技行业。”巴苏和迪帕克在硅谷与科技巨头思科、惠普等长期合作。

这些工人的平均年龄是24岁。像拜迪亚一样,他们中的大多数人来自农村。该公司最近在加尔各答西部以穆斯林为主的社区Metiabruz开设了一家新的办事处。在那里,它雇佣的大多是穆斯林妇女,她们的家人不愿意让她们离开这个熙熙攘攘的地区。他们没有被要求看色情图片或暴力材料。

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

图7:iMerit员工在加尔各答Metiabruz的办公室接受培训

起初,iMerit专注于简单的任务,为在线零售网站整理产品清单,审查社交媒体上的帖子,但它已经转移到了为AI提供支持的工作中。iMerit和类似公司的增长代表着从像Mechanical Turk这样的众包服务的转变。iMerit及其客户可以更好地控制员工的培训方式和工作完成方式。

拜迪亚现在是iMerit的经理,他负责为美国一家大公司为培训无人驾驶汽车所使用的街道场景贴上标签的工作。他的团队对数字照片以及激光雷达捕获的三维图像进行分析和标记。他们整天都在汽车、行人、停车标志和电线周围画边界框。

拜迪亚说这份工作可能会很乏味,但它给了他一种他本来可能不会拥有的生活。他和妻子最近在加尔各答买了一套公寓,步行就可到达她工作的iMerit办公室。拜迪亚说:“我的生活发生了梦幻般的变化,无论是从我的财务状况、个人经历以及英语技能等方面来看,都是如此。我获得了一个机会!”

听人们咳嗽

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

图8:在iMerit新奥尔良办公室工作的奥斯卡·卡贝萨斯(Oscar Cabezas)。当公司开始开发西班牙语数字助理时,他加入了公司

印度之行几周后,梅茨乘坐Uber穿过新奥尔良市中心。大约18个月前,iMerit搬进了Superdome街对面的一栋建筑。美国一家大科技公司需要一种为其家庭数字助理的西班牙语版本标记数据的方法。因此,它将数据发送到新奥尔良的新iMerit办公室。

2005年卡特里娜飓风过后,数百名建筑工人和他们的家人搬到新奥尔良帮助重建这座城市,很多人留了下来。许多会说西班牙语的人随这支新的员工队伍而来,公司开始雇用他们。

23岁的奥斯卡·卡贝萨斯(Oscar Cabezas)和母亲从哥伦比亚搬到了新奥尔良。他的继父在建筑工地找到了工作,大学毕业后,卡贝萨斯加入iMerit,开始开发西班牙语数字助理。

他注释了从推文到餐馆评论的所有内容,识别人物和地点,并找出含糊不清之处。例如,在危地马拉,“pisto”意味着钱,但在墨西哥,它意味着啤酒。他所:“每天都有新的项目。”

这个办公室的工作已扩展到其他领域,为希望将数据保留在美国境内的企业提供服务。出于法律和安全目的,有些项目必须留在美国。

42岁的格伦达·赫尔南德斯(Glenda Hernandez)出生在危地马拉,她说她怀念以前在数字助理项目上的工作。她喜欢读书,曾为大型出版公司在网上评论书籍,这样她就可以获得免费的副本,她很享受用西班牙语进行阅读带来的有偿阅读机会。

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

图9:格伦达·赫尔南德斯(Glenda Hernandez)是新奥尔良iMerit的工作人员,她已经学会了区分咳嗽好坏之间的区别

赫尔南德斯对图像标记或类似于对人们咳嗽的录音进行注释的项目不那么感兴趣,但这是建立AI的一种方式,可以通过电话识别疾病症状。她说:“整天听咳嗽有点儿让人觉得恶心!” 微软人类学家格雷说,这项工作很容易被误解。整天听人们咳嗽可能令人恶心,但这也是医生度过他们日子的方式。她说:“我们不认为这是苦差事。”

赫尔南德斯女士的工作是为了帮助医生做好他们的工作,或者也许有一天,取代他们。她以此为荣。在抱怨了这个项目后不久,她指了指办公室里的同事说:“我们都是咳嗽诊断大师。”

“我受够了”

揭秘AI训练内幕:帮助AI进化的除了专家,还有全球无数上班族

图10:多伦多的克里斯蒂·米兰德(Kristy Milland)在Amazon Mechanical Turk工作了14年,这是一家众包数据注释任务的公司,现在她试图改善从事这些工作的人的工作条件

推荐文章

如果说有一项技术彻底改变了 21 世纪,那一定是人工智能。Google 新掌门人 Sundar Pichai 曾说:“人工智能带给我们生活和工作的改变,甚至将超过火和电。”虽然噱头满满,但不可否认的是,人工智能正在翻天覆地的改变着人们的生活方式。以前只有在科幻小说中才能了解到的工具和生活方式正在人工智能的加持下,从各个角度渗透进我们的日常生活,并带动着技术进步、产业升级、推动市场经济整体快速发展。因此,正确理解人工智能的概念就变得非常重要。本文将帮助你理解人工智能的定义、阶段、类型以及研究领域。人工智能的定义1956 年,John McCarthy(1927~2011)在达特茅斯会议上提出了“人工智能 (artificial intelligence,AI)”一词。他将人工智能定义为:“制造智能机器的科学与工程。”‘The science and engineering of making intelligent machines.’人工智能也可定义为能够执行需要人类智能的任务的计算机系统的开发,如制定决策、检测对象、解决复杂问题等等。  人工智能的阶段很多文章都认为,强人工智能(Artificial General Intelligence)、弱人工智能(Artificial Narrow Intelligence)以及超人工智能(Artificial Super Intelligence)是不同类型的人工智能。其实更确切地说,它们是人工智能的三个阶段。弱人工智能(ANI)弱人工智能,又称为狭义人工智能。在这一阶段,机器并不具备任何思维能力,只是执行一组预定义的功能,如语音识别、图像识别等,是擅长单个方面的人工智能,类似高级仿生学。它们只为解决某一特定具体的任务而存在,大多是统计数据,从中归纳出模型。比如, AlphaGo 只会下围棋,并不能执行其他任务。  弱人工智能的例子包括 Siri、Alexa、自动驾驶汽车、AlphaGo、人形机器人 Sophia 等。到目前为止,几乎所有基于人工智能的系统都属于弱人工智能。强人工智能(AGI)强人工智能,又称为通用人工智能。不同于弱人工智能,强人工智能可以像人类一样应对不同层面的问题,而不仅仅只是执行一组预定义的功能。不仅如此,强人工智能还具有自我学习、理解复杂理念等多种能力。也正如此,强人工智能的开发比弱人工智能要困难得多。事实上,人工智能国际主流学界所持的目标也仅局限于弱人工智能。目前很少有人进行强人工智能的研究,也尚未形成相应的成果。  强人工智能还被许多科学家视为对人类生存的威胁, Stephen Hawking 警告称:“完全人工智能(Full Artificial Intelligence)的发展可能意味着人类文明的终结……人工智能一旦脱离束缚,会不断加速重新设计自身。而人类由于受到生物进化的时间限制,无法与之竞争,很可能会被取代。”超人工智能(ASI)当弱人工智能已经大部分实现,强人工智能正在通过深度学习不断逼近之时,超人工智能的概念呼之欲出。在这一阶段,计算机的能力将超越人类。目前,强人工能智能是电影和科幻小说中描述的一种假想情景:机器已经接管世界。  “人工智能(我指的不是狭义的人工智能)的发展速度快得令人难以置信。除非你能够直接接触到 DeepMind 这样的组织,否则你根本不会知道人工智能的增长速度有多快——它正以接近指数级的速度增长。在五年内(最多十年)将存在发生危险事件的风险。"——Elon Musk人工智能的类型当有人让你解释不同类型的人工智能系统时,你必须根据它们的功能进行分类。密歇根州立大学 Arend Hintze 将人工智能分为以下几种类型:单一反应型、有限记忆型、具有心智型以及自我意识型。单一反应型(Reactive Machine AI)这种类型的人工智能是最基本的人工智能系统,它仅基于当前数据运行的机器,只考虑当前情况。也就是说,反应型机器只能进行反应,它既没有记忆能力,也无法利用过去的经验来制定现在的决策。  反应型机器的一个典型例子就是著名的 IBM 国际象棋程序 Deep Blue 。1997 年 5 月,它以 3.5:2.5 的战绩击败了世界冠军 Garry Kasparov,成为首个在标准比赛时限内击败国际象棋世界冠军的计算机系统。Deep Blue 看似拥有人的智慧,实际上,它只关注棋盘上的现状,并在可能的走法中作出决策。除了遵守重复棋局不能连续出现三次的规定外,和经验丰富的人类不同,它对过去并没有任何概念。目前的人工智能,要么对世界没有概念,要么只对其执行的特定任务有极其有限、具体的概念。Deep Blue 的创新之处在于,它放弃了拓宽计算机可能考虑的棋路范围的这种思路。相反,开发人员找到了一种方法,让它缩小自己的“视角”,根据它对某些走法的结果进行评估,停止追求一些可能的走法。类似地,AlphaGo 也无法评估所有的走法,但它采用了比 Deep Blue 更为复杂的方法:使用神经网络来评估棋局的走势。这种类型的人工智能无法在专业领域之外发挥作用,而且容易被愚弄。它们无法通过交互的方式成为世界的组成部分。很显然,它们只是最基本的人工智能系统,并不符合我们对人工智能系统的未来预期,即能够与人类展开真正的互动,甚至对周围的环境作出真实的反应。有限记忆型(Limited Memory AI)有限的记忆,顾名思义,指人工智能可以通过研究以往的数据作出明智的决策。这种类型的人工智能具有短暂或临时的记忆,可以用来存储过去的经验并评估未来的行为。  自动驾驶汽车就是这种类型的人工智能,它利用最近收集的数据作出即时决定。例如,使用传感器识别过马路的行人、陡峭的道路以及交通信号等,从而作出更好的驾驶决策,这有助于防止交通事故的发生。然而,自动驾驶汽车的历史信息存在的时间很短暂,无法像经验丰富的人类驾驶员那样将其存储在“经验库”中。这种类型的人工智能,并不能构建全面的“表现”(representations),它并不能记住自己的经验,并学会如何应对新的情况。具有心智型(Theory Of Mind AI)心智理论,心理学术语,是人类能够理解自身及周围人的心理状态的能力。这一理论来源于哲学,进入心理学领域后,慢慢成为认知心理学与神经心理学的研究重心之一。心智理论是人类社会形成的关键,通过这一理论,人们可以更好地理解社交、互动的内在动力。试想,如果人类不能理解彼此的动机和意图,那么,相互间的沟通、合作就会变得异常困难,甚至毫无可能。  这种类型的人工智能较前两种更为先进,它在心理学中扮演着重要的角色,主要体现在对机器“情商”的开发上。如果人工智能系统真的能够与人类并肩行走,它们就必须能够明白,每个人都有思想和感受,理解人类预期,并由此调整自身行为,这正是我们目前的人工智能与未来的人工智能之间的重要差异。自我意识型(Self-aware AI)这是人工智能发展的最后一步:构建一套能够形成自我表征的系统。像 Elon Musk 和 Stephen Hawkings 这样的天才一直警告我们警惕人工智能的进化。让我们祈祷,我们永远不会达到这种人工智能的状态。因为,在这种状态下,机器将拥有自己的意识,它能够意识到自我,知道自己的内部状态,还可以预测他人的感受。当前,具有自我意识的人工智能离我们还有很远的距离。然而在未来,到达超人工智能的阶段仍存在可能。  人工智能的研究领域人工智能可以通过以下技术解决现实问题:机器学习深度学习自然语言处理机器人模糊逻辑专家系统  机器学习机器学习是一门借助机器解释、处理和分析数据以解决实际问题的科学。它的根源可以追溯到 1952 年就职于 IBM 的 Arthur Samuel(被誉为“机器学习之父”)设计的一款西洋跳棋程序。机器学习有三种类型,分别为监督式学习、无监督式学习和强化学习。毫无疑问,机器学习有助于人类克服知识和常识方面的瓶颈,而我们认为这些瓶颈会阻碍人类水平的人工智能的发展,因此许多人将机器学习视为人工智能的梦想。想了解有关机器学习的更多信息,你可以浏览以下博客:Machine Learning Tutorial for BeginnersWhat is Machine Learning? Machine Learning For Beginners深度学习深度学习是在高维数据上实现神经网络以获得洞察力并形成解决方案的过程。深度学习是机器学习的一个高级领域,可以用于解决更高级的问题,它是 Facebook、自动驾驶汽车、Siri、ALexa 等虚拟助手人脸认证算法背后的逻辑。想了解有关深度学习的更多信息,你可以浏览以下博客:What is Deep Learning? Getting Started With Deep LearningDeep Learning Tutorial: Artificial Intelligence Using Deep Learning自然语言处理自然语言处理是一门从人类自然语言中提取洞察力,以便与机器交流并发展业务的科学。它也是人工智能中最古老、研究最多、要求最高的领域之一。开发智能系统的任何尝试,最终似乎都要解决一个问题,即使用何种形式的标准进行交流。例如,比起使用图形系统或基于数据系统的交流,语言交流通常是首选。20 世纪四五十年代,人们使用有限自动机、形式语法和概率建立了自然语言理解的基础。但是,20 世纪五六十年代,早期使用机器翻译语言的尝试被实践证明是徒劳无功的。20 世纪 70 年代,当时的潮流趋于使用符号方法和随机方法。进入 21 世纪后,随着机器学习的兴起,自然语言处理迎来新的突破,并推动了随机过程、机器学习、信息提取和问答等现有方法的应用。比如,Twitter 使用自然语言处理技术来过滤推文中的恐怖主义的语言,Amazon 使用自然语言处理了解客户评论并改善用户体验。机器人人工智能机器人是在现实环境中行动的人工智能体,通过采取负责任的行动来产生结果。这一领域在计

热门文章

简单讲:互联网数据标注员是借助电脑或者移动设备对一些原始的数据进行处理,生产出满足AI公司机器学习需要数据的一群人。按照数据处理对象的不同,工作内容也会有差别,标注员的工作内容可以分为:分类;框选;注释;标记。按照所处公司的不同,标注员的工作方式也会有差别:有的人工智能公司处于对数据安全性考虑会自建标注团队,在这些公司工作的标注员可以保证自己工作内容不会出现太大变动;但一些服务于人工智能公司非专业外包公司标注员的工作则是项目制的,一个项目忙完紧接着做另一个项目,这样工作内容连续性较差,对一种类型的项目经验也不会积累的太多。就目前来说,人工智能还处于人工增长阶段,机器依然需要大量的数据进行训练,测试。标注员在当下也会一直存在,而且从业群体会越来越多,所以暂时不用担心这份职业会不会短期消失。就标注员从业来说,建议选择人工智能公司和专业的数据公司,这样可以保证自己在一个方向上了解的足够深入。就职场晋升来说,以牛牛数据为例:标注员——项目经理——项目总监——数据运营总监。首先谈谈什么是数据标注。数据标注有许多类型,如分类、画框、注释、标记等等,我们会在下面详谈。要理解数据标注,得先理解AI其实是部分替代人的认知功能。回想一下我们是如何学习的,例如我们学习认识苹果,那么就需要有人拿着一个苹果到你面前告诉你,这是一个苹果。然后以后你遇到了苹果,你才知道这玩意儿叫做“苹果”。类比机器学习,我们要教他认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个啥玩意的。我们得先有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张苹果的图片,它就能认出来了。这边可以顺带提一下训练集和测试集的概念。训练集和测试集都是标注过的数据,还是以苹果为例子,假设我们有1000张标注着“苹果”的图片,那么我们可以拿900涨作为训练集,100张作为测试集。机器从900张苹果的图片中学习得到一个模型,然后我们将剩下的100张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。想想我们上学的时候,考试的内容总是不会和我们平时的作业一样,也只有这样才能测试出学习的真正效果,这样就不难理解为什么要划分一个测试集了。我们知道机器学习分为有监督学习和无监督学习。无监督学习的效果是不可控的,常常是被用来做探索性的实验。而在实际产品应用中,通常使用的是有监督学习。有监督的机器学习就需要有标注的数据来作为先验经验。在进行数据标注之前,我们首先要对数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。具体的数据要求可以和算法人员确认。二、常见的几种数据标注类型1.分类标注:分类标注,就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。<img src="https://pic2.zhimg.com/50/v2-df93dc0a7e8a5fe387dc3774748b5f05_hd.jpg" data-caption="" data-size="normal" data-rawwidth="700" data-rawheight="400" class="origin_image zh-lightbox-thumb" width="700" data-original="https://pic2.zhimg.com/v2-df93dc0a7e8a5fe387dc3774748b5f05_r.jpg">适用:文本、图像、语音、视频应用:脸龄识别,情绪识别,性别识别2.标框标注:机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。行人识别,如下图。<img src="https://pic2.zhimg.com/50/v2-7824903d6d840e2bb08d96b5c2fa5874_hd.jpg" data-caption="" data-size="normal" data-rawwidth="591" data-rawheight="398" class="origin_image zh-lightbox-thumb" width="591" data-original="https://pic2.zhimg.com/v2-7824903d6d840e2bb08d96b5c2fa5874_r.jpg">适用:图像应用:人脸识别,物品识别3.区域标注:相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。<img src="https://pic3.zhimg.com/50/v2-4bc1dd2278182acf94fc426d7e6f2dc1_hd.jpg" data-caption="" data-size="normal" data-rawwidth="601" data-rawheight="377" class="origin_image zh-lightbox-thumb" width="601" data-original="https://pic3.zhimg.com/v2-4bc1dd2278182acf94fc426d7e6f2dc1_r.jpg">适用:图像应用:自动驾驶4.描点标注:一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。<img src="https://pic4.zhimg.com/50/v2-5e24f394516c75e45942c37ba0da85c0_hd.jpg" data-caption="" data-size="normal" data-rawwidth="583" data-rawheight="387" class="origin_image zh-lightbox-thumb" width="583" data-original="https://pic4.zhimg.com/v2-5e24f394516c75e45942c37ba0da85c0_r.jpg">适用:图像应用:人脸识别、骨骼识别5.其他标注:标注的类型除了上面几种常见,还有很多个性化的。根据不同的需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,这时候的标注严格上就不属于上面的任何一种了。(或则你把它归为分类也是可以的,只是标注主要观点就没有这么客观的标准,如果是标注苹果估计大多数人标注的结果都差不多。)三、有什么发展前途?数据标注员可以说是AI消灭了一部分工作又创造出来的一种工作。在未来AI发展良好的前提下,数据的缺口一定是巨大的。可以预见3-5年内数据标注员的需求会一直存在。至于发展,其实所谓一些熟能生巧的工作,都是有被替代掉的风险的。深度学习解决的一件事情就是熟能生巧。在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你标注的数据进行学习,想想还是有点成就感的。数据标注可以说是AI的入门级岗位,未来可转向其他AI岗位。如项目实施顾问等,这就要求更多的工作技能,需要再工作中积累。作者:跹尘链接:https://www.zhihu.com/question/30654399/answer/264828926来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。