美国国家人工智能研究与发展战略计划


目 录

摘 要 ........................................................7

一、 简介 ....................................................... 9

(一) 《国家人工智能研究和发展战略计划》的目的 ............. 9

(二) 预期结果 ............................................ 11

(三) 利用人工智能推进国家优先事项的愿景 .................. 12

1、 促进经济发展 ....................................... 12

2、 改善教育机会和生活质量 ............................. 13

3、 增强国家和国土安全 ................................. 14

(四) 人工智能的现状 ...................................... 14

二、 研发战略 .................................................. 18

(一) 战略一:对人工智能研究进行长期投资 .................. 21

1、 提升基于数据发现知识的能力 ......................... 21

2、 增强人工智能系统的感知能力 ......................... 22

3、 了解人工智能的理论能力和局限性 ..................... 22

4、 研究通用人工智能 ................................... 23

5、 开发可扩展的人工智能系统 ........................... 24

6、 促进类人的人工智能研究 ............................. 24

7、 开发更强大和更可靠的机器人 ......................... 25

8、 推动人工智能的硬件升级 ............................. 26

9、 为改进的硬件创建人工智能 ........................... 26

(二) 战略二:开发有效的人类与人工智能协作方法 ............ 28

1、 寻找人类感知人工智能的新算法 ....................... 29

2、 开发增强人类能力的人工智能技术 ..................... 30

3、 开发可视化和人机界面技术 ........................... 30

4、 开发更高效的语言处理系统 ........................... 31

(三) 战略三:了解并解决人工智能的伦理、法律和社会影响 .... 33

1、 改进公平性、透明度和设计责任机制 ................... 33

2、 建立符合伦理的人工智能 ............................. 34

5 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

3、 设计符合伦理的人工智能架构 ......................... 34

(四) 战略四:确保人工智能系统的安全可靠 .................. 36

1、 提高可解释性和透明度 ............................... 36

2、 提高信任度 ......................................... 36

3、 增强可验证与可确认性 ............................... 37

4、 保护免受攻击 ....................................... 38

5、 实现长期的人工智能安全和优化 ....................... 38

(五) 战略五:开发用于人工智能培训及测试的公共数据集和环境 39

1、 开发满足多样化人工智能兴趣与应用的丰富数据集 ....... 39

2、 开放满足商业和公共利益的训练测试资源 ............... 40

3、 开发开源软件库和工具包 ............................. 40

(六) 战略六:制定标准和基准以测量和评估人工智能技术 ...... 42

1、 开发广泛应用的人工智能标准 ......................... 42

2、 制定人工智能技术的测试基准 ......................... 42

3、 增加可用的人工智能测试平台 ......................... 43

4、 促进人工智能社群参与标准和基准的制定 ............... 44

(七) 战略七:更好地了解国家人工智能人力需求 .............. 46

三、 建议 ...................................................... 47

1、 建议一 ............................................. 47

2、 建议二 ............................................. 47

附录:首字母缩写词 ............................................. 48

译者注 ......................................................... 50

6 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

摘 要

人工智能(AI)是一种具有巨大社会和经济效益的革新性技术。人工智能

有可能彻底改变我们的生活、工作、学习、发现和沟通的方式。人工智能研究

可以推进美国的国家优先任务,包括增加经济繁荣、改善教育机会和生活质

量,以及加强国家和国土安全。由于这些潜在的益处,美国政府已经对人工智

能研究投资多年。然而,与联邦政府感兴趣的任何重要技术一样,指导人工智

能领域联邦资助研发的总体方向时不仅具有巨大的机会,还必须考虑到一些注

意事项。

2016 年 5 月 3 日,政府宣布成立一个新的国家科学技术委员会(NSTC)机

器学习和人工智能小组委员会,以帮助协调联邦在人工智能领域的活动。

1

该小

组委员会于 2016 年 6 月 15 日,请求网络和信息技术研究和发展计划(NITRD)

小组委员会编写《国家人工智能研究和发展战略计划》(以下简称“AI 研发战

略计划”或《战略》)。之后成立了一个 NITRD 人工智能工作组,以确定人工

智能研发为联邦的战略重大计划,特别关注产业不可能解决的领域。

这项《战略》为联邦资助的人工智能研究制定了一系列目标,既包括政府

内部的研究,也包括联邦资助的政府外部研究,例如在学术界。这项研究的最

终目标是产生新的人工智能知识和技术,为社会提供一系列积极效益,同时尽

量减少负面影响。为实现这一目标,《战略》确定了联邦资助人工智能研究的

以下重大计划:

战略一:对人工智能研究进行长期投资。优先投资下一代人工智能,将促

进新发现和洞察力,同时使美国在人工智能领域保持世界领先地位。

战略二:开发有效的人类与人工智能协作方法。并非取代人类,大多数人

工智能系统将与人类合作以实现最佳性能。需要研究来创建人类和人工智能系

统之间的有效交互。

战略三:了解并解决人工智能的伦理、法律和社会影响。我们期望人工智

能技术根据我们持有人类同胞的正式和非正式规范表现。需要研究以了解人工

智能的伦理、法律和社会影响,并开发设计符合伦理、法律和社会目标的人工

智能系统的方法。

战略四:确保人工智能系统的安全可靠。在人工智能系统广泛使用之前,

7 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

需要保证系统将以受控、充分定义和充分理解的方式安全地操作。需要进一步

加强研究,以解决创建可靠、可信任和可信赖人工智能系统的挑战。

战略五:开发用于人工智能培训及测试的公共数据集和环境。训练数据集

和资源的深度、质量和准确性显著影响人工智能性能。研究人员需要开发高质

量的数据集和环境,并允许负责访问高质量数据集,以及测试和培训资源。

战略六:制定标准和基准以测量和评估人工智能技术。人工智能进步极其

重要的是指导和评估人工智能进展的标准、测试基准、测试台和社区参与。需

要进行额外的研究来开发广泛的评价技术。

战略七:更好地了解国家人工智能人力需求。人工智能的进步将需要一个

强大的人工智能研究人员社区。需要更好地了解人工智能当前和未来研发人员

需求,以帮助确保有足够的人工智能专家能够应对本计划中概述的战略研发领

域。

《战略》最后提出了两方面建议:

建议一:开发一个人工智能研发实施框架,以抓住科技机遇,并支持人工

智能研发投资的有效协调,与本计划的第一至六项战略保持一致。

建议二:研究创建和维持一个健全的人工智能研发队伍的国家愿景,与本

计划的战略第七项保持一致。

8 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

一、简介

(一)《国家人工智能研究和发展战略计划》的目的

1956 年,来自美国的计算机科学研究人员在新罕布什尔州的达特茅斯学院

会面,讨论一个新兴的计算分支,即人工智能或 AI 的开创性思想。他们想象了

一个世界,“机器使用语言,构成抽象和概念,解决现在人类的问题,并改善

自己”。

2

这次历史性会议为 AI 的政府和行业研究设置了几十年阶段,包括感

知、自动推理/规划、认知系统、机器学习、自然语言处理、机器人和相关领域

的进展。今天,这些研究进展已经产生影响我们日常生活的新兴经济部门,从

制图技术到语音辅助智能手机,到邮件传递的手写识别,到金融交易,到智能

物流,到垃圾邮件过滤,语言翻译,甚至更多。AI 进展也为精准医学、环境可

持续性、教育和公共福利等领域的社会福利带来巨大的益处。

3

过去 25 年来,AI 方法的显著增加在很大程度上得益于统计和概率方法的

采用,大量数据的可用性以及计算机处理能力的提高。在过去十年中,机器学

习的 AI 子领域,使计算机能够从经验或例子中学习,已经表现出越来越准确的

结果,引起了人们对 AI 近期前景更多的兴趣。虽然最近注意到例如深度学习等

统计方法的重要性,

4

但在其他各种领域 AI 也已经取得了影响深远的进展,例

如:感知、自然语言处理、形式逻辑、知识展示、机器人技术、控制理论、认

知系统架构、搜索和优化技术以及其他更多方面。

(注:深度学习是指使用多层神经网络的一系列方法的汇总,这些方法支持快速完成一度被认为无法

自动化完成的任务。)

AI 的最近成就对这些技术的最终方向和影响已经产生了重要问题:当前 AI

技术的重要科学和技术瓶颈是什么?新的 AI 进展将提供什么积极,需要的经济

和社会影响?如何继续安全和有益地使用 AI 技术?如何设计 AI 系统以符合伦

理、法律和社会原则?这些进步对 AI 研发人员的影响是什么?

AI 研发的情况变得越来越复杂。虽然政府过去和现在的投资造就了 AI 的

突破性方法,但其他部门也已成为 AI 的重要贡献者,包括广泛的行业和非营利

组织。这种投资环境提出了关于联邦投资在 AI 技术发展中适当作用的重要问

题。联邦对 AI 投资的正确优先事项是什么,特别是在行业不可能投资的领域和

时间框架方面?是否有机会进行产业和国际研发合作,推动美国的优先事项?

9 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

2015 年,美国政府对 AI 相关技术的未分类研发投资约为 11 亿美元。虽然

这些投资已经产生了重要的新科学和技术,但是仍有机会在联邦政府之间进一

步协调,使这些投资能够充分发挥潜力。

5

认识到 AI 的革新性影响,2016 年 5 月,白宫科学和技术政策办公室

(OSTP)宣布了一个新的跨部门工作组,以探讨 AI 的利益和风险。

6

OSTP 还宣

布了一系列四个研讨会, 举办于 2016 年 5 月至 7 月的一段时间,旨在促进 AI

的公众对话,并确定其所带来的挑战和机遇。研讨会的结果是伴随公共报告

《为人工智能的未来准备》的一部分,与该计划一起发布。

在 2016 年 6 月,新的 NSTC 机器学习和人工智能小组委员会 - 它被特许在

联邦政府、私营部门和国际上与 AI 的进展保持同步,并帮助协调联邦在 AI 的

活动,任命 NITRD 国家协调办公室(NCO)创建《国家人工智能研究和发展战略

计划》。小组委员会指示本计划应传达一系列明确的研发优先重点,以解决战

略研究目标,将联邦投资重点放在行业不太可能投资的领域,并解决扩大和维

持 AI 研发人才渠道的需求。

本 AI 研发战略计划的输入来自广泛的来源,包括联邦机构、AI 相关会议

的公开讨论、投资于 IT 相关研发的所有联邦机构的 OMB 数据呼叫、投资 IT 相

关研发,OSTP 信息请求 RFI),该信息请求向公众征询了有关美国如何为未来

的 AI

7

做出最佳准备的意见,以及 AI 公开出版物的信息。

该计划对 AI

8

的未来做出多个假想。首先,假设 AI 技术将继续发展至复杂

巧妙并无所不在,而这多亏了政府和行业对 AI 研发的投资。第二,本计划假设

AI 对社会的影响将继续增加,其中包括就业、教育、公共安全和国家安全,以

及对美国经济增长的影响。第三,假设行业对 AI 的投资将继续增加,因为最近

的商业成就已增加了研发投资的预期回报。同时,本计划假设一些重要的研究

领域不太可能获得来自行业的足够投资,因为它们受制于典型的公共物品投资

不足问题。最后,本计划假设对 AI 专业的需求将继续在行业、学术界和政府内

部增长,从而对公共和私人造成劳动力压力。

与 AI 研发战略计划相关的其他研发战略计划和方案包括《联邦大数据研究

和发展战略计划》、

9

《联邦网络安全研究和发展战略计划》、

10

《国家隐私研

究和发展战略》、

11

《国家纳米技术倡议战略计划》、

12

《国家战略计算计

划》、

13

《推进创新神经技术脑研究计划》

14

与《国家机器人方案》。

15

涉及某

10 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

些 AI 子领域的其他战略研发计划和战略框架处于发展阶段,其中包括视频和图

像分析、健康信息技术、机器人和智能系统。这些额外计划和框架将提供补助

和详细叙述本 AI 研发战略计划的协同建议。

(二)预期结果

本 AI 研发战略计划超越了近期的 AI 功能,着眼于 AI 对社会和世界的长期

变革影响。AI 的最新研究进展让 AI 的潜力更为乐观,使行业得到迅猛发展,

并让 AI 方法变得商业化。然而,虽然联邦政府可以利用 AI 的行业投资,但许

多应用领域和长期研究挑战不会存在明确的近期利润驱动因素,因此不可能完

全由行业进行解决。联邦政府是长期高风险研究计划以及近期发展工作的主要

资金来源,以实现部门或机构的具体要求,或解决私营企业并不从事的重要社

会问题。因此,联邦政府应该强调重大社会重要性领域内的 AI 投资,这不针对

消费市场的领域,如用于公共卫生、城市系统与智慧社区、社会福利、刑事司

法、环境可持续性和国家安全的 AI,以及加速 AI 知识和技术生成的长期研

究。

跨联邦政府的 AI 协调研发工作将增加这些技术的积极影响,并为决策者提

供用于解决与使用 AI 相关的复杂政策挑战的所需知识。此外,协调方法将有助

于美国利用 AI 技术的全部潜力来改善社会。

本 AI 研发战略计划定义了一个高级框架,该框架可用于确定 AI 的科学和

技术差距,并跟踪用于填补这些差距的联邦研发投资。AI 研发战略计划确定了

AI 短期和长期支持的战略优先事项,以此来解决重要的技术和社会挑战。然

而,AI 研发战略计划并未为个别联邦机构定义具体的研究议程。相反,其为行

政部门设定了目标,在这些目标中,各机构可以根据其任务、能力、权威和预

算来决定优先顺序,以便整个研究组合能与 AI 研发战略计划保持一致。

AI 研发战略计划也并未制定 AI 的研究或使用政策,亦未就 AI 对就业和经

济的潜在影响作更广泛的探讨。虽然这些议题对国家至关重要,但它们在题为

“人工智能的机遇和挑战,这次会有所不同吗?”

8

的经济顾问委员会报告中进

行了讨论。

AI 研发战略计划侧重于有助定义和推进确保 AI 责任、安全和权益用途的

政策的研发投资。

11 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

(三)利用人工智能推进国家优先事项的愿景

推动此 AI 研发战略计划是未来世界充满希望的愿景,AI 将给所有社会成

员带来显著益处。人工智能的进一步进展可以提升社会中几乎所有部门的福

利,

16

让国家优先事项获得进展,其中包括促进经济发展、改善生活质量和加强

国家安全。这种潜在利益的例子包括:

1、促进经济发展

新产品和服务可以创造新市场,并提高多个行业现有商品和服务的质量和

效率。通过专业决策系统创造更有效的物流和供应链。

17

通过基于视觉的驾驶员

辅助和自动/机器人系统,

18

能更有效地运输产品。通过用于控制制造工艺和调

度工作流程的新方法来改善制造业。

19

如何促进经济发展?

(1)制造业:技术进步能在制造业,包括整个工程产品生命周期内引发新

工业革命。更多使用机器人技术能使制造业回归陆上。

20

AI 可以通过更可靠的

需求预测、提升运营和供应链灵活性,以及对改变制造业营运的影响进行更好

的预测来加速生产能力。AI 可以创造更智能、更快、更便宜和更环保的生产流

程,这能提高工人的生产率、提高产品质量、降低成本并改善工人的健康和安

全。

21

机器学习算法可以改善制造流程的调度并减少库存要求。

22

消费者可以从

现时的商业级 3-D 打印中获利。

23

(2)物流:私营部门制造商和托运人可以使用 AI,通过适配调度和路线

来改进供应链管理。

24

通过自动调整天气、交通和意外事件的预期影响,让供应

链更加牢固难以中断。

25

(3)金融:工业和政府可以使用 AI 提供多种规模的异常金融风险早期检

测。

26

安全控制可以确保金融系统自动减少恶意行为的机会,例如市场操纵、欺

诈和异常交易。

27

他们可以进一步提高效率并降低波动性和交易成本,同时预防

系统性失效,例如定价泡沫和低估信用风险。

28

(4)交通:AI 可以增强所有交通方式,实质上影响所有类型的旅途的安

全。

29

它可以用于结构安全监测和基础设施资产管理,提高公众信任,降低维修

和重建成本。

30

AI 可用于乘客和货运车辆,从而通过增强情景意识来提高安全

性,并为司机和其他旅客提供实时路线信息。

31

AI 应用还可以改善网络级移动

12 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

13

性并减少整个系统的能源使用和运输相关的排放。

32

(5)农业:AI 系统可以创建通往可持续农业的途径,使农业产品的生

产、加工、储存、分配和消费更灵活。AI 和机器人能收集有关作物的特定场所

和时间数据,仅在它们需要的时间和地点才应用所需的投入(例如水、化学品

和化肥),并填补农业劳动力的紧迫缺口。

33

(6)营销:AI 方法能使商业实体更好地配合供应与需求,增加用来资助

进行中资助私营部门发展的税收。

34

其能预测和识别消费者需求

35

,使他们以更

低的成本获得更好的产品和服务。

(7)通信:AI 技术可以最大限度地有效利用带宽和信息存储和检索的自

动化。

36

AI 可以改进数字通信的过滤、搜索、语言翻译和摘要,积极影响商业

和我们的生活方式。

37

(8)科学和技术:AI 系统可以协助科学家和工程师阅读出版物和专利,

使理论与之前的观察值更一致,使用机器人系统和模拟、进行实验,并设计新

的设备和软件。

38

2、改善教育机会和生活质量

通过用于制定专有学习计划的虚拟导师来实现终身学习,以此根据每个人

的兴趣、能力和教育需求进行自我挑战和参与其中。通过为每个人定做和调整

的个性化健康信息,让人们能过上更健康和更积极的生活。智能家居和个人虚

拟助手可以节省人们的时间,并减少每日重复任务所损失的时间。

AI 将如何改善教育机会和社会福利?

(1)教育: AI-增强的学习型学校随处可见,通过其自动化辅导能衡量学

生的发展

16

。 AI 辅导员可补充面授教师,还可以因材施教。

16

AI 工具可以促

进终身学习并让所有社会成员获取新技能。

16

(2)医学:AI 能支持从大规模基因组研究(如全基因组关联研究,排序

研究)中识别出遗传风险的生物信息学系统,并预测新药物的安全性和有效

性。

39

AI 技术允许进行多维度的数据评估,以研究公共卫生问题,并为医疗诊

断和处方治疗提供决策支持系统。

40

AI 技术为个人提供药物定制;由此可提高

医疗效果、患者舒适度和减少浪费。

41

(3)法律:通过机器对法律个案史进行分析会变为普遍。

42

推荐文章

“数据标注”今天,那些人工智能背后“人工”正在回家
5到10年后,当人工智能全面普及,科技先驱和新一代商业巨子注定会被时代的聚光灯铭记。但今天,「甲子光年」却想说一个关于人工智能“从未被讲出”的故事,写一群时代大幕后的“隐形者”——标数据的人。智能时代滚滚巨轮之下,一批批用于“人脸识别”、“自动驾驶”、“自然语言处理”的标注好的数据,正是出自这些学历不高,每天对着电脑工作8到10小时的人手中——他们是“人工智能背后的人工”。「甲子光年」采访了多个数据标注服务商、数据标注工作室和数据标注者。据业内人士估计,中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近100万。他们中有职高学生,有尝试过40份工作的聋哑人,有从工地辗转而来的新生代农民工……他们源源不断地为人工智能的发展供应最重要的“数据燃料”——在现有的技术框架下,数据量越大,质量越好,算法模型就表现越好。可以说,数据决定着整个人工智能行业的发展态势。但标注工作本身是一个劳动密集型工种,收入并不高。随着技术的进一步发展,未来还有被取代的可能。许多数据标注者的父辈是参与了中国房地产奇迹的农民工。如今,父辈手里的铁铲变成了年轻人的鼠标、键盘,但和父辈一样,他们仍是边缘者。在这个除夕,他们也像父辈一样踏上了归乡的旅途,不仅是从城市回到乡村,也是从科技前线回到古老的火炉前。小志从贵阳坐了四小时的大巴回到山区家中,第一件事就是将钱塞到母亲手里;犇犇给父亲买了新的电动剃须刀;何军家在河南周口,打算把钱都存着娶媳妇,过年期间就要见几个相亲对象;小袁想再挣点钱后换一副助听器,现在这个他已戴了好多年,把他不断长大的耳蜗磨出了新新旧旧的伤……我们无法预判他们的命运,但选择讲出他们的故事。这些科技进步背后的“无名者”值得一次认真的注视。数据折叠人工智能的世界里,存在不为人知的“数据折叠”:一边是炫酷的科技、神奇的智能应用;一边是大量人工每天重复地生产机器学习的“食物”——标注好的数据。北京和贵阳,是数据标注世界里的两座“双子星”城市。北京聚集了大量人工智能公司;贵阳近年来着力发展“大数据战略”,已拥有相对完整的数据服务产业生态。2017年,仅北京中关村大数据产业规模就超过700亿元;贵阳2017年的大数据产业及其关联产业规模总量超过1500亿元。AI行业的总规模也在持续增加,根据麦肯锡2017年4月发布的一份报告,到2025年,AI应用的总市场可能达到1270亿美元。但标注数据的人,生活在这些巨额数字之外,拿着不高的工资,活动在“第二空间”。从三里屯驱车1小时,行驶30公里,就到了北京邮电大学宏福校区。这里有北邮和华腾硕博合办的电子商务培训班,学生总数300多人,高峰时期,有120多人参与数据标注的兼职项目。标注工作室占满了某栋教学楼二层的5个房间,150台电脑前坐着一群十八九岁的学生,正盯着电脑屏幕给图片拉框。他们流程化地操作鼠标——这些枯燥的工作,最终将用于热闹炫酷的无人驾驶项目。从做数据标注的教室窗口向外望,可以看到北邮的教一,那里有国际学院和计算机专业学生专用的机房。兼职标数据的培训班学员一个月的收入在2000元左右。如果全职做,人均工资约4000到5000元。而坐在教一的未来算法工程师,刚毕业时,起薪就可能达到30万元/年。BasicFinder旗下某数据工厂培训班学员参与的标注项目,采用了目前数据标注行业的主流模式之一——“外包”。某数据标注主管告诉「甲子光年」,AI数据标注的外包市场2011年开启,2015年真正开始,2016年下半年出现收缩,2017年又有了新一轮的爆发。外包盛行,是因为人工智能的发展需要大量人力对非结构的数据进行加工,以用于机器学习。而创业团队和巨头公司,为了集中精力研发或保持团队的高学历占比,很少完全自建数据标注团队。外包江湖门派众多、良莠不齐。从业者是这样打招呼的,“你是发包方还是外包方?”BAT、人工智能创业公司,学术团体,以及政府、银行等机构都可能成为发包方。BAT和人工智能公司需求最大,学术团体次之,政府、银行等传统机构的需求最小但有不断增长的趋势。某数据标注主管告诉「甲子光年」,他目前所接触到的上述三类业务需求的比例为7:2:1。某数据标注公司负责人透露,商汤、旷视这类大的人工智能公司,一年在数据上的支出有数千万。在“外包方”一端,有 “众包”和“工厂”两种模式。前者是把任务通过平台转接给网民,如“百度众包”、“京东众智”、“龙猫数据”;后者是自己经营团队,对整个流程进行控制,如贵阳梦动科技经营了一个500人的“数据工场”;BasicFinder与二十来家“数据工厂”有长期业务合作,少则几十人,多则两三百人。而在规范的机构之外,还游离着三五人到十几人规模不等的“小作坊”。许多机构在众包和自营工厂两方面都有涉足,众包平台上也有许多以团队为单位接单的“公会”。算法公司和人才多集中在北深杭等科技核心区域,而作为一个“劳动密集型”的中低收入行业,数据标注人员散落三四线城市。在距离贵阳市中心50公里的百鸟河数字小镇,有一个规模500人的“数据工场”,500名标注员中,近一半是附近一家扶贫高职“盛华职业学院”的学生。位于贵阳的“数据工场”他们很珍惜这个接近“白领”的兼职机会,1月能挣到1500元,经济上足以自立,省点还可以补贴家用,相比其他兼职选择:去餐厅辛苦端盘子或顶着风雨送外卖,数据标注相对轻松且体面。盛华学院大数据专业老师,同时也是贵阳梦动科技人工智能服务部总监的曹珊告诉「甲子光年」,她曾带着七个学生来北京某人工智能公司参加图像标注培训,通过后可留下来实习,但竞争激烈,五十九人只留十个,其中不少是北京本地学校的竞争者。最终,这7位来自贵阳的同学都留了下来。这些年轻的数据标注者,一头连着最前沿的科技,一头连着他们正在回去的家乡——那里往往是贫困、闭塞的所在,是科技的影响力最微弱的“第三空间”。小志是曹珊的学生,数据工厂腊月二十七才放假,小志坐了四小时大巴回到山区的家里,父母都务农,身体也不好,家里除了房子和田,唯一像样的财产是一头牛。进高职前,小志甚至都没碰过电脑,唯一会的操作是按开关键。电脑极大地打开了他的世界,但也让他一度沉迷游戏。最严重的时候,课不上了,数据不标了,觉也不睡了。曹珊为此和小志长谈了多次,目前小志的生活渐渐步入正轨,成了数据标注的小组长,手里带着十多个同学。但未来工作前途的不可预期,相对低的收入,较大的家庭负担,仍然是这些年轻人无法摆脱的苦恼。父辈的积累相当顽固,无论是财富、声望,还是贫穷和负担。父辈与我:从建筑工地到“智能工地”犇犇的人生在某种程度上,是对父亲的继承。他是西安某数据标注工作室的标注员,犇犇和他所在的工作室代表了数据标注行业的另一种典型模式“小作坊”。今年26岁的犇犇,先后做过厨师、进过工厂、推广过数种数字货币,但没有一份工作做得长久。犇犇父亲在他这个年纪时,是镇上棉纺站的一名工人。2005年棉纺站关门,下岗后的父亲去甘肃当过两年钻井工人,此后一直在做建筑。直到2017年12月初,犇犇还不知道数据标注这个工种。当时他接到灵的一个电话,邀请他一起做数据标注工作室。灵和犇犇曾一起推广数字货币,行情最好时,一笔交易能拿两万提成。但好好的币,玩着玩着没了,他们的这次合作铩羽而归。经历上一次失败后,灵又杀进数据标注领域,很快,她组建了15人规模的工作室,团队成员都跟犇犇一般大,氛围很好,他们常常一边标数据,一边聊天,时间并不难熬。最难受的是眼睛。从早上九点到晚上六点,工作内容就是盯着屏幕给图片拉框。拉框要求十分精细,偏差丝毫都不行。犇犇眼睛干涩时,会起身去楼道抽烟。犇犇所在的工作室眼睛的难受熬熬就能过去,更愁人的是工资不高。犇犇笑着说,入不敷出啊。他在供一套郑州的房子,每个月要还4700的房贷,而工资撑死就五六千。在犇犇看来,这份工作也没什么前途:“跟电子厂一样,多做多得。”犇犇的梦想是在全国开很多养老院,因为小时候的邻居是独居的七十岁老人,“没人养很可怜”。但开养老院对现在的犇犇来说太难了,他养自己都难。数据标注的晋升之路只有两条,每条都是窄门:要么进数据公司,爬完标注员-标注组长-数据经理-数据总监这个链条,层层打怪升级;要么进人工智能公司当数据标注员,然后凭借超人毅力自学技术曲线救国。前一条路不需要学历,但是千百人过独木桥,且依旧是在数据标注圈子里打转;后一条路能真正学到东西,但对学历有要求。犇犇只有高中学历,连高考都没参加。因为不愿再读书,他跟父亲起过很大争执,父亲深知打工有多苦。高三的那个暑假,犇犇也去体验了一把:跟着父亲去工地上搬砖。现在,他成了一名“智能工地”上的新型“搬砖者”。对科技、社会和自身的关系,如今犇犇有清醒的认知:“人工智能就像是一个孩子,标注好的图片就像是孩子的食物,而我们就是制作食物的人,最苦最累的我们做了,成名的只是那些制造孩子的人。”犇犇说。两代人的命运在此重叠。农民工一砖一瓦垒起了实体城市的高楼;数据标注者一框一线搭建起了算法的智能。前者是城市的边缘者,高楼起来了,他们仍是边缘者;后者是科技世界的边缘者,机器变聪明了,他们还是边缘者。犇犇会最终栖居在数据标注这份工作上吗?他给的答案是不确定的,他不知道这份工作是否不出几年就被取代,也不知道自己是否就此乖乖认命。中国有五千多万的农民工以建筑为生,到了五六十岁还在工地上忙碌。数据标注的市场才刚打开,「甲子光年」从从业者口中得知,截止2018年年初,以数据标注为生的全职标注员规模达近十万,这个数字未来会继续增长,未来将达数十万。数字标注也将成为新生代农民工的聚集地。野蛮生长,坑与机会并存相比聚光灯之下的人工智能科技公司,数据标注行业是个在暗处的行业,存在大量灰色地带。作为一个劳动密集型行业,进入门槛并不高,压低“成本”、“薄利多量”,就成了许多团队的竞争手段。许多公司招的标注员都是没有交五险一金的临时工。7、8万的启动资金,就可以在四五线小城组起一个“工作室”。AI公司也倾向压低成本——某数据标注公司主管告诉「甲子光年」,部分人工智能公司对数据标注的重视不够,过分压低预算,把项目外包给一些不靠谱的团队;这些团队做不完、做不了,又会把任务转包给另一些小团队,或重新找到大的数据标注公司,使质量和交期都无法保证。“低价竞争和行业不规范导致的层层外包是行业的噩梦。”京东众智平台的负责人李工告诉「甲子光年」。对小团队来说,外包直接折损了利润。做过室内装修的何军,在2017年底投入十万积蓄作为启动成本,在河南周口成立了一个40人团队的数据工作室。他2018年的最大计划,就是“争取接到一手项目”。“利润其实不高”,何军一边抖着腿,一边掰着手指头细细算账,“你看啊,一个拉框平均4分钱,一个员工一天能做大约4500个,一共180块。过关率90%,再除去审核的成本,再给每个标注员每天发110元左右的工资,平均下来工作室每天也就从每个人身上赚30块吧。”何军第一个月亏了本,第二个月勉强持平。“开年就去跑工商注册,然后一家家联系大公司,得接到一手项目,给员工的多发点工资,现在太低了。”何军说。小团队只能接二手甚至是好几手的项目,一手项目就像江湖传说,听过没见过。处境相似的赵聪也特别想接到一手项目。他是2017年10月入场的标注者,自己攒了三个人的团队兼职做数据标注。“我们的项目都是从小公司手里接的,连发包方的名字都不知道”,赵聪说,“利润很低”,三个人,三个月,三个项目,每人也就获得了一千块收入。大平台也反感层层外包,因为这严重扰乱行业秩序。“数据标注看起来门槛很低,但其实管理的门槛并不低。价格、产能、交期和质量都要兼顾。很多小团队,拿到的项目自己消化不了,最后又会找到我们。”BasicFinder的杜霖说。而针对一些特定的复杂任务,还需要进行足够的培训,有的培训期需要1到3个月。在理解客户需求、保证数据的多样性、随机性上,许多小团队也欠缺必要的能力。层层外包,对数据标注员的直接影响是:摊薄了收入,钱被中间环节分掉:一手的项目在谁手上,价格多高,会经历多少层级,每层有多少利润,都是谜。还有另一个角色在搅乱这趟浑水——代理人。代理人说白了就是拉项目跑活儿的人,关系户,是中国人情社会里长出的变量。一些小公司会高薪养代理人,以期打通关键节点。赵聪无奈地说,“靠关系吃饭的社会”,最末端的标注者最缺这种关系资源。杜霖认为,这个行业经历了早期的疯狂生长,最终一定会经历一番洗牌,变得更为规范化、透明化。届时质量会取代成本,成为需求方最优先考虑的变量:“人工智能公司的本质需求是能找到靠谱团队。大家最后都会明白,背着抱着一边沉,想省的钱都省不掉,要保证质量,就是一分钱一分货。 ”大浪淘沙,有两类机构会最终留下来:注重质量及服务的中小型数据标注公司,以及自有整套数据技术的平台。而犇犇、何军以及赵聪都有可能被行业清洗出去。还有5年,只有5年经营小工作室的何军已经开始紧张了,他听说算法升级后,将不再需要大量人工标注。由于对技术动向缺乏把握,他时常处于一种对未来的不安之中。杜霖则认为,至少在5年内,数据标注行业的增长空间还很大,数据标注的市场才刚打开,数据需求将紧随人工智能的大规模落地引来一波爆发式增长。首先,人工智能行业本身的发展,将进一步带动数据标注行业。目前能被建模量化的数据只占真实世界中的极少一部分。现有的数据标注业务主要集中在安防和自动驾驶领域,未来,随着AI深入更多垂直行业,新需求将不断出现。何军告诉「甲子光年」,前些天就出现了一个他没见过的标注内容,北航的学生找上门来,要对“积云”进行标注。杜霖也跟「甲子光年」分享,他们做过一个很有意思的标注项目——标注指甲区域,因为客户要做美甲机器人。其次,在现有的主流“有监督学习”的算法模型下,为了让算法有更高的准确率,数据不嫌多。Google的技术大牛Jeff Dean曾在一次公开课上展示一个海量数据的训练结果,如下图所示:横轴代表数据规模,纵轴代表准确率,蓝线是深度神经网络算法,绿线是传统训练方法。可以看到,蓝线的准确率和数据规模及质量持续成正比,并没有出现趋于平滑的拐点,这说明深度学习对数据有源源不断的需求。第三,从感知智能到认知智能的跨越,需要的数据维度会更大,这可能催生更精细的数据标注需求——如对一段对话数据的标注,不仅要知道对话内容、语义,可能还需要标注谈话者身份、情绪变化等。杜霖告诉「甲子光年」,人工智能公司的总支出中,目前有20%-30%用于数据,现阶段大陆市场数据采集及标注的规模保守估计有五十亿。一个参考是,新三板上市公司数据堂2016年的营收达到了9680万元人民币。京东众智平台的负责人李工对未来也很乐观,他认为,包括采集、标注、清洗等流程的数据市场未来将达上百亿。但这一切都是基于“有监督学习”这个大前提。行业的一个变量是,如果算法从“有监督学习”升级为无监督学习、强化学习或迁移学习,数据标注需求将大大减少。技术进步和跃升自有其规律,目前无监督学习等新算法仍然只是学界的探索,尚不能用在大规模的商业落地中。杜霖判断,新的革新性算法,至少5年内都不会出现。Novumind创始人吴韧此前接受「甲子光年」专访时则认为,深度学习加大数据就是人工智能的“way to go”,较难出现颠覆性的其他路径。5年,对公司来说是一个可以布局、掉头的“窗口期”。京东众智的李工告诉「甲子光年」,他们应对变化的策略是轻运营和“产品化”,着力研发加速AI落地速度的Pre-A.I.产品,并同时研发平台技术,做到“数据与流程分离架构”。数据标注本身不是他们的核心战略。BasicFinder也有类似布局,他们希望一手对接垂直行业里的数据生产者,一手对接上游的算法模型公司,共同推进AI的行业落地。但对数据标注者个体来说,5年后,也许就不得不面临再一次“失业”。到时,他们还能跟随时代的脚步腾挪转移吗?烫手的小袁小袁暂时想不到5年后那么长久的事。作为一名换过40份工作的聋哑人,他很庆幸,终于在“数据标注”领域成了“有用的人”。小袁是京东众智平台上“静公会”的聋哑人标注员,这个公会全部由听障人士组成。先后在餐厅、奶粉厂打工的小袁,总是因为无法避险、难以沟通被辞退:“我是烫手的小袁,因为我是聋哑人,所以我总是会烫到身边的人,被扔出很远很远。”相比过去的工作,数据标注的安全性更高,但也需要相互沟通。杜霖和残疾人群体深入交流后发现,聋哑人的世界里多为名词、缺乏形容词,比如要向他们解释这根线标得不“直”,就会比较费劲。由于输入信号会被挡掉一半,所以聋哑人接受速度只有健全人的三分之一到五分之一。健全人一周能搞定的培训,聋哑人要花三周或更久。但是他们的优点是专注、较劲儿、对视觉信号敏锐,数据标注行业对他们来说是机会。齐工是京东众智平台的培训讲师,几乎每天都去给小袁和工友讲课。齐工说,“想当把英雄,承担更多的责任。”齐工给聋哑人培训,左一为齐工,右一为小袁第一次,他们在工作中找到了归属感。像小袁这样的聋哑人在众智平台上还有一千多名,京东为他们成立专门的“静公会”,项目上优先照顾。全职每月有三四千收入,兼职每月有一千以上收入。杜霖手下也有三个残疾人团队,总共约80人。杜霖和京东负责人都表示,愿意为更多残疾人提供工作机会。在数据标注这份职业消失之前,这里是他们的家。其中的少数人,也许能通过转型为数据质检者,获得更长期的职业生涯。杜霖将公司取名为BasicFinder, 初衷是找到人工智能世界中最本真的一层关系——数据。新生代农民工和聋哑人,投身于数据标注这份工作中,也是希望找到最本真的生活。他们的要求很朴实,用犇犇的话来讲是:有一份稳定的工作,有一个幸福的家庭。但科技的发展,必将带来智能升级,也使整个行业更加规范化。这有点像武士的悖论:武士存在是为了消灭敌人,但是消灭了敌人武士也就失去了存在的理由,这个意义上,他们是在消灭自己。数据标注者的工作是帮机器更好的学习,促进人工智能行业的发展,而当行业发展到一定阶段,可能将不再需要如此众多的人工标注。其实整个人工智能的发展历程也有点像“孤独的武士”:人类发明了机器,到头来机器很可能取代大部分人工,甚至是“发明者”本人。但是,是武士,就必须去消灭敌人。对知识的无限追求既是人类的天赋也是人类的危险,它早已深藏于我们的基因之中,呼唤我们不断逼近未知边界。更高的智能一定会到来,认知差距将取代财富差距成为最显著的人群划分标准——那可能是一种更无形的“折叠”。未来,当我们真正享受智能带来的各种便捷时,历史会遗忘这些人工智能领域的“首批工人”吗?这可能是除了技术水平之外,判断那个未来是好是坏的更重要的标准。本文来自新浪网

热门文章

        对数据标注行业稍微有些了解的人都知道数据标注进入门槛低,适合很多人兼职也适合创业。        正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。        但是目前有个有趣的现象,那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑?为什么有些人会说数据标注就是个坑呢?        其实对与有上述问题认识的人我们认为,这些人多数都是有于对这个行业对自身条件的不了解,盲目的开始进入数据标注行业的。为什么我们会这样说呢?下面就给给大家来分析下到底有哪几方面的原因:        一、有相当一部分人是听了朋友或者网上消息说这行很火爆,好做,门槛低,也有一部分人了因此租办公室买电脑招人,然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业,更没有认真仔细得去调查分析,到底自己能不能做好一个项目,到底自己能不能有质有量按时交付的完成一个项目,到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。        二、数据标注项目虽然入门门槛低,但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目,还有一部分人由于自己对标注项目重视程度不足接到项目之后呢?不仔细认真的去阅读理解项目规则,更没有很好的对规则质检标准去培训员工,而对员工的要求主要看重每天的产出效率,从而导致接到手的项目做的质量很差,频繁的返工,有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少,最终的结果就是做好些个项目但基本都是赔钱。        三、虽然业内人都 说数据标注简单,但是标注项目他也是一个系统性的工程,一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平,质量管理能力,运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱,要赚钱不是那么简单的。        四、还有些工作室 、小公司因为对行业不够了解等他们做了一段时间后发现,自己团队经常会没有项目做,而自己团队接项目的业务能力又不具备,甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目,时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。        五、下来要说的就是一部分人人兼职人员由于认识不到位,对项目的规则质量要求 文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算,最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。        标注行业本身由于进入门槛低,做的人很行业内盲目打价格战,导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱,所以在这里也提醒大家做任何事都要谨慎而行。