美国国家人工智能研究与发展战略计划


目 录

摘 要 ........................................................7

一、 简介 ....................................................... 9

(一) 《国家人工智能研究和发展战略计划》的目的 ............. 9

(二) 预期结果 ............................................ 11

(三) 利用人工智能推进国家优先事项的愿景 .................. 12

1、 促进经济发展 ....................................... 12

2、 改善教育机会和生活质量 ............................. 13

3、 增强国家和国土安全 ................................. 14

(四) 人工智能的现状 ...................................... 14

二、 研发战略 .................................................. 18

(一) 战略一:对人工智能研究进行长期投资 .................. 21

1、 提升基于数据发现知识的能力 ......................... 21

2、 增强人工智能系统的感知能力 ......................... 22

3、 了解人工智能的理论能力和局限性 ..................... 22

4、 研究通用人工智能 ................................... 23

5、 开发可扩展的人工智能系统 ........................... 24

6、 促进类人的人工智能研究 ............................. 24

7、 开发更强大和更可靠的机器人 ......................... 25

8、 推动人工智能的硬件升级 ............................. 26

9、 为改进的硬件创建人工智能 ........................... 26

(二) 战略二:开发有效的人类与人工智能协作方法 ............ 28

1、 寻找人类感知人工智能的新算法 ....................... 29

2、 开发增强人类能力的人工智能技术 ..................... 30

3、 开发可视化和人机界面技术 ........................... 30

4、 开发更高效的语言处理系统 ........................... 31

(三) 战略三:了解并解决人工智能的伦理、法律和社会影响 .... 33

1、 改进公平性、透明度和设计责任机制 ................... 33

2、 建立符合伦理的人工智能 ............................. 34

5 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

3、 设计符合伦理的人工智能架构 ......................... 34

(四) 战略四:确保人工智能系统的安全可靠 .................. 36

1、 提高可解释性和透明度 ............................... 36

2、 提高信任度 ......................................... 36

3、 增强可验证与可确认性 ............................... 37

4、 保护免受攻击 ....................................... 38

5、 实现长期的人工智能安全和优化 ....................... 38

(五) 战略五:开发用于人工智能培训及测试的公共数据集和环境 39

1、 开发满足多样化人工智能兴趣与应用的丰富数据集 ....... 39

2、 开放满足商业和公共利益的训练测试资源 ............... 40

3、 开发开源软件库和工具包 ............................. 40

(六) 战略六:制定标准和基准以测量和评估人工智能技术 ...... 42

1、 开发广泛应用的人工智能标准 ......................... 42

2、 制定人工智能技术的测试基准 ......................... 42

3、 增加可用的人工智能测试平台 ......................... 43

4、 促进人工智能社群参与标准和基准的制定 ............... 44

(七) 战略七:更好地了解国家人工智能人力需求 .............. 46

三、 建议 ...................................................... 47

1、 建议一 ............................................. 47

2、 建议二 ............................................. 47

附录:首字母缩写词 ............................................. 48

译者注 ......................................................... 50

6 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

摘 要

人工智能(AI)是一种具有巨大社会和经济效益的革新性技术。人工智能

有可能彻底改变我们的生活、工作、学习、发现和沟通的方式。人工智能研究

可以推进美国的国家优先任务,包括增加经济繁荣、改善教育机会和生活质

量,以及加强国家和国土安全。由于这些潜在的益处,美国政府已经对人工智

能研究投资多年。然而,与联邦政府感兴趣的任何重要技术一样,指导人工智

能领域联邦资助研发的总体方向时不仅具有巨大的机会,还必须考虑到一些注

意事项。

2016 年 5 月 3 日,政府宣布成立一个新的国家科学技术委员会(NSTC)机

器学习和人工智能小组委员会,以帮助协调联邦在人工智能领域的活动。

1

该小

组委员会于 2016 年 6 月 15 日,请求网络和信息技术研究和发展计划(NITRD)

小组委员会编写《国家人工智能研究和发展战略计划》(以下简称“AI 研发战

略计划”或《战略》)。之后成立了一个 NITRD 人工智能工作组,以确定人工

智能研发为联邦的战略重大计划,特别关注产业不可能解决的领域。

这项《战略》为联邦资助的人工智能研究制定了一系列目标,既包括政府

内部的研究,也包括联邦资助的政府外部研究,例如在学术界。这项研究的最

终目标是产生新的人工智能知识和技术,为社会提供一系列积极效益,同时尽

量减少负面影响。为实现这一目标,《战略》确定了联邦资助人工智能研究的

以下重大计划:

战略一:对人工智能研究进行长期投资。优先投资下一代人工智能,将促

进新发现和洞察力,同时使美国在人工智能领域保持世界领先地位。

战略二:开发有效的人类与人工智能协作方法。并非取代人类,大多数人

工智能系统将与人类合作以实现最佳性能。需要研究来创建人类和人工智能系

统之间的有效交互。

战略三:了解并解决人工智能的伦理、法律和社会影响。我们期望人工智

能技术根据我们持有人类同胞的正式和非正式规范表现。需要研究以了解人工

智能的伦理、法律和社会影响,并开发设计符合伦理、法律和社会目标的人工

智能系统的方法。

战略四:确保人工智能系统的安全可靠。在人工智能系统广泛使用之前,

7 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

需要保证系统将以受控、充分定义和充分理解的方式安全地操作。需要进一步

加强研究,以解决创建可靠、可信任和可信赖人工智能系统的挑战。

战略五:开发用于人工智能培训及测试的公共数据集和环境。训练数据集

和资源的深度、质量和准确性显著影响人工智能性能。研究人员需要开发高质

量的数据集和环境,并允许负责访问高质量数据集,以及测试和培训资源。

战略六:制定标准和基准以测量和评估人工智能技术。人工智能进步极其

重要的是指导和评估人工智能进展的标准、测试基准、测试台和社区参与。需

要进行额外的研究来开发广泛的评价技术。

战略七:更好地了解国家人工智能人力需求。人工智能的进步将需要一个

强大的人工智能研究人员社区。需要更好地了解人工智能当前和未来研发人员

需求,以帮助确保有足够的人工智能专家能够应对本计划中概述的战略研发领

域。

《战略》最后提出了两方面建议:

建议一:开发一个人工智能研发实施框架,以抓住科技机遇,并支持人工

智能研发投资的有效协调,与本计划的第一至六项战略保持一致。

建议二:研究创建和维持一个健全的人工智能研发队伍的国家愿景,与本

计划的战略第七项保持一致。

8 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

一、简介

(一)《国家人工智能研究和发展战略计划》的目的

1956 年,来自美国的计算机科学研究人员在新罕布什尔州的达特茅斯学院

会面,讨论一个新兴的计算分支,即人工智能或 AI 的开创性思想。他们想象了

一个世界,“机器使用语言,构成抽象和概念,解决现在人类的问题,并改善

自己”。

2

这次历史性会议为 AI 的政府和行业研究设置了几十年阶段,包括感

知、自动推理/规划、认知系统、机器学习、自然语言处理、机器人和相关领域

的进展。今天,这些研究进展已经产生影响我们日常生活的新兴经济部门,从

制图技术到语音辅助智能手机,到邮件传递的手写识别,到金融交易,到智能

物流,到垃圾邮件过滤,语言翻译,甚至更多。AI 进展也为精准医学、环境可

持续性、教育和公共福利等领域的社会福利带来巨大的益处。

3

过去 25 年来,AI 方法的显著增加在很大程度上得益于统计和概率方法的

采用,大量数据的可用性以及计算机处理能力的提高。在过去十年中,机器学

习的 AI 子领域,使计算机能够从经验或例子中学习,已经表现出越来越准确的

结果,引起了人们对 AI 近期前景更多的兴趣。虽然最近注意到例如深度学习等

统计方法的重要性,

4

但在其他各种领域 AI 也已经取得了影响深远的进展,例

如:感知、自然语言处理、形式逻辑、知识展示、机器人技术、控制理论、认

知系统架构、搜索和优化技术以及其他更多方面。

(注:深度学习是指使用多层神经网络的一系列方法的汇总,这些方法支持快速完成一度被认为无法

自动化完成的任务。)

AI 的最近成就对这些技术的最终方向和影响已经产生了重要问题:当前 AI

技术的重要科学和技术瓶颈是什么?新的 AI 进展将提供什么积极,需要的经济

和社会影响?如何继续安全和有益地使用 AI 技术?如何设计 AI 系统以符合伦

理、法律和社会原则?这些进步对 AI 研发人员的影响是什么?

AI 研发的情况变得越来越复杂。虽然政府过去和现在的投资造就了 AI 的

突破性方法,但其他部门也已成为 AI 的重要贡献者,包括广泛的行业和非营利

组织。这种投资环境提出了关于联邦投资在 AI 技术发展中适当作用的重要问

题。联邦对 AI 投资的正确优先事项是什么,特别是在行业不可能投资的领域和

时间框架方面?是否有机会进行产业和国际研发合作,推动美国的优先事项?

9 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

2015 年,美国政府对 AI 相关技术的未分类研发投资约为 11 亿美元。虽然

这些投资已经产生了重要的新科学和技术,但是仍有机会在联邦政府之间进一

步协调,使这些投资能够充分发挥潜力。

5

认识到 AI 的革新性影响,2016 年 5 月,白宫科学和技术政策办公室

(OSTP)宣布了一个新的跨部门工作组,以探讨 AI 的利益和风险。

6

OSTP 还宣

布了一系列四个研讨会, 举办于 2016 年 5 月至 7 月的一段时间,旨在促进 AI

的公众对话,并确定其所带来的挑战和机遇。研讨会的结果是伴随公共报告

《为人工智能的未来准备》的一部分,与该计划一起发布。

在 2016 年 6 月,新的 NSTC 机器学习和人工智能小组委员会 - 它被特许在

联邦政府、私营部门和国际上与 AI 的进展保持同步,并帮助协调联邦在 AI 的

活动,任命 NITRD 国家协调办公室(NCO)创建《国家人工智能研究和发展战略

计划》。小组委员会指示本计划应传达一系列明确的研发优先重点,以解决战

略研究目标,将联邦投资重点放在行业不太可能投资的领域,并解决扩大和维

持 AI 研发人才渠道的需求。

本 AI 研发战略计划的输入来自广泛的来源,包括联邦机构、AI 相关会议

的公开讨论、投资于 IT 相关研发的所有联邦机构的 OMB 数据呼叫、投资 IT 相

关研发,OSTP 信息请求 RFI),该信息请求向公众征询了有关美国如何为未来

的 AI

7

做出最佳准备的意见,以及 AI 公开出版物的信息。

该计划对 AI

8

的未来做出多个假想。首先,假设 AI 技术将继续发展至复杂

巧妙并无所不在,而这多亏了政府和行业对 AI 研发的投资。第二,本计划假设

AI 对社会的影响将继续增加,其中包括就业、教育、公共安全和国家安全,以

及对美国经济增长的影响。第三,假设行业对 AI 的投资将继续增加,因为最近

的商业成就已增加了研发投资的预期回报。同时,本计划假设一些重要的研究

领域不太可能获得来自行业的足够投资,因为它们受制于典型的公共物品投资

不足问题。最后,本计划假设对 AI 专业的需求将继续在行业、学术界和政府内

部增长,从而对公共和私人造成劳动力压力。

与 AI 研发战略计划相关的其他研发战略计划和方案包括《联邦大数据研究

和发展战略计划》、

9

《联邦网络安全研究和发展战略计划》、

10

《国家隐私研

究和发展战略》、

11

《国家纳米技术倡议战略计划》、

12

《国家战略计算计

划》、

13

《推进创新神经技术脑研究计划》

14

与《国家机器人方案》。

15

涉及某

10 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

些 AI 子领域的其他战略研发计划和战略框架处于发展阶段,其中包括视频和图

像分析、健康信息技术、机器人和智能系统。这些额外计划和框架将提供补助

和详细叙述本 AI 研发战略计划的协同建议。

(二)预期结果

本 AI 研发战略计划超越了近期的 AI 功能,着眼于 AI 对社会和世界的长期

变革影响。AI 的最新研究进展让 AI 的潜力更为乐观,使行业得到迅猛发展,

并让 AI 方法变得商业化。然而,虽然联邦政府可以利用 AI 的行业投资,但许

多应用领域和长期研究挑战不会存在明确的近期利润驱动因素,因此不可能完

全由行业进行解决。联邦政府是长期高风险研究计划以及近期发展工作的主要

资金来源,以实现部门或机构的具体要求,或解决私营企业并不从事的重要社

会问题。因此,联邦政府应该强调重大社会重要性领域内的 AI 投资,这不针对

消费市场的领域,如用于公共卫生、城市系统与智慧社区、社会福利、刑事司

法、环境可持续性和国家安全的 AI,以及加速 AI 知识和技术生成的长期研

究。

跨联邦政府的 AI 协调研发工作将增加这些技术的积极影响,并为决策者提

供用于解决与使用 AI 相关的复杂政策挑战的所需知识。此外,协调方法将有助

于美国利用 AI 技术的全部潜力来改善社会。

本 AI 研发战略计划定义了一个高级框架,该框架可用于确定 AI 的科学和

技术差距,并跟踪用于填补这些差距的联邦研发投资。AI 研发战略计划确定了

AI 短期和长期支持的战略优先事项,以此来解决重要的技术和社会挑战。然

而,AI 研发战略计划并未为个别联邦机构定义具体的研究议程。相反,其为行

政部门设定了目标,在这些目标中,各机构可以根据其任务、能力、权威和预

算来决定优先顺序,以便整个研究组合能与 AI 研发战略计划保持一致。

AI 研发战略计划也并未制定 AI 的研究或使用政策,亦未就 AI 对就业和经

济的潜在影响作更广泛的探讨。虽然这些议题对国家至关重要,但它们在题为

“人工智能的机遇和挑战,这次会有所不同吗?”

8

的经济顾问委员会报告中进

行了讨论。

AI 研发战略计划侧重于有助定义和推进确保 AI 责任、安全和权益用途的

政策的研发投资。

11 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

(三)利用人工智能推进国家优先事项的愿景

推动此 AI 研发战略计划是未来世界充满希望的愿景,AI 将给所有社会成

员带来显著益处。人工智能的进一步进展可以提升社会中几乎所有部门的福

利,

16

让国家优先事项获得进展,其中包括促进经济发展、改善生活质量和加强

国家安全。这种潜在利益的例子包括:

1、促进经济发展

新产品和服务可以创造新市场,并提高多个行业现有商品和服务的质量和

效率。通过专业决策系统创造更有效的物流和供应链。

17

通过基于视觉的驾驶员

辅助和自动/机器人系统,

18

能更有效地运输产品。通过用于控制制造工艺和调

度工作流程的新方法来改善制造业。

19

如何促进经济发展?

(1)制造业:技术进步能在制造业,包括整个工程产品生命周期内引发新

工业革命。更多使用机器人技术能使制造业回归陆上。

20

AI 可以通过更可靠的

需求预测、提升运营和供应链灵活性,以及对改变制造业营运的影响进行更好

的预测来加速生产能力。AI 可以创造更智能、更快、更便宜和更环保的生产流

程,这能提高工人的生产率、提高产品质量、降低成本并改善工人的健康和安

全。

21

机器学习算法可以改善制造流程的调度并减少库存要求。

22

消费者可以从

现时的商业级 3-D 打印中获利。

23

(2)物流:私营部门制造商和托运人可以使用 AI,通过适配调度和路线

来改进供应链管理。

24

通过自动调整天气、交通和意外事件的预期影响,让供应

链更加牢固难以中断。

25

(3)金融:工业和政府可以使用 AI 提供多种规模的异常金融风险早期检

测。

26

安全控制可以确保金融系统自动减少恶意行为的机会,例如市场操纵、欺

诈和异常交易。

27

他们可以进一步提高效率并降低波动性和交易成本,同时预防

系统性失效,例如定价泡沫和低估信用风险。

28

(4)交通:AI 可以增强所有交通方式,实质上影响所有类型的旅途的安

全。

29

它可以用于结构安全监测和基础设施资产管理,提高公众信任,降低维修

和重建成本。

30

AI 可用于乘客和货运车辆,从而通过增强情景意识来提高安全

性,并为司机和其他旅客提供实时路线信息。

31

AI 应用还可以改善网络级移动

12 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理

13

性并减少整个系统的能源使用和运输相关的排放。

32

(5)农业:AI 系统可以创建通往可持续农业的途径,使农业产品的生

产、加工、储存、分配和消费更灵活。AI 和机器人能收集有关作物的特定场所

和时间数据,仅在它们需要的时间和地点才应用所需的投入(例如水、化学品

和化肥),并填补农业劳动力的紧迫缺口。

33

(6)营销:AI 方法能使商业实体更好地配合供应与需求,增加用来资助

进行中资助私营部门发展的税收。

34

其能预测和识别消费者需求

35

,使他们以更

低的成本获得更好的产品和服务。

(7)通信:AI 技术可以最大限度地有效利用带宽和信息存储和检索的自

动化。

36

AI 可以改进数字通信的过滤、搜索、语言翻译和摘要,积极影响商业

和我们的生活方式。

37

(8)科学和技术:AI 系统可以协助科学家和工程师阅读出版物和专利,

使理论与之前的观察值更一致,使用机器人系统和模拟、进行实验,并设计新

的设备和软件。

38

2、改善教育机会和生活质量

通过用于制定专有学习计划的虚拟导师来实现终身学习,以此根据每个人

的兴趣、能力和教育需求进行自我挑战和参与其中。通过为每个人定做和调整

的个性化健康信息,让人们能过上更健康和更积极的生活。智能家居和个人虚

拟助手可以节省人们的时间,并减少每日重复任务所损失的时间。

AI 将如何改善教育机会和社会福利?

(1)教育: AI-增强的学习型学校随处可见,通过其自动化辅导能衡量学

生的发展

16

。 AI 辅导员可补充面授教师,还可以因材施教。

16

AI 工具可以促

进终身学习并让所有社会成员获取新技能。

16

(2)医学:AI 能支持从大规模基因组研究(如全基因组关联研究,排序

研究)中识别出遗传风险的生物信息学系统,并预测新药物的安全性和有效

性。

39

AI 技术允许进行多维度的数据评估,以研究公共卫生问题,并为医疗诊

断和处方治疗提供决策支持系统。

40

AI 技术为个人提供药物定制;由此可提高

医疗效果、患者舒适度和减少浪费。

41

(3)法律:通过机器对法律个案史进行分析会变为普遍。

42

推荐文章

爱数智慧—人工智能数据服务商中的一匹黑马
大数据给人的印象貌似虚无缥缈,如今实则高频率的存在于每个人的身边。简单的说从你拿起手机订餐,到购买任何生活起居用品的时候已经形成了数据。当数据量足够大的时候,便为人工智能提供了可以进行从任何角度分析得出任何结论的基础库。这是一个“细思极恐”的事情。牛津大学的一项研究甚至显示,未来二十年将会有 47%的工作被机器人取代。这个叫做 Mighty AI 的公司,希望用众包平台的方式,帮助科技公司解决人工智能的数据来源。(上图为爱数智慧的主要业务-人脸标注)2017年年初,美国人工智能众包服务平台Spare5更名为Mighty AI,并宣布获得1400万美元B轮融资。本轮融资由英特尔投资(Intel  Capital)领投,谷歌风投和Accenture Ventures以及原有投资者也参加了此次融资。2016年4月,谷歌CEO Sundar  Pichai第一次明确的提出AI将优先作为公司大战略。谷歌以深度学习技术为依托,涉足语言理解、人机交互、机器人等人工智能核心技术应用领域,全方位布局人工智能帝国。到底是一家什么样的公司,竟然能够赢得人工智能风向标——Google的青睐和投资。Mighty AI于2014年成立,总部位于西雅图。迄今为止,Mighty  AI与微软、Pinterest和IBM等大型公司建立了合作关系,他们为Mighty AI社区提供识别照片、文章打分、情绪分析等任务。Mighty  AI通过付钱给主题相关的专家来用几分钟回答问题或完成任务。(上图为爱数智慧的主要业务-情感分析)Mighty AI之所以能够得到Google的投资,首先,Mighty AI足够专业,通过找到主题相关的专家对相应的数据进行标注和注释。其次,Mighty  AI对数据的标注和注释速度快。“我们喜欢Mighty  AI的地方在于我们的许多客户第一步都是要注释数据,他们只有做完之后才能在我们的人工智能芯片和软件基础上构建,”英特尔投资的总经理肯?埃莱凡特(Ken  Elefant)说。“通过Mighty AI,所有这些注释将会以更快的速度完成,这将帮助英特尔的客户更快地进行配置。”最后,Mighty  AI严格控制注释数据的质量,对注释工作完成好的人员提高薪酬及任务优先级,相反,任务完成不好的人员也会收到相应的反馈甚至解聘。不只国外投资者意识到数据管理对人工智能的重要性,国内的数据服务企业也获得了投资机构的青睐。据新经济创投数据服务商IT桔子报道,2017年,国内的数据管理平台类企业获投率在人工智能领域内遥遥领先,达到79.66%。中国的人工智能数据处理企业中,北京爱数智慧科技有限公司,称得上是人工智能数据服务业的一匹黑马,从2016年成立至今,已经获得数千万元的融资,市值近两亿元人民币。成立一年多,就已经与包括微软、阿里巴巴、腾讯、中国移动、滴滴、Nuance等国内外知名企业建立了战略性合作。爱数智慧之所以发展这么迅速,在短时间内与多家企业建立合作,主要原因有以下几点:首先,爱数智慧的标注团队非常专业,他们拥有各行各业的人员,他们专注处理自己擅长领域的数据;其次,由于团队的专业性,标注和注释的效率在行业内处于领先水平,这点深受客户的喜爱,合作过的客户都与其建立了长期合作战略;最后,爱数智慧自主研发的智能化数据处理系统可以随时监控数据标注和处理,并反馈数据处理效果,利于平台管理数据处理人员,更有利于提高数据标注效率和质量。(上图为爱数智慧的主要业务-交通目标物体标注)行业内不乏人工智能数据提供商,但是毫无疑问像爱数智慧这样的发展势头强劲的黑马不多见。爱数智慧会成为下一个Mighty  AI吗?让我们开始发挥想象力吧。从目前消费互联网的发展来看,可以很清楚的感受到大数据、人工智能对我们生活的影响,我们未来的发展终将离不开大数据。

热门文章

简单讲:互联网数据标注员是借助电脑或者移动设备对一些原始的数据进行处理,生产出满足AI公司机器学习需要数据的一群人。按照数据处理对象的不同,工作内容也会有差别,标注员的工作内容可以分为:分类;框选;注释;标记。按照所处公司的不同,标注员的工作方式也会有差别:有的人工智能公司处于对数据安全性考虑会自建标注团队,在这些公司工作的标注员可以保证自己工作内容不会出现太大变动;但一些服务于人工智能公司非专业外包公司标注员的工作则是项目制的,一个项目忙完紧接着做另一个项目,这样工作内容连续性较差,对一种类型的项目经验也不会积累的太多。就目前来说,人工智能还处于人工增长阶段,机器依然需要大量的数据进行训练,测试。标注员在当下也会一直存在,而且从业群体会越来越多,所以暂时不用担心这份职业会不会短期消失。就标注员从业来说,建议选择人工智能公司和专业的数据公司,这样可以保证自己在一个方向上了解的足够深入。就职场晋升来说,以牛牛数据为例:标注员——项目经理——项目总监——数据运营总监。首先谈谈什么是数据标注。数据标注有许多类型,如分类、画框、注释、标记等等,我们会在下面详谈。要理解数据标注,得先理解AI其实是部分替代人的认知功能。回想一下我们是如何学习的,例如我们学习认识苹果,那么就需要有人拿着一个苹果到你面前告诉你,这是一个苹果。然后以后你遇到了苹果,你才知道这玩意儿叫做“苹果”。类比机器学习,我们要教他认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个啥玩意的。我们得先有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张苹果的图片,它就能认出来了。这边可以顺带提一下训练集和测试集的概念。训练集和测试集都是标注过的数据,还是以苹果为例子,假设我们有1000张标注着“苹果”的图片,那么我们可以拿900涨作为训练集,100张作为测试集。机器从900张苹果的图片中学习得到一个模型,然后我们将剩下的100张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。想想我们上学的时候,考试的内容总是不会和我们平时的作业一样,也只有这样才能测试出学习的真正效果,这样就不难理解为什么要划分一个测试集了。我们知道机器学习分为有监督学习和无监督学习。无监督学习的效果是不可控的,常常是被用来做探索性的实验。而在实际产品应用中,通常使用的是有监督学习。有监督的机器学习就需要有标注的数据来作为先验经验。在进行数据标注之前,我们首先要对数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。具体的数据要求可以和算法人员确认。二、常见的几种数据标注类型1.分类标注:分类标注,就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。<img src="https://pic2.zhimg.com/50/v2-df93dc0a7e8a5fe387dc3774748b5f05_hd.jpg" data-caption="" data-size="normal" data-rawwidth="700" data-rawheight="400" class="origin_image zh-lightbox-thumb" width="700" data-original="https://pic2.zhimg.com/v2-df93dc0a7e8a5fe387dc3774748b5f05_r.jpg">适用:文本、图像、语音、视频应用:脸龄识别,情绪识别,性别识别2.标框标注:机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。行人识别,如下图。<img src="https://pic2.zhimg.com/50/v2-7824903d6d840e2bb08d96b5c2fa5874_hd.jpg" data-caption="" data-size="normal" data-rawwidth="591" data-rawheight="398" class="origin_image zh-lightbox-thumb" width="591" data-original="https://pic2.zhimg.com/v2-7824903d6d840e2bb08d96b5c2fa5874_r.jpg">适用:图像应用:人脸识别,物品识别3.区域标注:相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。<img src="https://pic3.zhimg.com/50/v2-4bc1dd2278182acf94fc426d7e6f2dc1_hd.jpg" data-caption="" data-size="normal" data-rawwidth="601" data-rawheight="377" class="origin_image zh-lightbox-thumb" width="601" data-original="https://pic3.zhimg.com/v2-4bc1dd2278182acf94fc426d7e6f2dc1_r.jpg">适用:图像应用:自动驾驶4.描点标注:一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。<img src="https://pic4.zhimg.com/50/v2-5e24f394516c75e45942c37ba0da85c0_hd.jpg" data-caption="" data-size="normal" data-rawwidth="583" data-rawheight="387" class="origin_image zh-lightbox-thumb" width="583" data-original="https://pic4.zhimg.com/v2-5e24f394516c75e45942c37ba0da85c0_r.jpg">适用:图像应用:人脸识别、骨骼识别5.其他标注:标注的类型除了上面几种常见,还有很多个性化的。根据不同的需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,这时候的标注严格上就不属于上面的任何一种了。(或则你把它归为分类也是可以的,只是标注主要观点就没有这么客观的标准,如果是标注苹果估计大多数人标注的结果都差不多。)三、有什么发展前途?数据标注员可以说是AI消灭了一部分工作又创造出来的一种工作。在未来AI发展良好的前提下,数据的缺口一定是巨大的。可以预见3-5年内数据标注员的需求会一直存在。至于发展,其实所谓一些熟能生巧的工作,都是有被替代掉的风险的。深度学习解决的一件事情就是熟能生巧。在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你标注的数据进行学习,想想还是有点成就感的。数据标注可以说是AI的入门级岗位,未来可转向其他AI岗位。如项目实施顾问等,这就要求更多的工作技能,需要再工作中积累。作者:跹尘链接:https://www.zhihu.com/question/30654399/answer/264828926来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。