人工智能数据服务之数据标注(一):文本标注

得益于新千年信息技术的快速发展和大数据带来的便利,人工智能依靠大数据迅速地完成了从理论到实际应用,到逐步走进我们的生活,2017年被定义为人工智能应用的元年。那么现在大量人工智能所依赖的数据是怎样进行加工,把海量无序的数据变成机器能够理解的数据的呢?我们今天在这里做一个简单的介绍。

   现在数据行业的数据标注对象主要有以下几种类型:文本、声音、图像、视频(多数情况下依然是转换为图像在进行标注),今天我们就我所了解的几个行业讲一下文本的标注类型及其应用:

    文本的标注目前我们接触得比较多的行业有:客服、舆情、医疗、教育,应用类型大概有语义识别、情绪识别、实体识别、场景识别、数据清洗、应答识别。

   客服行业的标注主要集中在场景识别和应答识别这两块,以国内某知名电商的智能客服机器人为例,用户在与机器交互时,根据用户的咨询内容切入到对应的场景中,然后让用户选择更细分的应答模型,定位到用户实际场景,再根据用户的具体问题,给出对应的回答,整个过程类似于把用户的问题用一个漏斗状的筛子过一遍。


一句话的在机器里的经历
   在建立这个应答体系的初期,需要对海量的用户咨询语料进行分类,把对应的用户咨询的问题标记号,放进对应的模型中(其他应答类机器人同理),类似于这样:


语料的分类(实际分类更细,此处仅举例)
   这一步的数据标注主要是给句子的场景打标,将用户问题分进对应的场景,这种标注需要非常熟悉本行业业务逻辑树,相当于是在建立机器人的应答知识库,机器人在收到用户发出的指令时识别和哪个细分问题的拟合度最高,然后选取那个问题的答案作为给用户的答案。

   标注的方式主要有线上平台标注和线下表格标注两种,根据企业自身情况有所不同,以金融行业某企业的标注的线下表格标注内容举例:


客服类分类标注举例
   虽然会通过大量整理好的语料尽量穷举对应场景和模型的应答知识库,但是用户提问的方式不一样,上下文内容和场景不一样,同时机器的识别是一个概率问题,最终识别成什么问题,以及最终给出什么答案都存在一个阈值,所以这个识别是可能会出现错误的。

   出现错误的情况我们称为badcase,这个阶段的标注就是标注员去对原始的聊天数据进行标记,看机器人的回答是否正确,如果不正确,那么出现的问题是哪一种,是一级分类错误还是二级分类错误还是回答的答案不够好,不能够满足用户的问题需求。例如:用户问银行卡怎么办理,机器人回复的是信用卡的办理流程,那么这时候就是一个badcase,机器人把问题放进了错误的分类导致回答了一个错误的答案。

    这一步的标注是将出现的错误筛选出来,并根据业务逻辑树进行问题的分类,标记完之后由专门负责处理badcase的同事和研发的同事一起对应答情况进行调优。【这一步是一个长期的过程,需要一个稳定且熟悉这个业务的团队进行标注】

   再举一个自然语言识别的例子,普通的自然语言识别,从里面提取时间地点人物这些信息的就不举了,目前市场上已经太多这样的标注团队了,标注的内容比较基础,我这里拿一个我处理的一个医疗行业的自然语言处理标注。

    这是一个专业度要求比较高的标注,我们还特意招聘了医生和教语言的老师来进行标注,标注的对象是从病历中抽取出来的一些字段,病历里面的体查项和既往史这些是有模板的,可以较小的工作量就能穷举,直接识别可替换项的结果就行了,但是主诉和医生对患者的描述每次会有所不同。

   于是我们的标注就是第一,标注每个词的属性,即每个词在这种语境下面是怎样的属性(相同的词在不通的情况下会有不同的属性),第二,标注每个词在句子中的作用。

    还是举个例子:这是一句主诉:腰痛两年,伴左下肢放射痛10日余。


医疗标注举例
    这样标注的目的在于让机器去识别病历中的每一个词,通过大量的数据标注之后机器能够认识到一个词有哪些属性,在句子中扮演什么角色,在这个语境情况下这个词扮演什么角色,并且教会机器去拆词,识别哪些词是有用的,哪些词是无用的。

   同理,日常对话类的自然语言识别用途的标注原理大都类似,但规则有所不同,本号后期会逐步介绍所处理的其他标注类型介绍。

转载豆瓣网

推荐文章

目 录摘 要 ........................................................7一、 简介 ....................................................... 9(一) 《国家人工智能研究和发展战略计划》的目的 ............. 9(二) 预期结果 ............................................ 11(三) 利用人工智能推进国家优先事项的愿景 .................. 121、 促进经济发展 ....................................... 122、 改善教育机会和生活质量 ............................. 133、 增强国家和国土安全 ................................. 14(四) 人工智能的现状 ...................................... 14二、 研发战略 .................................................. 18(一) 战略一:对人工智能研究进行长期投资 .................. 211、 提升基于数据发现知识的能力 ......................... 212、 增强人工智能系统的感知能力 ......................... 223、 了解人工智能的理论能力和局限性 ..................... 224、 研究通用人工智能 ................................... 235、 开发可扩展的人工智能系统 ........................... 246、 促进类人的人工智能研究 ............................. 247、 开发更强大和更可靠的机器人 ......................... 258、 推动人工智能的硬件升级 ............................. 269、 为改进的硬件创建人工智能 ........................... 26(二) 战略二:开发有效的人类与人工智能协作方法 ............ 281、 寻找人类感知人工智能的新算法 ....................... 292、 开发增强人类能力的人工智能技术 ..................... 303、 开发可视化和人机界面技术 ........................... 304、 开发更高效的语言处理系统 ........................... 31(三) 战略三:了解并解决人工智能的伦理、法律和社会影响 .... 331、 改进公平性、透明度和设计责任机制 ................... 332、 建立符合伦理的人工智能 ............................. 345 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理 3、 设计符合伦理的人工智能架构 ......................... 34(四) 战略四:确保人工智能系统的安全可靠 .................. 361、 提高可解释性和透明度 ............................... 362、 提高信任度 ......................................... 363、 增强可验证与可确认性 ............................... 374、 保护免受攻击 ....................................... 385、 实现长期的人工智能安全和优化 ....................... 38(五) 战略五:开发用于人工智能培训及测试的公共数据集和环境 391、 开发满足多样化人工智能兴趣与应用的丰富数据集 ....... 392、 开放满足商业和公共利益的训练测试资源 ............... 403、 开发开源软件库和工具包 ............................. 40(六) 战略六:制定标准和基准以测量和评估人工智能技术 ...... 421、 开发广泛应用的人工智能标准 ......................... 422、 制定人工智能技术的测试基准 ......................... 423、 增加可用的人工智能测试平台 ......................... 434、 促进人工智能社群参与标准和基准的制定 ............... 44(七) 战略七:更好地了解国家人工智能人力需求 .............. 46三、 建议 ...................................................... 471、 建议一 ............................................. 472、 建议二 ............................................. 47附录:首字母缩写词 ............................................. 48译者注 ......................................................... 506 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理 摘 要人工智能(AI)是一种具有巨大社会和经济效益的革新性技术。人工智能有可能彻底改变我们的生活、工作、学习、发现和沟通的方式。人工智能研究可以推进美国的国家优先任务,包括增加经济繁荣、改善教育机会和生活质量,以及加强国家和国土安全。由于这些潜在的益处,美国政府已经对人工智能研究投资多年。然而,与联邦政府感兴趣的任何重要技术一样,指导人工智能领域联邦资助研发的总体方向时不仅具有巨大的机会,还必须考虑到一些注意事项。 2016 年 5 月 3 日,政府宣布成立一个新的国家科学技术委员会(NSTC)机器学习和人工智能小组委员会,以帮助协调联邦在人工智能领域的活动。1 该小组委员会于 2016 年 6 月 15 日,请求网络和信息技术研究和发展计划(NITRD)小组委员会编写《国家人工智能研究和发展战略计划》(以下简称“AI 研发战略计划”或《战略》)。之后成立了一个 NITRD 人工智能工作组,以确定人工智能研发为联邦的战略重大计划,特别关注产业不可能解决的领域。 这项《战略》为联邦资助的人工智能研究制定了一系列目标,既包括政府内部的研究,也包括联邦资助的政府外部研究,例如在学术界。这项研究的最终目标是产生新的人工智能知识和技术,为社会提供一系列积极效益,同时尽量减少负面影响。为实现这一目标,《战略》确定了联邦资助人工智能研究的以下重大计划: 战略一:对人工智能研究进行长期投资。优先投资下一代人工智能,将促进新发现和洞察力,同时使美国在人工智能领域保持世界领先地位。 战略二:开发有效的人类与人工智能协作方法。并非取代人类,大多数人工智能系统将与人类合作以实现最佳性能。需要研究来创建人类和人工智能系统之间的有效交互。 战略三:了解并解决人工智能的伦理、法律和社会影响。我们期望人工智能技术根据我们持有人类同胞的正式和非正式规范表现。需要研究以了解人工智能的伦理、法律和社会影响,并开发设计符合伦理、法律和社会目标的人工智能系统的方法。 战略四:确保人工智能系统的安全可靠。在人工智能系统广泛使用之前,7 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理 需要保证系统将以受控、充分定义和充分理解的方式安全地操作。需要进一步加强研究,以解决创建可靠、可信任和可信赖人工智能系统的挑战。 战略五:开发用于人工智能培训及测试的公共数据集和环境。训练数据集和资源的深度、质量和准确性显著影响人工智能性能。研究人员需要开发高质量的数据集和环境,并允许负责访问高质量数据集,以及测试和培训资源。 战略六:制定标准和基准以测量和评估人工智能技术。人工智能进步极其重要的是指导和评估人工智能进展的标准、测试基准、测试台和社区参与。需要进行额外的研究来开发广泛的评价技术。 战略七:更好地了解国家人工智能人力需求。人工智能的进步将需要一个强大的人工智能研究人员社区。需要更好地了解人工智能当前和未来研发人员需求,以帮助确保有足够的人工智能专家能够应对本计划中概述的战略研发领域。 《战略》最后提出了两方面建议: 建议一:开发一个人工智能研发实施框架,以抓住科技机遇,并支持人工智能研发投资的有效协调,与本计划的第一至六项战略保持一致。 建议二:研究创建和维持一个健全的人工智能研发队伍的国家愿景,与本计划的战略第七项保持一致。 8 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理 一、简介(一)《国家人工智能研究和发展战略计划》的目的 1956 年,来自美国的计算机科学研究人员在新罕布什尔州的达特茅斯学院会面,讨论一个新兴的计算分支,即人工智能或 AI 的开创性思想。他们想象了一个世界,“机器使用语言,构成抽象和概念,解决现在人类的问题,并改善自己”。2 这次历史性会议为 AI 的政府和行业研究设置了几十年阶段,包括感知、自动推理/规划、认知系统、机器学习、自然语言处理、机器人和相关领域的进展。今天,这些研究进展已经产生影响我们日常生活的新兴经济部门,从制图技术到语音辅助智能手机,到邮件传递的手写识别,到金融交易,到智能物流,到垃圾邮件过滤,语言翻译,甚至更多。AI 进展也为精准医学、环境可持续性、教育和公共福利等领域的社会福利带来巨大的益处。3过去 25 年来,AI 方法的显著增加在很大程度上得益于统计和概率方法的采用,大量数据的可用性以及计算机处理能力的提高。在过去十年中,机器学习的 AI 子领域,使计算机能够从经验或例子中学习,已经表现出越来越准确的结果,引起了人们对 AI 近期前景更多的兴趣。虽然最近注意到例如深度学习等统计方法的重要性,4 但在其他各种领域 AI 也已经取得了影响深远的进展,例如:感知、自然语言处理、形式逻辑、知识展示、机器人技术、控制理论、认知系统架构、搜索和优化技术以及其他更多方面。 (注:深度学习是指使用多层神经网络的一系列方法的汇总,这些方法支持快速完成一度被认为无法自动化完成的任务。)AI 的最近成就对这些技术的最终方向和影响已经产生了重要问题:当前 AI技术的重要科学和技术瓶颈是什么?新的 AI 进展将提供什么积极,需要的经济和社会影响?如何继续安全和有益地使用 AI 技术?如何设计 AI 系统以符合伦理、法律和社会原则?这些进步对 AI 研发人员的影响是什么? AI 研发的情况变得越来越复杂。虽然政府过去和现在的投资造就了 AI 的突破性方法,但其他部门也已成为 AI 的重要贡献者,包括广泛的行业和非营利组织。这种投资环境提出了关于联邦投资在 AI 技术发展中适当作用的重要问题。联邦对 AI 投资的正确优先事项是什么,特别是在行业不可能投资的领域和时间框架方面?是否有机会进行产业和国际研发合作,推动美国的优先事项? 9 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理 2015 年,美国政府对 AI 相关技术的未分类研发投资约为 11 亿美元。虽然这些投资已经产生了重要的新科学和技术,但是仍有机会在联邦政府之间进一步协调,使这些投资能够充分发挥潜力。5认识到 AI 的革新性影响,2016 年 5 月,白宫科学和技术政策办公室(OSTP)宣布了一个新的跨部门工作组,以探讨 AI 的利益和风险。6 OSTP 还宣布了一系列四个研讨会, 举办于 2016 年 5 月至 7 月的一段时间,旨在促进 AI的公众对话,并确定其所带来的挑战和机遇。研讨会的结果是伴随公共报告《为人工智能的未来准备》的一部分,与该计划一起发布。 在 2016 年 6 月,新的 NSTC 机器学习和人工智能小组委员会 - 它被特许在联邦政府、私营部门和国际上与 AI 的进展保持同步,并帮助协调联邦在 AI 的活动,任命 NITRD 国家协调办公室(NCO)创建《国家人工智能研究和发展战略计划》。小组委员会指示本计划应传达一系列明确的研发优先重点,以解决战略研究目标,将联邦投资重点放在行业不太可能投资的领域,并解决扩大和维持 AI 研发人才渠道的需求。 本 AI 研发战略计划的输入来自广泛的来源,包括联邦机构、AI 相关会议的公开讨论、投资于 IT 相关研发的所有联邦机构的 OMB 数据呼叫、投资 IT 相关研发,OSTP 信息请求 RFI),该信息请求向公众征询了有关美国如何为未来的 AI7做出最佳准备的意见,以及 AI 公开出版物的信息。 该计划对 AI 8的未来做出多个假想。首先,假设 AI 技术将继续发展至复杂巧妙并无所不在,而这多亏了政府和行业对 AI 研发的投资。第二,本计划假设AI 对社会的影响将继续增加,其中包括就业、教育、公共安全和国家安全,以及对美国经济增长的影响。第三,假设行业对 AI 的投资将继续增加,因为最近的商业成就已增加了研发投资的预期回报。同时,本计划假设一些重要的研究领域不太可能获得来自行业的足够投资,因为它们受制于典型的公共物品投资不足问题。最后,本计划假设对 AI 专业的需求将继续在行业、学术界和政府内部增长,从而对公共和私人造成劳动力压力。 与 AI 研发战略计划相关的其他研发战略计划和方案包括《联邦大数据研究和发展战略计划》、9《联邦网络安全研究和发展战略计划》、10《国家隐私研究和发展战略》、11《国家纳米技术倡议战略计划》、12《国家战略计算计划》、13《推进创新神经技术脑研究计划》14 与《国家机器人方案》。15 涉及某10 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理 些 AI 子领域的其他战略研发计划和战略框架处于发展阶段,其中包括视频和图像分析、健康信息技术、机器人和智能系统。这些额外计划和框架将提供补助和详细叙述本 AI 研发战略计划的协同建议。 (二)预期结果 本 AI 研发战略计划超越了近期的 AI 功能,着眼于 AI 对社会和世界的长期变革影响。AI 的最新研究进展让 AI 的潜力更为乐观,使行业得到迅猛发展,并让 AI 方法变得商业化。然而,虽然联邦政府可以利用 AI 的行业投资,但许多应用领域和长期研究挑战不会存在明确的近期利润驱动因素,因此不可能完全由行业进行解决。联邦政府是长期高风险研究计划以及近期发展工作的主要资金来源,以实现部门或机构的具体要求,或解决私营企业并不从事的重要社会问题。因此,联邦政府应该强调重大社会重要性领域内的 AI 投资,这不针对消费市场的领域,如用于公共卫生、城市系统与智慧社区、社会福利、刑事司法、环境可持续性和国家安全的 AI,以及加速 AI 知识和技术生成的长期研究。 跨联邦政府的 AI 协调研发工作将增加这些技术的积极影响,并为决策者提供用于解决与使用 AI 相关的复杂政策挑战的所需知识。此外,协调方法将有助于美国利用 AI 技术的全部潜力来改善社会。 本 AI 研发战略计划定义了一个高级框架,该框架可用于确定 AI 的科学和技术差距,并跟踪用于填补这些差距的联邦研发投资。AI 研发战略计划确定了AI 短期和长期支持的战略优先事项,以此来解决重要的技术和社会挑战。然而,AI 研发战略计划并未为个别联邦机构定义具体的研究议程。相反,其为行政部门设定了目标,在这些目标中,各机构可以根据其任务、能力、权威和预算来决定优先顺序,以便整个研究组合能与 AI 研发战略计划保持一致。 AI 研发战略计划也并未制定 AI 的研究或使用政策,亦未就 AI 对就业和经济的潜在影响作更广泛的探讨。虽然这些议题对国家至关重要,但它们在题为“人工智能的机遇和挑战,这次会有所不同吗?”8 的经济顾问委员会报告中进行了讨论。 AI 研发战略计划侧重于有助定义和推进确保 AI 责任、安全和权益用途的政策的研发投资。 11 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理 (三)利用人工智能推进国家优先事项的愿景 推动此 AI 研发战略计划是未来世界充满希望的愿景,AI 将给所有社会成员带来显著益处。人工智能的进一步进展可以提升社会中几乎所有部门的福利,16让国家优先事项获得进展,其中包括促进经济发展、改善生活质量和加强国家安全。这种潜在利益的例子包括: 1、促进经济发展新产品和服务可以创造新市场,并提高多个行业现有商品和服务的质量和效率。通过专业决策系统创造更有效的物流和供应链。17通过基于视觉的驾驶员辅助和自动/机器人系统,18 能更有效地运输产品。通过用于控制制造工艺和调度工作流程的新方法来改善制造业。19如何促进经济发展? (1)制造业:技术进步能在制造业,包括整个工程产品生命周期内引发新工业革命。更多使用机器人技术能使制造业回归陆上。20AI 可以通过更可靠的需求预测、提升运营和供应链灵活性,以及对改变制造业营运的影响进行更好的预测来加速生产能力。AI 可以创造更智能、更快、更便宜和更环保的生产流程,这能提高工人的生产率、提高产品质量、降低成本并改善工人的健康和安全。21 机器学习算法可以改善制造流程的调度并减少库存要求。22 消费者可以从现时的商业级 3-D 打印中获利。23(2)物流:私营部门制造商和托运人可以使用 AI,通过适配调度和路线来改进供应链管理。24通过自动调整天气、交通和意外事件的预期影响,让供应链更加牢固难以中断。25(3)金融:工业和政府可以使用 AI 提供多种规模的异常金融风险早期检测。26安全控制可以确保金融系统自动减少恶意行为的机会,例如市场操纵、欺诈和异常交易。27他们可以进一步提高效率并降低波动性和交易成本,同时预防系统性失效,例如定价泡沫和低估信用风险。28(4)交通:AI 可以增强所有交通方式,实质上影响所有类型的旅途的安全。29它可以用于结构安全监测和基础设施资产管理,提高公众信任,降低维修和重建成本。30 AI 可用于乘客和货运车辆,从而通过增强情景意识来提高安全性,并为司机和其他旅客提供实时路线信息。31 AI 应用还可以改善网络级移动12 美国国家人工智能研究与发展战略计划 中国信通院(CAICT)编译组整理 13 性并减少整个系统的能源使用和运输相关的排放。32(5)农业:AI 系统可以创建通往可持续农业的途径,使农业产品的生产、加工、储存、分配和消费更灵活。AI 和机器人能收集有关作物的特定场所和时间数据,仅在它们需要的时间和地点才应用所需的投入(例如水、化学品和化肥),并填补农业劳动力的紧迫缺口。33(6)营销:AI 方法能使商业实体更好地配合供应与需求,增加用来资助进行中资助私营部门发展的税收。34 其能预测和识别消费者需求 35,使他们以更低的成本获得更好的产品和服务。 (7)通信:AI 技术可以最大限度地有效利用带宽和信息存储和检索的自动化。36 AI 可以改进数字通信的过滤、搜索、语言翻译和摘要,积极影响商业和我们的生活方式。37(8)科学和技术:AI 系统可以协助科学家和工程师阅读出版物和专利,使理论与之前的观察值更一致,使用机器人系统和模拟、进行实验,并设计新的设备和软件。382、改善教育机会和生活质量通过用于制定专有学习计划的虚拟导师来实现终身学习,以此根据每个人的兴趣、能力和教育需求进行自我挑战和参与其中。通过为每个人定做和调整的个性化健康信息,让人们能过上更健康和更积极的生活。智能家居和个人虚拟助手可以节省人们的时间,并减少每日重复任务所损失的时间。 AI 将如何改善教育机会和社会福利? (1)教育: AI-增强的学习型学校随处可见,通过其自动化辅导能衡量学生的发展 16。 AI 辅导员可补充面授教师,还可以因材施教。16 AI 工具可以促进终身学习并让所有社会成员获取新技能。16(2)医学:AI 能支持从大规模基因组研究(如全基因组关联研究,排序研究)中识别出遗传风险的生物信息学系统,并预测新药物的安全性和有效性。39 AI 技术允许进行多维度的数据评估,以研究公共卫生问题,并为医疗诊断和处方治疗提供决策支持系统。40 AI 技术为个人提供药物定制;由此可提高医疗效果、患者舒适度和减少浪费。41(3)法律:通过机器对法律个案史进行分析会变为普遍。42

热门文章

简单讲:互联网数据标注员是借助电脑或者移动设备对一些原始的数据进行处理,生产出满足AI公司机器学习需要数据的一群人。按照数据处理对象的不同,工作内容也会有差别,标注员的工作内容可以分为:分类;框选;注释;标记。按照所处公司的不同,标注员的工作方式也会有差别:有的人工智能公司处于对数据安全性考虑会自建标注团队,在这些公司工作的标注员可以保证自己工作内容不会出现太大变动;但一些服务于人工智能公司非专业外包公司标注员的工作则是项目制的,一个项目忙完紧接着做另一个项目,这样工作内容连续性较差,对一种类型的项目经验也不会积累的太多。就目前来说,人工智能还处于人工增长阶段,机器依然需要大量的数据进行训练,测试。标注员在当下也会一直存在,而且从业群体会越来越多,所以暂时不用担心这份职业会不会短期消失。就标注员从业来说,建议选择人工智能公司和专业的数据公司,这样可以保证自己在一个方向上了解的足够深入。就职场晋升来说,以牛牛数据为例:标注员——项目经理——项目总监——数据运营总监。首先谈谈什么是数据标注。数据标注有许多类型,如分类、画框、注释、标记等等,我们会在下面详谈。要理解数据标注,得先理解AI其实是部分替代人的认知功能。回想一下我们是如何学习的,例如我们学习认识苹果,那么就需要有人拿着一个苹果到你面前告诉你,这是一个苹果。然后以后你遇到了苹果,你才知道这玩意儿叫做“苹果”。类比机器学习,我们要教他认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个啥玩意的。我们得先有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张苹果的图片,它就能认出来了。这边可以顺带提一下训练集和测试集的概念。训练集和测试集都是标注过的数据,还是以苹果为例子,假设我们有1000张标注着“苹果”的图片,那么我们可以拿900涨作为训练集,100张作为测试集。机器从900张苹果的图片中学习得到一个模型,然后我们将剩下的100张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。想想我们上学的时候,考试的内容总是不会和我们平时的作业一样,也只有这样才能测试出学习的真正效果,这样就不难理解为什么要划分一个测试集了。我们知道机器学习分为有监督学习和无监督学习。无监督学习的效果是不可控的,常常是被用来做探索性的实验。而在实际产品应用中,通常使用的是有监督学习。有监督的机器学习就需要有标注的数据来作为先验经验。在进行数据标注之前,我们首先要对数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。具体的数据要求可以和算法人员确认。二、常见的几种数据标注类型1.分类标注:分类标注,就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。<img src="https://pic2.zhimg.com/50/v2-df93dc0a7e8a5fe387dc3774748b5f05_hd.jpg" data-caption="" data-size="normal" data-rawwidth="700" data-rawheight="400" class="origin_image zh-lightbox-thumb" width="700" data-original="https://pic2.zhimg.com/v2-df93dc0a7e8a5fe387dc3774748b5f05_r.jpg">适用:文本、图像、语音、视频应用:脸龄识别,情绪识别,性别识别2.标框标注:机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。行人识别,如下图。<img src="https://pic2.zhimg.com/50/v2-7824903d6d840e2bb08d96b5c2fa5874_hd.jpg" data-caption="" data-size="normal" data-rawwidth="591" data-rawheight="398" class="origin_image zh-lightbox-thumb" width="591" data-original="https://pic2.zhimg.com/v2-7824903d6d840e2bb08d96b5c2fa5874_r.jpg">适用:图像应用:人脸识别,物品识别3.区域标注:相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。<img src="https://pic3.zhimg.com/50/v2-4bc1dd2278182acf94fc426d7e6f2dc1_hd.jpg" data-caption="" data-size="normal" data-rawwidth="601" data-rawheight="377" class="origin_image zh-lightbox-thumb" width="601" data-original="https://pic3.zhimg.com/v2-4bc1dd2278182acf94fc426d7e6f2dc1_r.jpg">适用:图像应用:自动驾驶4.描点标注:一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。<img src="https://pic4.zhimg.com/50/v2-5e24f394516c75e45942c37ba0da85c0_hd.jpg" data-caption="" data-size="normal" data-rawwidth="583" data-rawheight="387" class="origin_image zh-lightbox-thumb" width="583" data-original="https://pic4.zhimg.com/v2-5e24f394516c75e45942c37ba0da85c0_r.jpg">适用:图像应用:人脸识别、骨骼识别5.其他标注:标注的类型除了上面几种常见,还有很多个性化的。根据不同的需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,这时候的标注严格上就不属于上面的任何一种了。(或则你把它归为分类也是可以的,只是标注主要观点就没有这么客观的标准,如果是标注苹果估计大多数人标注的结果都差不多。)三、有什么发展前途?数据标注员可以说是AI消灭了一部分工作又创造出来的一种工作。在未来AI发展良好的前提下,数据的缺口一定是巨大的。可以预见3-5年内数据标注员的需求会一直存在。至于发展,其实所谓一些熟能生巧的工作,都是有被替代掉的风险的。深度学习解决的一件事情就是熟能生巧。在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你标注的数据进行学习,想想还是有点成就感的。数据标注可以说是AI的入门级岗位,未来可转向其他AI岗位。如项目实施顾问等,这就要求更多的工作技能,需要再工作中积累。作者:跹尘链接:https://www.zhihu.com/question/30654399/answer/264828926来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。