听说数据标注行业缺“中立”平台，京东金融竖起了大旗

数据标注是人工智能进行模型训练必不可少的一环。这是将最原始的数据变成算法可用数据的过程：原始数据一般通过数据采集获得，随后的数据标注相当于对数据进行加工，然后输送到人工智能算法和模型里进行调用。

上述概念阐释的背后实际上潜藏着一个正在茁壮成长的商业机会，尤其随着AI行业的发展，优质数据甚至可能是公司发展的壁垒。

按照人员规模，现在的数据标注行业分为小型工作室（20 人左右）、中型公司以及巨头企业。它们之间有各自的短板：专业的数据标注、采集小团队没有标注工具，开始逐渐向拥有更好技术资源的大平台靠拢。与之形成对比的是，花费巨大资源打造专业全职标注团队的数据公司，却也受困于人力成本不得不把一些业务外包给小团队。

诸如巨头企业，虽然在努力搭建平台，但一方面更多是以消化内部需求为主，另一方面在人员培训和质量管控上，更多是流程化操作，缺乏合理的运营模式。

“没有一个标准。”基于上述的调研结果，在京东金融众智平台项目负责人看来，数据标注行业比较混乱。

在这种行业状况下，京东金融要做一个“中立”平台，成为需求方和最终标注团队之间的连接者：为小型工作室提供标注工具，同时也对需求方提供数据标注方案。

“京东众智”就是这样一个产物，它是专注于人工智能数据标注和采集的科技平台。上述负责人特意强调了“科技”二字，这意味着该平台并不是传统的众包模式，而是通过自身的科技能力，优化标注流程，提升标注效率，保证标注质量。

“大部分算法在拥有足够多的普通标注数据的情况下很容易将准确率提升到 95%，但从 95% 再去提升到 99% 甚至 99.9% 就需要大量高质量的标注数据。可以说，高质量的数据是制约模型和算法突破瓶颈的关键指标。”

京东众智的科技能力恰好表现在提高标注质量、提升标注速度、降低标注成本以及保证数据安全四个方面。

标注质量为先，而它又与标注人员息息相关。针对专业标注人才培养的流程，他们甚至要跟一些公司建立数据标注师认证标准，对不同人员评估其标注等级。这符合京东众智“三擎互驱”的理念：让最专业的人用最专业的工具，在严谨的工作流程中完成数据的标注，并且由选拔出来的高水平专家进行审核，保证正确率。

准确率与客户的要求也有很大关系，比如众智平台的图片标注准确率在实测状态下能达到 99%，为了确保准确性，他们有 ACC 和抽检等四层过滤流程。

在保证数据标注质量的前提后就要比拼标注速度了。

当下 AI 解决方案落地速度普遍较慢。“传统的方式是有 AI 需求，然后需要先获取样本数据进行数据标注，标注之后再做模型训练。”但在数据标注之后如果不满意，还需要把数据返回重新优化，上述负责人表示，这样的方式导致从方案确认到落地可能需要 1 个月甚至时间更长。

众智平台的标注工具很大程度上提升了标注速度。“鲁班模板标注工具”可以组件化去配置。如果不同的公司对标注数据有不同需求，他们只需调整几个组件的配置就可以完成操作。

p (1).jpg

京东众智 Pre-AI 方案与传统方案的对比

更重要的是京东众智提出的“Pre-A.I”方案。此方案在标注过程中会不断添加智能元素，机器做预标注，标注人员只需在此基础上做细微的调整即可。

这些技术的应用在很大程度上节省了标注时间，而在 AI 市场竞争激烈的环境中，速度对创业公司而言尤为重要。“原来完整的标注流程如果是 1 个月的话，我们可能 3、4 天就可以交付了。”该负责人如此评估众智平台的标注效率。

数据标注速度提升的直接结果是标注成本自然会降低。不过，在行业一片混乱的数据运营模式下，数据安全是需求方最为关注的问题。

对于政府、银行等企事业单位而言，它们担心数据被转手，一般要求数据必需在自己的环境内进行标注。为此，他们提供了数据与流程分离方案。数据与流程分离方案针对客户自有标注平台和客户没有标注平台两种情况。

p (2).jpg

京东众智 DCS 方案流程

对那些数据标注需求比较大的大公司，众智平台可以打通京东金融和客户两者的标注平台，同时为标注流程有严格的质量把控。需要注意的是，标注环境实际上还是在客户环境下。对于没有标注平台的客户，京东金融提供了一套名为“众智星”的标注系统，它可以让数据不出客户环境就能完成数据标注。

据负责人介绍，该平台已于去年 8 月正式上线。目前平台上数据标注注册人员在 3 万以上，而数据采集的注册人员更是超过了 10 万人。

“京东众智旨在为 AI 行业提供最优质的基础数据，希望在不久的将来，国内大部分的 AI 公司都可以使用我们提供的高质量标注数据训练出更优质的模型和算法。这些模型和算法不仅要服务国内的用户，更要把中国的 AI 能力服务于全世界。为全球的人工智能行业助力是我们的初心。”负责人如是说。

上一篇:数据标注：光鲜背后的付出

下一篇:继无人超市之后，这里也实现了无人化操作

推荐文章

人工智能正在掀起“教育革命”

　人工智能正在教育界掀起层层浪花。　　这种趋势，在日前由北京师范大学和科大讯飞共同主办的“人工智能与教育大数据峰会2019”上，体现尤为明显。　　“以人工智能为代表的新一代信息技术的快速发展，将会对传统的教育理念、教育体系和教学模式产生革命性影响，从而进一步释放教育在推动人类社会发展过程中的巨大潜力。”教育部科技司司长雷朝滋在出席会议时表示。　　正在掀起教育的一场革命　　“‘人工智能+教育’正在掀起教育的一场革命。它改变着教育的生态、教育的环境、教育的方式、教育管理的模式、师生关系等等。”中国教育学会名誉会长、北京师范大学资深教授顾明远也给出类似判断。　　记者了解到，目前图像识别、语音识别、人机交互等人工智能技术都已在教育领域开展应用。　　“通过图像识别技术，人工智能可以将教师从繁重的批改作业和阅卷工作中解放出来；语音识别和语义分析技术，可以辅助教师进行英语口试测评，也可以纠正、改进学生的英语发音；而人机交互技术，可以协助教师为学生在线答疑解惑。”科大讯飞执行总裁吴晓如介绍。　　在吴晓如看来，个性化教育和因材施教一直都是最美好的教育理想。但由于老师教授的学生数量多、教学任务繁重，老师很难做到深入关心每个孩子的成长。面对这样的问题，人工智能与大数据的结合将可以发挥作用。　　“人工智能将教学变为大数据分析以及人工智能辅助的以学生为中心的个性化学习，为每个学生提供个性化、定制化的学习内容、方法，从而激发学生深层次的学习欲望。”吴晓如说。　　国内一些学校已经开始“人工智能+教育”的尝试。　　例如，在精准教学方面，借助大数据与人工智能技术，合肥、福州等一些中学开展的高效讲评课，将原本需要45分钟的习题讲解压缩至15分钟讲解共性问题，其余时间用于分组讨论或拓展学习。同时，还能够实现对学生的个性化分析、以学定教、提升学习的效率与质量。　　应尊重学生的个人隐私信息　　近年来，一系列推进人工智能教育应用的战略与行动规划陆续出台。　　今年2月发布的《中国教育现代化2035》中，“加快信息化时代教育变革”被列入推进教育现代化的十大战略任务，明确了推进智能教育应用的部署。　　“我们正在组织研制《中国智能教育发展方案》，以构建智能时代下的教育新生态为目标，全面创新教育模式，推动教育供给侧改革，转换教育发展的动力结构，促进人的全面发展，支撑引领教育现代化。”雷朝滋透露。　　谈到人工智能在教育中扮演的角色，吴晓如认为，未来很长一段时间内，人工智能在教育领域的应用会是一种辅助性手段，它会是学生和老师之间的一个“助手”。　　“‘人工智能+教育’正在使教育发生重大的、可以说是革命性的变革，但是教育的本质不会变。教育是传承文化、创造知识、培养人才的本质不会变，立德树人的根本目的不会变。”顾明远强调。　　人工智能在教育领域应用所涉及的伦理问题，也是此次会议热议话题之一。雷朝滋表示，智能时代“教育治理体系将面临社会伦理、数据安全的新挑战”。　　“现在所谓的教育大数据更多是考试数据、练习数据、测试数据。基于这些数据开发出来的人工智能系统，会不会给学生带来新的负担？会不会增加教育新的不公平？”首都师范大学教授樊磊问道。　　樊磊认为，智能教育时代，还应该特别加强学生个人隐私信息的保护，而不能随随便便追踪学生的个体行为数据。“对于正在成长中的学生，这种事情一定要谨慎再谨慎。”樊磊说。

热门文章

为什么有些人说数据标注就是个坑？

对数据标注行业稍微有些了解的人都知道数据标注进入门槛低，适合很多人兼职也适合创业。正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。但是目前有个有趣的现象，那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑？为什么有些人会说数据标注就是个坑呢？其实对与有上述问题认识的人我们认为，这些人多数都是有于对这个行业对自身条件的不了解，盲目的开始进入数据标注行业的。为什么我们会这样说呢？下面就给给大家来分析下到底有哪几方面的原因：一、有相当一部分人是听了朋友或者网上消息说这行很火爆，好做，门槛低，也有一部分人了因此租办公室买电脑招人，然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业，更没有认真仔细得去调查分析，到底自己能不能做好一个项目，到底自己能不能有质有量按时交付的完成一个项目，到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。二、数据标注项目虽然入门门槛低，但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目，还有一部分人由于自己对标注项目重视程度不足接到项目之后呢？不仔细认真的去阅读理解项目规则，更没有很好的对规则质检标准去培训员工，而对员工的要求主要看重每天的产出效率，从而导致接到手的项目做的质量很差，频繁的返工，有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少，最终的结果就是做好些个项目但基本都是赔钱。三、虽然业内人都说数据标注简单，但是标注项目他也是一个系统性的工程，一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平，质量管理能力，运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱，要赚钱不是那么简单的。四、还有些工作室、小公司因为对行业不够了解等他们做了一段时间后发现，自己团队经常会没有项目做，而自己团队接项目的业务能力又不具备，甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目，时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。五、下来要说的就是一部分人人兼职人员由于认识不到位，对项目的规则质量要求文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算，最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。标注行业本身由于进入门槛低，做的人很行业内盲目打价格战，导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱，所以在这里也提醒大家做任何事都要谨慎而行。

友情链接: