“数据标注”今天，那些人工智能背后“人工”正在回家

5到10年后，当人工智能全面普及，科技先驱和新一代商业巨子注定会被时代的聚光灯铭记。

但今天，「甲子光年」却想说一个关于人工智能“从未被讲出”的故事，写一群时代大幕后的“隐形者”——标数据的人。

智能时代滚滚巨轮之下，一批批用于“人脸识别”、“自动驾驶”、“自然语言处理”的标注好的数据，正是出自这些学历不高，每天对着电脑工作8到10小时的人手中——他们是“人工智能背后的人工”。

「甲子光年」采访了多个数据标注服务商、数据标注工作室和数据标注者。据业内人士估计，中国全职的“数据标注者”已达到10万人，兼职人群的规模则接近100万。

他们中有职高学生，有尝试过40份工作的聋哑人，有从工地辗转而来的新生代农民工……他们源源不断地为人工智能的发展供应最重要的“数据燃料”——在现有的技术框架下，数据量越大，质量越好，算法模型就表现越好。可以说，数据决定着整个人工智能行业的发展态势。

但标注工作本身是一个劳动密集型工种，收入并不高。随着技术的进一步发展，未来还有被取代的可能。许多数据标注者的父辈是参与了中国房地产奇迹的农民工。如今，父辈手里的铁铲变成了年轻人的鼠标、键盘，但和父辈一样，他们仍是边缘者。在这个除夕，他们也像父辈一样踏上了归乡的旅途，不仅是从城市回到乡村，也是从科技前线回到古老的火炉前。

小志从贵阳坐了四小时的大巴回到山区家中，第一件事就是将钱塞到母亲手里；

犇犇给父亲买了新的电动剃须刀；

何军家在河南周口，打算把钱都存着娶媳妇，过年期间就要见几个相亲对象；

小袁想再挣点钱后换一副助听器，现在这个他已戴了好多年，把他不断长大的耳蜗磨出了新新旧旧的伤……

我们无法预判他们的命运，但选择讲出他们的故事。这些科技进步背后的“无名者”值得一次认真的注视。

数据折叠

人工智能的世界里，存在不为人知的“数据折叠”：

一边是炫酷的科技、神奇的智能应用；一边是大量人工每天重复地生产机器学习的“食物”——标注好的数据。

北京和贵阳，是数据标注世界里的两座“双子星”城市。北京聚集了大量人工智能公司；贵阳近年来着力发展“大数据战略”，已拥有相对完整的数据服务产业生态。

2017年，仅北京中关村大数据产业规模就超过700亿元；贵阳2017年的大数据产业及其关联产业规模总量超过1500亿元。AI行业的总规模也在持续增加，根据麦肯锡2017年4月发布的一份报告，到2025年，AI应用的总市场可能达到1270亿美元。

但标注数据的人，生活在这些巨额数字之外，拿着不高的工资，活动在“第二空间”。

从三里屯驱车1小时，行驶30公里，就到了北京邮电大学宏福校区。这里有北邮和华腾硕博合办的电子商务培训班，学生总数300多人，高峰时期，有120多人参与数据标注的兼职项目。

标注工作室占满了某栋教学楼二层的5个房间，150台电脑前坐着一群十八九岁的学生，正盯着电脑屏幕给图片拉框。他们流程化地操作鼠标——这些枯燥的工作，最终将用于热闹炫酷的无人驾驶项目。

从做数据标注的教室窗口向外望，可以看到北邮的教一，那里有国际学院和计算机专业学生专用的机房。

兼职标数据的培训班学员一个月的收入在2000元左右。如果全职做，人均工资约4000到5000元。而坐在教一的未来算法工程师，刚毕业时，起薪就可能达到30万元/年。

BasicFinder旗下某数据工厂

培训班学员参与的标注项目，采用了目前数据标注行业的主流模式之一——“外包”。

某数据标注主管告诉「甲子光年」，AI数据标注的外包市场2011年开启，2015年真正开始，2016年下半年出现收缩，2017年又有了新一轮的爆发。

外包盛行，是因为人工智能的发展需要大量人力对非结构的数据进行加工，以用于机器学习。而创业团队和巨头公司，为了集中精力研发或保持团队的高学历占比，很少完全自建数据标注团队。

外包江湖门派众多、良莠不齐。

从业者是这样打招呼的，“你是发包方还是外包方？”

BAT、人工智能创业公司，学术团体，以及政府、银行等机构都可能成为发包方。BAT和人工智能公司需求最大，学术团体次之，政府、银行等传统机构的需求最小但有不断增长的趋势。某数据标注主管告诉「甲子光年」，他目前所接触到的上述三类业务需求的比例为7：2：1。

某数据标注公司负责人透露，商汤、旷视这类大的人工智能公司，一年在数据上的支出有数千万。

在“外包方”一端，有 “众包”和“工厂”两种模式。前者是把任务通过平台转接给网民，如“百度众包”、“京东众智”、“龙猫数据”；后者是自己经营团队，对整个流程进行控制，如贵阳梦动科技经营了一个500人的“数据工场”；BasicFinder与二十来家“数据工厂”有长期业务合作，少则几十人，多则两三百人。而在规范的机构之外，还游离着三五人到十几人规模不等的“小作坊”。

许多机构在众包和自营工厂两方面都有涉足，众包平台上也有许多以团队为单位接单的“公会”。

算法公司和人才多集中在北深杭等科技核心区域，而作为一个“劳动密集型”的中低收入行业，数据标注人员散落三四线城市。

在距离贵阳市中心50公里的百鸟河数字小镇，有一个规模500人的“数据工场”，500名标注员中，近一半是附近一家扶贫高职“盛华职业学院”的学生。

位于贵阳的“数据工场”

他们很珍惜这个接近“白领”的兼职机会，1月能挣到1500元，经济上足以自立，省点还可以补贴家用，相比其他兼职选择：去餐厅辛苦端盘子或顶着风雨送外卖，数据标注相对轻松且体面。

盛华学院大数据专业老师，同时也是贵阳梦动科技人工智能服务部总监的曹珊告诉「甲子光年」，她曾带着七个学生来北京某人工智能公司参加图像标注培训，通过后可留下来实习，但竞争激烈，五十九人只留十个，其中不少是北京本地学校的竞争者。最终，这7位来自贵阳的同学都留了下来。

这些年轻的数据标注者，一头连着最前沿的科技，一头连着他们正在回去的家乡——那里往往是贫困、闭塞的所在，是科技的影响力最微弱的“第三空间”。

小志是曹珊的学生，数据工厂腊月二十七才放假，小志坐了四小时大巴回到山区的家里，父母都务农，身体也不好，家里除了房子和田，唯一像样的财产是一头牛。

进高职前，小志甚至都没碰过电脑，唯一会的操作是按开关键。电脑极大地打开了他的世界，但也让他一度沉迷游戏。最严重的时候，课不上了，数据不标了，觉也不睡了。

曹珊为此和小志长谈了多次，目前小志的生活渐渐步入正轨，成了数据标注的小组长，手里带着十多个同学。

但未来工作前途的不可预期，相对低的收入，较大的家庭负担，仍然是这些年轻人无法摆脱的苦恼。

父辈的积累相当顽固，无论是财富、声望，还是贫穷和负担。

父辈与我：从建筑工地到“智能工地”

犇犇的人生在某种程度上，是对父亲的继承。

他是西安某数据标注工作室的标注员，犇犇和他所在的工作室代表了数据标注行业的另一种典型模式“小作坊”。

今年26岁的犇犇，先后做过厨师、进过工厂、推广过数种数字货币，但没有一份工作做得长久。

犇犇父亲在他这个年纪时，是镇上棉纺站的一名工人。2005年棉纺站关门，下岗后的父亲去甘肃当过两年钻井工人，此后一直在做建筑。

直到2017年12月初，犇犇还不知道数据标注这个工种。

当时他接到灵的一个电话，邀请他一起做数据标注工作室。灵和犇犇曾一起推广数字货币，行情最好时，一笔交易能拿两万提成。但好好的币，玩着玩着没了，他们的这次合作铩羽而归。

经历上一次失败后，灵又杀进数据标注领域，很快，她组建了15人规模的工作室，团队成员都跟犇犇一般大，氛围很好，他们常常一边标数据，一边聊天，时间并不难熬。

最难受的是眼睛。从早上九点到晚上六点，工作内容就是盯着屏幕给图片拉框。拉框要求十分精细，偏差丝毫都不行。犇犇眼睛干涩时，会起身去楼道抽烟。

犇犇所在的工作室

眼睛的难受熬熬就能过去，更愁人的是工资不高。

犇犇笑着说，入不敷出啊。他在供一套郑州的房子，每个月要还4700的房贷，而工资撑死就五六千。

在犇犇看来，这份工作也没什么前途：“跟电子厂一样，多做多得。”

犇犇的梦想是在全国开很多养老院，因为小时候的邻居是独居的七十岁老人，“没人养很可怜”。

但开养老院对现在的犇犇来说太难了，他养自己都难。

数据标注的晋升之路只有两条，每条都是窄门：

要么进数据公司，爬完标注员－标注组长－数据经理－数据总监这个链条，层层打怪升级；要么进人工智能公司当数据标注员，然后凭借超人毅力自学技术曲线救国。

前一条路不需要学历，但是千百人过独木桥，且依旧是在数据标注圈子里打转；后一条路能真正学到东西，但对学历有要求。

犇犇只有高中学历，连高考都没参加。因为不愿再读书，他跟父亲起过很大争执，父亲深知打工有多苦。高三的那个暑假，犇犇也去体验了一把：跟着父亲去工地上搬砖。

现在，他成了一名“智能工地”上的新型“搬砖者”。

对科技、社会和自身的关系，如今犇犇有清醒的认知：“人工智能就像是一个孩子，标注好的图片就像是孩子的食物，而我们就是制作食物的人，最苦最累的我们做了，成名的只是那些制造孩子的人。”犇犇说。

两代人的命运在此重叠。

农民工一砖一瓦垒起了实体城市的高楼；数据标注者一框一线搭建起了算法的智能。前者是城市的边缘者，高楼起来了，他们仍是边缘者；后者是科技世界的边缘者，机器变聪明了，他们还是边缘者。

犇犇会最终栖居在数据标注这份工作上吗？他给的答案是不确定的，他不知道这份工作是否不出几年就被取代，也不知道自己是否就此乖乖认命。

中国有五千多万的农民工以建筑为生，到了五六十岁还在工地上忙碌。数据标注的市场才刚打开，「甲子光年」从从业者口中得知，截止2018年年初，以数据标注为生的全职标注员规模达近十万，这个数字未来会继续增长，未来将达数十万。数字标注也将成为新生代农民工的聚集地。

野蛮生长，坑与机会并存

相比聚光灯之下的人工智能科技公司，数据标注行业是个在暗处的行业，存在大量灰色地带。

作为一个劳动密集型行业，进入门槛并不高，压低“成本”、“薄利多量”，就成了许多团队的竞争手段。

许多公司招的标注员都是没有交五险一金的临时工。7、8万的启动资金，就可以在四五线小城组起一个“工作室”。

AI公司也倾向压低成本——某数据标注公司主管告诉「甲子光年」，部分人工智能公司对数据标注的重视不够，过分压低预算，把项目外包给一些不靠谱的团队；这些团队做不完、做不了，又会把任务转包给另一些小团队，或重新找到大的数据标注公司，使质量和交期都无法保证。

“低价竞争和行业不规范导致的层层外包是行业的噩梦。”京东众智平台的负责人李工告诉「甲子光年」。

对小团队来说，外包直接折损了利润。

做过室内装修的何军，在2017年底投入十万积蓄作为启动成本，在河南周口成立了一个40人团队的数据工作室。他2018年的最大计划，就是“争取接到一手项目”。

“利润其实不高”，何军一边抖着腿，一边掰着手指头细细算账，“你看啊，一个拉框平均4分钱，一个员工一天能做大约4500个，一共180块。过关率90%，再除去审核的成本，再给每个标注员每天发110元左右的工资，平均下来工作室每天也就从每个人身上赚30块吧。”何军第一个月亏了本，第二个月勉强持平。

“开年就去跑工商注册，然后一家家联系大公司，得接到一手项目，给员工的多发点工资，现在太低了。”何军说。

小团队只能接二手甚至是好几手的项目，一手项目就像江湖传说，听过没见过。

处境相似的赵聪也特别想接到一手项目。他是2017年10月入场的标注者，自己攒了三个人的团队兼职做数据标注。“我们的项目都是从小公司手里接的，连发包方的名字都不知道”，赵聪说，“利润很低”，三个人，三个月，三个项目，每人也就获得了一千块收入。

大平台也反感层层外包，因为这严重扰乱行业秩序。

“数据标注看起来门槛很低，但其实管理的门槛并不低。价格、产能、交期和质量都要兼顾。很多小团队，拿到的项目自己消化不了，最后又会找到我们。”BasicFinder的杜霖说。

而针对一些特定的复杂任务，还需要进行足够的培训，有的培训期需要1到3个月。在理解客户需求、保证数据的多样性、随机性上，许多小团队也欠缺必要的能力。

层层外包，对数据标注员的直接影响是：摊薄了收入，钱被中间环节分掉：一手的项目在谁手上，价格多高，会经历多少层级，每层有多少利润，都是谜。

还有另一个角色在搅乱这趟浑水——代理人。

代理人说白了就是拉项目跑活儿的人，关系户，是中国人情社会里长出的变量。一些小公司会高薪养代理人，以期打通关键节点。

赵聪无奈地说，“靠关系吃饭的社会”，最末端的标注者最缺这种关系资源。

杜霖认为，这个行业经历了早期的疯狂生长，最终一定会经历一番洗牌，变得更为规范化、透明化。届时质量会取代成本，成为需求方最优先考虑的变量：

“人工智能公司的本质需求是能找到靠谱团队。大家最后都会明白，背着抱着一边沉，想省的钱都省不掉，要保证质量，就是一分钱一分货。 ”

大浪淘沙，有两类机构会最终留下来：注重质量及服务的中小型数据标注公司，以及自有整套数据技术的平台。

而犇犇、何军以及赵聪都有可能被行业清洗出去。

还有5年，只有5年

经营小工作室的何军已经开始紧张了，他听说算法升级后，将不再需要大量人工标注。由于对技术动向缺乏把握，他时常处于一种对未来的不安之中。

杜霖则认为，至少在5年内，数据标注行业的增长空间还很大，数据标注的市场才刚打开，数据需求将紧随人工智能的大规模落地引来一波爆发式增长。

首先，人工智能行业本身的发展，将进一步带动数据标注行业。目前能被建模量化的数据只占真实世界中的极少一部分。现有的数据标注业务主要集中在安防和自动驾驶领域，未来，随着AI深入更多垂直行业，新需求将不断出现。

何军告诉「甲子光年」，前些天就出现了一个他没见过的标注内容，北航的学生找上门来，要对“积云”进行标注。杜霖也跟「甲子光年」分享，他们做过一个很有意思的标注项目——标注指甲区域，因为客户要做美甲机器人。

其次，在现有的主流“有监督学习”的算法模型下，为了让算法有更高的准确率，数据不嫌多。Google的技术大牛Jeff Dean曾在一次公开课上展示一个海量数据的训练结果，如下图所示：横轴代表数据规模，纵轴代表准确率，蓝线是深度神经网络算法，绿线是传统训练方法。

可以看到，蓝线的准确率和数据规模及质量持续成正比，并没有出现趋于平滑的拐点，这说明深度学习对数据有源源不断的需求。

第三，从感知智能到认知智能的跨越，需要的数据维度会更大，这可能催生更精细的数据标注需求——如对一段对话数据的标注，不仅要知道对话内容、语义，可能还需要标注谈话者身份、情绪变化等。

杜霖告诉「甲子光年」，人工智能公司的总支出中，目前有20%-30%用于数据，现阶段大陆市场数据采集及标注的规模保守估计有五十亿。一个参考是，新三板上市公司数据堂2016年的营收达到了9680万元人民币。

京东众智平台的负责人李工对未来也很乐观，他认为，包括采集、标注、清洗等流程的数据市场未来将达上百亿。

但这一切都是基于“有监督学习”这个大前提。行业的一个变量是，如果算法从“有监督学习”升级为无监督学习、强化学习或迁移学习，数据标注需求将大大减少。

技术进步和跃升自有其规律，目前无监督学习等新算法仍然只是学界的探索，尚不能用在大规模的商业落地中。

杜霖判断，新的革新性算法，至少5年内都不会出现。Novumind创始人吴韧此前接受「甲子光年」专访时则认为，深度学习加大数据就是人工智能的“way to go”，较难出现颠覆性的其他路径。

5年，对公司来说是一个可以布局、掉头的“窗口期”。京东众智的李工告诉「甲子光年」，他们应对变化的策略是轻运营和“产品化”，着力研发加速AI落地速度的Pre-A.I.产品，并同时研发平台技术，做到“数据与流程分离架构”。数据标注本身不是他们的核心战略。

BasicFinder也有类似布局，他们希望一手对接垂直行业里的数据生产者，一手对接上游的算法模型公司，共同推进AI的行业落地。

但对数据标注者个体来说，5年后，也许就不得不面临再一次“失业”。到时，他们还能跟随时代的脚步腾挪转移吗？

烫手的小袁

小袁暂时想不到5年后那么长久的事。

作为一名换过40份工作的聋哑人，他很庆幸，终于在“数据标注”领域成了“有用的人”。

小袁是京东众智平台上“静公会”的聋哑人标注员，这个公会全部由听障人士组成。

先后在餐厅、奶粉厂打工的小袁，总是因为无法避险、难以沟通被辞退：“我是烫手的小袁，因为我是聋哑人，所以我总是会烫到身边的人，被扔出很远很远。”

相比过去的工作，数据标注的安全性更高，但也需要相互沟通。

杜霖和残疾人群体深入交流后发现，聋哑人的世界里多为名词、缺乏形容词，比如要向他们解释这根线标得不“直”，就会比较费劲。由于输入信号会被挡掉一半，所以聋哑人接受速度只有健全人的三分之一到五分之一。健全人一周能搞定的培训，聋哑人要花三周或更久。

但是他们的优点是专注、较劲儿、对视觉信号敏锐，数据标注行业对他们来说是机会。

齐工是京东众智平台的培训讲师，几乎每天都去给小袁和工友讲课。齐工说，“想当把英雄，承担更多的责任。”

齐工给聋哑人培训，左一为齐工，右一为小袁

第一次，他们在工作中找到了归属感。像小袁这样的聋哑人在众智平台上还有一千多名，京东为他们成立专门的“静公会”，项目上优先照顾。全职每月有三四千收入，兼职每月有一千以上收入。

杜霖手下也有三个残疾人团队，总共约80人。杜霖和京东负责人都表示，愿意为更多残疾人提供工作机会。

在数据标注这份职业消失之前，这里是他们的家。其中的少数人，也许能通过转型为数据质检者，获得更长期的职业生涯。

杜霖将公司取名为BasicFinder, 初衷是找到人工智能世界中最本真的一层关系——数据。新生代农民工和聋哑人，投身于数据标注这份工作中，也是希望找到最本真的生活。他们的要求很朴实，用犇犇的话来讲是：有一份稳定的工作，有一个幸福的家庭。

但科技的发展，必将带来智能升级，也使整个行业更加规范化。

这有点像武士的悖论：武士存在是为了消灭敌人，但是消灭了敌人武士也就失去了存在的理由，这个意义上，他们是在消灭自己。

数据标注者的工作是帮机器更好的学习，促进人工智能行业的发展，而当行业发展到一定阶段，可能将不再需要如此众多的人工标注。

其实整个人工智能的发展历程也有点像“孤独的武士”：人类发明了机器，到头来机器很可能取代大部分人工，甚至是“发明者”本人。

但是，是武士，就必须去消灭敌人。对知识的无限追求既是人类的天赋也是人类的危险，它早已深藏于我们的基因之中，呼唤我们不断逼近未知边界。

更高的智能一定会到来，认知差距将取代财富差距成为最显著的人群划分标准——那可能是一种更无形的“折叠”。

未来，当我们真正享受智能带来的各种便捷时，历史会遗忘这些人工智能领域的“首批工人”吗？

这可能是除了技术水平之外，判断那个未来是好是坏的更重要的标准。

本文来自新浪网

上一篇:人工智能未来的数据标注将会是自我标注

下一篇:利用70万人的劳动力来标记数据和训练AI模型

“数据标注”今天，那些人工智能背后“人工”正在回家

推荐文章

热门文章