数据标注:光鲜背后的付出

5到10年后,当人工智能全面普及,科技先驱和新一代商业巨子注定会被时代的聚光灯铭记。 但今天却想说一个关于人工智能“从未被讲出”的故事,写一群时代大幕后的“隐形者”——标数据的人。

 20180925161055475.jpg

智能时代滚滚巨轮之下,一批批用于“人脸识别”、“自动驾驶”、“自然语言处理”的标注好的数据,正是出自这些学历不高,每天对着电脑工作8到10小时的人手中——他们是“人工智能背后的人工”。经过采访了多个数据标注服务商、数据标注工作室和数据标注者。据业内人士估计,中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近100万。他们中有职高学生,有尝试过40份工作的聋哑人,有从工地辗转而来的新生代农民工……他们源源不断地为人工智能的发展供应最重要的“数据燃料”——在现有的技术框架下,数据量越大,质量越好,算法模型就表现越好。可以说,数据决定着整个人工智能行业的发展态势。但标注工作本身是一个劳动密集型工种,收入并不高。随着技术的进一步发展,未来还有被取代的可能。许多数据标注者的父辈是参与了中国房地产奇迹的农民工。如今,父辈手里的铁铲变成了年轻人的鼠标、键盘,但和父辈一样,他们仍是边缘者。在这个除夕,他们也像父辈一样踏上了归乡的旅途,不仅是从城市回到乡村,也是从科技前线回到古老的火炉前。小志从贵阳坐了四小时的大巴回到山区家中,第一件事就是将钱塞到母亲手里; 犇犇给父亲买了新的电动剃须刀; 何军家在河南周口,打算把钱都存着娶媳妇,过年期间就要见几个相亲对象; 小袁想再挣点钱后换一副助听器,现在这个他已戴了好多年,把他不断长大的耳蜗磨出了新新旧旧的伤…… 我们无法预判他们的命运,但选择讲出他们的故事。这些科技进步背后的“无名者”值得一次认真的注视。

数据折叠
数据折叠人工智能的世界里,存在不为人知的“数据折叠”: 一边是炫酷的科技、神奇的智能应用;一边是大量人
工每天重复地生产机器学习的“食物”——标注好的数据。 北京和贵阳,是数据标注世界里的两座“双子星”城市。北
京聚集了大量人工智能公司;贵阳近年来着力发展“大数据战略”,已拥有相对完整的数据服务产业生态。 2017
年,仅北京中关村大数据产业规模就超过700亿元;贵阳2017年的大数据产业及其关联产业规模总量超过1500亿
元。AI行业的总规模也在持续增加,根据麦肯锡2017年4月发布的一份报告,到2025年,AI应用的总市场可能达到1270亿美元。 但标注数据的人,生活在这些巨额数字之外,拿着不高的工资,活动在“第二空间”。 从三里屯驱车1小时,行驶30公里,就到了北京邮电大学宏福校区。这里有北邮和华腾硕博合办的电子商务培训班,学生总数300多人,高峰时期,有120多人参与数据标注的兼职项目。 标注工作室占满了某栋教学楼二层的5个房间,150台电脑前坐着一群十八九岁的学生,正盯着电脑屏幕给图片拉框。他们流程化地操作鼠标——这些枯燥的工作,最终将用于热闹炫酷的无人驾驶项目。从做数据标注的教室窗口向外望,可以看到北邮的教一,那里有国际学院和计算机专业学生专用的机房。 兼职标数据的培训班学员一个月的收入在2000元左右。如果全职做,人均工资约4000到5000元。而坐在教一的未来算法工程师,刚毕业时,起薪就可能达到30万元/年。

BasicFinder旗下某数据工厂 培训班学员参与的标注项目,采用了目前数据标注行业的主流模式之一——“外包”。 某数据标注主管告诉「甲子光年」,AI数据标注的外包市场2011年开启,2015年真正开始,2016年下半年出现收缩,2017年又有了新一轮的爆发。 外包盛行,是因为人工智能的发展需要大量人力对非结构的数据进行加工,以用于机器学习。而创业团队和巨头公司,为了集中精力研发或保持团队的高学历占比,很少完全自建数据标注团队。 外包江湖门派众多、良莠不齐。 从业者是这样打招呼的,“你是发包方还是外包方?” BAT、人工智能创业公司,学术团体,以及政府、银行等机构都可能成为发包方。BAT和人工智能公司需求最大,学术团体次之,政府、银行等传统机构的需求最小但有不断增长的趋势。某数据标注主管告诉「甲子光年」,他目前所接触到的上述三类业务需求的比例为7:2:1。 某数据标注公司负责人透露,商汤、旷视这类大的人工智能公司,一年在数据上的支出有数千万。 在“外包方”一端,有 “众包”和“工厂”两种模式。前者是把任务通过平台转接给网民,如“百度众包”、“京东众智”、“龙猫数据”;后者是自己经营团队,对整个流程进行控制,如贵阳梦动科技经营了一个500人的“数据工场”;BasicFinder与二十来家“数据工厂”有长期业务合作,少则几十人,多则两三百人。而在规范的机构之外,还游离着三五人到十几人规模不等的“小作坊”。 许多机构在众包和自营工厂两方面都有涉足,众包平台上也有许多以团队为单位接单的“公会”。 算法公司和人才多集中在北深杭等科技核心区域,而作为一个“劳动密集型”的中低收入行业,数据标注人员散落三四线城市。 在距离贵阳市中心50公里的百鸟河数字小镇,有一个规模500人的“数据工场”,500名标注员中,近一半是附近一家扶贫高职“盛华职业学院”的学生。位于贵阳的“数据工场” 他们很珍惜这个接近“白领”的兼职机会,1月能挣到1500元,经济上足以自立,省点还可以补贴家用,相比其他兼职选择:去餐厅辛苦端盘子或顶着风雨送外卖,数据标注相对轻松且体面。 盛华学院大数据专业老师,同时也是贵阳梦动科技人工智能服务部总监的曹珊告诉「甲子光年」,她曾带着七个学生来北京某人工智能公司参加图像标注培训,通过后可留下来实习,但竞争激烈,五十九人只留十个,其中不少是北京本地学校的竞争者。最终,这7位来自贵阳的同学都留了下来。 这些年轻的数据标注者,一头连着最前沿的科技,一头连着他们正在回去的家乡——那里往往是贫困、闭塞的所在,是科技的影响力最微弱的“第三空间”。 小志是曹珊的学生,数据工厂腊月二十七才放假,小志坐了四小时大巴回到山区的家里,父母都务农,身体也不好,家里除了房子和田,唯一像样的财产是一头牛。 进高职前,小志甚至都没碰过电脑,唯一会的操作是按开关键。电脑极大地打开了他的世界,但也让他一度沉迷游戏。最严重的时候,课不上了,数据不标了,觉也不睡了。 曹珊为此和小志长谈了多次,目前小志的生活渐渐步入正轨,成了数据标注的小组长,手里带着十多个同学。 但未来工作前途的不可预期,相对低的收入,较大的家庭负担,仍然是这些年轻人无法摆脱的苦恼。 父辈的积累相当顽固,无论是财富、声望,还是贫穷和负担。父辈与我:从建筑工地到“智能工地”犇犇的人生在某种程度上,是对父亲的继承。 他是西安某数据标注工作室的标注员,犇犇和他所在的工作室代表了数据标注行业的另一种典型模式“小作坊”。 今年26岁的犇犇,先后做过厨师、进过工厂、推广过数种数字货币,但没有一份工作做得长久。 犇犇父亲在他这个年纪时,是镇上棉纺站的一名工人。2005年棉纺站关门,下岗后的父亲去甘肃当过两年钻井工人,此后一直在做建筑。 直到2017年12月初,犇犇还不知道数据标注这个工种。 当时他接到灵的一个电话,邀请他一起做数据标注工作室。灵和犇犇曾一起推广数字货币,行情最好时,一笔交易能拿两万提成。但好好的币,玩着玩着没了,他们的这次合作铩羽而归。 经历上一次失败后,灵又杀进数据标注领域,很快,她组建了15人规模的工作室,团队成员都跟犇犇一般大,氛围很好,他们常常一边标数据,一边聊天,时间并不难熬。 最难受的是眼睛。从早上九点到晚上六点,工作内容就是盯着屏幕给图片拉框。拉框要求十分精细,偏差丝毫都不行。犇犇眼睛干涩时,会起身去楼道抽烟。

犇犇所在的工作室 眼睛的难受熬熬就能过去,更愁人的是工资不高。 犇犇笑着说,入不敷出啊。他在供一套郑州的房子,每个月要还4700的房贷,而工资撑死就五六千。 在犇犇看来,这份工作也没什么前途:“跟电子厂一样,多做多得。” 犇犇的梦想是在全国开很多养老院,因为小时候的邻居是独居的七十岁老人,“没人养很可怜”。 但开养老院对现在的犇犇来说太难了,他养自己都难。 数据标注的晋升之路只有两条,每条都是窄门: 要么进数据公司,爬完标注员-标注组长-数据经理-数据总监这个链条,层层打怪升级;要么进人工智能公司当数据标注员,然后凭借超人毅力自学技术曲线救国。 前一条路不需要学历,但是千百人过独木桥,且依旧是在数据标注圈子里打转;后一条路能真正学到东西,但对学历有要求。 犇犇只有高中学历,连高考都没参加。因为不愿再读书,他跟父亲起过很大争执,父亲深知打工有多苦。高三的那个暑假,犇犇也去体验了一把:跟着父亲去工地上搬砖。 现在,他成了一名“智能工地”上的新型“搬砖者”。 对科技、社会和自身的关系,如今犇犇有清醒的认知:“人工智能就像是一个孩子,标注好的图片就像是孩子的食物,而我们就是制作食物的人,最苦最累的我们做了,成名的只是那些制造孩子的人。”犇犇说。 两代人的命运在此重叠。 农民工一砖一瓦垒起了实体城市的高楼;数据标注者一框一线搭建起了算法的智能。前者是城市的边缘者,高楼起来了,他们仍是边缘者;后者是科技世界的边缘者,机器变聪明了,他们还是边缘者。 犇犇会最终栖居在数据标注这份工作上吗?他给的答案是不确定的,他不知道这份工作是否不出几年就被取代,也不知道自己是否就此乖乖认命。 中国有五千多万的农民工以建筑为生,到了五六十岁还在工地上忙碌。数据标注的市场才刚打开,「甲子光年」从从业者口中得知,截止2018年年初,以数据标注为生的全职标注员规模达近十万,这个数字未来会继续增长,未来将达数十万。数字标注也将成为新生代农民工的聚集地。野蛮生长,坑与机会并存相比聚光灯之下的人工智能科技公司,数据标注行业是个在暗处的行业,存在大量灰色地带。 作为一个劳动密集型行业,进入门槛并不高,压低“成本”、“薄利多量”,就成了许多团队的竞争手段。 许多公司招的标注员都是没有交五险一金的临时工。7、8万的启动资金,就可以在四五线小城组起一个“工作室”。 AI公司也倾向压低成本——某数据标注公司主管告诉「甲子光年」,部分人工智能公司对数据标注的重视不够,过分压低预算,把项目外包给一些不靠谱的团队;这些团队做不完、做不了,又会把任务转包给另一些小团队,或重新找到大的数据标注公司,使质量和交期都无法保证。 “低价竞争和行业不规范导致的层层外包是行业的噩梦。”京东众智平台的负责人李工告诉「甲子光年」。 对小团队来说,外包直接折损了利润。 做过室内装修的何军,在2017年底投入十万积蓄作为启动成本,在河南周口成立了一个40人团队的数据工作室。他2018年的最大计划,就是“争取接到一手项目”。 “利润其实不高”,何军一边抖着腿,一边掰着手指头细细算账,“你看啊,一个拉框平均4分钱,一个员工一天能做大约4500个,一共180块。过关率90%,再除去审核的成本,再给每个标注员每天发110元左右的工资,平均下来工作室每天也就从每个人身上赚30块吧。”何军第一个月亏了本,第二个月勉强持平。 “开年就去跑工商注册,然后一家家联系大公司,得接到一手项目,给员工的多发点工资,现在太低了。”何军说。 小团队只能接二手甚至是好几手的项目,一手项目就像江湖传说,听过没见过。 处境相似的赵聪也特别想接到一手项目。他是2017年10月入场的标注者,自己攒了三个人的团队兼职做数据标注。“我们的项目都是从小公司手里接的,连发包方的名字都不知道”,赵聪说,“利润很低”,三个人,三个月,三个项目,每人也就获得了一千块收入。 大平台也反感层层外包,因为这严重扰乱行业秩序。 “数据标注看起来门槛很低,但其实管理的门槛并不低。价格、产能、交期和质量都要兼顾。很多小团队,拿到的项目自己消化不了,最后又会找到我们。”BasicFinder的杜霖说。 而针对一些特定的复杂任务,还需要进行足够的培训,有的培训期需要1到3个月。在理解客户需求、保证数据的多样性、随机性上,许多小团队也欠缺必要的能力。 层层外包,对数据标注员的直接影响是:摊薄了收入,钱被中间环节分掉:一手的项目在谁手上,价格多高,会经历多少层级,每层有多少利润,都是谜。 还有另一个角色在搅乱这趟浑水——代理人。 代理人说白了就是拉项目跑活儿的人,关系户,是中国人情社会里长出的变量。一些小公司会高薪养代理人,以期打通关键节点。 赵聪无奈地说,“靠关系吃饭的社会”,最末端的标注者最缺这种关系资源。 杜霖认为,这个行业经历了早期的疯狂生长,最终一定会经历一番洗牌,变得更为规范化、透明化。届时质量会取代成本,成为需求方最优先考虑的变量:“人工智能公司的本质需求是能找到靠谱团队。大家最后都会明白,背着抱着一边沉,想省的钱都省不掉,要保证质量,就是一分钱一分货。 ”大浪淘沙,有两类机构会最终留下来:注重质量及服务的中小型数据标注公司,以及自有整套数据技术的平台。 而犇犇、何军以及赵聪都有可能被行业清洗出去。还有5年,只有5年经营小工作室的何军已经开始紧张了,他听说算法升级后,将不再需要大量人工标注。由于对技术动向缺乏把握,他时常处于一种对未来的不安之中。 杜霖则认为,至少在5年内,数据标注行业的增长空间还很大,数据标注的市场才刚打开,数据需求将紧随人工智能的大规模落地引来一波爆发式增长。 首先,人工智能行业本身的发展,将进一步带动数据标注行业。目前能被建模量化的数据只占真实世界中的极少一部分。现有的数据标注业务主要集中在安防和自动驾驶领域,未来,随着AI深入更多垂直行业,新需求将不断出现。 何军告诉我们,前些天就出现了一个他没见过的标注内容,北航的学生找上门来,要对“积云”进行标注。杜霖也跟我们分享,他们做过一个很有意思的标注项目——标注指甲区域,因为客户要做美甲机器人。 其次,在现有的主流“有监督学习”的算法模型下,为了让算法有更高的准确率,数据不嫌多。Google的技术大牛Jeff Dean曾在一次公开课上展示一个海量数据的训练结果,如下图所示:横轴代表数据规模,纵轴代表准确率,蓝线是深度神经网络算法,绿线是传统训练方法。 可以看到,蓝线的准确率和数据规模及质量持续成正比,并没有出现趋于平滑的拐点,这说明深度学习对数据有源源不断的需求。第三,从感知智能到认知智能的跨越,需要的数据维度会更大,这可能催生更精细的数据标注需求——如对一段对话数据的标注,不仅要知道对话内容、语义,可能还需要标注谈话者身份、情绪变化等。 杜霖告诉我们,人工智能公司的总支出中,目前有20%-30%用于数据,现阶段大陆市场数据采集及标注的规模保守估计有五十亿。一个参考是,新三板上市公司数据堂2016年的营收达到了9680万元人民币。 京东众智平台的负责人李工对未来也很乐观,他认为,包括采集、标注、清洗等流程的数据市场未来将达上百亿。 但这一切都是基于“有监督学习”这个大前提。行业的一个变量是,如果算法从“有监督学习”升级为无监督学习、强化学习或迁移学习,数据标注需求将大大减少。 技术进步和跃升自有其规律,目前无监督学习等新算法仍然只是学界的探索,尚不能用在大规模的商业落地中。 杜霖判断,新的革新性算法,至少5年内都不会出现。Novumind创始人吴韧此前接受专访时则认为,深度学习加大数据就是人工智能的“way to go”,较难出现颠覆性的其他路径。 5年,对公司来说是一个可以布局、掉头的“窗口期”。京东众智的李工告诉我们,他们应对变化的策略是轻运营和“产品化”,着力研发加速AI落地速度的Pre-A.I.产品,并同时研发平台技术,做到“数据与流程分离架构”。数据标注本身不是他们的核心战略。

20180925161146555.jpg

BasicFinder也有类似布局,他们希望一手对接垂直行业里的数据生产者,一手对接上游的算法模型公司,共同推进AI的行业落地。 但对数据标注者个体来说,5年后,也许就不得不面临再一次“失业”。到时,他们还能跟随时代的脚步腾挪转移吗?烫手的小袁小袁暂时想不到5年后那么长久的事。 作为一名换过40份工作的聋哑人,他很庆幸,终于在“数据标注”领域成了“有用的人”。 小袁是京东众智平台上“静公会”的聋哑人标注员,这个公会全部由听障人士组成。 先后在餐厅、奶粉厂打工的小袁,总是因为无法避险、难以沟通被辞退:“我是烫手的小袁,因为我是聋哑人,所以我总是会烫到身边的人,被扔出很远很远。”相比过去的工作,数据标注的安全性更高,但也需要相互沟通。 杜霖和残疾人群体深入交流后发现,聋哑人的世界里多为名词、缺乏形容词,比如要向他们解释这根线标得不“直”,就会比较费劲。由于输入信号会被挡掉一半,所以聋哑人接受速度只有健全人的三分之一到五分之一。健全人一周能搞定的培训,聋哑人要花三周或更久。 但是他们的优点是专注、较劲儿、对视觉信号敏锐,数据标注行业对他们来说是机会。 齐工是京东众智平台的培训讲师,几乎每天都去给小袁和工友讲课。齐工说,“想当把英雄,承担更多的责任。”齐工给聋哑人培训,左一为齐工,右一为小袁 第一次,他们在工作中找到了归属感。像小袁这样的聋哑人在众智平台上还有一千多名,京东为他们成立专门的“静公会”,项目上优先照顾。全职每月有三四千收入,兼职每月有一千以上收入。 杜霖手下也有三个残疾人团队,总共约80人。杜霖和京东负责人都表示,愿意为更多残疾人提供工作机会。 在数据标注这份职业消失之前,这里是他们的家。其中的少数人,也许能通过转型为数据质检者,获得更长期的职业生涯。杜霖将公司取名为BasicFinder, 初衷是找到人工智能世界中最本真的一层关系——数据。新生代农民工和聋哑人,投身于数据标注这份工作中,也是希望找到最本真的生活。他们的要求很朴实,用犇犇的话来讲是:有一份稳定的工作,有一个幸福的家庭。但科技的发展,必将带来智能升级,也使整个行业更加规范化。这有点像武士的悖论:武士存在是为了消灭敌人,但是消灭了敌人武士也就失去了存在的理由,这个意义上,他们是在消灭自己。数据标注者的工作是帮机器更好的学习,促进人工智能行业的发展,而当行业发展到一定阶段,可能将不再需要如此众多的人工标注。其实整个人工智能的发展历程也有点像“孤独的武士”:人类发明了机器,到头来机器很可能取代大部分人工,甚至是“发明者”本人。但是,是武士,就必须去消灭敌人。对知识的无限追求既是人类的天赋也是人类的危险,它早已深藏于我们的基因之中,呼唤我们不断逼近未知边界。更高的智能一定会到来,认知差距将取代财富差距成为最显著的人群划分标准——那可能是一种更无形的“折叠”。未来,当我们真正享受智能带来的各种便捷时,历史会遗忘这些人工智能领域的“首批工人”吗?这可能是除了技术水平之外,判断那个未来是好是坏的更重要的标准。

推荐文章

人工智能行业研究报告围涵盖AI基础技术及终端产品研究范围:人工智能是一门综合了计算机科学、生理学、哲学的交叉学科。凡是使用机器代替人类实现认知、识别、分析、决策等功能,均可认为使用了人工智能技术。作为一种基础技术,人工智能在很多行业都有用武之地。既有人工智能+基础行业的概念(如人工智能+金融=Fintech),也有其具体应用行业的概念(比如机器人)。按照技术应用的不同场景,可以将人工智能分为基础技术类及终端产品类,本报告研究范围涵盖以下领域:研究目的:本报告将集中探讨:„ 人工智能行业整体的发展现状与技术发展趋势„ 各细分领域投融资热度与技术成熟度„ 巨头在人工智能领域的布局与策略„ 各应用领域市场规模、竞争格局、进入壁垒、产业链上下游构成„ 行业标杆的商业模式、核心竞争力、未来发展预期目 录 Contents一、人工智能行业驱动力1. 行业驱动——数据量、运算力、算法技术2. 政策法规3. 投资热度国际投资热度分析国内投资热度分析国内公司运营数据分析二、人工智能产业链与巨头布局分析1. 产业链构成2. 巨头布局开源平台布局芯片布局技术布局一、人工智能行业概述三、人工智能基础应用介绍与典型公司分析1. 语音识别2. 语义识别3. 计算机视觉目 录 Contents五、人工智能在各行业的应用介绍与典型公司分析1. 机器人2. AI+金融3. AI+医疗4. AI+安防5. AI+家居六、人工智能芯片介绍与典型公司分析六、人工智能行业趋势展望1. 人工智能各行业综述2. 人工智能当前发展瓶颈四、人工智能芯片介绍与典型公司分析1. 人工智能芯片适用性分析GPUFPGAASIC2. 人工智能芯片产业链分析3. 人工智能芯片典型公司分析人工智能行业概述CHAPTER 1 • 行业驱动——数据量、运算力、算法技术• 政策法规• 投资热度国际投资热度分析国内投资热度分析国内公司运营数据分析636Kr-人工智能行业研究报告2017年2月数据量、运算力和算法模型是影响人工智能行业发展的三大要素。2000年之后,数据量的上涨、运算力的提升和深度学习算法的出现极大的促进了人工智能行业的发展。• 海量数据为人工智能发展提供燃料要理解数据量的重要性,得先从算法说起。数据量和算法可以分别比作人工智能的燃料和发动机。算法是计算机基于所训练的数据集归纳出的识别逻辑,好的算法模型可以实现精准的物体和场景识别。数据集的丰富性和大规模性对算法训练尤为重要。因此可以说,实现机器精准视觉识别的第一步,就是获取海量而优质的应用场景数据。以人脸识别为例,训练该算法模型的图片数据量至少应为百万级别。2000年以来,得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生并存储的数据量急剧增加,这为通过深度学习的方法来训练计算机视觉技术提供很好的土壤。IDC数据显示,从2011年起,全球所产生的数据量已达到ZB级别(1ZB约为10亿GB ),海量的数据将为计算机视觉算法模型提供远远不断的素材。而关于数据量对提高算法准确率方面的重要性,更有学者提出:“It’s not who has the best algorithm that wins. It’s who has the most data. ”行业驱动力 · 数据量海量数据为人工智能发展提供燃料大数据训练模型 应用于具体场景算法模型 场景应用01020304050来源:IDC,36氪研究院2020数据量与准确率之间的关系 2009-2020年全球总体数据量(单位:ZB)20090%10%20%30%40%50%60%70%80%90%100%100 200 300 400 500 600 700 800 900 1000测试字符数量Window Memory-BasedPerceptron Naïve Bayes说明:window、memory-based、perceptron、naive bayes 均为不同算法来源:Stanford机器学习公开课,36氪研究院1.1行业驱动---数据量运算力算法技术1.2 政策法规1.3 投资热度全球投资热度国内投资热度国内公司运营数据分析准确率736Kr-人工智能行业研究报告2017年2月人工智能领域是一个数据密集的领域,传统的数据处理技术难以满足高强度、大数据的处理需求。 AI芯片的出现让大规模的数据效率大大提升,加速了深层神经网络的训练迭代速度,极大的促进了人工智能行业的发展。AI算法的处理需要大量的矩阵计算操作,因此特别适合使用并行运算芯片进行数据处理。而传统的CPU一次只能同时做一两个加减法运算,无法满足并行运算的需求。目前,出现了GPU、NPU、FPGA和各种各样的AI-PU专用芯片。而其中, 出现最早的GPU为人工智能的发展做出了巨大的贡献。擅长并行计算的GPU大幅提升机器学习效率。在GPU出现之前,算法运行的速度是很慢的,即使是一个简单的神经网络数据的培训,也得花费几天、甚至几周的时间。 1999 年,Nvidia 公司在推销Geforce 256 芯片时,提出了GPU( 图像处理器) 概念。GPU是专为执行复杂的数学和集合计算而设计的数据处理芯片。它的出现让并行计算成为可能,对数据处理规模、数据运算速度带来了指数级的增长,极大的促进人工智能行业,尤其计算机视觉领域的发展。GPU与传统CPU相比,在处理海量数据方面有压倒性的优势。 据Rajat Raina 与吴恩达的合作论文 “用 GPU 进行大规模无监督深度学习” 显示,在运行大规模无监督深度学习模型时,使用 GPU 和使用传统双核 CPU 在运算速度上的差距最大会达到近七十倍。在一个四层,一亿个参数的深度学习网络上,使用 GPU 将程序运行时间从几周降低到一天。今天,数据处理速度不再成为制约计算机视觉发展的主要瓶颈。想要发挥专用芯片的计算优势,需要芯片结构和软件算法两者相匹配。目前的趋势是,随着对人工智能各类应用需求的不断增强,专门用于加速人工智能应用的AI-PU或将成为计算机另一个标配组件。行业驱动 · 运算力运算力的提升大幅推动人工智能发展世界上第一款GPU-GeForce 256 中科寒武纪即将投产的 “寒武纪”NPU Altera的高端FPGA 产品 Stratix 101.1行业驱动---数据量运算力算法技术1.2 政策法规1.3 投资热度全球投资热度国内投资热度国内公司运营数据分析836Kr-人工智能行业研究报告2017年2月在深度学习出现之前,机器学习领域的主流是各种浅层学习算法,如神经网络的反响传播算法(BP算法)、支撑向量机(SVM)、Boosting、Logistic Regression等。这些算法的局限性在于对有限样本和计算单元的情况下对复杂函数的表示能力有限,对复杂数据的处理受到制约。以计算机视觉为例,作为一个数据复杂的领域,浅层学习算法的识别准确率并不高。该类识别原理多为通过寻找合适的特征来让机器辨识物品状态,由于这个处理逻辑是浅层的,不能穷举各种复杂的情境,因而算法拟合的准确率不高。深度学习突破人工智能算法瓶颈。2006年,Geoffrey Hinton 和合作者发表论文,“A fast algorithm for deep belief nets”,此后“Deep Learning(深度学习)”的概念被提出。以计算机视觉为例,深度学习出现之前,基于寻找合适的特征来让机器辨识物体状态的方式几乎代表了计算机视觉的全部。尽管对多层神经网络的探索已经存在,然而实践效果并不好。深度学习出现之后,计算机视觉的主要识别方式发生重大转变,自学习状态成为视觉识别主流。即,机器从海量数据库里自行归纳物体特征,然后按照该特征规律识别物体。图像识别的精准度也得到极大的提升,从70%+提升到95%。在短短几年时间里,深度学习颠覆了语音识别、语义理解、计算机视觉等基础应用领域的算法设计思路,逐渐形成了从一类训练数据出发,经过一个端到端的模型,直接输出最终结果的一种模式。由于深度学习是根据提供给它的大量的实际行为(训练数据集)来自我调整规则中的参数,进而调整规则,因此在和训练数据集类似的场景下,可以做出一些很准确的判断。行业驱动力 · 算法深度学习突破人工智能算法瓶颈72.00% 74.50%84.70%89.00%93.00% 95.00%60%70%80%90%100%2010 2011 2012 2013 2014 20152010-2015年 ImageNet 比赛图像识别准确率注释:ImageNet是计算机视觉系统识别项目。来源:36氪研究院过去 现在 未来Google translate语义识别准确率60%83.4% …注释:Google translate是语义识别项目。来源:36氪研究院1.1行业驱动---数据量运算力算法技术1.2 政策法规1.3 投资热度全球投资热度国内投资热度国内公司运营数据分析936Kr-人工智能行业研究报告2017年2月 • 其他国家人工智能相关政策各国均在政策层面强调和推动人工智能的发展。其中,美国侧重于研发新型脑研究技术;欧盟主攻以超级计算机技术来模拟脑功能;日本则聚焦以动物为模型研究各种脑功能和脑疾病的机理。政策法规 · 国外政策加码,人工智能发展如火如荼国家 相关措施美国• 2013 年4 月,美国正式公布“推进创新神经技术脑研究计划”(BRAIN)。得到政府拨款1.1 亿美元,覆盖美国国家卫生研究院(HIN)、国防部高级研究项目局、国家科学基金会。• 2014 年HIN 小组制定了未来十年详细计划,预计每年投入3-5 亿美元开发用于监测和映射大脑活动和结构的新工具,十年计划共花费45 亿美元。欧盟2013 年初,欧盟宣布了未来十年的“新兴旗舰技术项目”——人脑计划(HBP),该项目汇聚了来自24 个国家的112 家企业、研究所和高校等机构,总投资预计将达到12 亿欧元。计划在2018 年前开发出第一个具有意识和智能的人造大脑.日本2014 年9 月启动大脑研究计划Brain/MINDS。该计划为期10 年,由日本理化学研究所主导实施,旨在理解大脑如何工作以及通过建立动物模型,研究大脑神经回路技术,从而更好地诊断以及治疗大脑疾病。来源:36氪研究院1.1行业驱动---数据量运算力算法技术1.2 政策法规1.3 投资热度全球投资热度国内投资热度国内公司运营数据分析1036Kr-人工智能行业研究报告2017年2月 • 国内人工智能相关政策国内近几年也出台了相关扶植人工智能发展的政策,积极推动人工智能在各个细分领域的渗透。2016年5月,国家四部委更是颁布《 “互联网+”人工智能三年行动实施方案》,明确提出要培育发展人工智能新兴产业、推进重点领域智能产品创新、提升终端产品智能化水平。政策法规 · 国内政策加码,人工智能发展如火如荼实施时间 颁布主体 法律法规 相关内容2015.5 国务院 《中国制造2025》提出“加快发展智能制造装备和产品”,指出“组织研发具有深度感知、智慧决策、自动执行功能的高档数控机床、工业机器人、增材制造装备等智能制造装备以及智能化生产线,统筹布局和推动智能交通工具、智能工程机械、服务机器人、智能家电、智能照明电器、可穿戴设备等产品研发和产业化。”2015/7/4 国务院《国务院关于积极推进“互联网+”行动的指导意见》明确提出人工智能作为11个重点布局的领域之一,促进人工智能在智能家居、智能终端、智能汽车、机器人等领域的推广应用。2015/7/9 中央办公厅、国务院《关于加强社会治安防控体系建设的意见》加大公共安全视频监控覆盖,将社会治安防控信息化纳入智慧城市建设总体规划,加深大数据、云计算和智能传感等新技术的应用。2016.1 国务院 《“十三五”国家科技创新规划》智能制造和机器人成为“科技创新-2030 项目”重大工程之一。2016/3/18 国务院《国民经济和社会发展第十三个五年规划纲要(草案)》人工智能概念进入“十三五”重大工程。2016/5/18国家发展改革委、科技部、工业和信息化部、中央网信办 《“互联网+”人工智能三年行动实施方案》明确了要培育发展人工智能新兴产业、推进重点领域智能产品创新、提升终端产品智能化水平,并且政府将在资金、标准体系、知识产权、人才培养、国际合作、组织实施等方面进行保障。1.1行业驱动---数据量运算力算法技术1.2 政策法规1.3 投资热度全球投资热度国内投资热度国内公司运营数据分析1136Kr-人工智能行业研究报告2017年2月 • 融资规模与成立公司数量总览咨询公司Venture Scanner统计,截止2016年Q2,全球人工智能公司已突破1000家,跨越13个子门类,融资金额高达48亿美元。而人工智能创投金额在5年间增长了12倍。投资热度 · 全球全球AI领域融资金额5年增长12倍62 96 66 68 64 138 125 102 186 283 211 141 321 555 394 942 769 398 911 485 6361,04911211322 2038 37 38 43 50634770 77 84 809284120100134

热门文章

        对数据标注行业稍微有些了解的人都知道数据标注进入门槛低,适合很多人兼职也适合创业。        正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。        但是目前有个有趣的现象,那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑?为什么有些人会说数据标注就是个坑呢?        其实对与有上述问题认识的人我们认为,这些人多数都是有于对这个行业对自身条件的不了解,盲目的开始进入数据标注行业的。为什么我们会这样说呢?下面就给给大家来分析下到底有哪几方面的原因:        一、有相当一部分人是听了朋友或者网上消息说这行很火爆,好做,门槛低,也有一部分人了因此租办公室买电脑招人,然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业,更没有认真仔细得去调查分析,到底自己能不能做好一个项目,到底自己能不能有质有量按时交付的完成一个项目,到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。        二、数据标注项目虽然入门门槛低,但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目,还有一部分人由于自己对标注项目重视程度不足接到项目之后呢?不仔细认真的去阅读理解项目规则,更没有很好的对规则质检标准去培训员工,而对员工的要求主要看重每天的产出效率,从而导致接到手的项目做的质量很差,频繁的返工,有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少,最终的结果就是做好些个项目但基本都是赔钱。        三、虽然业内人都 说数据标注简单,但是标注项目他也是一个系统性的工程,一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平,质量管理能力,运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱,要赚钱不是那么简单的。        四、还有些工作室 、小公司因为对行业不够了解等他们做了一段时间后发现,自己团队经常会没有项目做,而自己团队接项目的业务能力又不具备,甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目,时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。        五、下来要说的就是一部分人人兼职人员由于认识不到位,对项目的规则质量要求 文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算,最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。        标注行业本身由于进入门槛低,做的人很行业内盲目打价格战,导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱,所以在这里也提醒大家做任何事都要谨慎而行。