2019数据标注行业的发展速度更加令人惊叹!人工智能外包公司、人工智能企业部门、第三方数据标注与审核公司三分市场

 数据标注就是使用自动化的工具从互联网上抓取、收集数据包括文本、图片、语音等等,然后对抓取的数据进行整理与标注。数据标注与审核行业上游为计算机软硬件生产商及人力资源行业,下游主要是安放、自动驾驶等人工智能领域。

数据标注与审核行业产业链示意图

资料来源:智研咨询整理

    智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》显示:近几年,数据标注与审核行业快速发展,2018年市场规模已达到52.55亿元,至少在未来的5年内,数据标注行业的增长空间还很大,数据标注的市场才刚打开,数据需求将紧随人工智能的大规模落地引来一波爆发式增长。

2015-2018年数据标注与审核行业市场规模及增速情况

资料来源:智研咨询整理

    近几年,随着国内人工智能行业的飞速发展,数据标注与审核行业产值快速增长,从2015年的5.85亿元增长到2018年的54.02亿元,近几年我国数据标注与审核行业产值情况如下图所示:

2015-2018年中国数据标注与审核行业产值情况

资料来源:智研咨询整理

    2018年我国数据标注与审核行业规模达到52.55亿元。其中,有三分之一是AI公司内部的标注部门消化,另外三分之一被商务流程外包公司瓜分,剩下的34%左右业务量流向专门做数据采标的第三方公司。

2018年我国数据标注与审核行业分布格局

资料来源:智研咨询整理

2018年我国部分地区数据标注与审核行业优势企业一览

产品名称

所属公司

所在地区

简介

荟萃

上海丁火智能科技有限公司

上海(华东)

丁火智能是一家人工数据标注服务提供商,通过“移动众包执行+全职员工全检”模式,为企业提供数据采集和标注服务,“移动众包”用于降低成本提高效率,“全职员工”用于保证交付数据质量,提供的服务包括图片、文本、语音和视频的采集和标注。

龙猫数据

北京安捷智合科技有限公司

北京(华北)

龙猫数据是一家专业的人工智能数据服务提供商,致力于提供人工智能大数据采集、数据标注、数据提取、数据校验、数据清洗、线上众包等服务,服务领域涵盖图像、语音、文本、视频四个方面。

爱数智慧

北京爱数智慧科技有限公司

北京(华北)

爱数智慧——专业的AI人工智能数据服务提供商。致力于提供智能语音、图像、文本数据的采集、清洗、标注、校验等服务,为深度学习提供训练语料。

视在科技

杭州视在科技有限公司

上浙江(华东)

视在科技是一家基于视觉行为分析的运营服务公司。公司通过VAI技术实现数据自动标注化、结构化等行为算法,将大数据显像化并提供行业解决方案和AI算法,进而形成闭环商业链。

泛函科技

北京泛函科技有限公司

北京(华北)

泛函科技是一家以技术为核心,专注于各类语音、图像采集及数据处理科技公司,可承接全世界30+类语言语音及图像文件的标注和清洗工作。拥有覆盖全球36个国家和地区的采集和标注资源,致力于为客户提供一站式训练集数据定制服务

锦翰科技

锦翰科技(深圳)有限公司

广东(华南)

一家位置数据服务提供商,致力于利用地图、定位和大数据分析技术为传统的建筑物运营管理者提供数字化的运营、管理、营销的位置服务解决方案,同时为消费者提供基于位置的崭新服务。

BasicFinder平台

北京深度搜索科技有限公司

北京(华北)

深度搜索科技是一家图像识别与深度学习技术研发商,公司的主要业务包括提供大数据标注、人工智能技术咨询与提供相应的技术解决方案、智能系统企业定制和智能生活平台化产品等多项服务。

星尘数据

北京星尘纪元智能科技有限公司

北京(华北)

星尘数据是一家为专为人工智能研发机构服务的数据众包平台。我们提供训练模型过程中所需要的人力来帮助解决数据的采集、标定、质量监控等工作,使企业能够专注于自己的核心业务。星辰数据的团队成员均来自于世界一流的知名企业,有着多年机器学习的经验和对数据标注服务的深入理解。我们结合了谷歌、百度等世界顶尖人工智能公司的标注系统,轻松、快捷地解决您的所需标注任务。

霓螺

霓螺(宁波)信息技术有限公司

浙江(华东)

霓螺是一家图像视频扫描与识别技术服务企业,包括物体检测,将对上传的视频进行快速扫描探测并识别出人、车、物。推荐视频中NILO标签标注点;图像识别,对物体图像进行搜索,建立视频内标记NILO标签的物体与数据库中信息的关联关系;以及运动跟踪,所有的NILO标签都可以自动跟踪物体的运动轨迹。

 

资料来源:智研咨询整理

    2015年,我国数据标注与审核人工智能企业部门规模为2.36亿元,人工智能外包公司规模为1.85亿元,第三方数据标注与审核公司规模为1.41亿元。2018年,我国数据标注与审核人工智能企业部门规模为17.34亿元,较上一年相比增长了61.60%,人工智能外包公司规模为17.34亿元,较上一年相比增长了66.41%,第三方数据标注与审核公司规模为17.87亿元,较上一年相比增长了88.11%。

2015-2018年中国数据标注与审核应用市场需求特征

推荐文章

编者按:这是创新工场董事长李开复在2019上海世界人工智能大会上的主论坛演讲。   此前对于AI开启的行业赋能,已经被很多次阐释、验证并不断产出成果。   但对于“AI+”的发展路径、逻辑和未来,在李开复之前还没有人有过如此大道至简式的分析。   或许跟李开复的履历和现在密不可分。他是80年代的计算机博士,论文成果就是AI领域的研究,是懂AI的科学家。   他又先后任职微软、谷歌等巨头,完整经历了IT、互联网和移动互联网的演进,是继往开来的产业变迁一线参与者。   现在AI复兴以来,他创办的投资机构创新工场已投资60家AI公司,其中独角兽就有5家。以及思考着作《AI未来》,在中美都成畅销读物,后又被印成多国语言,周游列国AI。   所以这一次“AI+”4时代的思考,更是真正全球视野之下的分析。   参考这个逻辑,或许还能解答另一个问题:   AI公司如何发展?又会往哪里去?   原演讲题为《“AI+”时代的到来》,小标题为后添加:    尊敬的陈市长、王部长,各位嘉宾,今天我要讲的题目是《“AI+”时代的到来》。“互联网+”曾经是一个非常普遍的口号,今天我们要讲的是“AI+”。   “AI+”是什么意思?我们可以看到在过去的每一波浪潮当中,我刚刚从日内瓦回来,和施瓦布教授(达沃斯世界经济论坛发起人)交流,我们看到的是第四次工业革命在过去的蒸汽机、电气化、信息通信技术和互联网基础上,AI将带来第四次工业革命,AI在各种不同行业都有应用。   AI演进4浪潮   在我的书《AI未来》当中,我们描述了四波“AI浪潮”:   AI是数据驱动,海量的数据是AI成功的要素,所以第一波浪潮一定是互联网数据的这一波。   第二波浪潮是金融和很多其他的有标准化产品机会的各种领域,所谓的商业智能化,数据仓库。   第三波浪潮是AI将有眼睛、耳朵还有更多传感器可以听到,感受到人类更多的信息。   第四波浪潮AI将能够动,有手有脚,有轮子,在制造方面,在机器人方面,在无人驾驶方面将带来很大价值。所以它将重塑各个行业。   从互联网进入商业,进入实体世界,进入全自动的智能化,我们可以看到,下面的各个领域几乎涵盖了人类社会的所有的商业领域。所以“AI+”就是把AI赋能到这四波浪潮当中的一个机会。   另外我们学术界朋友谈的一个重要话题就是深度学习是不是走到底了?我们做科研的人是不是该启动新的科研课题?这个答案是肯定的。因为深度学习进入了成熟期,我们在产业界开始使用它,但是在学术界确实需要再发明更多更好的技术。   这个话题的另外一面在于,虽然说我们在学术界要发明更多更好的技术,取代深度学习的技术,但是这是不可预期的,因为科学发明无法预期什么时候发生。但是非常确定的是在工业界和产业界,我们把深度学习发扬光大还有非常大的机会。   一个研究告诉我们,AI在传统行业的渗透率只有4%,如果说我们对比前两次巨大的革命,我们今天的AI的普及状态就和当年的“黄页”是一样的。“黄页”大家都知道吧,马云先生的第一次创业就是“中国黄页”,那个时候互联网普及率就只有4%。   这一方面意味着AI应用还非常少,另一方面意味着,未来发展的机会非常大。虽然我们看到AI在安防等领域有一些落地,但实际上我们只要问周围的企业家朋友,你的公司有没有全面使用AI,我相信96%的回答是“No”。   “AI+”4阶段   如果说从我们投资角度来划分AI的四个时代,我认为分为:AI技术时代、AI B2B时代,AI+传统企业时代、以及 AI 无处不在的时代。   最开始AI是很难的,只掌握在非常优秀的博士手中。慢慢的它越来越好用了,最近在创新工厂我们做了一次培训,仅仅4周的时间,我们招了600个当届的学生,让他们做出了包括无人驾驶、对话机器人等超级应用。这意味着AI门坎在下降,AI技术平台越来越好用,所以AI普及带来了更多工程师,他们可以赋能更多行业,这是驱动的一个重要力量。   回到四个AI的阶段,我们可以和互联网时代对比。   我们记得20多年前,互联网貌似是一个黑科技,当时雅虎等都是让人不可想象的技术,这些技术大家非常快的掌握了,我们开始买Web Server等互联网内部服务器的一些软件。   再下面各个公司就建立了互联网部门,有了互联网专家来帮助公司寻找方向。当时我在微软,我们就建立了一个互联网部门,专门教公司的人怎么切入互联网,但是这个部门很快解散了,因为互联网无处不在。随着技术的普及,一定会从黑科技走向一个无所不在的过程。现在我们正处于第二和第三个阶段中间。   什么是黑科技时代呢?我非常有幸98年在微软中国研究院(现微软亚洲中国研究院),带了一批我的同事们做了中国最早的AI的科研人员。在2005年,又带了一批非常优秀的工程师做了很多好的AI工作。   非常有幸,我在黑科技的时代接触到了很多伟大的公司,包括很多在座的朋友们,当时是一个以科研为主,以博士主导,把AI技术作为切入点,再去寻找商业应用的第一个阶段。   第二个阶段是AI公司开始做2B产品,比如说保险、银行、客服、金融、教育领域能做什么产品,教育产品能卖给学校,金融产品卖给保险公司五世或者银行,包括我们投的第四范式、旷视科技、追一科技、迅策科技等等,他们都是行业的产品的领跑者。   非常有幸,创新工厂投出了60家AI公司,其中有5家独角兽,未来一年还会有3-4家独角兽诞生。这是第二阶段,把AI做成产品,变成2B的应用。   第三个阶段,普华永道认为2030年AI将给全世界带来大约100万亿人民币的GDP提升。在中国,我们看到大约是在200万亿人民币左右,其中40万亿左右是AI赋能达到的,远远超过其他国家。   一方面这是一个巨大的机会,所以要赋能AI的各主要传统行业。但是话说回来了,我们想想今天的AI独角兽,包括我们投的5家,包括今天早上的商汤科技,包括在座的科大讯飞等等的公司,都是很伟大的AI公司,但是这些公司一年就是几十亿的收入,如果说我们在国内要创造50万亿的价值,这绝对不是再去创1万家公司可以带来的。   这些AI公司会继续创造价值,但是更大的价值一定是要把AI价值赋能传统行业,如果说2030年我们是传统行业是近200万亿规模,我们只要在这个基础提升20%、30%、40%,就可以达到50万亿的规模,50万亿的价值一定是来自于AI赋能传统行业,一定不是来自于黑科技,这是一个巨大的差别。   AI赋能传统行业三种模式   AI怎么去赋能传统行业呢?我这里有三种模式。   第一种是优化赋能,也就是说你的公司的所有的运营一点不变,但是我用AI帮助大数据赚更多钱,省更多钱。   第二种模式是流程化赋能,也就是说要改改赋能模式,帮你创造更大价值。   第三种模式是重构颠覆整个产业。   这里我有六个例子来介绍这三个不同的方式:   第一个是BPO的例子。   就是在企业级应用服务当中,我们做了很多外包,简单来说,所有外包给印度的工作都可以外包给AI,现在有一个新技术叫RPA,就是把一个软件放到你的机器上,学你做的事情,过一会儿,10%、20%、30%就不需要人做了,机器就可以做了。   这个对产业的节省成本是巨大的。我们可以看到的一些BPO的例子,包括在财务、法务、人力资源方面节省重复性的白领劳动,可以节省最多91.2%的成本。   另外一个例子就是呼叫中心,用语音识别的技术和最新的语音识别加自然语言处理的技术,可以处理80%打来的客服电话,而且它的客户满意度是超过人可以提供的,这是我们投资的追一科技所做到的。   再讲一下流程的智能化。在零售合作伙伴身上,我们用AI来预测销售,每一个产品在每家商店,每一天可以卖掉多少,它有海量的数据进来,可以做非常精准的预测,降低了它的仓储,对接到它的物流,不但带来了仓储物流节省的钱,人员培训的钱,它的店长都可以AI化,一个公司扩张找店长是非常困难的,店长现在也可以AI化了。   这队对一些零售类的公司应该是上亿的价值。这个我们就可以明显看到AI赋能传统产业带来的价值是超过一个AI公司本身的。   再比如说用AI了解传统数据。左边是用AI来做卫星数据,了解地面上农作物的温度和湿度,预测每年的产量和价钱。各种植物等等。右边的例子是更加精确的用太阳的高度和阴影的强度来预算那些储油罐里面有多少油。这些在没有AI的时候是不能做到的,这些只是冰山的一角,后面还有更多的机会。   下面一个例子就是投资了,我们知道很多投资都是靠人和基金来做的,你去买基金可能有100种选择,1000种选择,但是是千人一面的。而且不是针对你的风险承受能力来定制的。   未来AI基金会有各种收入,刚刚讲到油的收入、农产品的收入,对每个公司的股票可以做精准的预知。对于每个公司今天的士气,一个分析员是不可能做到的,但是如果说我们可以把社交媒体上,每个人属于每个公司,他今天发出来的社交媒体信息是高兴的还是不高兴的,把这个作为一个员工情绪的指数再输给AI,用AI判断这个股票是应该买还是应该卖呢?   这个例子我可以讲一千个例子给你,因为一个基金经理决策只是靠几十个,几百个因素,几千个因素,而AI可以用无限的数据,无限的因素,而且针对千人千面做出更高回报的投资。   美国顶级量化基金有两家,已经达到了600亿美金的规模,已经超过了人的回报。未来这个取代会比人更好,在二级市场股票基金一定会更好,因为它对海量的数据分析能力一定远远超过人。   最后一个更加神奇的例子,制药。   今天的制药是靠化学、生物专家去拍脑袋想一些疑难杂症用什么新方法来治疗,未来我们可以用生成化学的方法,再加上AI自然语言处理和对抗网络去寻找哪些可能的药的新分子是可能可以最快通过动物试验和临床试验的。根据我们初步的看法,对一个药的发明可以加快4倍,整个制药行业也被重构了。   对于一个传统行业,AI赋能价值是巨大的,传统行业面临各种挑战,主要的挑战是AI行业怎么懂AI赋能在哪里,他们怎么去找AI专家?   这一点我们也有我们了想法,创新工厂和我们的子公司创新奇智现在对8个领域提出解决方案,这些专家怎么介入呢?我们希望扮演的角色不只是VC投资公司,我们希望成为传统企业的首席AI官,我们会进来帮助每个传统企业分析在你各个部门里面,哪一个部门用AI可以产生最大价值。   我们会把技术卖给你,或者是把技术送给你,连源代码,甚至派人进来,就和传统的咨询顾问一样。咨询顾问按照小时收费,我们不用收费,我们直接进去投资你这个公司,所以我们投黑科技公司,投2B公司,下面我们准备投传统公司,用AI力量来为他们赋能。   总结   所以今天我的演讲是分三个重点。   第一个是AI会影响所有行业,尤其是传统行。   第二,只有那些拥抱AI的传统行业才能得到最大的增长。   最后,中国的传统行业某些领域还不是领先世界的,但是反而有可以弯道超车的机会,因为他同时做到IT化、数据化和AI化,这一定会帮我们带来2030年的50万亿的价值。

热门文章

        对数据标注行业稍微有些了解的人都知道数据标注进入门槛低,适合很多人兼职也适合创业。        正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。        但是目前有个有趣的现象,那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑?为什么有些人会说数据标注就是个坑呢?        其实对与有上述问题认识的人我们认为,这些人多数都是有于对这个行业对自身条件的不了解,盲目的开始进入数据标注行业的。为什么我们会这样说呢?下面就给给大家来分析下到底有哪几方面的原因:        一、有相当一部分人是听了朋友或者网上消息说这行很火爆,好做,门槛低,也有一部分人了因此租办公室买电脑招人,然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业,更没有认真仔细得去调查分析,到底自己能不能做好一个项目,到底自己能不能有质有量按时交付的完成一个项目,到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。        二、数据标注项目虽然入门门槛低,但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目,还有一部分人由于自己对标注项目重视程度不足接到项目之后呢?不仔细认真的去阅读理解项目规则,更没有很好的对规则质检标准去培训员工,而对员工的要求主要看重每天的产出效率,从而导致接到手的项目做的质量很差,频繁的返工,有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少,最终的结果就是做好些个项目但基本都是赔钱。        三、虽然业内人都 说数据标注简单,但是标注项目他也是一个系统性的工程,一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平,质量管理能力,运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱,要赚钱不是那么简单的。        四、还有些工作室 、小公司因为对行业不够了解等他们做了一段时间后发现,自己团队经常会没有项目做,而自己团队接项目的业务能力又不具备,甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目,时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。        五、下来要说的就是一部分人人兼职人员由于认识不到位,对项目的规则质量要求 文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算,最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。        标注行业本身由于进入门槛低,做的人很行业内盲目打价格战,导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱,所以在这里也提醒大家做任何事都要谨慎而行。