我们是人工智能背后的人工

人工智能的发展如火如荼。其背后必不可少的要素之一便是供机器学习的大数据采集工作,如今依然出自人工之手。在中国西部异军突起的贵州省的深山之中,就有一群大数据采集者,他们是“人工智能背后的人工”。

沿着贵阳市区刚修好的公路驾车50多公里,就到了百鸟河数字小镇。小镇上一个容纳400多人的数据工场,电脑前坐满了来自附近一家扶贫高职的学生,他们来自各个专业,来这里主要进行数据标注的实习。把人工智能需要识别的数据,通过分类、画框等方式标注出来。标注好的数据将用于“人脸识别、无人驾驶、语音识别”等高科技项目。譬如,把道路上的汽车、行人、红绿灯等框起来,用于自动驾驶训练等。

数据标注部接到新项目,采集不同场景下的三十二套动作,学生们按照图纸中指定姿势拍下照片。数据标注是劳动密集型行业,门槛不高,经过几天培训就能上手。每天上班七八个小时,一个月挣2000元。这些学生的家乡属于贫困帮扶地区,网络闭塞,4G网络信号还没延伸到这里,村里没几户人家能上网,更别提人工智能和大数据了。

今年3月26日,一家互联网公司在北京发布了首款人工智能视频音箱。音箱的语音识别大数据,正是出自于这些标注员。随着人工智能产业的飞速发展,需要的数据量也在持续增加,贵州的这家数据工场,已经不能够满足甲方的要求。紧邻工场,又租下了一幢三层的楼,等待装修好继续扩招标注员工。

这令人想起卓别林的《摩登时代》。100多年过去了,就这些学生而言,人机关系依旧。区别在于,在流水线上,卓别林做的是单调重复的体力劳动,人是机器;在数字小镇,学生们做的事同样单调重复,只不过是脑力劳动,人是“数字机器”。

小纯就是其中一位标注员,他对未来前途感到迷茫,“即使数据标得再好,还是没有前途”。

或许,“数字机器”只能偶尔显示生命的鲜活。

傍晚下班,小纯在路旁看见一簇花开了,赶紧拿起手机过去拍,“花开很美,可惜白天没有时间去看它最美的样子”。

这是人工智能产业链的一部分,“供给侧”。眼下,贫困山区中坐在电脑前框图的高职学生,这些年轻人也是“人机回圈”中的一部分。人机回圈的另一部分是“需求侧”,是一线大城市的自动驾驶研发和语音识别、图像识别等其他人工智能。

小纯和同学们正在源源不断地为北上广深的人工智能公司提供数据。他们想象不到,在人工智能“需求侧”一侧的模样。学生对被自己框住的汽车一概不了解,时常会好奇,标注里的SUV长什么样,无人驾驶是不是真的安全,还要不要考驾照等等。

在人机回圈中的两部分人,供给侧和需求侧之间存在着被忽视的“数据折叠”。

在数字小镇,小纯和同事们正在“以人工喂养人工智能”。卓别林“喂养”的是没有生命不会长大的机器。人工智能不一样,在“喂养”中一步步长大,最终可以轻而易举地把需求侧扩展到数字小镇。

在热潮背后,小纯和他的同学也在担心着,他们教会了机器人学习工作,而未来的机器人会不会取代他们。

现在看来,他们的担心多半多余。在中国,只要存在这样廉价的数字工人,人工智能产业链的需求侧就不会主动延伸和覆盖到这样的供给侧。在以大数据著称的贵州省,脱困脱贫有待时日,成为人工智能产业链供给侧的一个环节来喂养人工智能,或将是一段时期的客观事实。

因而,数据,依然不得不折叠。


本文来自《中国科学报》 (2018-05-04 第2版    博客)


推荐文章

 电商环境中,商品的图片展示比文字展示对顾客购买有更直观的吸引力,尤其在购买衣服时。阿里巴巴的百万卖家各个都是ps大师,想必大家都领教过^_^。传统的方法需要富有经验的设计师交互式的抠图,效率低下,阿里巴巴的视觉研究团队希望使用技术手段帮助卖家一键完成非幕布的自然场景人物抠图。发表于ACM MM2018会议的论文《Semantic Human Matting》,揭示了阿里巴巴在这方面的数据库和算法设计。论文称,这是第一个能够完全自动化精细抠图的工作。(其实前几天52CV君介绍了一篇SIGGRAPH2018的论文语义软分割也是类似算法,而且开源了)下图展示了抠图的应用,计算图像的alpha mate,可以方便将其与其他背景图像合成。数学上表达这个合成的过程很简单:F是前景即人物图像,B是背景图像。数据库制作HUMAN MATTING DATASET要解决这个问题,首先需要有大规模数据库,学术界研究Matting的数据库往往都很小,难以训练出较满意的结果。这一步,某宝卖家立大功了!为科研做出了杰出贡献!论文从某电商平台(嗯,论文中没明说)收集了188K幅由卖家手动抠出来的含有alpha mate的图像,花了1200个小时(50个24小时)从中小心翼翼选择了35311幅高质量含人物的图像,并结合DIM数据集(含有202幅前景图,与自然图像合成20200幅图像),组成了含有52511幅图像的超大规模的Human Matting Dataset。human matting dataset数据源组成:human matting dataset与其他同类数据库的比较:部分数据库中图像示例:网络架构该文使用结合语义分割的端到端的深度学习神经网络预测alpha mate。网络结构如下:该网络(SHM)主要分为三大部分,T-Net,M-Net,Fusion Module。T-Net为语义分割模块,使用PSPNet,输入是原始图像,其输出结果是含有前景、背景、未知区域三种类别图像的三色图(trimap)。语义分割是一种粗略的前景提取。注:在传统Matting的场景中,三色图trimap是由用户手动标注的,可以理解为对图像“完全正确的粗略分割”。M-Net是细节提取和alpha mate生成网络,使用类VGG16的网络结构,其输入时原始图像和T-Net输出的三色图。Fusion Module是对T-Net输出的三色图中前景和M-Net输出的alpha mate的加权融合模块,目的是结合语义分割和细节提取进一步提精alpha mate。网络训练的时候,T-Net和M-Net事先单独预训练,然后整个大网络端到端训练。实验结果因为以往算法都需要人工交互得到的三色图trimap来比较matting的性能,而本文算法是完全自动的。为便于比较,作者设计了两个实验。将alpha mate与groundtrut相比较的具体评价标准不再赘述,感兴趣的读者请阅读原论文参考文献21。1.将T-Net生成的三色图作为传统算法的三色图输入,比较算法生成的alpha mate质量。结果如下:该论文的全自动的SHM算法取得了明显的优势!2.将手动标注的三色图作为传统算法的三色图输入,比较算法生成的alpha mate质量。结果如下:该论文的全自动的SHM算法尽管不是最好的结果,但已经取得了与有人工交互参与的最好结果相匹敌的性能。下面是算法在测试图像上生成的结果示例图像:作者然后进一步研究了算法中各部分对性能的影响,发现各部分均有贡献,其中“end-to-end”的训练获得最大的算法性能增益。算法各部分输出结果可视化:a为原图,b为T-Net生成的三色图,c为M-net输出的alpha mate值,d为最终融合模块预测的结果。下面是SHM算法在实际自然图像中抠像并合成新背景的图像:52CV君认为自然场景的人物抠图还是蛮有意义的,用在移动视频直播换背景等将大有可为。这篇论文挺有价值,但更有价值的是某宝卖家给阿里贡献的这个数据集!希望官方能够提供下载就好了。工程主页:https://arxiv.org/abs/1809.01354v1

热门文章

        对数据标注行业稍微有些了解的人都知道数据标注进入门槛低,适合很多人兼职也适合创业。        正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。        但是目前有个有趣的现象,那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑?为什么有些人会说数据标注就是个坑呢?        其实对与有上述问题认识的人我们认为,这些人多数都是有于对这个行业对自身条件的不了解,盲目的开始进入数据标注行业的。为什么我们会这样说呢?下面就给给大家来分析下到底有哪几方面的原因:        一、有相当一部分人是听了朋友或者网上消息说这行很火爆,好做,门槛低,也有一部分人了因此租办公室买电脑招人,然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业,更没有认真仔细得去调查分析,到底自己能不能做好一个项目,到底自己能不能有质有量按时交付的完成一个项目,到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。        二、数据标注项目虽然入门门槛低,但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目,还有一部分人由于自己对标注项目重视程度不足接到项目之后呢?不仔细认真的去阅读理解项目规则,更没有很好的对规则质检标准去培训员工,而对员工的要求主要看重每天的产出效率,从而导致接到手的项目做的质量很差,频繁的返工,有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少,最终的结果就是做好些个项目但基本都是赔钱。        三、虽然业内人都 说数据标注简单,但是标注项目他也是一个系统性的工程,一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平,质量管理能力,运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱,要赚钱不是那么简单的。        四、还有些工作室 、小公司因为对行业不够了解等他们做了一段时间后发现,自己团队经常会没有项目做,而自己团队接项目的业务能力又不具备,甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目,时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。        五、下来要说的就是一部分人人兼职人员由于认识不到位,对项目的规则质量要求 文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算,最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。        标注行业本身由于进入门槛低,做的人很行业内盲目打价格战,导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱,所以在这里也提醒大家做任何事都要谨慎而行。