我们是人工智能背后的人工

人工智能的发展如火如荼。其背后必不可少的要素之一便是供机器学习的大数据采集工作,如今依然出自人工之手。在中国西部异军突起的贵州省的深山之中,就有一群大数据采集者,他们是“人工智能背后的人工”。

沿着贵阳市区刚修好的公路驾车50多公里,就到了百鸟河数字小镇。小镇上一个容纳400多人的数据工场,电脑前坐满了来自附近一家扶贫高职的学生,他们来自各个专业,来这里主要进行数据标注的实习。把人工智能需要识别的数据,通过分类、画框等方式标注出来。标注好的数据将用于“人脸识别、无人驾驶、语音识别”等高科技项目。譬如,把道路上的汽车、行人、红绿灯等框起来,用于自动驾驶训练等。

数据标注部接到新项目,采集不同场景下的三十二套动作,学生们按照图纸中指定姿势拍下照片。数据标注是劳动密集型行业,门槛不高,经过几天培训就能上手。每天上班七八个小时,一个月挣2000元。这些学生的家乡属于贫困帮扶地区,网络闭塞,4G网络信号还没延伸到这里,村里没几户人家能上网,更别提人工智能和大数据了。

今年3月26日,一家互联网公司在北京发布了首款人工智能视频音箱。音箱的语音识别大数据,正是出自于这些标注员。随着人工智能产业的飞速发展,需要的数据量也在持续增加,贵州的这家数据工场,已经不能够满足甲方的要求。紧邻工场,又租下了一幢三层的楼,等待装修好继续扩招标注员工。

这令人想起卓别林的《摩登时代》。100多年过去了,就这些学生而言,人机关系依旧。区别在于,在流水线上,卓别林做的是单调重复的体力劳动,人是机器;在数字小镇,学生们做的事同样单调重复,只不过是脑力劳动,人是“数字机器”。

小纯就是其中一位标注员,他对未来前途感到迷茫,“即使数据标得再好,还是没有前途”。

或许,“数字机器”只能偶尔显示生命的鲜活。

傍晚下班,小纯在路旁看见一簇花开了,赶紧拿起手机过去拍,“花开很美,可惜白天没有时间去看它最美的样子”。

这是人工智能产业链的一部分,“供给侧”。眼下,贫困山区中坐在电脑前框图的高职学生,这些年轻人也是“人机回圈”中的一部分。人机回圈的另一部分是“需求侧”,是一线大城市的自动驾驶研发和语音识别、图像识别等其他人工智能。

小纯和同学们正在源源不断地为北上广深的人工智能公司提供数据。他们想象不到,在人工智能“需求侧”一侧的模样。学生对被自己框住的汽车一概不了解,时常会好奇,标注里的SUV长什么样,无人驾驶是不是真的安全,还要不要考驾照等等。

在人机回圈中的两部分人,供给侧和需求侧之间存在着被忽视的“数据折叠”。

在数字小镇,小纯和同事们正在“以人工喂养人工智能”。卓别林“喂养”的是没有生命不会长大的机器。人工智能不一样,在“喂养”中一步步长大,最终可以轻而易举地把需求侧扩展到数字小镇。

在热潮背后,小纯和他的同学也在担心着,他们教会了机器人学习工作,而未来的机器人会不会取代他们。

现在看来,他们的担心多半多余。在中国,只要存在这样廉价的数字工人,人工智能产业链的需求侧就不会主动延伸和覆盖到这样的供给侧。在以大数据著称的贵州省,脱困脱贫有待时日,成为人工智能产业链供给侧的一个环节来喂养人工智能,或将是一段时期的客观事实。

因而,数据,依然不得不折叠。


本文来自《中国科学报》 (2018-05-04 第2版    博客)


推荐文章

之前“重庆公交车坠河”事件引起了全国人民的关注,使得交通安全问题再度成为公众关注的热点话题。小喵也针对交通事故做了调查,结果真是触目惊心。2016年全国交通事故发生总数达到212846起,造成226430人受伤,63093万人死亡,竟然同冰岛的全国人口数相当。在这些冰冷的数据背后,是一条条鲜活的生命,有效保障人民的交通安全,成为所有人的共同愿景。 在这些交通事故中,有很大一部分为疲劳驾驶、开车“低头族”造成的。疲劳驾驶状态下,驾驶员闭眼的1秒,事故率陡然升高;“低头族”看一眼微信的2秒内,可能就终结了一个人的生命。国家也出台了相关法规整治酒后驾车与开车“低头族”的问题,但是由此引发的事故仍旧屡见不鲜,提出更加高效的解决办法就显得更加迫切了。 科技的进步推动着社会的发展,前些年开始流行的“互联网+”为人们的生活提供了极大的便利,而近年开始成为热点的人工智能又开始同产业结合,改变人们的生活。就安全驾驶的问题而言,驾驶检测系统在AI的大背景下应运而生,改变着每个驾驶员的生命之路。 安全驾驶检测系统,是基于对各类交通图片数据的识别,通过深度学习,实现智能的对安全驾驶进行提醒与警告。其功能包括行人碰撞预警、前车碰撞预警、车道偏离预警、疲劳驾驶检测、盲区检测预警、夜视辅助系统等诸多功能,来保证驾驶安全。 行人碰撞预警系统(Pedestrian Collision Warning),基于计算机视觉的图像算法,检测行驶车道上静态和动态的行人,提前预警,防止行人碰撞事故的发生。 前车碰撞预警系统(Forward Collision Warning),它通过感应和计算在行驶过程中车辆与前车的距离来判断潜在的碰撞风险,并立即发出警示。 车道偏离预警(Lane Departure Warning),通过ADAS算法监测车辆在车道中的位置,当车辆压线或者即将压线时向司机发出警告,防止因车道偏离造成的交通事故发生。 疲劳驾驶监测(Driver Fatigue Monitor),通过视觉传感器对人的眼睑眼球的几何特征和动作特征、眼睛的凝视角度及其动态变化、头部位置和方向的变化等进行实时检测和测量,对疲劳驾驶行为进行预警。 盲区监测预警(Blind Spot Monitor),通过在驾驶者视觉盲区覆盖安装摄像头,帮助驾驶者看清盲区的路况信息,对盲区潜在碰撞进行预警。 夜视辅助系统(Night Vision),是一种源自军事用途的汽车驾驶辅助系统。在这个系统的帮助下,驾驶者在夜间或弱光线的驾驶过程中将获得更高的预见能力,能够针对潜在危险向驾驶者提供更加全面准确的信息或发出早期警告。 安全驾驶的功能,实现的基础是各类海量的图片数据,诸如各类驾驶员的图片资料、车辆行驶状况图片、车道线识别图片、信号灯图片、行人图片信息都是确保系统正常运转的基础,如果在数据环节出现错误,Uber无人车的车祸便是典型案例。 点我科技正是为无人驾驶与安全驾驶系统提供高质量数据服务的专业数据服务商,丰富的数据采集经验,涵盖了无人驾驶所需的全部领域,为安全驾驶系统提供数据基础,从根基层面保障驾驶安全。同时同各个人工智能厂商的合作,积累了丰富的数据经验,获得了广泛的好评。龙猫数据正在成长为数据行业的的领跑者,服务AI产业,筑基智慧生态。

热门文章

波士顿 - Neurala公司今天推出了一款新的视频标注工具,该工具由Brain Builder平台的人工智能辅助。“自动视频注释将显着加速神经网络的数据标注,从而帮助组织更快地培训和部署AI,”该公司表示。标记图像和视频对于开发用于建模和训练AI应用程序的数据集至关重要。Neurala  以软件即服务(SaaS)为基础提供Brain Builder,以帮助简化深度学习的创建,分析和管理。Neurala的联合创始人兼首席执行官Massimiliano Versace说:“人工智能数据准备的传统方法极其耗时且耗费人力,需要大量数据,需要经过精心和昂贵的注释。” “我们与Brain Builder的目标是通过易于使用的注释工具降低进入门槛。通过添加视频注释,我们能够进一步自动化数据准备,帮助组织将AI数据准备的时间和成本降低至少50%。“Neurala的专利和获奖技术源于2006年NASA,DARPA和空军研究实验室的神经网络研究。2013年,该公司加入了Techstars商业化计划。“每个人都想要AI,但他们不知道为什么,”Neurala的联合创始人兼首席运营官Heather Ames Versace说。“视频注释工具是终身AI技术堆栈的一部分,可提供透明度。”启用AI的注释可节省时间,提高工作效率当用户标记视频中的人物,物体或缺陷时,Neurala的新工具可以反复学习。Neurala表示,在用户在第一帧中标记感兴趣的项目后,该工具会自动在后续帧中注释相同的项目。例如,如果五个人输入一个框架,则在用户仅用一个人标记第一个框架后,它们将全部自动注释。相比之下,用户必须在他或她进入框架时标记每个人,这将花费更多的时间。此外,AI辅助视频注释可以提高标签处理速度并提高生产力,Heather Ames Versace告诉“ 机器人商业评论”。例如,用户可以注释10秒视频的一帧并获得300个注释的输出,而使用传统的注释方法,用户需要手动标记300个不同的图像才能获得相同的结果,Neurala说。“可解释性和信任始于数据,”Heather Ames Versace在最近的AI World大会上说。“通过在更短的时间内对数据进行注释和标记,团队可以进行更快速的原型设计。”用Brain Builder存钱“最终,它将帮助组织和开发人员更有效,更具成本效益地构建,培训和部署人工智能,”Massimiliano Versace说。“当涉及视觉AI的构建方式时,Neurala的Brain Builder平台已经在改变游戏规则。而现在,视频注释将进一步扩大可访问性和生产力的可能性。“Neurala说,Brain Builder还可以提供可观的投资回报。使用Brain Builder,组织可以以每小时6,750美元的视频进行注释,而没有它的则为13,500美元。Neurala发布  了一个教程  ,概述了使用Brain Builder在视频中标记对象的过程和好处。它还解释了如何使用TensorFlow训练语义分段网络。此外,本教程还引导观众了解跨多个GPU的培训步骤,这可以进一步缩短培训时间。