阿里巴巴神密的人物抠图算法内幕

电商环境中，商品的图片展示比文字展示对顾客购买有更直观的吸引力，尤其在购买衣服时。阿里巴巴的百万卖家各个都是ps大师，想必大家都领教过^_^。
传统的方法需要富有经验的设计师交互式的抠图，效率低下，阿里巴巴的视觉研究团队希望使用技术手段帮助卖家一键完成非幕布的自然场景人物抠图。

发表于ACM MM2018会议的论文《Semantic Human Matting》，揭示了阿里巴巴在这方面的数据库和算法设计。

论文称，这是第一个能够完全自动化精细抠图的工作。（其实前几天52CV君介绍了一篇SIGGRAPH2018的论文语义软分割也是类似算法，而且开源了）

下图展示了抠图的应用，计算图像的alpha mate，可以方便将其与其他背景图像合成。

数学上表达这个合成的过程很简单：

F是前景即人物图像，B是背景图像。

数据库制作HUMAN MATTING DATASET
要解决这个问题，首先需要有大规模数据库，学术界研究Matting的数据库往往都很小，难以训练出较满意的结果。
这一步，某宝卖家立大功了！为科研做出了杰出贡献！
论文从某电商平台（嗯，论文中没明说）收集了188K幅由卖家手动抠出来的含有alpha mate的图像，花了1200个小时（50个24小时）从中小心翼翼选择了35311幅高质量含人物的图像，并结合DIM数据集（含有202幅前景图，与自然图像合成20200幅图像），组成了含有52511幅图像的超大规模的Human Matting Dataset。
human matting dataset数据源组成：

human matting dataset与其他同类数据库的比较：

部分数据库中图像示例：

网络架构
该文使用结合语义分割的端到端的深度学习神经网络预测alpha mate。
网络结构如下：

该网络（SHM）主要分为三大部分，T-Net，M-Net，Fusion Module。
T-Net为语义分割模块，使用PSPNet,输入是原始图像，其输出结果是含有前景、背景、未知区域三种类别图像的三色图（trimap）。语义分割是一种粗略的前景提取。
注：在传统Matting的场景中，三色图trimap是由用户手动标注的，可以理解为对图像“完全正确的粗略分割”。
M-Net是细节提取和alpha mate生成网络，使用类VGG16的网络结构，其输入时原始图像和T-Net输出的三色图。
Fusion Module是对T-Net输出的三色图中前景和M-Net输出的alpha mate的加权融合模块，目的是结合语义分割和细节提取进一步提精alpha mate。

网络训练的时候，T-Net和M-Net事先单独预训练，然后整个大网络端到端训练。

实验结果
因为以往算法都需要人工交互得到的三色图trimap来比较matting的性能，而本文算法是完全自动的。为便于比较，作者设计了两个实验。将alpha mate与groundtrut相比较的具体评价标准不再赘述，感兴趣的读者请阅读原论文参考文献21。
1.将T-Net生成的三色图作为传统算法的三色图输入，比较算法生成的alpha mate质量。
结果如下：

该论文的全自动的SHM算法取得了明显的优势！

2.将手动标注的三色图作为传统算法的三色图输入，比较算法生成的alpha mate质量。
结果如下：

该论文的全自动的SHM算法尽管不是最好的结果，但已经取得了与有人工交互参与的最好结果相匹敌的性能。

下面是算法在测试图像上生成的结果示例图像：

作者然后进一步研究了算法中各部分对性能的影响，发现各部分均有贡献，其中“end-to-end”的训练获得最大的算法性能增益。

算法各部分输出结果可视化：

a为原图，b为T-Net生成的三色图，c为M-net输出的alpha mate值，d为最终融合模块预测的结果。

下面是SHM算法在实际自然图像中抠像并合成新背景的图像：

52CV君认为自然场景的人物抠图还是蛮有意义的，用在移动视频直播换背景等将大有可为。
这篇论文挺有价值，但更有价值的是某宝卖家给阿里贡献的这个数据集！希望官方能够提供下载就好了。

工程主页：
https://arxiv.org/abs/1809.01354v1

上一篇:DeepMind&VGG提出基于集合的人脸识别算法GhostVLAD,精度远超IJB-B数据集state-of-the-art

下一篇:用于点云数据处理的精简，多功能，高效的开源库

推荐文章

数据标注员人工智能背后的人工力量

数据标注员人工智能背后的人工力量“导语：机器学习必需数据标注” “目前我国已有庞大的数据加工队伍，仅北京就有一百多家专门从事数据标注的公司，全国从事这项工作的人大概超过千万，很多头部的互联网技术企业都有自己的数据标注公司。” 目前人工智能落地场景不断丰富，智能化应用正改变着我们的生活。而在AI产业高速发展的背后，数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话，“有多少智能，就有多少人工”。目前AI算法能学习的数据，必须通过人力逐一标注，这些人力为AI产业提供养料，构建了AI金字塔的基础。近日，支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”，这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式，计划旨在通过AI产业释放出的大量就业机会，在贫困地区培训相关职业人才、孵化社会企业，让贫困群众实现在家门口就业脱贫。这些从业者不需要背井离乡，她们可以受训上岗，为AI机器学习进行数据的分类和标注工作，让机器可以快速学习和认知文字、图片、视频等内容，成为一名“AI培育师”。机器学习必需数据标注 AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能，是数据智能的深度学习时代，可以说谁掌握了数据，谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释，当前的人工智能也被称作数据智能，在这个发展阶段，神经网络的层数越多，神经网络越深，需要用于训练的数据量越大，“比如目前人脸识别做得好的是中青年人脸识别系统，因为年轻人坐车住酒店，采集的数据量大，小孩和老年人数据相对较少。” 但同时，只有数据是没用的。对于深度学习来讲，数据只有加上标签才有意义，才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。王金桥介绍，从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框，比如检测目标是车，标注员就需要把一张图上的所有车都标出来，画框要完全卡住车的外接矩形，框得不准确机器就可能“学坏”。再比如人的姿态识别，就包括18个关键点，经过训练的标注员才能掌握这些关键点的标注，标注完成的数据也才能符合机器学习的标准。不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注，还有一些需要专业背景的标注，比如在医疗数据标注中，标注员需要做医疗图像的分割，把肿瘤区域标出来，类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字，需要的也是掌握那门语言的标注员。人工标注帮助AI快速落地随着人工智能的发展，数据的训练量非常大，数据标注公司应运而生，这些公司以网络方式运作，一个平台有产品经理和项目经理，接到一个任务就找人来做，大家通过网络群组报名后，由产品经理来培训，之后各自领取自己的任务，登录账号进行标注，检验经理校验合格后就付钱，不合格则需要重新修正。 “目前已经形成庞大的数据加工队伍，仅北京就有一百多家专门从事数据标注的公司，全国从事这项工作的人大概超过千万，很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说，“这个阶段数据对性能的贡献是最大的，数据越多越丰富、代表性越强、模型效果越好，算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利，但标注公司除外。” 据王金桥介绍，国外也是一样，无人零售、无人驾驶等都需要大量的人力，基于用工成本的问题，除了隐私数据之外，他们会把标注工作放在第三世界国家完成，马来西亚、泰国、印度等国家都有数据标注分公司。常见的报道中，数据标注总被描述为“血汗工厂”，这项工作和从业者被描述得廉价低质，人被重复性机械式的劳动异化。在王金桥的解释下，这一刻板印象也被逐渐打破。他直言，目前这种大量的人工标注是有价值的，因为理论上解决问题很难，但有了大量数据，设计深度学习网络，可以在特定场景特定应用中用数据训练神经网络，从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。 “比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中，无人机拍摄画面后，由人来检测，随着数据量增加，机器得到的训练越来越充分，机器慢慢可以自动检测，类似工作可以很大程度上由机器代劳。”王金桥说，目前人工智能的智能性虽然比较弱，但在各行各业都会带来改变，这是AI推动产业革命的机会。数据标注需求持续增加 “现在科研界研究的都是无监督、小样本的深度学习，通过三维合成数据，用虚实结合的数据生成方式来训练机器，尽量减少数据的采集和标注，让机器自主学习、自主进化。”王金桥说，但由于缺乏理论上的突破性技术，所以虽然技术增长速度很快，但整体水平还比较低，目前的深度学习还是依赖基于统计意义的大数据模型，这要求数据足够多、足够均衡、基本满足真实世界的分布。因此，标注这项工作会一直存在。但王金桥也表示，随着无监督、小样本深度学习的进步，重复性标注的工作量会越来越少。“机器的识别和人一样，人经过几千年的进化，用语言用文字记录和存储几千年的文明，所以看到桌子就知道是桌子，看到灵芝知道是灵芝。机器也需要不断理解更多的内容，有数据标签，它才能学习，才会有智能。数据的加工是一个长期存在的过程，由画框到基础词汇，慢慢形成自己的知识图谱，才能自我推理和思考。” 目前的数据标注公司基本采取“计件付费”的模式，标注员的待遇与任务量和难度直接相关，熟练工一天能标几千张图片，月收入最高过万。这项工作也有一定专业性，受过培训才知道怎么标、标得清楚，人也要认真细心。“每天产生的数据量太大了，数据量持续增加，对标注的需求也持续增加。”王金桥说。据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍，贵州万山仅仅是一个起点，未来项目的整体规划将聚焦贫困地区，寻找更多更适合发展“AI标注”产业的地区来落地。同时，也希望更多的人工智能企业加入，把AI标注的订单定向输送给贫困地区，为贫困群众提供更多就业机会。陈丽娟说。延伸阅读 AI数据服务发展新方向：细分化、多模态、专业化数据表明，当前AI发展出现了细分化、多模态以及专业化三大特征。相应的，新变化对于AI数据服务行业也形成了一定的影响与方向指引。当前AI已经进入技术落地阶段，应用场景涉及安防、金融、家居、交通等各大行业。而未来，在数据标注行业，从业者也将随着AI行业而一同进入细分市场追逐阶段。同时多模态也成为了AI技术发展的一个特征。所谓多模态，即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳，安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业，企业也需要适应AI技术发展的多模态特征，掌握对多维传感器融合的数据采集与标注。此外，尽管当前AI技术已经进入落地阶段，但是头部AI企业的落地场景相较传统行业的AI落地场景，在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向，所以数据服务企业也需要在这些前沿场景中不断探索，才能在行业竞争中获得长期发展。（来源：环球网）

热门文章

为什么有些人说数据标注就是个坑？

对数据标注行业稍微有些了解的人都知道数据标注进入门槛低，适合很多人兼职也适合创业。正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。但是目前有个有趣的现象，那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑？为什么有些人会说数据标注就是个坑呢？其实对与有上述问题认识的人我们认为，这些人多数都是有于对这个行业对自身条件的不了解，盲目的开始进入数据标注行业的。为什么我们会这样说呢？下面就给给大家来分析下到底有哪几方面的原因：一、有相当一部分人是听了朋友或者网上消息说这行很火爆，好做，门槛低，也有一部分人了因此租办公室买电脑招人，然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业，更没有认真仔细得去调查分析，到底自己能不能做好一个项目，到底自己能不能有质有量按时交付的完成一个项目，到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。二、数据标注项目虽然入门门槛低，但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目，还有一部分人由于自己对标注项目重视程度不足接到项目之后呢？不仔细认真的去阅读理解项目规则，更没有很好的对规则质检标准去培训员工，而对员工的要求主要看重每天的产出效率，从而导致接到手的项目做的质量很差，频繁的返工，有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少，最终的结果就是做好些个项目但基本都是赔钱。三、虽然业内人都说数据标注简单，但是标注项目他也是一个系统性的工程，一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平，质量管理能力，运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱，要赚钱不是那么简单的。四、还有些工作室、小公司因为对行业不够了解等他们做了一段时间后发现，自己团队经常会没有项目做，而自己团队接项目的业务能力又不具备，甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目，时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。五、下来要说的就是一部分人人兼职人员由于认识不到位，对项目的规则质量要求文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算，最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。标注行业本身由于进入门槛低，做的人很行业内盲目打价格战，导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱，所以在这里也提醒大家做任何事都要谨慎而行。

友情链接: