阿里巴巴神密的人物抠图算法内幕

 

电商环境中,商品的图片展示比文字展示对顾客购买有更直观的吸引力,尤其在购买衣服时。阿里巴巴的百万卖家各个都是ps大师,想必大家都领教过^_^。
传统的方法需要富有经验的设计师交互式的抠图,效率低下,阿里巴巴的视觉研究团队希望使用技术手段帮助卖家一键完成非幕布的自然场景人物抠图。

发表于ACM MM2018会议的论文《Semantic Human Matting》,揭示了阿里巴巴在这方面的数据库和算法设计。


论文称,这是第一个能够完全自动化精细抠图的工作。(其实前几天52CV君介绍了一篇SIGGRAPH2018的论文语义软分割也是类似算法,而且开源了)

下图展示了抠图的应用,计算图像的alpha mate,可以方便将其与其他背景图像合成。

数学上表达这个合成的过程很简单:

F是前景即人物图像,B是背景图像。

数据库制作HUMAN MATTING DATASET
要解决这个问题,首先需要有大规模数据库,学术界研究Matting的数据库往往都很小,难以训练出较满意的结果。
这一步,某宝卖家立大功了!为科研做出了杰出贡献!
论文从某电商平台(嗯,论文中没明说)收集了188K幅由卖家手动抠出来的含有alpha mate的图像,花了1200个小时(50个24小时)从中小心翼翼选择了35311幅高质量含人物的图像,并结合DIM数据集(含有202幅前景图,与自然图像合成20200幅图像),组成了含有52511幅图像的超大规模的Human Matting Dataset。
human matting dataset数据源组成:

human matting dataset与其他同类数据库的比较:

部分数据库中图像示例:

网络架构
该文使用结合语义分割的端到端的深度学习神经网络预测alpha mate。
网络结构如下:

该网络(SHM)主要分为三大部分,T-Net,M-Net,Fusion Module。
T-Net为语义分割模块,使用PSPNet,输入是原始图像,其输出结果是含有前景、背景、未知区域三种类别图像的三色图(trimap)。语义分割是一种粗略的前景提取。
注:在传统Matting的场景中,三色图trimap是由用户手动标注的,可以理解为对图像“完全正确的粗略分割”。
M-Net是细节提取和alpha mate生成网络,使用类VGG16的网络结构,其输入时原始图像和T-Net输出的三色图。
Fusion Module是对T-Net输出的三色图中前景和M-Net输出的alpha mate的加权融合模块,目的是结合语义分割和细节提取进一步提精alpha mate。

网络训练的时候,T-Net和M-Net事先单独预训练,然后整个大网络端到端训练。

实验结果
因为以往算法都需要人工交互得到的三色图trimap来比较matting的性能,而本文算法是完全自动的。为便于比较,作者设计了两个实验。将alpha mate与groundtrut相比较的具体评价标准不再赘述,感兴趣的读者请阅读原论文参考文献21。
1.将T-Net生成的三色图作为传统算法的三色图输入,比较算法生成的alpha mate质量。
结果如下:

该论文的全自动的SHM算法取得了明显的优势!

2.将手动标注的三色图作为传统算法的三色图输入,比较算法生成的alpha mate质量。
结果如下:


该论文的全自动的SHM算法尽管不是最好的结果,但已经取得了与有人工交互参与的最好结果相匹敌的性能。

下面是算法在测试图像上生成的结果示例图像:

作者然后进一步研究了算法中各部分对性能的影响,发现各部分均有贡献,其中“end-to-end”的训练获得最大的算法性能增益。

算法各部分输出结果可视化:


a为原图,b为T-Net生成的三色图,c为M-net输出的alpha mate值,d为最终融合模块预测的结果。

下面是SHM算法在实际自然图像中抠像并合成新背景的图像:

52CV君认为自然场景的人物抠图还是蛮有意义的,用在移动视频直播换背景等将大有可为。
这篇论文挺有价值,但更有价值的是某宝卖家给阿里贡献的这个数据集!希望官方能够提供下载就好了。

工程主页
https://arxiv.org/abs/1809.01354v1

推荐文章

  9月2日消息,在刚刚过去的周末,一款面向大众的AI换脸软件“ZAO”瞬间爆红网络,朋友圈不少人开启了自己的换脸之路。在AI换脸走红的同时,ZAO也被指涉嫌过度攫取用户授权、侵犯隐私、盗用版权以及引发公众对刷脸支付安全的担忧。   对此,支付宝安全中心8月31日发布公告称,目前各类换脸软件不管换的有多逼真,都无法突破刷脸支付。即便出现账户被冒用的极小概率事件,资金损失也会通过保险公司进行全额赔付。   支付宝方面解释称,刷脸支付"采用的是3D人脸识别技术,在进行人脸识别前,也会通过软硬件结合的方式进行检测,来判断采集到的人脸是否是照片、视频或者软件模拟生成的,能有效地避免各种人脸伪造带来的身份冒用情况。   此外,在进行人脸识别后,部分用户还需要输入与账号绑定的手机号进行校验,进一步提高了安全性。同时,支付宝还会通过各种安全风控策略确保账户安全。比如刷脸支付功能需要用户进行开通操作,开通之后才能进行支付,用户也可以随时关闭。本文转自可思数据

热门文章

        对数据标注行业稍微有些了解的人都知道数据标注进入门槛低,适合很多人兼职也适合创业。        正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。        但是目前有个有趣的现象,那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑?为什么有些人会说数据标注就是个坑呢?        其实对与有上述问题认识的人我们认为,这些人多数都是有于对这个行业对自身条件的不了解,盲目的开始进入数据标注行业的。为什么我们会这样说呢?下面就给给大家来分析下到底有哪几方面的原因:        一、有相当一部分人是听了朋友或者网上消息说这行很火爆,好做,门槛低,也有一部分人了因此租办公室买电脑招人,然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业,更没有认真仔细得去调查分析,到底自己能不能做好一个项目,到底自己能不能有质有量按时交付的完成一个项目,到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。        二、数据标注项目虽然入门门槛低,但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目,还有一部分人由于自己对标注项目重视程度不足接到项目之后呢?不仔细认真的去阅读理解项目规则,更没有很好的对规则质检标准去培训员工,而对员工的要求主要看重每天的产出效率,从而导致接到手的项目做的质量很差,频繁的返工,有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少,最终的结果就是做好些个项目但基本都是赔钱。        三、虽然业内人都 说数据标注简单,但是标注项目他也是一个系统性的工程,一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平,质量管理能力,运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱,要赚钱不是那么简单的。        四、还有些工作室 、小公司因为对行业不够了解等他们做了一段时间后发现,自己团队经常会没有项目做,而自己团队接项目的业务能力又不具备,甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目,时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。        五、下来要说的就是一部分人人兼职人员由于认识不到位,对项目的规则质量要求 文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算,最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。        标注行业本身由于进入门槛低,做的人很行业内盲目打价格战,导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱,所以在这里也提醒大家做任何事都要谨慎而行。