DeepMind&VGG提出基于集合的人脸识别算法GhostVLAD,精度远超IJB-B数据集state-of-the-art

    在人脸识别应用中,很多场景能够获取某一个体的多幅人脸图像的集合(比如在监控视频中),使用人脸图像集来做识别,这个问题被称为基于模板的人脸识别(template-based face recognition)。

对于多幅图像,当然可以使用单幅人脸图像的识别方法,综合多幅图像的识别结果确定最终的人脸识别结果,但更好的方式是直接基于人脸图像集提取特征,比较人脸图像集的特征相似性。

这涉及到如何聚合多幅人脸图像的特征向量成为一个特征向量,使该特征紧凑而又更具鉴别性的问题。

几天前公布的一篇来自DeepMind和VGG组被ACCV2018接收的论文《GhostVLAD for set-based face recognition》,正是解决这样的问题,文中提出的算法GhostVLAD在具有较高难度的大型真实场景人脸数据集IJB-B上的识别精度,远超过目前的state-of-the-art结果!非常值得参考!

作者信息:

算法原理

作者的想法非常简单,当聚合多个人脸图像特征时,现有的平均池化等方法没能考虑到人脸图像集中一些低质量的图像(比如模糊人脸)的作用,这些图像含有的信息对识别并没有太大的贡献,应该降低这些低质量图像对最终聚合特征的贡献。

一种直接的处理方法是,在人脸图像预处理阶段将低质量图像找出来,降低其贡献权重,但作者认为,端到端自动训练的方式让网络自身去优化识别并降低该部分样本的权重更好。

作者发明的算法网络结构如下:

多幅人脸图像(每次图像个数可不同)通过CNN网络提取特征并L2归一化,然后被送入聚合模块,GhostVLAD网络模块将多个人脸特征聚合称固定维数的特征矩阵(与输入图像个数无关),再通过全连接层FC、BN层和L2归一化为紧凑鉴别的特征。

其中的关键网络模块GhostVLAD既实现特征聚合,同时降低低质量图像的权重,提高高质量图像的聚合权重。

GhostVLAD是如何实现上述功效的呢?

说白了一句话,既然不要人为参与,那就要构建一种网络结构,让网络自动学习对识别不重要的信息,并丢掉它。

作者是在NetVLAD上做出的算法改进,NetVLAD可以理解为一种可微分完全可训练的VLAD编码聚合方法,它的作用大致是自动计算特征聚类中心,计算残差,然后把残差加权,构建聚合特征矩阵,整个过程方便加入到神经网络中。

在NetVLAD中,其聚合的特征矩阵中的元素计算方法如下:

其中K是NetVLAD中手工设置的聚类中心个数,xi是第i个特征向量,ck是可训练的聚类中心,ak、bk是可训练的参数控制着加权的权重。

由上述公式得知,NetVLAD中所有聚类中心ck都参与了聚合,GhostVLAD的改进则是增加聚类中心的个数到K+G,但是增加的聚类中心在构建聚合特征矩阵的时候不参与贡献权重。

如下图所示:

红色位置即标示出的Ghost 聚类中心,后续步骤中被去除,Ghost有“幻象”的意思,可能很多模糊的人脸的确看起来是“幻象”,这也是GhostVLAD名称的由来。

这些多出来的不参与聚合特征矩阵构建的Ghost聚类中心,就相当于给了神经网络丢弃一部分信息使得网络更具鉴别性的可能,而在原来的NetVLAD中是体现不出来的。

实验结果

作者首先设计的实验是比较网络加上GhostVLAD层跟不加的精度,验证其有效性,作者使用的训练集是VGGFace2。实验设置不再赘述,这里直接给出结果。

在IJB-B数据集上的1:1人脸验证结果比较如下图,取得了大幅度的精度提升。

在IJB-B数据集上的1:N人脸识别结果比较如下图,同样取得了大幅度的精度提升。

然后作者将提出的算法GhostVLAD与目前的state-of-the-art比较。

如下图中Table 3和Table 4,在IJB-A和IJB-B上比较验证和识别结果,同样所提算法精度也胜出不少,请注意作者使用的训练集比其中很多state-of-the-art算法规模要小,但依然实现性能超越!

最后作者可视化了使用GhostVLAD后对输入样本权重的影响,发现对于那些低质量模糊人脸的确权重被降低了。

总结:

该文从一个简单的直觉开始,构建了一种帮助神经网络丢弃鉴别性不足的信息的有效方式,大幅改进了基于图像集合的人脸识别方法,算法具有较高的实用价值,思想也很值得借鉴!

值得一提的是,该文中的GhostVLAD方法不仅仅适用于人脸识别,在图像检索、行人重识别等领域也同样适用。

论文地址:

https://arxiv.org/abs/1810.09951

关于代码:

可惜的是,该文目前并无开源代码,但DeepMind和VGG组都是一向乐于分享代码的,期待作者早日开源~

推荐文章

数据标注员成就了今天的人工智能,为什么说AI对人类劳动力来说是个好消息盖蒂盖蒂人工智能(AI)在未来的工作中扮演什么角色?从目前的趋势来看,它将使企业更智能,流程更高效,体验更个性化,客户更满意 - 尽管这并不能阻止那些有先见之明的Cassandras做出更可怕的预测。为了听取他们的讲话,一个新的大师类天才机器将逐渐但不可避免地从一个接一个的职业取代人类,直到我们大多数人闲置和贫困。我相信现实并不是那么反乌托邦 - 但它可能同样具有变革性。这不是第一次将技术创新视为对人类劳动的至高无上或必要性的威胁。在缝纫机发明四十年后,第一家机器制衣厂被工人们害怕失去工作而被烧毁。当然,今天全球服装业雇佣了大约4000万人。同时,缝纫机的商业化使消费者能够更有效地制作和修补自己的衣服,有助于增加对织物的需求,扩大普通人的衣橱,并使以前辛苦的手动任务更快更简单地完成。恐惧是这些可怕预测的根源。人们担心机器会从人类中获取工作或者超越我们,从而彻底取代我们。我相信现实是,通过教这些机器来接管我们日常的日常任务,我们给予自己更多的自由和灵活性,在我们的领域保持领先,并为自己提供更多的个人和职业发展机会。缝纫机和人工智能系统之间存在明显差异,但在我看来,他们有朝一日都会证明反思恐惧和毫无根据的假设无法预测革命性技术的未来。也不是天上掉馅饼的幻想 - 我们还没有飞行喷气背包去工作或以药丸的形式吃饭。重要的是要清楚地了解人工智能跨行业的潜在好处,以了解如何最好地进行。让AI为我们工作,而不是相反AI是一种工具。从锤子到启发式分析引擎的任何工具都可以使其用户更加高效,高效和高效。人工智能系统可能会从人类的手(或大脑)中完成某些任务,但我相信它会使人类更有效,而不是更少的必要。例如,AI的一个主要用途是模式识别。在安全上下文中,这可能意味着发现IT环境中的异常活动或行为可能表示存在违规行为。如果没有人工智能,你需要投入更多的人工来发现这些异常现象,但你也会发现更少的异常情况,减少违规行为并减少故障中的漏洞。同时,该业务受到更多损害。这对员工来说最好吗?现在将AI和机器学习技术添加到安全团队的工具库中。利用这些工具在后台寻找异常和威胁 - 利用我们教过的技能 - 安全和IT专业人员可以专注于更全面的安全方法。特别是,通过使技术更加智能化,我们可以解决每个企业安全态势中最薄弱的环节:人的因素。更智能的系统创造了更简单,更安全的工作体验。智能数字工作区可以包含更少的登录步骤(因此人们不会想要在Post-Its上使用快捷方式或写密码),无需将白名单或黑名单应用列入白名单(这种做法与IT员工一样讨厌) ,允许通过公共网络的安全连接(对于那里的星巴克Wi-Fi战士)等等。AI也有助于提高生产力。一个 普华永道的一项研究 发现,到2030年,人工智能有可能将全球经济的生产力和GDP潜力提高26%。在安全的情况下,AI使团队的努力更加成功,而不会取消他们的工作。作为可能产生更大影响的二阶效应,它还可以通过提高人们工作方式的效率和灵活性,使整个员工队伍更加有效。当人们可以在更多场景中更轻松地工作时,他们可以为业务带来更大的价值,有助于刺激增长,从而实际上可以增加公司对劳动力的需求。从这个意义上说,人工智能不会取代人,它会使人们充满活力 - 这对整个组织都有好处。随着人工智能的补充和增强计算的人性因素,您可以在整个组织中看到这些战略优势。通过自动执行平凡的任务并消除错误,AI可以提高业务效率。通过从当今令人眼花缭乱的设备和连接矩阵产生的大量数据中获取洞察力,它可以帮助我们做出更明智的决策,为企业,工人和客户带来好处。通过帮助我们跟上数字化转型的闪电步伐,它可以让我们通过主动解决问题和智能策略来管理风险,以防止漏洞发生。在更高的层面上,我相信人工智能对解决目前困扰我们经济的巨大人才短缺至关重要。我们需要技术来减轻人类的平凡任务,因此我们可以专注于推动业务发展的更高层次的任务。对于竞争那里的人才的个别公司 - 特别是那些我们一直听到的千禧一代 - 智能工作场所技术对于赢得人才战争至关重要。人们越来越期望他们应该能够以他们想要的方式,他们想要的地点和时间工作。AI可以在不影响安全性的情况下提供灵活性,因此人们可以获得现代工作体验,帮助他们做最好的工作并拥有最好的职业。人工智能不会崛起并接管世界。它学习我们教它的内容 - 我们正在教它我们希望我们的未来工作看起来像:安全,灵活,高效和高效。

热门文章

波士顿 - Neurala公司今天推出了一款新的视频标注工具,该工具由Brain Builder平台的人工智能辅助。“自动视频注释将显着加速神经网络的数据标注,从而帮助组织更快地培训和部署AI,”该公司表示。标记图像和视频对于开发用于建模和训练AI应用程序的数据集至关重要。Neurala  以软件即服务(SaaS)为基础提供Brain Builder,以帮助简化深度学习的创建,分析和管理。Neurala的联合创始人兼首席执行官Massimiliano Versace说:“人工智能数据准备的传统方法极其耗时且耗费人力,需要大量数据,需要经过精心和昂贵的注释。” “我们与Brain Builder的目标是通过易于使用的注释工具降低进入门槛。通过添加视频注释,我们能够进一步自动化数据准备,帮助组织将AI数据准备的时间和成本降低至少50%。“Neurala的专利和获奖技术源于2006年NASA,DARPA和空军研究实验室的神经网络研究。2013年,该公司加入了Techstars商业化计划。“每个人都想要AI,但他们不知道为什么,”Neurala的联合创始人兼首席运营官Heather Ames Versace说。“视频注释工具是终身AI技术堆栈的一部分,可提供透明度。”启用AI的注释可节省时间,提高工作效率当用户标记视频中的人物,物体或缺陷时,Neurala的新工具可以反复学习。Neurala表示,在用户在第一帧中标记感兴趣的项目后,该工具会自动在后续帧中注释相同的项目。例如,如果五个人输入一个框架,则在用户仅用一个人标记第一个框架后,它们将全部自动注释。相比之下,用户必须在他或她进入框架时标记每个人,这将花费更多的时间。此外,AI辅助视频注释可以提高标签处理速度并提高生产力,Heather Ames Versace告诉“ 机器人商业评论”。例如,用户可以注释10秒视频的一帧并获得300个注释的输出,而使用传统的注释方法,用户需要手动标记300个不同的图像才能获得相同的结果,Neurala说。“可解释性和信任始于数据,”Heather Ames Versace在最近的AI World大会上说。“通过在更短的时间内对数据进行注释和标记,团队可以进行更快速的原型设计。”用Brain Builder存钱“最终,它将帮助组织和开发人员更有效,更具成本效益地构建,培训和部署人工智能,”Massimiliano Versace说。“当涉及视觉AI的构建方式时,Neurala的Brain Builder平台已经在改变游戏规则。而现在,视频注释将进一步扩大可访问性和生产力的可能性。“Neurala说,Brain Builder还可以提供可观的投资回报。使用Brain Builder,组织可以以每小时6,750美元的视频进行注释,而没有它的则为13,500美元。Neurala发布  了一个教程  ,概述了使用Brain Builder在视频中标记对象的过程和好处。它还解释了如何使用TensorFlow训练语义分段网络。此外,本教程还引导观众了解跨多个GPU的培训步骤,这可以进一步缩短培训时间。