人工智能未来的数据标注将会是自我标注

2017 年 7 月，最后一届 ImageNet 挑战赛落幕。

为何对计算机视觉领域有着重要贡献的 ImageNet 挑战赛，会在 8 年后宣告终结？

毕竟计算机系统在图像识别等任务上的准确率已经超过人类水平，每年一次突破性进展的时代也已经过去。

近日，FAIR（Facebook AI Research）的 Ross Girshick 、何恺明等大神联手，在 ImageNet-1k 图像分类数据集上取得了 85.4％的准确率，超越了目前的最好成绩，而且没有使用专门为训练深度学习标记的图像作为训练数据。

然而，这不能怪大家不努力，只怪 Facebook 实在太土豪。10 亿张带有 hashtag（类似于微博里面的话题标签）的图片，以及 336 块 GPU，敢问谁能有这种壕气？

Facebook 表示，实验的成功证明了弱监督学习也能有良好表现，当然，只要数据足够多。

话不多说，我们一起来看看 Facebook 是怎样用数据和金钱砸出这个成果的。

以下内容来自 Facebook 官方博客，人工智能头条编译：

图像识别是人工智能研究的重要领域之一，同时也是 Facebook 的一大重点关注领域。我们的研究人员和工程师希望尽最大的努力打破计算机视觉系统的边界，然后将我们的研究成功应用到现实世界的问题中。为了改进计算机视觉系统的性能，使其能够高效地识别和分类各种物体，我们需要拥有至少数十亿张图像的数据集来作为基础，而不仅仅是百万量级。

目前比较主流的模型通常是利用人工注释的单独标记的数据进行训练，然而在这种情况下，增强系统的识别能力并不是往里面“扔”更多的图片那样简单。监督学习是劳动密集型的，但是它通常能够达到最佳的效果，然而手动标记数据集的大小已经接近极限。尽管 Facebook 正在利用 5000 万幅图像对一些模型进行训练，然而在数据全部需要人工标记的前提下，将训练集扩大到数十亿张是不可能实现。

我们的研究人员和工程师想出了一个解决办法：利用大量带有“hashtag”的公共图像集来训练图像识别网络，其中最大的数据集包括 35 亿张图像以及 17000 种 hashtag。这种方法的关键是使用现有的、公开的、用户提供的 hashtag 作为标签，而不是手动对每张图片进行分类。

这种方法在我们的测试中运行十分良好。我们利用具有数十亿张图像的数据集来训练我们的计算机视觉系统，然后在 ImageNet 上获得了创纪录的高分（准确率达到了 85.4％）。除了在图像识别性能方面实现突破之外，本研究还为如何从监督学习转向弱监督学习转变提供了深刻的洞见：通过使用现有标签——在本文这种情况下指的是 hashtag——而不是专门的标签来训练 AI 模型。我们计划在不久的将来会进行开源，让整个 AI 社区受益。

▌大规模使用 hashtag

由于人们经常用 hashtag 来对照片进行标注，因此我们认为这些图片是模型训练数据的理想来源。人们在使用 hashtag 的主要目的是让其他人发现相关内容，让自己的图片更容易被找到，这种意图正好可以为我们所用。

但是 hashtag 经常涉及非可视化的概念，例如 “#tbt” 代表“throwback Thursday”；有些时候，它们的语义也含糊不清，比如 “#party”，它既可以描述一个活动，也可以描述一个背景，或者两者皆可。为了更好地识别图像，这些标签可以作为弱监督数据，而模糊的或者不相关的 hashtag 则是不相干的标签噪声，可能会混淆深度学习模型。

由于这些充满噪声的标签对我们的大规模训练工作至关重要，我们开发了新的方法：把 hashtag 当作标签来进行图像识别实验，其中包括处理每张图像的多个标签（因为用户往往不会只添加一个 hashtag），对 hashtag 同义词进行排序，以及平衡常见的 hashtag 和少见的 hashtag 的影响。

为了使标签对图像识别训练更加有用，我们团队训练了一个大型的 hashtag 预测模型。这种方法显示了出色的迁移学习结果，这意味着该模型在图像分类上的表现可以广泛适用于其他人工智能系统。

▌在规模和性能上实现突破

如果只是用一台机器的话，将需要一年多的时间才能完成模型训练，因此我们设计了一种可以将该任务分配给 336 个 GPU 的方法，从而将总训练时间缩短至数周。随着模型规模越来越大——这项研究中最大的是 ResNeXt 101-32x48d，其参数超过了 8.61 亿个——这种分布式训练变得越来越重要。此外，我们还设计了一种删除重复值（副本）的方法，以确保训练集和测试集之间没有重叠。

尽管我们希望看到图像识别的性能得到一定提升，但试验结果远超我们的预期。在 ImageNet 图像识别基准测试中（该领域最常见的基准测试），我们的最佳模型通过 10 亿张图像的训练之后（其中包含 1,500 个 hashtag）达到了 85.4％的准确率，这是迄今为止 ImageNet 基准测试中的最好成绩，比之前最先进的模型的准确度高了 2％。再考虑到卷积网络架构的影响后，我们所观察到的性能提升效果更为显著：在深度学习粒使用数十亿张带有 hashtag 的图像之后，其准确度相对提高了 22.5％。

在 COCO 目标检测挑战中，我们发现使用 hashtag 预训练可以将模型的平均精度（average precision）提高 2％以上。

这些图像识别和物体检测领域的基础改进，代表了计算机视觉又向前迈出了一步。但是除此之外，该实验也揭示了与大规模训练和噪声标签相关的挑战和机遇。

例如，尽管增加训练数据集规模的大小是值得的，但选择与特定识别任务相匹配的一组 hashtag 也同样重要。我们选择了 10 亿张图像以及 1,500 个与 ImageNet 数据集中的类相匹配的 hashtag，相比同样的图像加上 17,000 个 hashtag，前者训练出来的模型取得了更好的成绩。另一方面，对于图像类别更多更广泛的任务，使用 17,000 个主 hashtag 训练出来模型性能改进的更加明显，这表明我们应该在未来的训练中增加 hashtag 的数量。

增加训练数据量通常对图像分类模型的表现是有益，但它同样也有可能会引发新的问题，如在图像内定位物体的能力明显下降。除此之外我们还观察到，实验中最大的模型仍然没有能够充分利用 35 亿张巨大图像集的优势，这表明我们应该构建更大的模型。

▌未来的图像识别：更大规模、自我标注

本次研究的一个重要结果，甚至比在图像识别方面的广泛收益还要重要，是确认了基于 hashtag 来训练计算机视觉模型是完全可行的。虽然我们使用了一些类似融合相似的 hashtag，降低其他 hashtag 权重的基本技术，但并不需要复杂的“清洗”程序来消除标签噪声。相反，我们能够使用 hashtag 来训练我们的模型，而且只需要对训练过程进行微小的调整。当训练集的规模达到十亿级时，我们的模型对标签噪音表现出了显著的抗干扰能力，因此数据集的规模在这里显然是一个优势。

在不久的将来，我们还会设想使用 hashtag 作为计算机视觉标签的其他方法。这些方法可能包括使用人工智能来更好地理解视频片段或更改图片在 Facebook 信息流中的排名方式。hashtag 还可以帮助系统更具体地识别图像是不是属于更细致的子类别，而不仅仅是宽泛的分类。一般情况下，图片的音频字幕都是仅宽泛地注释出物种名称，如“图片中有一些鸟类栖息”，但如果我们能够让注释更加精确（例如“一只红雀栖息在糖枫树上”），就可以为视障用户提供更加准确的描述。

此外，这项研究还可以改进新产品以及现有产品中的图像识别功能带来。例如，更准确的模型可能会促进我们改进在 Facebook 上呈现 Memories（与QQ的“日迹”相似）的方式。随着训练数据集越来越大，我们需要应用弱监督学习——而且从长远来看，无监督学习会变得越来越重要。

这项研究在论文“Exploring the Limits of Weakly Supervised Pretraining”中有更详细的描述。

上一篇:谷歌发布迄今最大注释图像数据集，190万图像目标检测挑战赛启动

下一篇:“数据标注”今天，那些人工智能背后“人工”正在回家

推荐文章

AI技术在音乐类产品中的应用场景：你听的歌是AI写的？

自动标注、平滑过渡、音乐鉴权、AI创作，当AI技术应用于音乐行业为人类的精神文化与娱乐生活带来便利和更多选择时，也是一件让人激动不已的事情。随着深度学习算法的出现、大数据和5G技术的成熟，AI人工智能已逐渐融入我们的生产生活中，在教育、医疗、政务办公、城市管理等多个方面发挥作用。随着AI技术在音乐行业研究及应用的深入，音乐人工智能已经不新鲜，很多新的应用和产品已经惊艳亮相。基于对于音乐技术及产品的了解，简单梳理一下目前AI技术在音乐类产品的各类应用场景。一．动标注当平台曲库量达到定量级时，如果再依赖传统的为打标签模式就会花费量成本且受到主观影响较。频动标注相关技术就受到泛关注，动标注的作不仅仅只是能替代标注以达到节省成本，同时可以客观评价乐内容，因此还可以拓展到流媒体播放的乐推荐。例如：Spodify、KKBOX都有利深度学习做推荐，其中KKBOX采频件、歌词以及户相关标注和评论等数据作为输从曲、场景及情绪等多个维度来判断乐是否满推荐的条件。般的动标注功能也和KKBOX的推荐维度类似，从曲、应场景、器乐和情绪等维度来进标注。HFIIVE旗下曲多多（AGM）音乐标签对于动标注，笔者也在上听到过一些不太专业的吐槽，比如之前有看到说音频自动标注可能会出现将一首歌曲的情绪同时标注为“欢乐”和“悲伤”两种情绪。在解释这原因之前，可以简单普及下机器学习中分类器、单标签多分类任务和多标签多分类任务。简单来说，分类器就是利已知的输和输出数据来训练，然后该分类器就会对未知的输数据进分类或输出个值。对于个分类器模型，它预测的结果是2个或于2个以上的（结果只有1个代表结果确定就不需要分类模型了）。如果可能的结果数为2称之为分类任务于2就是多分类任务；对于情绪可能有：亢、欢快、安静、悲伤等多个结果，因此情绪分类是个多分类任务。如果认为情绪模型是个单标签多分类任务，那么绝对是不可能出现”欢乐“和”悲伤”同时出现的情况。如果同时出现“欢乐”和“悲伤”，则只能存在于多标签多分类任务。“欢乐”和“悲伤”同时出现就定是错误的吗？也不定！基于深度学习的乐处理式般是分段处理，也就是将乐划分为多个段然后对每个段进预测判断它可能的标签。如果歌曲情绪存在波动，比如一首歌曲的情绪从开始的“欢乐”转向了“悲伤”，那么这种情况也是完全可能出现，现实活中很多歌曲的确是存在多个情绪甚互斥的标签存在的情况。二、平滑过渡平滑过渡功能是近年新出现的“炫酷”功能。简单理解，就是当歌曲快要播放完毕时下歌曲可能缝接，这种歌曲间的平滑过渡，不会让听众觉得非常突兀。这种功能的实现，也有依赖于基于深度学习的技术。致原理是将歌曲的末尾段和可能平滑过渡的其他歌曲的头部段作为训练样本。训练出来的模型可以预测当前输段可以过渡的下个段，然后当播放器播放歌曲尾部段的时候利该模型得到可平滑过渡的下歌曲。三、音乐鉴权互联网上的音乐侵权一直存在，但音乐版权方要在互联网上维护自己的权益，往往比较困难。因为互联网具有海量的内容，而且内容形式具有复合性，比如音乐内容仅仅作为视频的背景音乐，靠人工去发现和识别，难度太大。在这方面，AI技术的运用，已经能够实现实时监控视频、直播或播节中是否有存在歌曲的侵权情况。其中的原理是，将版权的曲库中歌曲提取出关键特征保存在集群数据库，然后提取待检测的频特征，并通过数据技术进快速检索数据库中是否存在相似数据。目前，拥有类似技术的公司，除了笔者所在公司外，ACRCloud也较具有代表性。四、AI创作当AI进入到音乐创作层面，在互联网行业也已有不少AI音乐创作工具，Amper Music、AIVA、Jukedeck、Ecrett Music、Melodrive、等ORB Composer等。公司层面，索尼、谷歌、百度以及人工智能非营利组织OpenAI等均在AI作曲领域有所尝试。2016年，索尼公司使用一种名为“流机器”(Flow Machines)的软件，创作了一首披头士(Beatles)风格的旋律，然后作曲家伯努瓦卡雷(Benoit Carre)将其制作成一首完整的流行歌曲《Daddy ‘s Car》(爸爸的车)。2018年，微软宣布第四代小冰加入到虚拟歌手市场竞争当中，并“演唱”了一首《隐形的翅膀》。AIVA科技开发的AI作曲家“Aiva”创作摇滚乐曲《On the Edge》并与歌手Taryn Southern合作创作流行乐曲《Love Sick》；在国内，笔者所在公司的相关产品在AI智能创作上，能够实现识曲（识别音乐作品中的音乐元素）、作词、作曲等功能，并已实现了商业化授权和应用。（HIFIVE小嗨 AI识曲/作曲/作词）在具体的AI智能音乐创作层面，AI作曲工具可辅助创意生成。如英国音乐制作人Alexa Da Kid利用IBM沃森认知计算平台中的机器学习音乐生成算法创作出单曲《Not Easy》、歌手Taryn Southern与AI作曲公司Amper Music开发的工具共同创作出《Break Free》与Aiva合作创作流行乐曲《Love Sick》。这些作品都曾一度成为热播曲目。随着越来越多AI音乐创作工具的诞生，充当音乐人的辅助，协助创作出更多优质的作品，AI作曲家的音乐创作能力也在逐渐得到认可。当AI遇上音乐，音乐被注入了越加鲜活的生命力，智能化大潮来袭，AI+音乐，未来值得期待！

人工智能未来的数据标注将会是自我标注

推荐文章

热门文章