创新工厂李开复：AI+”有四个阶段

编者按：这是创新工场董事长李开复在2019上海世界人工智能大会上的主论坛演讲。　　此前对于AI开启的行业赋能，已经被很多次阐释、验证并不断产出成果。　　但对于“AI+”的发展路径、逻辑和未来，在李开复之前还没有人有过如此大道至简式的分析。　　或许跟李开复的履历和现在密不可分。他是80年代的计算机博士，论文成果就是AI领域的研究，是懂AI的科学家。　　

介绍下数据标注平台的运营模式

目前AI行业发展火热各大巨头都投入巨资在此领域布局，智能驾驶、人脸识别以及近段时间正火的AI养猪都是AI技术应用在实际生活上的体现，毫不夸张的说AI技术正在逐渐改变我们的生活而我们的生活也将因此变得更美好。 AI的发展离不开数据标注的支持，而目前AI行业庞大的数据标注工作都是通过哪种模式完成的呢？&

数据清洗、数据采集、数据标注——人工智能时代不可或缺的产物随着信息处理技术的不断发展，各行各业已建立了很多计算机信息系统，累积了大量的数据。为了使数据能够有效地支持组织的日常运作和决策，这就要求数据可靠无误，能够准确地反映现实世界的状况。数据是构成信息的前提和基础，好的数据质量是各种数据分析如OLAP、数据挖掘等有效应用的基本条件。人们常常抱怨“数据丰富，信息贫乏”,究其原因，一是缺乏有效的数据分

何为数据标注数据清洗？

数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗的主要包括：纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压

揭秘AI训练内幕：帮助AI进化的除了专家，还有全球无数上班族

注：原文来自“腾讯科技”，本文转载来自36氪。大型科技公司对注释数据的工作往往保持沉默，因为他们面临着隐私维权人士对他们存储并与外部企业共享大量个人数据的担忧加剧划重点在AI系统能够学习之前，必须有人标记提供给它的数据，这项工作对自动驾驶汽车、监控系统和自动化医疗等AI的创造至关重要。大型科技公司对注释数据的工作往往保持沉默，因为他们面临着隐私维权人

AI 如何从令人失望到大行其道？

人工智能（AI）问世之初曾经狂妄自大、令人失望，它如何突然变成当今最热门的技术领域？人工智能（AI）问世之初曾经狂妄自大、令人失望，它如何突然变成当今最热门的技术领域？这个词语首次出现在1956年的一份研究计划书中。该计划书写道：“只要精心挑选一群科学家，让他们一起研究一个夏天，就可以取得重大进展，使机器能够解决目前只有人类才能解决的那些问题。”至少可以说，这种看法过于乐观。尽管偶有进步，但AI在

工作带娃两不误阿里“AI豆计划”正利用人工智能为贫困女性创造大量在家乡就业的机会

个多月前，21岁的贵州女孩小吴完全没有想到，自己能够在家门口找到一份心仪的且听上去有点儿“高大上”的工作。7月18日,由支付宝公益基金会、阿里巴巴人工智能实验室、中国妇女发展基金会联合发起的“AI豆（谐音‘爱豆’）计划”在贵州铜仁启动试点：通过人工智能产业释放出大量就业机会，探索“AI扶贫”新模式，让贫困群众尤其是困境女性成为“人工智能培育师”，在家门口实现就业、脱贫。经过半个多月的教学和练习，小

麻省理工的 AI 新研究：AI可以织毛衣了！

说到人工智能，除了某些很酷的前沿应用外，其实对于这个话题我们经常会想到「假」这件事，用人工智能完成的造假除了一些灰产之外，更成为了一种娱乐方式，其中最有名的可能就是 AI 换脸的了，这种换头术至今还在 B 站大肆流行着。相反的，AI 应用在现实中带来的「真」变化可谓少之又少。不过最近美国麻省理工学院的研究人员发现了一种与「造假」相反的 AI 研究，这种研究反而需要 AI 来点「真」的东西，准确的说

AI换脸竟能做天天衣无缝，黑科技太可怕了！

说起“改头换面”，恐怕大家都觉得这不是一朝一夕的事儿。然而就在最近，网友们惊讶的发现，这件事竟能眨眼间搞定了！94版《射雕》里黄蓉的扮演者突然从朱茵变成了杨幂，服化道画风丝毫都没有变化……就连表情神态也惟妙惟肖，毫无违和感。拔群的效果果然引来一众吃瓜群众围观，热搜话题阅读量超过了1.3亿。这种被称作黑科技的AI换脸，国内也有不少仿效者，比如有网友把女主播的脸换成唐嫣、杨幂、刘亦菲等明星，真是吓傻了

企业数据治理的成功要素之一：数据战略管理

前言：作为一名数据服务工作者---资深“乙方”，见过、听过或亲身经历过很多的数据治理相关的项目，如：数据交换共享项目、数据治理项目、主数据项目、元数据项目……，这些项目中，有非常成功的——用的很好，也有差强人意的——勉强在用，还有没上线就下线的——基本没有使用。如果我们Review下这些项目，也许我们不难发现影响数据治理项目成功或失败的因素有很多，这些因素有管理方面的、业务方面的、技术方面的、企业

注册找标注网送爱奇艺会员

免费注册找标注网送爱奇艺会员感谢大家一年以来的支持与关注，免费注册找标注网送爱奇艺会员活动开始了，小伙伴们想要的看下规则！规则如下：新老用户都可，需要已实名用户并绑定有效手机号，手机号与支付宝手机号一致；邀请6人成功注册，其中3人实名成功；只限爱奇艺新用户；爱奇艺注册手机号与找标注网注册

数据标注----人工智能行业的基石

“ 随着一系列技术上的突破，人工智能在世界科技领域已经渐渐的驶进了高速车道。中国老子有一句名言是：“九层之台，起于累土”。意思就是再高的楼台都是由一筐一筐土堆积而成的，这就特别的强调了基础的重要性.....”目前越来越多的人都有一个共识那就是：互联网与人工智能在当今世界科技格局中，中国和美国是两国独大。同时，这两个领域又是未来领域。为什么说是未来领域，互联网的未来趋势已经被时间很好的证明

未来计算机视觉技术发展的趋势

“随着自动驾驶汽车，机器人，无人机，人脸语音视频识别，智慧物流，新零售应用等方面取得了令人瞩目的进步，计算机视觉（CV）成为主流词。对于已经在该领域有一定了解的人来说，发现越来越多的人注意到这个正在改变一切的技术......”未来几年CV将会在以下九个方面占主导地位。CV应用程序越来越广泛。未来几年CV程序将普遍应用于手机，安全摄像头，虚拟镜等设备上，这对于数据隐私(消费者越来越敏感的一个问题)来

数据标注到底是一个什么样的行业

任何一家为人工智能企业提供数据标注服务的公司都离不开“数据标注员”这样的角色。毕竟人类的认知一直领先于机器智慧一段距离，目前的AI还无法胜任数据标注员的工作，机器学习依赖人类“喂食”，而填饱机器的“美味佳肴”则需要标注员们对数据的加工.... &

数据标注公司如何在人工智能大发展浪潮中迎来大发展

“从深度学习到AI产品的广泛应用，我们正在走入新一轮的效率革命。那么问题来了，我们应该如何在波涛汹涌的AI浪潮中站在数据标注行业的前沿，而不是被大浪所吞噬而衰退呢？” 我们就具体如何做进行几点浅谈。准确判断数据标注需求公司的的需求方向市场需求在现实中是瞬息万变的，有在研发层面需要快速进行产品迭代的AI公司；有在应用层面需要大批量数据进行机器学习的AI公司。我们能够准确的把握此类公司的需求

开源OCR文字识别软件Calamari

Calamari是一种新的开源OCR识别软件，它使用了最先进的Tensorflow实现的深度神经网络（DNN）。提供了预训练模型和多模型投票技术。由卷积神经网络（CNNS）和长短时记忆（LSTM）层构成的可定制网络架构通过Graves等人的连接时间分类（CTC）算法进行训练。而GPU的使用大大减少了训练和预测的计算时间。我们使用两个不同的数据集来比较Calamari与OCRopy，OCRopus

开源的车牌识别系统打败了目前最先进的商业软件

来自巴西阿雷格里港大学的学者发表于ECCV2018的论文《License Plate Detection and Recognition in Unconstrained Scenarios》，给出了一整套完整的车牌识别系统设计，着眼于解决在非限定场景有挑战的车牌识别应用，其性能优于目前主流的商业系统，

Intel论文揭示自家车牌识别算法:LPRNet

来自工业界的最佳实践。车牌识别是一个老生常谈的话题，在工业界已经得到广泛应用。当深度学习在各种视觉识别任务上刷新更高精度的时候，却常常被认为计算量远大于传统方法。Intel公司俄罗斯IOTG计算机视觉组的工程师最近发布了一篇论文，揭示了自家已经商用的车牌识别算法，使用轻量级深度神经网络进行车牌识别，达到快准狠的新高度，即速度超快、精度超准、硬件利用率超狠。本文来自于论文《LPRNet: Licen

轻量级深度神经网络车牌识别，识别车牌只需要1.3毫秒，无需分割

本文提出了LPRNet – 自动车牌识别的端到端学习方法，没有预处理步骤的字符分割。我们的方法受深度神经网络最新突破的启发，并且可以实时工作，中文牌照识别精度高达95％：在硬件配置nVIDIA GeForce GTX 1080、英特尔酷睿i7-6700K情况下可以实现每1.3毫秒识别一个车牌。LPRNet由轻量级的卷积神经网络组成，因此可以以端到端的方式进行训练。据我们所知，LPRNet

快速精准的人头检测，代码已开源

自江森自控（Johnson Controls Inc.）的软件工程师Aditya Vora分享了一种快速精准的人头检测（head detector）算法并开源了代码。看起来还是不错的！人头检测在视频监控中非常重要，而公交车、商场或者大型场馆的拥挤人群计数则是其重要应用场景。算法思想作者称拥挤

共 106 条

在人脸识别应用中，很多场景能够获取某一个体的多幅人脸图像的集合（比如在监控视频中），使用人脸图像集来做识别，这个问题被称为基于模板的人脸识别（template-based face recognition）。对于多幅图像，当然可以使用单幅人脸图像的识别方法，综合多幅图像的识别结果确定最终的人脸识别结果，但更好的方式是直接基于人脸图像集提取特征，比较人脸图像集的特征相似性。这涉及到如何聚合多幅人脸图像的特征向量成为一个特征向量，使该特征紧凑而又更具鉴别性的问题。几天前公布的一篇来自DeepMind和VGG组被ACCV2018接收的论文《GhostVLAD for set-based face recognition》，正是解决这样的问题，文中提出的算法GhostVLAD在具有较高难度的大型真实场景人脸数据集IJB-B上的识别精度，远超过目前的state-of-the-art结果！非常值得参考！作者信息：算法原理作者的想法非常简单，当聚合多个人脸图像特征时，现有的平均池化等方法没能考虑到人脸图像集中一些低质量的图像（比如模糊人脸）的作用，这些图像含有的信息对识别并没有太大的贡献，应该降低这些低质量图像对最终聚合特征的贡献。一种直接的处理方法是，在人脸图像预处理阶段将低质量图像找出来，降低其贡献权重，但作者认为，端到端自动训练的方式让网络自身去优化识别并降低该部分样本的权重更好。作者发明的算法网络结构如下：多幅人脸图像（每次图像个数可不同）通过CNN网络提取特征并L2归一化，然后被送入聚合模块，GhostVLAD网络模块将多个人脸特征聚合称固定维数的特征矩阵（与输入图像个数无关），再通过全连接层FC、BN层和L2归一化为紧凑鉴别的特征。其中的关键网络模块GhostVLAD既实现特征聚合，同时降低低质量图像的权重，提高高质量图像的聚合权重。GhostVLAD是如何实现上述功效的呢？说白了一句话，既然不要人为参与，那就要构建一种网络结构，让网络自动学习对识别不重要的信息，并丢掉它。作者是在NetVLAD上做出的算法改进，NetVLAD可以理解为一种可微分完全可训练的VLAD编码聚合方法，它的作用大致是自动计算特征聚类中心，计算残差，然后把残差加权，构建聚合特征矩阵，整个过程方便加入到神经网络中。在NetVLAD中，其聚合的特征矩阵中的元素计算方法如下：其中K是NetVLAD中手工设置的聚类中心个数，xi是第i个特征向量，ck是可训练的聚类中心，ak、bk是可训练的参数控制着加权的权重。由上述公式得知，NetVLAD中所有聚类中心ck都参与了聚合，GhostVLAD的改进则是增加聚类中心的个数到K+G，但是增加的聚类中心在构建聚合特征矩阵的时候不参与贡献权重。如下图所示：红色位置即标示出的Ghost 聚类中心，后续步骤中被去除，Ghost有“幻象”的意思，可能很多模糊的人脸的确看起来是“幻象”，这也是GhostVLAD名称的由来。这些多出来的不参与聚合特征矩阵构建的Ghost聚类中心，就相当于给了神经网络丢弃一部分信息使得网络更具鉴别性的可能，而在原来的NetVLAD中是体现不出来的。实验结果作者首先设计的实验是比较网络加上GhostVLAD层跟不加的精度，验证其有效性，作者使用的训练集是VGGFace2。实验设置不再赘述，这里直接给出结果。在IJB-B数据集上的1:1人脸验证结果比较如下图，取得了大幅度的精度提升。在IJB-B数据集上的1:N人脸识别结果比较如下图，同样取得了大幅度的精度提升。然后作者将提出的算法GhostVLAD与目前的state-of-the-art比较。如下图中Table 3和Table 4，在IJB-A和IJB-B上比较验证和识别结果，同样所提算法精度也胜出不少，请注意作者使用的训练集比其中很多state-of-the-art算法规模要小，但依然实现性能超越！最后作者可视化了使用GhostVLAD后对输入样本权重的影响，发现对于那些低质量模糊人脸的确权重被降低了。总结：该文从一个简单的直觉开始，构建了一种帮助神经网络丢弃鉴别性不足的信息的有效方式，大幅改进了基于图像集合的人脸识别方法，算法具有较高的实用价值，思想也很值得借鉴！值得一提的是，该文中的GhostVLAD方法不仅仅适用于人脸识别，在图像检索、行人重识别等领域也同样适用。论文地址：https://arxiv.org/abs/1810.09951关于代码：可惜的是，该文目前并无开源代码，但DeepMind和VGG组都是一向乐于分享代码的，期待作者早日开源～