数据清洗在人工智能基础数据方面的重要性。

数据清洗、数据采集、数据标注——人工智能时代不可或缺的产物

随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统,累积了大量的数据。为了使数据能够有效地支持组织的日常运作和决策,这就要求数据可靠无误,能够准确地反映现实世界的状况。数据是构成信息的前提和基础,好的数据质量是各种数据分析如OLAP、数据挖掘等有效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数据分析技术;二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数据间的不一致等,导致现有的数据中存在这样或那样的脏数据。脏数据主要表现为:拼写问题、打印错误、不合法值、空值、不一致值、简写、重复、不遵循引用完整性等。

timg_meitu_1.jpg

关于数据清洗的重要性

数据清洗是提高数据质量的重要手段之一,那么什么是数据清洗呢?数据清洗就是检测和去除数据中的噪声数据和无关数据、处理遗漏数据、去除空白数据域和知识背景下的白噪声。

数据清洗利用现有的技术手段和方法检测出数据源中的“脏数据”,并将“脏数据”转化为满足数据使用这要求的数据。数据清洗利用回溯的思想,分析数据源的特征,根据相应的业务规则,对数据流经的每个环节进行分析考察,从中总结出相应的数据清洗规则、策略,并基于现有的清洗算法和模型,抽象出符合实际需要的数据清洗策略、算法和框架,最后在数据集上应用这些算法。

数据清洗常见应用——金融行业

随着信息化程度的提高,金融机构内部积累了大量的业务数据,这些数据是金融机构进行正确决策的数据基础,而质量差的数据则起到相反作用。所以,为了更好地利用这些数据为金融机构服务,很多金融机构纷纷建立起了自己的数据中心或者数据仓库。数据清洗是数据中心或数据仓库系统的重要环节,是保证数据质量的刚需。

timg (2)_meitu_1.jpg

携手点我科技,为AI赋能,助力AI飞速发展!

点我科技专注于AI人工智能大数据处理服务,致力于人工智能大数据相关企业提供数据采集、清洗、标注、标注平台定制开发、算法优化等一整套解决方案。

点我科技旗下的找标注网平台是目前唯一一家为国内数十万标注行业从业人员、工作室 提供信息发布、行业交流、项目服务的以及为数据外包渠道与数据标注公司提供数据标注外包业务对接的平台;有遍布全国各地庞大的数据标注采集从业团队。

 timg (1)_meitu_2.jpg

 

推荐文章

百度有一天在某硬件领域成为全球第一,这句话似乎听起来很离奇。如果说这个领域的直接对手,是亚马逊、谷歌、苹果等北美科技巨头,那几乎就更有点神乎其神了。 然而根据Canalys最新数据报告,在2019年Q2百度智能音箱出货量继续居于国内市场第一的前提下,已经超过谷歌攀升到了世界第二,前面只有亚马逊最早入场的智能音箱Echo,这个占尽天时地利的对手。  要知道,从小度在家发布至今,百度做音箱仅仅经历了一年半的时间。从初入江湖到中国第一世界第二用了如此短的时间,百度智能音箱产品的全球市场份额,比一年前增长了令人“惊恐”的3700%。只能用惨无人道来形容的增长曲线,似乎正在确立百度硬件领域的生存与发展空间。 而毫无疑问,小度音箱的出货量能否大于亚马逊是一个关键指标,甚至将成为智能音箱发展史的拐点。另一方面,我们知道华为手机在成为世界出货量第一的路上,受到美国以国家力量干扰,至今没有完成。百度能否在音箱之路换道超车,自然也会引发国人强烈关注。 那么“音箱第一大厂”到底能不能换人?答案其实是由三个问题决定的。   路线之问:市场到底想要什么音箱? 用户对小度产品未来的好奇,归根结底在于小度攀升速度过快,大家会奇怪这种急速拉升究竟是一个可保持的长期趋势,还是短时间刺激效应下的虚假繁荣? 换句话说,小度究竟是走在正确的路上,还是仅仅踩了个幸运蘑菇? 这个问题必须交给智能音箱短暂但急促的发展史去回答。亚马逊Echo与谷歌Nest系列之间的关系,颇有点像天猫精灵与小度。只是中国市场相对更复杂,还要加上小米以及众多已经告别历史舞台的音箱产品。  如果说中美两开花,不,是两条线有什么共同特点,就在于“技术流”蚕食“电商流”是个必然趋势。谷歌凭借Assistant不断升级的语音交互能力,以及与安卓生态的关系,在亚马逊已经牢牢占据的智能音箱江山里杀了出来,做到今天北美市场快要分庭抗礼的程度。而国内音箱“三巨头”,小度起步最晚,却通过小度助手背后强大的技术能力,不断分割小米和阿里的市场份额,拓展智能音箱的市场边界。 不难看出,智能音箱落脚市场的关键还是智能技术。声音识别、唤醒、语义理解、多轮对话等能力构成了这个硬件值得被使用的基础。技术体验不流畅,可能直接造成打开率下降,影响市场购买率。这个硬卡位的存在,让电商体系与IoT体系带来的赋能相形见绌。 这个逻辑的最新论据在于,谷歌今年没有拿出什么能够引发极客们热情高涨、用户付出真金白银的技术,而是更多在产品的系列化以及周边设计上下功夫。无论我们将其看作调整周期还是谷歌的技术创新疲软,最终结果就是谷歌挑战亚马逊的步伐减慢,在全球范围内被百度完成了销量反超。 而与小度硬核崛起所同步的,恰好是底层技术创新。在不久前发布并已经搭载到小度音箱产品中的小度助手5.0,唤醒能力上加入了流式截断的多层注意力模型(SMLTA);在语义理解算法层融合了百度NLP的知识增强语义表示模型ERNIE,小度助手的核心理解算法升级为超大数据预训练深度模型,让众多NLP任务都有了新的表现;此外,全双工免唤醒能力的加入,让小度助手5.0有了人类之间对话时的“拒绝反应”,能够一次唤醒多次交互,让音箱主动分辨何时“不说”。 另一个值得注意的技术-产品关键问题,来自于带屏音箱新品类的市场认可。根据Canalys数据报告,在Q2小度全球音箱出货量中,有45%是带屏音箱。可见用户对这一新产品品类已经有了深刻接受度。而Canalys也指出,百度在带屏音箱中近乎于是没有竞争对手的。这条产品路径,正在成为小度的独属红利。用户对于智能音箱体验的认可和需求,从来就没有降低过。换言之核心技术才是智能音箱的主要矛盾,从美国的谷歌生吃亚马逊,到中国的“千箱-三箱-小度超级箱”之路,都可以佐证市场核心逻辑的所在位置。 那么回到最初的答案,持续保持底层技术创新的百度,与长时间缺乏底层AI技术创新的亚马逊,处在一个努力奔跑,一个缓慢散步的进程里。百度反超,是存在战略上可能性的。 那么从战略到战术,关键问题在哪呢?   大妈之问:中国市场到底有多大? 通过底层技术创新,拉动技能开发生态和内容平台,这样的模式让国内智能音箱市场快速从三强争霸变成了一超两强。在小米和阿里近期无力概念技术和生态格局的条件下,这个局面今天来看应该会一直持续下去。 但是百度能否挑战世界第一的位置,很大程度上并不取决于国内竞争。因为现在中美音箱是你卖你的我卖我的,大家没事不串门。所以销量规模上的比拼,源自于各自市场容量的边界。换句话说,百度到底能把中国市场做到多大,是否能让中国市场音箱保有量超过美国,这个才是问题关键。 毫无疑问,中国市场上的智能音箱,正在享受互联网模式下的人口红利。根据Canalys预测,今年中国内地智能音箱数量将同比增长166%,效率冠绝全球,是美国46%增速的三倍。 这样的市场增速来源是多方面的,首先中国市场智能音箱的性价比依旧重要,这让智能音箱在中国市场基本属于无门槛消费。再者随着小度等音箱不断完善能力和内容,音箱的受众范围得到不断推广,家庭市场、教育市场在不断深化。  但真正决定中国市场销量边界的,其实是下沉市场的打开效率。几个月之前,我采访过烟台农村的一位大姐,她告诉我她家有一台小度在家,两台小度音箱(无屏版)。而这样的配置在她们村并不少见。可以直接对话,调出音乐、内容,以及应用的智能音箱,正在与中国广袤的黄土地毫不违和地沾粘在一起。 在理解智能音箱下沉市场的边界有多大时候,必须正视今天这样几个现状: 1、智能音箱抢占的是谁的市场?在具有长时间内容收听能力的市场里,不是一种音箱打败另一种音箱,而是这种智能交互模式+内容通道,收割收音机、低音炮、电视,甚至手机的存在时间。音箱体验的简便性,会从下沉市场首先发酵。 2、互联网服务增值模式与音箱之间的联系,构成了很多内容、电商、教育可以围绕音箱打开。这些内容在大都市可能很自然通过手机获取,音箱更多属于垂直人群,但在下沉市场,手机性能并不强,反而是便宜的音箱更可能成为入口。因此音箱的人均普及价值可以很快超越手机。 3、下沉市场的增长法则相对明确,大覆盖面广告效果明显。在春晚植入和热播综艺的普及下,如今用户已经对智能音箱产生心理预期和理解能力,市场教育周期已经基本完成。 在这三个条件下,智能音箱的市场边界还远远没有达到顶点。小度贯穿一线城市到乡村的销售覆盖网络,则强化了小度的市场打开通道。 如果继续保持目前的增长速度,小度基于中国市场的穿透力,销量超越亚马逊将不需要太长时间。无论国外媒体感觉多么不可思议,中国大妈说,这事是我们罩的。   苹果之问:去往海外的音箱如何生存? 再向更远处看,中美智能音箱的冠军,必然在世界范围内还有一战。但这场战斗发生在哪大有学问。 事实证明,美国音箱想在中国存活近乎不可能;看川普推特里的小情绪,中国音箱想进美国大概短期也不现实。 到2019年年底,全世界智能音箱预计可以达成2亿台的安装量,其中中国6000万,美国9000万。那么也就是说,全球还有四分之一非中非美市场。 根据Canalys的数据,这些市场份额里,目前对智能音箱接受度最好的是日本和韩国。在Q2这两个市场分别达成了131%和132%的增速,仅次于中国名列二三。 必须注意的是,这两大市场使用的语言既不是英语也不是汉语。所以从AI巨头输入产品解决方案时,这些市场需要的是多轮对话、语义理解、NLP的底层能力。 亚马逊和百度,谁能在这全球四分之一的市场里占领未来呢?这个远距离推测很可能给人不公允的感觉。但不妨来看一下,已经在中国卖了大半年的苹果智能音箱,是怎么失败的。事实上,苹果的HomePod基本可以判断为一款失败的产品,只不过是北美小败其他市场大败而已。4月,苹果不得已宣布HomePod永久降价50美元,可见其失利幅度之大。 苹果的音箱之痛,可以总结为三个问题:智能交互太差,尤其是非英语体验极其不好;昂贵的定价在其他智能音箱玩家面前没有任何竞争力,反而有浓厚的智商税嫌疑;应用体系,内容服务和IoT生态都没有,消费者不知道买来干什么。 苹果的问题,没有哪家企业敢不吸取。于是我们可以看到,音箱出海,脱离了本身市场的知名度和品牌能力之后,真正比拼的是三点:技术能力、定价能力、生态服务。 回到百度和亚马逊未来可能的出海对决中,今天底层技术的创新百度已经领先于业界,语音智能相关的底层算法幅度,更是从今年开始领先了AI老大哥谷歌,这是前所未见的。 而定价能力上,更靠近中国完善产业链的百度,显然不会拿出贵到离谱的产品走向世界。反而因为音箱品类的集成度有效,净值又不高,北美巨头很难在代工模式中发挥手机和平板的成本控制能力,很可能在直接与中国品牌的碰撞中陷入尴尬。 那么最后在生态服务能力上,百度与亚马逊如果真的展开较量,那就将是亚马逊依然强劲的世界电商网络能力,与百度代表的中国互联网服务模式的缠斗。这其中需要发挥中国互联网公司源源不断的运营和服务创新能力,可能要经历一场群狼搏虎的战斗。 虽然这个类比并不意味着真正的未来,但是2比1,是绝对能够说明某种态势的。而且出海之战,百度真正迎战谷歌或者亚马逊的时候,大概率小度已经是全球第一大音箱厂商了。 从无人机,到手机,再到音箱,世界第一并不只是个名号,还是中国科技产业不容放弃的话语权。当百度成为世界音箱一哥的同时,也是下个时代的大门被悄悄推开的时候。

热门文章

简单讲:互联网数据标注员是借助电脑或者移动设备对一些原始的数据进行处理,生产出满足AI公司机器学习需要数据的一群人。按照数据处理对象的不同,工作内容也会有差别,标注员的工作内容可以分为:分类;框选;注释;标记。按照所处公司的不同,标注员的工作方式也会有差别:有的人工智能公司处于对数据安全性考虑会自建标注团队,在这些公司工作的标注员可以保证自己工作内容不会出现太大变动;但一些服务于人工智能公司非专业外包公司标注员的工作则是项目制的,一个项目忙完紧接着做另一个项目,这样工作内容连续性较差,对一种类型的项目经验也不会积累的太多。就目前来说,人工智能还处于人工增长阶段,机器依然需要大量的数据进行训练,测试。标注员在当下也会一直存在,而且从业群体会越来越多,所以暂时不用担心这份职业会不会短期消失。就标注员从业来说,建议选择人工智能公司和专业的数据公司,这样可以保证自己在一个方向上了解的足够深入。就职场晋升来说,以牛牛数据为例:标注员——项目经理——项目总监——数据运营总监。首先谈谈什么是数据标注。数据标注有许多类型,如分类、画框、注释、标记等等,我们会在下面详谈。要理解数据标注,得先理解AI其实是部分替代人的认知功能。回想一下我们是如何学习的,例如我们学习认识苹果,那么就需要有人拿着一个苹果到你面前告诉你,这是一个苹果。然后以后你遇到了苹果,你才知道这玩意儿叫做“苹果”。类比机器学习,我们要教他认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个啥玩意的。我们得先有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张苹果的图片,它就能认出来了。这边可以顺带提一下训练集和测试集的概念。训练集和测试集都是标注过的数据,还是以苹果为例子,假设我们有1000张标注着“苹果”的图片,那么我们可以拿900涨作为训练集,100张作为测试集。机器从900张苹果的图片中学习得到一个模型,然后我们将剩下的100张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。想想我们上学的时候,考试的内容总是不会和我们平时的作业一样,也只有这样才能测试出学习的真正效果,这样就不难理解为什么要划分一个测试集了。我们知道机器学习分为有监督学习和无监督学习。无监督学习的效果是不可控的,常常是被用来做探索性的实验。而在实际产品应用中,通常使用的是有监督学习。有监督的机器学习就需要有标注的数据来作为先验经验。在进行数据标注之前,我们首先要对数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。具体的数据要求可以和算法人员确认。二、常见的几种数据标注类型1.分类标注:分类标注,就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。<img src="https://pic2.zhimg.com/50/v2-df93dc0a7e8a5fe387dc3774748b5f05_hd.jpg" data-caption="" data-size="normal" data-rawwidth="700" data-rawheight="400" class="origin_image zh-lightbox-thumb" width="700" data-original="https://pic2.zhimg.com/v2-df93dc0a7e8a5fe387dc3774748b5f05_r.jpg">适用:文本、图像、语音、视频应用:脸龄识别,情绪识别,性别识别2.标框标注:机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。行人识别,如下图。<img src="https://pic2.zhimg.com/50/v2-7824903d6d840e2bb08d96b5c2fa5874_hd.jpg" data-caption="" data-size="normal" data-rawwidth="591" data-rawheight="398" class="origin_image zh-lightbox-thumb" width="591" data-original="https://pic2.zhimg.com/v2-7824903d6d840e2bb08d96b5c2fa5874_r.jpg">适用:图像应用:人脸识别,物品识别3.区域标注:相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。<img src="https://pic3.zhimg.com/50/v2-4bc1dd2278182acf94fc426d7e6f2dc1_hd.jpg" data-caption="" data-size="normal" data-rawwidth="601" data-rawheight="377" class="origin_image zh-lightbox-thumb" width="601" data-original="https://pic3.zhimg.com/v2-4bc1dd2278182acf94fc426d7e6f2dc1_r.jpg">适用:图像应用:自动驾驶4.描点标注:一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。<img src="https://pic4.zhimg.com/50/v2-5e24f394516c75e45942c37ba0da85c0_hd.jpg" data-caption="" data-size="normal" data-rawwidth="583" data-rawheight="387" class="origin_image zh-lightbox-thumb" width="583" data-original="https://pic4.zhimg.com/v2-5e24f394516c75e45942c37ba0da85c0_r.jpg">适用:图像应用:人脸识别、骨骼识别5.其他标注:标注的类型除了上面几种常见,还有很多个性化的。根据不同的需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,这时候的标注严格上就不属于上面的任何一种了。(或则你把它归为分类也是可以的,只是标注主要观点就没有这么客观的标准,如果是标注苹果估计大多数人标注的结果都差不多。)三、有什么发展前途?数据标注员可以说是AI消灭了一部分工作又创造出来的一种工作。在未来AI发展良好的前提下,数据的缺口一定是巨大的。可以预见3-5年内数据标注员的需求会一直存在。至于发展,其实所谓一些熟能生巧的工作,都是有被替代掉的风险的。深度学习解决的一件事情就是熟能生巧。在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你标注的数据进行学习,想想还是有点成就感的。数据标注可以说是AI的入门级岗位,未来可转向其他AI岗位。如项目实施顾问等,这就要求更多的工作技能,需要再工作中积累。作者:跹尘链接:https://www.zhihu.com/question/30654399/answer/264828926来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。