智能语音产业现状

语音交互设计与运营的这两年里，事情比较多一直没空静下来总结一下做过的事情。我们先从语音产品的现状总结一下吧。
最近几年来随着深度学习技术的突破，大数据技术以及自然语言理解能力的提升，带动了一波产业热潮。国内继科大讯飞、捷通华声之后，阿里，百度，腾讯等巨头都在智能语音领域发力，行业内也涌现出新的佼佼者：思必驰、云知声、出门问问等后起之秀，在教育、客服、电信等传统行业之外，开辟出了车载、家居、医疗、智能硬件等语音技术应用新天地。
如果找一个产品来代表现在国内智能语音产品的现状，我会选择智能语音音响。它听上去很酷，产品价格也适中应该推广很好。但事与愿违，国内智能音箱虽然是重要语音交互体验产品，但销量并不乐观。仅阿里的天猫精灵在双十一以99元火了一把，双十一销售达到上百万台。其他产品销量真的惨不忍睹，比如：小米音响国内排名第一平均每月销售4766台（数据来源淘宝）。在国外智能语音音响已经被广泛的推广，Amazon的echo，谷歌的GoogleHome，苹果的 HomePod等纷纷上市抢占市场。以下为Amazon的echo销售成绩单
所以国内的智能音箱还需继续努力，而语音技术上在近一年的确得到十足的长进。在Gartner的技术成熟度曲线面前，跌宕起伏又迎来了的转折点。

智能语音现在的不足在哪？无论在C端还是在B端带来的仅是交互的便捷，体验的提升吗？带着这些问题，我们先看看现在只能语音的不足
技术还不够成熟：语音识别还需提升，NLP技术还有待成熟
语音识别主要包括以下步骤：语音信号处理、静音切除、声学特征提取、模式匹配等环节。由于语音信号的多样性和复杂性，系统只能在一定限制条件下才能获得满意效果。在真实使用场景中，考虑到远场、方言、噪音、断句等问题，准确率会大打折扣。目前业内对于16K采样率的语音识别普遍宣称的97%识别准确率，更多的是人工测评结果，只在安静室内的进场识别中才能实现。
我以前做过的智能语音产品：智能客服，语音信箱为例，基于通讯网络下的产品。在GSM网络下仅有8k，16bit的采样率，识别率最高也只能在90%左右，国外据说IBM能做到94.9%。制约因素主要有数据：语音识别除了算法以外更多的是需要大量的语音标注数据去训练去优化，去通过对该业务的定制升学模型，语音模型去提升，如果没有数据你何来提升。还有另外一个问题就是噪音，噪音分为人生与非人声。电话中的场景是复杂的，背景音很多，降噪技术能做到的非常有限。很多智能硬件通过麦克风阵列的确能大幅的减低了背景音的干扰，但没有呢？比如：手机用的最多智能语音的硬件。
NLP技术主要分为三层：词法分析、句法分析、语义分析，三者之间关系是递进又相互包含。而中国文化的多样性，一词多意，所以语义消岐是NLP技术突破的重大难点。机器在切词、标注词性、并识别完后，需要对各个词语进行理解。由于语言中往往一词多义，人在理解时会基于已有知识储备和上下文环境，但机器很难做到。现有手段更多的是通过根据业务，场景定制语言模型，热词等方式去对该应用场景的消岐，还是会面对很多问题。
由于近几年的大数据技术的快速提升使人工智能技术得到快速发展，但一领域的技术进步和产业化推进是一种协同关系。只有通过工程化把技术落地，在产品运营过程提升效果与体验，才能促进产品广泛推广，再根据实际应用中的数据和反馈，反过来推动技术实现突破。
对于未来的机遇在哪？
个人了解的行业信息有限，但从我获取到信息说一下个人的理解。C端智能语音正在改变着我们的生活习惯，主要应用在移动设备、汽车、家居三大场景，用来变革原有人机交互方式；B端则针对垂直行业需求，提升人工效率，比如智能客服，通过智能应答解决了80%以上的用户问题，大量的降低了人力成本和用户解决问题的销量。在政企方面比如法院的记录，医院的记录等。

整体的发展中移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音产业规模持续快速增长。2015 年全球智能语音市场规模达 62.1 亿美元，同比增长 34.2%。中国智能语音产业市场规模也逐步扩大，2015 年 40.3 亿元产业规模约占全球市场份额 10%，且增速显著高于全球市场，预计至 2017 年份额占比将提升到 14%（数据来源于：中国产业信息网）。
对于快速发展智能语音产业，谁能占领更大的蛋糕。对于底层算法虽然还是很大壁垒，但我跟认可谁有数据谁说了算，谁在该领域获得最多的数据，这个领域就由谁主导。从这个逻辑BAT无疑最大的蛋糕获益者，那其他的创业者还有机遇，我只能说起跑线还在画，不用担忧到终点的问题。

上一篇:人工智能行业研究报告

下一篇:数据标注：光鲜背后的付出

推荐文章

女性劳动更容易被 AI 替代？

最近有很多研究提到，人工智能和自动化为主的技术进步，可能让女性就业受到比男性更大的冲击。不过更进一步查看的话，所有这些文章会将深层原因归结于，女性更少的从事科学、技术、工程和数学 (STEM) 方向的学习；说大白话，就是女性没有学会编程，不懂电脑技术。根据伦敦智库 IPPR 的研究，在自动化风险较高的行业中，近三分之二（64%）的英国工人是女性。这是因为众多女性从事的都是零售和行政工作，而这可以通过机器来完成。IPPR 说：“总的来说，1/10 的女工面临着被机器人替代的高风险。相比之下，只有 4% 的男性工人有同类风险。” [1]《金融时报》的文章指出，问题出在人们年轻的时候。高校 STEM 专业的学生约 65% 是男性。如果女性年轻时没有机会获得 STEM 相关学位，也就困于家务劳动和带孩子，而没有时间接受再培训。文章说，新兴经济体许多女性面临更大的困难，因为她们当中有很多人从事仅能维持生计的农业，几乎没有受过教育，也没有什么可转移的技能。[2]那么，为什么不直接说不会编程技能，或缺少编程思维的人更难找到工作呢？男人就没有这样对程序或基础科学一窍不通的吗？我对这个问题如此敏感，一个原因是我本人（男）就是与 STEM 无缘的典型案例。从小就喜欢计算机，却终究没学会编程在我上高中之初，有一次机会选择文理科分班，这也是中国特色的教育方法。因为我在的高中比较强的是理科，我就选了理科，可是两学期下来，数学只能考 30 多分，物理、化学、生物全面亮红灯。我对理科知识的唯一回忆，可能是刚上化学课的时候，问老师“石蕊（试纸）的化学式是什么”。没有答案，我只记住自己问了这个问题。所以，我不得不由高一时的理科班转到文科班，不然的话根本没办法正常的考试。在文科班，我高考的分数也相对好一点，只是因为更多死记硬背的部分，更适合那个时候的我。我深知考核标准的不同，会导致学生高考分数和社会评价的巨大差异。有人说，农村孩子吃亏就在于高考不考种地、爬树、捉蟋蟀。都不用这么麻烦，其实文理分班已经能区分很大一部分同学的未来路径——但对某方向本来就很感兴趣，自己知道想要什么的同学除外。我也知道自己有理科，也就是 STEM 学科方面的弱点。所以，即使我还没上学就用上了电脑，也把未来理想跟计算机捆绑在一起，却不能如愿以偿的从事程序员的工作；最后长大了，也不能由此转岗去做薪水更高，更稳定，前景也更好的编程行业，只能徘徊在电脑行业的边缘。这一直是我心中的一个结。工作这么多年，我一直想要有机会去尝试从零开始自学编程，甚至给小朋友做启蒙的那些书我也看过，看完都一头雾水。现在在三四线小城市，也经常出现人工智能和编程培训班的门脸，看了之后，除了更引起我被时代抛弃的焦虑之外，没有其他作用。我作为科技记者和撰稿人，在掌握新科技趋势方面，属于起了大早，赶了晚集。我们这些人应该处于整个科技食物链的比较靠下游的位置，最早知道了这些新闻和趋势，但除了写些文章或采访之外，几乎没有其他的方式可以妥善利用。结果，到了自己的工作受威胁的时候，宁可去卖保险。这更多的是属于个人能力、兴趣偏好的问题，这根本就不是男女差异。社会上没有一人一朵的“小红花”我知道，如果我不能及时转到文科班的话，如果全校所有的同学都在理科班，甚至根本就没有文科，没有非 STEM 学科，那么我可能只是一个天资更加平庸的，成绩更差的理科生。在单一维度的评价体系里，我会比现在惨的多。所以我说不上由理转文这件事，对我的人生是好是坏。从结果上看，我生存在社会尚且可以公平对待 STEM 和非 STEM 学科的时代，还是一件好事。但是这其实更让我深刻领会到，未来继续保持这种评价体系和工作类型的多样化，对于我们这个社会的意义。社会全面偏向 STEM 意味着我们的教育方针要做 180 度的大转弯，也不会存在什么“因材施教”的空间，这个问题是如此的严重，现在业界可能还没有充分的意识到问题的严重性。分析人士只是笼统的说，人工智能虽然取消了很多岗位，但还可以创造更多岗位。想想工业革命！那些手工业者一开始破坏机器，搞卢德运动，但最后工人阶级还是站起来了。不妨想想幼儿园和小学课堂里的“小红花”。用宽松的，素质教育的方法，老师就会说，班上每一个孩子都有闪光点，即使学习成绩不好，也有其他的评判标准。如果出于孩子心理健康的考虑，给每个孩子单独设立一个评价体系的话，那么所有人都有小红花，最笨最没人缘的孩子也可以是“系鞋带最整齐的孩子”这样。这在学校里当然是成立的，走入现实可就不适用了。本来，文史类学科和相关工作，以及程序化，缺乏创造力的工作，意味着“系鞋带最整齐的孩子”也有社会上对应的位置。但如果说 AI 和自动化将替代的岗位是差不多全部非 STEM 行业，那就意味着全社会至少有一半曾经能够稳定就业的人，一瞬间不再适合在地球上生存。原来能够给他们稳定收入和正面评价的行业，现在却露出冰冷的面孔。他们原来曾经学会的那些适应社会的习惯和能力，将会不再被人提起，连被评为非物质文化遗产的机会都没有。培训和救济，似乎都很困难前述智库给出的意见一般都是与福利、补贴和再教育相关。比如，IPPR 报告作者建议政府引入新的法律，给女性分配工作，开展高技能工作培训，提高最低工资标准等。FT 的文章同样建议企业和社会推出举措，鼓励女孩学习 STEM 学科，发展编程技能。“不是每个人都需要成为一名程序员，但好的工作将越来越意味着与技术打交道。”然而，这些文章所指出的理想状态，假设了女性（或其它 STEM 门外汉）只要经过培训，就都能达到一定标准。而不论男女，总有缺乏这方面天赋的人存在——比如我自己。即使对他们进行失业的相关培训，也将会是困难重重的，因为如果他们真的掌握逻辑思维的能力，掌握学习数学的好方法，他们不是早就去做了吗？甚至他们连去参加培训的完整时间都不具备。有人说，重复劳动类的劳动力，如果不会 STEM，可以做数据标注工人嘛。但是这样的标注，也是建立在个人隐私以及数据集可以被随意使用的草莽年代，建立在所谓“用隐私换便利”的时候。受到社会制约的 AI 企业，将更倾向于用小的数据集，用压缩算法，最终达到能在用户个体的终端上，离线完成 AI 运算。当数据使用量减少的时候，数据标记工人只是会更快的迎来下一次失业。我们再说说救济。现在，国家规定对公司招募残疾人、特定少数民族、退伍军人等执行补贴，这是在直接聘用他们会削弱企业市场竞争力的前提下，采取的平衡手段。将来，这个巨大的救济包袱还会更重，因为以前能够自食其力的流水线组装工人、收银员、话务员等岗位都要归入救济队伍，他们本来应该是供养养老金的有生力量。福利的池水被加速抽干，每一个人分摊到的福利金额都会下降。社会在考虑自动化新技术与就业的连带关系的时候，不能偷懒的只算工作总量和总失业率，因为这不是冷冰冰的数字，而是一个个具体的人，以及他们背后的家庭。受影响的人当中，有多少人或者因为信息不对称，自己都没有察觉到，或者想到了，也因为没有天赋，没有兴趣或者没有财力精力，而只能默默的滑落下去。我理解，一些研究者先假设不会 STEM 的都是女性，毕竟“女生学文科的多”，然后再跟性别话题挂钩，来引起人们注意。这是一种非常讨巧的尝试，可以利用现在风头正劲的女权思潮，利用她们强大的舆论动员力，来实现对自动化社会议题的关注。但这实际上会模糊问题的焦点，并且使得跟他们所说的“女性”实质上具有同等问题的男人，更得不到关注，沦落为无人问津的“夹心层”。结论一个更自动化的社会，会显著的减少对一般人类劳动力的需求。在人类各种能力中，偏向创造力、想象力、沟通交流能力，以及控制机器的能力的一面会被更突出强调。可惜的是，人类固有的缺陷——也可能是优势——就是，创意方面最强大的能力，往往只集中于极少数天赋异禀的英才手中。相比之下，一旦某个机器学会一个能力，它的任意一个复制品，都会一瞬间具备同样的能力。也就是说，至少在教育方面，想要让人们往找到工作的方向走，依靠非标准化的非 STEM （“文科”）培训很难，而 STEM（“理科”）方向则较为容易。这将不可挽回地导向全社会只重视 STEM 的单一评价标准，更多人将被判为不合格，没有能力赚到维持生活的钱。要么继续思考怎么培训他们，要么就改变分配方式，比如给全民派钱什么的——这样的思考和讨论，已经到了非进行不可的时候。

智能语音产业现状

推荐文章

热门文章