语音识别群雄争霸市场空间与技术难题并存

2017-11-30 17:35 责任编辑：何冰来源：www.newsijie.com 点击：次

分享到：

随着人工智能产品在生活中的渗透率越来越高，其中技术的发展也成为了众人关心的重点所在。作为人机自然交互的基本途径之一，近期以来，语音识别的发展不可谓不快速。

  新思界行业研究出具的《2018-2023年语音识别行业市场深度调研及投资前景预测分析报告》显示，诸如科大讯飞、百度等多家企业表示其研发的语音识别技术已经达到了97%的准确率，谷歌也公开表示其语音识别的错误率（将一个词语从语音转录成为文字时的错误率）自2012年以来已经降低了30%以上。

目前国内各打语音平台都在语音识别上大力投入，而各自的进展与重点却有所不同。

BAT三巨头中，百度的DuerOS开放平台是百度推出的对话式人工智能操作系统，即智能语音交互平台。DuerOS的技术架构包含“对话服务”和“技能框架”两大基础协议。两大协议连通起来的对话核心系统、智能设备开放平台和技能开放平台，构成了完整DuerOS的智能生态系统。AliGenie语音开放平台是由阿里人工智能实验室（AI Labs）推出，主要包括精灵技能市场、硬件开放平台、行业解决方案三大部分，全面赋能智能家居、新制造、新零售、酒店、航空等服务场景。腾讯云小微于2017年腾讯「云+未来」峰会上正式发布，分为三个部分，Skill开放平台，硬件开放平台和小微客服机器人。

在传统语音行业的科技公司中，科大讯飞致力于智能语音及人工智能核心研究和产业化十八年，是国内最大的智能语音上市公司。讯飞开放平台致力于为开发者打造一站式智能人机交互解决方案。思必驰的DUI（Dialogue User Interface）开放平台是以D-对话为核心的一站式交互定制平台，覆盖多应用场景和第三方内容资源，内置语音技能库，为物联网、移动互联网和互联网的开发者，提供单项技术服务和一站式对话交互定制解决方案。云知声的开放者平台以方案为入口，基于特定应用场景打造智能语音交互应用的模版。

在创业公司方面，出门问问推出的AI开放平台其通用版本也是向开发者和硬件厂商免费开放的。非申请或邀请制，只需登陆平台网站注册就可立即下载集成SDK，拥有全栈式语音交互技术整合，平台工具操作简单，适配多场景，且产品集成厂商可根据自身产品需求，自主针对各自产品进行个性化的功能开发，出门问问通过产品获得流量、数据，而产品则能获得AI技术赋能。Rokid的开放平台语音服务包含Rokid技能开发工具和Rokid语音接入。Rokid技能开发工具帮助开发者为所有搭载Rokid开放服务的设备开发有趣的技能，实现用户各式各样的语音交互需求。Rokid语音接入能够为配有麦克风和扬声器的联网硬件设备开启Rokid开放服务所提供的智能、可扩展的语音能力。并且，其100%的硬件技术和70%的代码将全部开源。

  在智能家居方面，不管是智能家电还是，语音识别技术都是必备的基本功能之一。全球智能家居市场规模将在2022年达到1220亿美元，2016-2022年年均增长率预测为14%。而在机器人方面，至2020年，全球机器人与相关服务市场规模将由2016年的915亿美元增至1880亿美元。从这两点数据来看，可想而知未来智能家居的市场之大。在控制方式上，除了部分智能家电之外，语音控制已经成为了市场的主流，而这就是语音识别市场的商机。未来，作为人机自然交互的前提之一，语音识别必然是智能家居的发展趋势，只有语音识别的准确率接近完美，人机的自然交互才能继续开展。在智能家居市场的推动下，语音识别技术必将成为重点发展对象。在智能汽车方面，不少智能汽车厂商相继宣布了自己的一系列计划，其中就包括在汽车中加入虚拟助手平台，以促进人车交互，进一步提升用户体验，比如日产、宝马与Cortana的合作，还有福特与Alexa的联手。自动驾驶汽车将在2030年创造价值870亿美元的市场。2030年全球范围将售出约1.2亿辆自动驾驶汽车。自动驾驶市场的推动下，人车交互也成了自动驾驶玩家的一个关注点，是汽车智能化的一部分。此外，相对于自动驾驶辅助技术，语音识别等交互技术的实现则容易得多，目前也已有不少车型搭载了语音识别技术。在智能汽车中，语音识别已经成为了一项基础的服务，而随着智能化时代的来临，人们对语音识别的要求也会进一步提升。在新兴产业市场需求的推动下，语音识别的市场也是十分具有看头的，预计到2020年，全球语音识别的市场规模将从2015年的61.9亿美元增长到200亿美元。

然而，在市场规模壮大这一美好的预测面前，我们也不能忽视一些需要面对的问题，只有解决了它们，语音识别才能得到完善，给用户带来极致服务。

  首先就是对象识别的准确性。现在，在应用上，我们看见语音识别多是在智能家居领域，包括智能家电和服务机器人。此时，我们就要考虑一个问题了，当多个家庭成员同时讲话时，智能家电和服务机器人该执行谁的命令呢它们又如何能在众声音中找出自己主人的命令？这些都是当前语音识别所需要解决的问题，毕竟我们通常所说的语音识别不仅仅只是单纯的对语音内容进行识别。

  其次是降低周边环境的干扰。对于人类来讲，在嘈杂环境中听别人说话或是从众多声音中找出自己想听的内容还是一件较为简单的事，而与此相反，这件事在机器这里并没有那么容易。为了降低周边环境对语音识别的干扰，亚马逊和谷歌都在智能音箱中使用了麦克风阵列技术，从而起到一定的“降噪”作用，增加语音识别的准确率。不过，到目前为止，环境的干扰依然没有得到更好的解决，仍然是语音识别前进道路中的一只“拦路虎”，尤其是在多段语音中准确找出指定说话人的情境中。在接下来的时间里，如何降低周边环境的干扰以及如何提高对声音的识别准确率将是语音识别所要解决的问题。

关键字：市场技术语音识别