2018年语音交互行业分析报告

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音交互行业分析报告

1.软硬件逐渐成熟，助推音箱智能化创新 (3)

1.1.语音交互/远场拾音技术进步，催生声学创新 (3)

1.1.1.语音交互为本能表达，带来全新体验 (3)

1.1.2.软件端：方案不断发布，AI技术提升识别准确度 (5)

1.1.3.硬件端：麦克风阵列解决远场语音交互难题 (8)

1.2.行业巨头入局，市场迎来爆发 (9)

2.智能音箱：语音交互的入口，智能家居的中心 (11)

2.1.始于音乐，但又不止于音乐 (11)

2.2.移动互联网之后又一核心入口，价值凸显 (14)

2.3.产品不断面世，市场迎来爆发 (16)

2.3.1.国际品牌：软件体系完善，引领市场风潮 (17)

2.3.2.国内品牌：本土化优势明显，语言限制有望突破 (22)

3.智能耳机：声学领域另一重大创新方向 (24)

3.1.苹果带动市场发展，用户满意度极高 (24)

3.2.移动语音交互结合生物监测，智能耳机不再鸡肋 (26)

3.3.厂商积极推进，未来有望标配 (28)

4.产业链：中国企业占据核心位置，受益产业发展 (30)

4.1.芯片：成本大头，传统芯片大厂领导市场 (30)

4.2.麦克风：阵列为主流方式，MEMS MIC用量快速提升 (32)

4.3.扬声器：苹果带动音质提升，发声元件价值量大幅增长 (34)

4.4.OEM/ODM：全新产品形态带来业务增量 (35)

5.行业评级及投资建议 (36)

6.风险提示 (37)

1.软硬件逐渐成熟，助推音箱智能化创新

过去声学领域主要的产品类型为家庭影院、数码音箱、有线耳机等，当

前声学领域的一大变化在于智能音箱与智能无线耳机在快速普及。我们

认为软硬件的进步与成熟是推动声学产品功能与形态升级的核心原因，

同时软硬件的升级将拓展声学产品的能力范畴，声学产品有望成为语音

交互的最佳入口，智能家居的控制中心。

1.1.语音交互/远场拾音技术进步，催生声学创新

1.1.1.语音交互为本能表达，带来全新体验

早期的人机交互主要利用键盘，如打字机和DOS系统的电脑。随着鼠

标的发明和可视化图形界面的普及，人机交互迎来了第一次重大创新。

随后触摸屏的普及以及多点触控的出现，令人机交互进入了二维层面。

相比鼠标和键盘，多点触控能更方便、多样的实现输入。但是至于此，

人机交互依然没有脱离手动的信息输入，在人机分离下无法实现互动，

语音交互的出现将使这一问题得到解决。

图1：人机交互发展路径

语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈

结果。语音交互的关键性步骤主要包括：语音识别（ASR）、自然语言理

解（NPU）、对话管理（DM）、自然语言生成(NLG)和语言合成（Speech

Synthesis），每一步算法的提升都会带来更好的使用体验。

图2：语言交互流程示意图

语音交互的出现，一方面能实现人机分离情形下的互动，另一方面在人机交互领域激活了人类最本能沟通方式（语言）。表1：人机交互方式不断趋向人类表达本能

鼠标手

文字/图像眼睛触摸屏手文字/图像眼睛语音

嘴巴

语音交互贴合人类表达本能（1）信息密度高，自然且普适

语言是人类与生俱来的一种能力，从学习成本角度而言显著低于其他手段，语音交互天然适合人类。从普及度而言，几乎人人都会用语言进行沟通，但是在全球范围内依旧有许多不会书写文字的人。假设语音交互能够普及，在理想状态下人人都可以用语音命令操控智能设备，实现智能体验。

图3：人类对信息的获取主要来自视觉和听觉

语音是人类最方便高效的信息沟通方式，根据Ratatype 的数据显示，键盘打字的平均速度为每分钟41个字，而人每分钟平均可以说150个字，

可见在输入效率上，语音的信息交换密度远远领先于键盘输入。图4：单位时间内语音表达效率远高于键盘打字

（2）解放双手，更少的感官占用

除了高效的信息沟通外，语音交互可解放双手、眼睛，不需要与设备接触即可沟通，使得我们能够实现一心多用和在特定情况下精力集中。诸如在处于驾驶状态时，我们就可以通过语音助手来查看智能手机上的信息，从而避免视觉查看而导致的注意力不集中。根据Statista 的调研数据显示，2016年美国用户使用智能语音识别主要原因中，

双手和眼睛被占用为首要理由，占比达60%。可见智能语音识别对于提升用户便利性有很大的帮助。

图5：语言识别主要使用原因

1.1.

2. 软件端：方案不断发布，AI 技术提升识别准确度（1）各类语音交互软件不断面世

近期三星发布了其语言识别助手Bixby ，正式用于S8系列、Note8手机。事实上，从产品推出的时间顺序来说，三星Bixby 还只能算作是智能语音交互领域的一位新玩家。在Bixby 之前，就已经有了诸如苹果Siri 、微软Cortana 、谷歌Google Assistant 、亚马逊Alexa 等在内的多款智能语音助手被业界熟知。

表2：国内外各大智能助手应用详细介绍

（2）AI技术提升语音识别准确度

在提升语音识别的准确度上，过去主要依靠算法的进步和样本的积累，

随着深度学习算法的出现，语音识别的准确率有了明显的进步。深度神

经网络算法可以把连续多帧的语音特征并在一起，构成一个高维特征，

最终的深度神经网络可以采用高维特征训练来模拟。由于深度神经网络

采用模拟人脑的多层结果，可以逐级地进行信息特征抽取，最终形成适

合模式分类的较理想特征。

深度神经网络的建模技术，在实际线上服务时，能够无缝地和传统的语

音识别技术相结合，在不引起任何系统额外耗费情况下，大幅度提升了

语音识别系统的识别率。

图6：深度学习对语音识别和自然语音处理带来帮助