语音识别发展现状与展望
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国中文信息学会第七次全国会员代表大会
暨学会成立30周年学术会议
语音识别发展现状与展望中科院自动化研究所徐波
2011年12月4日
报告提纲
•语音识别技术现状及态势•语音识别技术的行业应用•语音识别技术研究方向•结论与展望
2010年始语音识别重新成为产业热点•移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向
–Android系统内嵌语音识别技术,Google语音
翻译等;
–iPhone4S 上的Siri软件;
–百度、腾讯、盛大、华为等都进军语音识别领
域;
–我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯
–已有的QQ2011版语音输入等等
成熟度分析-技术成熟度曲线
•美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:
成熟度分析-新兴技术优先矩阵•Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;
三十年语音识别技术发展
---特征提取与知识方面•MFCC,PLP,CMS,RASTA,VTLN;•HLDA, fMPE,neural net-based features •前端优化
–融入更多特征信息(MLP、TrapNN、Bottle Neck
Features等)
•特征很大特点有些是跟模型的训练算法相匹配•大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs.
cross-word
---模型与算法
•统计模型HMM
–EM、MAP/MLLR自适应
–MMIE、MPE、fMPE训练(2005)
–boosted MMIE(bMMIE) 训练(2008)
–基于最大边距(Large margin)分类的区分度训练(2004-2008)
•优化模型精度
–声学上下文建模
•Quinphone(五音子)、Septaphone(七音子)–方差建模(SPAM、EMLLT、全方差建模等)
–Subspace GMM(SGMM)建模(2009)
•提出了更好的声学数据共享机制
---搜索•A* 搜索
•Viterbi搜索
•多遍(Multi-pass)识别•多系统融合(ROVER)技术
三十年语音识别技术发展
---ASR开放源码工具
•HTK为基础的声学模型建模技术
–剑桥大学的HTK (v3.4.1)
•LM模型建模技术
–从传统的SRI的SRILM (v1.5)
–到能够处理更大规模语料的
•微软的MSRLM (v0.1)
•以及意大利IRST实验室的IRSTLM (v5.6)•FSN以及解码技术
–MIT的LibFST(v1.4.0)
–Google的OpenFST(v1.2.7)
大词汇量连续语音识别技术发展概况---在电话、会议等复杂环境中目前英语识别率准确率在80%左右,离人类2%-4%的错误率还有很大距离
Moore定理及应用服务驱动计算能
力和方式的改变
•云计算主要特征
–低成本:一堆廉价的机器,但数量庞大;
–虚拟化技术:使用者感觉只面对一台机器;
–并行计算结构:程序必须支持并行计算
•云计算类型
–公有云:对外提供计算和存储服务等,utility;
–私有云:对外提供应用服务,但满足低成本、虚拟化
以及并行化等特点;
•云计算vs. 集群:
–虚拟化技术+并行计算;
–在云之上的应用服务开发更加规范和形式化;
语音模式识别的云服务优势•在用户层面上,云端向终端提供了革命性的计算和存储能力;
•对于运营商而言,云服务运营还非常易于获得海量有标签的训练样本,从而帮助研究人员持续改进识别性能。
•云语音更将挑战“发音习惯,用词习惯”等传统技术难以解决的技术难点,为用户带来全新的,极简的沟通体验。
传统语音识别研究关心的问题
•语音识别特征,是否足够鲁棒?
•语音识别模型,是否足够鲁棒并具有可区分性;
•语言模型,是否具有足够的覆盖度以及可回退性?
•语音识别搜索,是否能尽量较少搜索误差并提高搜索效率?
•………
云计算减少了语音识别计算约束•应用场景产生很大变化
–移动互联网环境下的应用---语音、语言自适应和个性化模型变得非常关键;
•语音识别(包括中文信息处理)技术新出发点:三个近乎Unlimited
–计算量可以是unlimited---穷举式搜索;
–存储量可以是unlimited---无损失存储;
–数据量可以使unlimited---海量用户数据;
云计算环境下ASR研究目标•云计算环境下具有强大个性化用户自适应
能力的识别计算架构
–自适应算法(尤其是语言自适应)
•云计算环境下大群体用户的智慧集成–超级语音数据中心和模型中心
–需要Semi-supervised标注能力
•核心是如何利用好云中心的数据并迅速转化为模型的自适应。
云计算环境下的语音识别展望•技术研究和产品开发已经混为一体;
•面向大众服务的语音交互以及语音STT,离实用的2%-4%的错误率还有相当距离,但随着应用的深入和数据的积累,其识别能力将继续大幅提升;
•技术是否成熟从来不假设这个技术还有什么问题,而是说已经能解决什么问题;未来2-5年语音识别技术将成为移动互联网的Enable 技术,与诸多应用相结合。