藏语语音识别技术研究

摘要 (1)

ABSTRAC (2)

第一章绪论 (1)

1.1 本论文的研究目的和意义 (1)

1.2 论文的难点 (2)

1.3 论文研究内容和组织结构 (3)

1.4 创新点 (4)

第二章语音识别技术概述 (5)

2.1 语音识别的分类 (5)

2.2 语音识别方法 (6)

2.2.1 基于语言学和声学的方法 (6)

2.2.2 模板匹配的方法 (7)

2.2.3 人工神经网络的方法 (7)

2.3语音识别发展历史及现状 (8)

2.3.1 藏语语音识别技术的研究现状 (9)

第三章藏语语音识别系统研究 (13)

3.1 藏语语音基本特点 (13)

3.1.1 藏语语音生理属性 (13)

3.1.2 藏文的音节结构 (16)

3.1.3 藏语方言 (18)

3.2 藏语语音识别系统结构 (18)

3.3 语音信号处理与分析 (19)

3.3.1 语音信号的数字化处理 (20)

3.3.2 语音信号的预处理 (20)

3.3.3 语音信号的特征提取 (21)

3.3.3.1 线性预测倒谱系数 (22)

3.3.3.2 美尔倒谱系数 (22)

3.4 藏语语音识别基元的选择 (23)

3.4.1 语音识别基元选取原则 (23)

3.4.2 藏语语音识别基元的选取 (23)

3.5 藏语语音识别语音语料库的收集与标注 (25)

3.5.1 文本语料的收集和整理 (26)

3.5.2 语音数据的采集及整理 (26)

3.5.3 语音库标注 (26)

3.5.3.1 语料标注 (26)

3.5.3.2 语音标注 (29)

3.6 藏语发音字典的建立 (29)

3.7 语言模型 (31)

3.7.1 语言模型的分类 (31)

3.7.1.1 文法语言模型 (32)

3.7.1.2 统计语言模型 (32)

3.8 声学模型 (33)

3.8.1 隐马尔科夫模型 (34)

3.8.2 隐马尔科夫模型的三个问题及其基本解决方案 (36)

3.8.2.1 问题1的求解——前向后向算法 (36)

3.8.2.2 问题2的求解——Vterbi算法 (38)

3.8.2.3 问题3的求解——Baum-Welch算法 (38)

第四章藏语语音识别系统实现 (40)

4.1利用HTK工具包实现藏语小词汇量连续语音识别系统（实验1） (40)

4.1.1 HTK工具包介绍 (40)

4.1.1.1 HTK工具包结构 (40)

4.1.1.2 HTK工具包训练模型流程 (41)

4.1.2 藏语小词汇量连续语音识别技术的具体实现 (43)

4.1.2.1准备数据 (45)

4.1.2.2模型训练 (49)

4.1.2.3创建绑定状态的三音素模型 (54)

4.1.2.4任务语法文件 (58)

4.1.2.5识别器评估 (59)

4.1.3 实验结果分析 (61)

4.1.3.1识别基元对识别率的影响 (61)

4.1.3.2语言模型对识别率的影响 (62)

4.2 基于LD3320芯片实现的藏语语音识别系统(实验2) (62)

4.2.1 LD3320简介 (62)

4.2.2 利用LD3320语音识别专用芯片实现的藏语语音识别 (64)

4.2.3 基于HTK工具包和基于LD3320语音识别芯片的识别率比较 (67)

4.2.3.1基于HTK的藏语孤立词识别 (67)

4.2.3.2基于LD3320语音识别芯片的藏语孤立词识别 (68)

第五章总结与展望 (70)

5.1 总结 (70)

5.2 展望 (71)

参考文献.............................................................................................................................. I 附录................................................................................................................................. VIII 攻读学位期间发表的学术论文目录............................................................................XIII 攻读学位期间参加过的科研项目................................................................................XIII 致谢................................................................................................................................. XIV

摘要

语音识别是一种计算机通过识别和理解过程把人类的语音信号

变成相应的文本或命令的技术，这项技术的研究开始于50年代。自

从1952年贝尔在实验室成功研制了世界上第一个能识别十个英文数

字发音的实验系统，语音识别这项技术被越来越多的国家机构和公司所关注并投入巨资进行研究和开发。如今语音识别技术已经成为当今信息处理研究的一个热点。英语、汉语等语言的语音识别研究已经取得了很大的成就，但是藏语等中国少数民族语言的语音识别研究还处在初步阶段。

本文中阐述了研究藏语语音识别技术的意义和研究结果的应用

价值，以及语音识别技术的总体概述,介绍了藏文的音节结构和藏语

语音的特点，分析了现代藏语语音的特征和藏语语音识别基元的选择，详细介绍了藏语语音识别语料库的建立,基于声韵母结构的藏语发音

字典的建立，藏语语音识别统计语言模型的创建和基于隐马尔科夫理论的声学模型的训练。

在汉语和英语的语音识别技术研究成果的基础之上，再结合藏语语言学的知识和卫藏方言的语音特点分析，初步实现了藏语卫藏方言的语音识别技术，在此基础上，开发了基于HTK工具包的非特定人小词汇量的藏语连续语音识别系统和基于语音识别芯片LD3320模拟人

机对话的藏语语音识别系统。

关键词：藏语，语音识别，隐马尔可夫模型，语言模型，HTK