汉语语音合成

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

汉语语音合成技术综述

学生姓名：张超学号：1230220015 指导教师：张石清

摘要：汉语语音合成技术经历了三十几年的发展，涌现出许多新技术、新模式。首先介绍了汉语语音合成系统的原理，在综合对比目前所有语音合成技术的基础上，以效果较好的合成技术为重点，对汉语语音合成系统的文本分析、韵律控制、语音合成、语料库的建立4个关键性模块的实现技术进行了详细论述。

关键词：语音合成；文本分析；韵律控制；语料库

1.课题背景

随着计算机、智能手机等电子设备的发展，较为成熟、人性化的发音功能已经成为一个普遍的用户需求，因此语音合成技术亟待发展。英语语音合成系统经过几十年的发展已经形成了一个比较完备的模式，并且取得了较好的发音效果。而汉语语音合成系统由于汉语独特的发音特点，一直未取得令人满意的合成效果。随着近十几年的研究探索，尤其是国内相关科研机构及公司研发力度不断加强，涌现出了许多新理论、新技术，合成的汉语语音在自然度方面也取得了较大的进步。但不同的开发者各自为营，采用的思想、模式有一定的差别，对汉语语音合成系统的发展造成了一定的阻碍。本文将从汉语语音合成系统的基本原理出发，详细论述关键模块的技术特点，最后在分析比较的基础上，针对不同的应用环境提出了较为通用的开发方案。

2. 语音合成系统的原理

最初的语音合成方法是基于规则的合成方法，这种方法采用数字信号处理的技术，将发声过程看作一个模拟声门状态的源，以激励一个表征声道谐振特性的时变数字滤波器，主要用波形叠加的方法模拟人的声带、口腔等器官。后来随着语音合成技术的发展，拼接语音合成技术因为具有相对高质量的合成效果，基于规则的合成方法逐渐淡出了主流技术舞台，所以本文不再探讨基于规则的合成方法，而是对目前应用广泛的拼接语音合成技术进行详细论述。

基于拼接思想的汉语语音合成系统基本上借鉴了起步早且发展比较成熟的英语

语音合成系统的发音模式，但由于汉语自身的特点，系统又有一些不同，如增加了分词模块等。汉语语音合成系统的流程图如图1所示。

首先系统读取所要发音的文本，由于汉语的词语与词语之间没有如英文中单词之间的空白来分隔，因此要根据制定好的文本分析规则对文本进行分析，以便经过语音合成后输出的语音在词与词之间加入适当的停顿，模仿人在朗读文章时的效果。接着为了使合成的语音具有较好的自然度，需要按照一定的韵律模型对发音的韵律进行分析、控制，以修饰原始的语音数据。最后按照相对应的拼接算法将不同的发音基本元素迸行拼接合成，从而获得整个文本的发音文件，实现语音输出的功能。

3. 汉语语音合成系统的关键技术

3.1 文本分析

文本分析的难点在于向文本加入适当的停顿，以此来模拟人在发音时的停顿效果，从而更好地实现汉语语意的表达。语句中的停顿主要包括词语之间的停顿和标点符号之间的停顿两种，标点符号的停顿是固定的，所以只要识别出即可实现。而词语的识别则需要一定的分词方法才能实现。目前的汉语的分词方法主要有无词库分词方法、有词库分词方法和基于统计学原理的可训练分词方法。

3.2 韵律控制

汉语语音的韵律包含了系统的感知信息和说话人的意图信息，在帮助听者理解语言及意图时十分有用。从听觉的角度出发，常常利用音长、音强、音高和音色4个语音听觉特征来描述韵律信息。

要实现汉语的韵律控制，需要建立合适的韵律模型。韵律模型以文本分析的结果为输入，

完成从韵律符号到韵律的声学参数的转换，如音高、音长、音强等。韵律模型是文语转换系统中的重要组成部分，对合成语音的自然度起着至关重要的作用，要使文语转换系统能够产生接近自然语言的语音效果，建立完备的韵律模型是关键所在。

建立韵律模型的方法主要分为基于规则的方法和基于统计原理学习的方法两种。

3.3 语音拼接合成

经过了文本分析和韵律修饰两步之后，语音合成最后的工作就是把若干个与文本相对应的独立的语音文件合成一个语音文件，从而实现语音输出。目前主流的汉语语音拼接合成技术可以细分为基于语音编码的拼接合成技术和基于波形拼接的合成技术。

3.3 语音语料库的建立

语音语料库作为目前主流的语音拼接合成技术的重要组成部分，对整个语音合成系统发言的效果有很大的影响。一个高质量的语料库可以为系统提供良好的语音源文件支撑，从而实现高自然度的发言。

汉语自成独立语系，具有独特的规则结构和鲜明的特性。目前在语音合成方面对于汉语的发言单位的选取主要有两种观点。第一种观点是基于音节的合成技术，把每个汉字的发言作为基本的发言单元，不考虑汉语发言的具体细节，而是建立一个巨大的语料库，其中基本囊括所有汉字的发音样本，针对不同的汉字直接从语料库中搜索出相对应的发音进行拼接，从而实现发音。第二种观点是基于音素的合成技术，把每个汉字的发音再进行细分，获得汉语的音素，再把音素作为基本的发音单元，语音合成时对音素进行拼接，从而实现发音。基于音素的合成技术具体又分为两个方面：一方面认为汉语为单音节字，由若干独立音节形成句子，每个音节由声母韵母组成，所以把声母和韵母作为音索；另一方面认为元音、辅音才是音素的实际类别，声母、韵母则主要是一个字内部的前后两个部分语音成分之间的关系类别，采用声母和韵母作为合成基元无法解决音节间的协同发音，所以基于这种观点的开发者认为采用元音和辅音作为音素更加符合汉语的发音特点。

在语音合成技术中，语音语料库选择不同的合成基元，基元组合时的韵律特性以及相应的合成规则也不同。采用基于音节的合成技术简单高效，自然度高，但是对于每个汉字的音节数据都要存储，需要很大的存储空间，无法满足存储空间较小的嵌入式设备的发音需求；而基于音素的合成技术需要的存储量较少，但由于每个汉字都要由相应的音素合成，因此计算量大，算法复杂且自然度较低。

语音语料库的建立主要包括设计发音文本、录音及整理、语音标注、建立数据库系统和数据库管理系统4个过程。通过对自然语音的采集、切分、检索、统计等过程获取合适的发音基元，并按照一定的规则进行存储管理。其中比较关键的术是语音单元的切分技术。

语音单元的切分和标注的准确性对合成语音的质量影响很大，常用的自动切分方法有两种：一种是基于模板，另一种是基于模型，以隐马尔可夫模型(HMM)为代表。它们都是运用动态规划方法将一串语音单元的模板或是模型与给定的一句语音进行对齐，从而得到每个语音单元的起始时间，或者运用自动语音识别中称为强制对齐的术语。研究表明，基于隐马尔可夫模型的强制对齐比基于模板的方法能得到更好的切分准确度。

4. 总结与展望

纵观整个汉语语音合成系统的发展历程可知，其基本上与英语语音合成系统的发展历程相类似，尤其在发展初期，采用的新技术往往是从成熟的英语语音合成系统移植过来的，没有根据汉语自身的特点进行设计研发。但是由于汉语具有许多与英语不同的文本及发音特点，而这些特点对于汉语发音的可理解度和自然度方面具有很大的影响，这就导致汉语的语音合成系统一直没有取得如英语一样的效果。不过近些年来，国内一些研究机构及公司加大了对汉语语音合成系统的研究力度，提出了一些针对汉语特点的发音模式，使得汉语语音合成系统取得了比较大的发展。

随着人工智能思想的引入，尤其是基于统计学原理的机器学习算法在语音合成系统方面的应用，使得系统设计人员从繁重的对汉语发音规律研究工作中解脱出来，这对汉语语音的合成效果起到了很大的提升作用。相信随着国内在这方面研究力度的加大，一定会有更新的发音模式被挖掘出来，在发音自然度方面实现质的提升。