语音合成系统的关键技术与应用实例

语音合成系统的关键技术与应用实例
语音合成系统的关键技术与应用实例

19

杭州科技双月刊2/2000科海拾贝

算机语音合成系统又称文语转换系统(T IS 系统),它的主要功能是将计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学

模块。

一、语言合成系统的关键技术⒈T IS 系统的文本分析模块语音合成系统首先处理的是文字,也就是它要说的内容。文本分析的主要功能是使计算机能从这些文本中认识文字,进而知道要发什么音、怎么发音,并将发音的方式告诉计算机。另外,还要让计算机知道,在文本中,哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长时间等。其工作过程可以分为三个主要步骤:

⑴将输入的文本规范化。在这个过程中,要查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。

⑵分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。

⑶根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。

最终,文本分析模式将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步

处理并生成相应的信息。

传统的文本分析主要是基于规则(Rule -based )的实现方法。其主要思路是尽可能地将文字中的分词规范、发音方式罗列起来,并总结出规划,依靠这些规则进行文本处理,以获得需要的参数。具有代表性的方法有:最大匹配法、二次扫描法等。这些方法的优点在于结构较为简单、直观,易于实现;缺点是需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的背景知识。由于这些方法能取得较好的分析效果,因此,直到目前,它们依然被广泛使用。

但是近几年来,随着计算机领域中数据挖掘技术的发展,许多统计学方法以及人工神经网络技术在计算机数据处理领域中获得了成功的应用,计算机从大量数据中自动提取规律已完全可能并正在实现。在此背景下,出现了基于数据驱动(Data -driven )的文本分析方法,具有代表性的有:二元文法法(Di -Grammar Met hod )、三元文法法(Tri -Grammar Met hod )、隐马尔可夫模型法(HMM Met hod )和神经网络法(Neural Network Met hod )等。一些比较著名的系统,如IBM 的语音产品就采用了隐马尔可夫模型法。这类方法的特点是,设计人员根据统计学或人工神经网络方面的知识,设计出一种可训练的模型,并用大量已经存在的数据去训练,将训练得到的模型用于

文本分析,而系统设计人员并不需要太强的语言学背景知识。对于工程技术人员来说,这类方法无疑减轻了他们研究语言学的负担。目前,这类方法在文本分析精度上,已达到或部分超过了基于规则系统的分析结果,且容易实现多语种的混合,因而越来越广泛地被接受并使用。这类方法的缺点在于,尽管系统容易获得文本信息的共同特征,但忽略了一些个性,而往往这些个别因素对最终的发音方式影响很大。因此,有些系统采取了两类方法相结合的方式。

⒉T IS 系统的韵律生成模块任何人说话都有韵律特征,比如在汉语中,音节有不同的声调、语气和停顿方式,发音长短也各不相同,这些都属于韵律特征。韵律参数则包括了能影响这些特征的声学参数,如基频、时长、音强等。

文本分析的结果只是告诉了计算机发什么音,以及以什么方式发音,这种发音方式还只是抽象的。而要发音的声调是二声还是三声,是重读还是轻读,到哪里停顿,等等,这些最终系统用来进行声信号合成的具体韵律参数还要依靠韵律生成模块。与文本分析的实现方法相类似,韵律的生成方法也分为基于规则和数据驱动两种方法。

早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员有大量的音韵学背景知

语音合成系统的关键技术与应用实例

20

HANGZHOU SCI &TECH

科海拾贝

识,需要对在各种特定的情况下,如声音在句子中的不同位置、不同声调及句子的不同语气甚至是不同的词性下,对基频、时长和音强等各个声学参数变化的详细情况加以总结、归纳。由于各个语种的韵律特征不同,因此,针对不同的语种,必须找出与该语种相关联的韵律特征。目前,基于规则的方法仍然被认作是行之有效的方法,大部分汉语语音合成系统依然采用这种方法。虽然经过研究者的努力,这种方法能达到较好的韵律生成效果,但它也受到很多限制。如前所述,基于规则的方法要求系统设计人员花费大量的时间和精力去研究不同语种普遍存在的韵律特征,而这是一个非常耗时的工作,且由于规则的复杂性,其生成语音的自然度也受到较多的限制,也就限制了它的一些性能。另外,基于规则的系统方法往往只追求发音的自然,而掩盖了人的个性。如让系统模拟某一特定人的发音,就显得无力,除非是针对专人设计的一些专用模型。

目前,通过神经网络或统计驱动的方法进行韵律生成已获得成功的应用。Siemens 和Motorola 公司均采用或试验了此技术。在国内,清华大学计算机系在这方面也进行了大量的研究,其研究成果已接近实用阶段。其实现步骤是:首先设计或收集一个包含大量语音和文本信息的数据,然后建立一个训练模型,并用从数据库中提取出的韵律参数对模型进行训练,通过训练而得到最终的韵律模型。这种模型的优点在于:在保持甚至增强了系统的韵律生成能力的同时,极大地改善

了整个语音合成系统的灵活性,便于模拟某一特定人的韵律特征,且为在同一个语音合成系统中整合多语种创造了条件。事实上,有关研究人员正在尝试使用这一方法将汉语和其他西方语言整合到一套系统上。

⒊T IS 系统的语音生成模块系统知道了要说什么并掌握了韵律控制参数后,它是如何使计算机发声的呢?

系统产生的合成语音是通过一个声学模块来具体实现的。早期语音合成系统的声学模型多是通过模拟人的口腔的声道特性来产生的。其中比较著名的有Klatt 的共振峰(Formant )合成系统,后来又产生了基于L PC 、L SP 和L MA 等声学参数的合成系统,这些都可以归结为参数合成系统。使用这些方法建立声学模型的过程是:首先录制声音,这些声音涵盖了人发音过程中所有可能出现的读音;然后,提取出这些声音的声学参数,并整合成一个完整的音库。在发音过程中,首先根据发音需要从音库中选择合适的声学参数,然后根据从韵律模型中得到的韵律参数,通过合成算法产生语音。参数合成方法的优点是其音库一般较小,并且整个系统能适应的韵律特征的范围较宽,但其合成语音的音质却往往受到一定的限制。

近10年来,采用波形拼接(PSOLA )合成语音的方法越来越被广泛应用。这种方法的核心思想是直接对存储于音库的语音运用PSOLA 算法进行拼接,从而整合成完整的语音。有别于传统概念中只是将不同的语音单元进行简单拼接,该系统首先要在大量

语音库中,选择最合适的语音单元用于拼接,并且在选音过程中往往采用多种复杂的技术,包括多项统计学上的技术或神经网络技术,最后在拼接时,使用PSOLA 算法,对其合成语音的韵律特征进行修改,而使合成的语音达到了很高的音质。如日本A TR 推出的多种语音合成系统,就采用了统计学上的隐马尔可夫模型来进行选音。其他的一些主要语音产品,如Siemens 的Pa p a g eno 系统,也采用了类似或相关的技术。

但基于波形拼接方法的系统仍存在一些问题,即它的音库往往非常庞大,需要占据较大的存储空间。这对将系统推广到掌上型电脑或一些小的终端设备上非常不利。另外,在拼接时,两个相邻的声音单元之间谱的不连续,也容易造成合成音质的下降。目前,解决这些问题较好的途径是将其与参数合成方法的相结合。在此基础上又诞生了一些新的模型,如基音同步的Sinusoidal 模型等,这些对进一步改善系统的性能提供了帮助。但目前这些工作还基于处于研究或实验室阶段。

二、语音合成系统的应用实例⒈工商信息电话查询系统本系统的功能是让用户可以通过电话查询到某一企业在工商局的注册信息。用户主要通过输入注册号、统一代码或者企业电话号码等来查询相应的企业信息。目前,科大讯飞公司正在IBM 公司合作,将采用电话语音识别技术来实现语音选择。也就是说,用户只需口述企业名称(包括带一定模糊概念的口述,如“科大讯飞”或“讯飞”均可识别),即

21

杭州科技双月刊2/2000科海拾贝

可直接得到该企业的一系列信息。这与过去的按键听取相比,不仅方便了用户,还从很大程度上提高了查询效率,节约了用户的宝贵时间。另一方面,查询结果除了可以通过电话直接听取外,还可通过传真机接收到相关企业的详细信息(包括图像信息)。

⒉电话银行系统

电话银行是一种金融电话服务,它是将现代通信技术和计算机技术相结合而发展起来的新型银行服务项目。无论客户身处何地,只要拨通专线电话,即可在语音提示下,享用查询、转帐、挂失和更改密码等多项服务。该系统可以拓展银行的服务途径,改善服务质量,提高服务效率。随着金融电子化工程的不断推进,电话银行系统的使用将日益广泛,电话银行发挥的作用也就得到了更充分的肯定。

目前,大多数电话银行系统都存在两大不足之处:

⑴各种金额数目的报读不够流利、自然;

⑵菜单选择通过按键完成,用户不便记忆,听语音提示较费时。

中科大讯飞公司开发的电话银行系统,通过采用与中国科大人机语音通信实验室合作研究的KD -2000语音合成技术,有效地克服了上述第一个缺点,使金额数目的报读声音清晰、语流自然,避免了用户听错数目的可能,提高了用户的满意度。同时,为解决第二个不足,该公司正在与IBM 合作,计划采用最新的电话

语音识别技术来实现菜单的语音选择,使用户只要口述功能名(如

“转帐”、“查询余额”等),即可直接进入系统的服务流程,而不必层层听取语音提示再加按相应的键。这将极大地方便用户的使用,提高用户操作的准确度,并节约用户宝贵的时间。

系统可以实现收付款、汇率查询、余额查询、日记帐、通知、挂失、明细、凭证等功能,举例

说明如下:查询余额根据用户输入的帐号,报出该帐户的余额。查询交易查询当天交易或者指定日期区间内的历史交易。查询结果可以通过电话听取,也可以用传真机接收,格式可由银行指定。

挂失服务用户遗失存折或信用卡后,可以通过电话及时挂失。挂失之后,这个帐号的所有功能将暂停。

修改密码用户每隔一定时间更改一下密码,有助于提高安全性,将他人盗用的可能性降到最低。

转帐服务借助电话实现指定帐户间的转帐业务,一般是在同名用户的不同帐号或信用卡之间相互转帐。

⒊股市查询系统目前,股民了解股市行情,主要通过以下方式:●报刊、电台、电视等媒体———不够实时与方便;●股票机、电脑等个人终端———需要硬件投资且有地点限制;

●股票交易所的大屏幕、查

询终端———要求用户亲临现场。股市查询系统使用户只要通过普能这双音频电话,即可随时(手机用户更是可以随时随地)得到最新的股市行情。用户拨通查询台,根据语音提示选择相应的功能,即可获得所需的各种股市信息(如大盘行情、个股行情、个股业绩、股评、各种统计信息等),极大地方便了股民,因而具有很大的市场。同时,如果采用

电话语音技术来实现个股的语音

选择,用户只要口述个股名称(如“深发展”、“青岛海尔”等),即可

直接得到该股票的最新行情,而不必通过按键输入代号,从而方便用户使用,并节约用户的时间。

系统根据用户的需要可以提供丰富、实时的信息服务,信息可以包括:

大盘行情指沪市和深市的大盘指数。如沪市的上证指数、上证30指数,深市的成分指数、深证指数等。

个股信息个股最新实时行情或个股资料。

股评和重要新闻由于采用了先进的语音合成技术,因而股评和重要新闻可以不必预先人工录音,而是由计算机将文字直接

“读”给打进电话的用户听,极大地节约了人力,加快了信息的更新速度。

语音合成系统除了可以应用于工商信息电话查询系统、电话银行系统、股市查询系统以外,还

可以应用于民航保单查询系统、语言教学软件、教育与娱乐软件等领域。■

蚁群算法简述及实现

蚁群算法简述及实现 1 蚁群算法的原理分析 蚁群算法是受自然界中真实蚁群算法的集体觅食行为的启发而发展起来的一种基于群体的模拟进化算法,属于随机搜索算法,所以它更恰当的名字应该叫“人工蚁群算法”,我们一般简称为蚁群算法。M.Dorigo等人充分的利用了蚁群搜索食物的过程与著名的TSP问题的相似性,通过人工模拟蚁群搜索食物的行为来求解TSP问题。 蚂蚁这种社会性动物,虽然个体行为及其简单,但是由这些简单个体所组成的群体却表现出及其复杂的行为特征。这是因为蚂蚁在寻找食物时,能在其经过的路径上释放一种叫做信息素的物质,使得一定范围内的其他蚂蚁能够感觉到这种物质,且倾向于朝着该物质强度高的方向移动。蚁群的集体行为表现为一种正反馈现象,蚁群这种选择路径的行为过程称之为自催化行为。由于其原理是一种正反馈机制,因此也可以把蚁群的行为理解成所谓的增强型学习系统(Reinforcement Learning System)。 引用M.Dorigo所举的例子来说明蚁群发现最短路径的原理和机制,见图1所示。假设D 和H之间、B和H之间以及B和D之间(通过C)的距离为1,C位于D和B的中央(见图1(a))。现在我们考虑在等间隔等离散世界时间点(t=0,1,2……)的蚁群系统情况。假设每单位时间有30只蚂蚁从A到B,另三十只蚂蚁从E到D,其行走速度都为1(一个单位时间所走距离为1),在行走时,一只蚂蚁可在时刻t留下浓度为1的信息素。为简单起见,设信息素在时间区间(t+1,t+2)的中点(t+1.5)时刻瞬时完全挥发。在t=0时刻无任何信息素,但分别有30只蚂蚁在B、30只蚂蚁在D等待出发。它们选择走哪一条路径是完全随机的,因此在两个节点上蚁群可各自一分为二,走两个方向。但在t=1时刻,从A到B的30只蚂蚁在通向H的路径上(见图1(b))发现一条浓度为15的信息素,这是由15只从B走向H的先行蚂蚁留下来的;而在通向C的路径上它们可以发现一条浓度为30的信息素路径,这是由15只走向BC的路径的蚂蚁所留下的气息与15只从D经C到达B留下的气息之和(图1(c))。这时,选择路径的概率就有了偏差,向C走的蚂蚁数将是向H走的蚂蚁数的2倍。对于从E到D来的蚂蚁也是如此。 (a)(b)(c) 图1 蚁群路径搜索实例 这个过程一直会持续到所有的蚂蚁最终都选择了最短的路径为止。 这样,我们就可以理解蚁群算法的基本思想:如果在给定点,一只蚂蚁要在不同的路径中选择,那么,那些被先行蚂蚁大量选择的路径(也就是信息素留存较浓的路径)被选中的概率就更大,较多的信息素意味着较短的路径,也就意味着较好的问题回答。

蚁群算法在车辆路径问题中的应用

蚁群算法在车辆路径问题中的应用 摘要 蚁群算法(Ant Colony Optimization, ACO)是意大利学者M.Dorigo等人通过模拟蚁群觅食行为提出的一种基于种群的模拟进化算法。通过介绍蚁群觅食过程中基于信息素(pheromone)的最短路径的搜索策略,给出了基于MATLAB的蚁群算法在车辆路径问题(Vehicle Routing Problem, VRP)中的应用。蚁群算法采用分布式并行计算机制,易于其他方法结合,而且具有较强的鲁棒性,但搜索时间长,容易陷入局部最优解。针对蚁群算法存在的过早收敛问题,加入2—opt方法对问题求解进行了局部优化,计算机仿真结果表明,这种混合型蚁群算法对求解车辆路径问题有较好的改进效果。 关键词:蚁群算法、组合优化、车辆路径问题、2-opt方法 1.车辆路径问题 车辆路径问题(VRP)来源于交通运输,1959年由Dantzig提出,它是组合优化问题中一个典型的NP-hard问题。最初用于研究亚特兰大炼油厂向各个加油站投送汽油的运输路径优化问题,并迅速成为运筹学和组合优化领域的前沿和研究热点。 车路优化问题如下: 已知有一批客户,各客户点的位置坐标和货物需求已知,

供应商具有若干可供派送的车辆,运载能力给定,每辆车都是从起点出发,完成若干客户点的运送任务后再回到起点。 现要求以最少的车辆数和最少的车辆总行程来完成货物的派送任务。 2、蚁群系统基本原理 在蚂蚁群找到食物时,它们总能找到一条从食物到蚁穴之间的最短路径。因为蚂蚁在寻找食物时会在路途上释放一种特殊的信息素。当它们碰到一个还没有走过的路口时,会随机地挑选一条路径前行。与此同时释放出与路径长度有关的信息素。路径越长,释放的激素浓度越低。当后面的蚂蚁再次碰到这个路口时,会选择激素浓度较高的路径走。这样形成了一个正反馈,最优路径上的激素浓度越来越高,而其他的路径上激素浓度却会随时间的流逝而消减。最终整个蚁群会找出最优路径。在整个寻找过程中,整个蚁群通过相互留下的信息素作用交换着路径信息,最终找到最优路径。 3、基本蚁群算法求解车辆路径问题 求解VRP问题的蚂蚁算法中,每只蚂蚁是一个独立的用 于构造路线的过程,若干蚂蚁过程之间通过信息素值来交换信息,合作求解,并不断优化。这里的信息素值分布式存储在图中,与各弧相关联。蚂蚁算法求解VRP问题的过程如下:

人工语音合成处理系统简要说明

人工语音合成处理系统 V1.0

目录 1引言 (3) 1.1背景 (3) 1.2系统特点 (3) 2系统硬件设计 (4) 2.1总体硬件设计 (4) 2.2蜂鸣器设计 (4) 2.3整体硬件设计电路图 (7) 3系统软件设计 (7) 3.1软件设计构成 (7) 3.2软件设计流程 (8) 4系统应用介绍 (9) 5参考书籍 (11)

1引言 1.1背景 现今社会人们依靠各种机电系统和计算机系统从事劳动生产、工业控制和科学研究。当人们操纵这些系统的时候,就自然地出现了人与系统的信息交流,即系统不断的报告自己的运行状态和结果,而人们根据这些状态和结果发出下一步应进入何种状态的命令。长期以来,计算机与人之间的信息交流主要依靠各种形式的键盘,按键等实现的,计算机要报告运行状态,结果只能通过各种显示装置。 语音合成技术是实现人机语音通信,建立一个有听说能力的口语系统所必需的关键技术之一。随着计算机运算速度的提高,人工智能领域的研究获得了飞速发展,而人工智能领域的最新研究成果不断地向语音研究渗透,促使语音处理技术及语音合成的研究也产生了突破性的飞跃。和语音识别相比,语音合成技术相对要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术。 人工语音合成处理系统V1.0(简称语音合成系统)由软件实现词汇语音合成器,使人们能够甩掉键盘,通过语言命令进行操作。系统在完成其它任务的同时具备语音输出功能,可使单片机系统成本下降,体积减小,可靠性提高。它对于解脱繁琐的事物性和危险性工作更具有现实意义! 1.2系统特点 提高合成语音的自然度 就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。基于语音数据库的语音合成方法进一步提高语音合成的自然度。因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度。 丰富合成语音的表现力 目前国内外大多数语音合成是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。本系统对入机交互提出了更高的要求,即语音合成已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。 在嵌入式系统中应用语音合成技术 在提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有加以改进的地方。目前高质量的汉语文语转换系统~般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没

开源TTS语音合成和处理合集整理

开源TTS/语音合成和处理工具 1.eSpeak-Chinese eSpeak-Chinese是一个TTS软件。它是基于Jonathan Duddington 的eSpeak,由于中文词典太大,eSpeak缺省并不带中文词典,需另外下载。发布 eSpeak-Chinese只是为了方便用户安装。 国语支持的主要贡献者: ?Kyle Wang (waxaca at https://www.360docs.net/doc/d57267247.html,) –创建了最初的字典,规则和声音文件。 ?Silas S. Brown (https://www.360docs.net/doc/d57267247.html,/ssb22/) - 改进词典(加入CEDICT等). 粤语支持的主要贡献者: ?黄冠能 - 创建了粤语字典,简易的规则和声音文件。 eSpeak-Chinese是eGuideDog项目的重要组成部分。另一个中文TTS(余音)在开发中。它在设计上更简易但文件较大。由于使用了真人发声,它比eSpeak的声音更自然。目前它只支持粤语。 2.Flite Flite是一个小型、快速的TTS系统,是著名的语音合成系统festival的c版本。可用于嵌入式系统 3.FreeTTS FreeTTS 是完全采用 Java 开发的语音合成系统,它是卡内基梅隆大学基于Flite 这个小型的语音合成引擎开发的。 FreeTTS是一个语音合成系统写的JavaTM编程语言完全。它是根据Flite公司:一个小运行时语音合成引擎卡内基梅隆大学的发展。弗莱特来源于节语音合成系统,从爱丁堡大学和卡内基梅隆大学的festvox项目。这种FreeTTS版本包括:*核心语音合成引擎*支持的多寡:邻一8kHz的双音子,男,美国英语语音办公16KHz的双音子,男,美国英语语音办公16KHz的有限域,男*美国英语语音的festvox的进口(美国英语的声音只)*对进口的festvox(仅限美式英文)*支持工具中央结算系统的MBROLA北极的具体支持,支持的声音声音(单独下载):办公自动化16KHz的女性,美国英语语音O 2个16KHz的男性声音*美国英语为JSAPI 1.0 *广泛的API文档部分支持*几个演示应用 4.eSpeak eSpeak是一个紧凑的开放源码软件的语音合成器为英语和其他语言,为Linux 和Windows 。

(完整版)蚁群算法matlab程序实例整理

function [y,val]=QACS tic load att48 att48; MAXIT=300; % 最大循环次数 NC=48; % 城市个数 tao=ones(48,48);% 初始时刻各边上的信息最为1 rho=0.2; % 挥发系数 alpha=1; beta=2; Q=100; mant=20; % 蚂蚁数量 iter=0; % 记录迭代次数 for i=1:NC % 计算各城市间的距离 for j=1:NC distance(i,j)=sqrt((att48(i,2)-att48(j,2))^2+(att48(i,3)-att48(j,3))^2); end end bestroute=zeros(1,48); % 用来记录最优路径 routelength=inf; % 用来记录当前找到的最优路径长度 % for i=1:mant % 确定各蚂蚁初始的位置 % end for ite=1:MAXIT for ka=1:mant %考查第K只蚂蚁 deltatao=zeros(48,48); % 第K只蚂蚁移动前各边上的信息增量为零 [routek,lengthk]=travel(distance,tao,alpha,beta); if lengthk

一种面向混合语言的语音合成方法

一种面向混合语言的语音合成方法 背景介绍 语音合成技术是将文本转化成声音的技术。历史上语音合成技术经过规则合成、拼接合成、统计概率模型合成三个阶段,当前新出现的方法是基于神经网络的合成方法。在这一方法中,神经网络用作映射函数,将输入的文本信息转换成基频、频谱等发音参数。 混合语言语音合成是指待合成文本中存在多种语言。这种混合语言语音合成一向是技术难点,一个重要原因是数据库中多语言发音者发音很不一样(找到一个会发各种语言的发音者几乎是不可能的),这导致从一种语言跨越到另一种语言时会产生显著的变声。在统计模型时代,有可能的解决方法包括: ?模型自适应。例如语言A的发音者是m ,语言B的发音者是n,二者单独训练声学 模型M Am和M Bn,但m也可以发少量B语言的声音,因此可利用m在B语言上的 发音对M Bn做自适应(如MAP或MLLR),得到M Bnm,再将M Am和M Bnm做混合语 言发音模型。这一方法的缺点是必须有会说多种语言的发音人,而且自适应在句子 数较少时并不得取得听起来非常接近的效果。 ?模型映射。另一种解决混合语言发音的方法是模型映射法。同样,让发音者m和n 分别训练本语言的模型M Am和M Bn,考虑到不同语言其基础发音是十分相似的,只 不过具体拼接起来有所不同。这种“原子发音”的相似必可以用来实现模型映射。 例如我们现在想让m的声音发B语言,而我们只有发A语言的模型。怎么办呢? 我们可以假设让n的声音发B语言,在发音空间中有一条n发B语言应选择哪些 “原子发音”的路径,将这条路径映射里M Am模型里的路径,再利用M Am进行发 音,听起来就象是m在发B语言。这里的“原子发音”是概率方法里隐马尔可夫 模型的状态,或称seno. 这一方法在拼接模型里也适用,只要找到相似的发音单元 即可。这一方法的好处是模型可以单独训练,不需要发音人发多种语言,混合起来 比较自然,缺点在于合理的映射并不好找,拼出来的声音也会显得带有带有本族语 口语,表现不自然。 发明内容和思路 本发明提出一种基于神经网络的混合语言语音合成方法,其基本思路是,用多语言多发音人数据混合语言发音模型,但在训练时将将发音人信息从发音信号中剥离。这相当于对信号做了面向发音人的正规化,基于这种正规化后的神经网络模型仅学习发音内容,在实际合成时再把发音人信息加入。基于这种方法,不仅可以让同一发音人发多种语言的声音,而

关于语音合成方法的调查报告

关于语音合成方法的调查报告

摘要:本文是一篇关于语音合成方法的调查报告,在搜集整理大量相关文献的基础上,简要的总结了几种常用的语音合成方法,讨论各种合成方法的原理及算法,并简要分析各种合成方法的性能及适用场合。 关键词:语音合成;种类;原理;算法;性能 正文 语音合成技术是利用电脑, 按规定的程序和指令, 人为产生语音的技术。语音合成从技术方式讲可分为波形合成、参数分析合成以及规则合成等三种。 1、波形合成 波形合成法一般有两种形式。一种是波形编码合成,它类似于语音编码种的波形编解码法,该方法直接把要合成的语音的发音波形进行存储或者进行波形编辑压缩后存储,合成重放时再解码输出,称PCM波形合成法。另一种是波形编辑合成,他把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。1.1 波形编码合成 基本原理:波形编码合成方法以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库。重放时,根据待输出的信息,在语音库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。 性能分析:波形编码语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音、发音速度的细微特性,也叫录音编辑合成,合成单元越大,合成的自然度越好,其质量普遍高于参数合成。且系统结构简单,价格低廉。但合成语音的数码率较大,存储量也大,因而合成词汇量有限。通常只能合成有限词汇的语音段。目前用于自动报时、报站和报警等。 1.2 波形编辑合成 基本原理:波形编辑合成方法将波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。它采用语音编码技术,存储适当的语音基元。合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。 算法简述:80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法。PSOLA就是基音同步叠加,它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。该算法按以下三步实施:对原始波形进行分析,产生非参数的中间表示;对中间表示进行修改;将修改过的中间表示重新合成为语音信号。由于修改的参数不同,又分为 TD-PSOLA、FD-PSOLA和LP-PSOLA。 PSOLA是用于波形编辑合成语音技术中对合成语音的韵律进行修改的一种算法。下图是利用PSOLA算法的语音合成系统的基本结构: 图1 基于PSOLA算法的语音合成系统

文字转换语音免费软件【操作流程】

文字转换语音免费软件【操作流程】 这年头爱看网络小说的人是越来越多了,但是,那密密麻麻的文字让人看着看着就头昏眼花了,于是就出来了一款可以将文字转换成语音的软件(狸莴文字转换语音软件)这款软件不仅可以用来听网络小说,学外语,读新闻,校对文章,还可以制作有声小说音频(支持导出mp3与及wav格式的声音),用处大大滴!安装后运行该软件。 运行软件后添加一个txt文档(建议大家把小说以及新闻等都复制粘贴到txt文档)进来试听一下。在软件右下角有添加按钮,点击添加txt文档。 双击添加进来的文档就可以听到声音了,播放、停止等功能按钮都在左边,可以按个人需要点击使用。

播放时突然听到一声猪一般惨叫:奥买噶!(别说这是你的猪叫声哈!)为什么读的是英文,明明添加进来的是中文文字?淡定!原因就是这款软件只能用电脑系统自带的语音库,而系统自带的语音库就默认是英语。 解决办法就是下载安装一个中文语音库,回到软件主界面,点击下载语音库按钮进入网页下载页面,找到“cn-Hui-y”(这个语音库相对声质比较好)之后进行点击下载。 下载之后解压安装,这里有个需要注意的问题,就是语音库安装包不能解压到中文名字 的文件夹,否则会导致语音库无法正常运行,谨记!然后打开应用程序,点击启动语音库服务。 接着回到软件主界面,点击刷新语音库,然后再点击播放按钮试听一下,这回读的不是英文了吧,而是大家再熟悉不过的中文了,真的是太神奇了!谢谢你那感谢的目光,也谢谢各位的捧场,以后有好东西都会跟大家分享滴,嘎嘎~~~

软件还有很多功能,比如分角色朗读,需要用到这个功能键的朋友就要多下载几个语音库来安装了,我相信爱看小说的你肯定用得上,哈哈!这里就不做具体操作了。 软件还支持插入背景音乐,在朗读的同时还支持录音等这些功能,感兴趣的朋友不妨亲自去体验尝试,设置出令自己满意的效果。想想那煽情动人的小说再配上那催人泪下的背景 音乐,天呐!我都要落泪啦,软件的功能还真是强大。 相信你已经学会了如何操作这个软件了,这款把狸涡文字变语音软件还是很方便的,不仅仅用来听小说,还能听新闻;对于学习英语的学生,或是学者都适用,能帮助你矫正发音,再也不用花钱去买那啥英语学习机了;上课的老师还可以用来朗读文章给学生听,哎呀呀,这用处真的是大大滴!

【CN109767755A】一种语音合成方法和系统【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910153925.2 (22)申请日 2019.03.01 (71)申请人 广州多益网络股份有限公司 地址 510000 广东省广州市黄埔区伴河路 90号 申请人 广东利为网络科技有限公司  多益网络有限公司 (72)发明人 徐波  (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 麦小婵 郝传鑫 (51)Int.Cl. G10L 13/08(2013.01) G10L 13/10(2013.01) (54)发明名称 一种语音合成方法和系统 (57)摘要 本发明公开了一种语音合成方法,包括:将 待处理的多语言文本转化为对应的混合音素集, 并利用one -hot编码映射得到音素混合序列;通 过编码器将所述音素混合序列生成文本特征序 列;通过解码器将所述文本特征序列生成预测声 学频谱特征;将所述预测声学频谱特征合成语音 波形。本发明实施例还公开了一种语音合成系 统。采用本发明实施例,能够合成多种语言的语 音,减少合成语音的误差, 节省资源。权利要求书2页 说明书8页 附图3页CN 109767755 A 2019.05.17 C N 109767755 A

权 利 要 求 书1/2页CN 109767755 A 1.一种语音合成方法,其特征在于,包括: 将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列; 通过编码器将所述音素混合序列生成文本特征序列; 通过解码器将所述文本特征序列生成预测声学频谱特征; 将所述预测声学频谱特征合成语音波形。 2.如权利要求1所述的语音合成方法,其特征在于,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述通过编码器将所述音素混合序列生成文本特征序列,具体包括: 利用混合音素集与所述神经网络的神经元构建音素向量表; 根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量; 利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。 3.如权利要求1所述的语音合成方法,其特征在于,所述通过解码器将所述文本特征序列生成预测声学频谱特征,具体包括: 在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征; 在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。 4.如权利要求1所述的语音合成方法,其特征在于,所述将所述预测声学频谱特征合成语音波形,具体包括: 利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新,合成语音波形。 5.如权利要求1所述的语音合成方法,其特征在于,所述将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列,具体包括:预先获取多语言的音频数据及对应的多语言文本; 调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征;其中,所述音频处理包包括但不限于python中的librosa和pydub; 将所述多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列。 6.如权利要求5所述的语音合成方法,其特征在于,所述解码器的训练方法包括: 在初始阶段,采用特征标记帧输入到预设参数的循环神经网络中,得到预测声学频谱特征; 在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到预设参数的循环神经网络中,循环迭代得到所述预测声学频谱特征; 利用损失评价函数对所述真实声学频谱特征与所述预测声学频谱特征之间的误差进行评价,将误差进行反向传播; 更新预设参数,最小化所述预测声学频谱特征与所述真实声学频谱特征的误差。 7.如权利要求1所述的语音合成方法,其特征在于,所述将所述预测声学频谱特征合成语音波形后,还包括: 2

马来语语音合成系统的设计与实现

Computer Science and Application 计算机科学与应用, 2018, 8(7), 1053-1064 Published Online July 2018 in Hans. https://www.360docs.net/doc/d57267247.html,/journal/csa https://https://www.360docs.net/doc/d57267247.html,/10.12677/csa.2018.87117 The Design and Implementation of a Malay Speech Synthesis System Meifang Shi, Haoran Feng, Jian Yang* School of Information Science and Engineering, Yunnan University, Kunming Yunnan Received: Jun. 29th, 2018; accepted: Jul. 10th, 2018; published: Jul. 17th, 2018 Abstract Malay is widely used in Malaysia, Singapore and other Southeast Asian countries. Currently, there are about 200 million people using Malay. This paper studies the front-end text analysis method of Malay speech synthesis system, and the back-end speech synthesis method based on HMM. In front-end text analysis and processing, the collection and selection of Malay language data, text normalization, and automatic syllable division were researched and implemented; In the back-end speech synthesis section, the Malay Phonetic list determination, text annotation, context attributes and problem set design, HMM acoustic model training, and speech waveform generation were studied and implemented. Experimental results show that the front-end text analysis and processing method proposed and implemented in this paper can fulfil the requirements of back-end speech synthesis. The back-end speech synthesis system constructed in this paper can synthesize a complete Malay sentence. Keywords Malay Language, Speech Synthesis, Hidden Markov Model, Text Analysis, Acoustic Model 马来语语音合成系统的设计与实现 施梅芳,冯浩然,杨鉴* 云南大学信息学院,云南昆明 收稿日期:2018年6月29日;录用日期:2018年7月10日;发布日期:2018年7月17日 摘要 马来语广泛使用于马来西亚、新加坡等东南亚国家,目前使用人数约有2亿多人。本文研究马来语语音*通讯作者。

蚁群算法

文章编号:1009-3486(2006)03-0038-05 基于蚁群算法的试验流程优化研究 倡栘 陈慕齐1,齐 欢2,陈迎春 2 (1.华中科技大学管理学院,湖北武汉430074;2.华中科技大学控制科学与工程系,湖北武汉430074)摘 要:水中兵器的海上试验涉及许多人员、兵力、被试产品、测量设备等,试验周期长、消耗大,因此如何缩短试验周期是亟待研究解决的问题.文中首先将试验流程优化问题转化为车间调度问题,建立了相应的数学模型,再应用蚁群算法转移规则得到中间结果并进行排队以对各种资源约束进行处理.最后将结果利用局部搜索算法优化后作为蚁群算法信息素更新的基础.实例计算结果表明,该方法优化效果良好.关键词:蚁群算法;车间调度问题;水中兵器中图分类号:TP30 文献标识码:A Testschedulingbasedonantcolonyoptimization CHENMu-qi1 ,QIHuan2 ,CHENYing-chun 2 (1.SchoolofManagement,HuazhongUniv.ofScience&Technology,Wuhan430074,China; 2.Dept.ofControlScience&Engineering,HuazhongUniv.of Science&Technology,Wuhan430074,China) Abstract:Withregardtomuchmanpower,forces,under-proofproductsandmeasurementequipment,theseatestsforunderwaterweaponswilltakealongperiodandgreatexpenditure.Therefore,thetestschedulingiswhatneedstobedealtwith.Thetestschedulingisfirstconvertedintoajobshopschedulingproblem.Thecorrespondingmathematicalmodelisestablished.Thenthetransitionrulesofantcolonyalgorithmareadoptedtoobtainintermediateresultbeforethequeuingtheoryisusedtodealwithdifferentresourceconstraints.Final-ly,alocalsearchmethodisusedforfurtheroptimizationbeforethepheromonesofantsareupdated.Thesimu-lationresultsprovethevalidityofthealgorithm. Keywords:antcolonyoptimization;jobshopschedulingproblem;underwaterweapon 水中兵器的海上定型、鉴定等综合试验需要全面考核的性能指标多,试验方式多样,涉及众多的参试单位、人员、兵力、设备等,试验周期长、消耗大,如何缩短试验周期是急需研究解决的问题.水中兵器试验的流程优化属于典型的组合优化问题,目前主要利用网络流和关键路径法来优化.但由于约束条件众多,效果不是很明显.自然界中的某些生物,如蚂蚁、蜜蜂、鸟等,尽管个体的感知、通讯、动作等能力非常有限,但由这些简单的个体组成的社会却能完成复杂的任务,如照顾后代、觅食、选择路径、编队行动等,而且总能以最优或近似最优的方法完成相互间的协作.一些学者根据对昆虫群体行为的研究结果提 出了一些用于组合优化求解的算法或理论,如蚁群算法[1]和粒子群算法[2] ,并在一些领域中得到了应用.这些算法为试验流程的优化提供了新的思路.本文利用蚁群算法实现试验流程的优化. 1 模型描述 在第1层次,海上试验可分解为试验准备、各项目试验、试验总结3个阶段;在第2层次,每个项目  第18卷 第3期 2006年6月 海军工程大学学报 JOURNALOFNAVALUNIVERSITYOFENGINEERING Vol.18 No.3 Jun.2006 倡 收稿日期:2005-10-18;修订日期:2006-03-10 作者简介:陈慕齐(1962-),男,高级工程师,博士生.

蚁群算法在连续空间寻优问题求解中的应用

第!"卷第!期#$%&!"’$&!控制与决策 ()*+,)-.*/012343)* 5667年!月 8 888888888888888888888888888888888888888888888888888888888888888888 9:;&5667文章编号56?5667@6!=66A B=6A 蚁群算法在连续空间寻优问题求解中的应用 汪镭C吴启迪 ?同济大学电子与信息工程学院C上海5666>5@ 摘要<将蚁群算法引入连续空间的函数寻优问题求解C通过将传统蚁群算法中的D信息量留存E过程 拓展为连续空间中的D信息量分布函数E C定义了相应的求解算法F对多极值函数和非线性连续函数的寻 优实例仿真取得了良好的结果C显示了蚁群算法在连续空间优化问题中的应用前景F 关键词<蚁群算法G连续空间寻优G信息量分布函数 中图分类号5C w v g;:@ K x N M V R Y M’(背包问题%!6’等C并被用于数据的特征聚类%!!’C取得了良好的仿真实验结果F 通过许多研究者的努力C目前该算法已在最初模型的基础上得到了改进和扩展F蚁群算法在连续空间寻优中的应用是人们所关注的C因此本文结合在连续空间内的函数寻优问题求解C对蚁群算法进行合理的定义F *连续空间内函数寻优的蚁群算法定义在离散空间优化问题中C蚁群算法的信息量留存(增减和最优解的选取C都是通过离散的点状分布求解方式进行的F在连续空间的寻优问题求解中C解空间是以区域性方式表示C而不是以离散的点集方式表示F因此C连续空间寻优蚁群算法与离散空间寻优蚁群算法之间C至少应有蚁群信息量留存方式(蚁群在解空间中的寻优方式和蚁群行进策略7方面的不同F 收稿日期<566!=!6=5>G修回日期<5665=65=6!F 基金项目<国家自然科学基金资助项目?+>>+6676C)6!6A66A C+65+!67B@G国家高性能计算基金资助项目?>>B56@F 作者简介<汪镭?!>+6,@C男C江苏无锡人C副教授C博士C从事智能自动化等研究G吴启迪?!>A+,@C女C浙江永嘉人C校长C教授C博士生导师C从事智能自动化(w d-u等研究F 万方数据

蚁群算法在装配线平衡问题中的应用

?20?ComputerEraNo.122008 蚁群算法在装配线平衡问题中的应用 陈建行。张其松 (同济大学电子与信息工程学院,上海200092) 摘要:在双边装配线中,工人在装配线的两边进行作业装配。在一些大型产品(如汽车、卡车等)的装配过程中,一些作业必须在某一特定的边进行。为解决混合型双边装配线的第一类平衡问题,文章提出了一种改进的蚁群算法。在该算法中。针对混合型双边装配线平衡问题的具体特点,给出了蚂蚁分配方案的生成策略,计算出了作业的分配方案。最后,通过实例的计算,验证了算法的有效性。 关键词:装配线平衡;混合型双边装配线;蚁群算法1人工智能 0引言 流水线装配是当今装备制造业广泛采用的装配方式,它强调生产过程的节奏性、连续性、专业化、平行作业和按比例生产,达到经济、均衡的效果。装配线的平衡过程就是实现一种劳动生产率、设备利用率和满足市场需求三者之间的平衡的过程。装配线平衡问题(AssemblyLineBalancingProblem即ALBP)是生产线规划过程中—个最重要和最基本的问题。 ALBP属于典型的NP-hard问题lll,其复杂度随作业数的增加呈几何级数增长,难以在合理的时间得到完全的解决。因此,该问题在工业和学术上都引起了广泛的关注。目前,—般采用启发式算法来解决ALBP问题12],但是大部分研究都是针对单边装配线或者单一型双边装配线,混合型双边装配线的研究很少。对于混合型双边装配线的第一类平衡问题,即给定节拍时间寻求工作站数最少的分配方案,本文提出了一种改进的蚁群算法,取得了令人满意的结果。 1装配线及其平衡问题 装配线是一种很重要的制造系统,是一种技术。装配线将产品的装配过程划分为一个—个的操作单元,这些操作单元之问有一定的先后顺序约束关系,在满足这些约束的前提下,将这些操作单元分配到不同的工作站,每个工作站负责装配的一部分。 装配线平衡问题(AssemblyLineBalancingProblem即ALBP)lal就是在工艺条件约束下,按流水线节拍将所有装配工序进行组合、合理调整,使每个工位(也称工作站)分配的负荷量尽量充足和均衡,各工作站的未工作时间(空闲时间)最少。 装配线平衡问题一般可以分为两类: (1)第一类装配线平衡问题:给定装配线的节拍,求最小工位数; (2)第二类装配线平衡问题:给定装配线的最小工位数,使装配线的节拍最小。 第一类求解装配线平衡问题主要用于装配线的没计与安装阶段,主要考虑生产能力满足市场需求,系统投资少和装配线的效率高这类目标。 2混合型双边装配线平衡问题的描述[2--61 装配线有单边(只使用一边)和双边(左侧和右侧I—J时使 用)之分。双边装配线中,在装配线的两侧并行完成同一产品的 不同工序,一对面对面的工位称为成对工位,其中一个称为另一个的伴随工位。在实际生产中,大型产品(如汽车、卡车等)的装配很多时候往往采用双边装配。双边装配线较单边装配线有许多优点,比如,减少了操作人数、缩短了生产时I'aJ、降低了工具i殳备成本和物料输送成本。 在混合型双边装配线中,工作站对一批某种产品的几种相 似型号进行混合装配。每种型号有其自己的作业优先关系,但 是由于型号之l'日J的相似性,可以把所有作业合并成一个优先 图,称为组合优先图。所渭混合型双边装配线的第一类平衡问 题,就是把所有作业按顺序分配到装配线两边的每个工位上 去,使得工作站数最少。 假设计划生产周期为P,有M种型号的产品。型号m的需 M 求量为D。,那么装配线的工作节拍C=P/艺D。,型号m所占比 f归l M 重Elm=Dra/∑DD。混合型双边装配线平衡问题的数学模型如下:p=l MKRN qC轴) 一=乞。乞乞(一乞~。轴)(1) RK ∑∑)(1I出:1(,Ki=1K,N) 艺乞)(1I出=1(,,)(2)b=Lk=l ∑XeL=1,(i∈SL) k=l K ∑X醐=1,(1∈s。) 11 1一 乞乞x轴n+(k一1)c】+ma)c‰卜 b=Lk=l”o RK ∑xebITi+(k一1)c】≤o(.-1,K,N;jEsi) 万方数据

语音合成系统的关键技术与应用实例

19 杭州科技双月刊2/2000科海拾贝 计 算机语音合成系统又称文语转换系统(T IS 系统),它的主要功能是将计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学 模块。 一、语言合成系统的关键技术⒈T IS 系统的文本分析模块语音合成系统首先处理的是文字,也就是它要说的内容。文本分析的主要功能是使计算机能从这些文本中认识文字,进而知道要发什么音、怎么发音,并将发音的方式告诉计算机。另外,还要让计算机知道,在文本中,哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长时间等。其工作过程可以分为三个主要步骤: ⑴将输入的文本规范化。在这个过程中,要查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。 ⑵分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。 ⑶根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。 最终,文本分析模式将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步 处理并生成相应的信息。 传统的文本分析主要是基于规则(Rule -based )的实现方法。其主要思路是尽可能地将文字中的分词规范、发音方式罗列起来,并总结出规划,依靠这些规则进行文本处理,以获得需要的参数。具有代表性的方法有:最大匹配法、二次扫描法等。这些方法的优点在于结构较为简单、直观,易于实现;缺点是需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的背景知识。由于这些方法能取得较好的分析效果,因此,直到目前,它们依然被广泛使用。 但是近几年来,随着计算机领域中数据挖掘技术的发展,许多统计学方法以及人工神经网络技术在计算机数据处理领域中获得了成功的应用,计算机从大量数据中自动提取规律已完全可能并正在实现。在此背景下,出现了基于数据驱动(Data -driven )的文本分析方法,具有代表性的有:二元文法法(Di -Grammar Met hod )、三元文法法(Tri -Grammar Met hod )、隐马尔可夫模型法(HMM Met hod )和神经网络法(Neural Network Met hod )等。一些比较著名的系统,如IBM 的语音产品就采用了隐马尔可夫模型法。这类方法的特点是,设计人员根据统计学或人工神经网络方面的知识,设计出一种可训练的模型,并用大量已经存在的数据去训练,将训练得到的模型用于 文本分析,而系统设计人员并不需要太强的语言学背景知识。对于工程技术人员来说,这类方法无疑减轻了他们研究语言学的负担。目前,这类方法在文本分析精度上,已达到或部分超过了基于规则系统的分析结果,且容易实现多语种的混合,因而越来越广泛地被接受并使用。这类方法的缺点在于,尽管系统容易获得文本信息的共同特征,但忽略了一些个性,而往往这些个别因素对最终的发音方式影响很大。因此,有些系统采取了两类方法相结合的方式。 ⒉T IS 系统的韵律生成模块任何人说话都有韵律特征,比如在汉语中,音节有不同的声调、语气和停顿方式,发音长短也各不相同,这些都属于韵律特征。韵律参数则包括了能影响这些特征的声学参数,如基频、时长、音强等。 文本分析的结果只是告诉了计算机发什么音,以及以什么方式发音,这种发音方式还只是抽象的。而要发音的声调是二声还是三声,是重读还是轻读,到哪里停顿,等等,这些最终系统用来进行声信号合成的具体韵律参数还要依靠韵律生成模块。与文本分析的实现方法相类似,韵律的生成方法也分为基于规则和数据驱动两种方法。 早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员有大量的音韵学背景知 语音合成系统的关键技术与应用实例

相关文档
最新文档