蔡明扬数字语音第三次实验
让洋机器“听懂”中国话

让洋机器“听懂”中国话
徐以立
【期刊名称】《质量与标准化》
【年(卷),期】2022()3
【摘要】邵良上海液化天然气有限责任公司设备管理部机械维修班班长,工具钳工高级技师;曾获“上海工匠”“上海市五一劳动奖章”等各项荣誉。
在上海洋山深水港,坐落着上海市最大的液化天然气接收站——上海洋山液化天然气接收站,它的供气量占全市用气量的50%,高峰时段可达全市供应总量的2/3,是上海市天然气供应的“生命线”。
【总页数】4页(P15-18)
【作者】徐以立
【作者单位】不详
【正文语种】中文
【中图分类】F42
【相关文献】
1.让机器听懂中国话
2.洋老板学中国话
3.让机器人“听懂”与“看懂”世界——记北京大学深圳研究生院信息工程学院教授邹月娴
4.机器人能听懂你的话吗
5.为什么机器人能听懂人讲话
因版权原因,仅展示原文概要,查看原文内容请购买。
amihdb3编译码实验报告

amihdb3编译码实验报告编译码是计算机科学中的一个重要概念,它涉及到将高级语言代码转换为机器语言的过程。
在本篇报告中,我将介绍我对amihdb3编译码实验的理解和实践。
首先,让我们来了解一下amihdb3编译码的背景和原理。
amihdb3是一种基于哈夫曼编码的数据压缩算法,它可以将较长的二进制串转换为更短的编码,从而减少存储空间和传输带宽的使用。
该算法通过构建哈夫曼树来实现编码和解码的过程。
编码过程中,出现频率较高的字符被赋予较短的编码,而出现频率较低的字符则被赋予较长的编码。
解码过程中,通过遍历哈夫曼树,根据编码找到对应的字符。
在实验中,我首先实现了amihdb3编码算法的核心部分,即构建哈夫曼树的过程。
我使用了C++语言来编写代码,并运用了递归的思想来构建树结构。
通过统计输入字符串中每个字符的出现频率,我得到了一个字符频率表,并根据频率表构建了哈夫曼树。
在构建树的过程中,我使用了优先队列来维护节点的顺序,确保频率较低的节点先被合并。
最终,我得到了一棵完整的哈夫曼树。
接下来,我实现了编码和解码的过程。
编码过程中,我使用了深度优先搜索的算法来遍历哈夫曼树,根据每个字符的编码路径生成对应的编码。
解码过程中,我将编码字符串逐个字符地与哈夫曼树进行匹配,根据匹配结果找到对应的字符。
通过对编码和解码的测试,我发现amihdb3编码算法能够正确地将输入字符串转换为编码,并能够将编码字符串正确地解码回原始字符串。
在实验过程中,我还发现了一些有趣的现象。
首先,随着输入字符串长度的增加,编码后的字符串长度也会相应地减少。
这是因为amihdb3编码算法通过将频率较高的字符赋予较短的编码来实现压缩的效果。
其次,对于出现频率较低的字符,它们的编码长度会相对较长。
这是因为为了保证编码的唯一性,频率较低的字符需要使用较长的编码。
总结而言,amihdb3编译码实验是一个有趣且具有挑战性的实践项目。
通过实验,我深入理解了哈夫曼编码的原理和实现方式,并通过编写代码实现了amihdb3编码算法。
基于改进神经网络的三字词声调识别方法

基于改进神经网络的三字词声调识别方法郑燕琳;许星宇;杨晓炯【摘要】汉语连续语音三字词声调由于受声道响应、音连、变调规律等的影响,情况较复杂,声调模式间交集大,模糊性强.提出了一种基于动态时间规整和改进神经网络的声调识别算法.实验表明,该算法可得到较好的识别效果.对探讨具有汉语特色的新的语音识别方法有重要意义.【期刊名称】《电声技术》【年(卷),期】2010(034)005【总页数】4页(P48-51)【关键词】连续语音三字词;声调识别;动态时间规整;改进神经网络算法【作者】郑燕琳;许星宇;杨晓炯【作者单位】公安部第三研究所,上海,200031;公安部第三研究所,上海,200031;公安部第三研究所,上海,200031【正文语种】中文【中图分类】TN9121 引言在汉语普通话中,音节是最小的发音单位,一个汉字一个音节。
每个音节由声母、韵母和声调组成。
声调是连续语音切分的有力手段,有重要的辩意作用。
声调组合及其模式在连续语流中是提高单词和单句识别率及语音理解必不可少的。
已有的汉语识别系统基本没有使用声调这个特征,随着连续汉语语音识别研究的发展,声调信息的重要性已非常明确。
在语音识别中加入声调信息可大大减少搜索空间,提高语音识别的精度和速度。
汉语连续语音三字词音节接近连续语音中音节的声调特征,从连续语音三字词中分离并识别音节的声调模式是重要的研究工作,对探讨具有汉语特色的新的语音识别[1-2]方法具有重要意义。
基音提取是声调判别的关键。
准确、有效地分割连续语音三字词音节[3],提取其基音频率能提高声调识别的准确率。
笔者采用文献[4]所述方法进行音节分割及提取基音。
2 声调识别当三字词连续语音被切分成3个音节:首字、中字和尾字时,其声调识别也就简化为四声识别。
声调模式仅具有四声的基本特征,模式间的交集大,模糊性强。
以往的声调识别方法有基于规则的方法、模糊识别方法和基于隐马尔可夫模型方法等。
基于规则的方法在识别前期工作量大,针对性强,缺乏通用性。
数字语音音调变换的方法及装置[发明专利]
![数字语音音调变换的方法及装置[发明专利]](https://img.taocdn.com/s3/m/bd499f228bd63186bdebbc71.png)
专利名称:数字语音音调变换的方法及装置专利类型:发明专利
发明人:潘建平,胡南钟,杜根源,曹彬石,黄昭鸣申请号:CN87100209
申请日:19870110
公开号:CN87100209A
公开日:
19871021
专利内容由知识产权出版社提供
摘要:本发明是语音音调变换技术。
用已有方法变换得的语音会产生音素过渡等失真,这些失真在高倍数时域压缩变换时显得更为严重。
本方法先将语音数据帧写入存贮器,在帧内求出语音波形的最相似段和段两端附近的波形匹配点,根据这两点以一定的速率和方式将数据读出存贮器;它克服了已有方法所产生的音素过渡等失真,并得到了良好的听觉效果。
本方法及装置能使变调语音的音调得以恢复和提供特殊的语音音调效果。
申请人:上海工业大学
地址:上海市延长路
国籍:CN
代理机构:上海工业大学专利事务所
更多信息请下载全文后查看。
改进的小波变换HMM语音识别算法

改进的小波变换HMM语音识别算法洪淑月;施晓钟;徐皓【摘要】Recognition rate of speech recognition systems relied heavily on technology-based Hidden Markov Models-HMM model training. However the classic Baum-Welch training algorithm had a fatal flaw, namely, final solution obtained depended on the selection of the initial value, which was often only locally optimized solution. It would affect the recognition rate of the final system. To increase the recognition rate of traditional speech recognition system, it was presented an improved algorithm based on wavelet transform and HMM model. Firstly, noise in the original signal was reduced by wavelet transform, then an improved HMM model trained by speech samples and used to recognize speech. Experimental results showed that the improved algorithm, which was implemented by genetic algorithm, was practical, effective and system recognition rate was increased significantly.%语音识别系统的识别率十分依赖基于Hidden Markov Models (HMM)模型的训练技术.然而,经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,只得局部最优解,这就影响了系统的最终识别率.针对传统语音识别系统识别率较低的现状,提出了一种改进的小波变换HMM语音识别算法.该算法首先通过小波变换对原始语音信号进行了降噪处理,然后使用语音样本对利用遗传算法改进后的HMM模型进行训练,并用于语音识别.实验结果表明:所提出的算法实用有效,识别率显著提高.【期刊名称】《浙江师范大学学报(自然科学版)》【年(卷),期】2011(034)004【总页数】6页(P398-403)【关键词】小波变换;降噪;HMM模型;语音识别【作者】洪淑月;施晓钟;徐皓【作者单位】浙江师范大学数理与信息工程学院,浙江金华321004;浙江师范大学行知学院,浙江金华321004;浙江师范大学数理与信息工程学院,浙江金华321004【正文语种】中文【中图分类】TP3910 引言语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连[1].随着人们对语音识别认识的深入,人们对语音识别也提出了越来越高的要求.小波分析作为一种强有力的信号分析工具,近年来被广泛地应用于图像处理和语音处理中,它是时间和频率的局部变换,能有效地从信号中提取信息.通过小波变换,在信号的高频域部分,可以取得较好的时间分辨率;在信号的低频域部分,可以取得较好的频率分辨率,这种特性使得小波特别适合于语音信号处理[2].隐马尔可夫模型(Hidden Markov Models:HMM),作为语音信号的一种统计模型,目前正在语音处理各个领域中获得广泛的应用[3-4].语音识别系统的识别率十分依赖基于HMM模型的训练技术,然而经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,故只得局部最优解,影响了系统的最终识别率,尤其高噪声环境下语音识别进展困难,必须寻找新的信号分析处理方法[5-6].本文改进思路,将进化算法寻找最优B初值与Baum-Welch算法相结合来训练HMM模型,使得整个语音识别系统的识别率大大提升.1 小波去噪的原理在实际运用中,去除语音信号中的背景噪声显得尤为重要.小波变换是时间和频率的局域变换,能够有效地从信号中提取信息.它不但可以检测到低信噪比信号中的边缘信号,而且可以滤去噪声从而恢复原信号.小波变换的语音降噪原理如下,令观察信号为式(1)中:有用信号噪声序列.假零均值且服从高斯分布的随机序列,即服从布.对式(1)两端作小波变换,有再令零均值、独立同分布的平稳随机信号,记u=[u(0)u(1)…u(N-1)]T,则有式(3)中表求均值运算;Q是u的协方差矩阵.令W是小波变换矩阵,对于正交小波变换,它变换,即由式(2)有令P是U的协方差矩阵,由于,因此,W是正交阵,且Q=σ2uI,所以P=σ2uI.因此,可得到一个重要的结论:平稳白噪声的正交小波变换仍然是平稳的白噪声[7].由该结论可知,对于如同式(1)的加噪声模型,经正交小波变换后,最大程度地去除了s(n)的相关性,其能量将集中在少数小波系数上.小波变换具有一种“集中”的能力,能使信号和噪声在不同尺度上所表现出的特征不同,对于信号函数,随着尺度的增大,小波变换系数也增大;对于噪声,其小波变换系数随着尺度的增大而减小.选择一个合适的阈值对小波系数进行阈值处理,就可以达到滤除噪声而保留有用信号的目的.2 HMM的改进2.1HMM 模型HMM模型作为语音信号的一种统计模型,今天正在语音处理各个领域中获得广泛的应用.语音识别系统的原理图1所示[8].HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中).人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变序列.可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模征参量.HMM模型通常表示成2.2HMM的3个基本问题图1 HMM语音识别系统这3个问题目前都已解决,通常情形下评估问题使用“前向-后向”算法解决,解码问题使用Viterbi算法解决,训练问题使用Baum-Welch算法解决[9].2.3 利用遗传算法改进HMM语音识别系统的识别率十分依赖基于HMM模型的训练技术,经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,故往往只得局部最优解,影响了系统的最终识别率.改进思路是将遗传算法寻找最优B初值与Baum-Welch算法相结合来训练HMM模型,使得整个语音识别系统的识别率大大提升.进化Baum-Welch算法的设计如下:1)编码方案.在HMM模,参数分为A,B两部分.对于无跳跃从左向右模型,A 中有且仅有9个非零值.由于因此,A中只需5个参数形成染色体的一部分,即所以在遗传操作后还需对B部分作归一化操作.2)适应函数.遗传算法中,适应函数作为区分个体优劣的标准,需保证优秀个体的适应度比差的个体的适应度高.这里个体的适应度用各个训练样本的对数似然概率表示,即式(3)中:O(k)表示用于训练模型的第k个观测序列;P(O(k)|λ)由Viterbi算法求出.3)选择策略.文中采用了基于排名的非线性选择.在每一代中,将群体成员按适应值从高到低依次排列,按照排名分配选择概率,适应值高的个体选择概率也就相应地高.4)遗传算子和控制参数.遗传算子包含杂交算子和变异算子,它直接影响到算法的最终解.杂交算子相当于一个局部搜索操作,它产生父代附近的2个子代,而变异算子则使得个体能够跳出当前的局部搜索区域,两者的结合正好体现了进化算法的精髓所在.实验中采用了3个单点杂交,一点对应一个状态.在个体中A部分随机取一点,将2个父体该点的对应值互换;再对每一状态在B的两部分中个体随机选取一个点,将2个父体该点后的分量进行互换,这样就完成了杂交的操作.变异算子采用均匀性变异.实验中种群大小取40,杂交概率取0.7,变异概率取0.001.5)终止策略.常用的终止准则是预先设置最大进化的代数或预先设置一个适应值改善的门限值.对于前一种准则,在进化代数到达预置值时进化终止.后一种情况下,在适应值改善低于该门限值时进化停止.本系统取最大进化代数为100.3 改进型系统设计基于小波变换和改进型HMM的系统设计模型如图2所示.改进后的系统在预处理之后加入小波变换,可以对瞬间突变的语音信号进行检测与分析,有效降低原始语音信号中的噪声.小波降噪后进行端点检测,之后对语音信号进行特征参数提取MFCC,然后进行矢量量化和编码,再将编码得到的码本使用改进后的算法训练HMM,最后得到输出结果.图2 改进型系统设计框图4 实验结果分析实验基于HMM对人体语音识别系统进行.训练数据取自10人,在不同SNR(高斯白噪声)下,词汇量分别为10,20,30,40,50个,共600个实验样本,其中300个样本用于训练,另外300个用于检测实验结果.时间长度为5~10 s,采样频率为8 kHz,A/D转换精度为16 bit,并采用单声道语音进行识别测试.实验结果如表1所示.表1 4种系统的识别率比较images/BZ_130_242_405_2100_535.png系统Ⅰ 47.8 83.4 85.0 86.7 87.7 89.2系统Ⅱ 53.0 84.5 86.9 87.2 87.6 89.3系统Ⅲ 50.3 87.5 87.4 88.1 88.0 90.2系统Ⅳ 58.5 88.7 89.6 89.6 89.9 90.1 10系统Ⅰ 30.2 75.6 82.1 84.7 84.6 85.1系统Ⅱ 42.5 79.8 84.3 84.8 84.7 85.2系统Ⅲ 39.3 77.2 84.9 85.9 86.0 86.3系统Ⅳ 48.6 83.1 86.1 86.2 86.2 86.3 20系统Ⅰ 28.4 74.7 82.0 83.7 84.0 85.0系统Ⅱ 40.0 77.9 83.8 84.0 83.9 85.0系统Ⅲ 35.7 77.1 84.1 84.9 85.0 86.5系统Ⅳ46.5 82.0 85.0 85.9 86.0 86.2 30系统Ⅰ 25.4 75.0 83.3 82.1 82.5 83.0系统Ⅱ 31.7 78.5 83.4 82.3 82.4 82.7系统Ⅲ 33.3 77.3 82.3 83.1 82.9 83.1系统Ⅳ 45.2 80.4 84.0 84.5 84.4 84.0 40系统Ⅰ 23.2 72.0 79.1 80.4 80.1 81.5系统Ⅱ 30.7 76.6 83.1 80.6 80.7 81.7系统Ⅲ 29.9 76.0 82.6 81.8 83.2 82.1系统Ⅳ 44.1 80.7 83.7 84.0 83.9 84.1 50表1中,系统Ⅰ为基于HMM的语音识别系统;系统Ⅱ为基于小波变换和HMM的语音识别系统;系统Ⅲ为基于改进HMM的语音识别系统;系统Ⅳ为基于小波变换和改进HMM的语音识别系统.因此,可得到以下一些结论:1)在高噪声环境下,小波降噪对语音系统识别率可提升5% ~7%.随着语音质量(信噪比)的提高,小波降噪对识别率的改善越来越小,当信噪比大于35 dB时,小波降噪系统识别率的改善并不明显.图3是利用表1中的实验数据(词汇量为20)制成的小波降噪的识别率比较图.图3 小波变换对系统影响比较图4 系统受词汇量影响比较2)基于遗传算法的改进HMM模型对系统语音识别率有较大改善,平均提高了4个百分点,且由图4可以看出改进后的系统识别率受词汇量大小影响不大.3)改进后的语音识别系统,即系统Ⅳ在实验中表现最优,各种环境下其识别率都是最高的,基本达到了理论预期结果.5 结语提出一种语音识别系统的改进方法,通过小波变换和遗传算法对传统语音识别方法作了一定改进.改进后的语音识别算法性能提升明显,尤其是在恶劣噪声环境下,该算法基本达到了设计目的和现实要求.所提出的方法综合性能优于单独应用HMM模型和小波变换与HMM模型结合的语音识别方法.参考文献:[1]刘么和.语音识别与控制应用技术[M].北京:科学出版社,2008:1-35.[2]Zhou Dexiang,Wang Xianrong.The improvement of HMM algorithm using wavelet dek-noising in speech recognition[C]//2010 3rd International Conference on Advanced Computer Theory and Engineering(Ⅳ),Chengdu:Int Assoc Comput Sci Inf Technol,2010:4438-4441 .[3]García-Moral A I,Solera-Ureña R,Peláez-Moreno C.Data balancing for efficient training of hybrid ANN/HMM automatic speech recognition system[J].IEEE Transactions on Audio,Speech and Language Processing,2011,19:468-481.[4]Terashima R,Yoshimura T,Wakita T.Prediction method of speech recognition performance based on HMM-based speech synthesis technique[J].IEEJ Transactions on Electronics,Information and Systems,2010,130:557-564.[5]Borgstrom B J,Alwan A.HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition[J].IEEE Transactions on Audio:Speech and Language Processing,2010,18:1612-1623.[6]Hahm S J,Ohkawa Y I.Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model[J].IEICE Transactions on Information and Systems,2010,93(9):2407-2416.[7]胡广书.现代信号处理教程[M].北京:清华大学出版社,2004:397-398.[8]Rabiner L R,Juang B H.Fundamentals of Speech Recognition [M].New Jersey:Prentice-Hall,1999:321-370.[9]吴朝晖,杨莹春著.说话人识别模型与方法[M].北京:清华大学出版社,2009:21-76.。
情报VS信息:让数字说话

情报VS信息:让数字说话
张左之
【期刊名称】《情报工程》
【年(卷),期】2017(003)006
【摘要】本文以《全国报刊索引》数据库和中国知网期刊数据库所收录的文章为对象,用文献计量的方法,探寻"情报""信息"二词使用的变迁演化,以期对当下情报(学)的改革有所启示.
【总页数】10页(P4-13)
【作者】张左之
【作者单位】上海图书馆(上海科学技术情报研究所) 上海 200031
【正文语种】中文
【中图分类】G350
【相关文献】
1.信息化就是让数字说话 [J], 司马东明
2.情报VS信息:让数字说话 [J], 张左之;
3.信息化,用数字说话 [J], 侯昱华
4.让数字信息技术在建筑中“说话”——中国建筑西北设计研究院有限公司应用BIM实践 [J], 沈晨;
5.数字信息环境下图书情报服务探究 [J], 阿依江·沙汗
因版权原因,仅展示原文概要,查看原文内容请购买。
陕西省教育科学“十二五”规划2013年立项课题名单
编号 课题名称
SGH13001 SGH13002 SGH13003 SGH13004 SGH13005 SGH13006 SGH13007 SGH13008 SGH13009 SGH13010 SGH13011 SGH13012 SGH13013 SGH13014 SGH13015 SGH13016 SGH13017 SGH13018 SGH13019 SGH13020 SGH13021 SGH13022 SGH13023 SGH13024 SGH13025 SGH13026 SGH13027 SGH13028 基于多模态语料库的大学生思辨能力培养模式研究 传播媒介泛娱乐化对青少年行为方式的影响研究 微博对大学生社会参与的影响研究 增强“90后”大学生中国特色社会主义理论体系教育实效性的路径研究 提高本科思想政治理论课学生接受度的对策研究 大学生心理压力及应对方式的实证研究 高校学风建设研究 陕西知识产权“学思结合”参与式教育模式研究 非英语专业学术型研究生英语课程体系改革探索 陕西高校留学生短期综合汉语课程开发研究 研究生学术交流英语能力多元化提升模式研究 基于交际语言能力理论的计算机辅助大学英语校内口语考试评价体系构建研究 以培养国际视野、战略思维为导向的高校国防教育课程内容研究 基于“内容依托教学法(CBI)”的大学英语实践课堂教学模式研究 基于语料库的中美大学生论辩策略对比研究 法律语言教学中存在的问题与对策研究 道德典范研究——以陕西道德模范为例 基于网络的英语教学协作学习优化研究 英语学习者问题认知层级与思辨能力相关性研究 网络技术辅助下的高校非英语专业本科生翻译能力培养模式研究 基于学习投入视角的陕西省大学英语学习环境研究 非英语专业学生外语需求分析研究 陕西省大学俄语学习环境构建研究 网络教学平台可用性评价研究 陕西省大学英语自主学习发展研究 基于专业创新能力培养的生物类大学物理教学新模式的探索与实践 基于综合素质培养的少儿艺术教育模式研究 阳光体育运动背景下陕西省民俗体育课程的传承与发展研究
基于小波变换的汉语三字词语音基音频率提取
基于小波变换的汉语三字词语音基音频率提取
王义元;赵黎明
【期刊名称】《吉林大学学报(信息科学版)》
【年(卷),期】2005(023)001
【摘要】声调是基音频率的轮廓,为准确提取基音频率,进行具有汉语特色的连续语音识别,提出了具有汉语特色的清浊音切分方法.与常用的阈值法相比,该方法能更好地找到清浊音的切分点,尤其是在字与字连接紧密时更有效(在这种情况下阈值法往往失效).在此基础上,利用小波变换的多分辨分析特性进行了汉语三字词语音基音频率的提取.实验结果显示,该算法能有效地将三字词语音分开,且得到的基音频率曲线符合汉语三字词语音的声调模式.
【总页数】5页(P22-26)
【作者】王义元;赵黎明
【作者单位】吉林大学,通信工程学院,长春,130025;吉林大学,通信工程学院,长春,130025
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.基于小波变换的汉语三字词语音基频提取方法 [J], 钟金宏;杨善林;魏方传
2.汉语连续语音三字词声调提取方法研究 [J], 钟金宏;杨善林;张学应
3.基于小波变换和自相关函数的基音频率检测算法 [J], 李飞鹏;张维强;徐晨
4.基于连续小波变换(CWT)的汉语语音图 [J], 彭玉华;姜响应
5.基于小波变换的汉语三字词基音提取 [J], 鹿群;徐士林
因版权原因,仅展示原文概要,查看原文内容请购买。
嗓音模仿认知神经加工的多阶段模型
嗓音模仿认知神经加工的多阶段模型
胡砚冰;蒋晓鸣
【期刊名称】《心理科学进展》
【年(卷),期】2024(32)3
【摘要】嗓音模仿是言语交流中关键的认知过程,即对话一方(说话人)将感知到的另一方(目标说话人)的嗓音信号映射为自己的发声器官运动表征,达到发声器官运动表征复制和目标说话人嗓音再现的目的。
成像结果表明,嗓音模仿的认知加工涉及颞上回到左侧额下回,再到发声相关初级运动皮层的神经网络,并且基底神经节在该网络中发挥协调作用。
嗓音辨别能力、嗓音信号至发声运动表征的映射能力以及发声器官肌肉的控制能力的个体差异都会影响嗓音模仿的认知加工。
未来研究应该考虑将嗓音模仿与发声障碍以及侵入电极技术结合起来,旨在共同揭示脑与行为的因果机制,并进一步应用于言语的终身发展、认知可塑性以及言语预期领域。
【总页数】15页(P499-513)
【作者】胡砚冰;蒋晓鸣
【作者单位】上海外国语大学语言研究院;上海外国语大学语言科学与多语智能应用重点实验室
【正文语种】中文
【中图分类】B842
【相关文献】
1.认知神经心理学的单字加工模型在失语症评价中的应用
2.人类颞叶皮层与视、听信息加工:Ⅰ、神经心理模型和左颞叶癫痫病人的认知功能
3.人类嗓音加工的神经机制——来自正常视力者和盲人的脑神经证据
4.认知规范、制度环境与果农绿色生产技术多阶段动态采纳过程——基于Triple-Hurdle模型的分析
5.抑郁症负性情绪加工与认知控制神经模型研究进展
因版权原因,仅展示原文概要,查看原文内容请购买。
基于小波变换的说话人语音特征参数提取
基于小波变换的说话人语音特征参数提取
刘雅琴;周炜
【期刊名称】《河南科技大学学报(自然科学版)》
【年(卷),期】2005(26)4
【摘要】在说话人识别系统中,提取反映说话人个性的语音特征参数是系统的关键问题之一,本文在研究小波变换理论的基础上,借鉴MFCC参数的提取方法,用小波变换代替傅立叶变换,提取了新的特征参数DWTMFC,并对常用的coif3、db6、db4、sym4、bior2.4这几种小波函数进行了比较,实验结果表明:coif3为提取语音特征参数的最优小波函数, DWTMFC参数的性能优于MFCC参数.
【总页数】3页(P44-46)
【作者】刘雅琴;周炜
【作者单位】洛阳师范学院,计算机科学系,河南,洛阳,471022;洛阳师范学院,计算机科学系,河南,洛阳,471022
【正文语种】中文
【中图分类】TN912.34
【相关文献】
1.基于HHT的语音特征参数提取及其在说话人识别中的应用 [J], 刘丽伟;张瑶;赵孔新;钱锋
2.基于小波变换的语音特征参数提取 [J], 薛凌云;夏国荣
3.基于小波包变换的说话人语音特征参数及其在说话识别中的应用 [J], 屈百达;蒋纯纲;王月;徐保国
4.说话人识别技术——语音特征参数提取及组合 [J], 张喜宁
5.深度学习说话人识别中语音特征参数提取研究 [J], 张兴明;杨凯
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数字语音处理实验报告(三)1实验目的1.了解语音断点检测的重要性和必要性2.掌握基于双门限法的语音端点检测原理3.编程实现基于双门限法的语音端点检测实验2实验原理语音端点检测本质上是根据语音和噪声的相同参数所表现出的不同特征来区分,传统的短时能量和过零率相结合的语音端点检测算法利用短时过零率来检测轻音,用短时能量来检测浊音,两者相配合实现信号信噪比比较大的情况下的端点检测。
算法以短时能量为主,短时过零率为辅。
根据语音统计特性可以把语音段分为轻音,浊音以及静音三种。
双门限法进行端点检测的步骤如下:1)计算信号的短时能量和短时平均过零率2)根据语音能量的轮廓选取一个较高门限T2,语音信号的能量包络大部分都在此门限之上,这样可以进行一次初判。
语音起止点位于该门限与短时能量包络交点N3和N4所对应的时间间隔之外。
3)根据背景噪声的能量确定一个较低的门限T1,并从初判起点往左,从初判终点往右搜索,分别找到能零比曲线第一次与门限T1相交的两个点N2和N5,于是N2和N5之间就是用双门限判定的语音段。
4)以短时过零率为准,从N2往左和N5往右搜索,找到短时过零率低于某阈值T3的两点N1和N6,这边是语音段的起始点。
3实验过程3.1实验实现代码clcclear allclose allload digital_speech_10kwidth=3;height=3;alw=0.75;fsz=13;lw=1.2;msz=7;dataLength=length(data);dataClean=data;ts=1/fs;t=(1:dataLength)*ts;figure(1)plot(t,data)hold on;xlabel('时间/s')ylabel('幅度')timeperFrame=20;overlapRate=0.5;[frameSet,timeAxis]=enframe_1(data,fs,timeperFrame,overlapRate,'hamming'); [frameLength,frameNum]=size(frameSet);shortCrossX=zeros(1,frameNum);%初始化shortCrossX for i=1:frameNumz=frameSet(:,i);%取得一帧数据for j=1:(frameLength-1);%在一帧内寻找过零点if z(j)*z(j+1)<0%判断是否为过零点shortCrossX(i)=shortCrossX(i)+1;%是过零点,记录1次endendendshortEnergy=zeros(1,frameNum);%初始化shortEnergyfor i=1:frameNumu=frameSet(:,i);%取出一帧u2=u.*u;%求出能量shortEnergy(i)=sum(u2);%对一帧累加求和endtolEnergyHigh=max(shortEnergy)/1000;tolEnergyLow=mean(shortEnergy(1:5))*50;figureplot(timeAxis,shortEnergy)hold onplot([timeAxis(1),timeAxis(end)],[tolEnergyHigh,tolEnergyHigh],'r','L ineWidth',lw,'MarkerSize',msz);plot([timeAxis(1),timeAxis(end)],[tolEnergyLow,tolEnergyLow],'g','Lin eWidth',lw,'MarkerSize',msz);ylim([-1,2]);label={'语音短时能量','较高能量门限','较低能量门限'};legend(label,'FontSize',fsz,'Location','southwest');xlabel('时间/s','FontSize',fsz);ylabel('短时能量','FontSize',fsz);figureplot(timeAxis,shortCrossX)tolCrossX=mean(shortCrossX(1:8))-2;tolCrossXLow=25;hold onplot([timeAxis(1),timeAxis(end)],[tolCrossX,tolCrossX],'r','LineWidth ',lw,'MarkerSize',msz);plot([timeAxis(1),timeAxis(end)],[tolCrossXLow,tolCrossXLow],'g','Lin eWidth',lw,'MarkerSize',msz);%ylim([-1,2]);label={'语音过零率','过零率门限'};legend(label,'FontSize',fsz,'Location','northwest');xlabel('时间/s','FontSize',fsz);ylabel('过零率','FontSize',fsz);noiseBegin=1;noiseEnd=1;remove=[];removeSection=[];leftSection=[];for iFrame=2:frameNumif shortEnergy(iFrame)>tolEnergyHigh&&shortEnergy(iFrame-1)< tolEnergyHighnoiseEnd=iFrame-1;while shortEnergy(noiseEnd)>tolEnergyLow&&shortCrossX(noiseEnd)>tolCrossXnoiseEnd=noiseEnd-1;end%plot noise sectionnoiseSection=(noiseBegin*(frameLength*overlapRate):(noiseEnd-1)*(frameLength*overl apRate));figure(1)plot(noiseSection*ts,data(noiseSection),'r');%removeSection=[removeSection,noiseSection];endif shortEnergy(iFrame-1)>tolEnergyHigh&&shortEnergy(iFrame)<tolEnergyHighnoiseBegin=iFrame+1;while shortEnergy(noiseBegin)>tolEnergyLow&&shortCrossX(noiseBegin)>tolCrossXnoiseBegin=noiseBegin+1;end%noiseSection=(noiseBegin*(frameLength*overlapRate):(noiseEnd-1)*(frameLength*overl apRate));%plot(noiseSection*ts,data(noiseSection),'r');%plot((noiseBegin-1)*(frameLength*overlapRate)*ts,data(noiseE nd),'r');endendnoiseEnd=frameNum;noiseSection=(noiseBegin*(frameLength*overlapRate):(noiseEnd-1)*(frameLength*overl apRate));removeSection=[removeSection,noiseSection];plot(noiseSection*ts,data(noiseSection),'r');xlabel('时间/s')ylabel('幅度')suptitle('蔡明扬电信14040121409341425');figure(4)plot(removeSection*ts,data(removeSection),'r');xlabel('时间/s')ylabel('幅度')suptitle('蔡明扬电信14040121409341425');for iFrame=2:frameNum%反向取点666if shortEnergy(iFrame)<tolEnergyHigh&&shortEnergy(iFrame-1)> tolEnergyHighnoiseEnd=iFrame-1;while shortEnergy(noiseEnd)<tolEnergyLow&&shortCrossX(noiseEnd) <tolCrossXnoiseEnd=noiseEnd-1;end%plot noise sectionvoiceSection=(noiseBegin*(frameLength*overlapRate):(noiseEnd-1)*(frameLength*overlapRate));leftSection=[leftSection,voiceSection];figure(5)plot(leftSection*ts,data(leftSection),'r');endif shortEnergy(iFrame-1)<tolEnergyHigh&& shortEnergy(iFrame)>tolEnergyHighnoiseBegin=iFrame+1;while shortEnergy(noiseBegin)<tolEnergyLow&& shortCrossX(noiseBegin)<tolCrossXnoiseBegin=noiseBegin+1;endendendplot(data(leftSection));ylim([-0.6,0.6]);ylabel('幅度')suptitle('蔡明扬电信14040121409341425');sound(data(leftSection))4实验结果4.1WHUT语音片段图4.1短时能量图图4.2短时过零率图图4.3噪声标红语音图图4.4噪声语音图图4.5去噪语音图4.2数字语音处理语音片段图4.6短时能量图图4.7短时过零率图图4.8噪声标红图图4.9噪声语音图图4.10去噪音图5实验结果分析可以观察到当改变短时能量高低门限值和短时过零率高低门限值时,图中的标红部分有所变化,当短时能量高门限降低到一定程度时,部分浊音也被标为红色,表示噪声部分去除过多,需要调整,在不断调整的过程中,找到最适合的门限值。