时域和频域特征相融合的语音端点检测新方法
基于最大熵谱估计和时频特性的语音端点检测

基于最大熵谱估计和时频特性的语音端点检测陈莹莹;简磊【期刊名称】《计算机应用与软件》【年(卷),期】2017(034)011【摘要】Speech endpoint detection is crucial to the construction of a practical automatic speech recognition system.A new algorithm based on the maximum entropy spectrum estimation and time-frequency signature is proposed to improve the performance of speech endpoint detection in low SNR (Signal Noise Ratio) environment.The framed speech signal power spectrum was estimated through the maximum entropy,and then the characteristics of noisy speech were extracted in time-frequency field in order to detect the endpoint.Experimental results show that,this method can accurately capture the characteristics of speech signals under lower SNR (-9 ~ 0 dB),and significantly improves the accuracy of endpoint detection.%语音端点检测对于构建实际语音识别系统具有重要的意义.为了提升在低信噪比条件下语音端点检测算法的性能,提出一种基于最大熵谱和时频特性的端点检测算法.对分帧后的语音信号通过最大熵估算出功率谱,并根据带噪语音信号时频域上的特性进行特征捕捉,从而进行端点检测.实验结果表明,此方法在较低的信噪比下(-9 ~0 dB)能够比较准确地捕捉语音信号的特征,明显地提高了端点检测的准确性.【总页数】6页(P91-96)【作者】陈莹莹;简磊【作者单位】四川大学锦江学院电气与电子信息工程学院四川彭山620860;四川大学锦江学院电气与电子信息工程学院四川彭山620860【正文语种】中文【中图分类】TP391.42【相关文献】1.基于最大熵谱估计的沉积旋回划分方法探讨 [J], 朱剑兵2.基于最大熵谱估计的某型飞行模拟器动态性能验证 [J], 王哲;李国辉;赵善禄3.基于最大熵谱估计的GPS坐标时间序列噪声分析 [J], 许颖;岳东杰;袁豹4.基于最大熵谱估计的高能电子周期特性研究 [J], 万美言;鲁同所;廖偲含;于白雪;高贝贝5.基于局部均值分解和最大熵谱估计的径流分析 [J], 门宝辉;常溶溶因版权原因,仅展示原文概要,查看原文内容请购买。
基于短时能量的语音信号端点检测_石海燕

( 4) 智能化语音虚拟现实建模。虚拟现实建模是一个比较繁复的过程, 需要大量的时间和精力。如果将 VR 技术与智能技术、语 音识别技术结合起来, 可以很好地解决这个问题。我们对模型的属性、方法和一般特点的描述通过语音识别技术转化成建模所需的 数据, 然后利用计算机的图形处理技术和人工智能技术进行设计、导航以及评价 , 将模型用对象表示出来, 并且将各种基本模型静 态或动态地连接起来, 最终形成系统模型。人工智能一直是业界的难题, 人工智能在各个领域十分有用, 在虚拟世界也大有用武之 地, 良好的人工智能系统对减少乏味的人工劳动具有非常积极的作用。
( 1)
( 2)
( 3) 公式( 2) 中的 δ为一个无穷小量, 是为防止对 0 取对数而加入的, 公式( 3) 中的 median 为每帧帧向量的中位值。我们往往对语音 信号进行加窗后再进行分帧、特征提取等处理, 其中窗函数可采用方窗、哈明窗[5]。
方窗函数:
收稿日期: 2008- 04- 16
1704 电脑知识与技术
近几十年来, 通信技术、计算机的同步发展和相互促进成为世界上信息技术与产业飞速发展的主要特征。特别是网络技术的迅 速崛起与普及, 使得信息应用系统在深度和广度上发生了质的变化。虚拟现实主要依靠人机交互的发展, 目前技术上已初步解决人 脑数据的读取, 在不久的将来, 开发者将完全解决通过神经系统自动进入虚拟现实环境的“人脑— ——计算机接口”问题, 通过对人脑 提取和反馈神经信号使人完全融入“虚拟现实”世界。当然从技术角度, 我们应该对基于多用户虚拟环境进行必要的技术研究。因为 将来的 VR 技术将越来越重视人在其中的交互。虚拟现实充满活力、具有无限的应用前景的高新技术领域, 但仍然存在许多有待解 决与突破的问题。为了提高系统的交互性、逼真性和沉侵性 , 在新型传感和感知肌理、几何与建模新方法、高性能计算, 特别是高速 图形图像处理, 以及人工智能、心理学、社会学等方面都有许多具有挑战性的问题有待我们进一步解决。
一种基于改进谱熵的语音端点检测方法

combination of short time average magnitude.The simulation results show that this method has better robustness and
precision than conventional spectral entropy algorithm and average magnitude algorithm,which proves the effectiveness
Abstract In view of the problem that conventional spectral entropy speech endpoint detection algorithm’s detection effect is poor under the non-stationary noise,a new feature parameter-sub-band amplitude spectrum entropy was pro-
2 改 进 谱 熵
量小,在高信噪比环境下可以获得较好的检测效果,但对复 杂 背景噪声环境下的端点检测误判率升高[7]。2)基于语音 信 号 频 域 特 征 的 算 法 ,如 倒 谱 特 征 法[8]、谱 熵 法[9]和 频 带 方 差[10] 等。这些算法在纯净语音环境下可以取得良好的检测效果, 但 在 非 平 稳 噪 声 环 境 下 检 测 效 果 骤 降 ,尤 其 是 当 噪 声 与 语 音 信 号 频 域 分 布 类 似 时 ,这 些 算 法 甚 至 不 能 正 常 工 作 。 [11]
语音端点检测的目的是在一段信号流中快速区分出语音 提出了一种新的基于子带谱熵幅度积参数的语音端点检测方
语音端点检测比例法 -回复

语音端点检测比例法-回复什么是语音端点检测比例法?语音端点检测比例法是一种常用的语音处理技术,旨在识别连续音频中的语音和非语音部分,并确定语音起始和终止点。
在许多语音处理应用中,如语音识别、语音合成和语音增强等,准确确定语音的位置非常重要。
而语音端点检测比例法就是为了完成这项任务而设计的。
语音端点检测比例法的基本原理是通过对连续音频信号的能量变化进行分析,找出能量显著增加的区域,即语音开始的位置。
当信号内的相对能量大于某个阈值时,可以认为该区域为语音。
而当连续一段时间内的相对能量小于阈值时,可以认为语音结束。
一般来说,语音信号的能量变化较为平缓,而非语音信号(如静音、噪声等)的能量变化较小。
因此,通过设置合适的阈值,语音端点检测比例法可以有效地区分语音和非语音部分。
以下是语音端点检测比例法的一般步骤:1. 预处理:首先,对原始音频进行预处理,如去除噪声、滤波、标准化等。
这一步旨在提高语音信号的质量,使后续的分析更加准确。
2. 分帧:将预处理后的音频信号分成多个帧,通常每帧长度为20-30毫秒。
这样可以保证每个帧内的信号基本稳定,便于后续能量计算。
3. 能量计算:对每个帧内的信号进行能量计算,可以采用能量计算公式:E = ∑x(n) ^2,其中x(n)代表第n个样本点的振幅。
通过累加每个样本点的平方值,得到该帧的能量。
4. 确定阈值:根据经验或统计分析,确定能量阈值。
阈值的设置要综合考虑语音信号的特性以及实际应用的要求。
通常可以通过计算整个语音信号的能量平均值和标准差,以及考虑到信号的动态变化,适当设置一个合适的能量阈值。
5. 端点判断:对于每一帧的能量值,与阈值进行比较。
如果能量值大于阈值,可以认为该帧内含有语音;如果能量值小于阈值,可以认为该帧为非语音。
根据相邻帧的语音非语音情况,可以进一步确定语音的起始和终止点。
6. 后处理:对端点进行后处理,如去除短时静音区域、合并相邻的语音段等。
这一步旨在优化端点的准确性和平滑性,以提高后续语音处理算法的性能。
一种改进的含噪语音端点检测方法

一种改进的含噪语音端点检测方法汪鲁才;曹鹏霞;姜小龙【摘要】Speech endpoint detection is one of the important links of speech recognition system. In view of the question that the speech endpoint detection is difficult in noisy environment, this paper proposes a kind of speech endpoint detec-tion method based on improved Support Vector Machine(SVM). First, it extracts the feature vector of the noisy speech signal using the Wavelet Analysis(WA). Then, it gets the optimal parameters of the SVM kernel function γ and penalty factor C using the Genetic Algorithm(GA). Finally, it establishes speech endpoint detection model. Carried out the simu-lation experiments in the Matlab software platform, the results show that the average detection rate of GA-SVM is 94.5%under the condition of different noise. It is superior to the traditional double threshold algorithm and ordinary SVM algorithm.%语音端点检测是语音识别系统的重要环节之一。
《基于深度学习的语音端点检测》范文

《基于深度学习的语音端点检测》篇一一、引言随着人工智能技术的快速发展,语音识别、语音合成等技术在各个领域得到了广泛的应用。
而语音端点检测(Voice Activity Detection,VAD)作为语音处理技术中的重要一环,对于提高语音识别的准确率和效率具有重要作用。
传统的语音端点检测方法往往依赖于特定的特征和阈值,难以应对复杂多变的语音环境。
近年来,深度学习技术的发展为语音端点检测提供了新的思路和方法。
本文旨在探讨基于深度学习的语音端点检测技术,以提高其准确性和鲁棒性。
二、相关工作传统的语音端点检测方法主要基于能量、过零率等简单特征进行判断。
然而,这些方法在面对复杂多变的语音环境时,往往难以取得理想的检测效果。
近年来,随着深度学习技术的发展,越来越多的研究者开始尝试将深度学习技术应用于语音端点检测。
例如,利用循环神经网络(RNN)捕捉语音信号的时序信息,利用卷积神经网络(CNN)提取语音信号的频域特征等。
这些方法在一定程度上提高了语音端点检测的准确性和鲁棒性。
三、基于深度学习的语音端点检测本文提出一种基于深度学习的语音端点检测方法。
该方法采用卷积神经网络(CNN)和长短时记忆网络(LSTM)相结合的模型结构,以同时提取语音信号的频域和时序信息。
具体而言,首先利用CNN提取语音信号的频域特征,然后利用LSTM捕捉语音信号的时序信息。
在训练过程中,采用有监督学习方法,通过大量标注的语音数据训练模型,使其能够自动学习到有效的特征表示和分类器。
在模型训练过程中,我们采用了多种优化策略以提高模型的性能。
首先,通过数据增强技术扩充训练数据集,以提高模型的泛化能力。
其次,采用批量归一化(Batch Normalization)技术加速模型训练过程并提高模型稳定性。
最后,通过调整模型参数和结构,使得模型在保持较低的误检率的同时,能够有效地检测出语音信号的起始点和结束点。
四、实验结果与分析为了验证本文提出的基于深度学习的语音端点检测方法的性能,我们在公开数据集上进行了一系列实验。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时域和频域特征相融合的语音端点检测新方法刘欢;王骏;林其光;王士同【摘要】In order to improve the adaptability and robustness of speech activity detection,a novel algorithm for speech activity detection (SAD)is proposed based on the integration of time domain and frequency domain fea-tures.In the proposed method,threefeatures,i.e.harmonicity,clarity,periodicity are extracted and combined together with principal component analysis.The candidates of the endpoints are detected by double-threshold method.SVMis utilized to determine the final set of endpoints based on the candidates.Experimental results in-dicate that the proposed SAD method is effective and provides superior and consistent performance across various noise and distortion levels.%为了提高语音端点检测的适应性和鲁棒性,提出一种时域和频域特征相融合的语音端点检测新方法。
在对语音信号进行预处理的基础上,对每一帧分别提取调和性、清晰度和周期性这3个时域或频域特征,使用主成分分析进行特征融合,并采用双门限法得到语音端点的候选集合。
在此基础上通过支持向量机对候选集合中的端点进行判断得到最终结果。
仿真实验表明:相对于传统的语音端点检测算法、时域和频域特征相融合的语音端点检测新算法提高了语音端点检测的正确率,有效降低了误测率和漏检率,具有更好的适应性和鲁棒性,对不同噪声背景的信号都有较好的检测能力。
【期刊名称】《江苏科技大学学报(自然科学版)》【年(卷),期】2017(031)001【总页数】6页(P73-78)【关键词】特征融合;特征提取;支持向量机;语音端点检测;主成分分析【作者】刘欢;王骏;林其光;王士同【作者单位】江南大学数字媒体学院,无锡 214122;江南大学数字媒体学院,无锡 214122;无锡百互科技有限公司,无锡 214125;江南大学数字媒体学院,无锡214122【正文语种】中文【中图分类】TP183语音端点检测是语音智能信息处理研究的一个重要内容.尽管语音端点检测技术在安静环境中已经达到了令人鼓舞的准确率,但是在实际应用中噪声的干扰和环境的改变为语音端点检测引入了许多复杂因素,这向语音端点检测的研究工作提出了重大挑战[1].语音端点检测过程如图1,其技术路线可概括为在对原始语音信号进行预加重、分帧等预处理工作的基础上,通过对语音信号进行短时特性分析,得到用于语音端点检测的特征参数;使用合适的决策机制,得到最终的检测结果.传统的端点检测算法通常只依赖于一个特征.常用的特征有:短时平均过零率[2]、短时能量[2]、谱熵[3]、频带方差[4]、倒谱距离[4]等.研究表明,这些方法仅计算语音信号的一维特征,能够有效降低算法的复杂度;但是使用单一的语音特征使算法对各种噪声缺乏抵制力,在包含复杂背景噪声或低信噪比噪声等复杂情况下,算法不能取得理想的检测效果.近年来人们试图综合各语音特征的优点开发多特征融合[5]的语音端点检测技术,通过对多种特征进行融合,从而进行语音端点检测.文献[6]中提出利用多个特征进行端点检测,并采用分类和回归树CART综合各个特征进行决策,但是该方法基于短时能量,所采用的各特征之间存在较大的冗余性,在某些噪声条件下不能取得好的效果,此外CART涉及很高的时间复杂度;文献[7]中综合采用了短时能量、倒谱距离、能量谱方差和能量-熵等4个相互独立的特征,有效改进了传统的基于单一语音特征方法的缺陷;文献[2]中提出了一种基于短时能量、短时自相关和短时过零率等特征参量的语音端点检测算法,它针对汉语语音、非特定人,基于对噪声的学习,对白噪声、脉冲噪声、一般环境噪声都有很好的鲁棒性;文献[8]中通过对数能量与改进的Mel能量进行融合,获得了一种新的时频参数,并提出了一种基于时频参数融合的自适应语音端点检测算法.虽然上述方法能够在一般环境噪声下表现出较好的鲁棒性,但是在具有强噪声的环境下,语音端点检测往往存在着大量的误判,不利于后续的处理过程,同时在高噪声的环境下不能有效检测出语音信号段,造成了有效信息的丢失.在多特征融合的语音端点检测技术研究中,如何选择合适的特征进行有效的融合是至关重要的,这也是文中研究的重点.文中在总结现有的语音端点检测方法的基础上,提出了时域和频域特征相融合的语音端点检测新算法.通过提取语音信号中的调和性、清晰度以及周期性这3个新的特征,使用主成分分析[9](principal component analysis, PCA)对这3个特征进行融合,采用双门限判决得到语音端点的候选集合.在此基础上,通过使用支持向量机[10](support vector machine,SVM)对候选集合中的端点进行进一步判决,得到最终的判决结果.实验表明,上述步骤有效提高了复杂环境中语音端点检测的正确率.1.1 归一化自相关函数在提取时域特征的过程中,都使用了归一化自相关函数[11]进行计算,其计算方法如下:rxx(t,k)=∑N-1j=0x(j)w(j)x(j+k)w(j+k)∑N-1j=0w(j)w(j+k)式中:w(j)为窗函数;t为语音帧;k为延迟系数.与传统的自相关函数进行比较,文中使用的归一化自相关函数具有如下优点:首先,能够有效减弱延迟系数k=0时强共振对自相关函数峰值处的影响;其次,弥补了传统加窗自相关函数在延迟系数k值很大时会趋于0这一缺陷.1.2 特征向量提取文中所提出的时域和频域特征相融合的语音端点检测算法中,对语音信号进行特征提取并将这些特征进行有效融合是一个重要步骤,这有利于更有效地构建语音端点检测模型.文中所涉及的语音特征提取方法主要有两大类,一类是基于时域信号的特征提取方法,另一类是基于频域信号的特征提取方法.在提取这两类特征的基础上,使用PCA对其进行融合,在此基础上构造文中所提出的时域和频域特征相融合的语音端点检测模型.1.2.1 调和性特征调和性特征[11]是指在可控范围内的归一化自相关函数峰值的相对高度值.其计算方法如下:在同一周期内,周期信号的自相关性也呈现相同的周期性变化,并且它的最大值将接近于自相关函数k=0处的值.因此,对于具有周期特性的语音信号段,调和性特征值表现为较为尖锐的峰值.1.2.2 清晰度特征清晰度特征[11]是指在可控范围内平均幅度差函数(average magnitude difference function,AMDF)最小值处的相对深度值.其计算方法如下:式中:D(t,k)为平均幅度差函数.精确计算平均幅度差函数涉及很大的运算量.文中采用下式进行近似估算:D(t,k)≈β(k)·2[rxx(t,0)-rxx(t,k)]式中:β(k)为比例因子,取值范围为0.6~1.0;rxx(t,k)为归一化自相关函数.已有研究表明式(4)的取值对于该参数不敏感[11],本实验中β(k)=0.8.1.2.3 周期性特征在短时傅里叶变换域中,语音段的幅度谱能反映基频的谐波,这也是谐波乘积谱(harmonic product spectrum, HPS)[12]技术的基础.谐波乘积谱的数学表达形式如下:文中取R=8.周期性特征是指在可控范围内P(t,w)的峰值,其计算方法如下:该特征对于背景噪声具有很好的抗渗能力,该特征可以有效区分语音信号和非语音信号.文中将提取出来的调和性特征、清晰度特征以及周期性特征利用PCA方法进行融合,构成新型的复合特征,最终利用新特征构造语音端点检测模型.其构造过程如下:(1) 将原始语音数据进行分帧处理,得到语音数据序列F,n为语音数据的样本点个数.(2) 使用式(2)、(3)、(6)提取出语音数据F的调和性、清晰度以及周期性这3个特征,构成三维特征向量X∈R3.(3) 对X的每一列Xj,j=1,2,3,进行归一化,得到矩阵A=[A1,A2,A3],其中Aj计算方法如下:(4) 计算A的协方差矩阵C=cov(A),并计算矩阵C的最大特征值λmax和相应的特征向量V,即为最终所提取的复合特征向量.上述过程得到的复合特征向量V结合了调和性、清晰度以及周期性这3个特征的优良特性,能够更好地用于构建语音端点检测模型.基于复合特征,文中使用双门限判决来得到语音端点的候选集合.过程如下:首先为复合特征确定两个门限,一个是较低的门限数值T1,对信号的变化比较敏感,很容易超过;另一个是比较高的门限T2,数值较大.低门限被超过未必是语音的开始,有可能是噪声引起的;高门限被超过并且低门限被接下来的自定义时间段内的语音超过,意味着信号开始.可以将语音段分为4段:静音段、过渡段、语音段、结束.在处于静音段时,如果复合特征值超过低门限,就开始标记起始点,进入过渡段.在过渡段中,当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态.而如果过渡段中两个参数中的任一个超过高门限,即被认为进入语音段.处于语音段时,如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一段噪音,否则就继续扫描以后的特征数据,当其两个参数都降至门限以下且总计时长大于最短时间门限则标记语音结束端点,注明此处为一段语音,并重新进入静音段.双门限判决法中,门限值T1和T2的选取是影响算法性能的重要因素.为了减少不合理门限值对算法性能的影响,在双门限判决法得到的候选端点集合的基础上,通过支持向量机进行进一步判决.将上述3个特征组成三维特征向量,基于训练集提取语音段和非语音段,并构造分类器,对双门限判决法得到的有声段进行进一步的判断.如果该段中被判为语音的特征点多于非语音的特征点,则该段被判为语音段,否则为非语音段.综上所述,时域和频域特征相融合的语音端点检测算法步骤如下:(1) 对原始语音信号进行预处理,包括预加重和分帧两个步骤.(2) 对每一帧进行特征提取,根据式(2)、(3)、(6)得到语音信号的调和、清晰度以及周期性3种特征.(3) 对由以上3种特征向量构成的三维特征向量进行平滑处理.(4) 使用PCA方法将三维特征向量融合成一维复合特征向量.(5) 对融合后的特征向量采用双门限判决法得到语音端点的候选集合.(6) 对由双门限法得到的语音端点的候选集合中的端点使用SVM进行细分,得到最终的检测模型.5.1 数据来源可以直接用于语音起止点检测的通用语音库目前尚不多见.因此,使用CoolEditPro软件,采集9位男性和11位女性的纯净声音样本,每人读50个句子并以.wav的格式保存在计算机中.这些录音中包含了不同性别、年龄、音色、音量的语音.起止点处既有清音和浊音,又有辅音和元音;每个音频文件既包含单段语音,又包含多段语音.整个语音库共计2 200个端点.录音时采样率为16 000 Hz、16 bit量化.在此基础上,使用CoolEditPro软件作为辅助工具,对纯净语音样本的起点和终点进行手工标识,作为语音检测的标准.为了得到带噪声的语音,在Matlab平台上,对预处理后的语音信号人工加入高斯白噪声,信噪比(SNR)分别为10、20 dB.取其中5位男性和5位女性的录音,加上不同信噪比的白噪声,作为训练样本对SVM进行训练;其他人的录音作为测试样本.纯净语音样本波形如图2.5.2 实验结果分析为了更好地对时域和频域特征相融合的语音端点检测算法性能进行分析,将文中算法与谱熵法、MFCC倒谱距离法[13]和能零比法[14]在如表1所示的实验平台中进行对比实验.性能指标包括语音端点的误测率和漏测率两个方面.语音端点的误测率是指把非端点错判成端点的概率,其计算方法如式(8),而语音端点的漏测率是指没有把真正的端点检测出来的概率,其计算方法如式(9).其中:c为误测的语音端点个数;m为漏测的语音端点个数;N为语音端点总数.如果语音端点发生在时间点t,而且如果所算出的端点在t±0.5 s间,那么端点检测算法是正确的.实验中,由于门限值T1和T2的选取是影响算法性能的重要因素,因此对于MFCC倒谱距离法和能零比法中的T1和T2,实验中将其值在[1.0,2.0]之间进行参数寻优,同时满足T1>T2,对于谱熵法,则将其值在[2.5,3.5]之间进行参数寻优,同时满足T1<T2.各算法的检测结果如表2.从表2的结果可知:在无噪声环境下,文中算法、谱熵法以及MFCC倒谱距离法都具有良好的检测性能,而在加入噪声的环境下,文中算法的误测率和漏检率都将低于谱熵法和MFCC倒谱距离法.而能零比法的误测率却远高于以上3种算法,已经超出实际运用中的合理范围.同时随着噪声的增强,文中算法、谱熵法以及MFCC倒谱距离法的性能会有所下降,但是文中算法的误测率和漏检率仍然明显低于谱熵法和MFCC倒谱距离法.虽然此时能零比法的误测率有所降低,但还是无法达到实际应用的水平.因此,文中算法在不同信噪比环境下检测语音端点更具有优势.为了进一步验证文中算法性能的稳定性,实验中,对一段相同的语音分别加入信噪比SNR=10 dB和SNR=20 dB的噪声,同时让各算法对该语音进行采样,提取语音的复合特征,比较文中算法、谱熵法、MFCC倒谱距离法以及能零比法在不同信噪比以及无噪声环境下中的算法性能的稳定性.图3,4,5分别给出各算法在不同信噪比以及无噪声环境下各算法所提取的特征波形.从图3,4,5的实验结果中不难发现,随着信噪比的变化,谱熵法和能零比法的算法性能虽然总体上趋于稳定,但是在特定语音段算法的性能波动较大,而MFCC倒谱距离法的算法性能都有明显波动.对于文中算法,即使语音的信噪比发生变化,该算法的性能也能趋于稳定.由此可见,文中算法对噪声的鲁棒性更强.其原因在于:① 利用PCA对提取的3种时域和频域特征进行特征融合,能够及时过滤冗余信息,同时很好地综合了3种时域和频域特征的优良特性,有效克服了单一特征抗噪性差和区分性差的缺点,提高语音检测的准确度;② 对融合后的特征采用双门限判决和SVM 相结合的方法对语音段和非语音段进一步进行检测,使得语音检测结果更加精确、稳定.综上所述,文中算法在不同信噪比的环境下均能表现出更强的抗噪性以及适应性,采用文中算法来检测语音端点能够取得令人满意的结果.在噪声干扰不大的情况下,传统语音端点检测算法可以正常工作,但是当信噪比较小时,其语音识别准确率将会出现明显变化.文中将基于PCA的多特征融合技术应用于语音端点检测中,并使用双门限判决和SVM相结合的方法得到端点集合.在不同的噪声环境下,对算法性能进行仿真测试,结果表明,相对于传统检测算法,文中算法准确率高,抗噪性好,有效提高了语音端点检测系统的稳定性,适用于解决语音端点检测的实际应用问题.*通信作者:王骏(1978—),男,博士,教授,研究方向为模式识别与智能计算.E-mail:************************【相关文献】[1] 朱恒军, 于泓博, 王发智. 小波分析和支持向量机相融合的语音端点检测算法[J]. 计算机科学, 2012, 39(6): 244-246. ZHU Hengjun, YU Hongbo, WANG Fazhi. Speech endpoints detection algorithm based on support vector machine and wavelet analysis[J]. Computer Science, 2012, 39(6):244-246. (in Chinese)[2] 郑中华. 噪音环境下汉语连续数字识别与研究[D]. 合肥:合肥工业大学, 2013:1-62.[3] 李荣荣, 胡昌奎, 余娟. 基于谱熵的语音端点检测算法改进研究[J]. 武汉理工大学学报, 2013,35(7):134-139. LI Rongrong, HU Changkui, YU Juan. Research of speech endpoint detection based on spectral entropy algorithm[J]. Journal of Wuhan University of Technology, 2013, 35(7):134-139. (in Chinese)[4] 何俊红, 王彪. 基于倒谱距离-频带方差的端点检测方法[J]. 计算机与数字工程, 2014,42(11):2014-2016. HE Junhong, WANG Biao. Endpoint detection method based on cepstrum distance-frequency band variance[J]. Computer & Digital Engineering, 2014,42(11):2014-2016. (in Chinese)[5] 王坤峰, 李镇江, 汤淑明. 基于多特征融合的视频交通数据采集方法[J]. 自动化学报, 2011,37(3):322-330. WANG Kunfeng, LI Zhenjiang, TANG Shuming. Visual traffic data collection approach based on multi-features fusion[J]. Acta Automatica Sinica, 2011, 37(3):322-330. (in Chinese)[6] SHIN W H, LEE B S, LEE Y K, et al. Speech/non-speech classification using multiple features fo r robust endpoint detection[C]∥International Conference on Acoustics. [S.l.]: IEEE, 2000:1399-1402.[7] 徐大为, 吴边, 赵建伟, 等. 一种噪声环境下的实时语音端点检测算法[J]. 计算机工程与应用, 2003, 39(1): 115-117. XU Dawei, WU Bian, ZHAO Jianwei, et al. A robust algorithm for real-time endpoint detection in noisy environments[J]. Computer Engineering and Applications, 2003, 39(1): 115-117. (in Chinese)[8] 王晓华, 屈雷. 基于时频参数融合的自适应语音端点检测算法[J]. 计算机工程与应用, 2015,51(20):203-207. WANG Xiaohua, QU Lei. Self-adaptive voice activity detection algorithm based on fusion of time-frequency parameter[J]. Computer Engineering and Applications, 2015, 51(20):203-207. (in Chinese)[9] BRO R, SMILDE A K. Principal component analysis[J]. Analytical Methods, 2014, 6(9): 2812-2831.[10] PAN Yixiong, SHEN Peipei, SHEN Liping. Speech emotion recognition using support vector machine[J]. International Journal of Smart Home, 2012, 6(2): 101-107.[11] SADJADI S O, HANSEN J H L. Unsupervised speech activity detection using voicing measures and perceptual spectral flux[J]. IEEE Signal Processing Letters, 2013, 20(3): 197-200.[12] SRIPRIYA N, NAGARAJAN T. Pitch estimation using harmonic product spectrum derived from DCT[C]∥Tencon IEEE Region 10 Conference.[S.l.]: IEEE, 2013:1-4.[13] 王宏志, 徐玉超, 李美静. 基于Mel频率倒谱参数相似度的语音端点检测算法[J]. 吉林大学学报(工学版), 2012, 42(5):1331-1335. WANG Hongzhi, XU Yuchao, LI Meijing. Voice activity detection algorithm based on Mel frequency cepstrum coefficient(MFCC) similarity[J]. Journal of Jilin University(Engineering and Technology Edition), 2012, 42(5):1331-1335. (in Chinese)[14] 宋知用. Matlab在语音信号分析与合成中的应用[M]. 北京:北京航空航天大学出版社, 2013:1-378.。