基于统计模型及SVM的低速率语音编码QIM隐写检测

合集下载

基于线性预测语音编码的信息隐藏及隐藏信息提取方法[发明专利]

基于线性预测语音编码的信息隐藏及隐藏信息提取方法[发明专利]

专利名称:基于线性预测语音编码的信息隐藏及隐藏信息提取方法
专利类型:发明专利
发明人:刘鹏,李松斌
申请号:CN201910953485.9
申请日:20191009
公开号:CN110689897A
公开日:
20200114
专利内容由知识产权出版社提供
摘要:本发明公开了基于线性预测语音编码的信息隐藏及隐藏信息提取方法,所述信息隐藏方法包括:根据嵌入率、密钥Key及随机位置选择算法,确定低速率压缩语音流中的待嵌入帧的位置;根据所述待嵌入帧的位置获取待嵌入帧,对所述待嵌入帧进行编码,得到所述待嵌入帧的索引点M,并依据预先建立的索引点集合I中的索引点分组结果,确定所述索引点M所属的分组;按预设长度读取秘密信息,得到待被嵌入的单元U;判断所述索引点M是否属于所述单元U对应的分组,若是,则不对所述索引点M进行替换,否则,获取所述单元U对应的分组中索引点M的最近投影点,替换索引点M,完成所述单元U的嵌入;对嵌入秘密信息的低速率压缩语音流进行编码得到目标压缩语音流。

申请人:中国科学院声学研究所南海研究站
地址:570105 海南省海口市龙华区滨海大道63号
国籍:CN
代理机构:北京方安思达知识产权代理有限公司
更多信息请下载全文后查看。

基于基音周期预测的低速率语音隐写

基于基音周期预测的低速率语音隐写

基于基音周期预测的低速率语音隐写
严书凡;汤光明;孙怡峰
【期刊名称】《计算机应用研究》
【年(卷),期】2015(32)6
【摘要】为了在保证语音通信实时性和一定隐藏容量的同时降低隐写失真以达到较好的不可感知性,提出了一种以低速率语音为载体的双层隐写算法.通过限制语音子帧基音周期值的搜索集合,实现了第一层隐写;利用搜索集合内基音周期取值的任意性,实现了第二层隐写.双层嵌入过程中,以最小化修改幅度为原则决定基音周期的取值,降低了隐写失真.实验结果表明,算法在实时性方面性能优越,并可较好地抵抗隐写分析算法的检测,在嵌入率达到100 bps时仍保持了良好的语音听觉质量.
【总页数】4页(P1774-1777)
【作者】严书凡;汤光明;孙怡峰
【作者单位】解放军信息工程大学,郑州450001;解放军信息工程大学,郑州450001;解放军信息工程大学,郑州450001
【正文语种】中文
【中图分类】TP309.2
【相关文献】
1.一种基于线性预测与自相关函数法的语音基音周期检测新算法 [J], 柏静;韦岗
2.一种适用于低速率语音编码系统的基音周期量化算法 [J], 朱文育;郭莉;王炳锡
3.基于统计模型及SVM的低速率语音编码QIM隐写检测 [J], 李松斌;黄永峰;卢
记仓
4.一种低速率压缩语音通用隐写分析方法 [J], 李松斌; 刘鹏; 杨洁; 晏黔东
5.一种低速率压缩语音通用隐写分析方法 [J], 李松斌; 刘鹏; 杨洁; 晏黔东
因版权原因,仅展示原文概要,查看原文内容请购买。

一种低速率压缩语音通用隐写分析方法

一种低速率压缩语音通用隐写分析方法

第8卷第6期2019毎11月Vol. 8 No. 6Nov. 2019网络新媒体技术一种低速率压缩语音通用隐写分析方法**本文于2018 -08 -08收到,2018 -08 -21收到修改稿。

*海南省重大科技计划项目(编号:ZDKJ201807),国家自然科学基金(编号:U1636113),海南省自然科学基金(编号:618QN309),中国科学院 声学研究所青年英才计划项目(编号:QNYC201829.QNYC201747),中国科学院声学研究所南海研究站资助科研基金项目。

李松斌刘鹏杨洁晏黔东(中国科学院声学研究所南海研究站海口 570105中国科学院声学研究所国家网络新媒体工程技术研究中心北京100190)摘要:合成分析线性预测编码(AbS - LPC)广泛应用于多种低速率语音编码中,现有的AbS - LPC 低速率压缩语音隐写检测方 法针对特定类型的隐写方法而设计,泛化能力较弱。

为此,本文提出了一种面向多类低速率压缩语音隐写的通用信息隐藏检 测方法。

由于AbS - LPC 低速率压缩语音码流中的码元存在时空关联性,且所有AbS - LPC 低速率压缩语音隐写方法本质上 都是改变码元取值。

因此,从码元的角度出发,基于贝叶斯推理实现多类低速率压缩语音隐写的通用隐写检测。

实验结果证 明本文方法具有很好的通用隐写检测效果。

关键词:AbS-LPC,压缩语音,信息隐藏,隐写分析,贝叶斯网络A Common Steganalysis Method for Steganography inLow - bit 一 rate SpeechLI Songbin , LIU Peng , YANG Jie , YAN Qiandong(Haikou Laboratory , Institute of Acoustics , Chinese Academy of Sciences , Haikou , 570105 , China,National Network New Media Research Center, Institute of Acoustics, Chinese Academy of Sciences, Beijing, 100190, China)Abstract : Analysis by Synthesis - Linear Predictive Coding ( AbS - LPC ) is widely used in many low - bit - rate speech codecs. The existing steganalysis methods are lack of generalization ability , because they are designed for a specific type of AbS - LPC low — bit - rate compressed speech steganography. In this paper , a common steganalysis method for steganography in low - bit - rate speech is pro ­posed. The code elements in AbS - LPC low - bit - rate compressed speech steam exist spatiotemporal correlation , and the steganogra ­phy will ultimately change the values of these code elements. Therefore , from the perspective of code elements , this paper proposes a common steganalysis method based on Bayesian inference. The experimental results demonstrate that the proposed method can achieve good performance.Keywords : AbS - LPC, compressed speech , information hiding , steganalysis , Bayesian network0引言目前,绝大多数低速率语音编码器都是基于合成分析线性预测编码(analysis by synthesis - linear predic ­tive coding,AbS-LPC)模型的。

基于贝叶斯网络的压缩语音信息隐藏检测

基于贝叶斯网络的压缩语音信息隐藏检测

基于贝叶斯网络的压缩语音信息隐藏检测杨洁;李松斌;邓浩江【期刊名称】《计算机应用》【年(卷),期】2018(038)007【摘要】压缩语音量化索引调制(QIM)信息隐藏方法中,最近邻投影点QIM(NPP-QIM)方法具有较高的嵌入效率和隐蔽性.针对现有的隐写分析方法对NPP-QIM方法检测准确率不高的问题,提出了一种基于贝叶斯推理的检测方法以提高检测准确率.首先,利用矢量量化(VQ)码字(VQ1、VQ2、VQ3)构建了码字时空转移网络(CSTN);接着,以码字转移指数对CSTN进行化简得到隐写敏感码字时空转移网络(SS-CSTN);然后,基于SS-CSTN进一步构建了码字贝叶斯网络(CBN);最后,使用Dirichlet分布作为先验分布学习网络参数,实现对QIM信息隐藏的检测.实验结果表明,在嵌入率为100%、时长为10 s时,与索引分布特征(IDC)方法和梅尔频率倒频系数(DMFCC)方法相比,提出CBN方法的检测准确率分别提高了25个百分点和37个百分点;在时间性能方法,检测一段10 s的语音时间约为21 ms,能够实时检测.【总页数】7页(P1967-1973)【作者】杨洁;李松斌;邓浩江【作者单位】中国科学院声学研究所,北京100190;中国科学院大学电子电气与通信工程学院,北京100049;中国科学院声学研究所,北京100190;中国科学院大学电子电气与通信工程学院,北京100049;中国科学院声学研究所,北京100190;中国科学院大学电子电气与通信工程学院,北京100049【正文语种】中文【中图分类】TP309.2【相关文献】1.基于语音压缩感知观测序列语音能量估计及端点检测方法 [J], 王文娟2.在压缩语音编码中集成信息隐藏方法研究 [J],3.对G.723.1高码率编码语音中进行压缩域信息隐藏的性能分析 [J], 游鹏;季晓勇;卢鹏4.AbS-LPC低速率压缩语音信息隐藏技术综述 [J], 杨洁; 邓浩江; 李松斌5.AbS-LPC低速率压缩语音信息隐藏技术综述 [J], 杨洁;邓浩江;李松斌因版权原因,仅展示原文概要,查看原文内容请购买。

基于深度学习的量化索引调制语音信息隐藏检测方法

基于深度学习的量化索引调制语音信息隐藏检测方法

基于深度学习的量化索引调制语音信息隐藏检测方法作者:张豪杨洁来源:《电脑知识与技术》2024年第18期关键词:隐写分析;信息隐藏;压缩语音;深度学习中图分类号:TP311 文献标识码:A文章编号:1009-3044(2024)18-0073-030 引言隐写术,是一种将秘密信息隐藏在网络传输介质中进行隐蔽通信的技术。

随着网络流媒体的不断发展,网络压缩语音受到越来越多的青睐,已成为信息隐藏的极佳载体[1]。

量化索引调制(QIM)作为一种典型的网络压缩语音信息隐藏方法,由于其高隐蔽性,为一些不法分子提供了可乘之机。

网络压缩语音流中的QIM信息隐藏主要是运用语音信号在线性预测编码(LPC)过程中嵌入秘密信息。

Xiao等人[2]基于图论提出一种称为互补邻居节点QIM(CNV-QIM)码本划分方法,不同的码本对应信息隐藏方法,该方法通过分割QIM码本,秘密信息则将会隐藏在线谱频谱系数码字中;Tian等人[3]提出了一种称作安全 QIM的信息隐藏方法,结合矩阵编码提高嵌入效率和抗检测能力;Liu等人[4]将 LPC 量化索引集合视为三维空间中的点,并基于最近邻投影点替换QIM方法进行信息嵌入。

为了检测网络压缩语音流中的QIM信息隐藏,Li 等人先后提出了基于矢量量化索引分布特征[5]和基于量化码字关联网络[6]两种特征提取方法,利用SVM训练隐写检测分类器实现QIM隐写分析;文献[7]提出了基于贝叶斯网络的压缩语音信息隐藏检测方法,通过构建码字贝叶斯网络,使用Dirichlet分布学习网络参数,实现对 QIM 信息隐藏的有效检测。

近年来,随着深度学习(DL)的不断发展,出现了一些基于DL的QIM语音信息隐藏检测方法,其效果优于传统方法[8]。

文献[9]提出了一种循环神经网络隐写分析模型(RNN-SM),首次将长短时记忆网络(LSTM)结构用于构建码字关联模型。

文献[10]基于DL构建了隐写特征融合网络(SFFN),该网络相较于RNN_SM在检测语音流中的QIM信息上有更好的提升效果。

一种甚低码率声码器的设计

一种甚低码率声码器的设计

一种甚低码率声码器的设计李强;张玲;朱兰;明艳【期刊名称】《重庆邮电大学学报(自然科学版)》【年(卷),期】2018(030)006【摘要】在混合激励线性预测(mixed excitation linear prediction,MELP)模型的基础上,以超帧为单位,采用多帧联合编码技术,分模式对子帧的语音特征参数进行联合量化,实现了一种码率为600 bit/s的声码器.为了进一步减小量化误差,设计出了一种基于高斯混合模型的预测分类分裂矢量量化器(predictive switched split vector quantiza-tion based on Gauss mixture model,GMM-PSSVQ),该量化器对超帧中某些子帧的线谱频率进行量化,并利用帧间预测和线性插值等方法提高编码效率.采用谱失真对设计的矢量量化器进行性能评估,并分别与多级矢量量化和预测分裂矢量量化算法进行性能比较;通过客观感知语音质量评估和主观判断韵字测试对实现的声码器进行性能测试.测试结果表明,设计的矢量量化器平均谱失真最低,实现的声码器合成语音具有较高的清晰度和可懂度.【总页数】7页(P776-782)【作者】李强;张玲;朱兰;明艳【作者单位】重庆邮电大学信号与信息处理重庆市重点实验室,重庆400065;重庆邮电大学信号与信息处理重庆市重点实验室,重庆400065;重庆邮电大学信号与信息处理重庆市重点实验室,重庆400065;重庆邮电大学信号与信息处理重庆市重点实验室,重庆400065【正文语种】中文【中图分类】TP919.81;TP39【相关文献】1.甚低码率网络数字视频服务器的设计 [J], 程德强;钱建生;黄书慧2.一种基于Q4401声码器的基带信号处理器的设计与实现 [J], 傅世友3.一种600b/s甚低速率声码器的研究 [J], 陈亮;张雄伟4.一种低码率声码器系统的设计及实现 [J], 刘嘉勇;方勇;朱立东;葛艳5.一种低码率声码器的算法研究及DSP实现 [J], 朱立东因版权原因,仅展示原文概要,查看原文内容请购买。

基于语音编码中自适应码本的隐藏信息方法

基于语音编码中自适应码本的隐藏信息方法杨婉霞;孙东红;黄永峰【期刊名称】《计算机工程与设计》【年(卷),期】2013(34)8【摘要】为了解决低速率语音编码的信息隐藏问题,选择了目前广泛使用的低速率语音编码(iLBC)为研究对象,提出了一种在语音编码过程中嵌入机密信息的方法,设计了一种基于iLBC语音编码的动态码本量化过程的信息隐藏算法.该方法利用低速率语音编码中自适应码本的动态构建特点,并结合QIM原理来实现信息隐藏,较传统基于静态码本的QIM方法具有更好的对抗统计分析检测能力,同时具有较好的隐蔽容量.实验结果表明该隐藏算法在13.3Kbps的载体速率下能获得450bpS隐藏容量,而且载密信息的语音质量的PESQ值下降不到7%,具有很好的隐蔽性能.%In order to solve information hiding problem in low bit rate speech coding,taking the low bit rate speech coding as the steganographic carrier and the widely used iLBC as the research subject,a kind of information hiding method is proposed by which confidential information is embedded within the speech cooing process,and then a steganographic algorithm is designed which is based on the quantization process of the dynamic codebook of iLBC speech rmation hiding is initiatively achieved via QIM axiom by utilizing the property of dynamic composing of the self-adaptive codebooks of the low bit rate speech coding.Tests show that the method is of higher deficiency concerning the anti-testing of statistical analysis and has a better performance in imperceptibility compared withthe traditional QIM method which is based on static codebook.According to the relative experiments,up to 450 bps steganographic capacity is achieved within 13.3 Kbps carrier rate while the loss of PESQ value of speech quality with steganographic information is less than 7%,which shows a superb performance of imperceptibility.【总页数】6页(P2656-2661)【作者】杨婉霞;孙东红;黄永峰【作者单位】甘肃农业大学工学院,甘肃兰州730070;清华大学信息科学技术学院,北京100084;清华大学信息科学技术学院,北京100084;清华大学信息科学技术学院,北京100084【正文语种】中文【中图分类】TP391.4【相关文献】1.基于半波编码的语音码本的设计 [J], 陈建良;吕小红;和应民2.基于双码本搜索的低延迟语音编码算法 [J], 裴元生3.基于半波编码的语音码本的设计 [J], 陈建良;和应民4.8Kb/s脉冲自适应码本激励(PACELP)——一种新的数字移动通信用语音编码方 [J], 刘志勇5.基于二级码本的迫零波束成型自适应预编码方案 [J], 张志禹;李敏因版权原因,仅展示原文概要,查看原文内容请购买。

基于SVM的语音特征提取及识别模型研究

基于SVM的语音特征提取及识别模型研究吴皓莹;程晶;范凯【摘要】针对非特定文本的说话人识别,研究了特征提取方法及SVM核函数和参数选取对识别结果的影响,分析了现有的语音特征提取算法及各自的优缺点,以及不同核函数、核参数及惩罚参数对识别性能的影响。

采用改进的网格寻优方法,进一步提高语音信息的识别时间。

%The paper chose a fold that a non-specific text speaker identification .The paper focused on feature extraction methods and SVM kernel function and parameter selection on the identification re-sults ,focusing on analysis of the existing voice feature extraction algorithms ,their advantages and disadvantages ,different kernel function ,kernel parameters and penalty parameters on the recognition performance .Grid search method is introduced in order to improve the recognition time .【期刊名称】《武汉理工大学学报(交通科学与工程版)》【年(卷),期】2014(000)002【总页数】4页(P316-319)【关键词】支持向量机(SVM);特征参数;核函数;识别模型;网格寻优算法【作者】吴皓莹;程晶;范凯【作者单位】武汉理工大学信息工程学院武汉 430070;武汉理工大学信息工程学院武汉 430070;湖北工业大学信息技术中心2 武汉 430068【正文语种】中文【中图分类】TN912.340 引言语音识别技术广泛应用于信息论、人工智能、数字信号处理、语言声学、模式识别、生物学、心理学和认知科学等学科.其中语音特征提取是语音识别的关键技术,研究特征提取对提高语音识别系统的识别率的正确率起着十分关键的作用,特征提取的目的是为了找出反映语音本质特征的参数,其基本思想是对经过预处理后的语音信号,提取出具有代表意义且稳定可靠的参数序列,滤除无关的冗余信息,为后面的训练和预测提供数据,从而提高识别的精度和系统的性能.另外支持向量机是建立在统计学习理论的结构风险最小化原理基础上,比起传统的分类器,它可以很好地解决模型选择与过学习问题,解决小样本、非线性和高维数以及局部极小点等问题[1-4].本文以智能推车系统中人机交互和智能控制的应用为背景,主要研究了语音信息的不同特征参数组合,支持向量机(SVM)中的不同模型的选取对语音识别率的影响,从而提高智能推车的人机交互性能.基于SVM的语音识别系统的整体框图见图1.图1 语音识别整体框图1 特征参数1.1 线性预测倒谱系数(linear predictive cepstrum coefficient,LPCC)线性预测分析是在语音产生的数字模型基础上建立的,其基本思想是:每个语音信号采样值都可以用若干个它过去的取样值的加权线性组合来逼近.各加权系数应使实际语音采样值与线性预测采样值之间的差值的平方和达到最小,即进行最小均方误差的逼近[5].在线性组合中的加权系数称为预测器系数,即线性预测系数LPC.式中:x(n)为实际采样值;s(n)为实际采样值与线性预测值之间的差值;ai 为加权系数,即LPC参数.在使式(1)最小的条件下求解ai.14阶的线性预测信号语言信号的对比见图2,图中横轴为1帧信号(30ms)的不同采样点(采样频率为8kHz,采样点数为240个).图2 原始信号波形与预测信号波形对比由LPC推导LPCC,其中clpcc(n)为第n个LPCC系数;clpc(n)为第n个LPC系数.使用线性预测倒谱可以提升参数的稳定性,主要反映声道响应,计算量小,易于实现,但由于LPCC参数是通过线性逼近得到的,只是反映了说话人的声道特征而没有充分利用人耳的听觉特性因此并不能很好的反映出人耳听觉特性.1.2 Mel频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)梅尔频率倒谱系数是将人耳的听觉感知特性和语音产生相结合的一种特征参数,实际上人耳听到的声音的高低与声音的频率并不是成线性正比关系的.实验表明:在频率为1kHz以下时Mel与频率成线性关系,高于1kHz时,Mel与频率成对数关系.因此符合人的听觉系统的频率刻度划分应该在低频部分具有较高的频率分辨率,而在高频部分具有较低的频率分辨率.Mel频率与实际频率的具体转换关系式为MFCC特征在静态条件下能取得较高识别率,为了更好地消除语音帧之间的相关性,更好地逼近语音动态特征,提高语音识别率,在特征参数中引入动态参数.语音的信息大多集中在低频部分,外界环境噪声很容易干扰高频部分.梅尔倒谱参数将线性频率转化为非线性的Mel下的频率,突出要识别的信息,强调语音的低频信息,能够有效的屏蔽噪声的干扰.MFCC充分考虑了人耳的听觉特性,因此具有良好的识别性能和抗噪能力[6-7].2 支持向量机模型选取及参数优化在SVM中,核函数选择、核参数选择、惩罚参数的选择统称为模型选择.SVM学习性能的好坏与核函数类型及其参数选择有着直接的关系,选择恰当的SVM模型可以获得更好的分类性能和泛化能力(推广能力).核函数类型及核参数确定了映射空间的数据分布.核参数的变化会改变样本特征子空间分布的复杂程度.对于使用不同的核函数类型及核参数得到的子空间中数据分布不同,其经验风险随VC维的变化不同,将导致在不同子空间得到的最优SVM不同,因此需要对SVM核参数和误差惩罚参数同时进行优化.即除了在同一子空间中优化惩罚参数c以获得最优SVM外,还要优化核参数以获得全局最优SVM模型.目前,对SVM的参数进行优化并没有公认的最好的方法[8].现在使用较普遍的是网格搜索法.网格搜索法是一种最基本的参数优化算法.其基本过程是在一定的空间范围内按照规定的步长对待搜索的参数进行划分网格,然后遍历网格内所有点取值,并将每次取出的参数组带入系统中验证其性能,最终取出使系统性能达到最优的参数组作为最优参数组.这种方法的缺点是当网格范围大且步长小时寻优过程需要很长时间,但其他方法操作复杂且易陷入局部最优[9].3 仿真实验3.1 实验语音库的建立本文所采用的语音都是在实验室环境下通过个人电脑声卡录制的.录取了12个人的语音,6个男生,6个女生,每个人录两段语音样本,每段40~60s,一段用于训练,一段用于测试.然后对训练和测试语音做预处理工作.预加重过程采用的传递函数为:H (z)=1-μz-1,预加重系数μ=0.9375.分帧加窗过程:帧长取240个采样点(30ms),帧移取80个采样点(10ms),加hamming窗.最后采用过零率和短时能量两者配合采用双门限的方法进行端点检测.3.2 实验方案与结果分析经预处理后的语音信号,本文提取不同的特征参数.为研究不同的语音特征参数及特征参数的不同处理对语音识别效果的影响,采用支持向量机算法分别实验数据分类,分析实验分类结果.1)语音识别中特征参数的对比实验不同阶数LPCC和MFCC在语音识别中的识别率及所需时间.取LPCC和MFCC阶数分别为12~16,利用SVM算法进行说话人识别,数据采集及分类过程所用时间见表1.表1 不同维数MFCC和LPCC特征的识别率及时间特征维数阶数12 13 14 15 16 MFCC时间/s 16.65 16.73 16.84 16.93 17.01 LPCC 时间/s 25.16 25.26 25.40 25.57 25.87 MFCC识别率/% 76.3 77.5 78.6 81.5 83.2 LPCC识别率/% 71.5 72.4 74.3 75.2 76.5通过表1对比可以看出,相同维数下基于人耳听觉的MFCC比基于声道模型的LPCC的识别效果好,且整个训练测试过程所需时间更短.纵向对比可看出,一定范围内随着维数的上升,说话人识别率有所增大,所花费的时间相差不大.但总体时间上随维数的增大所花的时间增大,增加特征维数能有效提高识别性能.然而特征维数的增加,意味着需要更多的模型参数来描述说话人的特征分布,从而加大了时空复杂度.一般情况下,取维数为16.2)针对不同特征组合在语音识别中的识别率分析不同特征组合下,说话人的识别率.取MFCC和LPCC特征维数为16,分别取MFCC+ΔMFCC,LPCC+ΔLPCC,MFCC+ΔMFCC+E,LPCC+ΔLPCC+E,MFCC+ΔMFCC+LPCC+ΔLPCC+E 5种特征组合,实验结果见表2.表2 不同特征组合下的识别结果识别结果 MFCC+ΔMFCC LPCC+ΔLPCC MFCC +ΔMFCC+E LPCC+ΔLPCC+E MFCC+ΔMFCC+LPCC+ΔLP CC+E识别率/%86.59 80.57 87.83 82.09 88.12时间/ms 21.44 42.51 22.51 42.9287.82对比表1~2可看出,加上对应动态特征后的MFCC+ΔMFCC和LPCC+ΔLPCC比只反应语音帧内信息的静态特征MFCC和LPCC的识别效果好,再加上短时能量E,识别效果又有所增加.MFCC+ΔMFCC+LPCC+ΔLPCC+E的识别效果最好,但由于其选择的特征量多,计算量大,训练测试所需的时间长.针对说话人识别,MFCC+ΔMFCC+E能取得较好的识别效果且识别所需时间短.3)语音识别中不同SVM核函数的仿真实验在SVM语音识别系统中,采用不同的核函数会直接影响SVM 的分类能力.使用MFCC+ΔMFCC+E特征参数,选取不同核函数,实验结果见表3.表3 不同SVM核函数下的识别率和所用时间识别结果线性核函数二阶多项式RBF 核函数Sigmoid核函数正确率/% 76.40 85.78 87.83 50.41时间/ms 13.68 14.71 22.14 26.82观察表3可以看出,使用不同的核函数SVM分类的效果不同,所需的时间也不同.对比可以看出,RBF核函数(径向基)的分类效果最好,最适用于语音识别.对比所花费时间可看出,线性核函数所需时间最短,sigmoid核函数所需时间最长且识别效果最差,即核函数越简单建模测试所需时间越短.4)语音识别中不同SVM参数的仿真实验为进一步提高识别率,本文对核参数(RBF核函数对应gamma参数g)和惩罚参数C对识别率的影响做了对比实验,实验结果见表4.表4 同一核函数不同参数下的识别率组别(C,g)说话人识别率/%第一组(2,0.25)83.70第二组(2,0.5)85.23第三组(2,0.0125)78.48第四组(2,0.0625) 80.37第五组(4,0.5) 85.74第六组(8,0.5) 87.32第七组(16,0.25)85.75观察表4的实验结果可以看出,语音识别中使用相同的核函数不同的参数SVM分类的效果不同.表中说话人识别率最大相差了9.1%,可见选取合适的参数进行SVM训练对识别结果来说具有重要的意义.5)改进网格算法的仿真实验由上述实验可知使用SVM算法时,能选取合适的参数,对识别率有很大的提升.而3中介绍的网络搜寻法,由于数据多,寻找范围大,耗时长.作为网格搜索法的一种改进,可以设定:首先用一个步长为4的(C,g)组合,得到学习精度最高的C和g的值.然后在这2个值旁的一定范围内进行一次更细致的网格搜索.采用K 折交叉验证(K-fold CV)对系统性能进行测试(一般取K=5).具体过程:将原始数据分成K份,每次测试时都采用其中K-1组数据作为训练集,另外的一组数据作为测试集,共进行K(K>=2)次测试,最后将这K 次测试得到的结果求平均值作为判断此分类器性能的指标.K-CV 可以十分有效地解决欠学习和过学习问题,同时也使得测试结果更具有说服性.本文对于所有学习精度的估计,均采用K=5.C取2-6~26,g取2-5~25,对测试集和训练集分别用改进前后算法寻优所花时间见表5.表5 改进前后寻优所需时间 ms寻优算法训练集(4197×33)测试集(951×33)改进前9 233.45 438.89改进后479.86 26.42由表5可看出改进前后寻优时间相差很多,改进前所花时间是改进后的19倍左右.改进后的寻优算法能有效地提高语音识别系统性能.4 结束语通过仿真,验证了在语音识别中使用MFCC+ΔMFCC+E特征组合的方法可以提高支持向量机的综合识别性能;对SVM中核函数及参数的选取对识别率的影响进行了深入研究,仿真结果表明,选取RBF核函数及适当的相关参数可以提高语音识别的正确率;另外采用改进的网格寻优算法可以有效缩短识别时间,提高系统的实时性.今后可以将该语音识别方法进一步应用到智能推车的人机交互模块中,从而实现其人性化智能控制.参考文献[1]XUE Hui,YANG Qiang,CHEN Songcan.SVM:Support vector machines,in The top ten algorithms in data mining[M].Boca Raton:CRC Press,2010.[2]MALDONADO S,WEBER R,BASAK J.Simultaneous feature selection and classification using kernelpenalized support vector machines[J].Information Sciences,2011,181(1):115-128.[3]VLADIMIR N V.The nature of statistical learning theory[D].New York:Springer,1999.[4]ARUN K M,GOPAL M.Reduced one-against-all method formulticlass SVM classification[J].Expert Systems with Application,Acta Electronica Sinica,2010,38(7):1626-1633.[5]吴艳艳.孤立词语音识别的关键技术研究[D].青岛:青岛大学,2012. [6]张志霞.语音识别中的个人特征参数提取研究[D].广州:中山大学,2009. [7]叶庆石,蒋佳.基于语音 MFCC特征的改进算法[J].武汉理工大学学报,2007:29(5):150-152.[8]邓乃杨,田英杰.支持向量机:理论、算法与拓展[M].北京:科学出版社,2009.[9]刘新宇,黄德启.基于SVM分类器的道路湿滑图像分类方法研究[J].武汉理工大学学报:交通科学与工程版,2011:35(4):786-787.。

语音识别AI技术中的语音识别模型与语音转写

语音识别AI技术中的语音识别模型与语音转写随着人工智能技术的不断发展,语音识别AI技术在各行各业的应用越来越广泛。

语音识别模型和语音转写是语音识别AI技术中的两个重要环节。

本文将分别对语音识别模型和语音转写进行介绍,并探讨其在实际应用中的意义。

一、语音识别模型语音识别模型是语音识别AI技术的核心部分,主要用于将人的语音信号转换为文字信息。

现阶段常用的语音识别模型包括隐马尔可夫模型(HMM)和深度学习模型。

1. 隐马尔可夫模型(HMM)隐马尔可夫模型是早期语音识别模型的代表。

它基于统计模型,通过建立声学模型和语言模型来实现语音信号的识别。

声学模型用于将语音信号与不同的语音单位进行匹配,语言模型则根据语音信号的上下文进行语义解析。

虽然HMM模型在一定程度上具有一定的准确性,但受限于统计模型的缺陷,其对于复杂的语音信号处理能力有限。

2. 深度学习模型近年来,随着深度学习技术的快速发展,深度学习模型成为了目前语音识别模型的主流。

深度学习模型采用神经网络结构,通过多层次的特征提取和模型训练,实现对语音信号的高效准确识别。

其中,卷积神经网络(CNN)和循环神经网络(RNN)是最常见的深度学习模型结构。

CNN主要用于声学特征的提取,而RNN则用于处理声学序列中的时间依赖关系。

此外,长短时记忆网络(LSTM)和变压器网络(Transformer)等模型也在语音识别中得到了广泛应用。

二、语音转写语音转写是将语音信号转换为文字信息的过程。

它是语音识别AI 技术的一个重要应用领域,具有广泛的实际应用价值。

语音转写的实现过程如下:首先,通过采样和预处理等方法获取原始语音信号;然后,利用语音识别模型对语音信号进行识别,得到相应的文本结果;最后,对文本结果进行后处理,提高文本的准确性和可读性。

语音转写的应用场景十分广泛。

例如,在语音助手、智能客服和自动驾驶等领域,语音转写技术可以实现对人的语音指令的准确理解和执行;在语音翻译和实时字幕生成等领域,语音转写技术可以将不同语种的语音实时转换为对应的文字信息,方便人们的交流和理解。

低速率语音码流中的码元替换信息隐藏检测

低速率语音码流中的码元替换信息隐藏检测李松斌;杨洁;蒋雨欣【期刊名称】《网络新媒体技术》【年(卷),期】2017(006)001【摘要】低速率语音码流中的码元替换信息隐藏选取编码压缩语音中的特定码元作为载体,可实现高嵌入率和较高隐蔽性的信息隐藏.本文提出了码元关联网络模型,既可以从空间角度描述并量化同一语音帧内不同码元的取值分布特性,又能从时间角度描述并量化不同语音帧内同一码元的取值关联特性.进一步,基于码元关联网络构建高性能分类器,最终可高效地实现针对码元替换信息隐藏的隐写检测.在不同语音数据库来源和不同语音长度条件下的实验结果证明了本文方法的检测准确率优于现有的隐写检测算法,实现了快速有效地码元替换信息隐藏检测.%Steganography based on code units replacement in low bit rate audio streams,which selects certain code units in the encoded and compressed speech as the cover,can hide information in the speech with large embedding capacity.This paper proposes three different structure Bayesian networks specially to detect this type of steganography.We define the variable nodes in the Bayesian networks according to the distribution characteristics of the values of the changed code units by steganography,and establish three different network structures considering the periodicity of speech.The networks learn the parameters combing with data to efficiently classify the speech samples (embedded or not) at last.Experiment results under different speech source conditionsand different speech length conditions prove that our steganalysis method outperforms current steganalysis method.And our method can effectively and quickly detect steganography based on code units replacement in low bit rate audio streams.【总页数】12页(P7-18)【作者】李松斌;杨洁;蒋雨欣【作者单位】中国科学院声学研究所南海研究站海口 570105;中国科学院声学研究所南海研究站海口 570105;中国科学院声学研究所南海研究站海口 570105【正文语种】中文【相关文献】1.基于802.11b低速率无线局域网码元同步方法设计 [J], 王天伟;刘毓;王选宏2.针对同义词替换信息隐藏的检测方法研究 [J], 罗纲;孙星明;向凌云;刘玉玲;甘灿3.低速率语音码流中的码元替换信息隐藏检测 [J], 李松斌;杨洁;蒋雨欣;4.AbS-LPC低速率压缩语音信息隐藏技术综述 [J], 杨洁; 邓浩江; 李松斌5.AbS-LPC低速率压缩语音信息隐藏技术综述 [J], 杨洁;邓浩江;李松斌因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

, A b s t r a c t u a n t i z a t i o n I n d e x M o d u l a t i o n( Q I M) s t e a n o r a h w h i c h e m b e d s t h e s e c r e t i n f o r Q - g g p y , m a t i o n d u r i n t h e V e c t o r Q u a n t i z a t i o n c a n h i d e i n f o r m a t i o n i n l o w b i t r a t e s e e c h c o d e c w i t h - g p , a e r u r o s e i m e r c e t i b i l i t .T h i s t r i e s t o d e t e c t t h i s t e o f s t e a n o r a h .F o r t h i s h i h p p p p p p y y p g g p y g , e n e r a t i o n a e r s t a r t i n f r o m t h e s e e c h a n d c o m r e s s c o d i n t h e o r t h i s f i r s t l a n a l z e s t h e g p p g p p g y y y s i n i f i c a n t f e a t u r e d e r a d a t i o n t h r o u h t h e Q I M s t e a n o r a h i n c o m r e s s e d a u d i o o s s i b l e g g g g g p y p p s t r e a m d e e l .A n d i t f i n d s t h a t t h e Q I M s t e a n o r a h w i l l d i s t u r b t h e s e u e n c e i n t h h o n e m e py g g py q e p a n d i n e v i t a b l m a k e t h e i m b a l a n c e a n d c o r r e l a t i o n c h a r a c t e r i s t i c s o f d i s t r i b u t i o n s t r e a m, h o n e m e y p , i n t h e s e u e n c e c h a n e .A c c o r d i n t o t h i s d i s c o v e r h i s a e r a d o t s t h e h o n e m e d i s t r i b u t i o n q g g yt p p p p a s t h e k e f o r t h e d e t e c t i o n o f t h e Q I M s t e a n o r a h . I n o r d e r t o t h e c h a r a c t e r i s t i c s e t u a n t i - y g g p y g q , t a t i v e f e a t u r e s o f h o n e m e d i s t r i b u t i o n c h a r a c t e r i s t i c s t h i s a e r d e s i n s t h e P h o n e m e V e c t o r p p p g M o d e l a n d t h e P h o n e m e S t a t e T r a n s i t i o n M o d e l t o t h e i m b a l a n c e a n d c o r r e l a t i o n S a c e u a n t i f p q y c h a r a c t e r i s t i c s r e s e c t i v e l . B c o m b i n i n t h e u a n t i t a t i v e v e c t o r f e a t u r e s w i t h s u e r v i s e d l e a r n - p y y g q p , i n c l a s s i f i e rt h i s b u i l d s a h i h d e t e c t o r t o w a r d s t h e Q I M s t e a n o r a h i n a e r e r f o r m a n c e g g g g p y p p p , l o w b i t r a t e s e e c h c o d e c .T h e e x e r i m e n t s s h o w t h a t f o r t h e t w o t i c a l l o w b i t r a t e s e e c h - - p p y p p :G . 7 2 9a n d G . 7 2 3 . 1, t h e m e t h o d h a s a n e x c e l l e n t c o m a r e d t o c o d e c r o o s e d e r f o r m a n c e p p p p e x i s t i n m e t h o d . g ; ; ; K e w o r d s I M s t e a n o r a h s t e a n a l s i s l o w b i t r a t e s e e c h c o d e c h o n e m e d i s t r i b u t i o n Q - g g p y g y p p y c h a r a c t e r i s t i c s
I M D e t e c t i o n o f S t e a n o r a h i n L o w B i t a t e S e e c h C o d e c B a s e d o n -R Q g g p y p M o d e l s a n d S VM S t a t i s t i c a l
李松斌
, 1) 3)
黄永峰 卢记仓
1)
2)
1) ( 清华大学电子工程系
) 0 0 0 8 4 北京 1 ) 5 0 0 0 2 郑州 4 ) 海口 7 0 1 0 5 5
2) ( 解放军信息工程大学网络工程系
3) ( 中国科学院声学研究所南海研究站
, 摘 要 Q 量化索 引 调 制 ) 隐写在标量或矢量量化时嵌入机密信息, 可在语音 I M( Q u a n t i z a t i o n I n d e x M o d u l a t i o n 压缩编码过程中进行高隐蔽性的信息隐藏 , 文中试图 对 该 种 隐 写 进 行 检 测 . 文中发现该种隐写将导致压缩语音流 提出了音素向量空间模型和音素状态转移模型对音素分布特性进行 了 量 化 表 示 . 基于 中的音素分布特性发生改变 , , 所得量化特征并结合 S 支持向量机 ) 构 建 了 隐 写 检 测 器. 针对典型的低速率语音编码 VM( S u o r t V e c t o r M a c h i n e p p 标准 G. 文中方法性能远优于现有检测方法 , 实现了对 Q 7 2 9 以及 G. 7 2 3 . 1 的实验表明 , I M 隐写的快速准确检测 . 关键词 Q 隐写检测 ; 低速率语音编码器 ; 音素分布特性 I M 隐写 ; / 中图法分类号 T P 3 0 9 D O I号 1 0. 3 7 2 4 S P. J . 1 0 1 6. 2 0 1 3. 0 1 1 6 8
第3 6卷 第6期 2 0 1 3年6月
计 算 机 学 报 CH I N E S E J OUR NA L O F C OMP UT E R S
V o l . 3 6 N o . 6 J u n e 2 0 1 3
基于统计模型及S VM 的低速率语音编码Q I M 隐写检测
6期
李松斌等 :基于统计模型及 S VM 的低速率语音编码 Q I M 隐写检测
1 1 6 9
但这些研究主要针对图像作为载体 时 的 Q 研究 , I M
1 引 言
是非常流行的流媒体通 V o I P( V o i c e o v e r I P) 信服务 , 在全球范围内得到了广泛应用 , 彻底变革了 语音通信市 场 格 局 . 由V o I P带来的语音数据流具 非常适合作为信息隐藏 有量大且实时瞬态 等 特 征 , 载体 , 这使 V o I P 很可能被 用 于 在 I P 网络中进行隐 蔽通 信 当前在语音中进行信息隐藏的方法可大 . ( 致分为以下几 类 : 针对脉冲编码调制语音数据 1)
) H A c o u s t i c s, I n s t i t u t e o A c o u s t i c s, C h i n e s e A c a d e m o S c i e n c e s,H a i k o u 5 7 0 1 0 5 y f f y f
1 L I S o n B i n - g
1) (
) , 3)
1 2 Y o n F e n U J i C a n HUANG - - g g L g


2) ( 3) (
) D e a r t m e n t o E l e c t r o n i c E n i n e e r i n T s i n h u a U n i v e r s i t B e i i n 0 0 0 8 4 p f g g, g y, j g 1 ) Z h e n z h o u I n o r m a t i o n S c i e n c e a n d T e c h n o l o I n s t i t u t e, Z h e n z h o u 4 5 0 0 0 2 g f g y g
相关文档
最新文档