【CN110164468A】一种基于双麦克风的语音增强方法及装置【专利】

合集下载

基于盲源分离的双话筒移动设备语音信号增强方法[发明专利]

专利名称：基于盲源分离的双话筒移动设备语音信号增强方法专利类型：发明专利
发明人：吕淑平,温桀骜,张成,刘楚辞,岳建杰
申请号：CN201510054467.9
申请日：20150202
公开号：CN104637494A
公开日：
20150520
专利内容由知识产权出版社提供
摘要：本发明公开了一种基于盲源分离的双话筒移动设备语音信号增强方法。

包括以下步骤：安装在通讯设备底端同一水平线上相距d的两个话筒用于接收语音信号，得到观测信号；对观测信号进行去均值处理；对去均值处理后的信号进行去相关处理；对去相关处理后的信号采用欠定盲分离方法来分离混合信号，得到混叠矩阵的估计值和各个声源估计；从各个声源估计选择能量最大的声源作为目标人声信号。

本发明能够提高传输语音信号的信噪比，提高语音信号的可懂度。

申请人：哈尔滨工程大学
地址：150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室国籍：CN
更多信息请下载全文后查看。

一种麦克风阵列语音增强方法及实现装置[发明专利]

专利名称：一种麦克风阵列语音增强方法及实现装置专利类型：发明专利
发明人：张军,梁晟,宁更新,冯义志,余华,季飞
申请号：CN201910677433.3
申请日：20190725
公开号：CN110517701A
公开日：
20191129
专利内容由知识产权出版社提供
摘要：本发明公开了一种麦克风阵列语音增强方法及实现装置，通过支路三来抑制说话人和干扰源方向的信号，得到空间非相干噪声频谱矢量；使用深度神经网络来完成从带噪语音和噪声到干净语音的映射，可以有效地利用语音信号的非线性特性和时间相关性，使估计结果更精确和接近人类听觉特性；该深度神经网络采用带噪语音和噪声作为输入，与传统仅采用带噪语音作为输入的深度神经网络语音增强技术相比具有更好的增强效果。

本发明将基于麦克风阵列和深度神经网络的语音增强技术相结合，性能优于传统的麦克风阵列语音增强方法和单麦克风深度神经网络语音增强方法；可以广泛用于视频会议、车载通信、会场、多媒体教室等各种具有嘈杂背景的语音通信应用中。

申请人：华南理工大学
地址：510640 广东省广州市天河区五山路381号
国籍：CN
代理机构：广州市华学知识产权代理有限公司
代理人：蒋剑明
更多信息请下载全文后查看。

一种基于麦克风阵列的语音增强方法及装置[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201810652041.7(22)申请日 2018.06.22(71)申请人成都瑞可利信息科技有限公司地址四川省成都市高新区天府大道北段1700号1栋2单元10层1004号(72)发明人刘睿　(51)Int.Cl.G10L 21/0208(2013.01)G10L 21/0216(2013.01)G10L 21/0232(2013.01)H04M 1/19(2006.01)(54)发明名称一种基于麦克风阵列的语音增强方法及装置(57)摘要本发明公开了一种基于麦克风阵列的语音增强方法及装置，该方法和装置更精准地估计出了混响和回声的声学路径，更好地抑制了回声和混响信号，使得输出的音频信号达到更高的信噪比，语音增强体验效果好，针对当前主流的硬件平台均能达到实时处理，且具备很强的鲁棒性。

此外，本发明所提供的方法和装置在提升信号的信噪比的同时，能够大幅降低了信号处理的运算量。

而在实现相同信噪比的要求下，传统的信号处理流程需要1-3倍的运算量。

权利要求书2页说明书5页附图2页CN 108447496 A 2018.08.24C N 108447496A1.基于麦克风阵列的语音增强方法，其特征在于：该方法包括：步骤1：对以下两种信号进行分别处理：1)基于麦克风阵列采集到的N路语音信号进行频域分析，生成对应的频域信号X n；2)参考信号进行频域分析，生成对应的频域信号Y；步骤2：将频域信号X i同时分别进行以下处理：1)波束形成，形成波束B out；2)去混响估计预处理，形成混响估计频域信号R out；3)与频域信号Y一并进行回声消除及估计预处理，形成回声估计频域信号E out；步骤3：对波束B out、混响估计频域信号R out和回声估计频域信号E out进行去混响处理和回声消除处理，形成单路麦克风增强信号S；步骤4：对信号S进行IFFT变换形成最终输出的时域信号S out。

一种语音增强的方法和装置[发明专利]

专利名称：一种语音增强的方法和装置专利类型：发明专利
发明人：杨毅,张清
申请号：CN200910132345.1
申请日：20090330
公开号：CN101853666A
公开日：
20101006
专利内容由知识产权出版社提供
摘要：本发明实施例公开了一种语音增强的方法和装置。

其中，所述方法包括：将带噪语音信号进行变换，得到频域带噪语音信号；采用相关度修正参数设置所述频域带噪语音信号的前一帧谱方差和前一帧谱幅度平方的权值，得到频域纯净语音信号中当前帧的谱方差，其中，所述相关度修正参数指示所述当前帧与所述前一帧之间的相关性；根据所述频域纯净语音信号中当前帧的谱方差和所述频域带噪语音信号的前一帧的谱方差，得到频域纯净语音信号中当前帧的先验信噪比；依据最小均方误差估计法，由所述频域纯净语音信号中当前帧的先验信噪比，得到增强的频域纯净语音信号。

通过本发明实施例，可以降低在语音增强过程中，由先验信噪比的计算而引入的误差。

申请人：华为技术有限公司
地址：518129 广东省深圳市龙岗区坂田华为总部办公楼
国籍：CN
代理机构：深圳市深佳知识产权代理事务所(普通合伙)
更多信息请下载全文后查看。

语音增强方法和设备[发明专利]

专利名称：语音增强方法和设备
专利类型：发明专利
发明人：田薇,李玉龙,邝秀玉,贺知明申请号：CN201180001446.0
申请日：20110805
公开号：CN103038825A
公开日：
20130410
专利内容由知识产权出版社提供
摘要：本发明实施例涉及语音增强的方法和设备。

语音增强方法包括：获取浊音帧信号的M个第一线性预测系数，其中M是线性预测滤波器的阶数；获取提升因子，其中，提升因子根据M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到；根据提升因子以及M个第一线性预测系数之间的相关性修改M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与M个第一线性预测系数所对应的第一短时谱包络相比，共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。

由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性，经过本发明实施例的方法处理后，语音的质量和可懂度都得到了共同的提升。

申请人：华为技术有限公司,电子科技大学
地址：518129 中国广东省深圳市龙岗区坂田华为总部办公楼
国籍：CN
代理机构：北京龙双利达知识产权代理有限公司
更多信息请下载全文后查看。

语音增强方法、装置、存储介质、电子设备[发明专利]

专利名称：语音增强方法、装置、存储介质、电子设备专利类型：发明专利
发明人：李晨星,许家铭,徐波
申请号：CN201910663257.8
申请日：20190722
公开号：CN110534123B
公开日：
20220401
专利内容由知识产权出版社提供
摘要：本发明实施例涉及一种语音增强方法、装置、存储介质、电子设备，所述方法包括：调用语音采集设备，采集当前环境中的语音；按照预设的语音处理算法，对所述语音进行处理，得到单通道语音；对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；将所述语音分段数据流输入预设的语音增强网络模型中，得到与所述语音分段数据流对应的增强语音；将所述增强语音合成为语音段。

由此，可以实现多场景的应用，避免了噪声的影响，考虑到语音特性，避免引入失真，从而避免对语音造成损伤。

申请人：中国科学院自动化研究所
地址：100190 北京市海淀区中关村东路95号
国籍：CN
代理机构：北京华夏泰和知识产权代理有限公司
代理人：孟德栋
更多信息请下载全文后查看。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910338720.1
(22)申请日 2019.04.25
(71)申请人上海大学
地址 200444 上海市宝山区上大路99号
(72)发明人朱梦尧　吴人杰　
(74)专利代理机构上海精晟知识产权代理有限
公司 31253
代理人冯子玲
(51)Int.Cl.
G10L 21/0216(2013.01)
G10L 21/0232(2013.01)
G10L 21/0264(2013.01)
(54)发明名称一种基于双麦克风的语音增强方法及装置(57)摘要本发明公开了一种基于双麦克风的语音增强方法及装置，其中，方法包括以下步骤：根据双麦克风采集到的观测信号进行语音活动性检测和时延估计；根据语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；根据计算的二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；根据分离后的语音与噪声，进行似然比的计算；根据分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。

本发明的一种基于双麦克风的语音增强方法及装置，仅采用了双麦克风，大大降低了硬件成本的同时，在面对无方向性的噪声、与语音同向的噪声的情况下，依旧保持着优秀的语
音增强性能。

权利要求书2页说明书9页附图1页CN 110164468 A 2019.08.23
C N 110164468
A
权　利　要　求　书1/2页CN 110164468 A
1.一种基于双麦克风的语音增强方法，其特征在于，包括以下步骤：
根据双麦克风采集到的观测信号进行语音活动性检测和时延估计；
根据所述语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；
根据计算的所述二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；
根据所述分离后的语音与噪声，进行似然比的计算；
根据所述分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。

2.如权利要求1所述的一种基于双麦克风的语音增强方法，其特征在于，根据双麦克风采集到的观测信号进行语音活动性检测和时延估计，具体包括以下步骤：对所述观测信号进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；
对所述Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算，对语音和噪声建立双高斯模型，从而进行语音活动性的检测，判断当前帧是否为语音帧；
当所述当前帧判断为语音帧时，进行时延的估计，得到时延估计值，以计算导向矢量。

3.如权利要求2所述的一种基于双麦克风的语音增强方法，其特征在于，根据所述语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模，具体包括以下步骤：
根据所述时延估计值，对每一个频点确定导向矢量和混合矩阵迭代时的初值；
采用信息最大化准则，以自然梯度下降的方式，迭代所述混合矩阵，收敛后得到所述混合矩阵的第一列；
获取所述混合矩阵的所述第一列作为先验的输入，进行半盲分离迭代解混矩阵，得到预分离信号；
根据所述预分离信号和所述观测信号，确定能量估计矩阵；
根据所述估计矩阵，计算所有时频单元的二值掩模，用来指导迭代以及次序判决的修正。

4.如权利要求3所述的一种基于双麦克风的语音增强方法，其特征在于，根据计算的所述二值掩模，进行次序置信度的判决，输出分离后的语音与噪声，具体包括以下步骤：根据所述导向矢量、所述混合矩阵的所述第一列和所述二值掩模，进行次序修正的判断，决定是否应进行次序的修正；
将所述解混矩阵与所述观测信号进行频域上的相乘，得到分离信号的频域形式，从而输出分离后的语音和噪声。

5.一种基于双麦克风的语音增强装置，其特征在于，包括：
检测装置，用于根据双麦克风采集到的观测信号进行语音活动性检测和时延估计；
分离装置，用于根据所述语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；
判决装置，用于根据计算的所述二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；
计算装置，用于根据所述分离后的语音与噪声，进行似然比的计算；
滤波装置，用于根据所述分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。

2。