说话人识别研究综述_王书诏

合集下载

说话人识别综述

说话人识别综述

说话人识别综述杨迪;戚银城;刘明军;张华芳子;武军娜【摘要】Based on the analysis of the principles and methods of speaker recognition, the development of speaker recognition in recent years is reviewed. Several features and pattern recognition methods in the mainstream speaker recognition technologies are summarized and analyzed. Finally, the research prospects and development trends in the future are given.%在分析说话人识别原理和方法的基础上,对近年来说话人识别技术的发展进行了综述。

分析了当前说话人识别技术中使用的多种特征和模式识别方法,并对其今后的研究前景和发展方向进行了展望。

【期刊名称】《电子科技》【年(卷),期】2012(025)006【总页数】4页(P162-165)【关键词】说话人识别;特征提取;模式识别【作者】杨迪;戚银城;刘明军;张华芳子;武军娜【作者单位】华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003【正文语种】中文【中图分类】TP391.9说话人识别(Speaker Recognition,SR)又称话者识别[1],是指通过对说话人语音信号的分析处理,自动确认说话人的技术。

其综合了生理学、语音学、数字信号处理、模式识别、人工智能等学科知识的一个研究课题,以独特的方便性、经济性和准确性等优势,在相关领域内发挥着重要作用,并有着广阔的市场应用前景。

说话人识别研究综述_王书诏

说话人识别研究综述_王书诏

剧烈; ( 4) 加窗, 针对每个音框乘上汉明窗以消除音框
两端的不连续性, 避免分析时受到前后音框的影响;
( 5) 将音框通过低通滤波器, 可去除异常高起的噪声。
3 特征提取
经过预处理后, 几秒钟的语音就会产生很大的数 据量。提取说话人特征的过程, 实际上就是去除原来语 音中的冗余信息, 减小数据量的过程。从语音信号中提 取的说话人特征参数应满足以下准则: 对局外变量( 例 如说话人的健康状况和情绪, 系统的传输特性等) 不敏 感; 能够长期地保持稳定; 可经常表现出来; 易于进行 测量; 与其他特征不相关。
果, 而“倒谱特征”则是利用了对语音信号进 行适当的
同态滤波后, 可将激励信号与声道信号加以分离的原
理。倒谱中维数较低的分量对应于语音信号的声道分
量, 倒谱中维数较高的分量对应于语音信号的音源激
语音技术
Y Vo ic e t e c h n o lo g
励分量。因此, 利用语音信号倒谱可将它们分离, 彼此
一定的相似性准则形成判断。
输入语音 预处理
特性 提取
训练 识别
模型产生 模型存储
相似性准则
判决
图 1 说话人识别系统框图
2.3 预处理[5] 通常, 输入的语音信号都要进行预处理, 预处理过
程的好坏在一定程度上也影响系统的识别效果。一般
! " # 电声技术 2007 年 第 31 卷 第 1 期
语音技术
the feature extraction, model training and classification is reviewed and the trend and rubs are also discussed.
【Key wor ds】speaker recognition; feature extraction; model training; classification

说话人识别方法综述

说话人识别方法综述

说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。

说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。

在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。

本文将就说话人识别技术的算法、特点及应用做一综述。

【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。

该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。

2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。

该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。

3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。

其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。

该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。

【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。

基于深度学习的方法和i-vector方法具有很好的抗噪能力。

2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。

在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。

3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。

基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。

文本无关的说话人识别研究

文本无关的说话人识别研究
图进 行 说话 人识 别 的方 法 。语 谱 图直 观 明 了 , 类
似于指纹识别 , 故说话人识 别又 称为 声纹识 别 。1 9 6 9 年L u c k提 出倒谱 ( C e p t r u m) 技术 J , 1 9 7 6年 A t a l 等 人 提 出线 性 预 测 倒 谱 系数 ( L P C C) J , 提 高 了说 话 人 识别 的精 度 。说 话 人 识 别模 型 方 面 , 6 0年 代 , 主
点。
关键词 : 文本无关 ; 说话人识 别; 特征提取 ; 模 式识 别 中 图分 类 号 : T P 3 9 1 文献标识码 : A 文章编号 : 1 0 0 5 — 3 8 2 4 ( 2 0 1 3 ) 0 4 - 0 0 4 8 - 0 5
0 引 言
说 话人 识别 是从 说话 人所 发语 音 中提取说 话人 是 谁 的信息 的过 程 。说话 人识 别和通 常所 说 的语音
第4 0卷第 4期
4 8 2 0 1 3年 8月 2 5日




Vo l 4 0 .No . 4
Di g i t a l Co mmun i c a t i o n
Aug .25 2 01 3
D OI : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 1 - 3 8 2 4 . 2 0 1 3 . 0 4 . 0 1 1
马尔科 夫模 型 ( HMM) 也 在 语 音识 别领 域 得 到 了成 功和 广泛 的应用 , 成 为语音 识 别 的核 心技 术 。9 0
年代后 , R e y n o l d s 将高斯混合模型( G M M) 应用到了 说 话人 识别 j , G MM 以其 简单灵 活有 效 以及 具有 较

说话人识别

说话人识别

一、问题描述1、研究背景:语言是人类相互交流时使用最多、最基本也是最重要的信息载体,是人类最重要的外在特征之一。

而语音室语言的声学表现,是声音和意义的结合体。

人们可以将语言信息转化为声音信号,也可以从极其复杂的语音信号中迅速有效地提取信息。

因此与文字、图像、视频等交流信息的方式相比,语音始终都是对人类最方便、最自然、最理想的方式。

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它主要包括四个部分:语音识别、语音合成、语音编码和语音分类。

除了这四个领域,语音信息处理技术还包括语音增强,语音理解等子学科。

几个部分之间有着密切的联系,它们相互影响,相互促进,语音信号处理技术得到了迅猛地发展。

说话人识别又称为声纹识别,按其最终完成的任务分为说话人辨认和说话人确认两类,其作为一种基于生物特征信息的身份识别方法,通过语音来识别说话人的身份。

为此,需从各个人的发音中找出说话人之间的个性差异,涉及到说话人发声器官、声道、习惯各方面不同等级的个性差异,因此,说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别与人工智能的综合性研究课题。

2、技术实现:说话人识别一般的实现方法有三种。

第一种也是最早的一种,用的是语音声学特征的长时间平均,只不过这类方法有一个缺点。

需要较长的语音(通常大20秒)才能求得比较准的说话人特性。

第二种方法用的区别性类神经网络,这种方法的做法是求得一个识别方程式(di scriminat ive function)来使得所有说话人可以区别得最好,其缺点是当有一个新的说话人加入时,识别方程式就必须重新计算。

第三种方法就是对每一个说话人语音的声学特征及内容用一组模型来表示。

而选用的模型根据对语音内容切段方法的不同而有不同。

如果要对说话人的语音细分到音素的地步,可以用隐马尔科夫模型。

如果不需要对说话人的语音内容作区分的话,则可以用矢量量化或高斯混合模型来进行说话人辨认。

本次课设主要实现了一个用于说话人辨识的系统,其中构造数学模型采用了搞死混合模型(GMM),用EM算法进行训练,识别采用基于概率的打分方法。

说话人自动识别技术研究

说话人自动识别技术研究

少失真。在 一定范 围的说话人 的语 音库 中, 测试结果表 明有很 高的识 别率 , 可以达到 9 % 。 6
关键词 : 自动 说 话 人 识 别技 术 ( S ; e 频 标 倒 频 系数 ( C ) 矢 量 量 化 ( Q ; 氏 距 离测 度 A R) m l MF C ; V )欧
中图分 类号 :N 1 . T 92 1
块, 根据匹配的结果 , 终在决 定子模 块根 据 比较 的结 果对 最
隐马尔柯夫模 型 ( MM) 术 、 H 技 矢量 量化 ( Q)技术 等。一 V 般 而论 , T 更 加适合文本有 关这个方式 , DW 因为这 是一个将 时间规 整和距离测度有机结合在一起 的非线性规整技术 , 保 证 了待识别特征与模板 特征 之间最 大 的声 学相似 特性 和最 小的时差失真 。而 H MM法 与 D W 法不 同 , T 首先 , 其模 式 库不是 预先存贮 好 的模 式样本 , 而是通过 反复 的训练 过程 , 用迭代算法 ( B u wec 如 am— l h算法 等) 形成一套 与训练输 出 信 号吻合 概率最 大 的最佳 H MM模 型参数 : =f 盯, B) ( A, ,
识别 , 它更具有 挑战性 J 。相对 于文本 有关 的方式 , 文本 无 关 方式需要更广泛 的语音模 型为基 础前提。 目前说话人识别技 术包括 动态 时间规 整 ( T D W)技术 、
说话人 的特征矢 量的型心( 均值 ) 叫做特征 压缩 子模块 , , 然 后存入到码书 中。在认识 阶段 , 通过提取子模块对测试 语音 提取 的特征值 与码 书进 行 比较 的过 程 , 叫做 特 点 比较子 模
文献标识 码 : A
文章编 号 :0 8— 7 5 20 )2— 12— 3 10 3 1 (0 7 0 0 2 0

浅谈说话人识别技术及应用分析

浅谈说话人识别技术及应用分析

浅谈说话人识别技术及应用分析引言:随着科学技术的快速发展,生物特征识别技术得到了越来越多的研究和应用,说话人识别是语音识别的一种。

它主要分为说话人辨认和说话人确认两个方面:前者是判断待识别语音是多个参考说话人中哪一个人所说,用于辨认说话者的身份,是一个多元判决问题;后者是说话人先声明身份(如输入用户号) ,然后由系统判定待识别语音是否与其参考声音相符,用于对特定人进行身份验证,是一个二元判决问题。

说话人识别技术的发展始于60 年代,随着信息社会化发展,说话人识别作为具有语音识别与理解功能的智能人机接口,是新一代计算机的重要组成部分,其应用领域不断扩大:在司法领域中,可以帮助对嫌疑人的查证;在保安领域中,可以用于机密场所的进入控制、合法使用通信线路、机要设备的身份核查及电子银行转帐业务的安全检查等;在医学领域,如使识别系统仅响应患者的命令,则可实现对假肢的控制;在玩具、家用电器等领域也有广泛的应用前景。

针对以上领域中的许多商用系统已经投入使用。

关键字:生物特征识别、系统判定、控制、应用前景一、说话人识别技术基础随着全球信息化的快速发展,电子商务等信息技术得到了广泛的应用,人们发现,传统的使用密码来认证用户的方法变的越来越脆弱。

在这种背景下,解决用户高安全性和长效稳定性的生物认证技术逐渐得到人们的青睐。

在众多的生物认证技术中,说话人识别技术以其信号采集简单、系统设备成本低等优点得到了快速发展,展现了广阔的应用前景。

说话人识别技术包括说话人辨认技术和说话人确认技术,他们在本质上是一致的,唯一不同的是说话人辨认技术是从多个说话人语音中辨认出某个人的那一段语音信息,而说话人确认技术是确定某段语音信息是不是某人所说。

两者是一对多和一对一的关系。

每个人的发音因为受到声道和发音特点等影响,总是存在一些代表自己特征的元素,说话人识别技术就是通过采集、提取这些表征说话人固有特征的参数来达到识别的目的。

语音识别技术的应用有着非常多的优点,同时目前的研究也存在一些还没有突破的难点,但我相信,不久的将来,说话人识别技术一定会在我国的信息安全方面起到无以替换的重要作用。

说话人识别综述

说话人识别综述

说话人识别综述作者:甄倩倩张庭亮来源:《科技资讯》2017年第25期DOI:10.16661/ki.1672-3791.2017.25.241摘要:生物识别,是通过生物信息来识别人身份的技术,说话人识别是一种通过人的声音来识别人身份的技术。

说话人识别是生物识别领域的重要研究课题之一。

本文首先介绍说话人识别的背景和研究意义;其次介绍目前在说话人特征提取方面所采用的方法;再次介绍说话人识别方面所采用的方法研究;最后分析说话人识别的研究困难和未来发展趋势。

关键词:生物识别说话人识别特征提取中图分类号:TP391 文献标识码:A 文章编号:1672-3791(2017)09(a)-0241-03Abstract: Speaker recognition is one of the important research topics in the field of biometrics, which is a way of recognizing human identity through the voice of the people. Firstly,it introduces the background and significance of speaker recognition. Secondly, it introduces the present research situation of feature extraction and speaker recognition. Finally, it analyzes the research difficulties and future development trend of speaker recognition.Key Words: Biological Recognition; Speaker Recognition; Feature Extraction生物特征识别技术是一种采用人的生理或行为进行识别身份的技术。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LPCC 是一个比较重要的特征参数, 它能够比较彻 底地去除语音产生过程中的激励信息, 能较好描述语 音信号的共振峰特性。在实际计算中, LPCC 不是由信
"#$电声技术2007 年 第 31 卷 第 1 期
号直接得到的, 而是由 LPC 求得。LPCC 系数 cLp( n) 与
线性预测系数 ai( i=1, 2, …, p) 的关系为
说话人识别根据实现的任务不同, 可分为说话 人 辨 认 ( speaker identification) 和 说 话 人 确 认 ( speaker verification) 两种类型[2]; 说话人识别根据系统对待识别 语音内容的不同, 又可分为与文本有关( text- dependent) 和与文本无关( text- independent) 两种方式[3]。
文章编号: 1002- 8684( 2007) 01- 0051- 05
说话人识别研究综述
语音技术
Y Vo ic e t e c h n o lo g
·综述·
王书诏, 邱天爽 ( 大连理工大学 电子与信息工程学院, 辽宁 大连 116023)
【摘 要】说话人识别是语音信号处理中的重要组成部分, 是当前的研究热点之一。详细介绍了说话人识别的基本
典 型的参数模型包括高斯混合模型( Gaussian Mixture
Model, GMM) 和隐马尔可夫模型(Hidden Markov Model,
HMM) [19-24]; 而非参数模型是指说话人模型是由语音特
征经过某种运算直接得来的, 典型的非参数模型是模
果, 而“倒谱特征”则是利用了对语音信号进 行适当的
同态滤波后, 可将激励信号与声道信号加以分离的原
理。倒谱中维数较低的分量对应于语音信号的声道分
量, 倒谱中维数较高的分量对应于语音信号的音源激
语音技术
Y Vo ic e t e c h n o lo g
励分量。因此, 利用语音信号倒谱可将它们分离, 彼此
时域方法, 频域方法和综合利用信号时域、频域特性的
方法。
时域方法直接利用语音信号的采样点计算信号的
波峰、波谷和过零率等, 其特点是原理简单、计算量小,
典型的方法是 Gold 和 Rabiner 提出的并行处理方法[11]。
频域的方法主要是计算信号的自相关函数、功率谱和
最大似然函数等, 其精度要高于时域方法, 典型的方法
基本上互不干扰, 并可避免声道分量受到有随机变化
的音源激励分量的干扰。
3.3.3 短时能量与短时平均幅度[13]
信号 ! x( n) " 的短时能量定义为

#2
En= [ x( m) w( n- m) ]
( 5)
m=- ∞
其中, w( n) 是窗函数, 一般用矩形窗或汉明窗。短时能
量代表的是一个音框语音信号的能量, 可反映语音信
2 说话人识别的基本理论与前期处理
2.1 语音产生模型[4] 语音信号可以看成是激励信号 UG( n) 经过一个线
性系统 H( z) 而产生的输出[4]。其中, 声道模型 H( z) 为 离散时域的声道传输函数, 通常可用全极点函数来近 似。不同的说话人其声道形状是不同的, 因此具有不同 的声道模型。H( z) 表示为
! H( z) =
1 A( z)


p -i
1- ai z
( 1)
i=1
其中 p 为全极点滤波器的阶数; ai( i=1, 2, …, p) 为滤波
器的系数。p 值越大, 则模型的传输函数和实际声道传
输函数的吻合程度就越高, 当然 p 值也不能取得太大,
一般情况下, p 的取值范围为 8~12[4]。
原理, 从特征提取、模型训 练 和分 类 等 几个 方 面 就近 年 的 主要 研 究 情况 进 行 综述 和 评 价, 并 在 此 基础 上 探 讨了 研 究
难点和发展前景。
【关键词】说话人识别; 特征提取; 模型训练; 分类
【中 图 分 类 号 】 T N912
【文献标识码】A
Sur vey on Speaker Recognition
波器来作预加重处理以突显高频部分, 其传递函数为:
H(
z)
=1-





一般

的值取
0.95
左 右 [5];

3)
取音框,

般 取 256 点 为 一 个 音 框 ( 32 ms) , 音 框 与 音 框 之 间 重
叠128 点( 16 ms) , 即每次位移 128 点后再取 256 点 作
为下一个音框, 这样可避免音框之间的特性变化过于
说话人识别研究中主要采用的特征参数主要 有 : 基 音 周 期 、明 亮 度 、过 零 率 、线 性 预 测 系 数 ( Linear Prediction Coefficients, LPC) 、线性预测倒谱系数( Linear Prediction Cepstral Coefficients, LPCC) 、Mel 频率倒谱系 数( Mel- Frequency Cepstrum Coefficients, MFCC) 、倒谱 特征等[6- 7]。 3.1 LPCC 参数[8]
#cLp( 1) =a1
%
n- 1
! $%cLp( n) = k=1
k n
an- k cLp( k) +an,
1<n≤p
( 2)
%
n- 1
! &%cLp( n) = k=1
k n
an- k cLp( k) ,
n>p
3.2 MFCC 系ቤተ መጻሕፍቲ ባይዱ[9- 10]
Mel 频率表达了一种常用的从语音频率到“感知
频 率 ”的 对 应 关 系 , 这 更 符 合 人 耳 的 听 觉 特 性[3], 表 达
号随时间的幅度变化。
语音信号的短时平均幅度定义为

# Mn= x( m) w( n- m)
( 6)
m=- ∞
式( 6) 中用信号绝对值来代替平方和。
3.3.4 短时平均过零率[13]
信号 ! x( n) " 的短时平均过零率定义为

# Zn= sgn[ x( n) ] - sgn[ x( n- 1) ] w( n- m)
式为
fMel=2 595 lg( 1+f/ 700)
( 3)
求取 MFCC 的具体过程为: ( 1) 对已经过预处理的
语音向量分别进行离散傅里叶变换; ( 2) 将得到的离散
频谱用序列三角滤波器进行滤波处理, 得到一组系数
mi; ( 3) 利 用 离 散 余 弦 变 换 将 滤 波 器 输 出 变 换 到 倒 谱 域, 离散余弦变换的公式为
WANG Shu- zhao, QIU Tian- shuang
( Department of Electronic Engineering, Dalian University of Technology, Dalian Liaoning 116023, China)
【Abstr act】 Speaker recognition is an important part of the speech signal processing. It is one of the current research
【Key wor ds】speaker recognition; feature extraction; model training; classification
1 引言
说话人识别作为生物认证技术的一种, 是根据语 音波形中反映说话人生理和行为特征的语音参数自动 鉴别说话人身份的一项技术[1]。因此, 需要从各个说话人 的发音中找出说话人之间的个性差异, 这涉及到说话 人发音器官、发音通道和发音习惯之间等不同级别上 的 个 性 差 异 。 说 话 人 识 别 是 交 叉 运 用 心 理 学 、生 理 学 、 语 音 信 号 处 理 、模 式 识 别 、统 计 学 习 理 论 和 人 工 智 能 的 综合性研究课题。
剧烈; ( 4) 加窗, 针对每个音框乘上汉明窗以消除音框
两端的不连续性, 避免分析时受到前后音框的影响;
( 5) 将音框通过低通滤波器, 可去除异常高起的噪声。
3 特征提取
经过预处理后, 几秒钟的语音就会产生很大的数 据量。提取说话人特征的过程, 实际上就是去除原来语 音中的冗余信息, 减小数据量的过程。从语音信号中提 取的说话人特征参数应满足以下准则: 对局外变量( 例 如说话人的健康状况和情绪, 系统的传输特性等) 不敏 感; 能够长期地保持稳定; 可经常表现出来; 易于进行 测量; 与其他特征不相关。
根据参数的稳定性, 可把说话人特征参数大致分 为两类: 一类是反映说话人生理结构的固有特征( 例如 声道结构等) , 这类特征主要表现在语音的频谱结构 上, 包含了反映声道共振的频谱包络特征信息和反映 声带振动等音源特性的频谱细节构造特征信息, 具有 代表性的特征参数有基音和共振锋, 这类特征不易被 模仿, 但容易受健康状况的影响; 另一类是反映声道运 动的动态特征, 即发音方式、发 音习惯等, 主要表现在 语音频谱结构随时间的变化上, 包含了特征参数的动 态特性, 这类特征相对稳定但比较容易模仿, 代表性的 特征参数是倒谱系数。
( 7)
m=- ∞
Zn反映了一个音框语音信号中的过零情况, 它是信号
频率量的一个简单量度。
4 说话人模型
对于说话人识别系统, 特征被提取出来后, 需要用
识别模型为说话人建模, 并对特征进行分类以确定属
于哪一个说话人。所谓的识别模型, 是指用什么模型来
描述说话人的语音特征在特征空间的分布。目前常用
相关文档
最新文档