自适应矢量量化在语音识别中的应用
一种基于矢量量化的音频场景分析方法

哈尔滨工业大学跨学科交叉研究基金 (#$%&’(& 资助。 )****+)
比通过其它感觉器官所获取的信息量更大。正因为 音频信息在人类生活中具有非常重要的作用, 所以 人们对音频信息的研究历来都很重视。 基于音频的场景分析技术就是要根据不同场 景的音频信息来对场景进行分类。该技术对机器自 动感知环境特征, 提高自动化程度, 以及对视频内 容进行检索和改进未来多媒体电子产品性能等具 有重要的意义。 利用音频进行场景分析可以采用时域的过零 率和能量等特征, 以及频域和倒谱域的特征, 所用 的方法可以是简单的阈值判断的方法 !+".!)", 基于隐马 (#/0012 ’34567 ’6018 ) 方法 !9", 基 尔可夫模型 #’’ 于人工神经网络 :;; <:4=/>/?/38 ;1@438 ;1=A645B 的 方法 !C", 以及基于规则的方法 !D"。下文中笔者考虑到 人耳的听觉特性, 采用反映人类听觉特性的 ’18 倒 谱系数 ’EFF (’18 >41G@12?H ?1IJ=438 ?61>>/?/12= ) 作 为音频信号特征, 提出了一种用矢量量化来进行音 频场景分析的方法。该方法首先利用从不同场景中 提取的音频信号特征, 通过矢量量化的方法来训练 各个场景模板, 并构建这些场景的模板库。然后在 场景分类时, 取与待测音频信号匹配距离最小的模 《电声技术》 !""! 年第 # 期总第 !"$ 期
・ 论文 ・
!"#"$%& ’()"*
要】基于音频的场景分析技术对机器自动感知环境特征, 提高自动化程度等具有重要的
语音识别技术简介

语音识别技术简介我想大家都听过阿里巴巴与四十大盗的故事,阿里巴巴的“芝麻开门”就是一个语音识别的例子,可见语音识别是很早就启蒙了。
今天我就和大家一起来学习一下语音识别技术。
让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。
伴随计算机技术发展,语音识别己成为信息产业领域的标志性技术,在人机交互应用中逐渐进入我们日常的生活,并迅速发展成为“改变未来人类生活方式厅的关键技术之一”。
语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究方向。
其最终目标是实现人与机器进行自然语言通信。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。
今天主要讲的内容有:语音识别的发展历史、系统分类、基本方法、系统结构、面临问题以及前景展望。
语音识别发展历史1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。
1960年英国的Denes等人研究成功了第一个计算机语音识别系统。
大规模的语音识别[3]研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。
在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。
此外,再次提出了将神经网络技术引入语音识别问题的技术思路。
进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。
但是,在语音识别技术的应用及产品化方面出现了很大的进展。
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。
语音编码技术的分类

语音编码技术的分类语音编码技术是将语音信号经过压缩、编码处理后转化为数字数据的技术,广泛应用于语音通信、语音识别、语音合成等领域。
根据不同的实现方式和压缩算法,可以将语音编码技术分为以下几个分类。
首先是有损压缩编码技术,这种技术通过牺牲一定的语音质量来达到较高的压缩比。
最典型的有损压缩算法是线性预测编码(LPC)和线性预测编码(LPC)特征序列编码。
LPC通过分析语音信号的谐波结构和共振峰来捕捉语音的重要信息,然后利用这些信息对语音进行重建。
而LPC通过分析语音信号的自相关性和频谱平滑性来获得语音的预测系数,从而实现对语音信号的压缩。
其次是无损压缩编码技术,这种技术通过保留原始语音信号的全部信息来实现压缩。
无损压缩编码技术对于一些对音质有较高要求的应用场景非常重要,比如语音识别和语音合成。
最常见的无损编码算法是自适应差分编码(ADPCM)和矢量量化编码(VQ)。
ADPCM通过预测当前语音样本和前一样本之间的差值,并将该差值保存为编码结果,以实现高压缩比。
第三是混合压缩编码技术,也称为变速压缩编码技术。
这种技术通过对不同部分使用不同的压缩算法来实现。
最常见的变速编码算法是多速率编码(MRC)和多步骤编码(MSC)。
MRC通过对语音信号的不同频段采用不同的压缩算法,对于高频部分使用有损压缩算法进行压缩,对于低频部分使用无损压缩算法进行压缩,从而实现更高的压缩比。
MSC对语音信号进行多次压缩,每次压缩只保留重要的信息,通过多次压缩后,达到较高的压缩比。
总的来说,语音编码技术的分类包括有损压缩编码技术、无损压缩编码技术和混合压缩编码技术。
不同的技术分类适用于不同的应用场景,在实际应用中需要根据具体需求权衡语音质量和压缩比,选择合适的编码技术。
对于语音通信等实时场景,需要保证较高的语音质量,可以选择无损压缩编码技术;而对于语音识别和语音合成等需要高压缩比的应用场景,可以选择有损压缩编码技术。
混合压缩编码技术则提供了在不同部分使用不同压缩算法的灵活性,适用于更细粒度的应用需求。
矢量量化在语音信号处理中的应用

矢量量化在语音信号处理中的应用简介矢量量化是一种常用的数据压缩技术,旨在通过将连续信号离散化表示来减少数据传输和存储的成本。
在语音信号处理中,矢量量化广泛应用于语音编码、语音识别和语音合成等领域。
本文将深入探讨矢量量化在语音信号处理中的应用。
语音编码语音信号的特点为了更好地理解矢量量化在语音编码中的应用,首先需要了解语音信号的特点。
语音信号是一种时间连续的信号,具有较高的带宽要求和较低的信噪比。
此外,语音信号中的语音内容通常通过谐波周期、共振峰和无意义的噪声等特征进行表示。
矢量量化在语音编码中的角色在语音编码中,矢量量化被用于将连续的语音信号转换为离散表示,以实现对语音信号的压缩。
通过将语音信号分割成不同的时间段或频率帧,并将这些帧用离散的码矢量表示,矢量量化可以显著减少所需的传输和存储资源。
此外,矢量量化还能提供一种方式来描述和比较不同语音片段之间的相似性。
矢量量化的实现方法在语音编码中,有许多矢量量化的实现方法可供选择。
其中,最简单但性能相对较差的方法是基于均匀矢量量化。
该方法将矢量空间均匀划分为一系列子区域,并为每个子区域分配一个代表矢量。
然而,由于语音信号的非均匀分布特性,均匀矢量量化的效果有限。
为了克服均匀矢量量化的不足,研究人员提出了一些更高级的方法,如聚类算法和向量量化树。
聚类算法将语音帧分成几个类别,并为每个类别分配一个代表矢量。
而向量量化树则是一种层次结构,通过递归地将帧分成更小的子集,并为每个叶子节点分配一个代表矢量。
这些方法相对于均匀矢量量化能够更好地适应语音信号的分布特性,从而提高编码效果。
矢量量化的应用实例矢量量化在语音编码中的应用有很多,以下是一些常见的实例:1.无损压缩:通过高效地将连续语音信号转换为离散表示,矢量量化可以实现对语音信号的无损压缩。
这种压缩方法无需对语音信号进行任何信息损失,因此在一些对语音质量要求较高的应用中非常有用。
2.语音传输:矢量量化能够显著减少语音信号传输所需的带宽和存储资源。
矢量量化

矢量量化器定义:
维数为P,码本长度为J的矢量量化器Q定义: 为从P维欧几里德空间RP到一包含J个输出(重构)
点的有限集合C的映射,
Q:RP→C,其中C={y1 ,y2 ,… ,yJ} yi
RP,i=1,…,J
集合C称作码本或码书,码本长度为J 。 码本的J个元素称作码字或码矢量,它们均
为RP中的矢量,P维矢量。
共有N个P维矢量X={X1,X2,…,XN},其中第i个矢量为Xi,
i=1,2,…N。类比过来,N个语音帧,每帧中共有P个 声道参数,共组成N个P维矢量。 a11,a12,…,a1K aN1,aN2,…,aNK
第1帧
第N帧
第一帧 第二帧
X1=a11,a12,…,a1P X2=a21,a22,….,a2P
采样
量化
x1 xa1
xak
xak+1
xaL
xaL+1
1-dimensional VQ is shown below:
-2 -
2 2
标量量化
2. 矢量量化:
若干个标量数据组成一个矢量,矢量量化是
对矢量进行量化,和标量量化一样,它把矢量空间
分成若干个小区域,每个小区域寻找一个代表矢量,
码书
N个特征矢量 wen {X , X , … , X } 1 2 N
{2 , 4, … , 1}
语 码本
文 码本 {Y1 ,Y2 ,…,YJ}
音 码本
模板库
学 码本
三、矢量量化在语音识别中的应用
先对系统中的每个字,做一个码本作为该字 的参考(标准)模板,共有M个字,故共有M个码 本,组成一个模板库。 识别时,对于任意输入的语音特征矢量序列X ={X1 , X2 , … , XN},计算该序列中每一个特 征矢量对模板库中的每个码本的总平均失真量误
语音信号处理方法及应用论述

语音信号处理方法及应用论述通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。
语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要手段。
它具有最大的信息容量和最高的只能水平。
因此,用现代的手段研究语音处理技术,使人们能更有效的产生、传输、存储、获取和应用语音信息,对于促进社会发展具有十分重要的的意义。
语音信号处理正是一门研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴学科,是目前发展最为迅速的信息科学研究领域的核心技术之一,同时又是综合性的多学科领域和涉及面很广的交叉学科。
语音信号处理的理论和研究包括紧密结合的两个方面:一方面是从语音的产生和感知来对其进行研究,这一研究语音.语言学、认知科学、心理.生理学等学科密不可分。
另一方面是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用与语音信号的处理方法和技术。
20世纪60年代中期形成的一系列数字信号处理方法和算法,如数字滤波器、快速傅里叶变换(FFT)是语音数字信号处理的理论和技术基础。
而70年代初期产生的线性预测编码(LPC)算法,为语音信号的数字处理提供了一个强有力的工具。
广泛的应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法。
80年代初一种新的基于聚类分析的高效数据压缩技术——矢量量化(VQ)应用于语音信号处理中。
而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时它的许多成果也体现在有关语音信号处理的各项技术之中。
进入20世纪90年代以来,语音信号处理在实用化方面取得了许多实质性的研究进展。
其中,语音识别逐渐由实验室走向实用化。
一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点。
第四章 矢量量化

第四章矢量量化1、矢量量化?(VQ)是1956年由steinhaus首次提出的,1970年代后期发展起来的数据压缩和编码技术。
它主要应用于:语音编码、语音合成、语音识别和说话人识别。
矢量量化在语音信号处理中占有重要地位。
2、标量量化和矢量量化?✓标量量化:是对标量进行量化,即一维的矢量量化。
将动态范围分成若干个小区间,每小区间有一个代表值。
当输入信号落入某区间时,量化成该代表值。
✓矢量量化:是对矢量进行量化。
将矢量空间分成若干个小区域,每小区域有一个代表矢量。
当输入矢量落入某区域时,量化成该代表矢量。
矢量量化是标量量化的发展。
矢量量化总是优于标量量化,维数越高,性能越优越。
矢量量化有效利用各分量间的互相关性。
1970年代末,Linde,Buzo,Gray和Markel等人首次解决了矢量量化码书生成的方法,并首先将矢量量化用于语音编码获得巨大成功。
如,在语音通信方面,将在原来编码速率为2.4kbit/s的线性预测声码器基础上,将每帧的10个反射系数加以10维的矢量量化,就可使编码速率降低到800bit/s,而声音质量基本未下降。
又如分段声码器,由于采用矢量量化,可以使数码率降低到150bit/s。
3、矢量量化的基本原理?标量量化是对信号的单个样本或参数的幅度进行量化;标量是指被量化的变量,为一维变量。
矢量量化的过程是将语音信号波形的K个样点的每一帧,或有K个参数的每一参数帧构成K维空间的一个矢量,然后对这个矢量进行量化。
标量量化可以说是K=1的矢量量化。
矢量量化的过程和标量量化过程相似。
在标量量化时,在一维的零至无穷大值之间设置若干个量化阶梯,当某输入信号的幅度值落在某相邻的两个量化阶梯之间时,就被量化成两阶梯的中心值。
而在矢量量化时,则将K维无限空间划分为M 个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。
矢量量化的定义将信号序列{}i y 的每K 个连续样点分成一组,形成K 维欧氏空间中的一个矢量,矢量量化就是把这个K 维输入矢量X 映射成另一个K 维量化矢量。
模糊C—均值(FCM)聚类法与矢量量化法相结合用于说话人识别

得到 L C , L CCL P P (PC倒谱) 参数.它为语音谱的包络提供 了很好的近似 ,比直接 由 F T离 F (
散 傅 里 叶 变 换 ) 到 的语 音谱 平 稳 . 得 语 音的 L PC 参 数 分 析 即 是 用 语 音 信 号 对过 去 P 个 时刻 的采 样 值 的线 性 组 台 最 小 预 测 误 差 预 测 下一 时刻 的信 号采 样 值 ,其 时 域 模 型 表 示 式 为
维普资讯
雕
笨2 第6 4 期。. .
电 子 与 信 息 学 报
鞋 鏊 瓣 髂
墼 飘曩辨 躲 罄
Vi4 n o2 N 6
Jn 02 u e2 0
!
J OURNAL OF E ECTRONI SAND NF L C I ORM A ON ECH TI T OL OGY
语音信号中 提取的 1 2阶 L C( P 拽性顶测编码) 倒谱系数作为待分类样本的 1 2十指标.先用矢量量化法求
出每 十说话 ^表征特征参数的码书,作为模糊聚类算法的聚类中心.景后将待识别的持征矢量以得 到的码书 为聚娄中心,进行聚类识 别.该算法所使用的特征参数较少,计赞 比较简单,但识别率较 矢量量化法高. 关 键 诃 模 糊 幕 粪 . 矢量 量 化 ,说 话 ^ 识 别 .语 音 特 征 中 图号 TP3 142 TN9 2 3 9 . 1
2语 音 特 征 参 数 l -
2i 音 信 号 预 处 理 首 先 根 据 语 音信 号 的 短 时 能 量 和 短 时平 均 过零 率 可 确 定 语 音 信 号 的 有 语 无 当短 时 能 量 和 过零 率 都 很 小 时 , 判 定 无语 音信 号 可 其次 瞄颓 对 语 音 信号 进 行 预 加 重 处理 . 本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自适应矢量量化在语音识别中的应用张恒河北工业大学信息工程学院通信与信息系统学号:201020195009 摘要:介绍了用离散隐马尔可夫模型( DHMM)构造孤立词语音识别系统中的特征向量矢量量化的码书构造过程。
以往的矢量量化通常采用基本算法LBG, 在此基础上, 引入了一种时间复杂性和空间复杂性有所降低的改进算法。
该算法的核心是自适应地生成初始码书以及对初始码书的二次构造过程。
从降低时间复杂度和节省存储空间,提高识别率的角度, 对该算法进行了讨论。
关键词:语音识别;矢量量化;LBG;自适应码书1 引言现代语音识别中最常用的识别方法是Baum 等人提出的隐马尔可夫模型(HMM)。
HMM 是数学上一类重要的双重随机模型, 用概率统计的方法描述时变语音信号,很好地描述了语音信号的整体非平稳性和局部平稳性。
HMM 的各状态对应语音信号的各平稳段, 各状态之间以一定转移概率相联系,是一种较为理想的语音模型。
在孤立词语音识别过程中, 通常采用离散隐马尔可夫模型(DHMM) , 取得了比较好的实用效果[1][2]。
在构造离散隐马尔可夫模型(DHMM) 过程中, 对提取的MFCC特征参数矢量量化的码书构造是其中的一个主要部分, 码书的选择会影响时间和空间的复杂度以及整个系统的识别率。
目前为止, 矢量量化的方法很多, 其中最典型的是1980年, Linde, Buzo 和Gray提出的LBG算法[3]。
他可根据给定的训练序列, 经多次递归运算, 求出满足要求的码书和输入矢量的划分。
LBG 算法的突出优点是压缩比大且解码算法简单, 已被广泛应用于语音识别或图像编码等领域。
2 LBG算法LBG算法是一种有效和直观的矢量量化码书设计算法, 其具体算法描述如下[4]: 训练矢量集为011{,,},MX x x x M-=为训练适量的个数。
(1)给定出师码书:()()()()0000011{,,}NC y y y-= ,令迭代次数k=0.平均失真()1D-→∞,给定相对误差门限(01)εε<<。
(2)用码书()nC中的各码字作为质心,根据最佳划分原则把训练矢量集X划分为N个细胞腔()()()()0000011{,,,}NS S S S-= ,()niS满足:()(){|(,)}n ni iS v d v y=()01min(,),{}njj Nd v y v X≤≤-=∈(1)其中01i N≤≤-。
(3)计算平均失真()1()011min(,)Mn ni jj NiD d x yM-≤≤-==∑(2)判断相对误差是否满足(1)()()|/|n n n D D D ε--≤ (3)若满足,则停止算法,码书()n C 就是所的码书,否则就转步骤(4)。
(4)根据最佳码书条件,计算各细胞腔的质心,即:()(1)()1||n i n in v s i yV s +∈=∑ (4) 由这n 个新质心(1)n i y +,i=0,1,…,N-1 形成新码书,置n=n+1,转步骤(2)。
LBG 算法有3个主要缺点:(1) 码书的自适应性不强,不能根据训练矢量集数据的随机分布自适应地取得初始码书;(2) 在每次迭代的最佳划分阶段,从码书中搜索训练矢量的最近码字需要大量的存储空间和繁琐的计算;(3) 初始码书的选择影响码书训练的收敛速度和最终码书的性能。
传统的初始码书生成方法或者采用随机生成或者采用分裂法[5]。
3 自适应二阶码书设计算法在这部分中,阐述了一种自适应二阶码书(AutomatorSecond Book,ASB) 生成算法, 他提高了码书的自适应性能,且设计的时间和占用的存储空间与 LBG 算法相比均有所降低。
3.1 自适应码书生成 传统的矢量量化方法LBG 的一个缺点是自适应性不强,ASB 算法自适应的生成一阶码书,提高了码书的自适应性。
利用每一语音样本MFCC 特征参数iX 的2L 范数2|||Ti i i X X X =,求出每一语音样本MFCC 特征参数的范数,即i X 的欧几里德内积。
所有MFCC 参数中最小的欧氏距离min d ,最大的欧氏距离max d 。
N 个码字的平均欧氏距离:avg (max min )/1d d d N =-- (5)在N 个等分的同心圆环区域,可以理解为N 个同心圆内 (如图1所示),自适应的划分任一图像子块落在哪一个区域内[6]。
2()((||||min )/)1d i i B X fix X d avgd =-+(6)通过式(6)自适应地把距离相近的MFC 参数块确定在一个区域范围内,用每一区域内所有子块的平均值作为码字,得到高性能的有代表性的码字。
3.2 二阶码书的生成 通过式(5)和式( 6)自适应地生成具有 N 个码字的一阶码书。
为了获得更好的压缩比, 节省更多的存储空间考虑对一阶码书进行二次压缩。
其中二阶码书的码字个数为M(M <N)。
经过实验分析, 也取得了理想的效果。
以一阶码书作为初始向量集, 进行如下操作:选定初始向量集中一向量X,每一向量iY 与其的余弦夹角, 其中i Y N 为i Y 的单位化:()cos()*180/iTi Y A Y a XN π= (7) 所有向量中最小的余弦夹角min a, 最大的余弦夹角max a 。
M 个码字的平均夹角:avg (max min )/1a d d M =-- (8) 在M 个等分的角度空间内,自适应的划分任一向量落在哪一个区域内如图2所示。
()((()min )/)1a i i B X fix A Y a avga =-+(9)3.3 算法步骤 (1) 设训练矢量集为11{,,}M X x x x = ,通过欧几里德内积求出每一MFCC 特征参数i x 的二范数并对其标 准化。
(2)将二范数的最大值与最小值的N 等份,求出每一等份的等均值,N 为码字的个数。
(3) 利用上步所求等均值计算出落在第 I ( I = 1, 2,…, N)个码字邻域内的MFCC 特征参数值以及MFCC 特征参数的个数, 将其 MFCC 特征参数值的和/ MFCC 特征参数的个数得到一均值,作为新的码字,并记录各码字与各MFCC 特征参数之间的对应关系。
如果落在某一码字的子块个数为0,则删掉该码字,并把拥有子块个数最多的码字分裂成两个码字。
从而生成一阶码书()()()()1111011{,,}N Cy y y -= 。
()()()()1111011{,,}N C y y y -= 作为为初始向量集,以其中某一向量为x 轴, 求出其他向量与他的夹角,将最大夹角与最小夹角的差M 等份,求出每一等份的等均值,M 为二阶码书码字的个数。
(5) 利用上步所求等均值计算出落在第j(j=1,2,…,M)个码字邻域内的向量值以及向量的个数,将其向量值的和/向量的个数得到一均值,作为新的码字,并记录各码字与各向量之间的对应关系。
如果落在某一码字的子块个数为0,则删掉该码字, 并把拥有向量个数最多的码字分裂成两个码字。
从而生成二阶码书(2)(2)(2)(2)011{,,,}M C y y y -= 。
4 仿真实验为了验证自适应二阶码书设计算法的有效性,实验采用1350个语音样本为例,训练矢量设为一个MFCC 特征参数的向量。
设一阶码书中码字的个数设为N ,二阶码书 中码字的个数设为N/ 2。
4.1 语音库 采用表示方向的10个词, 共16个人参与录音,前5个人每人每词录5遍,后 11个人每人每词录10遍。
录音者分别来自黑龙江、河南、山东、湖北、河北、安徽、江苏、 新疆、陕西、福建。
语音采样率为8K ,每帧 256个采样点,帧,移50%。
4.2 实验数据 实验数据如表1所示。
5 结束语通过实验数据可以看出此算法由于提高了自适应性,去掉了比较的过程,因此降低了时间复杂度,减少了存储空间。
此算法降低了计算的复杂性, 在码字较大时尤为明显。
设码书大小为N ,矢量维数为k, num 为样本总数,则LBG 算法中,原始码书(0)C的计算时间为2log N ,一子块的量化时间复杂度为{+LBC t kN =次乘法(1)k N -2次加法 +(1)}/N -次比较输入子块,而ASB 算法的时间复杂度为{(1)+LBC t k N =+次乘法(1)}/k N +次加法输入子块,因其自适应性,减少了原始码书(0)C的计算和(N-1)次比较过程,时间复杂性上有所降低。
LBG 和 ASB 算,法的空间复杂度为()O k N ⨯,但随着N 的降低, ASB 算法的存储空间减少。
LBG 算法中码书的自适应性不强, 在ASB 算法中根据输入矢量自适应的确定其所在的最近的 搜索码字的范围的位置。
在生成了一阶码书后, 在保证精度的前提下, 以自适应的一阶码书的为训练矢量,设计了二阶码书,达到了二次自适应的效果,且效果理想。
综上所述,将自适应矢量量化算法用于DHMM 语音识别中,减少了设计时间,提高了识别率,将有一定的扩展空间。
)参考文献:[1]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.[2]Linde Y, Buzo A, Gray R M. An Algorithm fot Vector Quantizer Design[J].IEEE Transactions onCommunicartions,1980,28(1):80-85. [3]David Salomon.数据压缩原理与应用[M].2版.吴乐南,译.北京:电子工业出版社,2003.[4]陆哲明.矢量量化编码算法及应用研究[D].哈尔滨:哈尔滨工业大学,2001. [5]Gray M.Vector Quantization.IEEE ASSP Magazine,1984,1(2):4-29.[6]Gersho A, Gray R M .Vector Quantization and Signal Conrpression[M]. Kluwer Academic Publishers,1992.。