数字信号处理作业之语音识别小论文(很好很全)

数字信号处理作业之语音识别小论文(很好很全)
数字信号处理作业之语音识别小论文(很好很全)

绪论

语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要地位。在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。大体上说,语音信号处理技术可以分为以下四个面:即语音编码,语音合成、说话人识别和语音识别等。语音压缩编码是压语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。

1.语音识别概述

语音识别是试图使机器能“听懂”人类语音的技术。语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信

1.1国外研究历史及现状

语音识别的研究工作可以追溯到20世纪50年代。1952年AT&T贝尔实验室的Audry系统,是第一个可以识别十个英文数字的语音识别系统。20世纪60年代末、70年代初出现了语音识别方面的几种基本思想,其中的重要成果是提出了

信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。20世80年代语音识别研究进一步走向深入:其显著特征是HMM 模型和人工神经网络(ANN)在语音识别中的成功应用。90年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切要求语音识别系统从实验室走向实用。最具代表性的是IBM的ViaV oice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。

1.2 国内研究历史及现状

我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。

2. 语音识别的流程

根据对输出观测值概率的不同描述,HMM(隐式马尔可夫链)可分为离散HMM(DHMM)和连续HMM(CHMM),两者相似,不同的是CHMM使用连续概率密度函数计算状态概率。而DHMM则使用的是离散的矢量量化(vector quantization,VQ)计算状态概率。在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时每一个音框的语音信号变成VQ码本,用码本训练HMM,最后测试识别率。

3. 语音信号分析方法分类时域特征

直接从时域信号计算得到,反应了语音信号时域波形的特征。如短时平均能量、短时平均过零率、共振峰、基音周期等。

频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。听觉特征指不

直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。

4. 短时分析技术

语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳——准平稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”:一般10~30ms为一帧短时分析的不足对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性

5. 基于Mel频率的倒谱MFCC

生理支持

根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel频率的倒谱系数(MFCC)MFCC: Mel-Frequency Cepstrum Coefficients.

语音识别MFCC参数提取:

在语音识别(Speech Recognition)和语者辨识(Speaker Recognition)方面,最常用到的语音特征就是[梅尔倒频谱系数](Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。下面简单的介绍一下求解MFCC的过程。

5.1 音框化(Frame blocking)

先将N个取样点集合成一个观测单位,称为音框(Frame),通常N的值256或512,涵盖的时间约为20~30ms 左右。为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了M个取样点,通常M的值约是N 的一半或1/3。通常语音识别所用的音频的取样频率为8 KHz或16 KHz,8KHz 来说,若音框长度为256 个取样点,则对应的时间长度是256/8000*1000 = 32 ms。

5.2 汉明窗(Hamming window )

将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说明)。假设音框化的讯号为S(n),n = 0,…N -1。那么乘上汉明窗后为S'(n) = S(n)*W(n),此W(n) 形式如下

5.3 快速傅利叶转换(Fast Fourier Transform , or FFT )

由于讯号在时域(Time domain )上的变化通常很难看出讯号的特性,所以通常将它转换成频域(Frequency domain )上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每个音框还必需再经过 FFT 以得到在频谱上的能量分布。

乘上汉明窗的主要目的,是要加强音框左端和右端的连续性,这是因为在进行 FFT 时,都是假设一个音框内的讯号是代表一个周期性讯号,如果这个周期性不存在,FFT 会为了要符合左右端不连续的变化,而产生一些不存在原讯号的能量分布,造成分析上的误差。当然,如果我们在取音框时,能够使音框中的讯号就已经包含基本周期的整数倍,这时候的音框左右端就会是连续的,那就可以不需要乘上汉明窗了。但是在实作上,由于基本周期的计算会需要额外的时间,而且也容易算错,因此我们都用汉明窗来达到类似的效果。

5.4 三角带通滤波器组(Triangular Bandpass Filters )

将能量频谱能量乘以一组 20个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy )。必须注意的是:这20个三角带通滤波器在梅尔频率(Mel Frequency )上是平均分布的,而梅尔频率和一般频率 f 的关系式如下:

Mel (F )= 2595 * log )700

1(10F 梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的: 在低频部分,人耳感受是比较敏锐 。在高频部分,人耳的感受就会越来越粗糙 。

三角带通滤波器有两个主要目的:

对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。因此一段

语音的音调或音高,是不会呈现在 MFCC 参数内,所以,用 MFCC 为特征的语音识别系统,并不会受到输入语音的音调不同而有所影响。

将傅立叶转换结果经三角带通滤波器组进行滤波。

)(k B m 表示第m 个频带的三角带通滤波器

????

?????<≤≤--≤≤--<=++++----k f k k f f f k f k k f f f f k f k k B m m m m m m m m m m m m m 11111111,0,,,0)( M m ≤≤1 其中m f 是第m 个频带的中心,这M 个三角形带通滤波器在美尔(Mel-frequency)上是平均分配的。

下面方程式求每一个滤波器输出的对数能量

?

?????=∑≤≤-)()(log )(21k B k X m Y m f k f m m

5.5 离散余弦转换(Discrete cosine transform , or DCT )

将滤波器输出的能量作离散余弦(Discrete Cosine Transform , DCT)计算梅尔频率倒频谱系数(Mel-frequency Cepstral Coefficients , MFCC)

离散余弦计算公式:

L n M m n m Y n C M

m ,...,1,])21(cos[)(][1=-=∑=π 其中L 大致取12左右。

5.6 对数能量(Log energy )

一个音框的音量(即能量),也是语音的重要特征,而且非常容易计算。因此我们通常再加上一个音框的对数能量(定义为一个音框内讯号的平方和,再取以 10 为底的对数值,再乘以 10),使得每一个音框基本的语音特征就有 13

维,包含了 1 个对数能量和 12 个倒频谱参数。(若要加入其他语音特征以测试辨识率,也可以在此阶段加入,这些常用的其他语音特征,包含音高、过零率、共振峰等。)

5.7 差量倒频谱参数(Delta cepstrum )

虽然已经求出 13 个特征参数,然而在实际应用于语音识别时,我们通常会再加上差量倒频谱参数,以显示倒频谱参数对时间的变化。它的意义为倒频谱参数相对于时间的斜率,也就是代表倒频谱参数在时间上的动态变化,公式如下: ()()()()L m t C t C t C t C M M

m m M M M M m m ,...,2,1,2)(1212=?--+=+?=?∑∑∑∑==-=-=τττττττττττ

这里 M 的值一般是取 2 ,t 代表音框的数目,cm(t)指第t 框的倒谱参数。 因此,如果加上差量运算,就会产生 26 维的特征向量;如果再加上差差量运算,就会产生 39 维的特征向量。一般我们在 PC 上进行的语音识别,就是使用 39 维的特征向量。

6. 矢量量化,矢量量化的关键问题是如何获取VQ 码本,本文采用聚类算法-LBG 算法。

7. 用MATLAB 实时采集信号程序

首先将录音放到程序中的路径下,运行即可。运行结果如下:

语音库语者 1 与语者 1 匹配成功

语音库语者 2 与语者 2 匹配成功

语音库语者 3 与语者 2 匹配成功

语音库语者 4 与语者 4 匹配成功

语音库语者 5 与语者 5 匹配成功

语音库语者 6 与语者 6 匹配成功

语音库语者 7 与语者 7 匹配成功

语音库语者 8 与语者 8 匹配成功

语音库语者 9 与语者 9 匹配成功

8. 结论:

运行结果表明该说话人识别系统的识别能力是比较理想的,识别率为88%,语音库3识别不成功的原因主要有两个,一方面3的录音本身噪音相对大些,导致系统很难识别,另一方面,识别系统的算法还不是很理想,导致识别准确率不是100%。

程序如下:

function speaker_rec

%%%%

code = train('D:\tools\work\',9);

test('D:\tools\work\',9, code);

%*************************************************************** *********

function code = train(traindir, n)

%% 训练语音库里的声音样本,为每个人建立一个VQ码本

%% code=train(train,n)

%% 训练前,应将语音库中的语音文件用1:n的数字标记

% Input:

% traindir :样本语音库的路径

% n :样本语音库中语音文件的个数

%

% Output:

% code : trained VQ codebooks, code{i} for i-th speaker

k = 16; %VQ算法的最大迭代次数

for i = 1:n

file = sprintf('%s%d.wav', traindir, i) ;

[s, fs] = wavread(file);

s=s(1:30000,1);

index = find(s == 0); %避免除0

s(index) = 1e-17;

v = MFCC(s, fs); % Compute MFCC's

code{i} = vqlbg(v, k); % Train VQ codebook

end

%*************************************************************** **********

function test(testdir, n, code)

%用于对测试语音库中的文件进行测试

%建库的时候应该给语音文件按阿拉伯数字进行编码,以方便程序读取

% Input:

% testdir :测试语库的路径

% n :测试语音库中语音文件的个数

% code : codebooks of all trained speakers

for k = 1:n % 读取测试库中的文件

file = sprintf('%s%d.wav', testdir, k);

[s, fs] = wavread(file);

s=s(30000:60000,1); %读取文件中的样本点,改变数值即可获

取语音资料中的不同段

index = find(s == 0); %避免除0

s(index) = 1e-17;

v =MFCC(s, fs); % Compute MFCC's

distmin = inf;

k1 = 0;

for l = 1:length(code) % each trained codebook, compute distortion

d = disteu(v, code{l}); % 测试语音与码本进行逐一匹配(计算欧氏距离)

dist = sum(min(d,[],2)) / size(d,1);

if dist < distmin

distmin = dist;

k1 = l;

end

end

msg = sprintf('语音库语者%d 与语者%d 匹配成功', k, k1);

disp(msg);

end

%*************************************************************** **********

function d = disteu(x, y)

%%计算两个矩阵列之间的欧氏距离

% DISTEU Pairwise Euclidean distances between columns of two matrices %

% Input:

% x, y: Two matrices whose each column is an a vector data.

%

% Output:

% d: Element d(i,j) will be the Euclidean distance between two % column vectors X(:,i) and Y(:,j)

%

% Note:

% The Euclidean distance D between two vectors X and Y is:

% D = sum((x-y).^2).^0.5

[M, N] = size(x);

[M2, P] = size(y);

if (M ~= M2)

error('Matrix dimensions do not match.')

end

d = zeros(N, P);

if (N < P)

copies = zeros(1,P);

for n = 1:N

d(n,:) = sum((x(:, n+copies) - y) .^2, 1);

end

else

copies = zeros(1,N);

for p = 1:P

d(:,p) = sum((x - y(:, p+copies)) .^2, 1)';

end

end

d = d.^0.5;

%*************************************************************** **********

function r = vqlbg(d,k)

%%采用LBG算法获取VQ码本

%%该算法程序来源:程序员联合开发网

% VQLBG Vector quantization using the Linde-Buzo-Gray algorithme

%

% Inputs: d contains training data vectors (one per column)

% k:算法最大的迭代次数

%

% Output: r contains the result VQ codebook (k columns, one for each centroids)

e = .01;

r = mean(d, 2);

dpr = 10000;

for i = 1:log2(k)

r = [r*(1+e), r*(1-e)];

while (i == 1)

z = disteu(d, r);

[m,ind] = min(z, [], 2);

t = 0;

for j = 1:2^i

r(:, j) = mean(d(:, find(ind == j)), 2); %mean为MathWorks的库函数x = disteu(d(:, find(ind == j)), r(:, j));

for q = 1:length(x)

t = t + x(q);

end

end

if (((dpr - t)/t) < e)

break;

else

dpr = t;

end

end

end

%*************************************************************** ***********

%MFCC.m

%本文件用于计算MFCC倒谱系数(共可获得26维参数)

%输入: s为用声卡采集的信号

%输出:C为计算出的倒谱系数

function C=MFCC(s,FS)

%*************************************************************** *********

%将信号先音框化后加汉明窗(n为音框宽m为音框距)

m = 100;

n = 256;

l = length(s);

nbFrame = floor((l - n) / m) + 1;

for i = 1:n

for j = 1:nbFrame

M(i, j) = s(((j - 1) * m) + i);

end

end

h = hamming(n);

M2 = diag(h) * M;

for i = 1:nbFrame

frame(:,i) = fft(M2(:, i)); %得各个音框的频谱

end

%*************************************************************** ***********

%% 用在melf频带上均布的三角带通滤波器组对频谱能量进行滤波

%将HZ转换美尔坐标

melf=2595*log10(1+FS/2/700);

melf_width=melf/21;

i=[0:21];

tem_melf=melf_width*i;

f_tem=(10.^(tem_melf/2595)-1)*700;

% f_tem=round(f_tem); %划分频率段f_tem(2:21)即为20个中心频率

for i=2:21

fm(i)=f_tem(i); %fm为第m个频带的中心end

fm(22)=FS/2;

fm(1)=0;

bm=zeros(20,n/2+1);

j=1:n/2;

k(2:n/2+1)=FS/2/(n/2)*j;

for i=2:21

for j=1:n/2+1

if k(j)

bm1(j)=0;

else if fm(i-1)<=k(j) & k(j)<=fm(i)

bm1(j)=(k(j)-fm(i-1))/(fm(i)-fm(i-1));

else if fm(i)

bm1(j)=(fm(i+1)-k(j))/(fm(i+1)-fm(i));

else

bm1(j)=0;

end

end

end

end

bm(i-1,:)=bm1;

end

n2 = 1 + floor(n / 2);

z = bm * abs(frame(1:n2, :)).^2;

c = dct(log(z)); %c为倒谱系数

c=c(1:12,:); %取前12维倒谱系数

%*************************************************************** ***********

%%计算音框的对数能量

tem_frame=frame(1:n2,:);

for i=1:nbFrame

tem_frame(:,i)=tem_frame(:,i).^2;

sum_frame(i)=sum(tem_frame(:,i));

end

c_energy=10*log10(sum_frame); %c_energy为第十三维参数c13=zeros(12,nbFrame);

c13(:,1:nbFrame)=c(:,1:nbFrame);

c13(13,:)=c_energy; %c13为十三维参数

%*************************************************************** ***********

%%计算差量倒谱系数

%%计算一阶差分

M=2;

tao=1:M;

tem=tao.^2;

tem=sum(tem)*2;

c26_tem=zeros(13,nbFrame+4);

c26=zeros(26,nbFrame);

tem1=zeros(13,2);

tem2=zeros(13,nbFrame);

c26_tem(:,3:nbFrame+2)=c13(:,1:nbFrame);

for i=1:nbFrame

for j=1:2

tem1(:,j)=(c26_tem(:,i+2+j)-c26_tem(:,i+2-j))*j/tem;

end

tem2(:,i)=tem1(:,1)+tem1(:,2);

end

c26(14:26,:)=tem2(1:13,:); %c26为一阶差分后的26维参数c26(1:13,:)=c13(1:13,:);

C=c26;

%*************************************************************** ***********

毕业论文(很好很全)

数字信号处理论文-带通滤波器

本文分析了国内外数字滤波技术的应用现状与发展趋势,介绍了数字滤波器的基本结构,在分别讨论了IIR与FIR数字滤波器的设计方法的基础上,指出了传统的数字滤波器设计方法过程复杂、计算工作量大、滤波特性调整困难的不足,提出了一种利用MATLAB信号处理工具箱(Signal Processing Toolbox)快速有效的设计由软件组成的常规数字滤波器的设计方法。给出了使用MATLAB语言进行程序设计和利用信号处理工具箱的FDATool工具进行界面设计的详细步骤。利用MATLAB设计滤波器,可以随时对比设计要求和滤波器特性调整参数,直观简便,极大的减轻了工作量,有利于滤波器设计的最优化。本文还介绍了如何利用MATLAB环境下的仿真软件Simulink对所设计的滤波器进行模拟仿真。 1.1数字滤波器的研究背景与意义 当今,数字信号处理[1] (DSP:Digtal Signal Processing)技术正飞速发展,它不但自成一门学科,更是以不同形式影响和渗透到其他学科:它与国民经济息息相关,与国防建设紧密相连;它影响或改变着我们的生产、生活方式,因此受到人们普遍的关注。 数字化、智能化和网络化是当代信息技术发展的大趋势,而数字化是智能化和网络化的基础,实际生活中遇到的信号多种多样,例如广播信号、电视信号、雷达信号、通信信号、导航信号、射电天文信号、生物医学信号、控制信号、气象信号、地震勘探信号、机械振动信号、遥感遥测信号,等等。上述这些信号大部分是模拟信号,也有小部分是数字信号。模拟信号是自变量的连续函数,自变量可以是一维的,也可以是二维或多维的。大多数情况下一维模拟信号的自变量是时间,经过时间上的离散化(采样)和幅度上的离散化(量化),这类模拟信号便成为一维数字信号。因此,数字信号实际上是用数字序列表示的信号,语音信号经采样和量化后,得到的数字信号是一个一维离散时间序列;而图像信号经采样和量化后,得到的数字信号是一个二维离散空间序列。数字信号处理,就是用数值计算的方法对数字序列进行各种处理,把信号变换成符合需要的某种形式。例如,对数字信号经行滤波以限制他的频带或滤除噪音和干扰,或将他们与其他信号进行分离;对信号进行频谱分析或功率谱分析以了解信号的频谱组成,进而对信号进行识别;对信号进行某种变换,使之更适合于传输,存储和应用;对信号进行编码以达到数据压缩的目的,等等。 数字滤波技术是数字信号分析、处理技术的重要分支[2-3]。无论是信号的获取、传输,还是信号的处理和交换都离不开滤波技术,它对信号安全可靠和有效灵活地传输是至关重要的。在所有的电子系统中,使用最多技术最复杂的要算数字滤波器了。数字滤波器的优劣直接决定产品的优劣。 1.2数字滤波器的应用现状与发展趋势 在信号处理过程中,所处理的信号往往混有噪音,从接收到的信号中消除或减弱噪音是信号传输和处理中十分重要的问题。根据有用信号和噪音的不同特性,提取有用信号的过程称为滤波,实现滤波功能的系统称为滤波器。在近代电信设备和各类控制系统中,数字滤波器应用极为广泛,这里只列举部分应用最成功的领域。 (1) 语音处理

(完整版)数字电路基础知识外文翻译毕业设计论文

优秀论文审核通过 未经允许切勿外传 原文: Digital circuit definition: Completes with the digital signal to the digital quantity carries onthe arithmetic operation and the logic operation electric circuit iscalled the digital circuit, or number system. Because it and the logical processing function, therefore calls thenumeral logic circuit. Numeral logic circuit classification (according to function minute): 1st, combinatory logic electric circuit The abbreviation combination circuit, it becomes by the mostbasic logical gate electric circuit combination. The characteristicis: Output value only and then input value related, namely output onlyby then input value decision. The electric circuit , the output condition changes along with the inputcondition change, is similar to the resistance electric circuit, likethe accumulator, the decoder, the encoder, the data selector and so onall belong to this kind. 2nd, succession logic circuit

浅析语音识别技术的难点及对策

浅析语音识别技术的难点及对策 在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。 语音识别技术 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。 语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT">60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning,DP)和线性预测分析(Linear Predict,LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。 70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding,LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠

数字信号处理课程设计毕业设计(论文)word格式

《数字信号处理》课程设计 作 业 院系:物理工程学院电子信息科学与技术 班级:1 学号:20092250103 姓名:冯军美

实验一:音乐信号音谱和频谱的观察 1.实验方案 读取音乐信号并将信号装换为单声道的,并输出信号的波形图和频谱图% 2.源程序 clear all; close all;clc [x,fs,bit]=wavread('F:\费玉清-一剪梅00_01_23-00_01_28.wav'); %读取音乐信号,其中x为截取的音乐信号 size(x) %看音乐信号是单声道还是双声道 sound(x,fs); %听原始音乐信号 x=x(:,1); %获取单声道音乐信号 N=length(x); %N为音乐信号的长度 figure plot(x) %画音乐信号的连续波形 grid on %产生虚线格 title('音乐信号时域波型') %标注图注 xlabel('Time') %x坐标 ylabel('Magnitude') %y坐标 F1=fft(x,N); %做音乐信号的N点快速傅里叶变换 w=2/N*[0:N-1]; %w为连续频谱的数字角频率横坐标 figure plot(w,abs(F1)) %连续频谱图 grid on title('音乐信号频域波型') xlabel('Frequency/Hz') ylabel('Magnitude') %不同抽样频率下听取的音乐信号 % sound(x,2*fs); sound(x,fs/2);

3.输出波形 0.5 1 1.5 2 2.5x 10 5 -1-0.8-0.6-0.4-0.200.20.40.60.8 1音乐信号时域波型 Time M a g n i t u d e 00.20.40.6 0.81 1.2 1.4 1.6 1.82 500 1000 1500 20002500 3000 音乐信号频域波型 Frequency/Hz M a g n i t u d e

图像处理论文

图像处理技术近期发展及应用 摘要:图像处理技术的研究和应用越来越收到社会发展的影响,并以自身的技术特点反过来影响整个社会技术的进步。本文主要简单概括了数字图像处理技术近期的发展及应用现状,列举了数字图像处理技术的主要优点和制约其发展的因素,同时设想了图像处理技术在未来的应用和发展。 关键字:图像处理发展技术应用 1.概述 1.1图像的概念 图像包含了它所表达的物体的描述信息。我们生活在一个信息时代,科学研究和统计表明,人类从外界获得的信息约有百分之七十来自视觉系统,也就是从图像中获得,即我们平常所熟知的照片,绘画,动画。视像等。 1.2图像处理技术 图像处理技术着重强调在图像之间进行的变换,主要目标是要对图像进行各种加工以改善图像的视觉效果并为其后的目标自动识别打基础,或对图像进行压缩编码以减少图像存储所需要的空间或图像传输所需的时间。图像处理是比较低层的操作,它主要在图像像素级上进行处理,处理的数据量非常大。 1.3优点分析 1.再现性好。数字图像处理与模拟图像处理的根本不同在于,它不会因图像的存储、传输或复制等一系列变换操作而导致图像质量的退化。 2.处理精度高。按目前的技术,几乎可将一幅模拟图像数字化为任意大小的二维数组,这主要取决于图像数字化设备的能力。现代扫描仪可以把每个像素的灰度等级量化为16位甚至更高,这意味着图像的数字化精度可以达到满足任一应用需求。 3.适用面宽。图像可以来自多种信息源,它们可以是可见光图像,也可以是不可见的波谱图像(例如X射线图像、射线图像、超声波图像或红外图像等)。从图像反映的客观实体尺度看,可以小到电子显微镜图像,大到航空照片、遥感图像甚至天文望远镜图像。即只要针对不同的图像信息源,采取相应的图像信息采集措施,图像的数字处理方法适用于任何一种图像。 4.灵活性高。图像处理大体上可分为图像的像质改善、图像分析和图像重建三大部分,每一部分均包含丰富的内容。而数字图像处理不仅能完成线性运算,而且能实现非线性处理,即凡是可以用数学公式或逻辑关系来表达的一切运算均可用数字图像处理实现。 2.近期发展及应用领域

数字信号处理期末论文

题目:基于DSP的FFT程序设计的研究 作者届别 系别专业 指导老师职称 完成时间2013.06

内容摘要 快速傅里叶变(Fas Fourier Tranformation,FFT)是将一个大点数N的DFT分解为若干小点的D F T的组合。将用运算工作量明显降低,从而大大提高离散傅里叶变换(D F T) 的计算速度。因各个科学技术领域广泛的使用了FFT 技术它大大推动了信号处理技术的进步,现已成为数字信号处理强有力的工具,本论文将比较全面的叙述各种快速傅里叶变换算法原理、特点,并完成了基于MATLAB的实现。 关键词:频谱分析;数字信号处理;MATLAB;DSP281x

引言: 1965年,库利(J.W.Cooley)和图基(J.W.Tukey)在《计算数学》杂志上发表了“机器计算傅立叶级数的一种算法”的文章,这是一篇关于计算DFT的一种快速有效的计算方法的文章。它的思路建立在对DFT运算内在规律的认识之上。这篇文章的发表使DFT的计算量大大减少,并导致了许多计算方法的发现。这些算法统称为快速傅立叶变换(Fast Fourier Transform),简称FFT,1984年,法国的杜哈梅尔(P.Dohamel)和霍尔曼(H.Hollmann)提出的分裂基快速算法,使运算效率进一步提高。FFT即为快速傅氏变换,是离散傅氏变换的快速算法,它是根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的。它对傅氏变换的理论并没有新的发现,但是对于在计算机系统或者说数字系统中应用离散傅立叶变换,可以说是进了一大步。 随着科学的进步,FFT算法的重要意义已经远远超过傅里叶分析本身的应用。FFT算法之所以快速,其根本原因在于原始变化矩阵的多余行,此特性也适用于傅里叶变换外的其他一些正交变换,例如,快速沃尔什变换、数论变换等等。在FFT的影响下,人们对于广义的快速正交变换进行了深入研究,使各种快速变换在数字信号处理中占据了重要地位。因此说FFT对数字信号处理技术的发展起了重大推动作用。 信号处理中和频谱分析最为密切的理论基础是傅立叶变换(Fouriertransform,FT)。快速傅立叶变换(FFT)和数字滤波是数字信号处理的基本内容。信号时域采样理论实现了信号时域的离散化,而离散傅里叶变换理论实现了频域离散化,因而开辟了数字技术在频域处理信号的新途径,推进了信号的频谱分析技术向更广的领域发展。 1.信号的频谱分析 如果信号频域是离散的,则信号在时域就表现为周期性的时间函数;相反信号在时域上是离散的,则该信号在频域必然表现为周期的频率函数。不难设想,一个离散周期序列,它一定具有既是周期又是离散的频谱。有限长序列的离散傅里叶变换和周期序列的离散傅里叶级数本质是一样的。因而有限长序列的离散傅里叶变换的定义为:x(n)和X(k)是一个有限长序列的离散傅里叶变换对。

数字信号处理论文

DSP技术在生物信号检测中的应用 【摘要】论述了生物信号的基本特征和生物医学信号的检测方法,详细阐述了生 物医学信号检测中的干扰和噪声,其来源、抑制、与处理方法。说明了DSP技术及其在生物医学中的应用,重点介绍了DSP的数据处理部分和USB2.0的通讯接口。利用 DSP 的高性能数据处理能力 ,使得从微弱信号中提取生物信号并检测,保证较高的精度成为可能,并利用其USB2.0高速接口,实现了与 PC之间即插即用和高速,可靠的通信。 【关键词】生物医学信号检测数字信号处理通用串行总线【Abstract】Biological signal and the basic characteristics of biomedical signal detection method are discussed in this thesis, biomedical signal detection of interference and noise are thoroughly elaborated, including its source, inhibition, and processing method. We made a description of the DSP technology and its application in biomedicine area and focus on the data processing portion of DSP and a USB2.0 communication interface. Using the powerful data processing capability of DSP, it is possible for us to extract the biological signal from weak signal and make sure it’s high precision. By using the high-speed USB2.0 interface, PNP and high speed, reliable communication to PC is realized. 【Key words】Biomedical Signal Detection DSP USB 1 引言 生物医学信号的采集和处理是生物医学工程的一个重要领域,也是近年来迅速发展的数字信号处理技术的一个重要应用方面。由于人体的脉象、心跳等信号具有信号微弱,噪声干扰严重、随机性强等特点,因此对于脉象、心跳等生物医学信号的采集和处理具有十分重要的意义。该系统通过预处理电路对信号进行放大和滤波,放大有用信号、滤除噪声和工频干扰等,然后送入AD 进行采集,最后通过DSP 进行后续处理。实验证明该系统可以成功检测到脉象和心跳信号,并具有精度高,电路结构简单、系统功耗低等特点。 生物信号检测是检测技术中的一个综合性的技术分支,它利用电子学、信息论和物理学的方法,技术分支,它利用电子学、信息论和物理学的方法,和相关性,检出并恢复被背景噪声掩盖的微弱信号。微弱信号检测技术研究的重点是如何从强噪声中提取有用信号,探索采用新技术和新方法来提高检测系统输出信号的信噪比。 2 DSP技术的基本介绍 数字信号处理(Digital Signal Processing,简称DSP)是一门涉及许多学科而又广泛应用于许多领域的新兴学科。20世纪60年代以来,随着计算机和信

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

基于Matlab的数字图像处理系统毕业设计论文

论文(设计)题目: 基于MATLAB的数字图像处理系统设计 姓名宋立涛 学号201211867 学院信息学院 专业电子与通信工程 年级2012级 2013年6月16日

基于MATLAB的数字图像处理系统设计 摘要 MATLAB 作为国内外流行的数字计算软件,具有强大的图像处理功能,界面简洁,操作直观,容易上手,而且是图像处理系统的理想开发工具。 笔者阐述了一种基于MATLAB的数字图像处理系统设计,其中包括图像处理领域的大部分算法,运用MATLAB 的图像处理工具箱对算法进行了实现,论述了利用系统进行图像显示、图形表换及图像处理过程,系统支持索引图像、灰度图像、二值图像、RGB 图像等图像类型;支持BMP、GIF、JPEG、TIFF、PNG 等图像文件格式的读,写和显示。 上述功能均是在MA TLAB 语言的基础上,编写代码实现的。这些功能在日常生活中有很强的应用价值,对于运算量大、过程复杂、速度慢的功能,利用MATLAB 可以既能快速得到数据结果,又能得到比较直观的图示。 关键词:MATLAB 数字图像处理图像处理工具箱图像变换

第一章绪论 1.1 研究目的及意义 图像信息是人类获得外界信息的主要来源,近代科学研究、军事技术、工农业生产、医学、气象及天文学等领域中,人们越来越多地利用图像信息来认识和判断事物,解决实际问题,由此可见图像信息的重要性,数字图像处理技术将会伴随着未来信息领域技术的发展,更加深入到生产和科研活动中,成为人类生产和生活中必不可少的内容。 MATLAB 软件不断吸收各学科领域权威人士所编写的实用程序,经过多年的逐步发展与不断完善,是近几年来在国内外广泛流行的一种可视化科学计算软件。MATLAB 语言是一种面向科学与工程计算的高级语言,允许用数学形式的语言来编写程序,比Basic、Fortan、C 等高级语言更加接近我们书写计算公式的思维方式,用MATLAB 编写程序犹如在演算纸上排列出公式与求解问题一样。它编写简单、编程效率高并且通俗易懂。 1.2 国内外研究现状 1.2.1 国内研究现状 国内在此领域的研究中具有代表性的是清华大学研制的数字图像处理实验开发系统TDB-IDK 和南京东大互联技术有限公司研制的数字图像采集传输与处理实验软件。 TDB-IDK 系列产品是一款基于TMS320C6000 DSP 数字信号处理器的高级视频和图像系统,也是一套DSP 的完整的视频、图像解决方案,该系统适合院校、研究所和企业进行视频、图像方面的实验与开发。该软件能够完成图像采集输入程序、图像输出程序、图像基本算法程序。可实现对图像信号的实时分析,图像数据相对DSP独立方便开发人员对图像进行处理,该产品融合DSP 和FPGACPLD 两个高端技术,可以根据用户的具体需求合理改动,可以分析黑白和彩色信号,可以完成图形显示功能。 南京东大互联技术有限公司研制的数字图像采集传输与处理实验软件可实现数字图像的采集、传输与处理。可利用软件及图像采集与传输设备,采集图像并实现点对点的数字图像传输,可以观察理解多种图像处理技术的效果和差别,

数字图像处理论文

数字图像处理论文 一、数字图像处理的概念与发展概况 数字图像处理(Digital Image Processing)又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。随着图像处理技术的深入发展,从70年代中期开始,随着计算机技术和人工智能、思维科学研究的迅速发展,数字图像处理向更高、更深层次发展。人们已开始研究如何用计算机系统解释图像,实现类似人类视觉系统理解外部世界,这被称为图像理解或计算机视觉。很多国家,特别是发达国家投入更多的人力、物力到这项研究,取得了不少重要的研究成果。其中代表性的成果是70年代末MIT的Marr提出的视觉计算理论,这个理论成为计算机视觉领域其后十多年的主导思想。图像理解虽然在理论方法研究上已取得不小的进展,但它本身是一个比较难的研究领域,存在不少困难,因人类本身对自己的视觉过程还了解甚少,因此计算机视觉是一个有待人们进一步探索的新领域。 图像是人类获取和交换信息的主要来源,因此,图像处理的应用领域必然涉及到人类生活和工作的方方面面。随着人类活动范围的不断扩大,图像处理的应用领域也将随之不断扩大。,已在国家安全、经济发展、日常生活中充当越来越重要的角色,对国计民生的作用不可低估。 二、图像处理的目的 一般地,图像处理需要完成一下一项或几项任务。 (1)提高图像的视觉质量以提供人眼主观满意度或较满意的效果。例如,图像的增强、恢复、几何变换、代数运算、滤波处理等,有可能使受到污染、干扰等因素产生的低清晰度、变形图像等的质量得到有效改善。 (2)提取图像中目标的某些特征,以便于计算机分析或机器人识别。提取特征或信息的过程是模式识别或计算机视觉的预处理。提取的特征可以包括很多方面,如频域特征、灰度或颜色特征、边界特征、区域特征、纹理特征、形状特征、拓扑特征和关系结构等。 (3)为了存储和传输庞大的图像和视频信息,常常对这类数据进行有效的变换、编码和压缩。如统计编码、预测编码和正交变换等方法。 (4)信息的可视化。信息可视化结合了科学可视化、人机交互、数据挖掘、图像技术、图形学、认知科学等诸多学科的理论和方法,是研究人、计算机表示的信息以及它们相互影响的技术。 (5)信息安全的需要。主要反映在数字图像水印和图像信息隐藏方面。这是新世纪图像工程出现的新热点之一。 三、图像处理的任务与常用方法 图像处理的任务是获取客观世界的景象并转化为数字图像后,进行增强、复原、重建、变换、编码、压缩、分割等处理,从而将一幅图像转化为另一幅具有新意义的图像。图像处理的主要任务与常用方法分成以下几类。 (1)图像获取与数字化。将自然界的图像通过光学系统成像并由电子器件或系统转化为模拟图像信号,再由模拟/数字转换器(ADC)得到原始的数字图像信号。图像的获取也称图像的采集。原始图像的质量高会大大减轻后期处理的负担。 (2) 图像增强和图像复原。图像增强的作用是对视觉不满意的图像进行改

数字信号处理应用论文

摘要:介绍了DSP技术(器件)的主要特点.总结了DSP在家电、办公设备、控制和通信领域的主要应用及其发展趋势。 关键词:数字信号处理;音频/视频;控制;通信 DSP数字信号处理技术(Digital Signal Processing)指理论上的技术;DSP数字信号处理器(Digital Sig—hal Processor)指芯片应用技术。因此,DSP既可以代表数字信号处理技术,也可以代表数字信号处理器,两者是不可分割的,前者要通过后者变成实际产品。两者结合起来就成为解决实际问题和实现方案的手段DsPs一数字信号处理解决方案。DSP运用专用或通用数字信号处理芯片,通过数字计算的方法对信号进行处理,具有精确、灵活、可靠性好、体积小、易于大规模集成等优点。DSP芯片自从1978年AMI公司推出到现在,其性能得到了极大的提高。 1 DSP的特点 1.1 修正的哈佛结构 DSP芯片采用修正的哈佛结构(Havardstructure),其特点是程序和数据具有独立的存储空间、程序总线和数据总线,非常适合实时的数字信号处理口]。同时,这种结构使指令存储在高速缓存器中(Cache),节约了从存储器中读取指令的时间,提高了运行速度。如美国德州仪器公司——TI(Texas Instruments)的DSP芯片结构是基本哈佛结构的改进类型。 1.2 专用的乘法器 一般的算术逻辑单元AI U(Arithmetic and Logic Unit)的乘法(或除法)运算由加法和移位实现,运算速度较慢。DSP设置了专用的硬件乘法器、多数能在半个指令周期内完成乘法运算,速度已达每秒数千万次乃至数十亿次定点运算或浮点运算,非常适用于高度密集、重复运算及大数据流量的信号处理。如MS320C3x系列DSP芯片中有一个硬件乘法器:TMS320C6000系列中则有两个硬件乘法器。 1.3 特殊的指令设置 DSP在指令系统中设置了“循环寻址”(Circular addressing)及“位倒序”(bit—reversed)等特殊指令,使寻址、排序及运算速度大大提高引。另外,DSP指令系统的流水线操作与哈佛结构相配合,把指令周期减小到最小值,增加了处理器的处理能力。尽管如此,DSP芯片的单机处理能力还是有限的,多个DSP芯片的并行处理已成为研究的热点。 2 DSP在家电、办公设备中的应用 2.1高清晰度电视 传统电视采用线性扫描的信号处理方式,画面像素最高仅4O~5O万个,会带来画质的损失,而DSP数字超微点阵(Digital SuperMicro Pixe1)技术,超越传统的线性扫描,进入由“点”组成的微显示数字技术层面,从模拟的“线”飞跃到数字的“点”。DSP是逐点优化的。它运用全新的逐点扫描技术,修复并优化每一个点的质量,消降图像边缘模糊现象,细节部分的锐利度成倍提高。 2.2 A/V(Audio/Video)设备 家庭影院主要由数字化A/V(Audio/Video)设备组成,DSP不仅带来环绕声,而且提供虚拟各种现场效果。VCD(VideoCompact Disc)、DVD(Digital Video Disc)、MD(Minidiskette)、DAB(Digital Audio Brod—casting)、DVB(Digital Video Box)等数字音视频产品中,DSP的价值主要体现在音频的Hi—Fi(HighFideli—ty)处理上。目前,对MPEG(Moving Picture Expe Group)音频Layer2、I ayer3等用c语言仿真研究,在此基础上用C549实现了MP3解码器的采样;用’C6201和’C6701分别实现MP3编码器和MPEG一2AAC编解码器。MPEG 一2AAC重建的音质超过MP3和AC一3将成为直播卫星、地面DAB和SW、Mw、AM 广

数电小论文

神奇脑电波 内容提要:本文由电气化时代切入,主要探究了人类对脑电波的认识,包括理论研究、现实成果和科学设想,个别猜想结合了作者看科幻小说的认识,但谁又能说,科幻不是未来的科学呢。被称为“科幻小说之父”的法国作家儒勒·凡尔纳这位伟大的幻想家以科学为依据,在自己小说中描述的飞机、潜艇、电视经历了一个世纪后都变成了现实。对于大脑的认识更要突破现有知识的局限。 关键词:脑电波精神控制电子技术 一、总述 电子技术是目前发展最快的技术领域之一,在数字集成电路集成度越来越高的情况下,开发数字系统的实用方法和用来实现这些方法的工具日新月异,可编程逻辑器件大量应用。在数字电子技术的学习中,我们了解到利用三级管和MOS管的特性可以制作门电路,这是非常神奇的。电流本是变化多端的,但我们却可以利用集成电路把电流电压等物理量变身成我们熟知的0、1,如此就大大方便了我们对电的利用。 在电气化时代飞速发展的今天,我们对电的利用早已超乎前人的想象,而各个学科之间本是没有固定界限的,推广开来,我不禁开始思考,人类可以利用生物电吗?也许未来的某一天,我们可以实现将人类脑电波的数字化,加以编程,便可以实现精神控制。大脑对人类来说本就是最神秘最神圣的存在,对此,我做了更深入的探究,让我们来一窥大脑的奥秘吧! 二、脑电波的探索 看过电影《阿凡达》的人一定不会忘记影片中这样一个桥段:在潘多拉星上,下身瘫痪的的前海军战士杰克·萨利躺在密封舱中,通过头上戴着的复杂设备,利用意念操控人造的混血阿凡达。当然,潘多拉星和阿凡达只是导演卡梅隆的虚构,利用意念操控阿凡达自然也不可能发生。但是你或许不知道,利用“意念”操控物体已经不再是人类的空想。 脑电波是大脑在活动时,脑皮质细胞群之间形成电位差,从而在大脑皮质的细胞外产生电流。它记录大脑活动时的电波变化,是脑神经细胞的电生理活动在大脑皮层或头皮表面的总体反映。脑电波被发现于1924年,德国医生汉斯·贝格尔(Hans Berger)从一个颅骨受损的病人头部,检测到极为微弱的电流。在经过近五年的漫长实验后,他终于确认了这种神秘的电流的确来自于脑部活动,并发明了脑电图(EEG,electroencephalogram)。他从一千多张脑电图记录中发现了脑电的部分规律,并测量出人们在清醒且闭眼后的脑电波为8-12Hz (另外的数据说是8-13Hz,阿尔法波或α波),而将睁开眼睛后的脑电波处于13-30Hz(另外的数据说是14-26Hz,贝塔波或β波)。而“意念”操控,是利用人类的脑波操控,相关的科学研究已经超过半个世纪。通俗地讲,人类在进行各项生理活动时都在放电,当然,电场和磁场总是相伴而生,既然人脑有生物电或电场的变化,那么肯定有磁场的存在。心脏跳动时会产生1~2毫伏的电压,眼睛开闭会产生5~6毫伏的电压,而思考问题时大脑会产生0.2~1毫伏的电压。如果用科学仪器测量大脑的电位活动,那么在荧幕上就会显示出波浪一样的图形,这就是“脑电波”。脑电波活动具有一定的规律性特征,和大脑的意识存在某种程度的对应关系。人在兴奋、紧张、昏迷等不同状态之下,脑电波的频率会有明显的不同,约在1~40赫兹之间,依照不同的频率,脑电波又被进一步分为α(阿尔法)波、β(贝塔)波、θ(西塔)波、δ(德儿塔)波。当人在一定的压力之下精神高度集中时,脑波的频率在12~38赫兹之间,这个波段被称为β波,是“意识”层面的脑波;当人注意力下降,处

语音识别论文

语音信号的分析与处理 摘要:本文针对语音信号时域、频域参数进行了系统详尽的分析,并在MATLAB环境下实现了基于DTW算法的特定人孤立词语音信号的识别。 关键词:语音信号;短时傅里叶;MFCC;动态时间规整 引言 语音信号参数分析是语音信号处理的前提和基础。语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只有通过语音信号的分析才能获得语音本质特性的参数,才能利用这些参数进行高效的语音通信,才能建立语音合成的语音库,也才可能建立用于语音识别的模板和知识库。此外,语音合成音质的好坏、语音识别率的高低,都取决于语音信号参数分析的准确性和精度。因此,语音信号参数分析是语音信号处理研究中一项非常有意义的工作[1]。 近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在手持式PDA、智能家电、工业现场控制等应用场合,语音识别技术则有更为广阔的发展前景[2]。 在特定人孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间规整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法[3]。 MATLAB是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言,它将数值分析、信号处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。本文就是在MA TLAB基础上来进行语音信号参数的分析与语音信号的识别的。 一、语音信号的分析 1参数分析 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可被假定为短时平稳的,即在10一20ms这样的时间段内,其频谱特性和某些物理特征参量可被近似地看作不变。这样,我们就可以采用平稳过程的分析处理方法来处理,一般而言语音信号处理的方法都是基于这种短时平稳的假设的。根据语音信号所分析参数的不同,语音信号参数分析可以分为时域、频域、倒谱域分析等[4]。本文仅涉及时域及频域参数分析。 2时域分析 进行语音信号最为直观的分析方法就是时域分析。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及语音的分割、预处理和大分类等。时域分析方法的特点是:第一,表示语音信号比较直观,物理意义明确;第二,实现起来比较简单,运算量少;第三,可以得到语音的一些重要参数;第四,采用示波器等通用设备,使用简单[5]。 2.1短时能量分析 短时能量分析用途:第一,可以区分清音段和浊音段,因为浊音时的短时平均能量值比清音时大得多;第二,可以用来区分声母与韵母的分界、无声与有声的分界、连字的分界等。如对于高信

数字信号处理课程设计论文概论

数字信号处理课程设计 姓名: 学号: 专业: 班级: 指导老师:

目录 题目一:离散时间序列的时域分析 (2) 1.1实现离散时间序列 (2) 1.2序列的卷积 (2) 题目二:利用DFT进行周期信号频谱分析 (4) 2.1连续信号频谱分析比较 (5) 2.2利用DFT进行运算 (7) 题目三:离散系统的分析 (9) 3.1求系统的响应 (9) 3.2分析系统的频域特性 (10) 题目四:数字滤波器的设计 (12) 4.1高通滤波器的设计: (13) 总结: (16)

题目一:离散时间序列的时域分析 对离散时间序列的时域分析,通过MATLAB进行离散时间序列的描述,对离散时间序列进行卷积运算,将不同形式的信号波形用不同的时间函数来描述,实现信号的卷积运算。 1.1实现离散时间序列 (1)x0=2*sin(pi/3*n0+3*pi/4) (2)x1=2^n1 (3)单位抽样序列 (4)单位阶跃序列 程序如下: A=2;N=20;phi=3*pi/4; w=pi/3; n0=-5:0.5:10; x0=A*sin(w*n0+phi); a=2;N=20; n1=0:0.3:6; x1=a.^n1; n2=-20:20; x2=[zeros(1,20),1,zeros(1,20)]; n3=-20:20; x3=[zeros(1,20),1,ones(1,20)]; subplot(2,2,1);plot(n0,x0);stem(n0,x0); title('正弦序列');ylabel('x(n)');xlabel('n'); subplot(2,2,2);plot(n1,x1);stem(n1,x1); title('指数序列');xlabel('n');ylabel('x(n)'); subplot(2,2,3);stem(n2,x2); title('单位抽样序列');xlabel('n');ylabel(' ) (n '); subplot(2,2,4);stem(n3,x3); title('单位阶跃序列');xlabel('n');ylabel('u(n)'); 1.2序列的卷积 程序如下: A=2;N=20;phi=3*pi/4;

数字信号处理GUI

西安工业大学北方信息工程学院毕业设计(论文)开题报告 题目:数字信号处理实验教学平台设计 系别光电信息系 专业光电信息工程 班级 B100106 姓名彭牡丹 学号 B10010638 导师稀华 2013年11月20日

1 毕业设计(论文)综述 1.1 题目背景和意义 自 20 世纪 60 年代以来,随着计算机和信息学科的飞速发展,数字信号处理技术应运而生并迅速发展,目前已经形成为一门独立且成熟重要的新兴学科。如今已广泛地应用于通信、语音、图像、遥感、雷达、航空航天、自动控制和生物医学[1]等多个领域。特别在教学方面,此课程已普遍成为大学本科电子通信专业必修的主干课和重要的专业基础课,已成为信息化建设不可缺少的环节。 “数字信号处理”课程主要包括离散时间信号及系统、离散傅立叶变换DFT、快速傅立叶变换FFT、数字滤波器设计及实现和数字信号系统的应用等内容,如何帮助学生理解与掌握课程中的基本概念、分析方法以及综合应用能力,是教学所要解决的关键问题,但是该课程理论性强,公式繁琐,需要实验辅助学生理解。因此研究数字信号处理虚拟实验技术能够有效地弥补数字信号处理理论教学的不足,所以本课题需要借助一些软件平台来完成数字信号处理课程中重要的实验内容的仿真分析。 1.2 国内外相关研究状况 对于教学平台设计,现在教学方面有很多研究方法,不同的的科研目标用的是不同的软件平台,国内外也提出了多种研究方法。 例如,在做交互式教学实验平台设计时,周强、张兰、张春明[2]等人运用的是Tornado 软件。此设计以 Tornado 专业课程为例,提出教学网络化的预期目标,结合课程内容的实践性特点,依据分层教学的指导理念,以先进的网站开发技术(Dreamweaver、B/S、ASP 等)为支撑手段,对面向 Tornado 的交互式教学实验平台进行设计与实现。通过小范围测试,基本实现了教师发布教学信息、上机实验、问题互助解答、学生在线自测、师生交互平台等教学功能,并在此基础上凸显出对学生进行分级以提供个性化教学的特色。在研究网络的教学实验平台设计,赵迎新、徐平平、夏桂斌[3]等人用的是无线传感器网络的研究方法。此设计研究并开发了一种应用MSP430微控制器芯片和CC2420无线收发模块架构的无线传感器网络的教学实验平台,设计并实现了系统的总体架构、硬件电路、软件接口与数据汇聚模式,根据实践教学要求,设计了基于该平台系统的基本实验要求与操作步骤,给出了对不同层次实践教学的目标要求,最后给出教学实践效果的评价。还有谢延红[4]提出的开放式 Linux 实验教学平台设计与实现。此研究针对 Linux 实验教学中存在的实验环境不够灵活、实验学习时间受限和无法实时沟通的问题,此研究提出了“个网络平台,条技术路线,

相关文档
最新文档