基于Matlab的语音图像视频基础知识

合集下载

使用MATLAB进行语音识别的基本原理

使用MATLAB进行语音识别的基本原理

使用MATLAB进行语音识别的基本原理语音识别是一种将人类语音转化为计算机可识别文本的技术。

它可以应用在语音识别系统、智能助手等多个领域,具有广泛的应用前景。

而MATLAB是一种功能强大的数学软件工具,提供了丰富的信号处理和模式识别函数,使得它成为进行语音识别的理想选择。

本文将介绍使用MATLAB进行语音识别的基本原理。

一、语音信号预处理在进行语音识别之前,需要对语音信号进行预处理。

预处理的目的是去除噪声、降低维度以及提取特征等。

其中,常用的预处理技术包括语音信号分帧、加窗、预加重以及语音信号归一化等。

语音信号分帧是将连续的语音信号分成若干短时帧,一般选择帧长为20-40毫秒。

然后对每一帧信号进行加窗操作,常用的窗函数有矩形窗、汉宁窗等,目的是减少频谱泄漏效应。

预加重是为了解决语音信号中的频率能量分布不均的问题。

预加重的思想是在进行傅里叶变换之前对语音信号进行高通滤波,增强高频部分的能量。

语音信号归一化是为了消除语音信号能量的差异性,一般使用均方根归一化或幅度归一化等方法,使得语音信号具有相似的能量特征。

二、特征提取在预处理之后,需要进行特征提取,以便将语音信号转化为计算机可识别的形式。

常用的特征提取方法包括线性预测分析(Linear Predictive Analysis, LPC)、梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients, MFCC)等。

LPC是一种基于线性预测模型的方法,它假设语音信号是由前面的语音样本线性预测后产生的。

LPC通过提取语音信号的倒谱系数以及预测误差,将语音信号转化为一组具有较低维度的特征向量。

MFCC是一种基于梅尔刻度的频谱特征提取方法。

它模拟了人耳对声音的感知机制,通过将频率轴转换为梅尔刻度,进而使用离散余弦变换将频谱分析结果转化为梅尔频率倒谱系数,得到更加稳定和鲁棒的特征。

三、模型训练与分类在特征提取之后,需要进行模型训练与分类。

语音和图像的基础matlab

语音和图像的基础matlab

图像的处理

图像的转换 图像的变换 图像增强

见附件
实验内容
实验一:了解图像类型及其相互转换
1、用imtool打开一幅真彩图和索引图,观察其中的像素值
Display an image from a file. imtool('board.tif') Display an indexed image. [X,map] = imread('trees.tif'); imtool(X,map) Display an intensity image. I = imread('cameraman.tif'); imtool(I)
语音和图像 matlab基础实验
主要内容

声音信号的采集和处理 图像的处理
声音信号的采集

利用录音软件采集一段声音

采集声音数据

采集简单的单字:如你、好,每个字存成一个.wav文件,可 以分不同的人说同一个字
利用audition等常用的声音处理软件,观察波形

声音信号的读取

在matlabBiblioteka 声音信号的I/O实验二:了解颜色模型及其matlab的操作。
1、使用imfinfo函数获取图像的信息,注意ColorType属性值。 info = imfinfo(filename,fmt) 2、是用map改变图像的颜色系
load flujet
image(X) colormap(jet)
实验三:图像的几何操作
1、imcrop裁剪
Demo

观看matlab自带的demo

图像文件的读写

MATLAB图像处理工具箱支持4种图像类型,分别为真彩色图像(RGB)、索引色图像、灰 度图像(I)和二值图像(Bw)

MATLAB入门基本知识——音频处理

MATLAB入门基本知识——音频处理

matlab处理音频信号一、问题的提出:数字语音是信号的一种,我们处理数字语音信号,也就是对一种信号的处理,那信号是什么呢?信号是传递信息的函数。

离散时间信号——序列——可以用图形来表示。

按信号特点的不同,信号可表示成一个或几个独立变量的函数。

例如,图像信号就是空间位置(二元变量)的亮度函数。

一维变量可以是时间,也可以是其他参量,习惯上将其看成时间。

信号有以下几种:(1)连续时间信号:在连续时间范围内定义的信号,但信号的幅值可以是连续数值,也可以是离散数值。

当幅值为连续这一特点情况下又常称为模拟信号。

实际上连续时间信号与模拟信号常常通用,用以说明同一信号。

(2)离时间信号:时间为离散变量的信号,即独立变量时间被量化了。

而幅度仍是连续变化的。

(3)数字信号:时间离散而幅度量化的信号。

语音信号是基于时间轴上的一维数字信号,在这里主要是对语音信号进行频域上的分析。

在信号分析中,频域往往包含了更多的信息。

对于频域来说,大概有8种波形可以让我们分析:矩形方波,锯齿波,梯形波,临界阻尼指数脉冲波形,三角波,余旋波,余旋平方波,高斯波。

对于各种波形,我们都可以用一种方法来分析,就是傅立叶变换:将时域的波形转化到频域来分析。

于是,本课题就从频域的角度对信号进行分析,并通过分析频谱来设计出合适的滤波器。

当然,这些过程的实现都是在MA TLAB软件上进行的,MA TLAB软件在数字信号处理上发挥了相当大的优势。

二、设计方案:利用MA TLAB中的wavread命令来读入(采集)语音信号,将它赋值给某一向量。

再将该向量看作一个普通的信号,对其进行FFT变换实现频谱分析,再依据实际情况对它进行滤波。

对于波形图与频谱图(包括滤波前后的对比图)都可以用MA TLAB画出。

我们还可以通过sound命令来对语音信号进行回放,以便在听觉上来感受声音的变化。

选择设计此方案,是对数字信号处理的一次实践。

在数字信号处理的课程学习过程中,我们过多的是理论学习,几乎没有进行实践方面的运用。

基于matlab的语音信号的基本处理

基于matlab的语音信号的基本处理

专题研讨四、信号与系统综合应用确定题目(根据个人兴趣、结合实际确定题目,可从下面参考题目中选择,也可自由确定):基于matlab的语音信号的基本处理参考题目:题目1:含噪信号滤波题目2:双音多频信号的产生与检测题目3:磁盘驱动系统仿真题目4:卡尔曼滤波器的应用题目5:应用反馈扩大放大器的带宽(以上只是本专题的部分题目)开题报告课题实施过程记录包括仿真程序、仿真结果、结果分析、方案完善等 ○1语音信号的制作及描述 1) 制作语音文件:用windows 录音机录制一小段语音文件"333.wav ”,内容为"信号与信息系统",由一同学播音. 2) 用matlab 播放”333.wav ”仿真程序:3) [y,Fs,bits]=wavread('333.wav'); sound(y,Fs);pause;4) 绘画出语音文件的时域和频域波形: 仿真程序:[y,Fs,bits]=wavread('333.wav'); plot(y);仿真结果:0123456789x 104-0.8-0.6-0.4-0.20.20.40.6结果分析:随着时间变化,声音能量图形 方案完善:1.时间轴有问题,与实际的时间不一样.2.语音信号的频域分析更清楚.仿真程序:[y,Fs,bits]=wavread('333.wav'); y=y(:,1);sLength=length(y); Y = fft(y,sLength);Pyy = Y.* conj(Y) / sLength; halflength=floor(sLength/2); f=Fs*(0:halflength)/sLength; figure;plot(f,Pyy(1:halflength+1));xlabel('Frequency(Hz)'); t=(0:sLength-1)/Fs; figure;plot(t,y);xlabel('Time(s)');仿真结果:0.51 1.52 2.5x 104Frequency(Hz)00.20.40.60.81 1.2 1.4 1.6 1.82-0.8-0.6-0.4-0.20.20.40.6Time(s)结果分析:频域分析是从另一个角度观察信号;语音信号的一般频域范围"200~2000"Hz ○2语音信号抽取及倍插仿真程序:[y,Fs,bits]=wavread('111.wav'); sound(y,Fs/2);pause;[y,Fs,bits]=wavread('111.wav'); sound(y,2*Fs);pause;仿真结果与分析:以Fs/2及2*Fs 播放的语音信号存在失真, 方案完善:需要做出波形,做更直观的观察. ○3语音信号的加噪1)语音信号加高频噪音及播放. 仿真程序:[y,Fs,bits]=wavread('333.wav'); y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.5;d=A*cos(2*pi*f*t)';y=y+d;sound(y,Fs);仿真结果:播放时伴有尖锐的”吱吱”声.结果分析:由于加入高频成分余弦信号,信号叠加后出现了尖锐的噪音.2)加噪后的语音信号的时域和频域波形.仿真程序:[y,Fs,bits]=wavread('333.wav');y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.05;d=A*cos(2*pi*f*t)';y1=y+d;sLength=length(y1);Y = fft(y1,sLength);Pyy = Y.* conj(Y) / sLength;halflength=floor(sLength/2);f=Fs*(0:halflength)/sLength;figure;plot(f,Pyy(1:halflength+1));xlabel('Frequency(Hz)');仿真结果:00.20.40.60.81 1.2 1.4 1.6 1.82-0.8-0.6-0.4-0.20.20.40.6Time(s)0.51 1.522.5x 10405101520253035404550Frequency(Hz)结果分析:时域波形跟加噪前没有什么明显的区别.在频域上我们发现有一个近6000Hz的高频成分,这是产生的噪音的根本所在.方案完善:运用subplot将加噪前和加噪后的时域和频域波形进行对比,效果会更好.○4数字滤波这一部分我们学习了函数BUTTER,进行了最简单的数字滤波.[b,a]=butter(N,wc);代表数字低通滤波器,wc代表归一化频率(0<wc<=1,等于一时为奈奎斯特频率);N为滤波器的阶数.y2=filter(b,a,y1);对信号y1进行巴特滤波,滤波器为[b,a]系统滤波后信号的效果播放.仿真程序:[y,Fs,bits]=wavread('333.wav');y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.05;d=A*cos(2*pi*f*t)';y1=y+d;N=2;wc=[0.01,0.07];[b,a]=butter(N,wc);y2=filter(b,a,y1);sound(y2,Fs);仿真结果:原先的噪声消失,语音信号变回原样.滤波器为低通滤波器,滤去高频成分.方案完善:1.画出滤波后的时域和频域波形2. 对滤波器进行系统分析1.画出滤波后的时域和频域波形仿真程序:[y,Fs,bits]=wavread('333.wav');y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.05;d=A*cos(2*pi*f*t)';y1=y+d;plot(t,y);xlabel('Time(s)');N=2;wc=[0.01,0.07];[b,a]=butter(N,wc);y2=filter(b,a,y1); sLength1=length(y2); Y1 = fft(y2,sLength1);Pyy = Y1.* conj(Y1) / sLength1; halflength1=floor(sLength1/2); f1=Fs*(0:halflength1)/sLength1; figure;plot(f,Pyy(1:halflength+1));xlabel('Frequency(Hz)'); t=(0:sLength-1)/Fs; figure;plot(t,y2);xlabel('Time(s)');仿真结果:00.51 1.52 2.5x 1040.511.522.53Frequency(Hz)00.20.40.60.81 1.2 1.4 1.6 1.82-0.8-0.6-0.4-0.20.20.40.6Time(s)结果分析:基本效果良好,有少许失真. 2. 对滤波器进行系统分析 仿真程序:w=linspace(0,6000,10000); wc=[0.01 0.07]; N=2;[b,a]=butter(N,wc); H=freqz(b,a,w); plot(w,abs(H)); axis([0 2500 0 1.5]);仿真结果:010002000300040005000600000.511.5○3RC 模拟滤波(物理形式熟悉) [y,Fs,bits]=wavread('333.wav');%¶Á³öÐźţ¬²ÉÑùÂʺͲÉÑùλÊý¡£y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.5;d=A*cos(2*pi*f*t)';y1=y+d;RC=0.001;b=1/RC;a=[1,1/RC];sys=tf(b,a);y2=lsim(sys,y1,t);sound(y2,Fs);结果:效果良好,声音恢复.RC 滤波器的波特图RC=0.001;w=linspace(0,2,1024);b=1/RC;a=[1,1/RC];g=tf(b,a);bode(g);xlabel('w');ylabel('H(jw)');-40-30-20-100M a g n i t u d e (d B)101102103104105H (j w ) (d e g )Bode Diagramw (rad/sec)总结报告摘要:利用所学的知识对实际语音信号进行时域,频域分析;体会信号的抽样定理,即信号的抽取和倍插;运用信号叠加对信号进新加噪(高频),并用数字滤波器butter 滤去高频成分去噪;课题原理框图:课题最终仿真程序:○1语音信号的制作及描述; [y,Fs,bits]=wavread('333.wav');sound(y,Fs);pause;[y,Fs,bits]=wavread('333.wav');y=y(:,1);sLength=length(y);Y = fft(y,sLength);Pyy = Y.* conj(Y) / sLength;halflength=floor(sLength/2);f=Fs*(0:halflength)/sLength;figure;plot(f,Pyy(1:halflength+1));xlabel('Frequency(Hz)');t=(0:sLength-1)/Fs;figure;plot(t,y);xlabel('Time(s)');○2语音信号抽取及倍插; [y,Fs,bits]=wavread('111.wav');sound(y,Fs/2);pause;[y,Fs,bits]=wavread('111.wav');sound(y,2*Fs);pause;○3语音信号的加噪;[y,Fs,bits]=wavread('333.wav');y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.05;d=A*cos(2*pi*f*t)';y1=y+d;N=2;wc=[0.01,0.07];[b,a]=butter(N,wc);y2=filter(b,a,y1);sound(y2,Fs);[y,Fs,bits]=wavread('333.wav');y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.05;d=A*cos(2*pi*f*t)';y1=y+d;sLength=length(y1);Y = fft(y1,sLength);Pyy = Y.* conj(Y) / sLength;halflength=floor(sLength/2);f=Fs*(0:halflength)/sLength;figure;plot(f,Pyy(1:halflength+1));xlabel('Frequency(Hz)');○4滤波器.[y,Fs,bits]=wavread('333.wav');y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.05;d=A*cos(2*pi*f*t)';y1=y+d;N=2;wc=[0.01,0.07];[b,a]=butter(N,wc);y2=filter(b,a,y1);sound(y2,Fs);[y,Fs,bits]=wavread('333.wav');y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.05;d=A*cos(2*pi*f*t)';y1=y+d;plot(t,y);xlabel('Time(s)');N=2;wc=[0.01,0.07];[b,a]=butter(N,wc);y2=filter(b,a,y1);sLength1=length(y2);Y1 = fft(y2,sLength1);Pyy = Y1.* conj(Y1) / sLength1;halflength1=floor(sLength1/2);f1=Fs*(0:halflength1)/sLength1;figure;plot(f,Pyy(1:halflength+1));xlabel('Frequency(Hz)');t=(0:sLength-1)/Fs;figure;plot(t,y2);xlabel('Time(s)');w=linspace(0,6000,10000);wc=[0.01 0.07];N=2;[b,a]=butter(N,wc);H=freqz(b,a,w);plot(w,abs(H));axis([0 2500 0 1.5]);[y,Fs,bits]=wavread('333.wav');%¶Á³öÐźţ¬²ÉÑùÂʺͲÉÑùλÊý¡£y=y(:,1);sLength=length(y);t=(0:sLength-1)/Fs;f=50000;A=0.5;d=A*cos(2*pi*f*t)';y1=y+d;RC=0.001;b=1/RC;a=[1,1/RC];sys=tf(b,a);y2=lsim(sys,y1,t);sound(y2,Fs);RC=0.001;w=linspace(0,2,1024);b=1/RC;a=[1,1/RC];g=tf(b,a);bode(g);xlabel('w');ylabel('H(jw)');课题成果:1)了解了语音信号matlab处理的基本过程及思路,重点复习了波形绘制,系统响应;2)体会到理论与实践的结合,语音信号的处理和实际生活接近,趣味性强.本课题还存在哪些问题?1)对matlab的一些函数比较模糊,比如信号的长度估计,butter滤波函数的运用2)对于信号的滤波只是在很理想的高频情形下,过于单一简单,对实际的噪声滤波还有很多需要完善的.研究性学习自我体会与评价通过研究性学习你在哪些方面有所收获?(如学习方法、合作精神、探索精神、创新意识等)。

课程设计基于MATLAB的语音信号录制采集和分析的程序设计

课程设计基于MATLAB的语音信号录制采集和分析的程序设计

MA TLAB课程设计说明书摘要语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。

该设计主要介绍语音信号的采集与分析方法,通过PC机录制自己的一段声音,运用Matlab提供的函数进行仿真分析,并画出采样后语音信号的时域波形和频谱图,对所采集的语音信号加入干扰随机高斯噪声,对加入噪声的信号进行播放,并进行时域和频谱分析;对比加噪前后的时域图和频谱图,分析讨论采用什么样的滤波器进行滤除噪声。

关键词:语音信号;采集与分析;Matlab目录摘要 (I)1 语音信号的录制 (1)2 语音信号的采集 (3)3 语音信号的分析 (4)3.1语音信号时域分析 (4)3.2语音信号频域分析 (5)4 语音信号的加噪处理 (7)5 滤噪设计分析 (11)6 设计总结 (12)参考文献 (13)附录 (14)1 语音信号的录制为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。

语音信号经过预滤波和采样后,由A/D变换器变换为二址制数字码。

这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。

市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。

将声卡作为对象处理采集语音信号Matlab将声卡作为对象处理,其后的一切操作都不与硬件直接相关,而是通过对该对象的操作来作用于硬件设备(声卡)。

操作时首先要对声卡产生一个模拟输入对象(ai),给ai对象添加一个通道设置采样频率后,就可以启动设备对象,开始采集数据,采集完成后停止对象并删除对象。

实际工作中,我们可以利用windows自带的录音机录制语音文件,图1是基于PC机的语音信号录制过程,声卡可以完成语音波形的A/D转换,获得WAVE文件,为后续的处理储备原材料。

数字图像处理与机器视觉-基于MATLAB实现 第10章 图像识别基础

数字图像处理与机器视觉-基于MATLAB实现 第10章 图像识别基础
模式识别方法: 模式分类或模式匹配的方法有很多,总体分为四大类:
• 以数据聚类的监督学习方法; • 以统计分类的无监督学习方法; • 通过对基本单元判断是否符合某种规则的结构模式识别方法; • 可同时用于监督或者非监督学习的神经网络分类法。 1.线性判用一条直线来划分已有的学 习集的数据,然后根据待测点在直线的那一边决定的分类。如下图可以做出一条直线来 划分两种数据的分类。但是一般情况下的特征数很多,想降低特征数维度。可以通过投 影的方式进行计算。然而使得一个多维度的特征数变换到一条直线上进行计算。可以减 少计算工作的复杂度。
10.2 模式识别方法
c.对称连接网络 对称连接网络有点像循环网络,但是单元之间的连接是对称的(它们在两个方向上 权重相同)。比起循环网络,对称连接网络更容易分析。这个网络中有更多的限制,因 为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有 隐藏单元的对称连接的网络被称为“玻尔兹曼机” 。 神经网络可以看成是从输入空间到输出空间的一个非线性映射,它通过调整权重和 阈值来“学习”或发现变量间的关系,实现对事物的分类。由于神经网络是一种对数据 分布无任何要求的非线性技术,它能有效解决非正态分布和非线性的评价问题,因而受 到广泛的应用。由于神经网络具有信息的分布存储,并行处理及自学习能力等特点,它 在泛化处理能力上显示出较高的优势。
模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行 处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智 能的重要组成部分。
基于监督学习的模式识别系统由4大部分组成,即待识别对象、预处理、特征提取和分 类识别,如图10-1所示。
图10-1 模式识别流程图

基于MATLAB的语音信号采集与处理.

基于MATLAB的语音信号采集与处理.

基于MATLAB的语音信号采集与处理.
MATLAB是一种非常有用的工具,可以用于语音信号的采集和处理。

语音信号的采集和处理对于语音识别、音频转换和人机交互等领域非常重要。

MATLAB提供了许多工具和函数进行语音信号的采集和处理。

语音信号的采集可以通过外部设备实现,如麦克风或录音设备。

MATLAB可以通过音频输入功能进行语音信号的采集和处理。

该功能提供了多个采样率和位深度设置,可以按照需要进行设置。

采集的语音信号可以通过MATLAB的图形用户界面进行实时显示和处理。

MATLAB提供了很多工具和函数进行语音信号的处理,如语音分析、信号过滤、音量调整和时域和频域分析等。

MATLAB的语音信号处理工具箱提供了很多预处理和分析函数,可以进行预处理、语音识别、特征提取等操作。

这些工具和函数可以帮助开发人员更好地理解和分析语音信号,提高语音识别的准确性和鲁棒性。

MATLAB还提供了图形用户界面(GUI)、应用程序接口(API)、命令行和脚本等方式进行语音信号处理。

GUI可以方便地进行交互式处理和调试,API可以方便地集成到其他应用程序中,命令行和脚本可以进行批处理和复杂的操作。

MATLAB的语音信号处理工具还可以与其它工具箱,如数字信号处理工具箱和统计学工具箱进行整合,以开发更强大和可靠的语音处理应用程序。

如何使用Matlab进行语音信号处理

如何使用Matlab进行语音信号处理

如何使用Matlab进行语音信号处理引言:语音信号处理是一个重要的领域,在各种应用中都有广泛的应用,如语音识别、语音合成、音频编码等。

而Matlab是一个功能强大的工具,提供了许多用于语音信号处理的函数和工具箱,使得处理语音信号变得更加简单和高效。

本文将介绍如何使用Matlab进行语音信号处理的基本流程和一些常用的处理方法。

一、语音信号处理基础知识1.1 语音信号的特点语音信号是一种时变信号,具有时间和频率的特性。

它由一系列的声音波形组成,通过声音传感器(如麦克风)捕获并转换为电信号。

语音信号具有频谱的特征,包括基频、共振峰等。

了解语音信号的基本特点是进行语音信号处理的前提。

1.2 语音信号处理的基本流程语音信号处理的基本流程包括预处理、特征提取、模型建立、参数估计和应用等步骤。

预处理包括去噪、降采样等操作,特征提取包括MFCC(Mel频率倒谱系数)等方法,模型建立包括隐藏马尔可夫模型(HMM)等,参数估计通过最大似然估计等方法进行参数估计,应用包括语音识别、语音合成等。

二、使用Matlab进行语音信号处理的基本方法2.1 读取和保存语音文件Matlab提供了许多函数用于读取和保存语音文件。

可使用"audioread"函数读取.wav格式的语音文件,并得到语音信号的时域波形,可以使用"audiowrite"函数保存处理后的语音文件。

2.2 语音信号的时域和频域分析Matlab提供了许多函数用于对语音信号进行时域和频域分析。

可以使用"waveform"函数绘制语音信号的波形,使用"spectrogram"函数绘制语音信号的频谱图。

2.3 语音信号的预处理在语音信号处理之前,通常需要对语音信号进行预处理,如去除噪声、降低采样率等。

Matlab提供了丰富的函数和工具箱用于语音信号的预处理,如"noisegate"函数用于去除噪声,"resample"函数用于降低采样率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于Matlab环境下的语音、图像、频信号的基础知识班级:信1104学号:20112785姓名:吕微彪语音信号的表示:语音既是人得发音器官发出来的一种声波,它就是其他各种声音一样,也具有声音的物理属性。

它具有以下一些特性:(一)音质。

它是一种声音区别其他声音的基本特性。

(二)音调,就是声音的高低。

音调取决于声波的频率:频率快则音调高,频率慢音调低(三)声音的强弱。

音强及音量,又称响度,它是由声波震动幅度决定的。

(四)声音的长短,也称音长,它取决于发音持续时间的长短。

语音信号最主要的特性是随时间而变化的,是一个非常平稳的随机过程。

但是,从另一方面看,虽然语音信号具有时变特性,但在短时间范围内其个性基本保持不变。

在没有完成状态转变时,可近似认为它不变。

因而我们可以采用平稳过程的分析处理方法处理语音。

语音信号分析可分为时域,频域,倒频域等方法。

时域分析具有简单,运算量小物理意义明确等优点;更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中而相位变化只起很小作用。

语音信号的短时谱分析是以傅里叶变换为核心的,其特征是频谱包络与频谱细微结构以乘积的方法混合在一起,另一方面是可用FFT进行高速处理。

语音信号处理基本分两种分析方法:数字信号处理和模拟信号处理语音信号的格式:音频格式是指要在计算机内播放或是处理音频文件,是对声音文件进行数、模转换的过程。

音频格式最大带宽是20KHZ,速率介于40~50KHZ之间,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度音频文件格式常见的特点有:要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,20KHz以上人耳是听不到的,因此音频文件格式的最大带宽是20KHZ,故而采样速率需要介于40~50KHZ之间,而且对每个样本需要更多的量化比特数。

音频数字化的标准是每个样本16位-96dB的信噪比,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度。

在音频文件的制作中,正是采用这一标准。

音频格式包括:CD WAVE AIFF AU MPEG MP3 MPEG-4 MIDI WMA RealAudio VQF OggVorbis AMR。

其中最常用的有MP3,CD,WMA , APE。

吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。

比较作为数字音乐文件格式的标准,WAV格式容量过大,因而使用起来很不方便。

因此,一般情况下我们把它压缩为MP3或WMA格式。

压缩方法有无损压缩,有损压缩,以及混成压缩。

MPEG,JPEG就属于混成压缩,如果把压缩的数据还原回去,数据其实是不一样的。

当然,人耳是无法分辨的。

因此,如果把MP3,OGG格式从压缩的状态还原回去的话,就会产生损失。

然而,APE格式即使还原,也能毫无损失地保留原有音质。

所以,APE可以无损失高音质地压缩和还原。

在完全保持音质的前提下,APE的压缩容量有了适当的减小。

拿一个最为常见的38MBWAV文件为例,压缩为APE格式后为25MB左右,比开始足足少了13MB。

而且MP3容量越来越大的今天,25M的歌曲已经算不上什么庞然大物了。

以1GB的mp3来说可以放入4张CD,那就是40多首歌曲,已经足够了!MP3支持格式有MP3和WMA。

MP3由于是有损压缩,因此讲求采样率,一般是44.1KHZ。

另外,还有比特率,即数据流,一般为8---320KBPS。

在MP3编码时,还看看它是否支持可变比特率(VBR),现在出的MP3机大部分都支持,这样可以减小有效文件的体积。

WMA则是微软力推的一种音频格式,相对来说要比MP3体积更小。

[图像表示:每个图像的像素通常对应于二维空间中一个特定的'位置',并且有一个或者多个与那个点相关的采样值组成数值。

根据这些采样数目及特性的不同数字图像可以划分为:二值图像 (Binary Image): 图像中每个像素的亮度值(Intensity)仅可以取自0到1的图像。

灰度图像(Gray Scale Image),也称为灰阶图像: 图像中每个像素可以由0(黑)到255(白)的亮度值表示。

0-255之间表示不同的灰度级。

彩色图像(Color Image):每幅彩色图像是由三幅不同颜色的灰度图像组合而成,一个为红色,一个为绿色,另一个为蓝色。

伪彩色图像(false-color)multi-spectral thematic 立体图像 (Stereo Image):立体图像是一物体由不同角度拍摄的一对图像,通常情况下我们可以用立体像计算出图像的深度信息。

三维图像(3D Image):三维图像是由一组堆栈的二维图像组成。

每一幅图像表示该物体的一个横截面。

数字图像也用于表示在一个三维空间分布点的数据,例如计算机断层扫描(:en:tomographic,CT)设备生成的图像,在这种情况下,每个数据都称作一个体素。

图像格式:目前比较流行的图像格式包括光栅图像格式BMP、GIF、JPEG、PNG等,以及矢量图像格式WMF、SVG等。

视频表示:将一系列静态影像以电信号方式加以捕捉,纪录,处理,储存,传送,与重现的各种技术。

连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这样连续的画面。

视频格式:MPEG也是Motion Picture Experts Group 的缩写。

这类格式包括了MPEG-1, MPEG-2 和MPEG-4在内的多种视频格式。

ASF 是MICROSOFT 为了和Real player 竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。

WMV一种独立于编码方式的在Internet上实时传播多媒体的技术标准,WMV的主要优点在于:可扩充的媒体类型、本地或网络回放、可伸缩的媒体类型、流的优先级化、多语言支持、扩展性等。

n AVI是New AVI 的缩写,是一个名为Shadow Realm 的地下组织发展起来的一种新视频格式。

它是由Microsoft ASF 压缩算法的修改而来的,可以这样说,NAVI 是一种去掉视频流特性的改良型ASF 格式。

DivX这是由MPEG-4衍生出的另一种视频编码(压缩)标准,也即通常所说的DVDrip格式,它采用了MPEG4的压缩算法同时又综合了MPEG-4与MP3各方面的技术,说白了就是使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩,同时用MP3或AC3对音频进行压缩,然后再将视频与音频合成并加上相应的外挂字幕文件而形成的视频格式。

其画质直逼DVD并且体积只有DVD 的数分之一。

RMVB这是一种由RM视频格式升级延伸出的新视频格式,它的先进之处在于RMVB视频格式打破了原先RM格式那种平均压缩采样的方式,在保证平均压缩比的基础上合理利用比特率资源,就是说静止和动作场面少的画面场景采用较低的编码速率,这样可以留出更多的带宽空间。

FLV就是随着Flash MX的推出发展而来的新的视频格式,其全称为Flashvideo。

是在sorenson公司的压缩算法的基础上开发出来的。

MP4手机常用视频3GP手机常用视频AMV一种mp4专用的视频格式信号的运算1、利用funtool进行信号运算在函数运算控制窗口中,有4个输入框供用户对要操作的函数进行输入。

这4个输入框分别是f、g、x、a,其中:f为图形窗口1输入的控制函数,其默认值为x; g为图形窗口2输入的控制函数,其默认值为1;x为函数自变量的取值范围,其默认值为[-2*pi,2*pi];a为输入常数,用来进行各种运算,其默认值为1/2。

函数图形计算器有4行7列共28个按钮,每一行代表一类运算:函数自身的运算;函数与常数之间的运算;两函数间的运算与对于系统的操作。

1)函数自身的运算在函数运算控制窗口的第一行命令按钮用于函数自身的运算操作。

每一按钮的命令功能如下:df/dx:计算函数f对x的导函数。

int f:计算函数f的积分函数。

simple f:对函l数f进行最简式化简。

num f:取函数表达式f(x)的分子,并赋予给f。

den f:取函数表达式f(x)的分母,并赋予给f。

1/f:求函数表达式f()的倒数函数。

finv f:求函数表达式f(x)的反函数。

在计算int f或finv f时,若因为函数的不可积或非单调而引起无特定解,则函数栏中将返回NaN,表明计算失败。

2)函数与常数之间的运算在控制窗口的第二行命令按钮用于函数与常数之间的运算操作,每一按钮的命令功能如下f+a:计算f(x)+a f-a:计算f(x)-a f*a:计算f(x)*a f/a:计算f(x)/a f^a:计算f(x)^a f(x+a):计算f(x+a) f(a*x):计算f(ax)3)两函数间的运算在控制窗口的第三行命令按钮用于对函数f与g常数之间的各种运算操作。

每一按钮的命令功能如下:f+g:计算两函数f与g之和,并将其和赋值给f。

f-g:计算两函数f与g 之差,并将其差赋值给f。

f*g:计算两函数f与g之积,并将其积赋值给f。

f/g:计算两函数f与g之比,并将其商赋值给f。

f(g):计算复合函数f(g)4)系统操作按钮在窗口的第四行命令按钮用来对符号函数图形计算器进行各种操作。

每一按钮的命令功能如下:insert:把当前图窗1中的函数插入到计算器内含的典型函数表中。

cycle:在图形窗口1中依次演示计算器内含的典型函数表中的函数图形。

delete:从计算器内含的典型函数演示表中删除当前的图形窗口1中的函数。

reset:重置符号函数计算器的功能。

help:符号函数图形计算器的在线帮助。

demo:演示符号函数图形计算器的功能。

close:关闭符号函数图形计算器.2、向量表示法进行信号运算当在Matlab中用向量表示信号时,反褶、移位、尺度变换等运算是对时间自变量进行运算,需要对时间向量t进行加减乘除操作;而对于两个信号向量或多个信号的运算,则需要进行信号向量间的加减乘除及乘方等操作。

1)向量与常数的运算、向量与常数的加减乘除及乘方运算如下,其中a为常数,X为向量X+a:向量与常数的加运算,X向量中的每个元素都加上相同的常量a;X-a:向量与常数的减运算,X向量中的每个元素都减去相同的常量a; a*X:向量与常数的乘运算,X向量中的每个元素都乘以相同的常量a; X/a:向量与常数的除运算,X向量中的每个元素都除以相同的常量a; a./X:常数与向量的点除运算,常量a除以X向量中的每个元素;X.^a:向量与常数的点乘方运算,X向量中的每个元素为幂底数的a次幂;a.^X:常数与向量的点乘方运算,以X向量中的每个元素为幂指数的a的乘方2)向量间的运算向量间的加减乘除运算如下,其中X、Y为向量X+Y:向量的加法运算,X、Y向量中的相应元素相加; X-Y:向量的减法运算,X、Y向量中的相应元素相减; X.*Y:向量的点乘运算,X、Y向量中的相应元素相乘; X./Y:向量的点除运算,X、Y向量中的相应元素相除; X*Y:向量的矩阵乘运算,与矩阵相乘相同; X/Y:向量的矩阵除运算,与矩阵相除相同;图像运算:1. 数据类型及图像类型间的基本转换函数数据类转换:B = data_class_name(A); IPT图像数据类型转换函数2. 图像的灰度直方图(H是图像a.bmp的数据矩阵) imhist(H); %显示a的直方图histeq(H); %将图像a进行直方图均衡化adapthisteq(H); %将图像a进行直方图均衡化3. 图像的点运算点运算是通过对图像中每个像素值进行计算,改善图像显示效果的操作,也称对比度增强或对比度拉伸或灰度变换。

相关文档
最新文档