语音信号处理-第01章 声音信号的分类与数字化

存储一分钟声音信号所需要的存储容量

语音信号处理与及其MATLAB实现分析

目录 摘要 (2) 第一章绪论 (3) 1.1 语音课设的意义 (3) 1.2 语音课设的目的与要求 (3) 1.3 语音课设的基本步骤 (3) 第二章设计方案论证 (5) 2.1 设计理论依据 (5) 2.1.1 采样定理 (5) 2.1.2 采样频率 (5) 2.1.3 采样位数与采样频率 (5) 2.2 语音信号的分析及处理方法 (6) 2.2.1 语音的录入与打开 (6) 2.2.2 时域信号的FFT分析 (6) 2.2.3 数字滤波器设计原理 (7) 2.2.4 数字滤波器的设计步骤 (7) 2.2.5 IIR滤波器与FIR滤波器的性能比较 (7) 第三章图形用户界面设计 (8) 3.1 图形用户界面概念 (8) 3.2 图形用户界面设计 (8) 3.3 图形用户界面模块调试 (9) 3.3.1 语音信号的读入与打开 (9) 3.3.2 语音信号的定点分析 (9) 3.3.3 N阶高通滤波器 (11) 3.3.4 N阶低通滤波器 (12) 3.3.5 2N阶带通滤波器 (13) 3.3.6 2N阶带阻滤波器 (14) 3.4 图形用户界面制作 (15) 第四章总结 (18) 附录 (19) 参考文献 (24)

摘要 数字信号处理是将信号以数字方式表示并处理的理论和技术。数字信号处理与模拟信号处理是信号处理的子集。 数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域,这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域,这是通过数模转换器实现的。 数字信号处理的算法需要利用计算机或专用处理设备如数字信号处理器(DSP)和专用集成电路(ASIC)等。数字信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点,这些都是模拟信号处理技术与设备所无法比拟的。 数字信号处理的核心算法是离散傅立叶变换(DFT),是DFT使信号在数字域和频域都实现了离散化,从而可以用通用计算机处理离散信号。而使数字信号处理从理论走向实用的是快速傅立叶变换(FFT),FFT的出现大大减少了DFT的运算量,使实时的数字信号处理成为可能、极大促进了该学科的发展。 MATLAB是矩阵实验室(Matrix Laboratory)的简称,和Mathematica、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。 MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多,并且mathwork也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++ ,JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用,此外许多的MATLAB爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。

项目二第二课时 了解声音和图像的数字化

第一单元数据与信息 项目二探究计算机中的数据表示———认识数据编码 第二课时了解声音和图像的数字化 ■教材分析 本项目旨在落实课标中“知道数据编码的基本方式”这一内容要求,让学生在体验数值、文本、声音、图像的基本编码方法的过程中,了解在数字化工具中存储数据的一般原理与方法。这部分内容理论性强,且对于高中生有一定难度。 教材继续延用“鸟类研究”这一项目情境,从“将鸟类研究过程中采集的数据数字化后存入计算机”这一需求出发,以生活中的编码为切入点,按照各类数据编码的原理及特点设计了三个活动———从树牌号认识编码、了解数值数据和文本数据的编码、了解声音和图像的数字化,引导学生探究各类数据在计算机中的表示方法,学习数值、文本、声音、图像等类型数据的基本编码方法,增强信息意识、发展计算思维、提升数字化学习能力。 ■教学目标 (1)经历声音数据数字化的过程,掌握声音数据数字化的基本方法,了解声音数字化的基本原理,知道采样频率、量化位数和声道数对数字化音频文件大小及效果的影响。 (2)经历图像数字化的过程,掌握图像数字化的基本方法,了解图像数字化的基本原理,知道分辨率和量化位数对位图的影响。 (3)亲历方案设计、对比分析、探究实验等学习活动,体会运用信息技术开展学习、解决问题的思想与方法。 (4)在数字化学习过程中掌握数字化学习的策略和方法,能够根据需要选用恰当的方法及合适的数字化工具和资源开展有效学习。 ■教学准备 (1)软硬件环境:机房,音频编辑软件,图像处理软件。 (2)教学素材:各类数据编码实例和编码表,用于体验活动的声音文件和图像文件。 ■教学重点 数字化过程的三个步骤:采样、量化、编码。

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论.............................................................................................................. 错误!未定义书签。 1.1课题背景及意义................................................................................. 错误!未定义书签。 1.2国内外研究现状................................................................................. 错误!未定义书签。 1.3本课题的研究内容和方法................................................................. 错误!未定义书签。 1.3.1 研究内容................................................................................ 错误!未定义书签。 1.3.2 开发环境................................................................................ 错误!未定义书签。 2 语音信号处理的总体方案............................................................................ 错误!未定义书签。 2.1 系统基本概述.................................................................................... 错误!未定义书签。 2.2 系统基本要求与目的........................................................................ 错误!未定义书签。 2.3 系统框架及实现................................................................................ 错误!未定义书签。 2.3.1 语音信号的采样.................................................................... 错误!未定义书签。 2.3.2 语音信号的频谱分析............................................................ 错误!未定义书签。 2.3.3 音乐信号的抽取.................................................................... 错误!未定义书签。 2.3.4 音乐信号的AM调制.............................................................. 错误!未定义书签。 2.3.5 AM调制音乐信号的同步解调............................................... 错误!未定义书签。 2.4系统设计流程图................................................................................. 错误!未定义书签。 3 语音信号处理基本知识................................................................................ 错误!未定义书签。 3.1语音的录入与打开............................................................................. 错误!未定义书签。 3.2采样位数和采样频率......................................................................... 错误!未定义书签。 3.3时域信号的FFT分析......................................................................... 错误!未定义书签。 3.4切比雪夫滤波器................................................................................. 错误!未定义书签。 3.5数字滤波器设计原理......................................................................... 错误!未定义书签。 4 语音信号实例处理设计................................................................................ 错误!未定义书签。 4.1语音信号的采集................................................................................. 错误!未定义书签。

声音的数字化表示

声音表达信息的特点及数字化表示 惠水民族中学濛江校区信息技术教研组集体备课 主备人:李秋霞授课人: 一、教材分析 本节内容是《多媒体技术应用》选修教材中的第三章第一节“多媒体作品中的声音”,声音同视频、动画一样,都是重要的信息表达方式,由于数字化音频在加工、存储、传递等方面的方便性,它正成为信息化社会人们进行信息交流的重要手段。因此这一节要让学生了解声音数字化表示的基本方法,激发学生的兴趣,同时教师要引导学生利用数字化声音进行信息交流。 二、教学目标 考虑到学生已有的认知结构和心理特征,根据教材结构与内容分析,制定的教学目标如下: 知识与技能 通过本节课的教学,让学生理解声音表达信息的特点,感受声音在人类表达、交流中的重要作用;了解数字音频与模拟音频的区别、体验声音的数字化过程以及了解midi音乐的特点。 过程与方法 通过小组合作探究学习,使掌握本节课的教学内容,同时培养学生自主学习与合作探究学习的素养。 情感态度与价值观 培养学生自主学习能力与团队合作能力,增强学生自主学习的意识、提高学生发现问题、解决问题的能力。同时通过学生自主学习,让他们明白“要知此事须躬行”的人声哲理。 三、教学重难点

教学重点:深入了解声音表达信息的特点,理解声音数字化表示基本方法。 教学难点:掌握模拟音频转换数字音频过程,掌握声音数据容量的计算。 四、学情分析: 在前面已经学习了图形、图像的数字化,由于学生的水平参差不齐,大部分学生已经习惯由老师来灌输知识,学生自主学习和小组合作能力缺乏,自我学习意识教差,所以需要教师引导学生作为主体在课堂发挥。 五、教学方法 兴趣引导、任务驱动、小组合作探究 考虑到学生认知方式,从实际生活入手,用学生感兴趣的内容,借助多媒体手段展示,并用语言激发学生学习的兴趣和主动性,并引导学生进一步的探究,让学生以自主探究和小组合作的方式来获取知识,组长组织本组同学讨论交流,由基础较好的学生带动其他组员共同深入实践学习,教师巡视并给以帮助提示。 六、教学课时 1课时 七、教学过程 一、巧设导入、激发兴趣(3分钟) 播放惠水民族中学濛江校区的校歌《永不停步》的MV前27秒把音频分离出来并删掉,后面加上音频),教师提问:观看有音频和没有音频的MV,有什么感想? 学生回答:有音频的感觉很好… 师生共同总结声音表达信息的特点:声音是人类社会最古老的信息媒体,也是我们日常生活中使用频率最高的信息媒体。二、小组合作探究、深化知识(20分钟)

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

音频数字化简单原理

音频数字化简单原理 [ 2007-3-13 9:41:00 | By: 林俊桂] 从字面上来说,数字化 (Digital) 就是以数字来表示,例如用数字去记录一 张桌子的长宽尺寸,各木料间的角度,这就是一种数字化。跟数位常常一起被提到的字是模拟 ( Analog/Analogue) ,模拟的意思就是用一种相似的东西去表达,例如将桌子用传统相机将三视图拍下来,就是一种模拟的记录方式。 两个概念: 1、分贝(dB):声波振幅的度量单位,非绝对、非线性、对数式度量方式。以人耳所能听到的最静的声音为1dB,那么会造成人耳听觉损伤的最大声音为100dB。人们正常语音交谈大约为20dB。10dB意味着音量放大10倍,而20dB却不是20倍,而是100倍(10的2次方) 。 2、频率(Hz):人们能感知的声音音高。男性语音为180Hz,女性歌声为600H z,钢琴上 C调至A调间为440Hz,电视机发出人所能听到的声音是17kHz,人耳能够感知的最高声音频率为20kHz。 将音频数字化,其实就是将声音数字化。最常见的方式是透过 PCM(脉冲) 。运作原理如下。首先我们考虑声音经过麦克风,转换成一连串电压变化的信号,如下图所示。这张图的横座标为秒,纵座标为电压大小。要将这样的信号转为 P CM 格式的方法,是先以等时距分割。 我们把分割线与信号图形交叉处的座标位置记录下来,可以得到如下资料,(0.0 1,11.6 5) ,(0.02,14.00) 、 (0.03,16.00) 、 (0.04,17.74) … ..(0.18,15.94) 、 (0. 19 ,17.7) 、 (0.20,20) 。好了,我们现在已经把这个波形以数字记录下来了。由于我们已经知道时间间隔是固定的 0.01 秒,因此我们只要把纵座标记录下来就可以了,得到的结果是 11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07 19.4 4 18.59 17.47 16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00 这一数列。这一串数字就 是将以上信号数字化的结果。看吧,我们确实用数字记录了事物。在以上的范例中,我 们的采样频率是 100Hz(1/0.01 秒 ) 。其实电脑中的 .WAV 档的内容就是类似这个样子

数字语音信号处理实验报告

语音信号处理实验报告 专业班级电子信息1203 学生姓名钟英爽 指导教师覃爱娜 完成日期2015年4月28日 电子信息工程系 信息科学与工程学院

实验一语音波形文件的分析和读取 一、实验学时:2 学时 二、实验的任务、性质与目的: 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验 (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 三、实验原理和步骤: WAV 文件格式简介 WAV 文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV 文件的头四个字节就是“RIFF”。WAV 文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV 文件标识段和声音数据格式说明段两部分。常见的WAV 声音文件有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8 位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16 位的整数(int),高八位和低八位分别代表左右两个声道。WAV 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV 文件中,道0 代表左声道,声道1 代表右声道;在多声道WAV 文件中,样本是交替出现的。WAV 文件的格式 表1 wav文件格式说明表

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

音频信号数字化hbj

音频信号数字化hbj

————————————————————————————————作者:————————————————————————————————日期:

1.1 模拟信号与数字信号 1)模拟信号:从时间上以及幅值上都连续(不间断)变化 的信号称为模拟信号 (a) (b) 图1-1模拟与数字信号 [注]:①模拟信号强调在时间上的连续性。 ②模拟信号强调在幅值上的连续性。 ③计量和描述方式,一般采用十进制数 2)数字信号:在时间上和幅值上都是离散(不连续)的信 号称为数字信号 数字信号不同,它是那些像电报中用的莫尔斯码那样的长短不同的码信号,或者像计算机中的脉冲信号以及电源通/断的两个状态……都属于数字信号。它在时间上和幅值上都是离散(不连

10 0208202120211010101001232=+++=?+?+?+?==B 续)的, [注]:①数字信号的特点: 在时间上和幅值上都不连续。 ②数字信号的描述方式:由于它只有两个状态,所以可以 用二值函数来表示,一般采用二进制数量来表示 ③二进制数与数字信号是两个概念:前者只是对后者的一 种描述,在数字信号中强调的是状态 ④正逻辑表示:用“1”表示有脉冲或电源接通,而用“0” 表示无脉冲或电源断开。 ⑤二进制的运算法则:逢二进一。 ⑥二进制与十进制的关系: 上式中n 为二进制数的bit 数,左边为十进制数D ,而右边是其所对应的二进制数的各位与各自权重之积的和。 如: ★ 列出四位(bit )二进制数与十进制数的关系表。 十进制数 二进制数 十进制数 二进制数 0 0000 2 0010 1 0001 3 0011 1.2 为什么要数字化 ①动态范围大:若采用16bit 量化方法,音频信号的幅度可 分为65536个量 化级,动态范围达96dB 。 ② 信息易处理:可以通过计算机对音、视频信号进行各种 特技及非线性编辑。 ③ 媒体易保存:使用时间长,采用数字化的光盘,重放时 不存在机械磨损, 使用寿命长。 ④成本低:数字化信息便于大规模集成电路的存储和处理,可降低成本。 i n i i b D 210 ∑-==

语音信号数字化

语音信号数字化 语音信号是模拟信号,其频率为300 Hz~3.4 kHz。原始语音信号如图2-1 所示。要将语音信号在数字传输系统中进行传递,就必须使模拟的语音信号数字化。语音信号数字化是进行数字化交换和传输的基础。 语音信号数字化的方法有很多,用得最多的是PCM。PCM是将模拟信号数字化的取样技术,它可将模拟语音信号变换为数字信号的编码方式,特别是对于音频信号。 在PCM传输系统中,发送端的模拟语音信号经声/电转换成模拟电信号,根据采样定理(采样过程所应遵循的规律,又称抽样定理、取样定理)对模拟电信号进行取样,取样之后进行幅度量化,最后进行二进制编码。经过抽样、量化和编码3个模数变换(A/D)过程,模拟电信号变成一连串二进制PCM数字语音信号,进入传输线路进行传输,传输至接收端后,PCM数字语音信号经过模数反变换(D/A)还原为模拟信号,再由低通滤波器恢复出原始的模拟语音信号,就完成了语音信号的数字化传输,如下图所示。 PCM过程的各阶段语音信号波形如下图所示。

1.抽样 抽样又称采样,是指在时间轴上等距离地在各取样点取出原始模拟信号的幅度值。1928年,美国电信工程师H.奈奎斯特(H.Nyquist)提出了采样定理。采样定理说明了采样频率与信号频谱之间的关系,是连续信号离散化的基本依据。采样定理为采样频率建立了一个足够的条件,该采样频率允许离散采样序列从有限带宽的连续时间信号中捕获所有信息。 (1)奈奎斯特采样定理。在进行模/数转换过程中,当采样频率fs大于或等于信号中最高频率fmax的2倍时,采样之后的数字信号会完整保留原始信号的全部信息。一般实际应用中保证fs为fmax的2.56~4倍。 (2)语音信号抽样。由采样定理可知,当满足奈奎斯特采样定理条件时,在接收端只需经过一个低通滤波器就能够还原成原模拟信号。这一过程称为脉冲振幅调制(pulse amplitude modulation,PAM)。取样后的信号称为脉冲振幅调制信号。 若从低通滤波器输出的语音信号的最高频率为3.4 kHz,按采样定理选取最高频率为fmax=4 kHz,则采样频率为fs≥2fmax=8 kHz。根据奈奎斯特采样定理可知,此时在接收端就能恢复为原来的信号,也就是该系统的抽样间隔为 ts=1/fs=1/8 000=125 μs,即每隔1/8 000 s(125 μs)对语音信号抽样一次。语音信号在时间上是连续的,经过抽样后将变为时间上不连续、离散的信号,语音信号的抽样。 2.量化 抽样后得到的PAM信号的幅度仍为连续值,为了将这个连续值离散化就要对它进行量化。所谓量化,就是指把经过抽样得到的瞬时值的幅度离散,即用一组规定的电平值将瞬时抽样值用最接近的电平值来表示,从而实现用有限个数字来表示一个无限多取值的信号。 典型的量化过程是将PAM信号可能取值的范围划分成若干级,每个PAM信号按四舍五入的原则就近取某级的值。如图2-3所示,对抽样后的语音信号幅值进行量化,从+127至-127设置量化等级,其抽样值为31.7的抽样点量化后为32,其抽样值为127.2的抽样点量化后为127。 由于量化是一种近似取值的表示方法,因此接收端的信号在恢复时会产生一

数字语音处理(精华版)

1·语音信号处理的三大分支:语音合成(说),语音编码(压缩),语音识别(听),语音增强。2·语音是怎样生成的:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。 3·浊音:发音时声带振动的音称为浊音,它能量高,过零率低。 为周期性斜三角脉冲。清音:声带不振动,能量低过零率高非周期脉冲,可用随机白噪声激励。 4·掩蔽效应:一个声音的听感觉感受受同时存在的另一个声音的影响的现象。 掩蔽效应的应用:它指人耳只对最明显的声音反应敏感,对于不敏感的反应较不敏感,应用此原理人们发明了MP3等压缩的数字音乐格式,只突出记录人耳较为敏感的中频段声音,大大压缩了存储空间。 5·听觉机理:(1)外耳:机械振动,(2)中耳:限幅放大,(3)内耳:耳蜗。 6·语音信号数字模型:1)激励模型、2)声道模型、3)辐射模型。 7·语音生成系统的传递函数: ) ( )z( ) ( ) (z R V z G z H= 8·模型局限性及解决办法: 声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说由于出现了零点,这种模型就不够准确了,一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化,另一种是适当提高阶数P,使得全极点模型能更好的逼近具有此种零点的传输函数。9·预加重含义:加入一阶高通滤波器。10·预加重处理目的:目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率11·预加重处理技术:一般通过传递函数为: z1 1 H(z)- - =α的一阶FIR高通数字滤波器来实现预加重。 12·短时平均能量主要用途: 1)可以作为区分浊音和清音的特征参 数2)在信噪比较高的情况下短时能量 还可以作为区分有声和无声的依据3) 可以作为辅助的特征参数用于语音识 别中。 13常用的窗有两种:一种是矩形窗, 窗函数如下: ? ? ?- ≤ ≤ = 其他 ,0 1 ,1 ) ( N n n ω 可简化为: ∑ - - = - - = n N n m n m x m x z )1 ( |)] 1 ( sgn[ )] ( sgn[ | 2 1 π 另一种是汉明窗,窗函数: ? ? ?≤ ≤ - - = 其他 ,0 )] 1 /( 2[ cos 46 .0 54 .0N n N nπ ω 14·过零率:单位时间内过零的次数。 浊音:过零率低能量高,清音:过零率 高能量高。 15·端点检测目的:从包含语音的一段 信号中确定出语音的起点及结束点。 16·自相关函数: 时域离散确定信号: ∑+∞ -∞ = + = m k m x M x) ( ) ( ) R(k 时域离散随机信号: ∑ - = + + = N N m k m x m x N ) ( ) ( 1 2 1 ) R(k 自相关函数性质:1)对称性: R(K)=R(-K)2)在K=0处为最大值, 即对于所有K来说 )0( |) ( |R K R≤3)对于确定信 号,R(0)对应于能量对于随机信号R (0)对应于平均功率。 17·浊音和清音的短时自相关函数有以 下特点:1)短时自相关函数可以很明显 的反映出浊音信号的周期性 2)清音的短时自相关函数没有周期性, 也不具有明显突出的峰值,其性质类似 于噪声。3)不同的窗对短时自相关函 数结果有一定影响。 18·短时自相关函数(求峰值)两个峰 值之间的距离为周期。短时平均幅度差 函数(求谷值)两个谷值之间的距离为 周期。 19·采用双限门比较的两极判决法:第 一级判决:1)先根据语音短时能量的轮 廓选取一个较高的门限T1进行一次粗 判:语音起止点位于该门限与短时能量 包络交点所对应的时间间隔之外。 2)根据背景噪声的平均能量确定一个 较低的门限T2,并从A点往左、从B 点往右搜索,分别找到短时能量包络与 门限T2相交的两个点C和D,于是CD 段就是双门限方法根据短时能量所判 定的语音段。第二级判决: 以短时平均过零率为标准,从C点往左 和D点往右搜索,找到短时平均过零 率低于某个门限T3的两点E和F,这 便是语音段的起止点。门限T3是由背 景噪声的平均过零率所确定的。 20·当n固定时,它们就是序列 ) ) (m x( m - n ω的傅里叶变 换或离散傅里叶变换。当ω或K固定 时,它们就是一个卷积,相当于滤波器 的运算。 21·基音周期估值的两种方法:第一种 方法:先对语音信号进行低通滤波,在 进行自相关计算。第二种方法,先对语 音信号进行中心削波处理,在进行自相 关计算。 判别基音周期的方法:1·短时自相关 函数法。2·短时平均幅度差函数。 22·线性预测编码就是利用过去的样值 对新样值进行预测,然后将样值的实际 值与预测值相减,得到一个误差信号, 显然误差信号的动态范围远小于原始 语音信号的动态范围,对误差信号的进 行量化编码,可大大减少量化所需的比 特数,使编码速率降低。

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 学号姓名成绩 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年

实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分 (1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。

二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。 上述程序是在Matlab软件中画出语音信号的时域波形(图1),回放录入声音。从图中可以看出在时域环境下,信号呈现出3个不规则的信号峰值。然后对语音信号进行频谱分析,在Matlab中可以利用函数fft对信号行快速傅里叶变换,得到信号的频谱图如图1所示。 3.MATLAB中的窗函数 实际应用的窗函数,可分为以下主要类型: a) 幂窗--采用时间变量某种幂次的函数,如矩形、三角形、梯形或其它时间(t)的高次幂; b)三角函数窗--应用三角函数,即正弦或余弦函数等组合成复合函数,例如汉宁窗、海明窗等; c)指数窗--采用指数时间函数,如形式,例如高斯窗等。 d)平顶窗--平顶窗在频域时的表现就象它的名称一样有非常小的通带波动。 不同的窗函数对信号频谱的影响是不一样的,这主要是因为不同的窗函数,产生泄漏的大小不一样,频率分辨能力也不一样。信号的截短产生了能量泄漏,而用FFT算法

数字语音信号处理的应用价值及发展趋势

数字语音信号处理的应用价值及发展趋势 姓名:宁闯 学号: 201005107 众所周知, 语音在人类社会中起了非常重要的作用。 在现代信息社会中, 小至人们的日 常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、 移动电话和互联网已经普及到家庭。在这些先进的工具中, 语音信号处理中 的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机 ( 又称听写机, 它能把语音转换为文字 ) 、 语音翻译机 ( 例如输入为汉语,输出为英语, 或者相反 ) ,已经不是 梦想而是提到日程上的研究工作了。 20 世纪 60 年代中期形成的一系列数字信号处理方法和算法 , 如数字滤波器、快速傅 里叶变换 (FFT) 是语音数字信号处理的理论和技术基础。而 70

年代初期产生的线性预测编. 码 (LPC) 算法 , 为语音信号的数字处理提供了一个强有力的工具。语音信号的编码和压缩是语音信号处理的主要内容。语音信号处理在通信、 语音识别与合成、自然语言理解、多媒体 数据库以及互联网等多个领域有广泛的应用 , 同时它对于理解音频类等一般的声音媒体的 特点也有很大的帮助。对于移动通信来说 , 最多的信息是语音信号 , 语音编码的技术在数字 移动通信中具有相当关键的作用 , 高质量低速率的语音编码技术是数字移动网的永远的追 求。所谓语音编码是信源编码 , 它是将模拟语音信号变成数字信号以便在信道中传输。除了 通信带宽的要求外 , 计算机存储容量的限制也要求对语音信号进行压缩 , 以满足海量数据情 况下进行实时或准实时计算机处理的目的。 1 语音信号处理的关键技术 语音信号处理的理论基础就是一般的数字信号处理理论 , 它的主要研究内容是语音编 码和语音压缩技术。 考虑到人对听觉媒体的感应特点 , 研究语音信号处理必须与声音心理学 联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。 (1) 声音心理学

第二章 语音信号处理基础知识

第二章语音信号处理基础知识 1、语音信号处理? 语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。 2、语音信号处理的目的? 1)如何有效地,精确地表示、存储、传递语音信号及其特征信息;2)如何用机器来模仿人类,通过处理某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话人、识别出说话内容等。 因此,在研究各种语音信号处理技术之前,需要了解语音信号的基本特性,同时,要根据语音的产生过程建立实用及便于分析的语音信号模型。 本章主要包括三方面内容:语音的产生过程、语音信号的特性分析以及语音信号生成的数学模型。 第一部分内容语音的产生过程,我们要弄清两个问题:1)什么是语音?2)语音的产生过程? 3、什么是语音? 语音是带有语言的声音。人们讲话时发出的话语叫语音,它是一种声音,由人的发音器官发出且具有一定的语法和意义。语音是声音和语言的组合体,所以对于语音的研究包括:1)语音中各个音的排列由一些规则控制,对这些规则及其含义的研究成为语言学;2)对语音中各个音的物理特征和分类的研究称为语音学。 4、语音的产生 语音的产生依赖于人类的发声器官。人的发音器官包括:肺、气管、喉、咽、鼻、口等。 ◆喉以上的部分称为声道,其形状随发出声音的不同而变化; ◆喉的部分称为声门。 ◆喉部的声带是对发音影响很大的器官。声带振动产生声音。 ◆声带开启和闭合使气流形成一系列脉冲。

每开启和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。 基音的范围约为70 -- 350Hz,与说话人的性别、年龄等情况有关。 人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 人的说话的过程: 1)想说阶段:人的说话首先是客观事实在大脑中的反映,经大脑的决策产生了说话的动机; 接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合,以表达想说的内容和情感。 2)说出阶段:由想说阶段大脑中枢的决策,以脉冲形式向发音器官发出指令,使得舌、唇、鄂、声带、肺等部分的肌肉协调地动作,发出声音。与此同时,大脑也发出一些指令给其他有关器官,使之产生各种动作来配合言语的效果,如表情、手势、身体姿态等。经常有些人说话时会手舞足蹈。另外,还会开动“反馈”系统来帮助修正语音。 3)传送阶段:说出的话语是一连串声波,凭借空气为媒介传送到听者的耳朵。有时遇到某种阻碍或其他声响的干扰,使声音产生损耗或失真。 4)接收阶段:从外耳收集的声波信息,经过中耳的放大作用,达到内耳。经过内耳基底膜的振动,激发器官内的神经元使之产生脉冲,将信息以脉冲形式传送给大脑。 5)理解阶段:听觉神经中枢收到脉冲信息后,经过一种至今尚未完全了解的方式,辨认说话人及听到的信息,从而听懂说话人的话。 再开始介绍语音信号的特性之前,我们先了解一下语音和语言的定义。 5、语言 是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等不同层次的单位,以及词法、句法、文脉等语法和语义内容。语言学是语音信号处理的基础。例如,可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。 6、语音学 Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以

语音信号处理与识别

信号系统课程设计报告 欧阳光亮2012029020025 语音信号处理与识别 目的:理解时域和频域尺度变换基本概念,掌握信号时频域分析方法,正确理解采样定理,准确理解滤波器的概念。 内容: (1)使用Matlab中wavrecord命令录制一段3秒的语音信号,使用wavplay命令播放,录制命令和播放命令中的采样频率设置成相同和不同两种情况,对观察到的现象进行分析并结合课本中的知识对该现象进行解释; (2)使用不同的采样频率录制一段3秒的语音信号,画出信号的时域波形和频谱;找到语音信号的主要频谱成分所在的带宽;观察并分析不同采样频率对波形和频谱的影响;寻找声音信号不出现明显失真的最低采样频率;(3)录制一段男生的语音信号和一段女生的语音信号,对两段音频信号进行混合,设计滤波器将混合的语音信号分开成单独的男声和女声信号,如果分离效果不好,对原因进行解释。 Matlab命令:wavrecord, wavplay, wavwrite, wavread, save, load, fft, fftshift, filter, plot, subplot, figure. 过程: (1)相同: fs1=16000; %取样频率 fs2=16000; %播放频率 duration=5; %录音时间 fprintf('Press any key to start %g seconds of recording...\n',duration); pause; fprintf('Recording...\n'); y=wavrecord(duration*fs1,fs1); %duration*fs 是总的采样点数 fprintf('Finished recording.\n'); fprintf('Press any key to play the recording...\n'); pause; wavplay(y,fs2);

相关文档
最新文档