广州大学 数字语音处理复习题
数字音频题目和答案

1.声音数字化的三个环节是:采样、量化、编码2.采样定理的内容是什么?采样定理是对时间变化的信号波形用该信号最高频率成分f max的2倍作为采样频率f s进行采样,当将采样值通过截止频率等于1/2f s的低通滤波器后,可得到原连续变化的信号波形3.误码矫正的思想是什么?是在声音数字化形成的数码(信息码)内增加一定数目的监督码元,与信息码之间建立某种检验关系,一旦这种关系被破坏,可以发现并给予纠正。
4.奇偶监督码如何产生?偶监督码只要校正1的个数不为偶数,判断为误码。
因此仅能校验出奇数个码元发生错误。
奇监督码只要校验1的个数不为奇数,判断为误码。
5.交织与去交织是什么意思?交织是对编码后的数码流改变其顺序,恢复时再按原来的顺序重排。
前者称为交织或交错而后者为去交织或去交错。
6.EFM调制的含义?EFM又称为8-14码型变换,用语CD激光数字唱片系统。
7.声音压缩编码的方式有哪些?时域编码,频域编码和统计编码8.声音的频率范围如何?20Hz—20kHz9.人耳对哪段频率更敏感?3kHz—5kHz10.等响度曲线的含义是什么?描述响度、声音声压级一集声源频率之间的关系的曲线称为等响度曲线11.什么是掩蔽效应,其有何规律?掩蔽效应分为频域掩蔽效应和时域掩蔽效应。
规律:强音压低音;低频率声音压高频率声音12.描述声音的常见物理量有哪些?声压,声强,声压级,声强级,响度,响度级13.什么是信源编码,什么是信道编码?①信源编码:一种以提高通信有效性为目的而对信源符号进行的变换;为了减少或消除信源剩余度而进行的信源符号变换。
②信道编码:为了与信道的统计特性相匹配,并区分通路和提高通信的可靠性,而在信源编码的基础上,按一定规律加入一些新的监督码元,以实现纠错的编码。
14.MPEG标准有哪些?目前MPEG已经完成了MPEG-1,MPEG-2,MPEG-4第一版的音频编码等方面的技术标准。
正在制定MPEG-4的第二版,MPEG-7及MPEG-21的音频编码技术标准。
《数字音视频技术》考试复习题库(附答案)

《数字音视频技术》考试复习题库(附答案)一、单选题1.关于量化位数的说法,错误的是()。
A、在相同的采样频率下,量化位数越高,声音的质量越好。
B、量化位数又称作量化精度、采样位数。
C、在相同的采样频率下,量化位数越低,声音的质量越好。
D、简单地说就是描述声音波形的数据是多少位的二进制数据。
参考答案:C2.我国电视标准规定,图像信号采用()。
A、正负极性调幅B、负极性调幅C、以上都不对D、正极性调幅参考答案:B3.彩色的色饱和度指的是彩色的()。
A、种类B、亮度C、以上都不对D、深浅参考答案:D4.屏幕上出现图像向上缓慢移动是由于电视机()。
A、场频稍低B、行频、场频稍高C、行频稍低D、行频、场频稍低参考答案:A5.目前,我国采用的电视制式为()。
A、NTSC30帧/sB、PAL30帧/sC、PAL20帧/sD、PAL25帧/s参考答案:D6.关于音量包络线,下列()说法是错误的。
A、包络线能够让您直接观察到特定时间的设置。
B、如果线条处于最底部,则表示音量最大。
C、如果线条处于最顶端,则表示音量最大。
D、您可以通过拖拽包络线上的关键帧来编辑包络设置。
参考答案:B7.()是音频编辑软件。
A、WindowsMediaPlayerB、AdobeAuditionC、WinampD、QvodPlayer参考答案:B8.黑白电视信号能量只集中在()及其谐波附近很窄的范围内,随谐波次数的升高,能量逐渐下降。
A、行频B、行同步C、场同步D、场频参考答案:A9.基于视听对象的多媒体编码标准是()。
A、MPEG-1B、MPEG-21C、MPEG-4D、MPEG-7参考答案:C10.视频图像的编码方法的基本思想是:第一帧和关键帧采用()方法进行压缩。
A、帧内编码B、运动估计C、运动补偿D、帧间编码参考答案:C11.高清晰度电视或大屏幕高质量电视要求幅型比定为()。
B、16∶9C、9∶16D、3∶4参考答案:B12.不能选取全部波形的方法()。
第二章 数字音频处理习题(最全)word资料

第二章数字音频处理习题2-1填空题1.计算机产生声音的方法有两种:一是,二是,波形音频产生声音。
2.MIDI泛指。
MIDI标准规定的不同MIDI设备相互传送的MIDI 数据事实上是。
MIDI给出了在计算机中得到音乐声音的另外一种方法,在计算机中实现包括和两个过程。
3.CD音频属于的一种,采用组织音频数据,而没有采用组织。
4.依照MCI接口的规定,波形音频、MIDI音频和CD音频,属于多媒体设备。
waveaudio为的多媒体设备名称;MIDI音频的多媒体设备名称为,CD音频的多媒体设备名称为。
2-2简答题1.请说出数字音质、AM音质、FM音质、CD音质的数字化采样频率?2.请说出计算机中产生声音的两种方法及其区别?3.请解释MIDI的涵义?2-3分析题1.以下为Windows操作系统的MEDIA子目录下chimes.WA V文件的头数十字节内容,请分析该文件的制作格式?00000000h: 52 49 46 46 D8 D9 00 00 57 41 56 45 66 6D 74 2000000010h: 10 00 00 00 01 00 02 00 22 56 00 00 88 58 01 0000000020h: 04 00 10 00 64 61 74 61 84 D9 00 00 02 00 03 0000000030h: 09 00 06 00 07 00 02 00 05 00 00 00 03 00 03 002-4 计算题1.请计算存储5分钟的44.1k采样频率下16位立体声音频数据至少需要多少K字节?2.某一样本值量化后的值为+1925,求μ=255的μ律PCM码?2-5上机应用题1.请用UltraEdit-32文字/HEX编辑软件对照【例】分析光盘N2目录下的“Windows XP 登录音.wav”文件2.请用GoldWave编辑“Windows XP 登录音.wav”声音文件,具体要求如下:(1)将其音频波形平坦处音量加大到与非平坦处可以比拟(2)只保留左声道音频数据,右声道复制一些背景音乐(3)适当剪裁第二章数字音频处理习题解答2-1填空题1.计算机产生声音的方法有两种:一是录音/重放,二是声音合成,波形音频采用第一种方法产生声音。
数字音频处理习题_多媒体技术及应用——习题与上机实践_[共4页]
![数字音频处理习题_多媒体技术及应用——习题与上机实践_[共4页]](https://img.taocdn.com/s3/m/091c7988312b3169a551a4a7.png)
第3章数字音频处理习题一、判断题1.人耳对声音的听觉频率范围为20Hz~20kHz。
( )2.语音的频率范围主要集中为300Hz~3.4kHz。
( )3.人耳对频率在200~2000Hz的声音最敏感。
( )4.音色由声音的基音频率决定,频率越低音色越浑厚。
( )5.在音频数字化过程中,需要考虑采样频率、量化位数和编码方法。
( )6.音频数字化过程中,量化过程实质上是一个有损压缩编码过程,必然带来信息的损失。
( )7.多媒体作品中,采集的音频素材质量越高越好。
( )8.音乐合成功能和性能依赖于合成器,合成器技术有FM合成和波表合成两类。
( )9.MIDI具有生成文件较小、容易编辑、音乐效果良好等优点。
( )10.就合成乐曲的音质而言,FM合成器比波表合成器合成的音质好。
( )11.MIDI文件保存的是MIDI设备演奏的乐曲波形数据。
( )12.MP3文件的数据压缩比一般可以达到1:18。
( )13.WMA文件格式比MP3格式具有更高的数据压缩比。
( )14.FLAC格式和APE格式一样,都采用无损压缩算法压缩数据。
( )15.手机通信的压缩编码与数字家庭影院系统的压缩编码采用的算法截然不同。
( )16.同一个数字音频用ARM格式保存的音质肯定高于用MP3格式保存的音质。
( )17.OGG格式在游戏音效、便携播放器、音乐软件中得到广泛应用。
( )18.Cakewalk sonar和Logic Audio都具备音序器和音源器的功能,可以实现MIDI文件的编辑和演奏。
( )19.在Audition CS6的单轨编辑窗口中按快捷键Ctrl+A可以选中整个波形。
( )20.在Audition CS6中,如果对录音降噪后,录音音量较低,一般选择“效果→振幅与压限→增幅”命令来调高音量。
( )21.Audition CS6编辑波形时,选取波形后执行“裁剪”命令将删除未选取的波形,保留选取的波形。
( )22.Audition CS6中复制的波形存放到Windows的剪贴板中,可以在Windows的其他应用程序中粘贴,实现数字音频共享。
数字音频技术期末考试试卷

数字音频技术期末考试试卷《数字音视频技术》期末考试试卷一.选择(每题2分,共20分)1.可闻声的频率范围()a.20~2000hzb.200~20000hzc.20~20000hzd.200~2000hz2.下面哪一种相加混色产生的色彩是错误的()a.红色+绿色=黄色b.红色+蓝色=橙色c.蓝色+绿色=青色d.红色+绿色+蓝色=白色。
3.不是数字图像的格式的是()a.jpgb.gifc.tiffd.wave4.在音频数字化的过程中,对演示语音信号处理的步骤依次为()a.样本编码定量b.定量样本编码c.抽样量化编码d.量化编码抽样5.将声音转型为数字化信息,又将数字化信息转换为声音的设备就是()a.声卡b.音响c.音箱d.pci卡6.不属于国际上常用的视频制式的就是()a.pal制b.ntsc制c.secam制d.mpeg7.数字音频采样和量化过程所用的主要硬件是()a.数字编码器b.数字解码器c.演示至数字的转换器(a/d转换器)d.数字至演示的转换器(d/a转换器)8.信息接受者在没有接收到完整的信息前就能处理那些已经接受到的信息一边接收,一边处理的方式叫()a.多媒体技术b.流媒体技术c.云技术d.动态处理技术9.影响声音质量的因素不包含()a.声道数目b.取样频率c.定量位数d.存储介质10.我们常用的vcd,dvd采用的视频压缩编码国际标准是()a.mpegb.plac.ntscd.jpeg二.填空(每空2分,共30分)1.音质三要素:、和。
2.色彩三要素:、和。
3.混色的方法存有:和。
4.视频冗余是指相邻帧间和每帧的水平方向和垂直方向上的相邻像素间存在很强的相关性,它包含的种类有:冗余、冗余、冗余、冗余和视觉冗余。
5.色彩模型中的三基色原理就是指利用、和三种色光混合,可以产生各种色彩。
三.简答题(每题10分,共50分)1.常见数字音频文件格式有哪些?2.常用数字视频文件格式存有哪些?3.什么是5.1声道环绕立体声?4.数字音视频信号的传输方式主要存有哪几种?5.简述声卡的主要功能答案一.选择(每题2分,共20分)1.c2.b3.d4.c5.a6.d7.c8.b9.d10.a二.填空(每空2分,共30分)1.音调响度音色。
广州大学DSP复习试卷 (1)

试卷八一、单项选择题1、SXM指的是(分数:3分;难度:较易)A、符号位扩展方式控制位B、精度等级设置位C、数据类型设置位D、溢出处理标志答错了参考答案:A你的解答:2、EXP AST T,EXPONENTNORM A这段程序的功能是(分数:3分;难度:较难)A、对A取整数B、对A取余数C、对A做归一化处理D、对A做指数处理答错了参考答案:C你的解答:3、中断指令属于(分数:3分;难度:中等)A、程序控制指令B、数据传送指令C、算术运算指令D、特殊运算指令答错了参考答案:A你的解答:4、链接器命令文件中,填加注释的方法是:(分数:3分;难度:较易)A、//B、;C、/* */D、*答错了参考答案:C你的解答:5、设外部时钟频率为10MHz,CLKMD=9007H,则DSP的工作频率为(分数:3分;难度:较难)A、10MB、20MC、100MD、1000M答错了参考答案:C你的解答:6、软件PLL处理倍频模式时,系数的取值范围是(分数:3分;难度:中等)A、1~2B、0.0~0.99C、0.25~15D、0.5~100答错了参考答案:C你的解答:7、为了察看C源程序与汇编程序的混合代码,可以选择(分数:3分;难度:较易)A、Mixed source/ASM选项B、Dis-Assembly Style 选项C、Memory选项D、Quick watch选项答错了参考答案:A你的解答:二、填空题1、按数据格式分,DSP(分数:2分;难度:较易)参考答案:[1]定点浮点2(分数:2分;难度:中等)参考答案:[1]FRCT=13FFT(分数:2分; 难度:较易)参考答案:[1]位倒序4、COFF(分数:2分; 难度:较易)参考答案:[1]35、为避免FFT(分数:2分; 难度:较难)参考答案:[1]右移一位6、设f=4MHz, T=250ns,(分数:2分; 难度:较难)参考答案:[1]262.144ms7、为DSP(分数:2分;难度:中等)参考答案:[1]外部时钟源DSP芯片内部8、程序存储器ROM(分数:2分;难度:较易)参考答案:[1]维持操作编程操作9、CCS软件安装成功后,在桌面上会出现两个图标, 一个对应CCS, 另一个对应CCS.(分数:2分;难度:较易)参考答案:[1]应用配置10(分数:2分;难度:中等)参考答案:[1]刷新图形文件输入/输出三、判断题1、当乘法运算时数据溢出后,DSP系统会报警。
语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。
1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。
人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。
在“短时”期间,声道可表示为形状稳定的管道。
另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。
共振峰就是这个腔体的谐振频率。
由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。
一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。
基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。
从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。
它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。
此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。
数字语音总复习思考题

《数字语音处理》复习思考题1. 数字语音处理的概念?数字语音处理的学科基础是什么?数字语音处理研究涉及哪些相关学科?2. 数字语音处理应用包括哪些技术?数字语音处理的应用主要包括哪些方面?3. 常用语音编辑软件有哪些?怎样制作你自己演唱的MP3歌曲?4. 基于各种音素发音不同的谐振特点可建立起的共振峰模型有哪三种?各种模型的特点?5. 语音的构成包括哪些?语音发音的最小单位是什么?6. 人说话的过程可分为哪五个阶段?7. 人的言语过程与哪些因素有关?8. 声道由哪几个部分组成?9. 掌握发声机理框图,简要解释语音的形成过程。
10. 什么是听觉掩蔽效应?简述人类听觉功能的掩蔽效应。
11. 人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?12. 什么是共振峰频率?13. 舌位的前后高低与元音共振特性有哪些联系?14. 什么是音调周期(或基音周期)?什么是基音频率(或基频)?15. 语音信号的数字表示方法有哪两种?16. 理解语音信号产生的数字模型及模型组成。
17. 语音信号的数字模型包含哪些子模型?激励模型与辐射模型分别属于什么性质滤波器?18. 语音产生的数字模型中的声道子模型有两种建模方法,它们是哪些?19. 基于各种音素发音不同的谐振特点可建立起的共振峰模型有哪三种?各种模型的特点?20. 根据分析参数(分析域)的不同,语音信号分析可分为哪些方法?21. 语音信号是时变信号,处理语音信号最基本的技术是什么?22. 什么是语音信号的短时加窗处理?23. 对语音信号进行处理前为什么要进行分帧?分帧的常用方法是什么?一个语音帧的长度一般取多少?请简要解释。
24. 基本短时参数——短时能量、短时平均幅度、短时过零率、短时自相关、互相关、短时平均幅度差函数等,作用?25. 实验中怎样判断浊音和清音?26. 短时平均过零率指的是什么?声带振动、声带不振动、或没有声音时若有噪声存在时,过零率有何特点?27. 请说明对语音信号进行短时傅里叶分析时,移动窗宽与短时频谱的关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章绪论1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。
p1d32.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d33.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。
p4d3第二章语音信号处理基础知识1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。
p5d22.语音的基本声学特性包括音色,音调,音强、音长。
p7d2音色:也叫音质,是一种声音区别于另一种声音的基本特征。
音调:是指声音的高低,它取决于声波的频率。
音强:声音的强弱,它由声波的振动幅度决定。
音长:声音的长短,它取决于发音时间的长短。
3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
p7d34.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。
p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。
p7d39.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。
p7d37.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。
p7d38.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。
)p7d39.元音的一个重要声学特性是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。
p7d510.汉语音节一般由声母、韵母和声调三部分组成。
汉语普通话中有6000多个常用字,每个汉字是一个音节。
p10d610. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。
11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。
p14d5 13. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。
p9d1114. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。
15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。
p21-2616.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。
p21d617.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。
p22d216.语音信号生成模型的辐射模型是一阶类高通滤波器。
p25d217.设截取的一段语音共有160个样本,而采样频率为8kHz ,则该段语音持续时间为20ms 。
18.设采样频率为8kHz ,则25ms 长的语音共有200个采样值。
18.研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图形称为语谱图(Sonogram ,或者Spectrogram )p29d119.语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
p29d120.传输函数形式为121()1Mii ii a V z b zc z--==--∏的共振峰模型为(2)数学模型;1.全零点;2.全极点;3.极零点;4.以上都不是;21.传输函数形式为121()1Mii ii a V z b zc z --==--∏的共振峰模型在结构上为(1 )模型;1.级联型2.并联型;3.混合型;4.以上都不是;22.传输函数形式为121()1Mii i iA V zB zC z --==--∑的共振峰模型为(3)数学模型; 1.全零点; 2.全极点; 3.极零点; 4.以上都不是;23.传输函数形式为121()1Mii i i A V z B zC z --==--∑的共振峰模型在结构上为(2)模型; 1.级联型2.并联型;3.混合型;4.以上都不是;24.简述语音产生过程的三个模型:25.基音频率、共振峰、语谱图的概念,会从语音波形中识别基音周期与共振峰频率。
发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch ),其倒数成为基音频率。
一般来说,男性说话的基音频率大致分布在50-200Hz 范围内,女性和小孩的基因频率在200-450Hz 之间。
人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率成为共振峰频率,简称共振峰。
共振峰由低到高依次为第一共振峰、第二共振峰、第三共振峰、。
,相应的频率用F1、F2、F3。
表示。
一般浊音中可以辨识的共振峰有5个,其中前三个对于区别不同语音至关重要。
语谱图描述了语音信号随时间而变化的频谱特性。
纵轴对应于频率、横轴对应于时间,图像的黑白度对应于信号的能量。
26.汉语中的四种声调与基音频率的关系是什么?无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。
29.音调:音调是听觉分辨声音高低时,用于描述这种感受的一种特性。
音调与声音的频率并不成正比,还与声音的强度及波形有关。
描述音调的单位是美(mel )。
一个高于听阈40dB 、频率为1KHz 的纯音所产生的音调定位1000mel ,如果一个纯音听起来比1000mel 的声音调子高一倍,则其音调为2000mel 。
音调与频率的关系近似表示为:3323.23lg(10.001)mel Hz T f ≈+27.掩蔽效应:当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。
第三章 语音信号分析21.语音信号分析采用短时分析技术。
p32d220. 语音信号分析,根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析、线性预测分析等。
根据分析方法的不同,分为模型分析方法和非模型分析方法两种。
p32d322.由于辐射模型的影响,语音信号高频部分衰减较大,所以在预处理中需采用预加重技术,即提升高频部分,使信号的频谱变得平坦。
23.不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等23.语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等(列举两个)。
25.对于频率分布为0~3400Hz 的语音信号,最低无失真采样频率应为6800Hz (2倍采样)25.若信号波形的变化足够大,或量化间隔Δ足够小时,以下有关量化噪声描述错误的是(4)p33d21.是平稳的白噪声过程2.量化噪声与输入信号不相关3.量化噪声在量化间隔内均匀分布,即具有等概率密度分布4.是服从高斯分布的随机过程26.以下那种分析不属于语音信号时域分析?(4) 1.短时过零率分析; 2.短时相关分析;3.短时平均幅度差函数;4.同态分析;短时能量的主要用途不包括以下那一项(4)p38d5 1.可以区分浊音段和清音段;2.可以用来查找声母和韵母的分界;3.可以用来查找无声和有声的分界;4.可以区分高频和低频分量;24.采用自相关函数法对基音周期进行估计时,先用60~900Hz 的带通滤波器对语音信号进行滤波,以下描述错误的是(4)p71d2 1.可减少共振峰的影响; 2.可抑制50Hz 的电源干扰;3.可保留基音频率的一、二次谐波;4.为了防止8kHz 采样时发生混叠干扰; 定义语音信号()n x m 的短时自相关函数()n R k 为:10()()(),0N kn n n m R k x m x m kk K --==+<≤∑,则以下表述错误的是(2):p40d3 (1) 如果()n x m 是周期的,则()n R k 是同周期的周期函数; (2) ()n R k 是奇函数; (3) (0)()n n R R k ≥7.设序列x(n)的短时能量定义为:[]2()().n m E x m w n m ∞=-∞=-∑其中窗函数表示为:,0()0,0m a m w m m ⎧≥=⎨<⎩ 试求E n 的一个递推公式,用E n-1和输入x (n )表示E n8.设序列x(n)的短时能量定义为:[]2()().n m E x m w n m ∞=-∞=-∑其中窗函数表示为:,()0,m a m Nw m others⎧≤⎪=⎨⎪⎩试求E n 的一个递推公式9.设短时平均过零率的定义为:[][]11sgn ()sgn (1)2nn n N Z x m x m N-+=--∑证明{}11sgn[()]sgn[(1)]sgn[()sgn[(1)]2n n Z Z x n x n x n N x n N N-=+-------1.语音的时变性与短时平稳性(p32d2):语音信号的波形有些波形段有较强的周期性,有的波形段有较强的噪声性,并且周期性语音和噪声性语音的特征也在不断变化中,从而具有时变性。
但在较短时间内(10-30ms )语音信号的特征可以认为基本保持不变,这就是语音信号的短时平稳性。
11.常用的时域基音检测算法有哪些(任选两种作答)?它们的基本原理是什么? 自相关函数法:浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。
因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。
短时平均幅度差函数法:对周期性的浊音语音,短时平均幅度差函数也呈现与浊音语音周期相一致的周期特性,短时平均幅度差函数在周期的各个整数倍点上具有谷值特性而不是峰值特性,可确定基音周期;而对于清音语音信号,短时平均幅度差函数却没有这种周期特性。
利用短时平均幅度差函数的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。
12.浊音与清音的短时能量、短时平均过零率、短时自相关函数和短时平均幅度差函数有什么差异?导致这些差异的根本原因是什么? 相对来说浊音的短时能量大、短时平均过零率低、短时自相关函数的峰值位置具有周期性,短时平均幅度差函数的谷值位置具有周期性。