基于DSP的语音分析系统
FFT在单片机上的实现

FFT在单片机上的实现摘要音频信号分析仪是一种可广泛见于各种音响、调音和录音设备上的,能实时地采样及分析输入的音频信号的频谱,并将其显示在显示屏上的设备,使人在聆听音乐时能对音乐的高低频能有直观的了解。
本文所介绍的即是这样一个音频信号分析系统。
系统的硬件由信号调理、控制处理器、显示模块三部分组成。
信号调理电路使信号可输入300mV~3V的交流音频信号。
这里只对单路信号处理:当电压较低时使用LM324运放获得增益,对超过12800Hz的信号进行滤波处理。
另外设置输出音频接口以便监听。
控制处理器采用51内核1T单片机STC12C60A5S2,晶振频率为32.768MHz。
该单片机自带8路10位高速ADC,这里只用1路ADC的高8位。
对信号连续采32个点进行浮点型FFT运算。
一次完整采样的时间为1.25ms,最高采样频率为25600Hz,分辨频率为800Hz~12800Hz,分16级。
显示部分主体为1602液晶显示屏,其具有2行×16列的8×5点显示点阵。
16分频谱将分别以柱高形式显示在显示屏上。
程序中设置了频率下落效果以使观感更好。
另设置了对比度调节电阻,使屏幕对比度可调。
关键词:FFT 单片机音频频谱THE REALIZATION OF FFT IN THEMICROCONTROALERABSTRACTAudio signal analyzer is a kind of device which can be widely found in various of audio, mixing and recording devices, and can sampling and analysis of the spectrum of the input have an intuitive audio signal and displays it on the display in real-time, people can are listening to Music for music when high frequency understanding. What presented in this article is just such an audio signal analysis system. The hardware of the system are formed with three parts: the signal conditioner, the control processor and the display module.Signal conditioning circuit makes the signal of 300mV ~ 3V AC audio signal available for inputting. In this system,we only process with single-channel signal: When the voltage is lower the system uses LM324 op amp to gain voltage, and as to signals more than 12800Hz it filters them. In addition the system sets an output audio interface for monitoring.The control processor of the system is the 51 cores 1T MCU STC12C60A5S2, with 32.768MHz crystal frequency. The device comes with 8-channel &10-bit high-speed ADC, where only one channel ADC high 8. The signal collected 32 points in consecutive floating-point FFT operation. A complete sampling time is 1.25ms, the maximum sampling frequency is 25600Hz, and the distinguish frequency is 800Hz ~ 12800Hz, with 16 levels.The main display section is 1602 LCD screen, which has 2 rows ×16 columns - 8 × 5 dot display matrix. 16 points to the column height spectrum will be displayed on the display. The process of setting of the frequency drop in the perception of better effect. There is also contrast adjustment resistor, which makes the screen contrast adjustable.KEY WORDS:FFT,MCU,AUDIO SPECTRUM目录第1章绪论 (1)§1.1研究的背景及意义 (1)§1.1.1课题研究背景 (1)§1.1.2课题研究意义 (1)§1.2课题发展的状况 (1)§1.3设计任务 (2)第2章系统方案设计 (3)§2.1 系统方案设计 (3)§2.2系统硬件的选择 (3)§2.2.1处理器的比较与选择 (3)§2.2.2采样模块的确定 (4)§2.2.3显示器件的比较和选择 (4)第3章系统硬件设计 (5)§3.1 单片机STC12C5A60S2 (5)§3.1.1单片机STC12C5A60S2功能简介 (5)§3.1.2 单片机STC12C5A60S2引脚图 (6)§3.1.2 单片机的最小系统 (6)§3.2 显示屏LCD1602 (7)§3.2.1 LCD1602简介 (7)§3.2.2 LCD1602的硬件连接 (8)§3.3.1 LM324电压增益与偏移电路 (9)§3.3.2 滤波电路 (10)第4章系统软件设计 (11)§4.1系统软件总体设计 (11)§4.2 系统软件详细设计 (12)§4.2.1 系统的准备和初始化 (12)§4.2.2 AD采样子程序 (13)§4.2.3 蝶形运算的FFT算法 (15)§4.2.4 显示子程序 (17)第5章系统调试 (20)§5.1 信号电压调试 (20)§5.2 单频率信号测试 (20)§5.2.1 实际频率分度测试 (21)§5.2.1 频率混叠和滤波效果 (22)§5.3 实际使用效果 (22)结论 (24)参考文献 (25)致谢 (26)附录 (27)一、主程序代码 (27)二、原理图 (35)第1章绪论§1.1研究的背景及意义§1.1.1课题研究背景在家庭影院、卡拉OK等音响系统中,实时显示音乐信号的频谱将为音响系统增不少色彩。
基于DSP 的FIR滤波器的设计

基于TMS320VC5416 的FIR 数字滤波器设计与实现论文摘要:在现代电子系统中,数字滤波器在语音处理、图像处理、模式识别以及各种随机信号分析中有着广泛的应用,且其波形传递系统中都越来越多的要求信道具有线性的相位特性,在这方面FIR滤波器具有独到的优点,它可以在幅度特性随意设计的同时保证精确严格的线性相位。
本文以窗函数法设计线性相位FIR数字滤波器为例,研究有限冲击响应(FIR)滤波器的基本原理,介绍用MATLAB工具软件设计数字滤波器的方法和如何在定点TMS320VC5416 DSP芯片上设计实现连续数字滤波器。
关键词:FIR滤波器,TMS320V5416一. 课题的目的以及意义随着集成电路技术的发展,各种新型的大规模和超大规模集成电路不断涌现集成电路技术与计算机技术结合在一起,使得对数字信号处理系统功能的要求越来越强。
DSP 技术就是基于VLSI技术和计算机技术发展起来的一门重要技术,DSP 技术已在通信、控制信号处理、仪器仪表、医疗、家电等很多领域得到了越来越广泛的应用.在数字信号处理中数字滤波占有极其重要的地位。
数字滤波在语音信号、图象处理模式识别和谱分析等领域中的一个基本的处理技术。
数字滤波与模拟滤波相比数字滤波具有很多突出的优点,主要是因为数字滤波器是过滤时间离散信号的数字系统,它可以用软件(计算机程序)或用硬件来实现,而且在两种情况下都可以用来过滤实时信号或非实时信号。
尽管数字滤波器这个名称一直到六十年代中期才出现,但是随着科学技术的发展及计算机的更新普及,数字滤波器有着很好的发展前景。
同时它也有完全取代模拟滤波器的时候,原因是数字滤波没有漂移,它能处理低频信号,数字滤波的频率响应特征可做成极接近于理想的特性,它可以做成没有插入损耗和有线性相位特性,可相当简单地获得自适应滤波,滤波器的设计者可以控制数字字长,因而可以精确地控制滤波器的精度,其中的道理是数字滤波随着滤波器参数的改变,很容易改变滤波器的性能。
集美大学2015年国家级大学生创新性实验计划项目一览表

省级 何淑媛 李绍平
省级 易炳文 陈海兰
省级 吕坤泽 贾锡伟
5000 C06445 5000 C06446 5000 C06447 5000 C06448 5000 C06449 5000 C06450 5000 C06451 5000 C06452 5000 C06453 5000 C06454 5000 C06455 5000 C06456 2500 C06457 2500 C06458 2500 C06459 2500 C06460 2500 C06461 2500 C06462 2500 C06463 2500 C06464 2500 C06465 2500 C06466 2500 C06467 2500 C06468
23 自热米饭发热包全自动包装机研制
24 食用油产品红外光谱检测
25 基于 AIS 数据的船舶异常行为研究
26 量子点核酸探针的制备及其在水中痕量汞检测的应用
27 新型二维纳米材料气体传感器的制备及特性研究
关于养老机构公建民营 28
模式的法律分析
29 AUSHAREU PTY LED
30 基于旋翼无人机的低空航拍测绘
国家级 何开堤 许顺孝
5000 C06426
4
拟穴青蟹抗氧化酶基因在胚胎发育过程中的作用研究
国家级 林振烔 王艺磊
5000 C06427
5
基于贴板技术和拼接技术的家具设计
国家级 黄剑晗 侯达盘
不动产统一登记制度研究—— 6
以厦门市为例
国家级 裴利
肖金发
7
软体观赏珊瑚人工繁育技术初探
国家级 蒋慧芳
陈芸
7
安朵仙水母人工繁育
8ห้องสมุดไป่ตู้
基于STM32的声音定位系统

基于STM32的声音定位系统【摘要】本文介绍了基于STM32的声音定位系统。
在引言部分中,我们简要介绍了该系统的概念及STM32在声音定位系统中的应用。
随后,通过详细阐述系统设计、信号处理、定位算法、实验结果和系统优化,展示了基于STM32的声音定位系统的设计与性能优势。
实验结果验证了系统的有效性,同时系统优化部分说明了STM32在声音定位领域的潜在应用。
结论部分总结了基于STM32的声音定位系统的有效性,并探讨了STM32在未来声音定位领域的发展前景。
该系统具有很高的实用价值,能够为声音定位领域带来更多创新和应用。
【关键词】STM32, 声音定位系统, 硬件设计, 信号处理, 定位算法, 实验结果, 系统优化, 性能优化, 有效性, 潜在应用.1. 引言1.1 引言1: 基于STM32的声音定位系统简介声音定位技术是一种通过分析声音信号来确定声源位置的技术。
随着科技的不断进步,声音定位系统的应用领域越来越广泛,涵盖了安防监控、智能家居等多个领域。
在现代化智能系统中,基于STM32的声音定位系统正逐渐成为研究的热点之一。
本文将重点介绍基于STM32的声音定位系统的硬件设计、信号处理、定位算法、实验结果和系统优化等方面内容,旨在探讨STM32在声音定位系统中的应用及潜在优势。
通过实验验证和性能优化,我们将评估基于STM32的声音定位系统的有效性,为未来的声音定位技术发展提供更多的思路和借鉴。
1.2 引言2: STM32在声音定位系统中的应用STM32可以通过内置的ADC模块实现对声音信号的快速高精度采集,保证了声音信号的准确性和可靠性。
其丰富的通信接口如SPI、I2C、UART等,可以方便地与传感器、存储器、通信模块等外部设备进行数据交换,实现声音定位系统的多功能扩展。
STM32在声音信号处理方面也具有独特优势。
其内置的DSP指令集和丰富的算法库,可以高效地实现声音信号的滤波、特征提取和匹配等处理操作,为声音定位系统的性能提升提供了有力支持。
语音室说明书

数字化语音室说明书概述数字化语言学习系统是建立在网络数据交换的基础上,将经过A/D转换后的语音数据或音频的数据文件,通过标准的网络协议,传送给用户终端,网络及终端之间的传递,以符合标准网络协议的命令数据的形式反映,已达到语言学习的良好音质,满足教学多样性的需求,充分合理的组建和利用资源的一种全新的语言学习系统。
数字化语言学习系统是网络技术发展的必然结果,它代表一种技术发展的趋势。
我们以前接触的语言学习系统都是基于模拟信号的系统,就像我们以前应用的卡式录音机,模拟手机等等。
长期以来,模拟型号的产品为我们的生活提供着服务,但随着时代的发展,模拟产品的功能已经不再满足社会多变的需求。
以语言学习系统为例,传统型语言学习系统的系统稳定性较差,音质不理想,系统功能单一,教学交互性差,所有的传统型语言学习系统在上课后只能闲置,没有任何利用的空间。
近年来,随着网络的普及以及校园网上的资源的应用的丰富多彩,传统型语言学习系统愈来愈不能满足教学应用的需求,怎样发挥语言学习系统的教学作用,怎样使网络的教学资源在语言教学是得以应用,怎样使语言学习系统与校园网相连,做到无缝连接?数字语音室是新一代全数字化语言学习系统,不仅支持传统语音室的功能,还提供了数字化实时广播,可视化音频点播等崭新的教学模式。
整个语音传输过程数字化,音质大幅提高。
采用标准的TCP/IP网络结构,实现与校园网互联。
是一套真正成熟的全数字语言学习系统。
本公司数字语言学习系统采用先进的DSP处理技术,开放的TCP/IP架构,并结合科学的辅助教学思想,丰富的学习资料,彻底突破了传统语音室只作单纯教学工具,非人性化的特点,大大提高了学生学习效率。
系统新特点1.真正的全数字化语音传输:支持多种音频编解码格式(ADPCM、PCM、MP3等),效果达CD音质。
对光盘资源、网络下载资源直接兼容,无须转换。
学生机和教师机之间仅采用标准的交换机连接。
2.多种音频实时广播:数字音频和外部模拟音频(如录音机、录像机、VCD等)都可作为节目源使用。
基于TMS320F2812的DSP最小系统设计毕业设计论文

题目:基于TMS320F2812的DSP最小系统设计要求:TMS320F2812的DSP最小系统设计包括两个模块,即硬件设计模块和软件检测模块。
硬件设计模块包括电源设计、复位电路设计、时钟电路设计、存储器设计、JTAC接口设计等。
软件检测模块需要编写测试程序。
用Protel软件绘制原理图和PCB图。
从理论上分析,设计的系统要满足基本的信号处理要求。
DSP主要应用在数字信号处理中,目的是为了能够满足实时信号处理的要求,因此需要将数字信号处理中的常用运算执行的尽可能快。
这就决定了DSP的特点和关键技术。
适合数字信号处理的技术:DSP包涵乘法器,累加器,特殊地址发生器,领开销循环等;提高处理速度的技术:流水线技术,并行处理技术,超常指令等。
DSP对元件值的容限不敏感,受温度、环境等外部参与影响小;容易实现集成;VLSI 可以时分复用,共享处理器;方便调整处理器的系数实现自适应滤波;可实现模拟处理不能实现的功能:线性相位、多抽样率处理、级联、易于存储等;可用于频率非常低的信号。
关键词: TMS320F2812,CCS3.3,Protel99SE软件目录第1章绪论第2章系统设计2.1系统方案介绍2.2 系统结构设计第3章硬件电路设计3.1 TMS320F2812芯片介绍3.2电源及复位电路设计3.3 时钟电路设计3.4 DSP与JTAG接口设计3.5 DSP的串行接口设计3.6 通用扩展口设计3.7 总体电路原理图设计第4章软件设计4.1 程序设计4.2 仿真调试总结参考文献附录1:总体电路图附录2:程序代码第1章绪论数字化已成为电子、通信和信息技术的发展趋势与潮流。
在这种趋势与潮流的推动下,数字信号处理的理论与实现手段获得了快速的发展,已成为当代发展最快的学科之一。
而DSP芯片作为数字信号处理,尤其是实时数字信号处理的主要方法和手段,自20世纪70年代末、80年代初诞生以来,无论在性能上还是在价格上,都取得了突破性的迅猛发展。
CEVA与Alango携手合作为CEVA-TeakLite-III DSP系列增添创新性语音增强软件
CEVA与Alango携手合作为CEVA-TeakLite-III DSP系列增添创新性语音增强软件全球领先的硅产品知识产权(SIP)平台解决方案和数字信号处理器(DSP)内核授权厂商CEVA公司和世界先进的语音通信及移动音频前端DSP技术开发商与授权厂商Alango Technologies公司共同宣布,针对CEVA市场领先的CEVA-TeakLite-III™DSP系列产品推出最新的Alango语音处理软件包。
CEVA-TeakLite-III DSP旨在满足手机设计对更高集成度和更低成本的需求,能够在单一内核中集成无线基带处理功能与Alango提供的移动音频、语音和前端语音增强处理功能。
消费者和运营商要求在嘈杂环境中实现更清晰、失真更小的语音传输,因此催生出多种针对无线和有线通信设备的麦克风、波束成形(beam-forming)及噪声降低技术。
Alango开发的前端语音增强技术Voice Communication Package包含正在申请专利的自适应双麦克风™ (Adaptive Dual Microphone™, ADM)降噪算法,通过使用两个全向麦克风来大幅减小不断变化环境中的背景噪声、风声及其它干扰,同时完全保证信号质量,建立了噪声衰减的全新标准。
Alango公司首席执行官Alexander Goldin博士表示:“CEVA-TeakLite-III DSP专为高质音频及语音处理而构建,非常适合于执行我们的前端处理技术Voice Communication Package。
这款DSP具有高性能、低功耗特性,以及功能强大的开发环境,可让客户利用我们市场领先的语音和音频增强软件来无缝增强其基于CEVA的处理器设计,并以有效的成本来充分发挥这种结合优势。
” CEVA 公司市场拓展副总裁Eran Briman 称:“Alango拥有一些非常创新且实用的解决方案,能够应对我们许多客户所面临的语音和音频难题。
电子信息工程毕业设计
电子信息工程毕业设计【篇一:本科.电子信息工程毕业设计题目大全】毕业设计题目总结下面是本人通过查各种资料以及老师推荐的、从各种参考书上摘下来的关于电子信息工程专业的毕业设计题目的枚举、希望对广大同学们有一定的帮助。
1、无线遥控门铃电路的设计与制作本题目要求设计一个遥控门铃,该电路包括发射系统和接收系统两部分。
当有人按动门铃按钮,发射机发出信号,同时,接收机在接收发射机发出的信号后,会发出悦耳的声音。
有效作用距离30米。
2,linux系统下web服务器的搭建与设计要求在嵌入式平台建立web服务器,其它电脑终端的浏览器输入ip 地址,可以访问,web服务器的内容除必要的说明文字及图像之外,需要实时显示ad转换的数据(与做ad转换驱动的同学合作)。
对学生的要求除嵌入式的相关知识外,需要有简单的网页设计知识。
3.光电控制书写提醒器的设计与制作本题目要求设计一个书写提醒器,该装置包括发射电路、接收电路、测光电路及延时电路几部分。
该装置的作用是监测书写者头部位置,在书写者头部位置过低时会发出声光报警。
4、远离提示电路的设计与制作本题目要求设计一个远离提示电路。
该电路包括发射系统和接收系统两部分,可用于儿童看护和贵重物品防盗。
要求其有效作用距离为15米,即当带有发射器的儿童或贵重物品在离开预定地距离15米以外时,接收器会发出报警声。
5、声光双控楼道灯控制器的设计与制作本题目要求设计一个楼道灯控制开关,在天黑或光线较暗时,若有一定的声音(如较近的脚步声、击掌声等),均会控制电灯点亮,且在电灯点亮一小段时间后,自动控制电灯熄灭。
电路在白天不起作用。
6、交通信号灯控制电路的设计与制作本课题要求设计一个符合某地交通要求的交通信号灯控制器,用于控制十字交叉路口处设置的红、绿、黄三色信号灯(设计中用相应的二极管代替)及转向信号灯。
7、红外光控防盗报警器的设计与制作本题目要求设计一个红外防盗报警器,在有人进入未经允许的区域(如靠近防盗物或破门而入)时,该装置发出报警声。
DSP课程设计参考题目
DSP课程设计任务书钱满义高海林编北京交通大学电工电子教学基地2006年1月目录一、综合设计性实验题目 (2)二、《DSP应用课程设计》教学大纲 (16)三、实验报告格式 (19)四、评分标准格式 (21)一、综合设计参考题目1.DSP系统定时及其应用2.DSP系统的自举设计3.任意信号发生器的设计4.DTMF信号的产生及检测5.信号的调制与解调6.语音压缩、存储与回放7.语音噪声滤波8.语音识别9.利用DSP实现信号滤波10.利用DSP实现自适应滤波11.实时信号的谱分析12.DCT离散余弦变换的DSP实现1. D SP系统定时及其应用定时器是DSP处理器最基本的片上外设,使用定时器可以构建系统程序基本的定时单元,为周期性执行某些程序提供时间基准,或者为片外有时钟要求的电路,如A/D和D/A电路提供定时时钟。
本设计要求采用DSP的片内定时器实现应用程序的周期性运行。
1.设计要求及目标基本部分:(1)对定时器进行初始化(2)编写定时服务程序实现3个LED指示灯分别以1秒、2秒、4秒的周期进行闪烁(3)编写定时服务程序实现3个LED指示灯以流水灯的形式进行闪烁,流水周期在0.6秒~6秒之间进行循环改变发挥部分:使用定时器在Tout输出引脚产生频率为10K~100KHz连续可调的方波信号,实现方波信号发生器的功能。
2.设计思路首先使用DSP的定时器实现最基本的定时功能,例如当DSP的系统时钟为100MHZ时,基本定时时间可确定为10ms。
然后可使用查询方式或中断方式编写定时器的定时服务程序,在服务程序中设置定时变量进一步计算时间。
根据设计要求编写定时服务程序。
Tout引脚即XTOUT引脚,已连接到扩展板接口上,可以使用示波器来测量所产生的信号波形,如果要求产生方波信号,还要增加一点附加电路。
3.要求完成的任务(1)编写C语言程序,并在CCS集成开发环境下调试通过。
(2)实现设计所要求的各项功能。
(3)按要求撰写设计报告。
DSP芯片原理及应用
《DSP芯片原理及应用》实验指导书唐山学院信息工程系DSP实验室2008年9月前言一.DSP原理及应用实验的任务数字信号处理实验是数字信号处理理论课程的一部分,它的任务是:1.通过实验进一步了解和掌握数字信号处理的基本理论及算法、数字信号处理的分析方法和设计方法。
2.学习和掌握数字信号处理的仿真和实现技术。
3.提高应用计算机的能力及水平。
二.实验设备DSP原理及应用实验所使用的设备由计算机、CPU板、语音单元、开关量输入输出单元、液晶显示单元、键盘单元、信号扩展单元、CPLD模块单元、模拟信号源、直流电源单元等组成。
其中计算机是CCS软件的运行环境,是程序编辑和调试的重要工具。
语音单元是语音输入和输出模块,主要完成语音信号的采集和回放。
开关量输入输出单元可以对DSP输入或输出开关量。
液晶显示单元可以对运行结果进行文字和图形的显示。
模拟信号源可以产生频率和幅度可调的正弦波、方波、三角波。
直流电源单元可以提供 3.3V、+5V、-12V和+12V 的直流电源。
装有CCS软件计算机与整个实验系统共同构成整个的DSP软、硬件开发环境。
所有的DSP芯片硬件的实验都是在这套实验装置上完成的。
三.对参加实验学生的要求1.阅读实验指导书,复习与实验有关的理论知识,明确实验目的。
2.按实验指导书要求进行程序设计。
3.在实验中注意观察,记录有关数据和图像,并由指导教师复查后才能结束实验。
4.实验后应断电,整理实验台,恢复到实验前的情况。
5.认真写实验报告,按规定格式做出图表、曲线、并分析实验结果。
字迹要清楚,画曲线要用坐标纸,结论要明确。
爱护实验设备,遵守实验室纪律。
目录第一章DSP原理及应用实验 (3)实验一常用指令实验 (3)实验二数据存储实验 (5)实验三I/O实验 (7)实验四定时器实验 (9)实验五外部中断实验 (11)实验六语音采集回放 (14)实验七语音信号的FFT分析 (18)实验八基于语音信号的IIR算法实验 (20)实验九语音信号的FIR算法实验 (23)第二章DSP CPU挂箱介绍 (26)第一节系统概述 (26)第二节54XB开发模板概述 (26)第一章DSP原理及应用实验实验一常用指令实验一.实验目的1.了解DSP开发系统的组成和结构;2.熟悉DSP开发系统的连接;3.熟悉DSP的开发界面,熟悉CCS的用户界面,学会CCS环境下程序编写、调试、编译、装载,学习如何使用观察窗口。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2.1原始声音以及预处理 语音处理的音源,也是整个系统的输入部分。就当前来说语音处理汉字比较多。 对音源进行必要和适当的处理。一般来说这个部分包括,高、低通的滤波电路和反混叠带通滤波、模数变换、分帧、预加重处理等目的为了消除外部环境对音源带来的干扰;另外预处理还包含了A/D转换部分,以及语音端点检测等。 计算机分析人的语音,需要将通过话筒中传来的语音信号转换成计算机所能处理处理的数字信号;根据采样定理,信号的采样频率要求大于信号带宽的两倍以上(mnff2)即可保证信号的采集不会丢失信息。 低通滤波器的作用是除去语音信号中频分量超过采样频率一半(2/sff)的那部分,其目的是为了防止采样信号的混叠。具体实现方式我们可以设计一个16阶FIR(有限冲激响应)滤波器来实现对语音信号的滤波。关于滤波部分将在后面章节具体介绍。 2.2.2语音信号的特征提取 特征提取是运用语音分析的方法对输入的原始声音进行分析得到一个矢量序列,并用这个矢量序列去代替原始的语音信号所携带的信息。其中包括一些常用的参数:比如短时能量、频谱参数、自相关参数等等。 原始语音信号不能直接用语模板训练和模式匹配,这是因为:1、原始语音信号数据量太大,系统的运算和存储负担过重;2、原始语音信号包含太多的随机因素,极大的影响了系统的识别处理率。 语音处理系统进行模板训练和匹配的数据是从预处理后的语音信号中提取的特征参数。通过预处理和特征参数提取技术,一方面使得进行模板训练和模式匹配的数据特征明显,提高了系统的识别处理率;另一方面进行了信息压缩,降低了系统的运算和存储量;特征参数提取就是从语音信号提取(或测量)有代表性的、合适的特征参数,同时进行适当的数据压缩;时域参数的优点是计算量比较少,对于区别语音段和静音段及清/浊音段比较方便,效果也比较明显;但由于人的耳朵对声音的频域特性比较敏感,时域参数不能恰当的反映这种特征。 线性预测分析法是目前很有效的语音分析技术之一,它在语音处理、合成等方面都得到了成功的应用。 线性预测分析所包括的基本概念是,一个语音抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,能够决定唯一的一组预测器系数。 LPC倒谱系数也就是是复倒谱。复倒谱是信号通过Z变换以后取对数,再求反Z变换而得到的;线性预测分析方法是一种谱估计的方法,而且其声道模型系统函数H(Z)反映了声道的频率响应和原始信号的谱包络,因此用logH(z)做反Z变换即可求出其复倒谱系数。该复倒谱系数是根据线性预测模型直接得到的,因此又称之为LPC倒谱系数(LPCC)。 基于LPC分析的倒谱存在一种非常简单有效的递推求解方法;也就是说,线性预测系数可以用递推公式求出响应的倒谱系数。 2.2.3线性预测分析的基本原理 假若一个随机过程用一个P阶的全极点系统受白噪声激励而产生的输出来模拟,设这个系统的传递函数为:
)1/()(/)()(1kPKkzaGzUzSzH (2-19) 其中G为常数,S(z)和V(z)分别为输出信号s(H)和输入信号u(n)的z变换, 那么S(n)和u(n)的关系可以表示为差分方程:
)()()(1nuGknSanSpkk (2-20)
我们可以把式(2-20)中与ka有关的部分理解为有用信号的p个样本来预测当前样本,即定义预测器: )()(1knSanSpkk (2-21) 由于预测系数a。在预测过程中看作常数,所以它是一种线性的预测器,这种线性预测最早是用于语音编码的,因此人们也常常称之为LPC(即Linear Predictive Coding),这个线性预测器的系统函数为:
kpkkzazP1)( (2-22) 显然,如果信号s(n)能精确的符合(2-19)和(2-20)所描述的模型假定,那么用公式(2-21)所示的线性预测器信号s(n)的预测误差应为: )()(nUGne (2-23) 但是,实际信号未必能精确的符合这个假定,因此实际的预测误差应为: pkkknSanSnSnSne1)()()()()( (2-24)
表明预测误差序列是信号S(n)通过一个具有如下系统函数的系统产生的输出:
pkkkzazA11)( (2-25)
比较式(2-21)和(225)可以看出,预测误差滤波器爿(z)是系统H(z)的逆滤波器,其中)(zH可以表示成: )(/)(zAGzH (2-26) 线性预测分析的基本问题是由语音信号直接决定~组预测器系数ka,它的原则是通过应用式(2-26)可对语音谱的性质得到良好的估计。由于语音信号的时变特性,预测器系数的估值必须在一段语音信号中进行。基本的途径是求出一组预测器系数使得在一段短时语音波形中均方预测误差最小。所得到的参数就被“认为”是语音产生模型中系统函数H(z)的参数。 由于给定的只有信号)(nS和一个参数未知的模型式(2-19),要想使这个模型尽可能精确的描述信号)(nS,应该使式(2-24)所得的预测误差在某一短时间的总能量尽可能的小,并在此准则下求出最佳预测系数ka。为此,定义短时平均预测误差能量: )(2meEmnn
2)]()([mSmSmnn
21)]()([kmSamSnpkkmn (2-27) 其中)(mSn是在抽样点n附近选择的一个语音段,即 )()(mnSmSn (2-28) 式(2-27)的取和范围暂时是不确定的,是因为我们希望开拓一种短时分析技术,所以取和的间隔是有限的。也应该注意到,为了取到平均值,求和整个式子应该除以语音段的长度。然而这个常数和我们将要得到的线性方程组并不相干,因而可以省略这一部分。若想使式(2-27)中的nE达到最小值,那么ka应当满足
).......3,2,1(0/piaEi,由此便可以得到以ka为变量的线性方程: pkmnnkmnnkmSimSamSimS1)()()()(, pi1 (2-29)
如果我们定义 )()(),(kmSimSkinmnn (2-30)
则式(2-29)可以更简洁的写成: )0,(),(1ikiannpkk pi,.......3,2,1 (2-31)
用一种有效的方法求解这组包含p个未知数的P个方程就可以得到在语音段)(mSn上使均方预测误差为最小的预测器系数ka。
要使模型的假定能够较好的符合语音产生模型,主要有两个因素要考虑:首先是模型的阶数P要与共振峰的值相吻合。其次,是声门脉冲形状和口唇辐射影响的补偿。通常一对极点对应一个共振峰,lOkHz采样的语音信号通常有5个共振峰,取p=10,此外,为了弥补鼻音中存在的零点以及其他因素引起的偏差,通常在上述阶数的基础上再增加两个极点,即取p=12。 关于声门脉冲形状和口唇辐射的影响,总的趋势是使语音信号的频谱产生高频衰落现象,大约相当于每倍频程下降5dB,要抵消这种影响,通常在进行LPC分析之前采用一个非常简单的一阶FIR滤波器1一OZ.‘1进行预加重,也就是进行高频提升,对于lOkHz采样的语音,预加重系数前面已经提到一般取0.95~1.0。 对于考虑了上述两个因数的LPC分析,预测的残差序列近似为白噪声,并且这个残差能量也是相当的小,这就表明了由某一短时信号所得到的线性预测系数能较好的描述产生这一语音段的声道特性。基于LPC的语音识别处理、语音合成和语音编码以及处理的大量时间证明:线性预测参数是语音信号特征表示的一个良好参数。 总而言之,在语音处理过程中,我们虽然不能将原始信号波形直接用于处理,但是通过一定的变换,提取语音特征参数就可以进行处理,而提取的特征必须满足: 1.特征参数应当反映语音的本质特征,对于非特定人的语音处理,特征参数则应尽量不含有说话人的信息。 2.特征参数各分量之间的耦合应尽可能的小,以起到压缩数据的作用。 3.特征参数要计算方便,最好使用高效的算法。 2.2.4失真度的测试及相似度匹配计算 失真度是衡量相似性的基本准则和标准,选择好失真度对系统的性能和品 质有至关重要的影响。 相似度的匹配计算,也可以称为相似性的度量。就是指利用常用的矢量量化、动态时间规整(DTW)、隐马尔可夫模型(HMM)、神经网络等方法与事先设置好的计算机参考模型进行对比计算。 为了进行相似性的度量,我们将特征模板库中的各个模板称之为参考模板,用R来表示;将待处理的输入语音经过预处理以及特征提取以后得到的特征矢量序列称之为测试模板,用T来表示。 参考模板可以表示为:R={R(1),R(2),.,R(m),¨,R(M)},其中M为参考模板所包含的语音帧的总数,m为语音帧的时序标号,尺(肼)为第m帧的语音特征矢量。 测试模板可以表示为:T={T(1),T(2),.,T(n),.,T(N)),其中N为测试模板所包含的语音帧的总数,n为帧的时序标号,T(n)为第n帧的语音特征矢量。 计算测试模板和参考模板的相似度,可以计算他们之间的失真,失真越小对应的相似度越高。测试模板T和参考模板R之问的总体失真表示为D[T,R]。 为了计算这一失真,应从T、R中的每个对应帧的失真算起,假设n、m分别为T、R中任意选择的帧号,则这两帧之问的帧失真相应的就可以用D[T(n),R(m)]来表示。 对于特征矢量之间的失真度,有多种度量的方法。为了简单和便于处理,通