一种基于STC单片机的特定声音识别系统设计【文献综述】

合集下载

一种基于单片机的声目标识别系统设计

一种基于单片机的声目标识别系统设计

一种基于单片机的声目标识别系统设计栗苹"#张旭东$#高国杰"#徐德华"%&’北京理工大学机电工程学院#北京&((()&*+’总参谋部第四部#北京&(((),-摘要.在现有声探测技术的基础上#设计了基于/01单片机的声目标识别系统2结合对直升机3坦克的目标识别#确定了系统的参数2最后对系统进行实验验证#证明了系统的实用性2关键词.声*目标识别*单片机中图分类号.456,6’7文献标识码.8文章编号.&(()9&&:6%+((+-(+9((+79(,(引言在战场传感侦察系统及反直升机3反坦克声引信中#声目标识别系统是其核心内容#国内外对此进行了深入的研究;"#$#<#=>2本文根据声探测技术及微电子技术的发展状况#设计了一种基于单片机的声目标识别系统2&声目标识别系统的硬件设计如理3现3体中信要a b B ’$O O $!收稿日期.$O O "c "O c "$作者简介.栗苹%"d P P e-#女#河北三河人#博士#副教授#主要从事声探测及近炸引信干扰3抗干扰方面研究2构的微处理器!"#$该系列的单片机最突出的优点是它的指令集非常精简%简单易学$低档系列单片机只有&&条指令%高档单片机也只有’(条%除了程序分支指令是单字节双周期指令外%其它指令都是单周期单字节指令%使系统具有最高的处理效率和突出的性能$它采用了流水线技术%最大限度地提高了每个内部时钟周期的效率)存储结构是基于哈佛双总线概念%避免出现普通*+,*结构单片机中经常出现的处理瓶颈问题)所有的寄存器%包括+-.口/定时器和程序计数器等都采用012结构形式%而且都只需要一个周期就可以完成访问和操作$我们选用型号为3+*45*67的单片机$它的指令周期为"889:;时钟频率"82<=>%内部集成了(通道(位的1-?%有7@A45的片内0.2%4B "A(的片内012%最大可寻址空间为(@$它采用了*2.,C 30.2-0.2技术%全静态设计%工作电压为&D5E %具有低功耗和工作温度范围宽等特点$采用3+*系列单片机设计系统时%信号可直接输入单片机%从而减小了系统设计的复杂性%同时也给程序设计带来了方便$本系统可以给出直升机/坦克/非直升机坦克三种识别结果$为了使输入到单片机的信号尽可能保持在较为合适的动态范围%我们结合数控模拟多路器设计了一套可以自适应调整增益的放大电路$该电路有三个增益通道%根据识别前的简单采样计算决定选用哪一路增益通道$另外%从目标的声学特性来看%其声学特征所处的频率范围有所区别F 直升机声信号的能量主要集中在788<=以内%而坦克声信号的能量主要集中在"G <=以内$针对这一情况%我们设计了两路低通滤波分别对信号进行处理$在这里我们同样结合一个数控模拟多路器设计了可自适应选择滤波通道的滤波电路%以利于提高单片机的信号处理效率%提高系统识别的正确率$经过外围电路的放大滤波处理后的信号直接输入到单片机中进行1-?转换和处理$我们在电路中扩展了一片(@的012用于暂存采集的数据和处理计算中数据暂存$经过特征向量提取/目标识别计算%最后由具有较强驱动能力的+-.口驱动三支H C ?显示识别结果%并保持到下次识别结果的更新$I 声目标识别系统的软件设计系统软件设计不仅包括数字滤波/特征提取和分类识别设计%还包括对整个系统控制程序设计$在抗干扰数字滤波器设计/目标特征提取和分类器设计方面有很多成熟的算法$对数字滤波器的选择应结合滤波算法的适用对象/复杂性/微处理芯片的运算速度以及算法存储器容量的要求来决定$针对直升机/坦克的特征提取算法很多%如信号过零率特征提取%基于高阶统计量的目标特征提取%基于10参数模型的特征提取和基于小波变换的特征提取等!&#$基于高阶统计量的目标特征提取算法需要进行运算量非常大的二维J J K 运算%现有的硬件难以满足要求$基于10参数模型的特征提取算法%计算精度很高%数值稳定性好%抗噪能力强%运算量也较大$基于小波变换的特征提取算法%运算量比上述方法都要小%但其运算不适合在单片机中进行$我们选择信号过零率作为特征参量%这一方法简单/实用$系统中目标识别过程是循环进行的$程序首先对系统进行初始化%选择第一个滤波通道对信号进行滤波%并计算选择合适的增益通道$接着对1-?转换得到的数据进行数字滤波和识别处理%确定目标是否为直升机$若结果为直升机%即显示识别结果%并进入下一个识别循环%否则选择第二个滤波通道对信号进行重新处理计算%确定目标是否为坦克%并显示识别结果%进入下一个识别循环$表4系统的识别结果实验样本识别结果直升机坦克非直升机非坦克正确识别率;L>直升机;&8>"(44B &坦克;&8>8"’’(&轮式车辆;&8>45"&65M 6枪炮/风雨/人声;&8>4""6B 8N 系统实验为了考察系统的运行情况%我们进行了实验$实验是在一间比较空旷的房间中进行的%实验用声信号为实测的直升机/坦克/车辆/自然噪声等信号%由战场声学环境模拟5"探测与控制学报系统播放!"#$识别系统给出三种识别结果%直升机&坦克和非直升机非坦克$表’为实验结果$从表’中可以看出&对直升机的正确识别率较高&车辆被误判为坦克的次数比较多$这是因为仅从过零率考虑&坦克和车辆的目标特征比较相似&相互之间的误判率较高$系统对战场非机动目标和自然环境噪声的抗干扰能力较好&识别系统是可行的$我们也以卡车为识别目标&对系统的参数进行了某些调整后&将此系统用于公路上行驶卡车的识别$实验证明此系统用于实验室外也是可行的$(结束语本文设计了一种基于单片机的声目标识别&对系统进行了实验和分析$结果表明这种简单)低成本的目标识别系统是可行的$参考文献%!’#*+,,-../01+2.32-4&*125467-2,-2&63891-.:;1..<=:8<+,>38?10@->A ->-8>3<2?018B 32@C .1,,3D 381>3<2125E <81>3<23216+.>3F .-?10@->G 2H 30<2I -2>!7#=J K L G&’M M N &O P N ’%Q R ST T =!U #窦振中=K L C 系列单片机原理和程序设计!6#=北京%北京航空航天大学出版社&U P P P =!O #周忠来=战场声目标识别抗干扰技术研究V 博士论文W !A#=北京%北京理工大学&’M M M =!"#宿晶亮&李明&刘宁=A 30-8>X 在战场环境模拟中的应用!7#=探测与控制学报&U P P P &U U V "W %U U SU Q =!Q #宿晶亮&栗苹&刘宁=:*模型在直升机声学环境模拟中的应用!7#=探测与控制学报&U P P ’&U O V U W %"Q S"N =Y Z [\]^_‘a b _c [d \b e f g ]Z d h Z b _]^\d \_^i j [d Z k l f [Z m_^i \^]n Z o p \qE L K 32@’&r s :t ;X +u 5<2@U &;:v ;+<u w 3-’&X x A -u 9+1’V ’=/-3w 32@L 2,>3>+>-<D ?-892<.<@4&/-3w 32@’P P P N ’&C 9321y U =z <+0>9A -F 10>I -2><D >9-s -15{+1>-0,<D ;-2-01.J >1D D &/-3w 32@&’P P P N O &C 9321W a |[d g f b d %L 2>93,F 1F -0&118<+,>38>10@->0-8<@23>3<2,4,>-I }1,-5<2K L C ,32@.-893F3,5-,3@2-5<2>9-}1,3,<D18<+,>38>10@->>-892<.<@41H 13.1}.-&125F 101I ->-0,<D >9-,4,>-I 10--,>1}3,9-532188<05128-~3>9>10@->0-8<@23>3<2<29-.38<F >-0,125>12B -0,=:>.1,>&-!F -03I -2>1.H 1.351>3<2<D >93,,4,>-I 3,+25-0@<2-125>9-F 018>381}3.3>4<D >9-,4,>-I 3,F 0<H -5="Z j #_g m [%18<+,>38,y >10@->0-8<@23>3<2RU 栗苹等%一种基于单片机的声目标识别系统设计。

一种基于STC单片机的特定声音识别系统的设计【设计+开题+综述】

一种基于STC单片机的特定声音识别系统的设计【设计+开题+综述】

BI YE SHE JI(二零届)一种基于STC单片机的特定声音识别系统的设计所在学院专业班级电气工程及其自动化学生姓名学号指导教师职称完成日期年月摘要本文提出了基于STC单片机的特定声音识别系统,并对该系统进行了实验制作。

用麦克风和前置放大和滤波电路将语音信号采集送往单片机进行处理,在单片机里对语音信号进行端点检测,并同时记录语音信号中相邻两个过零点的间隔时间。

当语音信号通过端点检测被确定是有效的语音信号后,对储存的相邻两个过零点的间隔时间数据进行归一化处理,再将处理后数据与样本数据进行比对,从而识别声音是否是需要识别的特定声音关键词:STC单片机,端点检测,归一化处理,过零点Design of specific voice recognition system based on stc-scmAbstractThe specific voice recognition system is proposed based on STC SCM , and the production of this system is made.Microphone and preamplifier and filter circuit will be sent to the microcontroller for audio signal acquisition processing, the microcontroller in the endpoint detection of speech signals and voice signals were recorded in the interval between two adjacent zero-crossing time.When the voice signal is determined by the endpoint detection,normailized time data of two adjacent zero-crossing two .Then compare the processed data with the sample data and identify soundKeywords: STC-SCM,endpoint detection,normailzation,zero-crossing摘要 (I)Abstract (II)1 绪论 (1)1.1课题的背景与意义 (1)1.2语音识别技术的现状 (1)1.2.1语音识别相关技术 (1)1.2.2 语音识别系统 (5)1.3课题研究的目的和主要内容 (6)2 基于STC单片机特定声音识别系统的设计概述 (7)2.1特定声音识别系统的工作原理 (7)2.2特定声音识别系统的特性 (8)2.3特定声音识别系统的硬件组成与相关资料 (8)2.3.1音频放大电路 (8)2.3.2 STC单片机资料 (9)3 信号采样与端点检测 (15)3.1 系统信号采样频率的设置 (15)3.2 端点检测 (15)3.2.1 短时能量检测 (15)3.2.2 过零率检测 (16)4 数据处理与语音识别 (18)4.1 数据的归一化处理 (18)4.2 语音识别 (19)4.3其他程序设计 (21)5 实验数据调试 (22)结论 (26)参考文献 (28)致谢...............................................................................................错误!未定义书签。

基于单片机的语音识别系统

基于单片机的语音识别系统
目 录
摘要.............................................................................................................................................1 关键词.........................................................................................................................................1 Abstract.....................................................................................................................................1 Key words...................................................................................................................................1 引言.............................................................................................................................................2 1 语音识别概念..............................................................................

基于单片机的语音录放系统设计

基于单片机的语音录放系统设计

常州工学院(成人教育)毕业设计(论文)题目基于单片机的语音录放系统设计副题目性质:学生姓名年级教学点专业指导教师评定成绩优良中合格不合格摘要介绍ISD2560语音芯片的结构及引脚功能,所设计的系统实现了单片机对ISD2560的操纵,并能够实现录放音及循环放音等功能。

由单片机AT89C51及数码语音芯片ISD2560组成的语音设计系统出了系统的硬件电路,并给出了录、放音有效的源程序。

目前,语音合成、语音识别、语音存储和回放技术的应用愈来愈普遍,尽管利用一样的单片机测控系统中都有的硬件电路(如A/D、 D/A、存储器等)能完成语音信号的数字化处置,可是功能比较单一、且成效不是专门好,因此基于单片微机和语音芯片系统的应用愈来愈普遍,如电脑语音钟、语音型数字万用表、电话话费查询系统、排队机、监控系统语音报警和公共汽车报站器等等。

本设计用单片机和录放时刻达60秒的数码芯片ISD2560设计了一个智能语音录放系统。

关键词:单片微机数码语音芯片智能目录第一章绪论 (1)第二章ISD2560芯片介绍 (2)语音芯片的选取 (2)语音芯片ISD2560简介 (3)语音芯片引脚功能介绍 (4)第三章电路原理图及说明 (9)复位电路 (9)复位电路的作用 (9)大体的复位方式 (10)时钟电路 (11)单片机与语音芯片部份外围接线 (12)第四章语音录放工作流程 (15)硬件流程 (15)软件流程 (17)第五章程序说明 (19)第六章结语 (25)第七章致谢 (26)第八章参考文献 (27)第一章绪论在声学领域,单片机技术与各类语音芯片相结合,即可完成语音的合成技术,使得单片机语音系统的实现成为可能。

所谓语音芯片,确实是在人工或操纵器的操纵下能够录音和放音的语音芯片,但语音信号是模拟量(语音芯片存储和播放声音的大体工作方式为:声音→模拟量→ A/D →存储→ D/A →模拟量→播放)。

采纳此方式的语音芯片外围电路比较复杂,声音质量也有必然失真。

一种基于STC单片机的特定声音识别系统设计【开题报告】

一种基于STC单片机的特定声音识别系统设计【开题报告】

毕业设计开题报告电气工程及其自动化一种基于STC单片机的特定声音识别系统设计1、选题的背景、意义该题目的研究思想指导为,开发一个具有实用价值的“特定声音识别系统”。

该系统以stc单片机作为识别芯片,通过咪头、放大电路、滤波电路等声音信号采集处理电路把把声音信号采集过来并送到单片机上。

单片机对得到的信号进行计算处理并与已经储存在单片机里面的声音样本进行比较,识别是不是我们所要识别的特定声音。

长期以来,视频监控是安防行业里绝对的主流。

但也存在着一些成本高,维护不方便的问题。

比如把视频监控技术应用于治安监控薄弱的城乡结合部、农村地区、城市的偏僻路段就会出现上述问题。

而且,虽然目前社会的治安稳定,但在一些偏僻路段还是会发生些打架斗殴,甚至比较恶劣的刑事案件,可见对偏僻路段的治安监控也是必不可少的。

本设计针对特定声音进行识别,识别如枪击声、呼救声、玻璃破碎声音等,根据这种特定声音的识别了解是否发生了特定事件,从而起到了监控的作用。

2、相关研究的最新成果及动态早在半个世纪以前,贝尔实验室的Davis等人利用语音音素特征做了一个单人的独立数字识别系统。

他们主要是通过数字元音段频谱曲线的相似度来进行独立数字识别的。

这是人们最早研究的语音识别系统。

1963年NEC 公司在语音识别方面做出了硬件数字识别器,由于这一创举的推动使得他们在随后几十年里一直在语音识别方面保持着国际先进水平。

六十年代后期RCA实验室的Matin和他的同事一起找到了一种可以寻找语音信号端点的检测方法,解决语音信号中时间刻度非一致性问题。

解决语音信号中时刻非一致的问题也是现在语音处理时要处理的首要问题。

与此同时原苏联研究人员Vintsyuk提出了语音信号的动态时间规整算法,另外Carnegie Mellon大学的Reddy在连续语音流识别工作中取得的成果,他使用的是动态音素跟踪技术。

这两项技术对以后的语音识别产生了很大影响,他们的思想到现在仍然有一定的参考价值。

基于STC89C51RD的语音录放系统设计

基于STC89C51RD的语音录放系统设计

基于STC89C51RD的语音录放系统设计单片机/语音芯片/C语言编程引言近年来,语音电路发展极为迅速,应用也越来越广范。

用语音接口芯片作为输出时,主要作为系统运行、结果、操作过程及故障等状态的提示和报警功能;作为输入时,主要用于对语音的记录、语言库的建立和语音识别等功能。

语音系统一般都必须具有如下特点:(1) 输出词汇基本确定的,且数量有限,如故障提示、操作提示、运行报告结果等;(2) 能根据系统的实时状态结果,选择合适的语音词汇或语言段随时组合输出;(3) 写入后不易遗失,修改方便。

(4) 工作过程--语音经A/D转换后存入内存中,放音时取出再经D/A转换输出。

2 系统硬件设计本系统以芯片ZY1420A为接口芯片,STC89C51为主控芯片实现语音录放系统的硬件组成,利用软件完成对系统的录音放音过程[1]。

2.2 系统原理图原理图包含电源、STC89C51单片机、ZY1420A、喇叭、麦克风等电路。

ZY1420A 使用时只需按住录音按键REC,使之保持低电平,电路自动进入录音状态且录音指示LED亮,若REC变高或录音存储器录满时,电路退出录音状态进入准备状态。

轻按PLAYE, 引脚为低电平脉冲电路进入触发放音状态直到放音结束。

按下PLAYL,使之保持低电平,系统为放音状态直到PLAYL 变高或放音结束。

电路重新进入准备状态注意REC 的优先级大于PALYE 和PLAYL[1][4]。

2.3 本系统中关键部分硬件说明2.3.1 主控芯片STC89C51使用说明在STC89C51单片机中,有些允许用高电压编程方式编程。

有些允许用低电压编程方式编程。

各自芯片面上的型号和特征字节的内容不同。

STC89C51的程序存储器阵列是采用字节写入方式编程的,即每次写入一个字节。

要对片内的EEPROM程序存储器写入任何一个非空字节,都必须用片擦除方式将整个存储器的内容清除。

对Flash存储器编程时,STC89C51编程的步骤如下[1][2]:(1) 在地址线上要输入编程单元的地址。

基于单片机的语音识别系统设计

基于单片机的语音识别系统设计

基于单片机的语音识别系统设计作者:徐国成来源:《好日子(下旬)》2018年第04期摘要:本系统设计的智能家居系统,是基于LD3320语音识别芯片的非特定人识别的功能而设计的,实现语音控制设计了了两级语音指令来控制,控制电位器打开与关闭,进而来控制与之相连的电器,实现用户发出语音指令后精确控制电器开、关的功能,可以给我们的生活带来极大的便利。

关键词:语音识别;单片机0 引言语音处置和分辨技术始于1950年以后,经过70年科研人员的不断摸索和钻研,已趋于成熟,从孤立、单一词组的识别到非固定人、大词汇量的连续语音识别甚至固定人的语音识别,一系列的创新使得人类与计算机之间的沟通桥梁增加了一个人类语音。

近年来,作为直接有效的人与机器之间的交互方式,语音识别在工业制造过程、现代化居家生活和医疗卫生体系等方面应用逐渐增加,在嵌入式系统领域中,具有很高研究价值及发展潜力。

让机械理解听懂人类的声音,这是我们长期以来求之不得的事情。

语音识别是一个复杂有深度的学科,涉及到多学科、多领域的研究分析,语音识别的发展与其他领域密不可分,依赖于众多领域上的研究成果。

语音识别技术就是让机器通过分辨和听懂人们的语言,把声音信号转换为对应的机械动作或者指令的一种高新技术。

语音识别系统的分类方式及依据是根据对说话人说话方式的要求,可以大致分為两类,一类是:单个字(词)语音识别系统,另一类是:多个字语音识别系统,以及多个词组语音识别系统。

深一步可以分为两个方向:一是根据对说话人的关联程度可以划分为固定人和非固定人语音识别系统;二是根据字词数量的多少,可以分为小词组系统、中等词组系统、大词组系统,以及无限词组系统。

不同的语音识别系统,每种系统的实现方式可能不一样,单是所用的基础处理方式大致都一样。

1 系统方案设计此次设计制作的语音控制系统,语音识别部分核心原件使用的LD3320芯片,控制系统的单片机用的是STC89C52单片机。

通过主控单片机控制LD3320语音芯片内部寄存器以此达到实现语音识别控制的效果。

单片机文献综述

单片机文献综述

引言概述:现代科技的发展使得单片机在各种电子设备中得到了广泛的应用。

单片机是一种集成电路,具备了处理器、存储器和硬件接口等功能,通过编程可以实现各种各样的功能。

本文旨在综述单片机领域的相关文献,深入分析单片机技术的研究和应用进展,帮助读者更好地了解和应用单片机技术。

正文内容:一、单片机发展历程1.单片机概述(1)单片机的定义和特点(2)单片机的分类和应用领域2.单片机的发展历程(1)单片机的起源和早期发展(2)单片机技术的突破和应用拓展(3)当前单片机领域的研究和发展方向二、单片机系统设计1.单片机系统架构(1)单片机系统的硬件组成(2)单片机系统的软件架构2.单片机系统设计的基本原则(1)功能需求分析(2)硬件设计和选型(3)软件设计和开发3.单片机系统设计的案例分析(1)智能家居控制系统设计(2)工业自动化控制系统设计(3)医疗设备控制系统设计三、单片机编程技术1.单片机编程语言(1)汇编语言(2)C语言2.单片机编程技术的基本原理(1)寄存器的使用(2)中断和定时器(3)串口通信3.单片机编程技术的实际应用(1)LED灯控制程序设计(2)传感器数据处理程序设计(3)通信协议开发和实现四、单片机应用领域1.工业领域(1)工业自动化控制(2)生产过程监控与管理(3)仪器仪表控制与测试2.家庭领域(1)智能家居控制(2)家用电器控制(3)安防系统控制3.医疗领域(1)医疗设备控制(2)生命体征监测(3)医疗信息管理五、单片机技术的研究和发展趋势1.物联网时代的单片机技术(1)物联网技术的发展趋势(2)单片机在物联网中的应用前景2.与单片机技术的结合(1)的发展和应用(2)单片机在领域的应用前景3.新型单片机技术的研究与创新(1)嵌入式系统设计与开发(2)新型材料和工艺的应用总结:通过对单片机领域相关文献的综述,我们可以看到单片机技术在各个领域的广泛应用,尤其在工业、家庭和医疗领域发挥了重要作用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

毕业设计开题报告电气工程及其自动化一种基于STC单片机的特定声音识别系统设计1前言部分(阐明课题的研究背景和意义)与机器进行语音交流,让机器明白你说什么,从而使机器明白需要做什么,出现了什么情况这是人们长期以来梦寐以求的事情。

声音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高科技技术。

其中一般的声音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

根据识别的对象不同,声音识别可以分为特定声音的识别和语音识别两种。

其中语音识别任务又大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。

其中,孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。

[1]特定声音的识别是针对一种特定的声音进行识别,如报警声,玻璃破碎的声音,呼救声等。

对特定声音识别的研究,能在吵杂或着空旷的地方对特定异常声音(比如枪击声、呼救声等)进行监控与定位,就能防止治安事件的发生对安全事业做出不小的贡献。

2主题部分(阐明课题的国内外发展现状和发展方向,以及对这些问题的评述)人们对语音识别研究已经有半个多世纪了,最早研究声音识别系统的是1952年贝尔实验室的Davis等人,他们利用语音音素特征做了一个单人的独立数字识别系统。

他们主要是通过数字元音段频谱曲线的相似度来进行独立数字识别的。

到了1959年,英国的Fry等人采用了频谱分析和模式识别技术设计了一个音素识别器,它能识别4个元音和9个辅音。

六十年代,日本在语音识别方面做出了不少研究,主要集中在硬件识别元音、音素以及在利用滤波器进行频谱分析等方面为语音识别作出了不少贡献。

1963年NEC公司在语音识别方面做出了硬件数字识别器,由于这一创举的推动使得他们在随后几十年里一直在语音识别方面保持着国际先进水平。

六十年代后期RCA 实验室的Matin和他的同事一起研究了语音信号中时间刻度非一致性问题,找到了一种可以寻找语音信号端点的检测方法,很大程度上解决了由于语音信号的时变性造成的系统识别性能下降问题,现在也是语音处理时要处理的首要问题。

与此同时原苏联研究人员Vintsyuk提出了语音信号的动态时间规整算法,这个算法被广泛的使用,直到现在这个算法还是比较出色的。

同一时期的另外一个巨大成就就是Carnegie Mellon大学的Reddy在连续语音流识别工作中取得的成果,他使用的是动态音素跟踪技术。

这两项技术对以后的语音识别产生了很大影响,他们的思想到现在仍然有一定的参考价值。

[3] 七十年代语音识别技术取得了长足的进步,这期间的代表成果有孤立词识别技术,这个技术被广大学者研究的比较多,他们相互借鉴取得了不错的成果,使之成为实用技术。

前苏联学者引入的模式识别技术给语音识别带来了新的动力,对语音识别起到了巨大的推动作用。

同时日本的研究表明动态规划和线性预测也可以用于语音识别,并且在语音识别上取得了不小的成果,如线性预测系数(Linear Predictive Coefficients,LPC)至今仍然是语音识别的一个关键技术。

美国的IBM在语音识别领域一直作着努力,并且取得了不错的成果,推出了可以用于简单的数据库查询和办公信函工作的大词汇量语音识别系统,以上的不懈努力保证了IBM在语音识别技术的领先地位。

同一时期贝尔实验室开始研究非特定人的语音识别系统,它在各类聚集算法、参数选择、距离测度、说话人自适应等方面取得了不错的成绩。

[3]八十年代是语音识别的黄金年代,一大批学者投身于语音识别的研究当中去,取得了巨大的成果。

尤其以贝尔实验室L.R.Rabiner为代表的一批学者在DARPA计划支持下,积极开展了基于隐形马尔可夫模型(Hidden Markov Mode, HMM)语音识别方面的研究,发表了一系列论文和著作,几乎讨论了孤立词汇语音识别、连续词汇语音识别、大词汇表连续语音流语音识别等各方面的问题,将语音识别技术的研究推向了一个新高潮。

这期间尤其以美国、日本以及我国台湾地区的研究最为突出。

其中在利用HMM 进行大词汇量语音识别取得的成果最为显著。

可以说八十年代为语音识别成果辈出的时代。

有代表性的语音识别系统为IBM的DragonSystem, CMU的SPHINX,以及贝尔实验室、MIT、林肯实验室取得一些不错技术成果。

[3] 九十年代相对来说是一个平稳期,不像八十年代那么波澜壮阔。

这是由于人们看到HMM在语音识别方面取得了巨大成果,以为语音识别将很快的被解决,但是当深入研究后发现HMM也存在一些问题,这时有的学者开始考虑是不是研究方向出了什么问题,开始怀疑以前的研究成果。

但是研究工作还是在一些大学和研究机构中默默的进行着。

正是由于这些扎实的研究工作才有可能为未来的技术突破带来希望。

其中一方面学者们在改进语音模型的不足,如用人耳听觉机理来改进语音识别特征参数(Mel-Frequency Cepstral Coefficients ,MFCC )、声道长度归一化来适应说话人的变化、音素状态矩阵表现音素的细微声学差别等。

另一方面剑桥大学的Steve Young开发了基于HMM的用于连续语音识别的HTK工具包,使很多学者有了一个很好的研究平台,2000年9月这个工具包的3.0版本己经免费开放了全部源代码,为更多学者提供了更好的研究条件。

还有就是IBM推出的ViaVioce软件,在实践中取得了一定的成果。

随着神经网络的研究取得了一定成果,出现了以神经网络为建模方式的语音识别算法。

人工神经网络现在也是现在研究的一个热点。

以上这几种技术推动了语音识别技术的发展,并将在语音识别的历史上留下了自己光辉的一页。

最近小波理论的发展在其它领域取得了不小的成功,也有人希望小波理论能够应用于语音识别,但是效果不是很理想。

国内语音识别研究工作开展的比较晚,但是进展的速度比较快,现在已经能够紧跟国际先进水平。

另外我国政府对语音识别也比较重视,863计划中语音识别就占有很重要的位置。

由中科院自动化所、声学所、北京大学等单位实施。

国家863计划智能计算机专家组于1998年4月进行了对国内大词汇量连续语音识别系统的测评,其中以清华大学的系统最为优秀。

其试验结果与IBM的语音识别系统成绩不相上下。

中科院自动化所的非特定人、纯净语音环境下的连续语音听写系统和汉语语音对话系统的字正确率和响应率达到90%以上。

中科院自动化所的机器人现在已经能够跟非特定人进行简单的特定词汇的对话。

以上这些成就说明中国的语音识别技术现在己经能够在国际语音识别界占有一席之地。

作为高科技应用领域研究的热点,语音识别技术从理论研究到产品的应用已经经历了半个多世纪的历程。

并且取得了长足的进步。

它在军事、办公和商业系统的数据库语音查询、工业生产部门的语音控制、电话以及电信系统的自动拨号以及很多领域都发挥了巨大的作用,并在未来一定会成为新一代操作系统的接口。

实用语音识别技术是一项具有很大市场潜力的技术,但是现在的语音识别远远没有达到计算机与人交流的最终目标,它现在还存在着很多问题,在语音识别技术里面必然包括如何从语音信号中提取信息和理解含义的工作。

只有弄清人的发声规律和听觉特性才能在语音识别方面有长足的进步,才能有一个质的飞跃。

如何充分借鉴和利用人完成听觉过程是一个很大的课题,值得学者们深入的进行研究[3]现阶段的语音识别研究中存在很多困难,语音识别系统的适应性差,也就是鲁棒性不好,对环境的依赖性特别强。

在某种特定环境下建立的语音识别系统,如果环境发生改变,识别效果会急剧变坏。

而且全世界语言众多,一种语言还有很多种方言,还有说话人的情绪波动也能对对语音识别系统的识别性能带来很大的破坏。

因此如何加强系统的鲁棒性是语音识别的一个重要研究方向。

[3]目前国内乃止国际上使用的声音识别所常用的一些声学特征有线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP、MFCC 的计算。

其中:线性预测系数LPC 是指线性预测分析。

通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来预测。

通过对实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。

对LPC这一特征系数的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。

计算上的快速有效保证了这一声学特征的广泛使用。

与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。

[4] 倒谱系数CEP是指利用同态处理方法,对语音信号进行离散傅立叶变换,然后取对数,再求反变换从而得到倒谱系数。

对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。

实验表明,使用倒谱可以提高特征参数的稳定性。

[4]Mel倒谱系数MFCC和感知线性预测PLP是通过对人的听觉系统研究而导出的声学特征。

对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。

临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。

Mel刻度是对这一临界带宽的度量方法之一。

[4]MFCC计算时,首先要用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。

PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

[4] 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。

HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。

对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。

用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。

HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。

[8]语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。

相关文档
最新文档