单片机语音处理技术与应用

2008年3月

第9卷第1期总第32期

太原大学学报

JournalOfTaiyuanUniversityV01.9No.1StlmNo.32

文章编号:1671—5977(2008)01—0126—04

单片机语音处理技术与应用

袁蕾

(上海托普信息技术学院软件学院,上海201300)

摘要:语音处理技术是现代多媒体技术研究的核心内容之一。单片机语音处理技术越来越广泛地应用于各种过程控制与移动场合,与同类产品比较,凌阳SPCE061A在小型语音处理环境中更具适用性。

关键词:多媒体技术;单片机;语音处理

中图分类号:TP368.2文献标识码:A

多媒体技术是现代计算机应用技术中极其活跃的一门新兴技术,音像处理是多媒体技术的核心研究对象,语音处理是声音处理技术中极为重要的实用技术。语音处理技术的基础是语音学和数字信号处理,它包括语音分析技术、语音存储技术、语音识别技术和语音合成(重现)技术。在这方面,凌阳SPCE061A采用了独特的硬件设计和软件算法,使得利用它进行音频处理时外围器件减少,程序设计简化,它的硬件乘法器直接实现乘法运算和内积运算,为DSP应用提供了良好地条件,较之同类单片机产品,它特别适合小型片语式智能化产品的开发应用,本文对凌阳SPq田61A在语音处理技术方面的原理与应用提出了一些自己的看法。

1音频处理

计算机处理音频主要采用几项技术:采样与量化技术、音频保存技术、音频压缩编码技术、音频重现与辨识技术。

采样与量化是将自然界中声音按一定要求采集到计算机中,是声音处理技术的基础。可听音频的频率在20Hz~20kHz范围内,语音的频率一般在60Hz~500Hz范围内。音频可分为波形声音、语音和音乐三种。与任何声音一样,语音也表现为波形声音,但波形声音表示不出语言、语音的内涵。语音是对讲话声音的一次抽象,是语言的载体,是人类社会特有的一种信息系统。音乐是特殊的声音,是声音的一个微弱子集,是规范化符号化了的声音。但音乐不能对所有的声音进行符号化。乐谱是符号化声音的符号组,不同的组合表示比单个号更复杂的声音信息。

计算机处理音频时首先要将模拟的(连续的)声音波形数字化(离散化),这要通过A/D转换器来实现,转换后的音频称为数字音频,它的质量取决于A/D转换器的转换速率和分辨率,速率越高表征单位时间内采集到的数据越多,分辨率越高表征采集到的数据精度越高,所以音频处理中对音频的采样频率和量化位数是两个重要参数。

一般的语音处理系统硬件结构如图1所示。

I/0存储器

图1语音处理系统

采集到的音频信号由音频文件保存。音频文件分为两类:声音文件和MIDI文件。

为了高效高质量地传输与回放数字语音信

息,语音存储中采用了多种编码格式,主要有*.WAV、脏/A刀FF、*.Audio、*.^加P1/*.眦/

*.A嗄P3、*.RA/*.RM/*.RAM、*.MID/*.RMI等格式。不同的格式所选用的编码压缩参数和压缩算法不同,用途也有侧重,如*.WAV被Windows平台及其应用程序广泛支持,但文件尺寸较大,多用于存储简短的声音片段。*.Au—dio常用于Internet中。*.MPl/*.M]P2/

收稿日期:2008—03—10

作者简介:袁蕾(1980一),女,山西太原人,上海托普信息技术学院软件学院助教,上海交通大学2007级硕士研究生。

研究方向:软件工程。

?126?

万方数据

*.MP3压缩比高而音质基本保持不失真,是目前使用最多的格式。*.RA/*.RM/*.RAM主要用于在低速的广域网上实时传输音频信息,网络连接速率不同,客户端所获得的声音质量也不尽相同:对于28.8Kbps的连接,可以达到广播级的声音质量,如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。*.MID/*.RMI是数字音乐/电子合成乐器的统一国际标准,它

定义了计算机音乐程序、合成器及其它电子设备交换音乐信号的方式,还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议,可用于为不同乐器创建数字声音,可以模拟大提琴、小提琴、钢琴等常见乐器。

由于音频资料量很大,必须对资料进行压缩以达到高效率存储和转换资料的目的。各种音频文件采用不同的编码压缩技术进行编码,一方面滤除语音信息中存在的冗余度,另一方面能够保持纯正而不失真,同时又可用较少的资源建立更多的信息。

常见的音频压缩编码算法有:波形编码、参数编码、混合编码等,它们各有特点,针对不同的场合选用。

语音合成可分两个档次:有限词汇的语音合成和基于语音合成技术的文字语音转换。目前,有限词汇的语音合成技术已经比较成熟,由于词的语音在语句中比较稳定,因此以词为基元而合成的语句可理解度也较好,合成方法亦灵活多样,应用前景比较好。无限词汇和基于文字的语音合成技术目前尚不完美,因为它们都需要按语法规则造句,词元之间相互影响甚大,音调的辨意作用等都加剧了语音合成质量的难度。语音合成的方法有三种类型:波形合成法、参数合成法和规则合成法。波形合成法需要的存储容量较大。参数合成法以牺牲音质来换取存储空间的减少。规则合成法应用中有很大难度。

语音识别是让系统能够听懂和理解人的讲话并按讲话要求完成相应的动作。

语音识别是一种多维模式识别系统,与一般模式识别类似,包括特征提取、语音模式库、模式匹配3个基本单元。基本结构如图2所示。

语音识别方法可从不同角度分类,如按识别单位分为孤立词识别、音素识别、音节识别、孤立词句识别、连接词句识别、连续语音识别等。按识别规模分为小词汇(10个~15个)、中词汇(50磊雕℃一

训练\堡型臣壁∑

存储器用来存储应用程序、驱动程序、各种数据

?127?

万方数据

单片机在语音处理领域中的应用一般具有如下特点:

1.中小词汇量和非特定人语音识别场合;

2.低速率语音压缩要求;

3.低成本低价格;

4.低功耗;

5.基于SoC架构,高集成度和高稳定性;

6.较强的对外控制能力;

7.速度快,能满足语音处理的实时性要求;

8.多通道,可根据具体应用的要求处理不同质量的语音或音频信号。

图3表达了单片机语音处理模块的基本要求和架构。

SPlUARTGPlOJTAC

<7、)

之上

恤!吲咖

币石1]d

一’。{王

电源管理时钟片上存储器系统发生器(RAM和ROM)图3单片机语音处理模块基本架构

软件方面,虽然语音数据特征提取、声学模型建立、识别算法设计及识别解码过程繁琐而复杂,但在实际应用中,厂家一般都提供有专门的API接口函数,大大降低了用户应用中的难度。

3凌阳SPCE061A单片机语音处理技术

凌阳SPCE061A是一款16位弘’nSP结构的微控制器。该芯片带有硬件乘法器,能够实现乘法运算、内积运算等复杂的运算。它不仅运算能力强,而且处理速度快,单周期最高可以达到49MHz。SPCE061A内嵌32K字的FLASH程序存储器以及2K的SRAM。同时该SOC芯片具有ADC和DAC功能,其MIGJ如C通道带有AGC自动增益环节,能够很轻松的将语音信号采集到芯片内部,两路10位的电流输出型n蛇,只要外接一个功放就可以完成声音的播放。凌阳趼,CBD61A单片机设计先进,特点突出,易学易用,体现了现代微控制器工业发展的新趋势。

凌阳音频压缩算法根据不同的压缩比分为以下三种:

波形编码压缩算法刚CM—A2000:压缩比为8:1、8:1.25和8:1.5,用于高保真语音/音乐?128?环境。

参数编码压缩算法&吣M—S240:压缩比为80:1.5,特点是压缩比大,计算量大,音质不高。

混合编码压缩算法&崛M—S480:压缩比为80:3、80:4.5,兼具波形编码和参数编码之优点。

凌阳SPCE061A将语音处理相关各功能做成函数模块,通过API调用来实现。这些函数分为两类:用于音频资料播放的凌阳音频编码(SACM)类和用于辨识语音的语音识别(Ⅸ淑)类。

对输入生成的WAvE文件按不同的压缩算法压缩成SACM—A2000或SACI\,I一8,480等相应语音资料后,就可利用&崛M—LIB库对这些资料进行处理。该库将A/D、编码、解码、存储及D/A做成相应的模块,每个模块都有其应用程序接口API函数,调用对应函数即可实现各自功能。

如针对特定人语音辨识,SACM—LIB库中提供了包括C语言和汇编语言两种格式定义的API函数,常用语音辨识API函数有:

1.SRAM初始化函数intBSR—DeleteSD.Group(int)

2.训练函数intBSR—Train(intCommandlD,intTrainMode)

3.识别初始化函数intBSR—InitReeognizer(intAudioSource)

4.获取识别结果函数intBSR—GetResult(void)

5.停止识别函数voidBSR—StopRecognizer(void)

6.识别中断程序一BSR—FIQ—Routine

配合语音压缩及播放的相关API函数,即可构成一个完整的语音应用系统。

下面是一个具体实例。程序中我们通过三条语句的训练完成特定人连续音识别,其中第一条语句作为触发,另外两条语句作为具体完成的动作命令,训练完毕开始辨识。当识别出触发指令后,提示发布动作命令,即可听到自己设置的应答。

算法如下:

1.训练部分

提示音输入语音“请给我起个名字吧”“小强”

“请输入第一条动作指令”“唱首歌吧”

“请输入第二条动作指令”“跳个舞吧”

万方数据

“请再说一遍”(以上提示音每说完一遍出现此命令)

“没有听到任何声音”(当没有检测到声音时出现此命令)

“两次输人名称不相同”(当两次输入的名称不同时出现此命令)

“两次输入命令不相同”(当两次输入的命令有差异时出现此命令)

“准备就绪,开始辨识”(以上三条语句全部训练成功时,进入识别)

图4主程序流程图

2.识别部分

发布动作命令应答

“小强”“到”

“唱首歌吧”开始唱歌

“跳个舞吧”开始跳舞

3.主程序流程图见图4。

5结语

语音处理技术对下一代多模式交互人机界面设计技术有重要影响,随着消费类电子产品中对于高性能、高稳定性的语音接口需求的快速增加,单片机及嵌入式语音处理技术在快速发展。语音处理系统在硬件上通常基于LSI、MCU、DSP等芯片方案,软件上采用语音识别、语音合成、语音压缩编解码、回声消除等技术,可以广泛应用于过程控制、各种手持设备、智能家电等多个领域,赋予这些设备人性化的交互方式和便利的使用方法;也可应用于益智类产品如声控玩具、语言教学设备;还可以应用于车载通信设备中实现人机交流,提供安全、便捷、高效的操控接口。目前手机厂商推出的新款高档手机中已经加入非特定人姓名拨号、低速率语音压缩编解码、回声消除等语音处理的功能。然而,这些解决方案目前还普遍存在一些问题,随着软硬件技术的进一步研究,这些问题一定会在不久的将来得到合理解决,语音处理技术将为计算机的深入应用带来更加广阔的空间。

[责任编辑:赵自谦]

SpeechProcessingTechniqueandApplicationofMicroControlUnit

YUANLei

(CollegeofSoftware,ShanghaiTOPInstituteofInformationTechnology,Shanghai201300,China)

Abstract:Thespeechprocessingtechniqueisoneoftheooreofthemodernmulti—mediatechniqueresearch.ThetechniqueofMicroControlUnitisbeiragappliedtOcontrolandmobileinvariousprocessmoreandnloreandbroadly.Comparingwiththeothersofthesamekindproducts.theSl硼61Aevenhastheapplicabilityinmuallscaledspeechprocessingenvironment.

Keywords:Multi?mediatechnique;MicroControlUnit;SpeechProcessing

?129?

万方数据

单片机语音处理技术与应用

作者:袁蕾, YUAN Lei

作者单位:上海托普信息技术学院,软件学院,上海,201300

刊名:

太原大学学报

英文刊名:JOURNAL OF TAIYUAN UNIVERSITY

年,卷(期):2008,9(2)

引用次数:0次

相似文献(10条)

1.期刊论文夏东盛多媒体技术在单片机教学中的应用-科技咨询导报2007(1)

多媒体技术的发展,推动了各个领域的发展.在多媒体技术下的单片机教学怎样才能使多媒体技术更有助于培养学生的创新精神和实践能力.本文在简要介绍了多媒体技术的概念和特点的基础上,阐述了多媒体技术在单片机课堂教学中的优势及单片机教学中的具体应用.

2.期刊论文刘旭东.LIU Xu-dong多媒体技术在单片机教学中的应用-吉林省经济管理干部学院学报2009,23(3)

单片机原理课有别于单纯讲硬件原理的课程,它是在了解单片机内部结构和资源的基础上进行硬件编程,涉及的汇编语言有大量的指令和语法规则.传统教学方法使学生在学习单片机的过程中产生了的困难,采用多媒体技术教学后,可以解决学生在学习结构、学习方法上的障碍.

3.期刊论文楼洪法.王栓庄.彭珊单片机原理及应用CAI课件的研制-电气电子教学学报2001,23(2)

单片机原理及应用因其内容抽象难懂,多年来一直是教学中的难点.为了提高教学效果,我们研制了<单片机原理及应用>CAI课件,通过教学实际使用,收到了良好的效果.

4.学位论文张忠华基于FPGA与多媒体技术的新型速示器的研究2003

速示器(Tachistoscope)是一种短时呈现视觉刺激的心理测试仪器.它可完成知觉、记忆和学习等方面的心理实验与心理研究,是心理学教学与科研工作中重要的实验设备之一.中国目前已先后研制成功了单视场和二视场速示器,而国际上也有四视场速示器产品的报道,但都未摆脱信息切换系统故障率高及荧光灯光源固有缺陷的困扰.因此使速示器在心理科学研究中的作用受到一定局限.该文分析了目前国内外速示器产品的性能、特点和不足,提出了一种新的解决方案,即:基于PC机、FPGA和单片机控制,由LCD方式完成信息提供以及由半导体光源实现信息切换的新一代速示器.该方案不仅克服了目前国内外速示器的缺陷,而且还实现了用简单的双视场结构完成多视场速示器的各种实验任务,它定将在心理科学研究中起到重要作用.

5.期刊论文闵祥鹤多媒体技术在单片机原理课程中的应用-农业科技与装备2009(5)

单片机原理课程是机电一体化专业的核心课程之一.传统的单片机教学方法忽略了学生学习的效果,而通过运用多媒体技术教学,可以改变传统教学模式和手段,以新颖独特的方式吸引学生的注意力,使学生对知识的理解程度大大增加,有助于提高课堂教学的实效性.

6.会议论文郭华.杨济安多媒体通信中单片机系统加密方法的探讨1996

为适应多媒体通信的需要,防止计算机通信系统中的软件被复制,提高通信系统的加密力度,该文以MCS-51系列单片微机为子例,提出了几种用硬件,软件相结合的方法,对单片微机系统的程序进行加密,使其源程序难以被剖析,从而使源程序得以保护。

7.学位论文杜江峰脱机型单片机彩色LED显示屏及伪彩色视频LED显示屏1997

8.学位论文刘典文数字多媒体中央控制系统设计2007

现代化教学系统的应用愈来愈受到人们的重视,传统的方式已经不适应现代化的需要。作为一种新型的教育形式和现代化教学手段,多媒体中央控制技术给教育行业带来了新的机遇。本文正是针对这一现状,研究设计了一种基于单片机的多媒体中央控制系统。 (1)深入研究了多媒体中央控制系统技术,分析并指出了本课题研究的关键技术,阐述了多媒体中央控制系统的发展趋势和研究意义。 (2)根据多媒体中央控制系统信号切换模块的技术指标和功能要求,制定了多媒体中央控制系统的总体方案,设计了基于单片机的系统软硬件方案。 (3)根据硬件方案,设计了以单片机为核心的硬件系统,并详细论述了系统各模块(视频信号切换、音频信号切换、VGA信号切换、环境控制、红外遥控码仿真、串行通信等六个模块)电路的组成原理和设计实现方法。 (4)设计了系统软件,阐述了软件的总体设计思想,给出了系统初始化、视频信号切换、音频信号切换、VGA信号切换、环境控制、红外遥控码仿真、串行通信等模块的软件设计与实现方法。 (5)采用51系列兼容单片机C语言软件开发系统keil c51对软件进行调试和仿真,对出现的问题提出解决的方案。 本设计包括视频切换模块、音频切换模块、VGA切换模块、环境控制模块、红外遥控码仿真模块、串行通信模块和主控模块。在分析各模块的主要技术性能及比较多种控制器的基础上,确定了模块的总体结构,主控模块采用单片机作为中央控制单元的硬软件设计方案。本论文设计的多媒体中央控制系统,实现了每一个模块的功能,达到了预期目标。

9.学位论文王海峰基于C/S的多媒体远程集中控制系统的研究2007

20世纪90年代以来,世界向着信息化社会发展的速度明显加快,而多媒体技术的应用在这一发展过程中发挥了极其重要的作用。多媒体改善了人类信息的交流,缩短了人类传递信息的路径。应用多媒体技术是20世纪90年代计算机应用的时代特征,也是计算机的又一次革命。随着现代化教学系统在各大院校的不断推进,传统的方式已经不适应现代化的需要,集多功能教室系统、多媒体教学系统、演播系统于一体的新型现代化教育体系在教育行业得到了日益广泛的运用。作为一种新型的教育形式和现代化教学手段,多媒体技术给教育行业带来了新的机遇。 本项目针对目前高校多媒体教室如何管理这样的研究热点,全面分析了校园多媒体教室现代化管理的需求,提出了一种基于C/S的多媒体远程集中控制系统网络管理平台。在该网络管理平台中主要研究了以下主要内容:服务器端管理软件方面的设计与实现,其中主要研究了NET技术下的计算机远程唤醒技术;终端管理软件的设计与实现,对远程视频捕捉与网络传输进行了主要研究;单片机自动控制方案的设计与实现,对上位机与单片机的通信协议进行研究。 本文设计一种基于C/S的远程多媒体教室集中控制系统,实现了对多媒体教室管理的科学化,简化管理员管理、方便教师操作,全面提高教学效率,将网络通信技术和多媒体教学方式有机结合起来,建立一个数字化多媒体网络教学环境,从而使学校的教学和教室管理达到一个更高的层次。从目前多媒体教室的应用现状来看,本课题具有良好的发展前景,市场很大,可以说具有很大的商业价值。

10.学位论文郑来波图文电视微机接收卡的设计1998

该文提出了一种基于PHILIPS公司的SAA5231、SAA5250和F11256 MK2的图文电视微机接收卡的设计,并给出了相应的驱动程序.设计的目的是降低成本,提高接收系统的稳定性和适应性.该接收卡采用了无单片机结构,其设置和驱动由计算机通过ISA总线实现,为此,用软件通过GAL模拟了不同器件的各种总线时序.绝大多数逻辑控制功能用GAL实现.这些措施缩短了开发周期,减少了印制版面积和元器件数量,从而降低了成本.为了在没有单片机的情况下保证数据的高速传输,在认真分析了SAAA5250存储器接口时序图的基础上,专门设计了一个中断电路,使得计算机和接收卡之间可以用中断的方式进行数据传输.接收卡可以接收射频信号,同时向外部输出视频信号和伴音信号.也可以接收外部输入的视频信号.接收卡支持三种CCIR推荐的图文电视制式(Antiope、WST、NABTS),并可以从任何一个电视频道(包括所有增补频道)的场逆程接收任何种类的图文信息.

本文链接:https://www.360docs.net/doc/7e3444688.html,/Periodical_tydxxb200802037.aspx

下载时间:2010年1月3日

相关文档
最新文档