语音识别控制灯

信息与电气工程学院

电子信息工程CDIO二级项目（2013/2014学年第二学期）

题目：语音识别控制灯

专业班级：电子信息

学生姓名：

学号：

指导教师：马永强老师

设计周数：15周

设计成绩：

2014年6月4日

1 项目设计目的及任务 (2)

2 项目设计思路 (2)

2.1 LD3320芯片 (2)

2.1.1 LD3320芯片的功能 (2)

2.1.2 寄存器介绍 (2)

2.1.3 寄存器的操作 (3)

2.1.4 驱动程序 (4)

2.1.5 播放声音 (7)

3 设计电路 (11)

3.1 仿真电路 (11)

3.2 电路工作原理分析 (11)

3.2.1 程序流程 (11)

3.2.2 原理说明 (12)

4 项目设计心得 (12)

5 参考文献 (13)

1 项目设计目的及任务

要求完成一个语音识别控制灯系统的设计，基于LD3320芯片的语音识别系统。最基本的要求做到语音说出一些简单的命令，系统会识别并且做出相应地动作或运作，以此来控制灯的亮和灭。要求设计出原理图，并且利用proteus软件进行了仿真试验。

2 项目设计思路

2.1 LD3320芯片

2.1.1 LD3320芯片的功能

语音识别是对基于生理学和行为特征的说话者嗓音和语言学模式的运用。它与语言识别不同在于这项技术不对说出的词语本身进行辨识。而是通过分析语音的唯一特性，例如发音的频率，来识别出说话的人。

语音识别技术使得人们可以通过说话的嗓音来控制能否出入限制性的区域。举例来说，通过电话拨入银行、数据库服务、购物或语音邮件，以及进入保密的装置。语音识别与其他生物识别技术相比，不仅具有不会遗失和忘记、不需记忆、使用方便等特点，而且还具有用户接受程度高，声音输入设备造价低廉等优点。由于涉及不到用户的隐私问题，所以可以方便的推广应用。

LD3320芯片是一款“语音识别”专用芯片。该芯片集成了语音识别处理器和一些外部电路，包括AD、DA 转换器、麦克风接口、声音输出接口等。本芯片不需要外接任何的辅助芯片如Flash、RAM 等，直接集成在现有的产品中即可以实现语音识别/声控/人机对话功能。并且，识别的关键词语列表是可以任意动态编辑的。该芯片不需要外接任何的辅助芯片，直接集成在现有的产品中，即可实现语音识别，声控，人机对话功能。

LD3320完成非特定人语音识别，每次识别最多可以设置50项候选识别语句，每个识别句可以是单字，词组或短句，长度为不超过10个汉字或者79个字节的拼音串。另一方面，识别句内容可以动态编辑修改，因此可由一个系统支持多种场景。

芯片采用48脚QFN塑料封装，工作供电为3.3V。核心是语音识别运算器，配合输入和输出，AD/DA转换等模块，完成语音识别的功能。LD3320芯片还支持并行和串口接口，串行方式可以简化与其他模块的连接。

2.1.2 寄存器介绍

寄存器大部分都是有读和写的功能，有的是接受数据的，有的是设置开关和状态的。寄

存器的地址空间为8 位，可能的值为00H 到FFH。

ASR: 自动语音识别技术（Automatic Speech Recognition）。

FIFO:英文First In First Out 的缩写，是一种先进先出的数据缓存器，它与普通存储器的区别是没有外部读写地址线，这样使用起来非常简单。

LD3320 芯片内部有2 个FIFO，分别是：

FIFO_EXTFIFO_DATA FIFO_DATA 主数据处理FIFO 缓存器，ASR 或者MP3 的主数据区

FIFO_EXT 语音识别添加关键词用FIFO 缓存器

MCU：本文档中专指外部电路板的主控芯片，对LD3320 芯片进行控制的微处理器。

DSP：本文档中专指本芯片LD3320 内部的专用DSP，实现语音识别和语音播放的算法。

2.1.3 寄存器的操作

本芯片的各种操作，都必须通过寄存器的操作来完成。比如设置标志位、读取状态、向FIFO 写入数据等。寄存器读写操作有2 种方式，即标准并行方式和串行SPI 方式。

（1）并行方式

第46脚（MD）接低电平时按照此方式工作，写和读的时序图如下：

图1 并行方式写时序

图2 并行方式读时序

由时序图可以看到，A0 负责通知芯片是数据段还是地址段。A0 为高时是地址，而A0 为低时是数据。发送地址时CSB*和WRB*必须有效，写数据时同样CSB*和WRB*必须有效，而读数据时CSB*和RDB*必须有效。

（2）串行SPI 方式

第46脚（MD）接高电平，且第42脚（SPIS*）接地时按照此方式工作。写和读的时序如图3：

图3 SPI方式写时序

写的时候要先给SDI 发送一个“写”指令（04H），然后给SDI 发送8 位寄存器地址，再给SDI 发送8 位数据。在这期间，SCS*必须保持在有效（低电平）。

图4 SPI方式读时序

写的时候要先给SDI 发送一个“读”指令（05H），然后给SDI 发送8 位寄存器地址，再从SDO 接受8 位数据。在这期间，SCS*必须保持在有效（低电平）。

2.1.4 驱动程序

（1）芯片复位

就是对芯片的第47 腿（RSTB*）发送低电平。可按照以下顺序：

void LD_reset()

{

RSTB =1;

delay(1);

RSTB =0;

delay(1);

RSTB =1;

}

delay(1)是延迟1 毫秒的意思，为了更稳定地工作。

芯片初始化一般在程序的开始进行，如果有时芯片的反应不太正常，也可用这个方法恢复芯片的初始状态。

（2）语音识别

语音识别的操作顺序是：

通用初始化→语音识别用初始化→写入识别列表→开始识别，并准备好中断响应函数，打开中断允许位。如果不用中断方式，也可以通过查询方式工作。在“开始识别”后，读取寄存器B2H 的值，如果为21H 就表示有识别结果产生。在此之后读取候选项等操作与中断方式相同。

（3）写入识别列表

列表的规则是，每个识别条目对应一个特定的编号（1 个字节），不同的识别条目的编号可以相同，而且不用连续。本芯片最多支持50 个识别条目，每个识别条目是标准普通话的汉语拼音（小写），每2 个字（汉语拼音）之间用一个空格间隔。编号可以相同，可以不连续，但是数值要小于256（00H~FFH）。

编号字符串

1 bei jing

1 shou du

4 shang hai

6 tian jin

8 chong qing

编号可以相同，可以不连续，但是数值要小于256（00H~FFH）。例子中的“北京”和“首都”对应同一编号，说这两个词会有相同的结果返回。

流程图如下：

图5 语音识别流程图

（4）开始识别

设置几个相关的寄存器，就可以控制LD3320 芯片开始语音识别。单片机程序中，一般会用一个全局变量记录和控制当前状态在编程时一定要把对该状态的设置语句放在LD3320 芯片正式开始识别以前。

（5）响应中断

如果麦克风采集到声音，不管是否识别出正常结果，都会产生一个中断信号。而中断程序要根据寄存器的值分析结果。读取BA 寄存器的值，可以知道有几个候选答案，而C5 寄存器里的答案是得分最高、最可能正确的答案。

例如发音为“上海”并被成功识别（无其他候选），那么BA 寄存器里的数值是1，而C5 寄存器里的值是对应的编码3。流程图如下：

图6 中断响应流程图

2.1.5 播放声音

播放声音的操作顺序是：

通用初始化→MP3 播放用初始化→调节播放音量→开始播放声音，并准备好中断响应函数，打开中断允许位。

（1）通用初始化

和语音识别部分一样，按指定序列设置寄存器。

（2）声音播放用初始化

（3）调节播放音量

需要修改寄存器8E。音量分为16 级，用4 位二进制表示，范围是0-15。设置音量时，将(15-音量值) 设给寄存器8E 的第2-5 位。

（4）开始播放声音

开始播放位置清零（自定义变量Mp3Pos=0）；

寄存器1B 的第3 位设为1（按位或0x08）；

循环执行：

while（【播放条件】=true）

{

顺序将MP3 数据放入寄存器01(每次一个字节)；

Mp3Pos 增加1

}

【播放条件】为下面条件都成立，有一个不满足就跳出循环：读取寄存器06，第3 位=0；Mp3Pos < MP3 文件的总长度。

修改BA 、17 等寄存器；

开放中断允许。

开始播放的流程图如下：

图7 开始播放流程图

（5）中断响应。

开始播放可以把声音数据的最初部分送入芯片，等到芯片播放这一段后会发出中断请求。而中断函数里会不断的送入数据，直到FIFO_DATA 装满或声音数据结束。由于LD3320 芯片只有一只管脚负责中断请求输出，所以一般情况下用一个中断响应函数处理2 种中断。

中断处理函数里，播放声音部分流程图如下：

图8 播放声音流程图

3 设计电路

3.1 仿真电路

图1 原理图

3.2 电路工作原理分析

3.2.1 程序流程

语音识别的操作流程：

（1）语音识别用初始化，在此步骤中，对各寄存器进行初始化设置；

（2）写入识别列表。LD3320是一个基于词库的语音识别芯片，。应将待识别的短语写入识别列表，每个识别条目对应一个特定的字节，不同的识别条目的字节可以相同，而且不用连续，但是数值要小于256；

（3）开始识别，并准备好中断响应函数，打开中断允许位；

（4）响应中断。如果麦克风采集到声音，不管是否识别出正常结果，都会产生一个中断信号，而中断程序要根据寄存器的值分析结果。读取BA寄存器的值，可以知道有几个候选答案，而C5寄存器里的答案是得分最高，最可能正确的答案。

如果不用中断方式，也可以通过查询方式工作。

开始识别后，读取寄存器B2H的值，如果21H就表示有识别结果产生。在此之后读取

候选项等操作与中断方式相同。

LD3320芯片还具有MP3播放的功能。

3.2.2 原理说明

LD3320的基本应用电路由一个微控制器（MCU）和LD3320组成。电路中的主控MCU芯片，是为了完成对LD3320芯片寄存器的操作。

对LD3320芯片的各种操作，都必须通过寄存器的操作来完成。其寄存器可以分为，FIFO 数据缓存器、语音识别控制寄存器、音量调节、模拟电路和其他的辅助寄存器。寄存器读写操作有两种方式，即标准并行方式和串行SPI方式。LD3320寄存器的地址空间为8位，编号从00H到FFH。

4 项目设计心得

本学期学习LD3320的时间很短,芯片设计掌握的深度不够，但通过此次课程设计，却改变了很多，首先，对于硬件电路的工作原理有了进一步的学习，同样就有了进一步的认识；其次，软件方面，在程序的设计，程序的调试方面都学到了很多东西。

在大学课堂的学习只是纯理论的专业知识，而我们应该把所学的用到现实生活中去，此次的LD3320设计语音控制灯给我奠定了一个实践基础，我会在以后的学习、生活中磨练自己，使自己适应社会激烈的竞争。在这次的单片机课程设计过程中，无论是在理论学习阶段，还是在设计的选题、资料查询和撰写的每一个环节，我都得到到了许多人的悉心的指导和帮助。

学习单片机要有一定的基础：电子技术方面要有数字电路和模拟电路等方面的理论基础，特别是数字电路；编程语言要求汇编语言或C语言。要想成为单片机高手，建议初学者首先学习汇编语言，学的差不多的时候，转入C语言学习。尽管汇编语言属于低级语言，编程效率低，但是较C语言具有目标代码简短，占用内存少，执行速度快等优点，更重要的是能使初学者尽快熟悉单片机的内部结构，并能对其进行精确的控制。汇编语言在单片机教材里面都会涉及，不需要单独购买教材和学习。

设计的时间花的算不算多，不是从百度里找就是从老师给的资料里一个一个拼凑起来。这次的设计是基于一定的模版才设计出来的，好多不懂，都是从头学。我要感谢授课的各位老师，正是由于你们的传道、授业、解惑，让我学到了专业知识，并从你们身上学到了如何求知治学、如何为人处事。

5 参考文献

[1]姚天任.数字语音处理 [M].武汉：华中科技大学出版社，1992.4.

[2]柳春.语音识别技术研究进展 [J].甘肃科技，2009

[2]LD3320开发手册[M].2010.1

项目设计

评语

项目设计成绩指导教师

（签字）年月日

一种嵌入式语音识别模块的设计与实现

嵌入式系统结业（论文）基于STM32的嵌入式语音识别模块设计学生姓名：所在学院：信息技术学院班级：电气学号：中国·大庆 2013 年12 月

摘要：介绍了一种以ARM为核心的嵌入式语音识别模块的设计与实现。模块的核心处理单元选用ST公司的基于ARM Cortex-M3内核的32位处理器STM32F103C8T6。本模块以对话管理单元为中心，通过以LD3320芯片为核心的硬件单元实现语音识别功能，采用嵌入式操作系统μC/OS-II来实现统一的任务调度和外围设备管理。经过大量的实验数据验证，本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。关键词：ARM；语音识别；对话管理；LD3320；μC/OS-II 1 引言服务机器人以服务为目的，因此人们需要一种更方便、更自然、更加人性化的方式与机器人交互，而不再满足于复杂的键盘和按钮操作。基于听觉的人机交互是该领域的一个重要发展方向。目前主流的语音识别技术是基于统计模式。然而，由于统计模型训练算法复杂，运算量大，一般由工控机、PC机或笔记本来完成，这无疑限制了它的运用。嵌入式语音交互已成为目前研究的热门课题。嵌入式语音识别系统和PC机的语音识别系统相比，虽然其运算速度和内存容量有一定限制，但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点，特别适用于智能家居、机器人及消费电子等领域。 2 模块整体方案及架构

现有的语音识别技术按照识别对象可以分为特定人识别和非特定人识别。特定人识别是指识别对象为专门的人，非特定人识别是指识别对象是针对大多数用户，一般需要采集多个人的语音进行录音和训练，经过学习，达到较高的识别率。基于现有技术开发嵌入式语音交互系统，目前主要有两种方式：一种是直接在嵌入式处理器中调用语音开发包；另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大，计算复杂，需要占用大量的处理器资源，开发周期长；第二种方法相对简单，只需要关注语音芯片的接口部分与微处理器相连，结构简单，搭建方便，微处理器的计算负担大大降低，增强了可靠性，缩短了开发周期。语音识别技术在国内外的发展十分迅速。目前国内在PC应用领域，具有代表性的有：科大讯飞的InterReco2.0、中科模式识别的Pattek ASR3.0、捷通华声的jASRv5.5；在嵌入式应用领域，具有代表性的有：凌阳的SPCE061A、ICRoute的LD332X、上海华镇电子的WS-117。本文的语音识别方案是以嵌入式微处理器为核心，外围加非特定人语音识别芯片及相关电路构成。语音识别芯片选用ICRoute公司的LD33 20芯片。 3 硬件电路设计 3.1 语音识别电路图3为语音识别部分原理图，参照了ICRoute发布的LD3320数据手册进行设计。LD3320的内部集成了快速稳定的优化算法，不需外接Fla-sh、RAM，不需要用户事先训练和录音而完成非特定人语音识别，识别准确率高。

讯飞语音平台

1.什么是MSP 移动互联网已迅速成为当今世界发展最快、规模最大和市场前景最好的行业，已吸引众多知名IT公司进军该领域。由于现有移动终端设备交互方式存在诸多局限，如键盘太小，输入文字不便；屏幕太小，阅读信息不便；以及无法处理特定场景下的交互，如开车和步行情形。语音技术是人机交互最自然的方式，可以给以上缺陷提供完美的解决方法，移动互联网对语音技术有着天然的需求。科大讯飞拥有全球领先的中文智能语音技术，多年来一直致力于研发将语音技术应用到千家万户，MSP（iFLY Mobile Speech Platform）便在此背景下诞生。通过MSP，移动互联网的终端用户可以随时随地的使用语音服务。语音技术带来品质生活，始终是MSP团队所坚持不懈的理念。 1.1主要功能 iFLY Mobile Speech Platform（以下简称MSP）是一个应用于移动互联网的语音服务平台，其主要目标是： 1) 实现可面向移动2G/3G网络及互联网提供语音服务的服务器，在现有科大讯飞电信级语音服务平台ISP基础上为移动终端应用程序提供多路并发的语音合成、语音识别、语音听写功能，通过架设在互联网的语音应用服务器，用户可以随时随地获得高质量的语音服务； 2) 实现基于移动终端以及桌面平台的语音应用客户端，提供统一的语音应用开发接口，通过该接口用户可以方便、快速地开发语音应用；同时，MSP也将开放一些基于移动以及桌面平台的语音应用，用于展示MSP语音服务平台的功能和使用方法，让用户直接体验到最新的语音技术； MSP最终提供了架构于互联网的语音云服务和一套移动互联网语音解决方案、应用示例，把语音服务的应用范围拓宽到移动互联网领域，为语音服务产品走向移动互联网市场开辟全新的应用模式。 MSP平台整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室在语音识别、语音合成等技术上多年的技术成果，语音核心技术上达到了国际领先水平。 MSP系统采用分布式架构，继承了科大讯飞成熟的电信级语音平台高稳定的特点，可以满足电信级应用的高可靠性、高可用性要求。针对传统语音应用集成开发困难，业务设计繁琐的问题，MSP产品大大简化了集成开发和业务开发的复杂度，为系统集成人员和业务开发人员提供了便捷、高效的开发环境。 1.2语音技术介绍语音是智能人机交互的最直接最便捷的手段，近些年来，语音正在日益影响和改变人们的日常生活。随着移动互联网时代的到来，移动终端由于本身输入手段的限制，语音技术带来的交互优势更加明显，可以大大提高移动终端的交互体验和交互效率。智能语音技术包含语音识别和语音合成技术，这两个技术使得终端具备了能听会说的能力。语音识别（Auto Speech Recognize，ASR）技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色，相当于给计算机系统安装上“耳朵”，使其具备“能听”的功能，进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。语音合成（Text To Speech，TTS）技术能够自动将任意文字实时转换为连续的自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。近年来，语音识别、语音合成等语音技术取得了长足的进步，科大讯飞语音技术历经20年不懈创新，自90年代中期以来，在历次的国内国外评测中，各项关键指标均名列第一。MSP移动语音平台是科大讯飞针对日益丰富多样的移动互联网应用需求，向移动互联网推出“即开即有、按需取用”的语音服务能力，为快速构建各种各样移动语音应用程序提供强大、稳定、易用的互联网动力引擎。 1.3系统架构 MSP讯飞语音云平台采用基于互联网的C/S架构，基本拓扑结构如下图：

单片机语音识别程序

最近想做语音识别玩玩,网上查了查,找到一个用Atmega32实现的语音识别机械车地址是:https://www.360docs.net/doc/eb2549374.html,/e ... h8_css34/index.html 貌似是利用带通滤波取得频谱(或者叫功率谱?),看不太懂.我决定用DFT 算法,因为它节约内存 DFT程序借借鉴了 hendry 单片机 DTMF 软解码算法的实现 https://www.360docs.net/doc/eb2549374.html,/forum.php?m ... &highlight=dtmf //-------------------------------------------------- //DFT运算 //注意，ad是有符号数，无符号的AD值需减128 //返回值为1表示已经计算了功率谱 //-------------------------------------------------- U8 dft(S8 ad) { U8 i; U8 offset;//查表指针 U32 temp; //ad-=128;//去直流分量 for(i=0;i>8; offset+=PI2/4;//偏移1/4周期为cos表 s_dft_real += (S16)ad * sintab[offset];//>>8;//cos表 tabp+=tabinc;//指针下移 } s_dft_p ++; if (s_dft_p == NSAMP) //采样点已达到设定值,计算功率 { s_dft_p = 0; //点数清0 for (i = 0; i < NFREQ; i ++)//每个频点计算功率 { s_dft_real/=NSAMP*6; //除以合适的值能使得功率在一字节内 s_dft_image/=NSAMP*6; temp=s_dft_real*s_dft_real + s_dft_image*s_dft_image; if(temp>65535)temp=65535; s_dft_real = sqrt16(temp);

基于STM32的嵌入式语音识别模块设计实现

基于STM32的嵌入式语音识别模块设计实现介绍了一种以ARM 为核心的嵌入式语音识别模块的设计与实现。模块的核心处理单元选用ST 公司的基于ARM Cortex-M3 内核的32 位处理器STM32F103C8T6。本模块以对话管理单元为中心，通过以LD3320 芯片为核心的硬件单元实现语音识别功能，采用嵌入式操作系统μC/OS-II 来实现统一的任务调度和外围设备管理。经过大量的实验数据验证，本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。服务机器人以服务为目的，因此人们需要一种更方便、更自然、更加人性化的方式与机器人交互，而不再满足于复杂的键盘和按钮操作。基于听觉的人机交互是该领域的一个重要发展方向。目前主流的语音识别技术是基于统计模式。然而，由于统计模型训练算法复杂，运算量大，一般由工控机、PC 机或笔记本来完成，这无疑限制了它的运用。嵌入式语音交互已成为目前研究的热门课题。嵌入式语音识别系统和PC 机的语音识别系统相比，虽然其运算速度和内存容量有一定限制，但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点，特别适用于智能家居、机器人及消费电子等领域。模块整体方案及架构语音识别的基本原理如图1 所示。语音识别包括两个阶段：训练和识别。不管是训练还是识别，都必须对输入语音预处理和特征提取。训练阶段所做的具体工作是通过用户输入若干次训练语音，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。而识别阶段所做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，然后把相似性最高的输入特征矢量作为识别结果输出。这

语音识别实验2

关于语音识别的研究网络工程专业网络C071班贾鸿姗 076040 摘要：语音识别技术的广泛应用 1前言：语音识别技术也被称为自动语音识别 (ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末，伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号特别是在中、高档移动电话上，现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低，普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制由于在汽车的行驶过程中，驾驶员的手必须放在方向盘上，因此在汽车上拨打电话，需要使用具有语音拨号功能的免提电话通信方式。此外，对汽车的卫星导航定位系统（GPS）的操作，汽车空调、照明以及音响等设备的操作，同样也可以由语音来方便的控制。工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下，在增加控制操作时，最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令，机器用语音做出应答。 2.1.3数字助理个人数字助理（Personal Digital Assistant，PDA）的语音交互界面。PDA的体积很小，人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便，因此，现多采用手写体识别的方法输入和查询信息。但是，这种方法仍然让用户感到很不方便。现在业界一致认为，PDA的最佳人机交互界面是以语音作为传输介质的交互方法，并且已有少量应用。随着语音识别技术的提高，可以预见，在不久的将来，语音将成为PDA主要的人机交互界面。智能玩具通过语音识别技术，我们可以与智能娃娃对话，可以用语音对玩具发出命令，让其完成一些简单的任务，甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力，而其关键在

基于单片机的语音识别系统毕业设计

基于单片机的语音识别系统毕业设计目录摘要..................................... 错误!未定义书签。Abstract ................................. 错误!未定义书签。目录..................................................... I 前言.. (1) 1 方案介绍及设计简介 (2) 1.1小车的控制要求及设计方案 (2) 1.1.1小车的控制要求 (2) 1.1.2方案设计与论证 (2) 1.2SPCE061A 简介 (3) 1.2.1SPCE061A单片机概述 (5) 1.2.2SPCE061A的介绍 (7) 1.2.3SPCE061A的结构 (7) 1.3SPCE061A 单片机强大的语音功能 (7) 1.3.1语音识别的原理 (8) 1.3.2系统的结构框图 (9) 1.4语音控制小车设计要求 (10) 1.4.1功能要求 (10) 1.4.2语音控制小车的主要功能 (10) 1.4.3参数说明 (10) 1.4.4注意事项 (10) 2电路设计及程序设计 (11) 2.1电路设计基础知识 (11) 2.2电路方框图及说明 (13) 2.3各部分电路设计 (13) 2.3.1电机的选择 (14)

2.3.2继电器驱动电路的设计 (14) 2.3.3行驶状态控制电路设计 (15) 2.3.4麦克录音输入及AGC电路 (16) 2.3.5语音播报电路 (18) 3软件设计 (19) 3.1软件流程图及设计思路说明 (19) 3.1.1程序设计 (20) 3.2模块设计 (20) 3.2.1中断流程图部分 (20) 3.2.2语音识别部分 (22) 4连接和操作说明 (25) 4.1硬件模块连接图 (25) 4.1.1功能说明 (25) 4.1.2代码下载 (26) 4.1.3训练小车 (27) 4.1.4声控小车 (28) 4.1.5重新训练 (28) 总结 (30) 致谢 (31) 参考文献 (32) 附件1 系统程序说明 (33)

基于STM32单片机的嵌入式语音识别系统设计

基于STM32单片机的嵌入式语音识别系统设计陈心灵1，钱宁博2，胡佳辉1，王战中1 （1.石家庄铁道大学机械工程学院，河北石家庄050043；2.石家庄铁道大学电气与电子工程学院，河北石家庄 050043）摘要：设计了一款以STM32F103为核心的自然语言识别系统，为满足实时语音识别系统对内存资源和运算速度的要求，基于硬件资源合理设计语音处理算法，在嵌入式平台上实现了对孤立词语的语音识别。首先根据背景噪声和语音信号的时域特征差异设定相应门限值，从而实现了对语音信号的端点检测。然后针对语音识别中传统梅尔倒谱系数对语音的高频信息敏感度较低，对语音信号分别提取梅尔倒谱系数(MFCC)与翻转梅尔倒谱系数(IMFCC)，结合Fisher 准则构造混合特征参数。最后采用动态时间规整算法实现语音识别。因系统体积小、便携性好等特点，易于实现对不同设备的语音控制，有一定的市场前景。关键词：语音识别；梅尔倒谱系数；翻转梅尔倒谱系数；Fisher 准则；动态时间规整算法；STM32F103 中图分类号：TP391.4 文献标识码：A 文章编号：1009－9492(2019)06－0135－03 Embedded Speech Recognition System Design Based on STM32F103 CHEN Xin-ling 1，QIAN Ning-bo 2，HU Jia-hui 1，WANG Zhan-zhong 1 （1.College of Mechanical Engineering ，Shijiazhuang Tiedao University ，Shijiazhuang 050043，China ； 2.College of Electrical and Electronic Engineering ，Shijiazhuang Tiedao University ，Shijiazhuang 050043，China ） Abstract:A natural language recognition system is designed based on STM32F103.To meet the requirements of real-time speech recognition system for memory resources and computing speed ，the speech processing algorithm is designed based on hardware resources and speech recognition of isolated words is implemented on the embedded platform.Firstly ，the corresponding threshold is set according to the time domain characteristic difference of the speech signal and the background noise and thereby realizing the endpoint detection of the speech signal.Concerning the traditional Mel Frequency Cepstral Coefficient (MFCC)in speech recognition is less sensitive to high frequency signals of speech ，MFCC and IMFCC (Inverted MFCC)are extracted respectively for the speech signal and the Fisher criterion is used to construct the mixed feature parameters.Dynamic time warping algorithm is used in speech recognition process.Due to the small size of the system and good portability ，it is easy to implement voice control for different devices and has much marker potential. Key words:speech recognition ；MFCC ；IMFCC ；Fisher criterion ；DTW ；STM32F103 收稿日期：2018－12－22 DOI:10.3969/j.issn.1009-9492.2019.06.045 0引言语音识别是人机交互很重要的模块，应用领域相当广阔。集成电路的快速发展使得将具有先进功能的语音识别系统固化到更加微小的芯片或模块上成为可能[1]，更便于语音识别系统的推广与使用，嵌入式语音识别技术开发变得更加有价值。本文设计一个基于STM32F103单片机的嵌入式语音识别系统，包括硬件设计和软件设计 [2-3] 。语音特征提取在传统梅尔倒谱系数基础上，运用Fisher 比结合梅尔倒谱系数与翻转梅尔倒谱系数，构建了混合特征参数[4]，识别算法采用动态时间规整算法。硬件设计上实现了语音信号采集、语音信号处理、语音信息存储、语音识别结果的显示等功能。 1系统硬件设计本系统主要由电源部分（LDO ）、主控（STM32F103）、语音采样电路、LCD 显示模块等组成，如图1所示。 1.1MCU 选择 STM32F103开发板基于Cortex-M3处理器，内置2个 12位模数转换器，2个DMA 控制器，共12个DMA 通道，其可以满足本系统中的语音处理需求。1.2采样电路采样电路选用差分放大电路，抑制共模干扰，放大有用信号，有效地解决采样噪声硬件预处理的问题。其原理图如图2。在设计过程中，其输出端（即Q1\Q2的C 极）静态工作点为1/2Vcc 最为适宜，能保障其最大动态输出范围。电路设计尽可能使Q1、Q2的静态工作参数一致，构成对称电路。图1系统硬件框图 Fig.1The system hardware block diagram · ·135

宝马中文声控语音识别控制系统

BMW中文声控系统声控启动语音控制支持方言专车专用宝马中文声控系统市场前景在庞大的汽车销量的基础上，车载语音系统已成为现代汽车的重要亮点之一，但是由于技术的局限性，国内车载语音系统的发展始终比较缓慢，在国外广泛发展的车载语音控制系统在国内却处于技术空白阶段。现在，Qdis-isods让这种情况得到了根本性的改变。 qdis品牌联合众多院校精英，由多名各领域资深人士参与研发，根据中国市场特点以及中国用户使用习惯进行特殊定制，成功推出Qdis-isods系列产品，为广大车主提供车载语音控制的解决方案和专业服务。加载Qdis-isods车载语音系统后，用户用自己的声音即可完成相关操作，而不再只是使用传统的指定命令。 Qdis-isods系列产品支持中国多种方言，声音识别准确率高并支持多人识别，一举攻克了之前的技术难题，让车载语音系统全面进入中国市场。以前需要手动操作的控制，现在您和爱车直接对话就能实现，而且还能语音识别并控制后装增配的产品，满足客户多种智能语音操作的需求。随着车联网技术的发展，汽车的互联性会越来越强，我们可以把语音技术扩展到除终端和嵌入式系统以外的所有设备上，从而完成更复杂的识别控制任务。我们依然在不断创新实践，以谋求更多的成功案例。 Qdis-isods车载语音系统可以完美支持各类车型，金鼓德达将以一贯优秀的无损加装技术，让您在驾驶生活中发现更多乐趣。QDIS-ISODS系列，爱车从此智能！一、BMW中文声控系统主要功能 1.语音识别启动引擎语音指令随时学习,支持所有方言,指令内容可以自由定义; 不影响原车启动键启动功能; 可以同时利用方向盘按键组合为密码启动; 语言指令和方向盘密码可以任意修改; 2.语音指令控制原车语音指令随时学习,支持所有方言,指令内容可以自由定义;

盘点语音识别芯片原厂、方案、平台

语音识别芯片所涉及的技术包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别分类按照使用者的限制而言，语音识别芯片可以分为特定人语音识别芯片和非特定人语音识别芯片。特定人语音识别芯片是针对指定人的语音识别，其他人的话不识别，须先把使用者的语音参考样本存入当成比对的资料库，即特定人语音识别在使用前必须要进行语音训练，一般按照机器提示训练2遍语音词条即可使用。非特定人语音识别是不用针对指定的人的识别技术，不分年龄、性别，只要说相同语言就可以，应用模式是在产品定型前按照确定的十几个语音交互词条，采集200人左右的声音样本，经过PC算法处理得到交互词条的语音模型和特征数据库，然后烧录到芯片上。应用这种芯片的机器(智能娃娃、电子宠物、儿童电脑)就具有交互功能了。非特定人语音识别应用有的是基于音素的算法，这种模式下不需要采集很多人的声音样本就可以做交互识别，但是缺点是识别率不高，识别性能不稳定。语音识别基本原理嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理，包括语音信号的采样、反混叠滤波、语音增强，接下来是特征提取，用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。特征提取之后的数据一般分为两个步骤，第一步是系统"学习"或"训练"阶段，这一阶段的任务是构建参考模式库，词表中每个词对应一个参考模式，它由这个词重复发音多遍，再经特征提取和某种训练中得到。第二是"识别"或"测试"阶段，按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度，最匹配的就是识别结果。语音识别四大平台 1、科大讯飞科大讯飞股份有限公司成立于1999年，是一家专业从事智能语音及语言技术、人工智能技术研究，软件及芯片产品开发，语音信息服务及电子政务系统集成的国家级骨干软件企业。2008年，科大讯飞在深圳证券交易所挂牌上市，股票代码：002230。 11月23日科大讯飞轮值总裁胡郁在发布会上引述了罗永浩在9 月锤子发布会上的演示数据，表示科大讯飞的语音输入识别成功率也达到了97%，即使是离线识别准确率也达到了95%。 2、云知声云知声成立于2012年6月。之前1年，Siri的发布再度唤醒了大家对语音识别的关注。经过四年多的积累，云知声的合作伙伴数量超过2万家，覆盖用户超过1.8亿，其中语音云平台覆盖城市超过470个，覆盖设备超过9000万台。 3、百度百度则在11月22日宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。百度语音开放平台自2013 年10 月上线以来每日在线语音识别请求已经达到了1.4 亿次，开发者数量超过14 万。在如此庞大的数据支撑下，百度语音在“安静条件下”的识别准确率达到了97%。4、搜狗搜狗语音团队在11 月21 日推出了自己的语音实时翻译技术。搜狗的这项技术主要包括两个方面，分别是语音识别和机器翻译。根据该团队的介绍，搜狗语音识别的准确率达到了97%，支持最快400 字每秒的听写。语音识别芯片原厂及芯片方案 1、ICRoute 总部：上海简介：ICRoute专注于开拓语音识别的芯片市场,致力于研发出高性能的语音识别，语音处理芯片。为各种平台的电子产品提供VUI（Voice User Interface）语音人机交互界面。目前提供的语音识别芯片，可以在

用于智能家居语音识别系统设计

仪器科学与电气工程学院本科毕业论文（设计）开题报告题目：用于智能家居的语音识别系统设计学生姓名：学号：专业：电气工程及其自动化指导教师：讲师 2015年1月3日

1. 选题依据 1.1选题背景语言作为人类信息交流中最重要的和最方便的方式,人与机器的交流能否像人与人一样自如,是人们研究的问题。控制论创始人维纳在1950年就曾指出:“通常,我们把语言仅仅看作人与人之间的通信手段,但是,要使人向机器,机器向人以及机器向机器讲话,那也是完全办得到的”。随着现代科学技术的进一步发展和人民生活水平不断的提高,人们对家庭住宅需求的概念也发生了彻底的改变。人们正在从以往追求房屋空间的宽阔和装饰的亮丽、豪华,向着追求品味、安全、舒适、便捷和智能方向发展。现在的家庭不仅要满足人们生活、工作、娱乐和交流的需要,同时还可以提供充分的安全防护、物业管理等手段。智能家居是建筑艺术、生活理念与信息技术、电子技术等现代高科技手段完美结合的产物,它的出现满足了人们对住宅高性能、智能化的要求21世纪信息时代的到来,IT产业的发展和人们生活水平的提高,“智能家居”、“家庭自动化”、“网络家电”、“家庭网络”等技术的推动,智能家居的生活已经近在咫尺。在智能家居中传统的家用电器的控制,无外乎两种控制方式:手动或遥控。随着家用电器的增多,开关和遥控越来越多,使用极不方便。这时,我们可以釆用语音识别的方式控制,例如,在观看电视频道时,我们可以很方便地直接说出“中央一套”来,所以语音识别及控制在智能家居中尤其重要。 1.2国内外研究现况 1、语音识别技术的发展就技术而言，目前国内外对语音识别理论及各种实用算法的研究是一热点。人们普遍关心的问题是不断提高语音识别的识别率、识别更多的词汇量、扩大语音识别的应用等研究。语音识别技术发展到今天，PC 机的语音识别系统己经趋于成熟，而且还出现了一些具有实用价值和市场语音识别前景的语音识别芯片。近几年来，个人消费类电子产品的广泛使用，使大量的识别系统从实验室 PC 平台转移到嵌入式平台设备中，现在嵌入式对特定人语音识别系统的识别精度己经达到 98%以上。嵌入式语音识别系统和 PC 机的语音识别系统相比，虽然其运算速度和内存容量有一些限制，但是它也有各自的特点。嵌入式系统体积小、可靠性高、耗电低、投入小、便于移动等优点，是嵌入式语音识别系统和 PC 机的语音识别系统相比的最大优势。而且嵌入式语音识别系统多为实时系统，当用户讲话后，系统能够立即完成词条识别并作出反应。这些特点决定了嵌入式语音识别系统的应用十分广泛。可以预测在近几年内，嵌入式语音识别系统的应用将更加广泛。各种语音识别系统将出现在市场上。根据美国专家预测，具有语音识别功能的产品可达 50 亿美元。在短期内还不可能具

用单片机实现语音控制机器人

用单片机实现语音控制机器人制作人：潘磊pb02023035 卢恒pb02006088 题目：用凌阳单片机实现语音识别功能并传递给PIC单片机信号，由PIC单片机控制机器人实现动作关键字：PIC单片机，凌阳单片机，语音控制单片机在现今生活中占有越来越重要的地位，用语音控制单片机实现控制更具有广泛的应用价值。用语音控制舞蹈机器人做一些动作是我们这次实现的功能，虽然这在语音控制方面仍处于起步阶段，但他体现了语音控制的原理和基本实现，也为更高级的运用打下了基础。原理：１．语音识别原理语音识别电路基本结构如上图所示：语音识别分为特定发音人识别（Speaker Dependent）和非特定发音人识别（Speaker Independent）两种方式。特定发音人识别是指语音样板由单个人训练，对训练人的语音命令识别准确率较高，而其他人的语音命令识别准确率较低或不识别。非特定发音人识别：是指语音样板由不同年龄、不同性别、不同口音的人进行训练，可以识别一群人的命令。语音样板的提取非常重要。我们将标准模式的存储空间称之为“词库”，而把标准模式称之为“词条”或“样板”。所谓建立词库，就是将待识别的命令进行频谱分析，提取特征参数作为识别的标准模式。识别过程首先要滤除输入语音信号的噪音和进行预加重处理，提升高频分量，然后用线性预测系数等方法进行频谱分析，找出语音的特征参数作为未知模式，接着与预先存储的标准模式进行比较，当输入的未知模式与标准模式的特征相一致时，便被机器识别，产生识别结果输出。如果输入的语音与标准模式的特征完全一致固然好，但是语音含有不确定因素，完全一致的条件往往不存在，事实上没有人能以绝对相同的语调把一个词说两遍，因此，预先制定好计算输入语音的特征模式与各特征模式的类似程度，或距离度的算法规则固化在ROM

基于语音识别技术的智能家居控制系统的设计

基于语音识别技术的智能家居控制系统的设计基于语音辨认技术的智能家居控制系统的设计摘要 21 世纪经济快速发展，人们对物资文化的需求也愈来愈高。在信息科技的支持下，事物在朝着简单化、便捷化、智能化的方向发展。在此背景下应运而生而生的智能家居，正是信息时期的典型产物。本文设计了1套基于语音辨认技术的智能家居控制系统，能够在客户端输入语音信号，完成对家居装备的控制，使得家居装备更加智能化。本文首先对语音辨认的相干理论知识进行了详细的论述，利用麻省理工学院（Massachusetts Institute of Technology, MIT）语音服务器完成对语音信号的特点提取和辨认进程，并且该服务器内有自动的高频噪声滤波器，避免声音信号产生失真现象。其次Zigbee模块完成了数据传输的功能，能够在网络拓扑较为稳定的家居环境中实现对数据的传输，消耗的功率下降，本钱也较低。最后基于安卓手机到达控制家具的目的，在手机客户端输入语音信号以后，服务器将翻译出来的语音信息传递给后台，由手机通过无线网络传递给家居装备，从而到达传递控制指令的目的。最后本文在测试阶段对本文设计的基于语音辨认技术的智能家居控制系统进行了性能测试，测试结果良好，能够到达预期的目标。关键词：智能家居；语音辨认；控制系统 Abstract With the rapid development of the economy in the 21st century, people＇s demand for material culture is also increasing. With the support of information technology, things are developing in the direction of simplification, convenience and intelligence. The smart home that emerged in this context is

语音识别助手本科摘要

摘要随着科学技术水平的不断提高，社会文明的不断进步，人类对生活质量的追求也越来越高。智能手机的兴起，使终端应用成为高新技术的发展平台.苹果公司的Siri将语音识别技术投入到智能手机中，引发了人机交互语音识别技术的热潮。语音是人类相互交流中最直接有效的沟通方式，与键盘，鼠标这些输入设备相比，语音是最自然的输入方式。从上世纪五十年代开始，到现在语音识别技术有了长足的发展，移动终端设备的发展迫使人们把语音识别实验室技术引入到生活中。本系统基于科大讯飞的MSC，采取面向对象的的方法，以统一建模语言（UML)为分析设计语言,对系统进行分析与设计。通过设计Android语音助手，旨在帮助用户更好的与机器交互，并且通过使用“语音“这个生活中直接存在的交流沟通方式来帮助用户改善生活方式和习惯，让用户拥有一个可对话的语音助手。本系统针对可行性研究，需求分析，概要设计，详细设计以及系统测试等情况进行了详细介绍。通过合理的模块划分，该系统实现了语音语义识别模块，播放音乐模块，打电话、发短信模块，地图模块，查询模块，语音合成模块。系统明确了各模块的分工，降低了各模块之间的耦合度，提高模块间的沟通效率。关键词：语音识别、Android、人机交互、面向对象

Abstract With the development of science and technology, the continuous progress of social civilization, people’s pursuit to life quality is higher and higher. The rise of intelligent mobile phone makes terminal applications become a platform for high-tech. For example, the Siri of Apple applies speech recognition technology to intelligent mobile phones, which has triggered the boom of human-computer interaction speech recognition technology. Compared with such input devices as keyboard and mouse, voice is the most direct and effective communication way and the most natural input way. Speech recognition technology has been developed a lot since the 50s of last century. Also, with the development of mobile terminal devices, laboratory speech recognition technology has been introduced to daily life. Based on the MSC of iFLYTEK, this system is analyzed and designed through object-oriented method with unified modeling language (UML). The Android speech assistant is aimed to help users for better human-computer interaction and to improve users’ lifestyles and habits through voice—the direct communication way in our life. It allows users to have a communicable speech assistant. This system introduces such cases as feasibility study, requirement analysis, preliminary design, detailed design and system test in detail. Through reasonable module division, it reduces the coupling degree and improves the communication efficiency among modules with clear module division by implementing speech and semantic recognition module, music-play module, phone-call and SMS module, map module, query module and speech synthesis module. Keywords: speech recognition, android, human-computer interaction, object-oriented

设计和实现一个嵌入式自动语音识别

设计和实现一个嵌入式自动语音识别系统 sujay Phadke Rhishikesh Limaye亚洲时报Siddharth维尔马 Kavitha Subramanian 孟买印度技术研究所电机工程学系个人所得税孟买Powai，孟买，400076，印度。 {sujay，rhishi，亚洲时报Siddharth kavitha}@ ee.iitb.ac.in 摘要我们提出了一个新的嵌入式语音识别系统的设计。它结合了硬件和软件设计等方面实现依赖扬声器，孤立词，小词汇量语音识别系统。是基于规模的修正Mel频率倒谱系数（MFCC）特征提取和模板匹配采用动态时间规整（DTW）的。一种新的算法已经被用来改善一个字开始检测。围绕行业标准TMS320LF2407A的DSP硬件。作为一个通用的DSP24X系列的TI DSP 开发板电路板设计。据载，除了从DSP，外部SRAM，闪存，ADC接口的I / O接口模块和JTAG 接口。无论是硬件和软件已设计的同时，最小功率最大精度和便携式设备，以便实现高速识别。建议的解决方案是一个低成本，高性能，可伸缩的替代现有的其他产品。 1.介绍语音识别一直是一个活跃的研究领域多年。随着超大规模集成电路技术，高性的编译器的进步，它已成为可能纳入这些算法在硬件。在过去的几年中，各系统已开发，以满足各种应用。有许多的ASIC解决方案，提供小型，高性能系统。然而，这些患有低的灵活性和较长的设计周期。一个完整的基于软件的解决方案是为桌面应用程序的吸引力，但未能提供一个便携式，嵌入式解决方案。高端的公司如TI，ADI公司的数字信号处理器（DSP）的，提供一个理想的平台，在硬件的开发和测试算法。 C编译器，模拟器和调试器之类的先进的软件工具提供了一种简单的方法，优化算法和减少市场的时间。然而，为了获得最大的优势，硬件和软件都必须设计在手。语音识别是任何扬声器独立或依赖[1]。独立扬声器模式涉及提取讲话是在口语中所固有的那些特点。这一类的算法一般比较复杂，并利用统计模型和语言模型。另一方面，扬声器依赖模式涉及讲话中提取用户特定的功能。必须为每个用户创建一个词提取系数的模板进行匹配，以确定口语。此外，使用孤立的单词，而不是一个复杂连续的话，有助于提高准确性承认。我们的工作涉及扬声器依赖性，孤立词语音识别系统的发展。该系统是能够认识到口语词，从10-15字的模板。它具有较高的识别精度和适度抑制比。本文组织如下。第二节处理软件的一部分。它解释了背后的梅尔倒频谱系数提取和动态时间规整技术，应用的基础上形成的理论。第三节介绍了定制硬件开发此应用程序设计有关的各种问题。 C代码的DSP平台的软件优化和移植在第四节进行了讨论。结果和比较在部分解释五，最后，我们的结论第六节系统的应用潜力。 2。软件本节介绍软件方面使用的语音识别引擎。 MFCC的理论是解释其实施。还提出了由作者开发的一种新的开始检测和错一个字抑制算法。它的结论与动态规整（DTW），确认使用的模板匹配算法。 2.1。特征提取 - 梅尔规模的频率倒谱系数（MFCC）