Q博士语音识别机器人制作

Q博士语音识别机器人制作
Q博士语音识别机器人制作

语音识别机器人制作

编辑:robotain 来源:网络2009-12-06 发表评论

方案简介说明书

1 方案概述

语音识别机器人可以充分发挥学生的创新能力,增加学生的动手实践能力,增加学生学习单片机的兴趣爱好。本方案以SPCE061A 单片机为核心,改装市场上的玩具机器人,使改装后的机器人具有语音识别能力,根据识别的语音完成跳舞等动作,这也是智能机器人的一个方面。

1.1 设计要求

利用SPCE061A 单片机、机器人机体(包括2 个用于走路的电机、1 个用于头部旋转的电机、1 个用于加速1 个用于弹射的电机等),要求语音识别机器人具有下述功能:

1. 通过语音命令对其进行控制。

2. 两种跳舞模式。

3. 走步功能、转向功能、转头功能。

4. 发射飞盘功能。

1.2 技术要求

1. 要求语音识别机器人可以识别15 条命令。

2. 要求语音识别机器人具有2 种跳舞模式。

2 方案设计简介

2.1 硬件框图

系统以SPCE061A 为核心,结合机器人机体,如下图所示。

2.2 功能框图

SPCE061A 应用方案

SPCE061A 在语音识别机器人中的应用

在现代社会机器人这个词语已经不再新鲜,而且形形色色的机器人出现在我们的日常生活中。为了提高广大单片机爱好者学习单片机的兴趣与爱好,凌阳科技大学计划教育推广中心推出了应用SPCE061A 控制的兴趣产品语音识别机器人,本文对语音识别机器人的软硬件制作进行介绍。

1 引言

为了提高广大单片机爱好者学习单片机的兴趣,凌阳科技大学计划教育推广中心推出了应用SPCE061A 作为主控制器,外加电机驱动电路制作的语音识别机器人。该机器人采用特定人语音识别对机器人进行控制,可以完成向前走、倒退、左转、右转、跳两首舞曲、向左瞄准、向右瞄准、发射、连续发射等功能。该语音识别机器人可以大大提高在校学生学习单片机的兴趣。

2 设计要求

2.1 设计要求

利用SPCE061A 单片机、机器人机体(包括2 个用于走路的电机、1 个用于头部旋转的电机、1个用于加速1 个用于弹射的电机等),要求语音识别机器人具有下述功能:

通过语音命令对其进行控制。

两种跳舞模式。

走步功能、转向功能、转头功能。

发射飞盘功能。

2.2 技术要求

要求智能机器人可以识别15 条命令。

要求智能机器人具有2 种跳舞模式。

模组特性简介

3.1 SPCE061A 特性简介

SPCE061A 是凌阳科技研发生产的性价比很高的一款十六位单片机,使用它可以非常方便灵活的实现语音的录放系统,该芯片拥有8 路10 位精度的ADC,其中一路为音频转换通道,并且内置有自动增益电路。这为实现语音录入提供了方便的硬件条件。两路10 精度的DAC,只需要外接功放(SPY0030A)即可完成语音的播放。另外凌阳十六位单片机具有易学易用的效率较高的一套指令系统和集成开发环境。在此环境中,支持标准C 语言,可以实现C 语言与凌阳汇编语言的互相调用,并且,提供了语音录放的库函数,只要了解库函数的使用,就会很容

易完成语音录放,这些都为软件开发提供了方便的条件:SPCE061A 片内还集成了一个ICE(在线仿真电路)接口,使得对该芯片的编程、仿真都变得非常方便,而ICE 接口不占用芯片上的硬件资源,结合凌阳科技提供的集成开发环境(unSP IDE)用户可以利用它对芯片进行真实的仿真;而程序的下载(烧写)也是通过该接口进行下载。

下图为SPCE061A 单片机的内部结构框图:

3.2 芯片特性简介

SPCE061A 性能简介:

z 16 位u’nSP 微处理器

z 工作电压(CPU)VDD 为3.0~3.6V,(I/O)VDDH 为3.0~5.5V

z CPU 时钟:0.32~49.152MHz

z 内置2K 字SRAM

z 内置32K 字FLASH

z 可编程音频处理

z 晶体振荡器

z 系统处于备用状态下(时钟处于停止状态),耗电仅为2uA/3.6V

z 2 个16 位可编程定时器/计数器(可自动预置初始计数值)

z 2 个10 位DAC(数/模转换)输出通道

z 32 位通用可编程输入/输出通道

z 14 个中断源可来自定时器A/B、时基、2 个外部时钟源输入和键唤醒

z 具备触键唤醒的功能

z 使用凌阳音频编码SACM_S480 可以播放压缩的语音资源

z 锁相环PLL 振荡器提供系统时钟信号

z 32768Hz 实时时钟

z 7 通道10 位电压模/数转换器(ADC)和单通道声音模/数转换器

z 声音模/数转换器输入通道内置麦克风放大器,并具有自动增益控制(AGC)功能

z 具备串行设备接口

z 具备低电压复位功能和低电压检测功能

z 内置在线仿真电路接口

z 具有WatchDog 功能

3.3 SPCE061A 精简开发板

SPCE061A 精简开发板(简称61 板),是以凌阳16 位单片机SPCE061A 为核心的精简开发-仿真-实验板,大小相当于一张扑克牌,是“凌阳科技大学计划”专为大学生、电子爱好者等进行电子实习、课程设计、毕业设计、电子制作及电子竞赛所设计的,也可作为单片机项目初期研发使用。61 板除了具备单片机最小系统电路外,还包括有电源电路、音频电路(含MIC 输入部分和DAC 音频输出部分)、复位电路等,采用电池供电,方便学生随身携带!!!使学生在掌握软件的同时,熟悉单片机硬件的设计制作,锻炼学生的动手能力,也为单片机学习者和开发者创造了一个良好的学习条件和开发新产品的机会!

61 板上有调试器接口(Probe 接口)以及下载线(EZ_Probe)接口,分别可接凌阳科技的在线调试器、简易下载线,配合unSP IDE,可方便地在板上实现程序的下载、在线仿真调试。

61 板上的主要功能模块如下:

SPCE061A 单片机最小系统外围电路模块;

电源输入模块;

音频电路(包含MIC 输入、DAC 音频功放输出)模块;

按键模块;

I/O 端口接口模块;

调试、下载接口模块;

下图为61 板的实物图:

3.4 机器人模组简介

3.4.1 机器人驱动电路图

机器人驱动电路图如所示:

机器人驱动电路采用功率较大的三极管搭成H 桥来驱动电机,可以实现电机的正向旋转与电机的反向旋转。这些电机包括2 个用于走路的电机与一个头部转向的电机。另外用了一个三极管驱动单向旋转的电机,包括加速电机与发射电机,驱动电路比较简单。

3.4.2 主要功能

通过语音命令对其进行控制;

可以跳两首舞曲;

走步功能、转向功能、转头功能;

发射飞盘功能;

3.4.3 机器人实物图

3.4.4 注意事项

机器人在发射飞盘时不要面向人,避免受伤

机器人要轻拿轻放应该避免摔打

在安装电池时注意正负极,否则容易烧坏机器人电机或主控制板

4 系统总体方案介绍

用61 板来控制机器人,使用了IOB7-IOB15 资源,另外使用了扬声器。如图 4-1 所示:

61 板与机器人连线图,如图 4-2 所示:

系统主要由61 板与机器人驱动电路构成。61 板作为整个系统的主控板,驱动电路驱动电机。在主控板61 板的控制下完成各个动作。另外增加了特定人语音识别的功能,通过命令来控制机器人,使机器人智能化。

5 系统的硬件设计

5.1 SPCE061A 周边模块

5.1.1 SPCE061A 最小系统

SPCE061A 最小系统当中,包括SPCE061A 芯片外围的基本模块,有:晶振输入模块(OSC)、锁相环外围电路(PLL)、复位电路(RESET)、指示灯(LED)等,如下图所示。

本系统,有关SPCE061A 单片机的最小系统的各个模块都做在61 板当中,读者可以查阅61 板的电路原理图。

5.1.2 电源模块

SPCE061A 的内核供电为3.3V,而I/O 端口可接3.3V 也可以接5V,所以在电源模块(61 板上)中有一个端口电平选择跳线,如图中的J5,下图为61 板上的电源模块图。

由于本系统需要的端口高电平为5V,所以图图 5-2 当中的J5 跳线需要跳到1 和2 上。

5.1.3 放音模块

交通灯换向时有语音提示。放音利用的是SPCE061A 内部的DAC,电路如图 5-3 所示。图中的SPY0030是凌阳公司的产品。和LM386 相比,SPY0030 还是比较有优势的,比如LM386 工作电压需在4V 以上,而SPY0030 仅需2.4V (两颗电池)即可工作;LM386 输出功率100mW 以下,SPY0030 约700mW。其他特性请参考SPY0030 的数据手册。

5.1.4 机器人硬件驱动电路

机器人硬件原理图如图 5-4 所示:

机器人驱动电路采用功率较大的三极管搭成H 桥来驱动电机,可以实现电机的正向旋转与电机的反向旋转。这些电机包括2 个用于走路的电机与一个头部转向的电机。另外用了一个三极管驱动单向旋转的电机,包括加速电机与发射电机,驱动电路比较简单。

6 所用语音算法介绍

6.1 语音识别算法简介

6.1.1 语音识别概述:

根据对说话人的依赖程度,分为:

z 特定人语音识别(SD):只能辨认特定使用者的语音,训练->使用

z 非特定人语音识别(SI):可辨认任何人的语音,无须训练

根据对说话方式的要求,分为:

z 孤立词识别:每次只能识别单个词汇

z 连续语音识别:用者以正常语速说话,即可识别其中的语句

6.1.2 语音识别原理

语音识别原理参看下图:

6.1.3 SPCE061A 实现语音识别的步骤

SPCE061A 实现语音识别的步骤,分为训练部分与识别部分,以及在训练、识别过程中中断的情况,参考下图:

6.1.4 语音识别API 介绍

BSR_InitRecognizer(int AudioSource);

初始化识别器

BSR_Train(int WordID,int TrainMode);

语音训练

BSR_DeleteSDGroup(int SDGroupNo);

清除内存

BSR_PauseRecognizer()

暂停识别,但不释放中断等资源

BSR_ResumeRecognizer()

恢复被暂停的识别

BSR_GetRecognizerScore()

获得识别结果的可信度,返回值从-4096 到4096,数值越大表示输入语音与特征模型的匹配度越高。

BSR_EnableCPUIndicator()

开启CPU 状态监测功能。开启该功能后,IOA0 和IOA1 将发出每16ms 电平变化一次的方波。

BSR_DisableCPUIndicator()

关闭CPU 状态监测功能。

BSR_ExportSDWord(int CommandID)

使用函数库时,会自动创建一个100 Word 的数组BSR_SDModel[100],可以把某条训练命令的特征模

型数据导出到这个数组中。

BSR_ImportSDWord(int CommandID)

可以把BSR_SDModel 数组中的数据导入为某条语音命的特征模型。

unsigned int BSR_SDModel[];

配合BSR_ExportSDWord(int CommandID)与BSR_ImportSDWord(int CommandID)函数使用,此数组的作用相当于一个暂时的存储区。

6.2 凌阳音频概述

语音处理大致可以分为A/D 采样输入、编码处理、存储、解码处理以及D/A 等;

SPCE061 解决方案:

将A/D、编码算法、解码算法、存储及D/A 作成相应的模块,对于每个模块都有其应用程序接口API,用户只需了解每个模块所要实现的功能及其参数的内容,然后调用该API 函数即可实现语音处理功能。

6.2.1 凌阳音频压缩算法的编码标准

表 6-1 是不同音频质量等级的编码技术标准(频响):

凌阳音频压缩算法处理的语音信号的范围是200Hz-3.4KHz 的电话话音。

6.2.2 压缩分类

压缩分无损压缩和有损压缩。

无损压缩一般指:磁盘文件,压缩比低:2:1~4:1。

而有损压缩则是指:音/视频文件,压缩比可高达100:1。

凌阳音频压缩算法根据不同的压缩比分为以下几种(具体可参见语音压缩工具一节内容):

SACM-A2000:压缩比为8:1,8:1.25,8:1.5

SACM-S480:压缩比为80:3,80:4.5

SACM-S240:压缩比为80:1.5

按音质排序:A2000>S480>S240

6.2.3 凌阳常用的音频形式和压缩算法

1) 波形编码:sub-band 即SACM-A2000

特点:高质量、高码率,适于高保真语音/音乐。

2) 参数编码:声码器(vocoder)模型表达,抽取参数与激励信号进行编码。如:SACM-S240。

特点:压缩比大,计算量大,音质不高,廉价!

3) 混合编码:CELP 即SACM-S480

特点:综合参数和波形编码之优点。本方案采用该编码方式。

除此之外,还具有FM 音乐合成方式即SACM-MS01。

6.2.4 凌阳语音的播放、录制、合成和辨识

凌阳的SPCE061A 是16 位单片机,具有DSP 功能,有很强的信息处理能力,最高时钟频率可达到49MHz,具备运算速度高的优势等等,这些都无疑为语音的播放、录放、合成及辨识提供了条件。凌阳压缩算法中SACM_A2000、SACM_S480、SACM_S240 主要是用来放音,可用于语音提示,而DVR 则用来录放音。对于音

乐合成MS01,该算法较繁琐,而且需要具备音乐理论、配器法及和声学知识,

所以对于特别爱好者可以到我们的网站去了解相关内容,这里只给出它的API 函数介绍及程序代码的范例,仅供参考。

6.2.5 常用的应用程序接口API 的功能介绍及应用

表 6-2 所列出的是凌阳音频的几种算法。

语音和音乐与我们的生活有着非常密切的关系,而单片机对语音的控制如录放音、合成及辨识也广泛应用在现实生活中。我们知道对于语音处理大致可以分为 A/D、编码处理、存储、解码处理以及D/A 等。然而,通过麦克风输入所生成的WAVE 文件,其占用的存储空间很大,对于单片机来说想要存储大量的信息显然是不可能的,而凌阳的SPCE061A 提出了解决的方法,即SACM-LIB,该库将A/D、编码、解码、存储及D/A 作成相应的模块,对于每个模块都有其应用程序接口API,所以您只需了解每个模块所要实现的功能及其参数的内容,然后调用该API 函数

即可实现该功能,例如在程序中插入语音提示,或连续播放一段语音或音乐,也可以根据自己需要的空间或使用范围选择适合自己的算法。以下就SACM- S480 算法具体介绍其API 函数的格式、功能、参数、返回值、备注。(其它算法可以见附录)该压缩算法压缩比较大80:3, 存储容量大,音质介于A2000 和S240 之间,适用于语音播放, 如“文曲星”词库等,所以我们这个方案就采用了该算法。(只介绍程序中用到的函数,其他API 函数参考凌阳科技大学计划网站)

其相关API 函数如下所示:

1)【API 格式】C:int SACM_S480_Initial(int Init_Index)

ASM:R1=[ Init_Index]

Call F_ SACM_ S480_Initial

【功能说明】 SACM_S480 语音播放之前的初始化。

【参数】 Init_Index=0 表示手动方式;Init_Index=1 则表示自动方式。

【返回值】 0:代表语音模块初始化失败

1:代表初始化成功。

【备注】该函数用于对定时器、中断和DAC 等的初始化。

2) 【API 格式】 C:void SACM_S480_ServiceLoop(void)

ASM:Call F_ SACM_S480_ServiceLoop

【功能说明】从资源中获取SACM_S480 语音资料,并将其填入解码队列中。

【参数】无。

【返回值】无。

【备注】播放语音文件中数据,当出现FF FF FFH 数据时便停止播放。

3) 【API 格式】C:int SACM_S480_Play(int Speech_Index, int Channel, int Ramp_Set);

ASM:R1=[ Speech _Index]

R2=[ Channel]

R3=[ Ramp_Set]

Call SACM_S480_Play

【功能说明】播放资源中SACM_S480 语音。

【参数】 Speech _Index 表示语音索引号。

Channel:

1.通过DAC1 通道播放;

2.通过DAC2 通道播放;

3.通过DAC1 和DAC2 双通道播放。

Ramp_Set:

0.禁止音量增/减调节;

1.仅允许音量增调节;

2.仅允许音量减调节;

3.允许音量增/减调节。

【返回值】无。

【备注】

① SACM_S480 的数据率有4.8Kbps\7.2Kbps 三种,可在同一模块的几种算法中自动选择一种。

②Speech_Index 是定义在resource.inc 文件中资源表

(T_SACM_S480_SpeechTable)的偏移地址。

③中断服务子程序中F_FIQ_Service_ SACM_S480 必须放在TMA_FIQ 中断向量上(参见SPCE 的中

断系统)。

④函数允许TimerA 以所选的的数据采样率(计数溢出)中断。

4)【API 格式】ASM:Call F_FIQ_Service_ SACM_S480

【功能说明】用作SACM_S480 语音背景程序的中断服务子程序。通过前台子程序(自动方式的

SACM_S480_ServiceLoop 及手动方式的SACM_S480_Decode)对语音资料进行解码,然后将其送入DAC

通道播放。

【参数】无。

【返回值】无。

【备注】SACM_S480 语音背景子程序只有汇编指令形式,且应将此子程序安置在TMA_FIQ 中断源上。

7 系统软件设计

在主函数中调用相关函数完成特定人语音的训练,然后再训练成功后进行语音识别,根据识别的命令执行相关的操作。程序流程图如图 7-1 所示:

判断是否为第一次下载根据FLASH 中的标志位来进行判断。将训练好的语音模型导出存储到FLASH中使用库函数BSR_ExportSDWord(uiCommandID);进行操作,然后再调用读写FLASH 中的函数进行。在

进行语音识别时,首先读取FLASH 将语音模型取得,然后调用

BSR_ImportSDWord(uiCommandID);函数将语音资源载入内存。在识别出命令后,执行相关动作,相关动作操作就是操作电机的正向或反向旋转同时配合延时与播放声音组合起来形成不同的动作。

7.1 擦除Flash 模块

在程序中按照操作SPCE061A 的flash 的步骤擦写flash,在程序中写成3 个函数用于操作flash,如下:

F_FlashWrite1Word()

语法:void F_FlashWrite1Word(int addr,int Value)

描述:写一个字到FLASH 中

参数:1、被写数据的存储地址

2、被写数据

返回:无

F_FlashWrite()

语法:F_FlashWrite(int sector,int &num,int size)

描述:顺序写多个字

参数:1、被写数据的起始地址

2、被写数据

3、写数据的数量

返回:无

F_FlashErase()

语法:void F_FlashErase(sector)

描述:擦除256 字节

智能机器人的语音识别

智能机器人的语音识别 语音识别概述 最近,由于其重大的理论意义和实用价值,语音识别已经受到越来越多的关注。到现在为止,多数的语音识别是基于传统的线性系统理论,例如隐马尔可夫模型和动态时间规整技术。随着语音识别的深度研究,研究者发现,语音信号是一个复杂的非线性过程,如果语音识别研究想要获得突破,那么就必须引进非线性系统理论方法。最近,随着非线性系统理论的发展,如人工神经网络,混沌与分形,可能应用这些理论到语音识别中。因此,本文的研究是在神经网络和混沌与分形理论的基础上介绍了语音识别的过程。 语音识别可以划分为独立发声式和非独立发声式两种。非独立发声式是指发音模式是由单个人来进行训练,其对训练人命令的识别速度很快,但它对与其他人的指令识别速度很慢,或者不能识别。独立发声式是指其发音模式是由不同年龄,不同性别,不同地域的人来进行训练,它能识别一个群体的指令。一般地,由于用户不需要操作训练,独立发声式系统得到了更广泛的应用。所以,在独立发声式系统中,从语音信号中提取语音特征是语音识别系统的一个基本问题。 语音识别包括训练和识别,我们可以把它看做一种模式化的识别任务。通常地,语音信号可以看作为一段通过隐马尔可夫模型来表征的时间序列。通过这些特征提取,语音信号被转化为特征向量并把它作为一种意见,在训练程序中,这些意见将反馈到HMM的模型参数估计中。这些参数包括意见和他们响应状态所对应的概率密度函数,状态间的转移概率,等等。经过参数估计以后,这个已训练模式就可以应用到识别任务当中。输入信号将会被确认为造成词,其精确度是可以评估的。整个过程如图一所示。 图1 语音识别系统的模块图

3、理论与方法 从语音信号中进行独立扬声器的特征提取是语音识别系统中的一个基本问题。解决这个问题的最流行方法是应用线性预测倒谱系数和Mel频率倒谱系数。这两种方法都是基于一种假设的线形程序,该假设认为说话者所拥有的语音特性是由于声道共振造成的。这些信号特征构成了语音信号最基本的光谱结构。然而,在语音信号中,这些非线形信息不容易被当前的特征提取逻辑方法所提取,所以我们使用分型维数来测量非线形语音扰动。 本文利用传统的LPCC和非线性多尺度分形维数特征提取研究并实现语音识别系统。 3.1线性预测倒谱系数 线性预测系数是一个我们在做语音的线形预分析时得到的参数,它是关于毗邻语音样本间特征联系的参数。线形预分析正式基于以下几个概念建立起来的,即一个语音样本可以通过一些以前的样本的线形组合来快速地估计,根据真实语音样本在确切的分析框架(短时间内的)和预测样本之间的差别的最小平方原则,最后会确认出唯一的一组预测系数。 LPC可以用来估计语音信号的倒谱。在语音信号的短时倒谱分析中,这是一种特殊的处理方法。信道模型的系统函数可以通过如下的线形预分析来得到: 其中p代表线形预测命令,,(k=1,2,… …,p)代表预测参数,脉冲响应用 h(n)来表示,假设h(n)的倒谱是。那么(1)式可以扩展为(2)式: 将(1)带入(2),两边同时,(2)变成(3)。 就获得了方程(4):

人工智能与机器人教学教材

人工智能与机器人

1 1.机器人定义的三个共有属性是:有类人的功能、根据人的编程能自动的工作、人造的机器或机械电子装置。 2.简述机器人的发展史? 1954年美国人(George C. Devol)乔治·德沃尔制造出世界上第一台可编程的机器人,并在1956年获得美国专利。 1959年德沃尔与美国发明家约瑟夫·英格伯格联手制造出第一台工业机器人。 1960年,Conder公司购买专利并制造了样机。 1961年,Unimation公司(通用机械公司)成立,生产和销售了第一台工业机器“Unimate”,即万能自动之意。 1962年,美国万能自动化(Unimation)公司的第一台机器人Unimate在美国通用汽车公司(GM)投入使用标志着第一代机器人的诞生。 1963年麦卡锡则开始在机器人中加入视觉传感系统。 1965年 MIT推出了世界上第一个带有视觉传感器。 1967年, Unimation公司第一台喷涂用机器人出口到日本川崎重工业公司。 1968年,第一台智能机器人Shakey在斯坦福研究所诞生。 1972年,IBM公司开发出直角坐标机器人。 1973年,Cincinnati Milacron公司推出T3型机器人。 1978年,第一台PUMA机器人在Unimation公司诞生 1998年世界著名玩具厂商丹麦乐高(LEGO)公司推出机器人(Mind-storms)套件,让机器人制造变得跟搭积木一样, 1999年日本索尼公司推出犬型机器人爱宝(AIBO)。 2002年5月2日本田制造的名叫阿西(Asimo)四英尺高的白色机器人摇响开市铃声,摇响了机器智能时代的开始。 2006年6月,微软公司推出基于Windows的开发环境,用于构建面向各种硬件平台的软件---Microsoft Robotics Studio,试图实现机器人统一的标准或平台。

语音识别机器人实验报告

开放实验项目报告 项目名称:语音识别机器人 专业 学生姓名 班级学号 指导教师 指导单位 2012/2013学年第一学期 一.设计背景

在科学日新月异的今天,电子设备的便捷化,人性化,智能化已成为不可逆转的潮流,而语音控制智能,更是其中研究发展的热点。凌阳SPCE061以其便捷的操作,可靠的性能,成为了各位电子爱好者的首选。本实验采用凌阳61板和运动小车(迷你型)模组设计的语音控制小车。凌阳板嵌入小车模型顶部。语音处理技术不仅包括语音的录制和播放,还涉及语音的压缩编码和解码、语音的识别等各种处理技术。本设计的语音控制小车,借助于SPCE061A在语音处理方面的特色,不仅具有前进、后退、左转、右转、停止等基本程序控制功能,而且还具备语音控制功能。 二.总流程图

三.主要模块 1、凌阳SPCE061是继μ’nSP?系列产品SPCE500A等之后凌阳科技推出的又一款16 位结构的微控制器。与SPCE500A不同的是,在存储器资源方面考虑到用户的较少资源的需求以及便于程序调试等功能,SPCE061A里只内嵌32K字的闪存(FLASH )。较高的处理速度使μ’nSP?能够非常容易地、快速地处理复杂的数字信号。因此,与SPCE500A相比,以μ’nSP?为核心的SPCE061A 微控制器是适用于数字语音识别应用领域产品的一种最经济的选择。 其性能如下: A、16 位μ’nSP?微处理器; B、工作电压(CPU) VDD 为2.4~3.6V (I/O) VDDH 为2.4~5.5V C、CPU 时钟:0.32MHz~49.152MHz ; D、内置2K 字SRAM; E、内置32K FLASH; F、可编程音频处理; G、晶体振荡器; H、系统处于备用状态下(时钟处于停止状态),耗电仅为2μA@3.6V ; I、2 个16 位可编程定时器/计数器(可自动预置初始计数值); J、2 个10 位DAC(数-模转换)输出通道; K、32 位通用可编程输入/输出端口; L、14 个中断源可来自定时器A / B ,时基,2 个外部时钟源输入,键唤醒;

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

人类智能的特性表现在4个方面

:人类智能的特性表现在 4 个方面 。 A:聪明、灵活、学习、运用。 B:能感知客观世界的信息、能对通过思维对获得的知识进行加工处理、能通过学习积累知识 增长才干和适应环境变化、能对外界的刺激作出反应传递信息。 C:感觉、适应、学习、创新。 D:能捕捉外界环境信息、能够利用利用外界的有利因素、能够传递外界信息、能够综合外界 信息进行创新思维。 2:人工智能的目的是让机器能够 ,以实现某些脑力劳动的机械化。 A:具有智能 B:和人一样工作 C:完全代替人的大脑 D:模拟、延伸和扩展人的智能 3:下列关于人工智能的叙述不正确的有: 。 A:人工智能技术它与其他科学技术相结合极大地提高了应用技术的智能化水平。 B:人工智能是科学技术发展的趋势。 C:因为人工智能的系统研究是从上世纪五十年代才开始的,非常新,所以十分重要。 D:人工智能有力地促进了社会的发展。 4:人工智能研究的一项基本内容是机器感知。以下列举中的 不属于机器感知 的领域。 A:使机器具有视觉、听觉、触觉、味觉、嗅觉等感知能力。 B:让机器具有理解文字的能力。 C:使机器具有能够获取新知识、学习新技巧的能力。 D:使机器具有听懂人类语言的能力 5:自然语言理解是人工智能的重要应用领域,下面列举中的 不是它要实现的 目标。 A:理解别人讲的话。 B:对自然语言表示的信息进行分析概括或编辑。 C:欣赏音乐。 D:机器翻译。 6:为了解决如何模拟人类的感性思维,例如视觉理解、直觉思维、悟性等,研究者找到一个 重要的信息处理的机制是: 。 A:专家系统 B:人工神经网络 C:模式识别 D:智能代理 7: 根据下列选项来判断可以用指纹来鉴定的是: ①证件 ②签字 ③照片 ④ 密码 ⑤钥 匙 ⑥印签( ) A : ① ② B : ① ② ③ C:①②③④ D:①②③④⑤⑥ 8:下列选项错误的是( ) A:研究人工智能成为当前信息化社会的迫切需求 B:智能化是自动化发展的必要趋势 C:人工智能的研究方法:结构模拟、功能模拟和行为模拟 D:人工智能的实质是人造的智能 9:机器人之父是指: ( ) A:阿兰.图灵 B:伯纳斯.李 C:莎佩克 D:英格伯格和德沃尔 10:下列哪个应用领域不属于人工智能应用?( )
1/5

语音识别机器人的设计—毕业论文

毕业论文(设计) 题目语音识别机器人的设计 系部电子信息工程 专业电子信息工程年级 06级学生姓名 学号 指导教师 语音识别机器人的设计

【摘要】语音识别可划分为训练和识别两个过程。在第一阶段,语音识别系统对人类的语言进行学习,把学习内容组成语音库存储起来,在第二阶段就可以把当前输入的语音在语音库中查找相应的词义或语义。凌阳16位SPCE061A单片机内嵌32K字闪存,2K字SRAM,内置10位ADC、DAC,有多达14个的中断源。它的CPU内核采用16位具有DSP功能的微处理器芯片, 而且CPU可最高工作在49MHz的主频下,能够非常容易地、快速地处理复杂的数字信号,因此与其他类型的单片机相比,在数字语音处理方面SPCE061A更具有优势。基于SPCE061A设计了一个具有语音识别功能的机器人。经过训练,训练人可使用各种命令让机器人完成许多有趣的动作,使得人机交互更具智能化。 【关键词】SPCE061A单片机语音识别机器人

The Design of the Speech Recognition Robot 【Abstract】The speech recognition is divided into two stages, namely, training and recognition. At the first stage, the speech recognition system learns about the language and stores what it a speech database. Then at the next stage, the meaning of each inputted speech can immediately be found in the speech database.Sunplus 16-bit SPCE061ASCM is embedded with 32K word Flash and 2K word SRAM, with built-in 10-bit ADC and DAC as well as more than 14 interrupt sources. The core of its CPU is a 16-bit microprocessor chip which of DSP. Besides, the CPU can work with a frequency up to 49 MHz, and process complex digital signals easily and quickly. Therefore, compared with other types of SCM, SPCE061A speech processing. Based on SPCE061A, a speech recognition robot designed. After training, the robot can complete many interesting actions according to the orders, which makes the -computer interaction more intelligent. 【Key words】SPCE061A SCM Speech Recognition Robot 目录

深度解析智能语音机器人的常见问题

深度解析智能语音机器人的常见问题 一般智能语音机器人会自动处理以下问题:语音识别、语义分析、智能交互,实现对话交互策略。人工辅助过于复杂或者必须通过人工干预的通话转交给对应技能座席。今天我们一起来了解下深度解析电话机器人的常见问题。 一、什么是智能语音机器人? 智能语音机器人是一种运用于电话营销领域的电话机器人,它是通过ASR(语音识别)和TTS(文本转录音)模拟真人和用户通话,可以真人预先录音,用户很难察觉到是机器人。 二、市面上ASR接口有哪些? 智能语音机器人主要ASR接口供应商有科大讯飞,百度语音识别,阿里云语音识别,腾讯语音识别等,有SDK/API/MRCP类接口。智能语音机器人采用的是在讯飞研究院科学家研制的*版语音识别引擎,能精准识别反映客户意愿的词汇,快速划分非意向与意向,语音识别率达到了95%,不误判客户意向,避免浪费您的宝贵号码资源、浪费人力跟进非意向客户,同时对环境噪音、客户口音均有良好的适应能力。 三、智能语音机器人由哪些部分组成? 语音识别引擎≠电销机器人,语音识别能力是电销机器人重要的组成,但并非*,智能语音机器人还需要将呼叫平台(保证呼叫稳定)、电话线路、话术体系、操作后台集成在云端,达到直接在web上登陆操作目的,至此可以理解为一台“汽车”的硬件造好了。 但是汽车的性能怎么样,还需要检测关键技术指标、跑几下(各种测试),配置上软件(电销机器人的话术还没有配好)。因此,用讯飞技术≠智能语音机器人,如果用**技术就等于**牌子,那么所有的电脑都应该叫intel英特尔电脑,还有戴尔、联想什么事。

四、智能语音机器人为什么按路收费? 一个智能语音机器人研发好了,理论上可以支持N路并发(开一个接口就是一个机器人),主要的瓶颈是语音识别。免费的ASR一般*几万次,量大是需要付费使用的。一个智能语音机器人对接一路识别语音引擎(向ASR公司付费)、对应一条外呼线路(通信运营商向你收取),因此按路收费。有了这些机器人才能听懂话、打出去电话。 五、智能语音机器人话术系统是怎样一回事? 做话术≠做录音,如果没有对客户说话的正确理解,只是播放录音,没有互动,体验怎么能好。智能语音机器人建立在数据的基础上,智能语音机器人话术定制涉及到机器人语言设计、知识库的丰富,方便机器人理解,同时经过大量测试,保证准确理解客户的回复。 总结 智能语音机器人对于销售工作的开展无疑是提高效率的,工具虽然好,但也要了解怎么使用,更要知道正确使用的方向。

智能机器人语音识别技术

智能机器人语音识别技术 姓名:李占博 学号:201215715

关键词:智能机器人;语音识别;隐马尔可夫模型 DSP 摘要:给出了一种由说话者说出控制命令,机器人进行识别理解,并执行相应动作的实现技术。在此,提出了一种高准确率端点检测算法、高精度定点DSP动态指数定标算法,以解决定点DSP实现连续隐马尔科夫模型CHMM识别算法时所涉及的大量浮点小数运算问题,提高了定点DSP实现的实时性、精度,及其识别率。 关键词:智能机器人;语音识别;隐马尔可夫模型;DSP 1 语音识别概述 语音识别技术最早可以追溯到20世纪50年代,是试图使机器能“听懂”人类语音的技术。按照目前主流的研究方法,连续语音识别和孤立词语音识别采用的声学模型一般不同。孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合。 语音的能量来源于正常呼气时肺部呼出的稳定气流,喉部的声带既是阀门,又是振动部件。语音信号可以看作是一个时间序列,可以由隐马尔可夫模型(HMM)进行表征。语音信号经过数字化及滤噪处理之后,进行端点检测得到语音段。对语音段数据进行特征提取,语音信号就被转换成为了一个向量序列,作为观察值。在训练过程中,观察值用于估计HMM 的参数。这些参数包括观察值的概率密度函数,及其对应的状态,状态转移概率等。当参数估计完成后,估计出的参数即用于识别。此时经过特征提取后的观察值作为测试数据进行识别,由此进行识别准确率的结果统计。训练及识别的结构框图如图1所示。

1. 1 端点检测 找到语音信号的起止点,从而减小语音信号处理过程中的计算量,是语音识别过程中一个基本而且重要的问题。端点作为语音分割的重要特征,其准确性在很大程度上影响系统识别的性能。 能零积定义:一帧时间范围内的信号能量与该段时间内信号过零率的乘积。 能零积门限检测算法可以在不丢失语音信息的情况下,对语音进行准确的端点检测,经过450个孤立词(数字“0~9”)测试准确率为98%以上,经该方法进行语音分割后的语音,在进入识别模块时识别正确率达95%。 当话者带有呼吸噪声,或周围环境出现持续时间较短能量较高的噪声,或者持续时间长而能量较弱的噪声时,能零积门限检测算法就不能对这些噪声进行滤除,进而被判作语音进入识别模块,导致误识。图2(a)所示为室内环境,正常情况下采集到的带有呼气噪声的数字“0~9”的语音信号,利用能零积门限检测算法得到的效果示意图。最前面一段信号为呼气噪声,之后为数字“0~9”的语音。

人工智能复习试题和答案及解析

一、单选题 1. 人工智能的目的是让机器能够(D),以实现某些脑力劳动的机械化。 A. 具有完全的智能 B.和人脑一样考虑问题 完全代替人D.C. 模拟、延伸和扩展人的智能 下列关于人工智能的叙述不正确的有(C) 2. 。 人工智能技术它与其他科学技术相结合极大地提高了应用技术 的智能化水平。 A. 人工智能是科学技术发展的趋势。B. C. 因为人工智能的系统研究是从上世纪五十年代才开始的,非常新,所以十分重要。 D.人工智能有力地促进了社会的发展。 3. 自然语言理解是人工智能的重要应用领域,下面列举中的(C )不是它要实现的目 标。 B.A. 理解别人讲的话。对自然语言表示的信息进行分析概括或编辑。 D.C. 欣赏音乐。机器翻译。 下列不是知识表示法的是(4.)。 A. B.计算机表示法谓词表示法

C. D.框架表示法产生式规则表示法 关于“与/ 或”图表示知识的叙述,错误的有(5. D)。 用“与/ 或”图表示知识方便使用程序设计语言表达,也便于计算机存储处理。A. “与/ 或”图表示知识时一定同时有“与节点”和“或节点”。B. C.“与/ 或”图能方便地表示陈述性知识和过程性知识。 D.能用“与/ 或”图表示的知识不适宜用其他方法表示。 6. 一般来讲,下列语言属于人工智能语言的是(D)。 A. VJ B. C# C. Foxpro D. LISP 7.专家系统是一个复杂的智能软件,它处理的对象是用符号表示的知识,处理的过程是(C )的过程。 A. 思考 B.回溯 C.推理 D.递归 确定性知识是指( A )知识。8. B.A. 可以精确表示的正确的 C. 在大学中学到的知识 D.能够解决问题的 下列关于不精确推理过程的叙述错误的是(9. B)。 不精确推理过程是从不确定的事实出发A. B.不精确推理过程最终能够推出确定的结论 C.不精确推理过程是运用不确定的知识 D.不精确推理过程最终推出不确定性的结论 ..

Q博士语音识别机器人制作

语音识别机器人制作 编辑:robotain 来源:网络2009-12-06 发表评论 方案简介说明书 1 方案概述 语音识别机器人可以充分发挥学生的创新能力,增加学生的动手实践能力,增加学生学习单片机的兴趣爱好。本方案以SPCE061A 单片机为核心,改装市场上的玩具机器人,使改装后的机器人具有语音识别能力,根据识别的语音完成跳舞等动作,这也是智能机器人的一个方面。 1.1 设计要求 利用SPCE061A 单片机、机器人机体(包括2 个用于走路的电机、1 个用于头部旋转的电机、1 个用于加速1 个用于弹射的电机等),要求语音识别机器人具有下述功能: 1. 通过语音命令对其进行控制。 2. 两种跳舞模式。 3. 走步功能、转向功能、转头功能。 4. 发射飞盘功能。 1.2 技术要求 1. 要求语音识别机器人可以识别15 条命令。 2. 要求语音识别机器人具有2 种跳舞模式。 2 方案设计简介 2.1 硬件框图 系统以SPCE061A 为核心,结合机器人机体,如下图所示。

2.2 功能框图 SPCE061A 应用方案 SPCE061A 在语音识别机器人中的应用

在现代社会机器人这个词语已经不再新鲜,而且形形色色的机器人出现在我们的日常生活中。为了提高广大单片机爱好者学习单片机的兴趣与爱好,凌阳科技大学计划教育推广中心推出了应用SPCE061A 控制的兴趣产品语音识别机器人,本文对语音识别机器人的软硬件制作进行介绍。 1 引言 为了提高广大单片机爱好者学习单片机的兴趣,凌阳科技大学计划教育推广中心推出了应用SPCE061A 作为主控制器,外加电机驱动电路制作的语音识别机器人。该机器人采用特定人语音识别对机器人进行控制,可以完成向前走、倒退、左转、右转、跳两首舞曲、向左瞄准、向右瞄准、发射、连续发射等功能。该语音识别机器人可以大大提高在校学生学习单片机的兴趣。 2 设计要求 2.1 设计要求 利用SPCE061A 单片机、机器人机体(包括2 个用于走路的电机、1 个用于头部旋转的电机、1个用于加速1 个用于弹射的电机等),要求语音识别机器人具有下述功能: 通过语音命令对其进行控制。 两种跳舞模式。 走步功能、转向功能、转头功能。 发射飞盘功能。 2.2 技术要求 要求智能机器人可以识别15 条命令。 要求智能机器人具有2 种跳舞模式。 模组特性简介 3.1 SPCE061A 特性简介 SPCE061A 是凌阳科技研发生产的性价比很高的一款十六位单片机,使用它可以非常方便灵活的实现语音的录放系统,该芯片拥有8 路10 位精度的ADC,其中一路为音频转换通道,并且内置有自动增益电路。这为实现语音录入提供了方便的硬件条件。两路10 精度的DAC,只需要外接功放(SPY0030A)即可完成语音的播放。另外凌阳十六位单片机具有易学易用的效率较高的一套指令系统和集成开发环境。在此环境中,支持标准C 语言,可以实现C 语言与凌阳汇编语言的互相调用,并且,提供了语音录放的库函数,只要了解库函数的使用,就会很容

创新创业课程教学案例——语音识别客服机器人

创新创业课程教学案例——语音识别客服机器人

一、导言 客服需求蓬勃增长,传统的客服方式已无法适应企业用工、消费服务等方面的需求。客服需求依据语音识别技术形成了巨大的市场。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术语音识别将会推动物联网的革命,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品,以及可穿戴设备等各个领域。 二、用户痛点 在传统的客服服务中,存在着很多不足,如服务质量把控难、培训成本高、人员离职率高、考核成本高等情况。 三、创新原理 语音识别客服机器人实现了全新的语音识别技术,在识别率、连续服务、渠道 等方面,获得了多个方面的创新(图1),提高了企业的服务水平。 采用深度神经网络算法和自然语言处理技术研发而成,实现机器人多轮对话,识别数百种方言,识别率高。 采用在线学习算法,实现智能机器人自适应、动态、增量式的机器自学习能力,能够精准回复重复性或相似的问题。 采用智能机器人、人工客服、工单等完整的三位一体交互切换客服体系,全天不间断服务,节省客服成本。 采用微信、QQ app、WeblM、SDK、微博等渠道,简单快速的接口服务,提供移动式办公,时刻保持在线沟通,提供一致的客户体验。 多维可视化数据分析,包括效率统计、满意度统计、会话统计、工单统计和访客记录统计等,有利于企业更好地挖掘客户信息。

图1语音识别客服系统架构图 四、产品特点 语音识别客服机器人建立了四位一体交互体系(图2),能够更好地进行服务。它具有以下特点: 7×24小时机器人在线,精准回答客户重复性问题。 桌面网页、移动网页、APP等一键接入、多平台统一平台管理。 多维客服数据分析,客观全面考核客服人员KPI。 移动端APP实现客服人员移动办公,让您与客户时刻保持在线沟通。 图2语音识别客服机器人四位一体交互体系 五、应用场景 行政服务中心、银行、中小企业客服、呼叫中心等。 六、创意激发 AiKF爱客服智能机器人技术在时间、空间、人力等方面获得了重大突破,

机器人语音识别中英文对照外文翻译文献

中英文资料外文翻译 译文: 改进型智能机器人的语音识别方法 2、语音识别概述 最近,由于其重大的理论意义和实用价值,语音识别已经受到越来越多的关注。到现在为止,多数的语音识别是基于传统的线性系统理论,例如隐马尔可夫模型和动态时间规整技术。随着语音识别的深度研究,研究者发现,语音信号是一个复杂的非线性过程,如果语音识别研究想要获得突破,那么就必须引进非线性系统理论方法。最近,随着非线性系统理论的发展,如人工神经网络,混沌与分形,可能应用这些理论到语音识别中。因此,本文的研究是在神经网络和混沌与分形理论的基础上介绍了语音识别的过程。 语音识别可以划分为独立发声式和非独立发声式两种。非独立发声式是指发音模式是由单个人来进行训练,其对训练人命令的识别速度很快,但它对与其他人的指令识别速度很慢,或者不能识别。独立发声式是指其发音模式是由不同年龄,不同性别,不同地域的人来进行训练,它能识别一个群体的指令。一般地,由于用户不需要操作训练,独立发声式系统得到了更广泛的应用。所以,在独立发声式系统中,从语音信号中提取语音特征是语音识别系统的一个基本问题。 语音识别包括训练和识别,我们可以把它看做一种模式化的识别任务。通常地,语音信号可以看作为一段通过隐马尔可夫模型来表征的时间序列。通过这些特征提

取,语音信号被转化为特征向量并把它作为一种意见,在训练程序中,这些意见将反馈到HMM的模型参数估计中。这些参数包括意见和他们响应状态所对应的概率密度函数,状态间的转移概率,等等。经过参数估计以后,这个已训练模式就可以应用到识别任务当中。输入信号将会被确认为造成词,其精确度是可以评估的。整个过程如图一所示。 图1 语音识别系统的模块图 3、理论与方法 从语音信号中进行独立扬声器的特征提取是语音识别系统中的一个基本问题。解决这个问题的最流行方法是应用线性预测倒谱系数和Mel频率倒谱系数。这两种方法都是基于一种假设的线形程序,该假设认为说话者所拥有的语音特性是由于声道共振造成的。这些信号特征构成了语音信号最基本的光谱结构。然而,在语音信号中,这些非线形信息不容易被当前的特征提取逻辑方法所提取,所以我们使用分型维数来测量非线形语音扰动。 本文利用传统的LPCC和非线性多尺度分形维数特征提取研究并实现语音识别系统。 3.1线性预测倒谱系数 线性预测系数是一个我们在做语音的线形预分析时得到的参数,它是关于毗邻语音样本间特征联系的参数。线形预分析正式基于以下几个概念建立起来的,即一个语音样本可以通过一些以前的样本的线形组合来快速地估计,根据真实语音样本在确切的分析框架(短时间内的)和预测样本之间的差别的最小平方原则,最后会确认出唯一的一组预测系数。 LPC可以用来估计语音信号的倒谱。在语音信号的短时倒谱分析中,这是一种特殊的处理方法。信道模型的系统函数可以通过如下的线形预分析来得到:

智能机器人行为能力的

智能机器人行为能力的获得 Chenghwn(chenghw) Chenghwn@https://www.360docs.net/doc/4115524053.html, 1前言 如何让智能机器人具有像人一样的行为能力,正是本文努力讨论的目的,这里讨论的不是技术性的细节问题,而是策略方向,并从理论上证明了这种策略的可行性。本文先讨论了如何设置智能机器人的运动中枢、运动调节中枢、感觉中枢的结构与功能及相互关系(同时也讨论了为什么要这样设置。),然后在此基础上以智能机器人的运动结构在直线与空间中的运动学习为例,讨论了智能机器人是如何通过这些设置的结构与功能来获得像人一样的运动能力的。 2运动中枢、运动调节中枢、感觉中枢 就如人一样,智能机器人的行为应由专门的中枢来控制。 本文对智能机器人控制运动的中枢的结构与功能的设置参考了人的运动皮质及小脑等的结构与功能。这里将控制运动的中枢分为:1、运动中枢(类似于人脑的运动皮质及前运动区。)2、运动调节中枢(类似于小脑及基底节等。) 智能机器人的运动中枢的特定记忆柱群的兴奋使智能机器人的某一运动结构具有某一基本运动。而这时一基本运动调节中枢的同时兴奋能使这一运动结构的这一基本运动具有某一运动特点。编程时我们可以适当的设置运动调节中枢的联系与兴奋特点(调节基本运动中枢的记忆柱的兴奋,或直接调节运动结构的运动),使某一运动结构的基本运动,在调节中枢的兴奋下获得我们所需要的运动特点。 智能机器人应具有什么运动结构及这一结构应具有什么样的基本运动,这一基本运动在什么样的调节中枢的调节下具有我们所需要的什么运动特点……,这些都是具体的技术问题,在现有的科技水平下应不难解决。本文所要讨论的是,智能机器人是如何通过学习获得:要进行某项运动时是如何达到目的地,也就是说当智能机器人需要某一特点的运动时,智能机器人是如何选择相应的运动中枢的记忆柱群及相应调节中枢的记忆柱群兴奋而使这一特点的运动得于实现。解决了这个问题,也就从战略上解决了智能机器人的运动问题,剩下的其它的技术性问题都好说。 打个简单的比方:这里的运动中枢就象程序的主体,调节中枢就象程序的补丁插件,当一基本运动在哪一方面我们不满意的时候,我们都可给它打个补丁插件来使这一基本运动的运动特点让我们满意,而新打上的“补丁”,都能通过下面所论述的奖惩学习过程来获得正确的调节能力。 每个运动结构(比如一个手指)都有其基本的运动动作(如伸或屈),每个基本的运动动作都对应运动中枢(就如人脑的皮质运动中枢、前运动皮质)中相应的记忆柱群。这个中枢有联络区能与其它中枢产生兴奋性记忆联系。同时存在多个运动调节中枢,它们能分别调节每个基本运动的某一运动特点。运动中枢中一群记忆柱的兴奋使对应的一运动结构具有某一运动,而相应调节中枢的兴奋使这一运动结构所进行的这一运动具有某一我们所需要的特点(比如伸或屈的速度及稳定性等。)。所有的基本运动都存在众多的基本调节方式(如减慢运动的调节—通过力的改变进行调节),每类基本调节方式都对应相应的中枢(比如小脑的模块化兴奋)。这样,每个运动的某类基本调节都由相应的中枢控制,而且每个运动结构的基本运动在运动的基本调节中枢都应存在相应的结构。它们也存在联络区,它们的联络区

智能语音识别机器人——文献翻译

改进型智能机器人的语音识别方法 2、语音识别概述 最近,由于其重大的理论意义和实用价值,语音识别已经受到越来越多的关注。到现在为止,多数的语音识别是基于传统的线性系统理论,例如隐马尔可夫模型和动态时间规整技术。随着语音识别的深度研究,研究者发现,语音信号是一个复杂的非线性过程,如果语音识别研究想要获得突破,那么就必须引进非线性系统理论方法。最近,随着非线性系统理论的发展,如人工神经网络,混沌与分形,可能应用这些理论到语音识别中。因此,本文的研究是在神经网络和混沌与分形理论的基础上介绍了语音识别的过程。 语音识别可以划分为独立发声式和非独立发声式两种。非独立发声式是指发音模式是由单个人来进行训练,其对训练人命令的识别速度很快,但它对与其他人的指令识别速度很慢,或者不能识别。独立发声式是指其发音模式是由不同年龄,不同性别,不同地域的人来进行训练,它能识别一个群体的指令。一般地,由于用户不需要操作训练,独立发声式系统得到了更广泛的应用。所以,在独立发声式系统中,从语音信号中提取语音特征是语音识别系统的一个基本问题。 语音识别包括训练和识别,我们可以把它看做一种模式化的识别任务。通常地,语音信号可以看作为一段通过隐马尔可夫模型来表征的时间序列。通过这些特征提取,语音信号被转化为特征向量并把它作为一种意见,在训练程序中,这些意见将反馈到HMM的模型参数估计中。这些参数包括意见和他们响应状态所对应的概率密度函数,状态间的转移概率,等等。经过参数估计以后,这个已训练模式就可以应用到识别任务当中。输入信号将会被确认为造成词,其精确度是可以评估的。整个过程如图一所示。 图1 语音识别系统的模块图

人工智能 语音识别 论文

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好地解决语音识别这样一个复杂的模式分类问题提供了新的途径。本文针时语音识别的特点.BP 神经网络在语音识别技术中的应用进行了探索性研究,对进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP 算法识别准确率高但训练速度慢的缺点,对BP 网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP 网络RECOGNITIO THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.is not the overall description of human brain,the abstract,It but simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc. can be opened up. Artificial neural network is a system which using a physically feasible system to imitate the structure and function of nerve cells in human brain,which has the ability of self—learning,contrasting,reasoning and summarizing .It have offered a new way in solving such complicated pattern classification problems as speech recognition.This paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low, a new recognizing algorithm based on BP algorithm by combining with good effect method in ANN which named genetic algorithm (GA) was proposed and used to improve the BP neural network. Experiments results show that the training speed can be accelerated by the method and the recognition performance is also promoted.words: Key words speech recognition, neural network, genetic algorithm, genetic neural network, BP network 1.绪论1.1 1.1 课题背景1.1.1 语音识别概述随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。语音识别是一门涉及面很广的交叉学科,它是目前发展最为迅速的信息研究诸领域中的一个。语音识别的最大优势在于使得人机用户界面更加自然和容易使用。随着计算机技术、模式识别和信号处理技

相关文档
最新文档