语音模块方案介绍

语音模块

方案一：选择专门的语音存储芯片1420，通过单片机控制放音。放音时间只有20秒，只能进行简单的放音，不能实现复杂功能。

方案二：利用61单片机进行存储和放音。凌阳61单片机是16位单片机，具有DSP功能，有很强的信息处理能力，最高时钟可达49MHz，具备运算速度高的优势等，这些都为语音的播放、录放、合成和辨识提供了条件。

为了显示凌阳单片机的优势，我们选择方案二。

车载语音模块和控制台语音模块

方案1：选择专门的语音存储芯片ISD1420，通过单片机进行录放音的控制。用这种方法虽然比较简介方便，但是在地址模式所占IO口较多,在操作模式下进行随机播放又需快进,较适合于顺序播放。且存储空间较小，只能存储总计20s的语音，无法进行语音识别。为了能更好的使用语音播放和语音辨识，我们放弃了此方案。

方案2：选择DSP进行语音识别，DSP具有很强的信息处理能力，能够进行语音的存储录放和语音的辨识，但是考虑到系统的成本和使用的灵活和方便，我们放弃了此方案。

方案3：使用凌阳精简板开发板61B板，该精简开发板体积小，使用方便，且具有凌阳系列的很强的语音处理功能，且具有语音播报和辨识的模块。凌阳61单片机是16位单片机，具有DSP功能，有很强的信息处理能力，最高时钟频率可达49MHz，具有运算速度高等优势。这些都为语音处理和辨识准备了很好的条件。

因此我们选用了方案3。

语音识别电路的设计

我们采用的语音播放和语音辨识的电路与凌阳单片机的接口电路如图所示。该电路非常简单，是凌阳公司的标准电路。

语音播放与辨识电路

语音识别系统实验报告材料

语音识别系统实验报告专业班级：信息安全学号：姓名：

目录一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6)

3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附：GUI程序代码 (12) 一、设计任务及要求实现语音识别功能。二、语音识别的简单介绍

基于VQ的说话人识别系统，矢量量化起着双重作用。在训练阶段，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码本。在识别(匹配)阶段，我们用VQ方法计算平均失真测度(本系统在计算距离d时，采用欧氏距离测度)，从而判断说话人是谁。语音识别系统结构框图如图1所示。图1 语音识别系统结构框图 2.1语者识别的概念语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一，由于说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点，如语音是人的固有的特征，不会丢失或遗忘；语音信号的采集方便，系统设备成本低；利用电话网络还可实现远程客户服务等。因此，近几年来，说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较，说话人识别不仅使用方便，而且属于非接触性，容易被用户接受，并且在已有的各种生物特征识别技术中，

语音识别技术概述

语音识别技术概述摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。关键词：语音识别；特征提取；模式匹配；模型训练 Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part. Keywords:Speech identification;Character Pick-up;Mode matching;Model training 一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式

语音识别-科普性介绍

随机过程理论在语音识别中的应用第一章语音识别总述 1.1语音识别技术简介语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术。在当下流行的即时通讯软件（如：微信、QQ等）里，语音识别技术得到了非常广泛的应用。当对方发来一段语音信息而自己不方便收听时便可以使用语音转化功能将语音信息转化成文字信息。此外，在许多输入法（如：讯飞输入法）中也可以使用语音输入功能。用户只需要对着麦克风说话，输入法便可以将语音转换为文字填入输入框，在方便用户的同时也提高了文字输入效率。语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等，是一门涵盖多个学科领域的交叉科学技术。语音识别的技术原理是模式识别，其一般过程可以总结为：预处理、特征提取、基于语音模型库下的模式匹配、基于语言模型库下的语言处理、完成识别。图1.0.1 语音识别过程第二章预处理声音的实质是波。在现如中得到广泛应用的音频文件格式（如：mp3等）都经过了压缩无法直接识别。语音识别所使用的音频文件格式必须是未经压缩处理的wav格式文件。下图是一个波形示例。

图2.0.2 语音波形示例有了声波源文件输入便可以按照图2.1.1所示的各个步骤进行识别。 2.1静音切除如图2.1.2所示，在得到的声波信号输入中需要实际处理的信号并不一定占满整个时域，会有静音和噪声的存在。因此，必须先对得到的输入信号进行一定的预处理，消去静音的部分并且滤除噪声的干扰才能对实际需要处理的有效语音进行识别。噪声处理部分本文已在上文进行过讨论，这里不再赘述。去除静音需要用到V AD算法，本文对其做简单介绍。 2.1.1 V AD算法 V AD算法全称为V oice Activity Detection，又称语音边界检测。其可实现的功能有对语音信号进行打断、去除语音信号中的静音部分从而获取有效语音，还可以去除一部分噪声对后续语音识别过程造成的干扰。V AD主要是对输入语音信号的一些时域或频域特征判断其是否属于静音部分。本文只对这些参数做简要介绍，具体算法不属于本文重点因而不在此做细致讨论。 2.1.2时域参数时域参数是通过对输入信号在时域上的特征参量进行区分。在信噪比较高的环境下使用时域参数进行区分效果显著。 1.相关性分析通过对足够短的时间范围内的语音信号进行相关性检测可以初步判定该时间范围内的信号是否属于静音部分。在实际应用中，静音的部分实际上会混有各种各样的噪声，因此并非绝对意义上静音。噪声在各个时间范围内的相关性比较低，而人说话的语音相关性则比较强。因此，在高信噪比的条件下区分成功率很

语音识别技术概述(一)

语音识别技术概述(一) 作者：刘钰马艳丽董蓓蓓摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。关键词：语音识别；特征提取；模式匹配；模型训练 Abstract:Thistextbrieflyintroducesthetheoreticalbasisofthespeech-identificationtechnology,itsmo deofclassification,theadoptedkeytechniqueandthedifficultiesandchallengesithavetoface.Then,the developingprospectionandapplicationofthespeech-identificationtechnologyarediscussedinthelast part. Keywords:Speechidentification;CharacterPick-up;Modematching;Modeltraining 一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。（一）语音识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。（二）特征参数提取技术语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢？特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息（对特定人语音识别来讲，则相反）。从信息论角度讲，这是信息压缩的过程。线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。 Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

智能机器人语音识别技术

智能机器人语音识别技术姓名：李占博学号：201215715

关键词：智能机器人；语音识别；隐马尔可夫模型 DSP 摘要：给出了一种由说话者说出控制命令，机器人进行识别理解，并执行相应动作的实现技术。在此，提出了一种高准确率端点检测算法、高精度定点DSP动态指数定标算法，以解决定点DSP实现连续隐马尔科夫模型CHMM识别算法时所涉及的大量浮点小数运算问题，提高了定点DSP实现的实时性、精度，及其识别率。关键词：智能机器人；语音识别；隐马尔可夫模型；DSP 1 语音识别概述语音识别技术最早可以追溯到20世纪50年代，是试图使机器能“听懂”人类语音的技术。按照目前主流的研究方法，连续语音识别和孤立词语音识别采用的声学模型一般不同。孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合。语音的能量来源于正常呼气时肺部呼出的稳定气流，喉部的声带既是阀门，又是振动部件。语音信号可以看作是一个时间序列，可以由隐马尔可夫模型(HMM)进行表征。语音信号经过数字化及滤噪处理之后，进行端点检测得到语音段。对语音段数据进行特征提取，语音信号就被转换成为了一个向量序列，作为观察值。在训练过程中，观察值用于估计HMM 的参数。这些参数包括观察值的概率密度函数，及其对应的状态，状态转移概率等。当参数估计完成后，估计出的参数即用于识别。此时经过特征提取后的观察值作为测试数据进行识别，由此进行识别准确率的结果统计。训练及识别的结构框图如图1所示。

1. 1 端点检测找到语音信号的起止点，从而减小语音信号处理过程中的计算量，是语音识别过程中一个基本而且重要的问题。端点作为语音分割的重要特征，其准确性在很大程度上影响系统识别的性能。能零积定义：一帧时间范围内的信号能量与该段时间内信号过零率的乘积。能零积门限检测算法可以在不丢失语音信息的情况下，对语音进行准确的端点检测，经过450个孤立词(数字“0～9”)测试准确率为98％以上，经该方法进行语音分割后的语音，在进入识别模块时识别正确率达95％。当话者带有呼吸噪声，或周围环境出现持续时间较短能量较高的噪声，或者持续时间长而能量较弱的噪声时，能零积门限检测算法就不能对这些噪声进行滤除，进而被判作语音进入识别模块，导致误识。图2(a)所示为室内环境，正常情况下采集到的带有呼气噪声的数字“0～9”的语音信号，利用能零积门限检测算法得到的效果示意图。最前面一段信号为呼气噪声，之后为数字“0～9”的语音。

语音识别技术原理及应用

语音AgentNet 的整体实现张宇伟

摘要：本文论述了一个人机对话应用的实现(我命名它为AgentNet)。其应用实例为一种新的整合了语音技术的智能代理网络服务。服务器端开发使用了微软SQL SERVER 7.0技术,客户端使用了微软Agent ，微软Specch SDK5语音合成，和语音识别技术。网络连接使用了SOCKET 技术,并论述了高层网络协议的实现。 [关键词] 人机对话，MS-AGENT,语音合成，语音识别，网络编程 [Abstract] This paper discuss a new actualization of man-machine conversation application, which is based on a modal of network service. And I name this service with the name of AgentNet. The development of this service used Microsoft SQL SERVER 7.0. And the client used the technology of Microsoft Agent, TTS (Text To Speech),SR(Speech Recognition).Also the client and the server connect with SOCKET. On the SOCKET, the paper discuss the development of High-Level net protocol. [Key Words] Man-Machine Conversation, MS-AGENT, TTS , SR ,Net Work Programming

浅谈语音识别技术的应用和发展

浅谈语音识别技术的应用和发展摘要语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,其最终目标是实现人与机器进行自然语言通信。语音作为一个交叉学科,具有深远的研究价值,近50年的研究发展,语音识别技术已经有了极大的发展。本文介绍了语音识别技术的基本原理和应用,并且对语音识别技术的发展趋势进行了展望。关键词语音识别;应用;发展 0 引言语音是人类互相之间进行交流时使用最多、最自然、最基本、最重要的信息载体。在高度信息化的今天,语音处理的一系列技术及其应用已经成为信息社会不可缺少的组成部分。语音的产生是一个复杂的过程,包括心理和生理等方面的一系列因素。当人们需要通过语音表达某种信息时,首先是这种信息以某种抽象的形式表现在说话人的大脑里,然后转换为一组神经信号,这些神经信号作用于发声器官,从而产生携带信息的语音信号。 1 语音识别的研究历史及现状在国外语音识别的研究工作可以追溯到上世纪50年代。1952年AT&T贝尔实验室的Audry系统是第一个可以识别十个英文数字的语音识别系统。上世纪60年代末70年代初出现了语音识别方面几种基本思想,其中重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效的解决了语音信号特征提取和不等长语音匹配问题,同时,还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。上世纪80年代语音识别研究进一步走向深入,其显著特征是隐马尔可夫模型(HMM)和人工神经网络(ANN)在语音识别中的成功应用。上世纪90年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切的要求语音识别系统从实验室走向实际应用。具代表性的是IBM的Via V oice和Dragon公司的Dragon Dictate 系统,这些语音识别系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率[1]。

汉语语音识别技术综述

汉语语音识别技术综述黄寅飞、吴文虎吴文虎：1936年生于北京。1955年至1958年就读于清华大学电机工程系，1958年至1961年就读于清华大学自动控制系。现为计算机科学与技术系教授、博士生导师。主要研究方向包括语音识别及语言理解、语音合成、语音信号数字处理等。已连续十六年主讲研究生的学位课：“语音信号数字处理”。从1970年至1997年，担任人机语音通讯实验室的负责人。作为项目负责人或主要参加者，承担了多项国家攻关任务和863高科技项目，并多次获奖。黄寅飞：1997年起在清华大学计算机科学与技术系语音实验室攻读博士学位。让人与计算机自由地交谈，机器能听懂人讲话，是汉语语音识别技术最终将实现的目标。进入九十年代，语音识别方面的研究进一步升温，连续语音识别技术正趋于成熟，还出现了诸多实用化的研究方向。今后，将由连续语音识别发展到自然话语识别与理解，并着手解决语音识别中的一系列难题。难度虽然很大，但前景乐观。计算机技术的飞速发展，使人与机器用自然语言进行对话的梦想一步步接近实现。进入九十年代之后，语音识别的研究进一步升温，除了连续语音听写机之外，还出现了诸多实用化的研究方向。ibm公司率先推出的viavoice标志着大词汇量、非特定人、连续语音识别技术正在趋于成熟。今后的发展方向，将由连续语音进一步进入自然话语识别与理解，并着手解决语音识别中的一系列难题，如鲁棒性问题。难度还会加大，但前景是乐观的。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。声学特征声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。

语音识别技术论文

摘要：语音识别技术是一门涉及面很广的交叉学科。随着新理论的提出和应用，语音识别技术取得了很大的进步,许多产品已经得以实际的应用，但在其进一步的发展进程中，还有许多棘手的问题有待解决。关键词：语音识别；动态时间规整算法；人工神经元网络 1 背景介绍语言是人类特有的功能,是人们思维最重要的寄托体，是人类交流最主要的途径。语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。语音识别技术是让机器接收，识别和理解语音信号，并将其转换成相应的数字信号的技术。它是一门交叉学科，涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。 2 发展历史 1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统，标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术（Liner Predictive）等重要成果。20世纪70年代，语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代，近年来发展迅速，并取得了一系列的成果。 3 具体应用随着计算机技术、模式识别等技术的发展，适应不同场合的语音识别系统相继被开发出来，语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来，语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。在许多政府部门、商业机构，语音识别技术的应用，可免除大量操作人员的重复劳动，既经济又方便。如：语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统，112、114、119等信息查询系统)等。许多特定环境下，如工业控制方面，在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方，均可通过语音发出相应的控制命令，让设备完成各种工作。

语音识别技术简述

语音识别技术简述语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。声学特征声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。下面介绍常用的一些声学特征。线性预测系数LPC：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对LPC 的计算方法有自相关法（德宾Durbin法）、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。倒谱系数CEP：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。 Mel倒谱系数MFCC和感知线性预测PLP：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel 倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。

基于单片机的语音识别系统_毕业设计推荐

基于单片机的语音识别系统

基于单片机的语音识别系统摘要近几年来，智能化和自动化技术在玩具制造领域中越来越被关注。本文介绍一种智能化小车控制系统的设计——语音控制小车。语音控制小车是基于SPCE061A的代表性兴趣产品，它配合61板推出，综合应用了SPCE061A的众多资源，小车采用语音识别技术，可通过语音命令对其行驶状态进行控制。首先介绍了SPCE061A的主要性能及其引脚的功能；接着完成了电源电路、复位电路、键盘电路、音频输入电路，音频输出电路和无线控制电路等硬件功能模块的设计。软件设计模块能实现智能小车的前进、后退、转向、停止、避障、表演动作以及循线等功能。测试表明，在环境背景噪音不太大，控制者的发音清晰的前提下，语音控制小车的语音识别系统能对特定的语音指令做出智能反应，做出预想中的有限的动作关键词：spec061a 语音识别驱动电路声控小车智能反应

Abstract In recent years, Intelligent and automation technology in the toy manufacture have been paid more and more attention.Introduce an intelligent vehicle control system design. SPCE061A program the system to single-chip, based on implementation of the car's voice control, This paper introduces the hardware sub-system design and implementation. The SPCE061A's main characters and pin function are introduced firstly. Completed the power circuit, reset circuit, keyboard circuitry, audio input circuits, audio output circuit and control circuit of wireless hardware such as the design of function modules. Software design module can achieve smart car forward, backward, turn, stop, obstacle avoidance, performing actions, as well as on-line functions. Test showed that the background noise in the environment is not too great, control persons under the premise of clear pronunciation, voice control car speech recognition systems for specific voice commands to make intelligent reaction, limited to the desired action. Keywords: spec061a 、voice recogniton、Driving circuit、Voice control dolly、intelirent response

LD3320介绍

工作原理： LD3320提供的语音识别技术，是基于"关键词语列表"的识别技术:ASR(Auto speech recognition )技术。语音识别芯片的工作流程是：对经过过MIC输入的声音实施频谱分析——语音特征的提取——匹配关键词语列表中的关键词语——从此关键字列表中得分最高的关键词语作为最终语音识别的结果输出。语音识别芯片得到的结果的两种情况： 1）在预定的时间内（比如5秒钟的语音数据），芯片对外部送入的语音数据进行运算分析，给出识别结果。这种情况下可以设想为芯片设定了一个5秒的录音定时，芯片在录音定时结束后会中断识别语音的通道，并且根据已送入芯片的语音数据通过算法得出一个识别结果。 2）语音识别芯片运用端点检测VAD（voice activity detection）技术检查设备外部送入的语音数据流，检测出外部停止说话，运算分析开始说话到结束说话的语音数据，得到识别结果。 VAD的工作原理：在背景的基础上检测到有发音，那就视为声音的开始；若在一段时间内（比如600毫秒）持续检测到背景声音，那就认为声音的结束。

LD3320芯片介绍 { LD332X芯片是一款由是有ICRoute公司设计生产的“语音识别”专用芯片。该芯片集成了语音识别处理器和一些外部电路，包括AD、DA转换器、麦克风接口、声音输出接口等。不需要外接任何的辅助芯片如Flash、RAM等，直接集成在现有的产品中即可以实现语音识别/声控/人机对话功能。真正提供了单芯片的语音识别解决方案。在LD332X内部，固化有高效的非特定人语音识别搜索引擎模块和完整的非特定人语音识别特征库，以及专为语音识别而作的硬件优化和加速设计。主要的特色功能有：非特定人语音识别技术、可动态编辑的识别关键词语列表、单芯片解决方案、高精度A/D和D/A通道、高准确度和实用的语音识别效果、可自由编辑50条关键词语。芯片的外观：内部逻辑结构如图：

汉语语音识别技术

让人与计算机自由地交谈，机器能听懂人讲话，是汉语语音识别技术最终将实现的目标。进入九十年代，语音识别方面的研究进一步升温，连续语音识别技术正趋于成熟，还出现了诸多实用化的研究方向。今后，将由连续语音识别发展到自然话语识别与理解，并着手解决语音识别中的一系列难题。难度虽然很大，但前景乐观。计算机技术的飞速发展，使人与机器用自然语言进行对话的梦想一步步接近实现。进入九十年代之后，语音识别的研究进一步升温，除了连续语音听写机之外，还出现了诸多实用化的研究方向。ibm公司率先推出的viavoice标志着大词汇量、非特定人、连续语音识别技术正在趋于成熟。今后的发展方向，将由连续语音进一步进入自然话语识别与理解，并着手解决语音识别中的一系列难题，如鲁棒性问题。难度还会加大，但前景是乐观的。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。声学特征声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。下面介绍常用的一些声学特征。线性预测系数lpc：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小lms，即可得到线性预测系数lpc。对lpc的计算方法有自相关法（德宾durbin法）、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与lpc这种预测参数模型类似的声学特征还有线谱对lsp、反射系数等等。倒谱系数cep：利用同态处理方法，对语音信号求离散傅立叶变换dft后取对数，再求反变换idft就可得到倒谱系数。对lpc倒谱（lpccep），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。 mel倒谱系数mfcc和感知线性预测plp：不同于lpc等通过对人的发声机理的研究而得到的声学特征，mel倒谱系数mfcc和感知线性预测plp是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。mel刻度是对这一临界带宽的度量方法之一。 mfcc的计算首先用fft将时域信号转化成频域，之后对其对数能量谱用依照mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换dct，取前n个系数。plp仍用德宾法去计算lpc参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行dct的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。 hmm声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型hmm是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用hmm刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状

人工智能与语音识别

语音识别及其发展本文简要介绍了语音识别技术的发展历史，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别在通信等领域中的应用。 ——机器能听懂人类的语言吗？我们能扔掉键盘、鼠标用自然语言操纵计算机吗？随着语音识别技术的发展，梦想正在变为现实。 ——语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。 ——本文将简要介绍语音识别的发展历史，采用的关键技术，面临的困难与挑战以及广阔的应用前景。 1 语音识别的发展历史 ——语音识别的研究工作大约开始于50年代，当时A T& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。 ——60年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划（DP）和线性预测分析技术（LP），其中后者较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。 ——70年代，语音识别领域取得了突破。在理论上，LP技术得到进一步发展，动态时间归正技术（DTW）基本成熟，特别是提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 ——80年代，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。HMM模型的广泛应用应归功于A T＆T Bell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统，性能相当。 ——进入90年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、A T＆T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。 ——我国语音识别研究工作一直紧跟国际水平，国家也很重视，并把大词汇量语音识别的研究列入“863”计划，由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场，国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者，研究成果已达到相当高水平。因此，国内除了要加强理论研究外，更要加快从实验室演示系统到商品的转化。