机器人大作业

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音系统在机器人中的应用

07机电2班

组员:吴斯栋、李敏裕

马李、林荣毅

(一)语音系统的进展概况

语音合成与识别技术是智能机器人领域的一个重要研究方向，也是智能机器人的一项关键技术。多年来国际国内都有大量的科技工作者致力于这方面的研究开发工作，因而对许多问题的认识与求解都取得了长足的发展。

机器人“robot”一词起源于捷克语，意为强迫劳动力或奴隶。1921年，捷克剧作家KarlCapeek在剧本《Rossum，SUnivesralRobots》中，描述了一个具有人的外表，特征和功能的机器，并命名为认Robota。英语的Robot，一词就是由此演变而来的。基本上，一个机器人包括:机械设备，如可以与周围环境进行交互的车轮平台、手臂或其它构造。设备上或周围的传感器，可以感知周围环境并向设备提供有用的反馈。根据设备当前的情况处理传感输入，并按照情

况指示系统执行相应动作的系统。

语音识别和语音合成技术是一种人机语言通信技术，属于计算机智能接口技术。多媒体技术也主要是利用计算机语音处理和图象处理的能力为人们提供一种更加方便，直观的人机界面。机器人技术和语音技术的结合就成为了一项新的技术课题:智能语音机器人。人们一直以来对自由交流方式的本能渴望正是语音识别技术坚定不移的发

展动力。自从工业革命以来，各种机械化设备虽然提高了劳动生产率，创造了巨大的物质财富，但是我们在面对它们时却不得不放弃最习惯、最自然的沟通方式一一自然语言。因此，我们从来就没有放弃过这样一个梦想:让机器与人之间也能像人与人之间一样进行交流。而成就人类这种梦想的最关键技术之一就是语音识别与合成技术。

今天，随着语音识别技术已经取得了巨大的进展。一些智能语音机器人技术已经开始得到广泛的应用，具有语音识别功能的产品也不断出现，这些都标志着智能语音机器人技术距离人类的日常生活己经越来越近了。我国的语音识别技术研究起步并不晚，但由于各种客观条件的限制，早期的研究工作进展缓慢。上个世纪80年代中期以后，在国家怡63计划，I的积极推动和国内各科研机构的艰苦努力下发展迅速，它经历了从特定人到非特定人、从小词表到大词汇量、从孤立字到连续语音的发展历程。在汉语语音识别市场，目前居于领先地位的仍是IBM。IBM依赖于OEM和二次开发商很快占领了大部分的市场份额，已经将汉语语音识别技术应用在电信和呼叫中心之中。我国台湾声硕公司的汉语连续语音输入系统、，说亦通刀在台湾市场占据了60%的份额，并从1999年开始已逐步进入大陆市场。新技术的迅速发展也造就了一批专业化的核心技术厂商，如L&&H、oragon、SPeeehworks、Nonauee、InOfWork等等。他们凭借着手中掌握的语音识别技术也在语音市场中占据了一席之地。国外一些知名公司都推出了相应的语音识别产品。国内的语音识别研究的机构并不少，比较著名的有清华大学电子工程系语音识别实验室、中科院自动化所模式

识别实验室、清华大学计算机系人工智能实验室、中科院声学所等等。除了这些研究机构在国家各种科技发展计划和基金的支持，致力于语音识别技术研究的同时，也有一些公司企业在开始从事技术应用化的一些工作。但从目前来看，能够真正进入核心技术全面产品化阶段的单位并不多。

(二)语音系统在机器人中的应用

采用人工合成的声音向人们传递各种警告和信息已有很长的时间，如微波炉用声音告诉人们食品已做好；现代的机器人与人类间的语言交流等。

机器人实现语言功能一般有两种方法，一是采用现成语音芯片，把预先录制好的自然声音（可以是各种语言）录入芯片中，根据程序调用特定的地址，实现机器人的语音功能，采用这种方法的机器人只能发出有限的几句话。如果使机器人根据使用者的要求发出无限句语言，则需要采用另一种方法。该方法是通过在芯片中储存一个一个的语音音素，通过编程按一定的顺序调用这些语音音素，这些语音音素巧妙地合成一个个英文单词，实现语音功能。该方法能够实现机器人发出各种提示音，比如，HERO-I机器人便是运用声音合成器来实现其说话功能的，其中声音合成器能产生英语所需要的64个基本语音（音素），通过适当地编程将不同的语音列在一起，可使HERO-I的声音合成器模拟人的说话（英语）。

单音是语言的最小单元，把单音根据一定的规则连起来就构成语言。但是一个单音在一个单词或一个词组中的位置可以改变它的发

音。这种改变的原因是共发音，如：“pan”和“pin”中的“p”的发音是不同的，这是因为在发“p”的时候预想着在说“an”或“in”，因而为了更容易发接着的单音而修饰前一个单音的发音。由于共发音或者其它因素而被修饰的单音叫同分异构音，把单音稍微变动一下构成的新的声音叫同素异构音。把所有的具有同样功能的单音和同分异构音（如pan 和pin 中的p）及同素异构音（如“phonetics”中

的“p”发音来自“f”而不是“p”）构成音素。音素是让听者能区别一个单词和另一个单词的声音的。

电合成语言的方法有单词存储和音素存储。用单词存储只能存有限的几个，而常用的是音素存储。因为音素是语言建筑的基本元件，所以要产生语言，只要将存储在存储器内的音素按正确的次序串接在一起，然后将音素串作用到音素合成器（pss）再生出语音。这样PSS 可用最小的存储空间合成无限的词汇。

使用音素合成器的最大困难是如何把音素串接在一起以产生一个单词。同一个字母在不同的单词中发音不同，如元音“a”在“name"中发长音，但在“father”中要发短音，可见有些字母的音素不止一个。要根据具体的发音来决定音素。任意的几个音素组合起来可构成成千上万个基本单词。

音素串是使合成器发出正确单词的基本条件，确定音素串时要识别单词中包含声音的数和型。在一个英语单词中，有至少1 个元音或1个元音和几个辅音的组合。写音素串时首先大声并小心地读这个单词，留意在声音之间的停顿、长短和休止，然后再用音素转换表中合

适的符号来识别出每个声音的搭配。在构成音素串时，在单词的首位加上休止或空格是非常有必要的，这个休止（无声音）是用来简单地保证在音素串中的多个单词不要碰在一起。无声音“PAO”是47ms的时间延续，“PAI”是185ms的较长的时间延续。如果希望要更长的时间，可简单地重复这2个音素符号之一。

大多数微处理器不能直接识别音素符号，一般是采用将标准的音素符号翻译成微处理器输入/ 输出（I/O）代码的方法（即十六进制音素代码）。如“Hello”的十六进制音素代码为“3E 1B 3B 18 35 37 3E”，这7个代码输入计算机后机器人就会发出“Hello”的声音。

如果只是使用标准音素来编写“hello”的程序，写成“PAI H EH L OI IU PAI”，合成器可以正常地工作的，但这个声音是非常单调刻板的。音素合成器可以用指令来改变任何单调的声音，也可以把一个基本句子的意义转换而产生叙述句、感叹句或问句。

HERO-I 机器人对每个音素有4个音调水平，用数字0-3来表示，0 是对于任何音素符的，不作注明。人们可用软件来直接输入4个音调的升降水平。在代码上通过简单的加40，80，C0可分别使音调提高1级、2级、3级。

在HERO-I机器人中，使用了一个单片语音合成器SC-01，它可提供串接音素的最佳声音质量。

SC-01语音合成芯片的技术指标为:

（1）电源电压：Vp=7-14V

（2）时序源：可以用SC-01内部的时序发生器工作，也可用一个外部