语音分析与语音处理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音与语音信号

语音是人类获取信息的重要来源和利用信息的重要手段。语音信号处理是一门发展十分迅速、应用非常广泛的前沿交叉学科,同时又是一门跨学科的综合性应用研究领域和新兴技术。现代语音信号系统包括语音信号采集单元和语音信号处理单元。

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等学科也有非常密切的联系。

从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。在高度发达的信息社会用数字化的方法进行语音的传送、存储、识别、合成、增强等是整个数字化通信网中的重要组成部分之一。同时,语言不仅是人类相互间进行沟通的最自然和最方便的形式,也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为计算机、自动化系统等建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化和自动化程度。

其中语音信号处理的一个重要的部分是频谱分析。有趣的是,人类对变化的频率比对变化的本身更要敏感得多。人耳对声音敏感的不是声波本身而是声波的频率,例如男声、女生和低音、高音等。所谓频谱分析就是周期性分析,频谱估计就是周期性估计。频谱分析和估计不仅是揭示信号特征的重要方法,也是处理信号的重要手段。这些方法和手段己经广泛地应用于通信、雷达、地震、生物医学、物理、化学、音乐、经济等领域。如此广泛的应用主要归功于数字信号处理(DSP)理论和技术的进步。自从1965年图基(J.W.Tuky)和库利(T.W.Coody)在《计算机数学》杂志上发表了著名的《机器计算傅立叶级数的一种算法》论文后,桑德(G.Sand)——图基等快速算法相继出现,由经人们进行改进,很快形成一套高效运算方法,这就是现在的快速傅立叶变换,简称(FFT)。由于实现方法的限制,这些理论还得不到广泛得应用。直到20世纪80年代,世界上第一片单片可编程DSP(数字信号处理)芯片的诞生,才将理论研究成果广泛应用到低成本的实际系统中,并且推动了新的理论和应用领域的发展,并为各式各样的频域问题,提供了一个统一的、经济的、单片继承的解决办法。

2.1 语音信号的特点

构成人类语音的是声音,然而这是一种特殊的声音,是由人讲话所发出的声音。语音是由一连串的音所组成。语音具有被称为声学特征的物理性质。语音中的各个音的排列由一些规则所控制,对这些规则及其含意的研究属于语言学的范畴,而对语音中音的分类和研究则称为语音学。

语音既是人的发音器官发出来的一种声波,它就个其他各种声音一样,也具有声音的物理属性。它具有以下一些特性:

①音质。它是一种声音区别与其他声音的基本特征。

②音调。就是声音的高低。音调取决于声波的频率:频率快则音调高,频率慢则音调低

③声音的强弱。音强及音量,又称响度。它是由声波振动幅度决定的。

④声音的长短。也称音长,它取决于发音持续时间的长短。

语音信号最主要的特性是随时间而变化的,是一个非平稳的随机过程。但是,从另一方面看,虽然语音信号具有时变特性,但在一个短时间范围内其个性基本保持不变。这是因为人的肌肉运动有一个惯性,

从一个状态到另一个状态的转变是不可能瞬间完成的,而是存在一个时间过程。在没有完成状态转变时,可从近似认为它不变。只要时间足够短,这个假设是成立的。在一个较短的时间内语音信号的特征基本保持不变,这是语音信号处理的一个重要出发点。因而我们可以采用平稳过程的分析处理方法来处理语音。

2.2语音信号处理的主要方式

根据所分析的参数不同,语音信号分析又可分为时域、频域、倒频域等方法。时域分析具有简单、运算量小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起很小的作用。傅立叶分析在信号处理中具有十分重要的作用,它是分析线性系统和平稳信号稳态特性的强有力手段,在许多工程和科学领域得到了广泛的应用。这种以复指数函数为基函数的正交变换,理论上和完善,计算上很方便,概念上易于理解。傅立叶分析能是信号的某些特性变得很明显,而在原始信号中这些特性可能没有表现出来或至少不明显。

然而,语音波是一个非平稳过程,因此使用与周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号。前面已提到,我们可以采用平稳过程的分析处理方法来处理语音。对语音处理来说,短时分析的方法是有效的解决途径。短时分析方法应用于傅立叶分析就是短时傅立叶变换,即有限长度的傅立叶变换,相应的频谱称为“短时谱”。语音信号的短时谱分析是以傅立叶变换为核心的,其特征是频谱包络与频谱微细结构以乘积的方式混合在一起,另一方面是可用FFT进行高速处理。语音信号处理基本分为两种分析方法:数字信号处理和模拟信号处理。而目前对语音信号处理均采用数字处理,这是因为数字处理与模拟处理相比具有许多优点。其表现为:

①数字技术能够完成许多很复杂的信号处理工作;

②通过语音进行交换的信息本质上具有离散的性质,因为语音可以看作是音素的组合,这就特别适合于

数字处理;

③数字系统具有高可靠性、廉价、快速等优点,很容易完成实时处理任务;

④数字语音适于在强干扰信道中传输,也易于进行加密传输。因此,数字语音信号处理是语音信息处理

的主要方法。

2.3 语音信号处理系统的一般结构

语音信号处理系统首先需要信号的采集,然后才进行语音信号的处理,其一般结构如下:

根据采集信号的不同,可分为模拟信号和数字信号,其处理系统也可分为模拟处理系统和数字处理系统。如果加上模数转换和数模转换芯片,模拟处理系统可处理数字信号,数字处理系统也可处理模拟信号。由于数字信号处理比模拟信号处理具有许多不可比拟的优越性,大多数情况都采用数字处理系统。

听觉的掩蔽效应

掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较不为敏感。例如在声音的整个频率谱中,如果某一个频率段的声音比较强,则人就对其它频率段的声音不敏感了。应用此原理,人们发明了mp3等压缩的数字音乐格式,在这些格式的文件里,只突出记录了人耳朵较为敏感的中频段声音,而对于较高和较低的频率的声音则简略记录,从而大大压缩了所需的存储空间。在人们欣赏音乐时,如果设备对高频响应得比较好,则会使人感到低频响应不好,反之亦然。

一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。

相关文档
最新文档