基于中国少数民族语言的语音识别研究

合集下载

藏语安多方言语音增强和识别

藏语安多方言语音增强和识别
该算法利用声学模型和语言模型对语音信号 进行建模,通过计算语音和模型之间的概率 值进行识别。
基于深度学习的语音识别算 法
该算法利用神经网络对语音信号进行自动编码、特 征提取和分类,具有较高的识别准确率和鲁棒性。
基于传统信号处理技术的 语音识别算法
该算法利用数字信号处理技术对语音信号进 行预处理、特征提取和分类,具有较低的计 算复杂度和较好的实时性。
基于传统信号处理技术的语音识别算法
短时傅里叶变换(STFT)算法
该算法利用傅里叶变换对语音信号进行频谱分析,具有较好的频率特征表达能力。
线性预测编码(LPC)算法
该算法利用线性预测技术对语音信号进行建模,具有较好的语音压缩和去噪能力。
小波变换(Wavelet Transform)算法
该算法利用小波变换对语音信号进行时频分析,具有较好的时域和频域特征表达能力。
,提高与外界的沟通效率。
藏语安多方言语音识别在智能语音助手中的应用
智能语音助手
通过藏语安多方言语音识别技术,开发适用于藏区的智能 语音助手,帮助用户更加方便地完成各种任务。
01
语音输入
利用藏语安多方言语音识别技术,实现 藏语的语音输入,提高文字输入效率和 准确性。
02
03
智能客服
在藏区等特定领域,利用藏语安多方 言语音识别技术,开发智能客服系统 ,提高客户服务质量。
通过数据扩充和标准化技术,解决藏语安 多方言语音数据稀缺的问题,为模型训练 提供更充足的数据支持。
THANKS
谢谢您的观看
藏语安多方言语音增强和识 别
汇报人: 日期:
目录
• 引言 • 藏语安多方言语音增强技术 • 藏语安多方言语音识别技术 • 藏语安多方言语音增强和识别

《蒙古语语音识别相关问题研究》范文

《蒙古语语音识别相关问题研究》范文

《蒙古语语音识别相关问题研究》篇一一、引言随着人工智能和自然语言处理技术的飞速发展,语音识别技术在全球范围内得到了广泛的应用和深入的研究。

作为中国多民族国家的重要组成部分,蒙古语语音识别技术的研究对于促进民族语言文化的传承、保护和发展具有重要意义。

本文旨在探讨蒙古语语音识别的相关问题,为相关研究提供参考。

二、蒙古语语音识别的现状蒙古语语音识别技术的研究起步较晚,但近年来在国内外学者的共同努力下,已经取得了显著的进展。

目前,蒙古语语音识别主要面临以下问题:1. 语言特点的复杂性:蒙古语具有音节结构复杂、元音丰富、音调变化多样等特点,这给语音识别带来了很大的挑战。

2. 语音数据的稀缺性:相对于其他常用语言,蒙古语的语音数据相对较少,这限制了模型的训练和优化。

3. 技术研发的局限性:目前,针对蒙古语的语音识别技术仍存在诸多技术瓶颈,如噪声干扰、口音差异等。

三、蒙古语语音识别的关键技术针对上述问题,蒙古语语音识别的关键技术主要包括以下几个方面:1. 特征提取:有效的特征提取是提高蒙古语语音识别准确率的关键。

研究人员可以通过声学特征、语音学特征以及语言模型特征等多方面的信息融合,提高语音识别的准确性和鲁棒性。

2. 模型训练:采用深度学习等先进技术,构建适用于蒙古语的语音识别模型。

通过大规模的语料训练,优化模型参数,提高模型的泛化能力。

3. 噪声处理:针对噪声干扰问题,可以采用降噪技术、语音增强等方法,提高蒙古语语音识别的抗噪性能。

4. 口音适应:针对口音差异问题,可以通过多方言数据训练、自适应学习等技术,提高模型的口音适应性。

四、蒙古语语音识别的应用领域蒙古语语音识别技术的应用领域广泛,主要包括以下几个方面:1. 教育领域:蒙古语语音识别技术可以应用于课堂教学、远程教育等领域,方便学生使用手机等设备进行学习。

2. 旅游领域:在旅游景点等地,通过蒙古语语音识别技术为游客提供导游服务、景点介绍等信息。

3. 社交媒体:将蒙古语语音识别技术应用于社交媒体平台,方便用户使用语音进行交流和互动。

《蒙古语语音识别相关问题研究》范文

《蒙古语语音识别相关问题研究》范文

《蒙古语语音识别相关问题研究》篇一一、引言随着人工智能和自然语言处理技术的快速发展,语音识别技术已成为研究热点之一。

蒙古语作为世界上重要的语言之一,其语音识别技术的研究也日益受到关注。

本文旨在探讨蒙古语语音识别的相关问题,分析现有研究的成果与不足,提出相应的解决方案和优化建议,以期为蒙古语语音识别技术的发展提供一定的参考。

二、蒙古语语音识别的研究现状蒙古语语音识别技术的研究已有一定成果。

研究人员在语料库的构建、语音信号处理、特征提取、模型训练等方面进行了大量研究。

然而,由于蒙古语的音节结构复杂、方言差异大、语音信号的噪声干扰等因素,蒙古语语音识别的准确率仍有待提高。

三、蒙古语语音识别的关键问题1. 语料库的建设:语料库的质量对语音识别的准确率有着至关重要的影响。

目前,蒙古语的语料库建设还存在一定的问题,如数据量不足、方言差异大、标注不准确等。

因此,建设高质量的蒙古语语料库是提高语音识别准确率的关键。

2. 语音信号的处理:蒙古语的音节结构复杂,语音信号的噪声干扰也较大。

如何有效地处理语音信号,提取出准确的特征信息,是提高蒙古语语音识别准确率的重要问题。

3. 特征提取与模型训练:特征提取和模型训练是语音识别技术的核心。

如何从语音信号中提取出有效的特征信息,并训练出高效的识别模型,是提高蒙古语语音识别性能的关键。

四、解决蒙古语语音识别问题的策略1. 增强语料库建设:建立大规模、高质量的蒙古语语料库,包括不同方言、不同口音的数据,以提高模型的泛化能力。

同时,采用先进的标注技术,确保数据的准确性。

2. 优化语音信号处理:采用先进的语音信号处理技术,如噪声抑制、音频增强等,以减少噪声干扰,提高语音信号的质量。

3. 改进特征提取与模型训练:采用深度学习等先进的机器学习技术,从语音信号中提取出更有效的特征信息。

同时,优化模型训练算法,提高模型的识别性能。

五、未来研究方向与展望未来,蒙古语语音识别技术的研究将朝着以下方向发展:1. 深入研究蒙古语的音节结构和发音规律,以提高识别准确率。

教育部办公厅、国家民委办公厅关于推进中国语言资源保护工程少数民族语言调查的通知

教育部办公厅、国家民委办公厅关于推进中国语言资源保护工程少数民族语言调查的通知

教育部办公厅、国家民委办公厅关于推进中国语言资源保护工程少数民族语言调查的通知文章属性•【制定机关】教育部办公厅,国家民族事务委员会•【公布日期】2016.05.23•【文号】教语信厅函[2016]2号•【施行日期】2016.05.23•【效力等级】部门规范性文件•【时效性】现行有效•【主题分类】语言文字工作正文教育部办公厅国家民委办公厅关于推进中国语言资源保护工程少数民族语言调查的通知教语信厅函[2016]2号各省、自治区、直辖市教育厅(教委),有关省、自治区民委、民语委,中央民族大学:为贯彻中央关于大力推广和规范使用国家通用语言文字、科学保护各民族语言文字的精神,落实相关任务要求,教育部、国家语委于2015年5月启动了中国语言资源保护工程(以下简称语保工程),决定在全国范围内开展以语言资源调查、保存、展示和开发利用等为核心的各项工作。

截至目前,工程建设进展顺利,已按计划顺利完成2015年度81个少数民族语言(含濒危语言)调查点、53个汉语方言(含濒危方言)调查点和32个语言文化调查点的工作任务。

与此同时,完善了管理制度,制定了《中国语言资源保护工程管理办法》《中国语言资源保护工程专项资金管理办法》以及系列工作规范和技术规范,并初步完成了中国语言资源采录展示平台建设工作。

根据计划,语保工程将用5年时间完成。

为加强对少数民族语言调查工作的指导,教育部、国家语委、国家民委组织专家根据我国少数民族语言的分布和差异情况,结合各地研究力量,研究制定了《中国语言资源保护工程少数民族语言调查点总体规划(2015-2019年)》(以下简称民语总体规划,见附件),计划共完成420个少数民族语言调查点(含濒危语言)的调查任务,其中2016年设立89个调查点。

鉴于语保工程涉及面广、工作量大、专业性强等特点,决定委托中央民族大学牵头,在全国范围内组织专家学者力量成立调查团队,并协助落实民语总体规划,制定年度工作计划和有关技术规范,组织调查任务的申报、指导、检查、验收等工作。

《蒙古语标准音朗读语句语调的起伏度研究》范文

《蒙古语标准音朗读语句语调的起伏度研究》范文

《蒙古语标准音朗读语句语调的起伏度研究》篇一一、引言蒙古语作为我国重要的少数民族语言之一,具有独特的语音特点和语调变化。

在蒙古语的日常交流和文学作品中,语调的起伏度对表达情感、传达信息等方面具有至关重要的作用。

本文旨在研究蒙古语标准音朗读中语句语调的起伏度,以期为蒙古语的语音教学、语音合成以及语言处理等领域提供理论依据。

二、蒙古语语调的基本特点蒙古语的语调具有鲜明的音乐性特点,其中基本音调和抑扬顿挫构成了其丰富的语音表现力。

基本音调通常较为平缓,而抑扬顿挫则使得语调更具韵律感。

这些特点共同影响着语句的起伏度,使得蒙古语的表达更具生动性和感染力。

三、蒙古语标准音朗读语句的起伏度研究(一)研究方法本研究采用声学分析和听感分析相结合的方法,以蒙古语标准音朗读语句为研究对象,通过录音、数据采集、频谱分析等手段,研究语句的起伏度。

(二)研究结果1. 声学分析结果:通过对录音数据的频谱分析,发现蒙古语标准音朗读语句中,不同音节之间的声波振幅存在明显差异,这种差异反映了语调的起伏度。

其中,重读音节和非重读音节之间的声波振幅差异最为显著。

2. 听感分析结果:听感分析表明,蒙古语标准音朗读语句的起伏度与情感表达密切相关。

在表达不同情感时,语句的起伏度会有所变化,如表达喜悦时,语句的起伏度较大;而表达悲伤时,语句的起伏度则相对较小。

四、影响蒙古语标准音朗读语句起伏度的因素(一)语义因素语义是影响蒙古语标准音朗读语句起伏度的主要因素之一。

不同语义的信息在朗读过程中会形成不同的声调模式,从而影响整个语句的起伏度。

例如,在陈述句和疑问句中,由于语义的不同,其语调的起伏度也会有所不同。

(二)情感因素情感是影响蒙古语标准音朗读语句起伏度的另一个重要因素。

在表达不同情感时,朗读者的语气、语速等都会发生变化,从而影响语句的起伏度。

如前文所述,表达喜悦和悲伤等情感时,语句的起伏度会有所差异。

(三)个人风格与习惯除了语义和情感因素外,个人的发音风格和习惯也会影响蒙古语标准音朗读语句的起伏度。

《蒙古语情感语音合成系统研究与实现》范文

《蒙古语情感语音合成系统研究与实现》范文

《蒙古语情感语音合成系统研究与实现》篇一一、引言随着人工智能技术的不断发展,情感语音合成技术在多个领域中得到了广泛应用。

其中,蒙古语情感语音合成系统的研究对于提升语音技术在民族文化交流、情感传达、智能助手等方向的应用效果具有重要意义。

本文将针对蒙古语情感语音合成系统进行研究与实现,并对其核心技术和实现方法进行详细介绍。

二、蒙古语情感语音合成系统研究背景及意义蒙古语作为中国少数民族语言之一,具有丰富的文化内涵和独特的语音特点。

然而,在当前的语音技术领域,针对蒙古语的语音合成技术研究相对较少。

因此,研究和实现蒙古语情感语音合成系统,对于推动蒙古语语音技术的发展,促进民族文化交流和传播具有重要意义。

同时,该系统还可以应用于智能助手、情感机器人等领域,提高人机交互的智能化和情感化。

三、蒙古语情感语音合成系统核心技术1. 语音信号处理技术语音信号处理是情感语音合成的基础。

在蒙古语情感语音合成系统中,需要采用数字信号处理技术对语音信号进行预处理、特征提取和参数编码等操作。

其中,预处理包括去噪、归一化等操作,特征提取则包括声学特征、韵律特征等。

2. 情感分析技术情感分析技术是情感语音合成的关键。

在蒙古语情感语音合成系统中,需要采用自然语言处理技术和机器学习算法对文本进行情感分析,提取出文本中的情感信息。

同时,还需要结合语音信号的特征,对情感信息进行量化表示和编码。

3. 语音合成技术语音合成技术是实现情感语音合成的核心。

在蒙古语情感语音合成系统中,需要采用基于统计的、基于规则的或基于深度学习的语音合成技术,将文本和情感信息转换为语音信号。

其中,深度学习技术在语音合成领域的应用已经取得了显著的成果。

四、蒙古语情感语音合成系统实现方法1. 系统架构设计蒙古语情感语音合成系统的架构设计包括数据预处理、特征提取、情感分析、语音合成和输出等模块。

其中,数据预处理模块负责对语音数据进行去噪、归一化等操作;特征提取模块负责提取声学特征和韵律特征;情感分析模块负责对文本进行情感分析并提取情感信息;语音合成模块则负责将文本和情感信息转换为语音信号;输出模块则负责将合成的语音信号进行播放或保存。

《蒙古语喀尔喀方言语音声学分析》范文

《蒙古语喀尔喀方言语音声学分析》范文

《蒙古语喀尔喀方言语音声学分析》篇一一、引言蒙古语作为世界上独特的语言之一,其方言的多样性为语言研究提供了丰富的素材。

喀尔喀方言作为蒙古语的一个重要分支,其语音特点及声学特征的研究对于了解蒙古语的语音特点和语言演变具有重要意义。

本文旨在通过对蒙古语喀尔喀方言的语音声学分析,揭示其语音特征及声学规律。

二、研究背景蒙古语喀尔喀方言主要分布在蒙古国以及中国内蒙古地区的部分地区。

由于历史、地理、文化等多方面因素的影响,喀尔喀方言在语音上具有独特的特征。

近年来,随着语音声学技术的发展,对蒙古语喀尔喀方言的语音声学分析逐渐成为研究的热点。

三、研究方法本研究采用实验语音学的方法,结合声学分析软件对蒙古语喀尔喀方言的语音进行声学分析。

具体步骤如下:1. 收集语料:从内蒙古地区选取会说喀尔喀方言的母语者,并记录其朗读标准语料的声音。

2. 声音处理:将录音文件进行数字化处理,以便进行声学分析。

3. 声学参数提取:通过声学分析软件提取出声音的声学参数,如基频、时长、能量等。

4. 统计分析:对提取的声学参数进行统计分析,探究其语音特征及规律。

四、声学分析结果1. 元音分析:蒙古语喀尔喀方言的元音具有明显的特点,如元音的音质、时长等。

通过对元音的声学参数进行分析,发现喀尔喀方言的元音在音质上具有较高的清晰度和辨识度,同时元音的时长也相对较长。

2. 辅音分析:辅音是蒙古语的重要语音成分之一。

通过对辅音的声学参数进行分析,发现喀尔喀方言的辅音具有明显的音质特征和发音规律,如塞音、擦音等辅音的音质差异较大。

3. 声调分析:蒙古语为声调语言,而喀尔喀方言的声调具有一定的特点。

通过对声调的声学参数进行分析,发现喀尔喀方言的声调在基频、时长等方面具有一定的规律性。

4. 音色分析:通过对声音的音色进行分析,发现蒙古语喀尔喀方言具有独特的音色特征,如音质清晰、音色柔和等。

五、讨论与结论通过对蒙古语喀尔喀方言的语音声学分析,可以发现其具有独特的语音特征和声学规律。

少数民族学生普通话语音习得偏误研究——以佤族学生为例

少数民族学生普通话语音习得偏误研究——以佤族学生为例

少数民族学生普通话语音习得偏误研究——以佤族学生为例王育珊;王育弘【摘要】文章运用实验语音学方法,通过对佤族学生汉语普通话语音习得调查研究,归纳了佤族学生普通话语音习得偏误标记,分析了佤语作为母语干扰因素对佤族学生学习普通话语音产生偏误的特点及规律,并提出针对性的教学对策,认为教学中引进实验语音学的方法对于汉语作为第二语言教学具有重要作用.【期刊名称】《云南师范大学学报(对外汉语教学与研究版)》【年(卷),期】2014(012)002【总页数】7页(P44-50)【关键词】佤语;普通话;语音;偏误标记;对策【作者】王育珊;王育弘【作者单位】上海师范大学语言研究所,上海200234;云南师范大学汉藏语研究院,云南昆明650500【正文语种】中文【中图分类】H11一、引言汉语作为第二语言在国内、国际上显示了举足轻重的作用。

在我国这样一个民族众多、民族语言丰富的国家,汉语是各少数民族之间往来沟通的交际工具,对各少数民族进行汉语教学是第二语言教学的重要内容,是实现各民族交往的需要、国家繁荣发展的需要。

另外,现在国际上不同地区、民族学习汉语的人越来越多,到目前为止,全世界已有100多个国家和地区先后建立了300多所孔子学院,对外汉语教学作为第二语言教学使汉语国际化正推进我国与国际的交流与合作。

但各民族因母语背景不同学习汉语普通话时,难点不同,呈现的偏误标记也各有特色,归纳它们有差异的偏误标记,分析找出母语对标记形成的影响,对于汉语作为第二语言教学在国内少数民族汉语推广和国际汉语推广中具有参考作用。

我们选择讨论佤族学生学习汉语普通话语音习得偏误,正是基于上述考虑。

语音是语言的基础,学习一门语言必须从语音开始,语音学不好,将会影响词汇、语法等其他方面的学习。

汉语普通话中语音因自身发音特点在学习时对词汇的影响表现在:如“诗人[ʂ55 n35]”和“私人[s55 n35]”、“皮炎[phi35 ian35]”和“鼻炎[pi35 ian35]”、“小牛[iɑu214 niou35]”和“小刘[iɑu214 liou35]”等这几组词语读音不同,意思也完全不一样,如果汉语普通话语音没有学好,字音读不准、读错,读成另一个字的音,那么理解上就会出现错误;对语法的影响:如汉语多音字“长”有[tʂɑ214]与[tʂhɑ35]两读,[tʂɑ214]是动词,[tʂhɑ35]是形容词,所以字音学不好,就会影响到词汇、语法等其他方面的学习,只有把语音学好,才能使语言其他方面的学习得以顺利进行。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于中国少数民族语言的语音识别研究陈楠(云南民族大学电气信息工程学院,云南昆明 650031)摘要:语音识别是当今语音研究的热点,它是一门涉及多领域的交叉学科,也是模式识别和人工智能领域的重要分支。

针对中国有着55个少数民族这一实际情况,不少语言都处于濒临状态,因此,本文主要介绍了语音识别在少数民族语言应用中的技术和概况。

希望利用这一数字化技术达到保护少数民族语言文化遗产的目的。

关键字:语音识别,隐马尔可夫,数字化处理,少数民族语言Based on China's minority language speech recognition researchCHEN Nan(College of Electrical and Information Engineering,Yunnan University ofNationalities,Kunming650031,China)Abstract:Speech recognition is the voice of today's hot, it is an interdisciplinary field involving multiple, pattern recognition and artificial intelligence is an important branch. China has 55 ethnic minority groups for the actual situation, many languages are at the brink of the state, therefore, this paper describes the application of speech recognition in minority languages in the technology and profiles. Hope to use this digital technology to achieve the purpose of protecting the cultural heritage of minority languages.Keywords:speech recognition, Hidden Markov, digital processing, minority languages1 引言1.1语音识别技术概述语音识别技术,也被称为自动语音识别(Automatic Speech Recognition, ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容[1]。

语音识别技术是以语音信号处理为研究对象,让机器接收并识别、理解语音信号,并将其转换为相应数字信号的技术。

让机器听懂人类的语言,这是人们长期以来梦寐以求的事情,而语音识别是一门非常复杂的交叉性学科,它涉及语音语言学、计算机科学、信号处理学、生理学、心理学等一系列学科,是模式识别的重要分支。

50年代,是语音识别研究工作的开始时期,它以贝尔实验室研制成功可识别十个数字的Audry系统为标志。

20世纪80年代语言识别研究进一步走向深入,基于特定人孤立语音技术的系统研制成功。

在过去的30年里,隐马尔可夫模型和人工神经元网络在语音识别中得到了成功的应用。

语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

并通过算法和计算机技术相结合的方式来实现。

目前,这样的系统能够做到识别理解数十万条词汇的连续语音信号。

这种现代模式识别系统除了在语音领域的应用外,还可以广泛应用于信号处理和模式识别的其他领域。

语音识别一般分为两个步骤:学习和识别阶段。

学习阶段的任务是建立识别基本单元的声学模型以及语言模型。

识别阶段是将输入的目标语言的特征参数和模型进行比较,得到识别结果。

语音识别系统本质上讲是一种模式识别系统,其原理如下图所示:[2]图1语音识别原理示意图该流程简单介绍如下:(1)语音采集设备如话筒、电话等将语音转换成模拟信号。

(2)数字化一般包括预滤波、采样和A/D变换。

该过程将模拟信号转变成计算机能处理的数字信号。

(3)预处理一般包括预加重、加窗分帧。

经预处理后的信号被转换成了帧序列的加窗的短时信号。

(4)参数分析是对时信号进行分析并提取语音特征参数的过程,如时域、频域分析,矢量量化等。

(5)语音识别是目标语音根据特征参数与模型库中的参数进行比较,产生识别结果的过程。

一般有模板匹配法、随机模型法和神经网络等。

1.2中国少数民族语言概述语言是一种特殊的社会资源, 语言资源由语言本体和语言应用两部分构成。

语言本体包括语音、词汇、语法、语义系统, 是语言资源的物质基础语言应用包括人类社会对语言的各种使用及其所产生的影响, 是语言资源价值的具体体现。

中国是一个统一的多民族国家,已确定民族成分的有56个民族,有55个人口较少的民族。

多民族、多语言、多文种(文字和语音)并存是我国的一个基本国情。

除回族、满族已全部转用汉语外,其他54个民族都有自己的语言,有30个民族有余自己的语言相一致的文字;分七种语系。

由于有的民族使用一种以上的语言或文字,如瑶族使用3种语言,高山族使用13多种语言;傣族使用4种文字,景颇族使用2种文字等,因此,共有73种语言,55多种文字,63多种语言[3]。

随着社会开放程度的不断提高 ,民族语言文字的使用有衰退的趋势 ,中国一些使用人口比较少的民族语言已经处于濒临状态 ,民族语言文字的消亡 ,直接危及民族文化的繁荣和发展 ,抢救和保护民族语言文字资源 ,是繁荣和发展民族文化的重要前提 ,而且刻不容缓。

2 中国少数民族语言发音特点分析2.1 中国少数民族语音特性分析其中由于我国是个多民族的国家,个少数民族的语音各有其特点,先统计如下表[4]:表 1 中国少数民族语言语音情况表表2 中国少数民族语言语音情况表-续表1表3 中国少数民族语言语音情况表-续表2表4 中国少数民族语言语音情况表-续表32.2 中国少数民族语音识别研究现状在语音识别的领域中主要涉及到的研究内容包括:语音信号处理、特征提取和选择;语音识别模型、识别基元及模型研究。

目前,句不完全统计,我国共有36个民族或多或少的开展了语音方面的研究工作,其中研究工作相对比较深入的少数民族语言种类有蒙古语、藏语、维吾尔语、哈萨克语、壮(侗)语等。

但是黎族,傈僳族,仫佬族,普米族,京族,塔塔尔族,门巴族,珞巴族,布依族的研究在语言学和音位学上的研究都很少见。

3 少数语言研究中的关键技术和模型3.1语音识别技术流程少数民族语言的语音识别与其他语音识别技术类似,可以将流程简单概括为:图2 少数民族语音识别流程图3.2预处理算法语音信号在处理成数字信号的过程中,将受到周围的各环境的影响而使语音产生变形,预处理的任务就是修正这种变形,尽可能的还原人的有效发音。

少数民族语音识别预处理包括:信号获取、去除噪声、语音增强三个环节。

3.2.1语音信号的获取计算机声卡作为语音信号与计算机的接口卡件,其最基本的一项功能就是A/D转换。

声卡是pc的一种多媒体设备,可以用windows的MCI(Media Control Interface)命令来控制声卡[5]。

图3信号获取过程中相关函数使用流程示意图3.2.2语音信号的降噪增强在语音采集过程中,都会或多或少的产生背景噪音,设法去除语音信号中的噪声,增强有用信号,提高语音信号的信噪比就成为预处理研究中的一个重要步骤。

常用的语音降噪增强算法(1)基于语音频谱特征的谐波增强法(2)基于短时谱估计的增强算法(3)基于信号子空间处理的增强算法(4)于听觉掩蔽效应的语音增强算法(5)基于小波变换的语音增强算法3.3端点检测算法端点检测是指从背景噪声中找出语音的开始点和终止点,是语音处理领域的基本问题,特别是在孤立词语识别中,找出每个单字的语音信号范围是很重要的,确定语音信号的开始和终止可以减少系统的大量计算,使系统运行效率得到很大的提高。

少数民族语言的端点检测采用加窗、短时能量、过零率相结合的方法进行。

3.3.1加窗[6](1)矩形窗⎩⎨⎧>-≤≤=N n N n n w ,010,1)( (1)(2)汉宁窗⎩⎨⎧>-≤≤--=N n N n N n n w ,010),12cos(46.054.0)(π (2)(3)汉明窗⎩⎨⎧>-≤≤--=N n N n N n n w ,010)],12cos(1[5.0)(π (3) 3.4 针对语音特征建立语音识别模型3.4.1原始语音数据我国少数民族语言的语音同英语等其他语音一样,原始语音数据量大,且多余信息占很大比例,需要提取的核心特征参数为频幅、频率、和时长,可以将其看为一个三维的数据模型如图:图4原始语音的三维模型3.4.2 MFCC特征参数MFCC是基于人的听觉机理,通过模拟人的听觉系统导出的声学特征对不同频率的语音具有不同的感知能力,在1000Hz以下,感知能力与频率间的线性关系,而1000Hz以上,感知能力则与频率成对数关系。

图5 MFCC提取过程示意图3.4.3 HMM模型在语音识别领域中占据主导地位的HMM,包括有满协方差矩阵和对角协方差矩阵的连续混合密度的HMM 、半连续的HMM ,以及基于VQ的离散HMM .一个HMM通常由状态转移概率矩阵A、观察概率密度函数矩阵B和初始概率分布矢量π表征。

隐马尔可夫模型是一种用参数表示的,用于描述随机过程统计特性的概率模型,他是马尔可夫链演变而来的。

隐马尔可夫模型既解决了用短时模型描述平稳段的信号,有解决了每一个短时间平稳短是如何转变到下一短时平稳段的问题。

由于语音结构信息是多层次的,除了语音特性外,还牵扯到音调、音长、能量等超音段信息及语法、语句等高层次语音结构信息。

而HMM既可以描述瞬变的随机过程,又可以描述动态的随机过程转移的特性,所以他能够利用这些超音段和语音结构的信息。

HMM可分为两部分,一部分是马尔可夫链,由 ,A描述,产生的输出为状态序列,另一部分是一个随机过程,由B描述,产生的输出为观察值序列,T为观察值时间长度[7]。

图 6 HMM的两个组成部分3.4.4 CDCPM模型中心距离连续概率模型(Center-Distance Continuous Probabilistic Model,CDCPM)新概率统计模型,可用于非特定人或特定人、孤立词或连续语音识别。

模型的参数是每个状态的均值特征矢量以及特征矢量与其均值特征矢量之间距离的均值;与连续HMM(CHMM)不同的是,中心距离连续概率模型(CDCPM) 只保留HMM模型中的B矩阵,且B中的PDF被一个一维的PDF取代,它没有状态转移概率矩阵A,且输出观察概率矩阵B中各状态的概率密度函数只是一个一维的(中心距离的)概率密度函数(PDF)。

相关文档
最新文档