盲语音信号分离开题报告

盲语音信号分离开题报告
盲语音信号分离开题报告

山东建筑工程学院毕业论文开题报告

基于dsp的语音信号采集与回放系统的设计--开题报告

HEFEI UNIVERSITY 课程设计开题报告 题目:《基于DSP系统的语音采集与回放系统》 专业:11 级电子信息工程 姓名:章健吴广岭何志刚 学号:1105011029 1105011030 1105011044 指导老师:汪济洲老师 完成时间:2014年12月1日

一、开题报告题目 基于DSP系统的语音采集与回放系统。 二、研究背景与意义 语音处理是数字信号处理最活跃的研究方向之一,它是信息高速公路、多媒体技术、办公自动化、现代通信及职能系统等新兴领域应用的核心技术之一。用数字化的方法进行语音的传送、存储、分析、识别、合成、增强等是整个数字化通信网中的最重要、最基本的组成部分之一。一个完备的语音信号处理系统不但要具有语音信号的采集和回放功能, 还要能够进行复杂的语音信号分析和处理。通常这些信号处理算法的运算量很大, 而且又要满足实时的快速高效处理要求, 随着DSP 技术的发展, 以DSP 为内核的 设备越来越多。为语音信号的处理提供了优质可靠的平台. 软件编程的灵活性给很多设备增加不同的功能提供了方便, 利用软件在已有的硬件平台上实现不同的功能已成为 一种趋势。近年来,随着DSP的功能日益增强,性能价格比不断上升,开发手段不断改进,DSP在数据采集系统的应用也在不断完善。 三、主要内容与目标 随着计算机多媒体技术,网络通信技术和DSP(Digital Signal Processor)技术的飞速发展,语音的数字通信得到越来越多的应用,语音信号的数字化一直是通信发展的主要方向之一,语音的数字通信和模拟通信相比,无疑有着更大的优越性,这主要体现在以下几个方面:数字语音比模拟语音具有更好的话音质量;具有更强的干扰性,并易于加密;可节省带宽,能更有效的利用网络资源;更加易于存储和处理。最简单的数字化就是直接对原始语音信号进行A/D 转换,但这样得到的语音的数据量非常大。为了减少语音信号所占用的带宽或存储空间,就必须对数字语音信号进行压缩编码。语音编码的目的就在于在保证语音音质和可懂度的条件下,采用尽可能少的比特数来表示语音,即尽可能的降低编码比特率,以便在有限的传输带宽内让出更多的信道来传输图像和其他数据流,从而达到传输资源的有效利用和网络容量的提高。在通信越来越发达的当今世界,尤其最近几十年,语音压缩编码技术在移动通信、IP 电话通信、保密通信、卫星通信以及语音存储等很多方面得到了广泛的应用。 语音信号处理在手持设备、移动设备和无线个人设备中的应用正在不断增加。今天的个人手持设备语音大多时候仅仅局限于语音拨号,但是已经出现了适用于更广泛开发语音识别和文本到语音应用的技术。语音功能为用户提供自然的输入和输出方式,它比其他形式的I/O更安全,尤其是当用户在开车期间。在大多数应用中,语音都是键盘和显示器的理想补充。其他潜在的语音应用包括如下几个方面。 (1)语音电子邮件。包括浏览邮箱、利用语音输入写电子邮件以及收听电子邮件的读出。 (2)信息检索。股票价格、标题新闻、航班信息、天气预报等都可以通过语音从互联网收听。例如,用户不用先进入某个网址并输入股票名字或者浏览预定义列表,可以通过语音命令实现。 (3)个人信息管理。允许用户通过语音指定预约、查看日历、添加联络信息等等。 (4)语音浏览。利用语音程序菜单,用户可以在网上冲浪、添加语音收藏夹并收听网页内容的读出。 (5)语音导航。在自动和人眼不够用的条件下获取导航的完全语音输入/输出驾驶

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名:

实验一 基于MATLAB 的语音信号时域特征分析(2学时) 1) 短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2) ,legend('N=32'); elseif (i==3), legend('N=64'); elseif (i==4) ,legend('N=128'); elseif (i==5) ,legend('N=256'); elseif (i==6) ,legend('N=512'); end end 00.51 1.52 2.5 3 x 10 4 -1 100.5 1 1.5 2 2.5 3x 10 4 024 N=3200.5 1 1.5 2 2.5 3x 10 4 05 N=6400.5 1 1.5 2 2.5 3x 10 4 0510 N=12800.5 1 1.5 2 2.5 3x 10 4 01020 N=2560 0.5 1 1.5 2 2.5 3x 10 4 02040 N=512 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32;

for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2), legend('N=32'); elseif (i==3), legend('N=64'); elseif (i==4) ,legend('N=128'); elseif (i==5) ,legend('N=256'); elseif (i==6) ,legend('N=512'); end end 00.51 1.52 2.5 3 x 10 4 -1 100.5 1 1.5 2 2.5 3x 10 4 012 N=3200.5 1 1.5 2 2.5 3x 10 4 024 N=6400.5 1 1.5 2 2.5 3x 10 4 024 N=12800.5 1 1.5 2 2.5 3x 10 4 0510 N=2560 0.5 1 1.5 2 2.5 3x 10 4 01020 N=512 2) 短时平均过零率 a=wavread('mike.wav'); a=a(:,1); n=length(a); N=320; subplot(3,1,1),plot(a); h=linspace(1,1,N); En=conv(h,a.*a); %求卷积得其短时能量函数En subplot(3,1,2),plot(En); for i=1:n-1 if a(i)>=0 b(i)= 1;

语音信号的盲分离

课程设计任务书 学生:专业班级:通信1103 指导教师:许建霞工作单位:信息学院 题目: 语音信号的盲分离 初始条件:Matlab软件、PC机 要求完成的主要任务:(包括课程设计工作量及其技术要求,以及说明书撰写等具体要求)设计任务 根据盲信号分离原理,用matlab采集两路以上的语音信号,选择合适的混合矩阵生成若干混合信号。选取合适的盲信号分离算法(如独立成分分析ICA等)进行训练学习,求出分离矩阵和分离后的语音信号。 设计要求 (1) 用matlab做出采样之后语音信号的时域和频域波形图 (2) 选择合适的混合矩阵,得到混合信号,并做出其时域波形和频谱图 (3) 采用混合声音信号进行训练学习,求出分离矩阵,编写出相应的确matlab代码。 (4) 用求出的分离矩阵从混合信号中分离出原语音信号,并画出各分离信号的时域波形和频谱图。 (5) 对结果进行对比分析。 时间安排:

指导教师签名:2014年 6 月10 日 系主任(或责任教师)签名:2014 年 6 月10 日 摘要 盲信号处理(Blind Signal Processing,BSP)是指从观测到的混合信号中,在没有任何先验条件的情况下,恢复出未知的源信号过程。盲信号分离已成为信号处理学界和通信工程学界共同感兴趣的一个极富挑战性的研究热点问题,并获得了迅速的发展。 盲分离根据信号源的不同可以分为确定信号盲分离、语音信号盲分离和图像盲分离等,本设计主要讨论语音信号的盲分离。 语音信号的盲分离主要是利用盲源分离(Blind Signal Separation,BSS)技术对麦克风检测到的一段语音信号进行处理,本文重点研究了以语音信号为背景的盲处理方法,在语音和听觉信号处理领域中,如何从混有噪声的的混叠语音信号中分离出各个语音源信号,来模仿人类的语音分离能力,成为一个重要的研究问题。根据盲信号分离原理,本设计用matlab采集3路语音信号,选择合适的混合矩阵生成若干混合信号。 具体实现主要结合独立分量分析ICA技术,选取混合矩阵对3个语音信号进行混合,并从混合信号中分离出原语音信号,最后画出各分离信号的时域波形和频谱图和原来的信号进行比较。此外还运用PCA算法进行了混合语音信号的分离实现,最终对两种算法进行比较。 关键字:盲信号处理;语音信号;盲源分离BSS;独立分量分析ICA技术

盲源分离 开题报告

一、研究背景及意义 语音信号的分离近年来成为信号处理领域的一个研究热点,它在电话会议、助听器及便携设备、机器的语音识别方面有很多的应用与影响。而语音信号常使用盲信号处理的方法分离。 盲信号处理(Blind Source Processing)作为一种新兴的信号处理方法,逐步发展并得到了越来越多的关注。盲信号处理与现代信号处理朝向非平稳、非高斯、非线性的发展方向相吻合,有利于复杂信号的分析以及处理,其研究对象主要为非高斯信号。它在传统信号处理方法的基础上结合了信息论、统计学和人工神经网络的相关思想。如图1所示,所谓的“盲分离”是指在没有关于源信号本身以及传输信道的知识,对数据及系统参数没有太多先验知识的假设的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。它能适用于更广泛的环境,为许多受限于传统信号处理方法的实际问题提供了崭新的思路。 图1 盲分离的概念 在科学研究和工程应用中,很多观测信号都可以假设成是不可见的源信号的混合,如通信信号、图像、生物医学信号、雷达信号等等。例如经典的“鸡尾酒会”问题,在一个充满宾客的宴会厅里,我们每个人都会听到来自不同地方的声音,如音乐,歌声及说话声等,正常的人类拥有在这种嘈杂环境下捕捉到所感兴趣的语音的能力。可以看到,盲信号处理同传统信号处理方法最大的不同就在于用它致力于用最少的信息得到理想的处理结果。

盲信号分离可以有不同的分类方法。 根据所处理信号的不同,可以分为声纳信号盲分离,雷达信号盲分离,通信信号盲分离,语音信号盲分离,脑电信号盲分离等。 根据盲处理领域的不同,可以分为时域盲分离和频域盲分离。 根据传输信道的情况,可以分为无噪声,有加性噪声,有乘性噪声等。 根据源信号在传输信道中被混合方式的不同,可以分为瞬时混合,卷积混合,非线性混合等。 根据源信号和观测信号数目的不同,可以分为正定盲分离,欠定盲分离,过定盲分离等。 本文研究的主要内容是正定不含噪的卷积混合语音信号的频域盲分离 方法。 总的来说,盲信号分离是一种仅利用观测到的混合信号来估计源信号的方法,它是以独立分量分析(Independent Component Analysis,ICA)为理论基础的。与传统信号处理方法如FIR 滤波,小波分析等不同的是,它不要求有关于源信号本身以及信号传输通道的知识。受益于这种“盲”的条件,盲信号分离对多个领域有很大的促进作用,特别是它在声纳、雷达、通信、语音、图像等方面的应用对军事,国防科技的发展起着非常重要的作用。近十多年来,各国学者在盲信号分离领域展开了深入的研究,有了一系列的成果。本课题就是在这样的背景下对语音信号进行盲分离的研究,以探索新的算法,新的应用。 二、研究的基本内容,拟解决的主要问题 1.研究的基本内容 本课题详细研究语音分离的基本理论,重点研究卷积混合频域解法模型框架下的语音信号分离算法。 基于时域实值瞬时混合模型的盲分离算法已经研究的比较充分,但是在语音信号在现实中往往是卷积混合,而且在频域分离方法中信号是复值的,本文将研究利用复值信号特征的瞬时混合盲分离算法,对不同的复数域盲分

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

《语音信号处理》实验报告材料

实用 中南大学 信息科学与工程学院 语音信号处理 实验报告 指导老师:覃爱娜 学生班级:信息0704 学生名称:阮光武 学生学好:0903070430 提交日期:2010年6月18日

实验一 语音波形文件的分析和读取 一、实验的任务、性质与目的 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验: (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 二、实验原理和步骤: WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV文件中,道0代表左声道,声道1代表右声道;在多声道WAV文件中,样本是交替出现的。WAV文件的格式见表1。

语音信号虚拟分析仪开题报告

燕山大学 本科毕业设计(论文)开题报告 课题名称:语音信号虚拟分析 仪 学院(系):里仁学院电子工程 系 年级专业:08 电子信息工程 学生姓名:徐柳坡 指导教师:孟玲玲 完成日期:2012.03.16

一、综述本课题国内外研究动态,说明选题的依据和意义 语音信号处理分析的发展可以说是从1940年前后Dudley的声码器和Potter等人的可见语音开始的;20世纪60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速傅立叶变换等成为语音信号数字处理的理论和技术基础;到了80年代,由于矢量量化、隐马尔可夫模型和人工神经网络等相继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性的进展。进入90年代以来,语音信号处理在实用化方面取得了许多实质性的进展。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。 笔者研究本课题是因为信号处理技术几乎涉及到所有的工程技术领域,而频谱分析正是信号处理中一个非常重要的分析手段。基于LabVIEW的虚拟频谱分析仪由数据采集、信号分析和处理、结果输出显示3大部分组成。利用I/O接口设备完成信号的采集,数据分析和处理则由LabVIEW软件完成。 语音信号分析有非常重要的意义。信号处理几乎涉及到所有的工程技术领域,如,军事,航空航天,生物医学等。而频谱分析正是信号处理中一个非常重要的分析手段。 总之,研究用LabVIEW分析语音信号既具有学术价值也具有实际应用价值。 二、研究的基本内容,拟解决的主要问题 研究的基本内容:利用声卡,在计算机上开发虚拟仪器功能,实现音频信号分析及特性参数测试。 软件设计:波形显示,电压测量,频谱分析及典型参数计算。主要使用LabVIEW图形化编程语言来代替传统仪器对被测信号进行采集、分析处理以及对测量结果的表达与输出。 最后,输入信号调理。对输出结果进行分析判断,改善设计的不足和错

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

Ica盲源分离Matlab程序

Ica盲源分离Matlab程序 close all; clear all; i4=imread('1.jpg'); i5=imread('2.jpg'); i6=imread('2.png'); i1=rgb2gray(i4); i2=rgb2gray(i5); i3=rgb2gray(i6); s1=reshape(i1,[1,256*256]); s2=reshape(i2,[1,256*256]); s3=reshape(i3,[1,256*256]); s=[s1;s2;s3];sig=double(s); aorig=rand(size(sig,1)); mixedsig=aorig*sig; ms1=reshape(mixedsig(1,:),[256,256]); ms2=reshape(mixedsig(2,:),[256,256]); ms3=reshape(mixedsig(3,:),[256,256]); figure; subplot(331),imshow(i1),subplot(332),imshow(i2),subplot(333),imshow(i3); subplot(334),imshow(uint8(ms1)),subplot(335),imshow(uint8(ms2)),subplot(336),i mshow(uint8(ms3)); % mixedsig=zeros(size(mixedsig)); meanValue=mean(mixedsig')'; mixedsig=mixedsig-meanValue*ones(1,size(mixedsig,2)); covarianceMatrix=cov(mixedsig',1); [E,D]=eig(covarianceMatrix); eigenvalues=flipud(sort(diag(D))); whiteningMatrix=inv(sqrt(D))*E'; dewhiteningMatrix=E*sqrt(D); whitesig=whiteningMatrix*mixedsig; X=whitesig; [vectorSize,numSamples]=size(X); B=zeros(vectorSize); numOFIC=vectorSize; for r=1:numOFIC i=1;maxNumIterations=100; w=rand(vectorSize,1)-.5; w=w/norm(w); while i<=maxNumIterations+1

语音信号盲分离测试工具

基于Tcl/Tk 与C 的语音信号盲分离测试工具 马骏 西安市地下铁道有限责任公司 西安 710018 摘要:如何分离多说话人环境下麦克风所采集的混合语音信号是盲源分离研究的一个重要课题。文章采用TCL/TK 与C 语言混合编程,自主开发了用于语音信号盲分离测试的工具,并介绍了该工具的结构、界面和功能。最后通过试验验证了该工具的正确性。 关键词:盲源分离 语音信号 Tcl/Tk A Tcl/Tk & C-based testing tool for blind separation of audio signals Ma Jun Xi'an Metro Co., Ltd. Xi'an 710018 Abstract: Separating independent signal from audio mixtures is one of the elementary problems in Blind Source Separation (BSS) research. The interface between Tcl/Tk is explained, and a testing tool for blind separation of audio signals is developed. The structure, interface and function of the tool are introduced. The validity of the tool is proved by experiment. Keywords :Blind source separation Audio signals Tcl/Tk 1.引言 盲源分离(BSS )[1,2,3,4]是人工神经网络与统计信号处理以及信息论相结合的产物,而混 合语音信号的盲分离是该领域的一个重要课题。使计算机具有和人类一样的听觉,是计算机智能领域研究者们的梦想。语音识别技术为我们实现计算机听觉的这一目标提供了有效的途径,使得计算机能听懂我们人类的语言,计算机操作从此变得更互动和简单自然,方便了人机的交流。混合语音信号盲分离虽然不能实现计算机听觉这一目标,但是通过该技术却能使原本相互混叠的语音信号相互剥离,来作为语音识别的预处理,从而使得噪声环境下和多说话人情形下的语音识别的实现成为可能,增大了识别算法的鲁棒性和适应能力,从这种意义上来讲该问题的研究具有很大的现实意义。 本文首先阐述了盲源分离的基本理论知识以及Tcl/Tk [5]与C 语言的接口编程,然后采用 分层软件模型开发了用于语音信号盲分离的测试工具,其外壳选择灵活的事件驱动脚本Tcl/Tk 作为基本的界面开发平台,完成配置、控制任务;而其低层的BSS 核心算法库则利用高效的编译型C 语言实现。另外为了完成语音信号的读写等操作还参考了snack [6]语音处理库及其源代码。文章介绍了该工具的结构、界面和功能,最后通过实验验证了该测试工具的正确性。 2.盲源分离模型及算法 设由N 个未知的统计独立的信号源)(t s i 构成了一个列向量,)](),...,([)(1T N t s t s t S =其中t 是离散采样时刻。设A 是一个未知的N M ?维矩阵,通常称为混合矩阵。设[]T M t x t x t X )(),...,()(1=是由M 个传感器观测到混合信号)(t x i 构成的列向量,且满足下列方程: )()((t)t V t AS X += (1) 其中T M 1t ,...,v t v t V )]()([)(=是由M 个空间白化、统计独立噪声信号(t)i v 构成的列向量。盲源分 离的命题是,对任何t ,根据观测到的)(t X ,在A 未知的条件下求)(t S 。 图1给出了语音信号盲分离算法框架图。

情感语音识别开题报告

太原理工大学信息工程学院 本科毕业设计(论文)开题报告 毕业设计(论文)题目 语音情感识别及其特征提取的研究 学生姓名付建梅导师姓名张雪英 专业通信工程 报告日期2011.4 班级0701 指导教 师意见 签字年月日 专业(教 研室)主 任意见 年月日系主任 意见 年月日

1. 国内外研究现状及课题意义 1.1课题研究意义 现在社会,人类跟计算机的交往越来越受到研究者的重视。自然和谐的人机界面的沟通应该能理解用户的情绪和意图,对不同用户、不同环境、不同任务给予不同的反馈和支持。情感计算研究就是试图创建一种能感知、识别和理解人的情感,并针对人的情感做出智能、灵敏、友好反应的计算系统,即赋予计算机像人一样地观察、理解和生成各种情感特征的能力,使计算机能够更加自动适应操作者。实现这些,首先必须能够识别操作者的情感,而后根据情感的判断来调整交互对话的方式。 情感计算研究内容主要包括脸部表情处理、情感计算建模方法、情感语音处理、姿态处理、情感分析、自然人机界面、情感机器人等。情感计算,受到越来越多的国内外学者和研究机构的重视。美国的各大信息技术实验室正加紧进行情感计算系统的研究。例如,麻省理工学院媒体实验室的情感计算小组研制的情感计算系统,通过记录人面部表情的摄像机和连接在人身体上的生物传感器来收集数据,然后由一个“情感助理”来调节程序以识别人的情感。目前国内的情感计算研究重点在于,通过各种传感器获取由人的情感所引起的生理及行为特征信号,建立“情感模型”,从而创建个人的情感计算系统。情感计算已经应用到生活中的各个领域:在信息家电和智能仪器中增加自动感知人们情绪状态的功能,可以提供更好的服务:在信息检索过程中,通过情感分析解析功能,则可提高智能信息检索的精度和效率:在远程教育平台中,情感计算技术的应用能提升教学效果;利用多模式的情感交换技术,还可以构筑更贴近人们生活的智能空间和虚拟场景。此外,情感计算还能应用在机器人、智能玩具、可视会议、唇读系统、可视电话系统的应用场合,在传输语音信号的时候能够显示视频动画,将有助于人类特别是听力有障碍的人对语音的理解。 正是基于以上课题对于科研、社会的重要意义,我的毕业论文的主要任务是建立带有情感的音视频数据库,研究音频信号中能体现情感的特征,分析哪些特征可以有效地表达情感,进行特征提取并进行情感识别实验。这些工作是为后面进行带有感情的音视频合成动画系统建立基础。 1.2国内外研究现状 语音信号处理中,语音识别作为一个重要的研究领域,已经有很长的研究历史,其中语音特征提取与情感识别又是其中的一个重要方面。 在1972 年,Williams 发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990 年,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感。1996 年日本东京Seikei 大学提出情感空间的概念并建立了语音情感模型。2000 年,Maribor 大学的Vladimir Hozjan 研究了基于多种语言的语音情感识别。2009 年4月,日本产业技术综合研究所(AIST)研制一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音信号的识别,机器人可以做出喜、怒、哀、乐和惊讶的表情等。在国内,语音情感识别的研究起步较晚。2001 年,东南大学赵力等人提出语音信号中的情感识别研究。2003 年,北京科技大学谷学静等人将BDI Agent 技术应用与情感机器人的语音识别技术研究中。另外,2003 年12 月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议,2005 年10 月又在北京主办了首届国际情感计算及智能交互学术会议。

数字语音信号处理实验报告

语音信号处理实验报告 专业班级电子信息1203 学生姓名钟英爽 指导教师覃爱娜 完成日期2015年4月28日 电子信息工程系 信息科学与工程学院

实验一语音波形文件的分析和读取 一、实验学时:2 学时 二、实验的任务、性质与目的: 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验 (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 三、实验原理和步骤: WAV 文件格式简介 WAV 文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV 文件的头四个字节就是“RIFF”。WAV 文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV 文件标识段和声音数据格式说明段两部分。常见的WAV 声音文件有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8 位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16 位的整数(int),高八位和低八位分别代表左右两个声道。WAV 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV 文件中,道0 代表左声道,声道1 代表右声道;在多声道WAV 文件中,样本是交替出现的。WAV 文件的格式 表1 wav文件格式说明表

盲源分离算法初步研究

盲源分离算法初步研究 一、盲源分离基本问题 1.概念 BSS 信号盲分离,是指从若干观测到的混合信号中恢复出未知的源信号的方法。典型的观测到的混合信号是一系列传感器的输出,而每一个传感器输出的是一系列源信号经过不同程度的混合之后的信号。其中,“盲”有两方面的含义:(1)源信号是未知的;(2)混合方式也是未知的。 根据不同的分类标准,信号盲分离问题可以分成以下几类: (1)从混合通道的个数上分,信号的盲分离可以分为多通道信号分离和单通道信号分离。单通道信号分离是指多路源信号混合后只得到一路混合信号,设法从这一路混合信号中分离出多个源信号的问题就是单通道信号分离。多通道信号分离是M 个源信号混合后得到N 路混合信号(通常N ≥M )。从N 路混合信号中恢复出M 个源信号的问题即为多通道信号分离。一般情况下,单通道信号分离的难度要超过多通道信号分离。 (2)从源信号的混合方式上分,可将信号盲分离问题分为瞬时混合和卷积混合、线性混合和非线性混合等不同种类。在目前信号盲分离的研究文章中,所建模型大部分为瞬时混合。但是,作为更接近实际情况的卷积混合方式正受到越来越多的关注。 (3)根据源信号的种类,也可将信号盲分离分为多类。在通常的处理方法上,根据不同种类信号的特点,也有一些独特的处理技术。 2.盲分离问题的描述 BSS 是指仅从观测的混合信号(通常是多个传感器的输出)中恢复独立的源信号,在科学研究和工程应用中,很多观测信号都可以假设成是不可见的源信号的混合。所谓的“鸡尾酒会”问题就是一个典型的例子。在某个场所,多个人正在高声交谈。我们用多个麦克风来接受这些人说话的声音信号。每个人说话的声音是源信号,麦克风阵列的输出是观测信号。由于每个麦克风距离各个说话者的相对方位不同,它们接受到的也是这些人的声音信号以不同方式的混合。盲信号分离此时的任务是从麦克风阵列的输出信号中估计出每个人各自说话的声音信号,即源信号。如果混合系统是已知的,则以上问题就退化成简单的求混合矩阵的逆矩阵。但是在更多的情况下,人们无法获取有关混合系统的先验知识,这就要求人们从观测信号来推断这个混合矩阵,实现盲源分离。 3.混合模型 信号的混合模型包含两个方面的内容:(1)源信号的统计特征;(2)源信号的混合方式。 3.1源信号的统计特征 已有的研究表明如果加上源信号间相互独立的限制条件,就可以有效地补偿对以上先验知识的缺乏。如果用q i 表示第i 个分量的概率密度函数,则这种统计独立性可以表示为: 11221()()...()()n n n i i i q s q s q s q s ==???=∏q(s) 其中q(s)是s 的联合概率密度函数。 3.2源信号的混合方式 最简单的混合模型假定各个分量是线性叠加混合在一起而形成观测信号的。基于这样的假设,我们可以把观测信号和源信号用矩阵的方式表示为: ()()t t =x Hs 式中H 是n ×n 阶的混合矩阵。基于该模型,盲信号分离()()t t =x Hs 的目标可以表

语音信号的盲分离分析

目录 摘要.................................................................... I ABSTRACT ............................................................... II 第一章前言.. (2) 1.1语音特性分析 (2) 1.2语音信号的基本特征 (2) 1.3语音信号处理的理论基础 (2) 第二章盲分离的基本概念 (2) 2.1盲分离的数学模型 (2) 2.2盲源分离的基本方法 (2) 2.3盲分离的目标准则 (2) 2.4盲分离的研究领域 (2) 2.5盲分离的研究内容 (2) 第三章独立分量分析的基本算法 (2) 3.1ICA的线性模型 (2) 3.2ICA研究中的主要问题及限制条件 (2) 3.3ICA的基本算法 (2) 3.4F AST ICA算法原理 (2) 第四章语音信号盲分离仿真及分析 (2) 4.1ICA算法实现 (2) 4.2频谱分析 (2) 第五章总结 (2) 参考文献 (2)

摘要 盲源分离(BSS)是一种多维信号处理方法,它指在未知源信号以及混合模型也未知的情况下,仅从观测信号中恢复出源信号各个独立分量的过程。盲源分离已近成为现代信号处理领域研究的热点问题,在通信、语音处理、图像处理等领域具有非常重要的理论意义和广泛的应用价值。本文主要内容如下: 首先,介绍了语音信号的产生机理,特性,基本特征及语音信号处理的理论基础,为后文语音信号盲分离奠定了基础。 其次,从盲源分离的理论出发,研究了盲分离的数学模型以及基本方法,并对盲分离的目标准则、研究领域以及研究内容进行了探讨。 然后,引出了独立分量分析(ICA),并对其的概念以及相关的知识进行了研究,探讨了ICA研究中的主要问题,列出了ICA的3种基本算法:信息极大化、负熵最大化和最大似然估计法。 最后,用FastICA对三路语音信号进行了盲分离的仿真并求出了混合矩阵和分解矩阵,再接着进行了频谱,幅度,相位的分析,找出了FastICA的特点。 关键词:盲源分离;独立分量分析;频谱分析 III

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益等可见一斑。

语音信号处理实验报告11

实验一 语音信号的时域分析 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握语音信号短时能量和短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 语音是一时变的、非平稳的随机过程,但由于一段时间内(10-30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中可以利用短时谱的这种平稳性,将语音信号分帧。 10~30ms 相对平稳,分析帧长一般为20ms 。 语音信号的分帧是通过可移动的有限长度窗口进行加权的方法来实现的。几种典型的窗函数有:矩形窗、汉明窗、哈宁窗、布莱克曼窗。 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。定义短时平均能量 [][]∑∑+-=∞-∞=-=-= n N n m m n m n w m x m n w m x E 122)()()()( 下图说明了短时能量序列的计算方法,其中窗口采用的是直角窗。 过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平

均过零数。 语音信号x (n )的短时平均过零数定义为 ()[]()[]()()[]()[]() n w n x n x m n w m x m x Z m n *--=---= ∑∞ -∞=1sgn sgn 1sgn sgn 式中,[]?sgn 是符号函数,即 ()[]()()()()???<-≥=01 01sgn n x n x n x 短时平均过零数可应用于语音信号分析中。发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以其语音能量约集中干3kHz 以下。而发清音时.多数能量出现在较高频率上。既然高频率意味着高的平均过零数,低频率意味着低的平均过零数,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。然而这种高低仅是相对而言,没有精确的数值关系。 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的

相关文档
最新文档