语音识别系统实验报告

语音识别系统实验报告
语音识别系统实验报告

语音识别系统实验报告

专业班级:信息安全

学号:

姓名:

目录

一、设计任务及要求 (1)

二、语音识别的简单介绍

语者识别的概念 (2)

特征参数的提取 (3)

用矢量量化聚类法生成码本 (3)

的说话人识别 (4)

三、算法程序分析

函数关系 (4)

代码说明 (5)

函数mfcc (5)

函数disteu (5)

函数vqlbg (6)

函数test (6)

函数testDB (7)

函数train (8)

函数melfb (8)

四、演示分析 (9)

五、心得体会 (11)

附:GUI程序代码 (12)

一、设计任务及要求

实现语音识别功能。

二、语音识别的简单介绍

基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。

语音识别系统结构框图如图1所示。

图1 语音识别系统结构框图

语者识别的概念

语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说

话人识别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术,应用需求将十分广阔。在吃力语音信号的时候如何提取信号中关键的成分尤为重要。语音信号的特征参数的好坏直接导致了辨别的准确性。

特征参数的提取

对于特征参数的选取,我们使用mfcc 的方法来提取。MFCC 参数是基于人的

听觉特性利用人听觉的屏蔽效应,在Mel 标度频率域提取出来的倒谱特征参数。

MFCC 参数的提取过程如下:

1. 对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱分布信息。

设语音信号的DFT 为:

10,)()(112-≤≤=∑-=-N k e

n x k X N n N nk j a π(1)

其中式中x(n)为输入的语音信号,N 表示傅立叶变换的点数。

2. 再求频谱幅度的平方,得到能量谱。

3. 将能量谱通过一组Mel 尺度的三角形滤波器组。

我们定义一个有M 个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,3,···,M

本系统取M=100。

4. 计算每个滤波器组输出的对数能量。

N 1

2a m k 1S(m)ln(|(k)|H (k)),

0m M 1X -==≤≤-∑ (2)

其中m H (k)为三角滤波器的频率响应。

5. 经过离散弦变换(DCT )得到MFCC 系数。

10C(n)()cos((0.5/)),(3)

01

M m S m n m m n N π-==-≤≤-∑

MFCC 系数个数通常取20—30,常常不用0阶倒谱系数,因为它反映的是频谱能量,故在一般识别系统中,将称为能量系数,并不作为倒谱系数,本系统选取20阶倒谱系数。

用矢量量化聚类法生成码本

我们将每个待识的说话人看作是一个信源,用一个码本来表征。码本是从该

说话人的训练序列中提取的MFCC 特征矢量聚类而生成。只要训练的序列足够长,可认为这个码本有效地包含了说话人的个人特征,而与讲话的内容无关。

本系统采用基于分裂的LBG 的算法设计VQ 码本,(1,2,,)k X k K =???为训练序

列,B 为码本。

具体实现过程如下:

1. 取提取出来的所有帧的特征矢量的型心(均值)作为第一个码字矢量B1。

2. 将当前的码本Bm 根据以下规则分裂,形成2m 个码字。

)

1()1({εε-=+=-+m m m m B B B B (4) 其中m 从1变化到当前的码本的码字数,ε是分裂时的参数,本文ε=。

3. 根据得到的码本把所有的训练序列(特征矢量)进行分类,然后按照下面两个公式计算训练矢量量化失真量的总和[]n D 以及相对失真(n 为迭代次数,初始n=0,[1]D -=∞,B 为当前的码书),若相对失真小于某一阈值ε,迭代结束,当前的码书就是设计好的2m 个码字的码书,转5。否则,转下一步。

量化失真量和:

()1min (,)K

n k k D d X B ==∑ (5)

相对失真:

(1)||n n

n

D D D -- (6) 4. 重新计算各个区域的新型心,得到新的码书,转3。

5. 重复2 ,3 和4步,直到形成有M 个码字的码书(M 是所要求的码字数),其中D0=10000。

VQ 的说话人识别

设是未知的说话人的特征矢量1{,,}T X X K ,共有T 帧是训练阶段形成的码书,表示码书第m 个码字,每一个码书有M 个码字。再计算测试者的平均量化失真D ,并设置一个阈值,若D 小于此阈值,则是原训练者,反之则认为不是原训练者。

∑=≤≤=11]min[/1),(j M

m m j T D B x d (7) 三、 算法程序分析

在具体的实现过程当中,采用了matlab 软件来帮助完成这个项目。在matlab

中主要由采集,分析,特征提取,比对几个重要部分。以下为在实际的操作中,具体用到得函数关系和作用一一列举在下面。

函数关系

主要有两类函数文件和

在调用获取训练录音的vq 码本,而调用获取单个录音的mel 倒谱系数,接

着调用将能量谱通过一组Mel 尺度的三角形滤波器组。

在函数文件中调用计算训练录音(提供vq 码本)与测试录音(提供mfcc )

mel 倒谱系数的距离,即判断两声音是否为同一录音者提供。调用获取单个录音的mel 倒谱系数。调用将能量谱通过一组Mel 尺度的三角形滤波器组。

具体代码说明

函数mffc:

function r = mfcc(s, fs)

---

m = 100;

n = 256;

l = length(s);

nbFrame = floor((l - n) / m) + 1; %沿-∞方向取整

for i = 1:n

for j = 1:nbFrame

M(i, j) = s(((j - 1) * m) + i); %对矩阵M赋值

end

end

h = hamming(n); %加hamming 窗,以增加音框左端和右端的连续性

M2 = diag(h) * M;

for i = 1:nbFrame

frame(:,i) = fft(M2(:, i)); %对信号进行快速傅里叶变换FFT

end

t = n / 2;

tmax = l / fs;

m = melfb(20, n, fs); %将上述线性频谱通过Mel 频率滤波器组得到Mel 频谱,下面在将其转化成对数频谱

n2 = 1 + floor(n / 2);

z = m * abs(frame(1:n2, :)).^2;

r = dct(log(z)); %将上述对数频谱,经过离散余弦变换(DCT)变换到倒谱域,即可得到Mel 倒谱系数(MFCC参数)

函数disteu

---计算测试者和模板码本的距离

function d = disteu(x, y)

[M, N] = size(x); %音频x赋值给【M,N】

[M2, P] = size(y); %音频y赋值给【M2,P】

if (M ~= M2)

error('不匹配!') %两个音频时间长度不相等end

d = zeros(N, P);

if (N < P)%在两个音频时间长度相等的前提下

copies = zeros(1,P);

for n = 1:N

d(n,:) = sum((x(:, n+copies) - y) .^2, 1);

end

else

copies = zeros(1,N);

for p = 1:P

d(:,p) = sum((x - y(:, p+copies)) .^2, 1)';

end%%成对欧氏距离的两个矩阵的列之间的距离end

d = d.^;

函数vqlbg

---该函数利用矢量量化提取了音频的vq码本function r = vqlbg(d,k)

e = .01;

r = mean(d, 2);

dpr = 10000;

for i = 1:log2(k)

r = [r*(1+e), r*(1-e)];

while (1 == 1)

z = disteu(d, r);

[m,ind] = min(z, [], 2);

t = 0;

for j = 1:2^i

r(:, j) = mean(d(:, find(ind == j)), 2);

x = disteu(d(:, find(ind == j)), r(:, j));

for q = 1:length(x)

t = t + x(q);

end

end

if (((dpr - t)/t) < e)

break;

else

dpr = t;

end

end

end

函数test

function finalmsg = test(testdir, n, code)

for k = 1:n % read test sound file of each speaker file = sprintf('%ss%', testdir, k);

[s, fs] = wavread(file);

v = mfcc(s, fs); % 得到测试人语音的mel倒谱系数

distmin = 4; %阈值设置处

% 就判断一次,因为模板里面只有一个文件

d = disteu(v, code{1}); %计算得到模板和要判断的声音之间的“距离”

dist = sum(min(d,[],2)) / size(d,1); %变换得到一个距离的量

%测试阈值数量级

msgc = sprintf('与模板语音信号的差值为:%10f ', dist);

disp(msgc);

%此人匹配

if dist <= distmin %一个阈值,小于阈值,则就是这个人。

msg = sprintf('第%d位说话者与模板语音信号匹配,符合要求!\n', k);

finalmsg = '此位说话者符合要求!'; %界面显示语句,可随意设定

disp(msg);

end

%此人不匹配

if dist > distmin

msg = sprintf('第%d位说话者与模板语音信号不匹配,不符合要求!\n', k);

finalmsg = '此位说话者不符合要求!'; %界面显示语句,可随意设定

disp(msg);

end

end

函数testDB

这个函数实际上是对数据库一个查询,根据测试者的声音,找相应的文件,并且给出是谁的提示

function testmsg = testDB(testdir, n, code)

nameList={'1','2','3','4','5','6','7','8','9' }; %这个是我们要识别的9个数

for k = 1:n % 数据库中每一个说话人的特征

file = sprintf('%ss%', testdir, k); %找出文件的路径

[s, fs] = wavread(file);

v = mfcc(s, fs); % 对找到的文件取mfcc变换

distmin = inf;

k1 = 0;

for l = 1:length(code)

d = disteu(v, code{l});

dist = sum(min(d,[],2)) / size(d,1);

if dist < distmin

distmin = dist;%%这里和test函数里面一样但多了一个具体语者的识别

k1 = l;

end

end

msg=nameList{k1}

msgbox(msg);

end

函数train

---该函数就是对音频进行训练,也就是提取特征参数

function code = train(traindir, n)

k = 16; % number of centroids required

for i = 1:n % 对数据库中的代码形成码本file = sprintf('%ss%', traindir, i);

disp(file);

[s, fs] = wavread(file);

v = mfcc(s, fs); % 计算MFCC's 提取特征特征,返回值是Mel

倒谱系数,是一个log的dct得到的

code{i} = vqlbg(v, k); % 训练VQ码本通过矢量量化,得到原说话人的VQ码本

end

函数melfb

---确定矩阵的滤波器

function m = melfb(p, n, fs)

f0 = 700 / fs;

fn2 = floor(n/2);

lr = log(1 + f0) / (p+1);

% convert to fft bin numbers with 0 for DC term

bl = n * (f0 * (exp([0 1 p p+1] * lr) - 1));

直接转换为FFT的数字模型

b1 = floor(bl(1)) + 1;

b2 = ceil(bl(2));

b3 = floor(bl(3));

b4 = min(fn2, ceil(bl(4))) - 1;

pf = log(1 + (b1:b4)/n/f0) / lr;

fp = floor(pf);

pm = pf - fp;

r = [fp(b2:b4) 1+fp(1:b3)];

c = [b2:b4 1:b3] + 1;

v = 2 * [1-pm(b2:b4) pm(1:b3)];

m = sparse(r, c, v, p, 1+fn2);

四、演示分析

我们的功能分为两部分:对已经保存的9个数字的语音进行辨别和实时的判断说话人说的是否为一个数.在前者的实验过程中,先把9个数字的声音保存成wav的格式,放在一个文件夹中,作为一个检测的数据库.然后对检测者实行识别,系统给出提示是哪个数字.

在第二个功能中,实时的录取一段说话人的声音作为模板,提取mfcc特征参数,随后紧接着进行遇着识别,也就是让其他人再说相同的话,看是否是原说话者.

实验过程及具体功能如下:

先打开Matlab 使Current Directory为录音及程序所所在的文件夹

再打开文件“”,点run运行,打开enter界面,点击“进入”按钮进入系统。(注:文件包未封装完毕,目前只能通过此方式打开运行。)(如下图figure1)

figure1

在对数据库中已有的语者进行识别模块:

选择载入语音库语音个数;

点击语音库录制模版进行已存语音信息的提取;

点击录音-test进行现场录音;

点击语者判断进行判断数字,并显示出来。

在实时语者识别模块:

点击实时录制模板上的“录音-train”按钮,是把新语者的声音以wav格式存放在”实时模板”文件夹中, 接着点击“实时录制模板”,把新的模板提取特征值。随后点击实时语者识别模板上的“录音-train”按钮,是把语者的声音以wav格式存放在”测试”文件夹中,再点击“实时语者识别”,在对测得的声音提取特征值的同时,和实时模板进行比对,然后得出是否是实时模板中的语者。另外面板上的播放按钮都是播放相对应左边录取的声音。

想要测量多次,只要接着录音,自动保存,然后程序比对音频就可以。

退出只要点击菜单File/Exit,退出程序。

程序运行截图:

()运行后系统界面

五、心得体会

实验表明,该系统能较好地进行语音的识别,同时,基于矢量量化技术(VQ)的语音识别系统具有分类准确,存储数据少,实时响应速度快等综合性能好的特点.

矢量量化技术在语音识别的应用方面,尤其是在孤立词语音识别系统中得到

很好的应用,特别是有限状态矢量量化技术,对于语音识别更为有效。

通过这次课程设计,我对语音识别有了更加形象化的认识,也强化了MATLAB 的应用,对将来的学习奠定了基础。

附:GUI程序代码

function pushbutton1_Callback(hObject, eventdata, handles)

% hObject handle to pushbutton1 (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

Channel_Str=get,'String');

Channel_Number=str2double(Channel_Str{get,'Value')});

global moodle;

moodle = train('模版\',Channel_Number) %??′y?óó?ò???DDìáè???±?

% --- Executes on button press in pushbutton2.

function pushbutton2_Callback(hObject, eventdata, handles)

% hObject handle to pushbutton2 (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB % handglobal data1;

global moodle ;

test('测试\',1,moodle)%êμê±ó?ò??ì2a

% --------------------------------------------------------------------

function Open_Callback(hObject, eventdata, handles)

% hObject handle to Open (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB % handles structure with handles and user data (see GUIDATA) [filename,pathname]=uigetfile('')

file=get,[filename,pathname])

[y,f,b]=wavread(file);

% --------------------------------------------------------------------

function Exit_Callback(hObject, eventdata, handles)

% hObject handle to Exit (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB % handles structure with handles and user data (see GUIDATA) exit

% --------------------------------------------------------------------

function About_Callback(hObject, eventdata, handles)

% hObject handle to About (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA) H=['语者识别']

helpdlg(H,'help text')

% --------------------------------------------------------------------

function File_Callback(hObject, eventdata, handles)

% hObject handle to File (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB % handles structure with handles and user data (see GUIDATA) % --------------------------------------------------------------------

function Edit_Callback(hObject, eventdata, handles)

% hObject handle to Edit (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB % handles structure with handles and user data (see GUIDATA) % --------------------------------------------------------------------

function Help_Callback(hObject, eventdata, handles)

% hObject handle to Help (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB % handles structure with handles and user data (see GUIDATA) % --- Executes on button press in pushbutton7.

function pushbutton7_Callback(hObject, eventdata, handles)

% hObject handle to pushbutton7 (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB % handles structure with handles and user data (see GUIDATA) msg='请速度录音?'

msgbox(msg)

语音识别系统实验报告材料

语音识别系统实验报告 专业班级:信息安全 学号: 姓名:

目录 一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6)

3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附:GUI程序代码 (12) 一、设计任务及要求 实现语音识别功能。 二、语音识别的简单介绍

基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。 语音识别系统结构框图如图1所示。 图1 语音识别系统结构框图 2.1语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,

2016年汽车语音识别系统行业现状及发展趋势分析

中国汽车语音识别系统行业现状调查分析及市场前景预测报告(2016年版) 报告编号:1622577

行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性的思路和参考。 一份有价值的行业研究报告,可以完成对行业系统、完整的调研分析工作,使决策者在阅读完行业研究报告后,能够清楚地了解该行业市场现状和发展前景趋势,确保了决策方向的正确性和科学性。 中国产业调研网https://www.360docs.net/doc/ae14893780.html,基于多年来对客户需求的深入了解,全面系统地研究了该行业市场现状及发展前景,注重信息的时效性,从而更好地把握市场变化和行业发展趋势。

一、基本信息 报告名称:中国汽车语音识别系统行业现状调查分析及市场前景预测报告(2016年版)报告编号:1622577←咨询时,请说明此编号。 优惠价:¥7020 元可开具增值税专用发票 网上阅读:https://www.360docs.net/doc/ae14893780.html,/R_JiaoTongYunShu/77/QiCheYuYinShiBieXiTongFaZhanXi anZhuangFenXiQianJingYuCe.html 温馨提示:如需英文、日文等其他语言版本,请与我们联系。 二、内容介绍 《中国汽车语音识别系统行业现状调查分析及市场前景预测报告(2016年版)》在多年汽车语音识别系统行业研究的基础上,结合中国汽车语音识别系统行业市场的发展现状,通过资深研究团队对汽车语音识别系统市场资讯进行整理分析,并依托国家权威数据资源和长期市场监测的数据库,对汽车语音识别系统行业进行了全面、细致的调研分析。 中国产业调研网发布的《中国汽车语音识别系统行业现状调查分析及市场前景预测报告(2016年版)》可以帮助投资者准确把握汽车语音识别系统行业的市场现状,为投资者进行投资作出汽车语音识别系统行业前景预判,挖掘汽车语音识别系统行业投资价值,同时提出汽车语音识别系统行业投资策略、营销策略等方面的建议。 正文目录 第一章汽车语音识别系统产业概述 1.1 汽车语音识别系统定义及产品技术参数 1.2 汽车语音识别系统分类 1.3 汽车语音识别系统应用领域 1.4 汽车语音识别系统产业链结构 1.5 汽车语音识别系统产业概述 1.6 汽车语音识别系统产业政策

语音识别实验2

关于语音识别的研究 网络工程专业网络C071班贾鸿姗 076040 摘要:语音识别技术的广泛应用 1前言: 语音识别技术也被称为自动语音识别 (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末,伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。 语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。 尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号 特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制 由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。 2.1.3数字助理 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。 智能玩具 通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在

语音识别机器人实验报告

开放实验项目报告 项目名称:语音识别机器人 专业 学生姓名 班级学号 指导教师 指导单位 2012/2013学年第一学期 一.设计背景

在科学日新月异的今天,电子设备的便捷化,人性化,智能化已成为不可逆转的潮流,而语音控制智能,更是其中研究发展的热点。凌阳SPCE061以其便捷的操作,可靠的性能,成为了各位电子爱好者的首选。本实验采用凌阳61板和运动小车(迷你型)模组设计的语音控制小车。凌阳板嵌入小车模型顶部。语音处理技术不仅包括语音的录制和播放,还涉及语音的压缩编码和解码、语音的识别等各种处理技术。本设计的语音控制小车,借助于SPCE061A在语音处理方面的特色,不仅具有前进、后退、左转、右转、停止等基本程序控制功能,而且还具备语音控制功能。 二.总流程图

三.主要模块 1、凌阳SPCE061是继μ’nSP?系列产品SPCE500A等之后凌阳科技推出的又一款16 位结构的微控制器。与SPCE500A不同的是,在存储器资源方面考虑到用户的较少资源的需求以及便于程序调试等功能,SPCE061A里只内嵌32K字的闪存(FLASH )。较高的处理速度使μ’nSP?能够非常容易地、快速地处理复杂的数字信号。因此,与SPCE500A相比,以μ’nSP?为核心的SPCE061A 微控制器是适用于数字语音识别应用领域产品的一种最经济的选择。 其性能如下: A、16 位μ’nSP?微处理器; B、工作电压(CPU) VDD 为2.4~3.6V (I/O) VDDH 为2.4~5.5V C、CPU 时钟:0.32MHz~49.152MHz ; D、内置2K 字SRAM; E、内置32K FLASH; F、可编程音频处理; G、晶体振荡器; H、系统处于备用状态下(时钟处于停止状态),耗电仅为2μA@3.6V ; I、2 个16 位可编程定时器/计数器(可自动预置初始计数值); J、2 个10 位DAC(数-模转换)输出通道; K、32 位通用可编程输入/输出端口; L、14 个中断源可来自定时器A / B ,时基,2 个外部时钟源输入,键唤醒;

宝马中文声控语音识别控制系统

BMW中文声控系统 声控启动语音控制支持方言专车专用 宝马中文声控系统市场前景 在庞大的汽车销量的基础上,车载语音系统已成为现代汽车的重要亮点之一,但是由于技术的局限性,国内车载语音系统的发展始终比较缓慢,在国外广泛发展的车载语音控制系统在国内却处于技术空白阶段。现在,Qdis-isods让这种情况得到了根本性的改变。 qdis品牌联合众多院校精英,由多名各领域资深人士参与研发,根据中国市场特点以及中国用户使用习惯进行特殊定制,成功推出Qdis-isods系列产品,为广大车主提供车载语音控制的解决方案和专业服务。加载Qdis-isods车载语音系统后,用户用自己的声音即可完成相关操作,而不再只是使用传统的指定命令。 Qdis-isods系列产品支持中国多种方言,声音识别准确率高并支持多人识别,一举攻克了之前的技术难题,让车载语音系统全面进入中国市场。以前需要手动操作的控制,现在您和爱车直接对话就能实现,而且还能语音识别并控制后装增配的产品,满足客户多种智能语音操作的需求。随着车联网技术的发展,汽车的互联性会越来越强,我们可以把语音技术扩展到除终端和嵌入式系统以外的所有设备上,从而完成更复杂的识别控制任务。我们依然在不断创新实践,以谋求更多的成功案例。 Qdis-isods车载语音系统可以完美支持各类车型,金鼓德达将以一贯优秀的无损加装技术,让您在驾驶生活中发现更多乐趣。QDIS-ISODS系列,爱车从此智能! 一、BMW中文声控系统主要功能 1.语音识别启动引擎 语音指令随时学习,支持所有方言,指令内容可以自由定义; 不影响原车启动键启动功能; 可以同时利用方向盘按键组合为密码启动; 语言指令和方向盘密码可以任意修改; 2.语音指令控制原车 语音指令随时学习,支持所有方言,指令内容可以自由定义;

语音识别技术调研报告

语音识别技术的原理和应用语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。 在语音识别的特征提取过程中,主要有语音信息量大,语音的模糊性,重音、音调、音量和音速的变化,环境噪声和干扰等难点。导致语音识别在互联网和传媒行业一直没有得到广泛的应用。但是近几年来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,硬件的性能的提升和算法的改进,语音识别技术得到突飞猛进的发展。例如音频指纹技术和音频二维码技术等。下面本文具体讨论这两种技术。 音频二维码 音频二维码技术 二维码技术经过多年的发展,已成为大家耳熟能详的名词了。二维码取代传统的键盘树盘输入技术的部分功能,成为互联网行业的第二大入口方式。但是普通的二维码技术只是将文本信息进行加码和解码。这导致二维码只能传输普通的文本信息。如果将音频技术和二维码的概念相结合,利用声音实现终端之间的近距离信息传输,那么毫

无疑问音频信息将成为互联网行业的第三大入口方式。 音频二维码技术采用仿生学技术,利用声音实现文件的快速传输。采用跨平台的技术,实现手机、电脑、智能机顶盒等智能设备间的图片、文字、链接的传输。音频二维码技术能在一定程度上取代图像二维码、近磁场传输和蓝牙等技术。 2012年底蛐蛐儿创始人朱连兴开发了一套音频二维码的引擎,名字叫蛐蛐儿SDK。在朱连兴推出了蛐蛐儿SDK之后,音频二维码的开发也变的比以前更加快速和简单。蛐蛐儿通过声音传输的不是文件,而是在发送端生成一个四位的二进制数。这四位二进制数是待发送文件的ID。发送端向接收端发送的其实只是上述生成的ID。发送端在向客户端发送ID的同时向云端发送ID和数据。在接收端接收到ID后,通过该ID向云端获取对应的数据。 音频二维码应用 音频二维码的应用非常广泛。音频二维码通过声音传递信息。广播和电视也通过声音传递信息。如果结合音频二维码技术和广播电视技术,将使二者相得益彰。音频二维码可以使广播电视用户不再是单一的受众,也是参与者。通过音频二维码可以让用户的手机等终端设备接入电视屏幕或者广播。用户在欣赏电视节目或者收听广播节目的同时,也可以通过手持终端参与节目互动环节。这会在给用户带来更好体验的同时,拉动广播电视行业的收视率和收听率。 例如在非诚勿扰的节目播放结束时,孟非不需要说那么长的一串

语音信号处理实验报告11

实验一 语音信号的时域分析 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握语音信号短时能量和短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 语音是一时变的、非平稳的随机过程,但由于一段时间内(10-30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中可以利用短时谱的这种平稳性,将语音信号分帧。 10~30ms 相对平稳,分析帧长一般为20ms 。 语音信号的分帧是通过可移动的有限长度窗口进行加权的方法来实现的。几种典型的窗函数有:矩形窗、汉明窗、哈宁窗、布莱克曼窗。 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。定义短时平均能量 [][]∑∑+-=∞-∞=-=-= n N n m m n m n w m x m n w m x E 122)()()()( 下图说明了短时能量序列的计算方法,其中窗口采用的是直角窗。 过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平

均过零数。 语音信号x (n )的短时平均过零数定义为 ()[]()[]()()[]()[]() n w n x n x m n w m x m x Z m n *--=---= ∑∞ -∞=1sgn sgn 1sgn sgn 式中,[]?sgn 是符号函数,即 ()[]()()()()???<-≥=01 01sgn n x n x n x 短时平均过零数可应用于语音信号分析中。发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以其语音能量约集中干3kHz 以下。而发清音时.多数能量出现在较高频率上。既然高频率意味着高的平均过零数,低频率意味着低的平均过零数,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。然而这种高低仅是相对而言,没有精确的数值关系。 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的

基于语音识别技术的智能家居控制系统的设计

基于语音识别技术的智能家居控制系统的 设计 基于语音辨认技术的智能家居控制系统的设计摘要 21 世纪经济快速发展,人们对物资文化的需求也愈来愈高。在信息科技的支持下,事物在朝着简单化、便捷化、智能化的方向发展。在此背景下应运而生而生的智能家居,正是信息时期的典型产物。 本文设计了1套基于语音辨认技术的智能家居控制系统,能够在客户端输入语音信号,完成对家居装备的控制,使得家居装备更加智能化。本文首先对语音辨认的相干理论知识进行了详细的论述,利用麻省理工学院(Massachusetts Institute of Technology, MIT)语音服务器完成对语音信号的特点提取和辨认进程,并且该服务器内有自动的高频噪声滤波器,避免声音信号产生失真现象。其次Zigbee模块完成了数据传输的功能,能够在网络拓扑较为稳定的家 居环境中实现对数据的传输,消耗的功率下降,本钱也较低。最后基于安卓手机到达控制家具的目的,在手机客户端输入语音信号以后,服务器将翻译出来的语音信息传递给后台,由手机通过无线网络传递给家居装备,从而到达传递控制指令的目的。最后本文在测试阶段对本文设计的基于语音辨认技术的智能家居控制系统进行了性能测试,测试结果良好,能够到达预期的目标。 关键词:智能家居;语音辨认;控制系统 Abstract With the rapid development of the economy in the 21st century, people's demand for material culture is also increasing. With the support of information technology, things are developing in the direction of simplification, convenience and intelligence. The smart home that emerged in this context is

语音信号处理实验报告实验一

通信工程学院12级1班罗恒2012101032 实验一语音信号的低通滤波和短时分析综合实验 一、实验要求 1、根据已有语音信号,设计一个低通滤波器,带宽为采样频率的四分之一,求输出信号; 2、辨别原始语音信号与滤波器输出信号有何区别,说明原因; 3、改变滤波器带宽,重复滤波实验,辨别语音信号的变化,说明原因; 4、利用矩形窗和汉明窗对语音信号进行短时傅立叶分析,绘制语谱图并估计基音周期,分析两种窗函数对基音估计的影响; 5、改变窗口长度,重复上一步,说明窗口长度对基音估计的影响。 二、实验目的 1.在理论学习的基础上,进一步地理解和掌握语音信号低通滤波的意义,低通滤波分析的基本方法。 2.进一步理解和掌握语音信号不同的窗函数傅里叶变化对基音估计的影响。 三、实验设备 1.PC机; 2.MATLAB软件环境; 四、实验内容 1.上机前用Matlab语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5. 改变滤波带宽,辨别与原始信号的区别。 6.依据曲线对该语音段进行所需要的分析,并且作出结论。 7.改变窗的宽度(帧长),重复上面的分析内容。 五、实验原理及方法 利用双线性变换设计IIR滤波器(巴特沃斯数字低通滤波器的设计),首先要设计出满足指标要求的模拟滤波器的传递函数Ha(s),然后由Ha(s)通过双线性变换可得所要设计的IIR滤波器的系统函数H(z)。如果给定的指标为数字滤波器的指标,则首先要转换成模拟滤波器的技术指标,这里主要是边界频率Wp和Ws 的转换,对ap和as指标不作变化。边界频率的转换关系为∩=2/T tan(w/2)。接着,按照模拟低通滤波器的技术指标根据相应设计公式求出滤波器的阶数N和3dB截止频率∩c ;根据阶数N查巴特沃斯归一化低通滤波器参数表,得到归一化传输函数Ha(p);最后,将p=s/ ∩c 代入Ha(p)去归一,得到实际的模拟滤波器传输函数Ha(s)。之后,通过双线性变换法转换公式s=2/T((1-1/z)/(1+1/z))得到所要设计的IIR滤波器的系统函数H(z)。

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

2018年声学行业分析报告

2018年声学行业分析 报告 2018年1月

目录 一、软硬件逐渐成熟,助推音箱智能化创新 (5) 1、语音交互/远场拾音技术进步,催生声学创新 (5) (1)语音交互为本能表达,带来全新体验 (5) ①信息密度高,自然且普适 (7) ②解放双手,更少的感官占用 (8) (2)软件端:方案不断发布,AI 技术提升识别准确度 (9) ①各类语音交互软件不断面世 (9) ②AI技术提升语音识别准确度 (10) ③语音搜索普及度提升,第三方应用进一步促进行业发展 (12) (3)硬件端:麦克风阵列解决远场语音交互难题 (13) 2、行业巨头入局,市场迎来爆发 (15) 二、智能音箱:语音交互的入口,智能家居的中心 (16) 1、始于音乐,但又不止于音乐 (17) (1)智能音箱在音乐播放上优势明显 (17) (2)音乐数字化趋势明确,在线音乐已为主流 (18) (3)不止于音乐,有声读物不断丰富 (20) 2、移动互联网之后又一核心入口,价值凸显 (20) 3、产品不断面世,市场迎来爆发 (23) (1)国际品牌:软件体系完善,引领市场风潮 (24) ①亚马逊:行业领导者,Echo生态不断完善 (25) 1)产品线丰富 (25) 2)出货量过千万,市占率第一 (25) 3)支持软件众多,应用丰富 (26) 4)配置出色 (27) ②苹果:HomePod 发售在即,更注重音乐本质 (27) ③谷歌:算法能力强大,整合多样成熟服务 (29) (2)国内品牌:本土化优势明显,语言限制有望突破 (31)

三、智能耳机:声学领域另一重大创新方向 (33) 1、苹果带动市场发展,用户满意度极高 (33) (1)苹果推出AirPods,产品品质出色 (33) (2)AirPods 成为爆款,带动智能耳机市场 (34) 2、移动语音交互结合生物监测,智能耳机不再鸡肋 (36) (1)智能耳机适合移动语音交互,布局“On-The-Go”场景 (36) (2)集成生物监测功能,智能耳穿戴不再鸡肋 (37) (3)引入主动降噪,声学性能进一步提升 (38) 3、厂商积极推进,未来有望标配 (39) 四、产业链:中国企业占据核心位置,受益产业发展 (41) 1、芯片:成本大头,传统芯片大厂领导市场 (42) 2、麦克风:阵列为主流方式,MEMS MIC 用量快速提升 (44) 3、扬声器:苹果带动音质提升,发声元件价值量大幅增长 (47) 4、OEM/ODM:全新产品形态带来业务增量 (48) 五、相关企业 (49) 1、国光电器:智能音箱爆发在即,公司明确受益 (50) 2、立讯精密:大客户平台型供应商,声学业务高成长可期 (50) 3、歌尔股份:智能音箱带来声学元件及ODM 业务增量 (51) 六、主要风险 (51) 1、HomePod使用效果不及预期 (51) 2、语音交互产业发展不及预期 (51)

语音控制小车实验报告

语音控制小车实验报告 专业: 学号: 姓名: 2014年01月12日

一、实验目的 语音控制小车以SPCE061A单片机为核心,采用语音识别技术,可通过语音命令对其行驶状态进行控制。本次实验的主要目的: 1.通过简单的I/O 操作实现小车的前进、后退、左转、右转功能; 2.配合SPCE061A 的语音特色,利用系统的语音播放和语音识别资源,实现语音控制的功能; 3.在行走过程中声控改变小车运动状态; 4.在超出语音控制范围时使小车停车。 二、实验内容 1、SPCE061A简介 SPCE061A是一款性价比很高的十六位单片机,使用它可以非常方便灵活的实现语音的录放,该芯片拥有8路10位精度的ADC,其中一路为音频转换通道,并且内置有自动增益电路。这为实现语音录入提供了方便的硬件条件。两路10位精度的DAC,只需要外接功放(SPY0030A)即可完成语音的播放。该单片机具有一套易学易用的指令系统和集成开发环境,在此环境中,它支持标准 C 语言编程,也支持 C 语言与汇编语言的互相调用。另外还提供了语音录放的库函数,只要了解库函数的使用,就可以很容易的完成语音的录放、识别等功能,这些都为软件开发提供了方便的条件。 SPCE061A特性: 16位μ’nSP微处理器; 工作电压:内核工作电压VDD为 3.0V~3.6V(CPU),I/O口工作电压VDDH为VDD~5.5V(I/O); CPU时钟:0.32MHz~49.152MHz; 内置2K 字 SRAM; 内置32K 闪存 ROM; 可编程音频处理; 晶体振荡器; 系统处于备用状态下(时钟处于停止状态),耗电小于 2μA@3.6V; 2 个 16 位可编程定时器/计数器(可自动预置初始计数值); 2 个 10 位 DAC(数-模转换)输出通道; 32 位通用可编程输入/输出端口;

基于单片机的语音识别系统_毕业设计 推荐

基于单片机的语音识别系统

基于单片机的语音识别系统 摘要 近几年来,智能化和自动化技术在玩具制造领域中越来越被关注。本文介绍一种智能化小车控制系统的设计——语音控制小车。语音控制小车是基于SPCE061A的代表性兴趣产品,它配合61板推出,综合应用了SPCE061A的众多资源,小车采用语音识别技术,可通过语音命令对其行驶状态进行控制。首先介绍了SPCE061A的主要性能及其引脚的功能;接着完成了电源电路、复位电路、键盘电路、音频输入电路,音频输出电路和无线控制电路等硬件功能模块的设计。软件设计模块能实现智能小车的前进、后退、转向、停止、避障、表演动作以及循线等功能。测试表明,在环境背景噪音不太大,控制者的发音清晰的前提下,语音控制小车的语音识别系统能对特定的语音指令做出智能反应,做出预想中的有限的动作 关键词:spec061a 语音识别驱动电路声控小车智能反应

Abstract In recent years, Intelligent and automation technology in the toy manufacture have been paid more and more attention.Introduce an intelligent vehicle control system design. SPCE061A program the system to single-chip, based on implementation of the car's voice control, This paper introduces the hardware sub-system design and implementation. The SPCE061A's main characters and pin function are introduced firstly. Completed the power circuit, reset circuit, keyboard circuitry, audio input circuits, audio output circuit and control circuit of wireless hardware such as the design of function modules. Software design module can achieve smart car forward, backward, turn, stop, obstacle avoidance, performing actions, as well as on-line functions. Test showed that the background noise in the environment is not too great, control persons under the premise of clear pronunciation, voice control car speech recognition systems for specific voice commands to make intelligent reaction, limited to the desired action. Keywords: spec061a 、voice recogniton、Driving circuit、Voice control dolly、intelirent response

人工智能技术服务专业调研报告

人工智能技术专业调研报告 目录 一、人工智能的主要研究范畴 (2) 1.1 自然语言处理 (2) 1.2 计算机视觉 (2) 1.3深度学习 (2) 二、人工智能目前最广泛的应用 (3) 2.1 人工智能在医疗卫生服务中的应用 (3) 2.2 人工智能在基层医疗卫生服务中的应用 (4) 2.3 人工智能技术在护理领域的应用 (4) 2.4人工智能在心脏磁共振成像中的应用 (5) 2.5 人工智能技术在文教娱乐领域中的应用 (5) 2.6人工智能技术在教育行业中的应用 (5) 2.7 人工智能技术在出版行业中的应用 (6) 2.8 人工智能技术在图书馆的应用 (6) 2.9 人工智能技术在制造业和服务行业中的应用 (7) 1.10人工智能技术在纺织行业的应用 (7) 2.11 人工智能技术在炼化领域的应用 (8) 2.12 人工智能技术在客服系统的应用 (8) 2.13人工智能技术在银行业的应用 (9) 2.14人工智能技术在食堂配餐系统的应用 (9) 三、人工智能的发展前景 (9) 四、专业培养目标 (10) 1、人工智能技术方向培养目标 (10) 五、培养模式及特色 (11) 1、采用“三段式”+“三明治”+三学期制培养模式 (11) 2、专业特色 (12) (1)课程设置与培养内容面向行业、企业需求 (12) (2)构建了个性化人才培养体系 (12) 六、主干学科、主要课程、专业核心课程 (13) 七、专业建设模块 (13)

“人工智能”这一概念 1956 年在达特茅斯会议上被首次提出,到现在已经有了 60 多年的发展历程。人工智能是一门交叉、广泛的科学,它的研究目的是使机器能够像人类一样识别、学习、思考。随着互联网技术的高速发展,人工智能技术不断革新,应用领域不断扩大。 人工智能的发展曲折起伏,在其发展的早期取得如机器定理证明等一些成果,这些成果激励人们对人工智能领域有了更高的期望,然而由于理论技术的局限,人们提出了一些不合理的目标,翻译机器闹出的笑话等失败的研究使得人们的预期落空。20 世纪 70 年代初到 80 年代中,通过模拟人类专家的知识和经验去解决特定问题的专家系统应用在化学、医疗等领域,实现了人工智能从理论到实际应用的重大突破;紧接着人工智能技术迎来发展的低迷期,专家系统知识储备不足、分析问题方式单一等问题暴露出来;1997 年,深蓝计算机战胜国际象棋世界冠军卡斯帕罗夫;2011 年至今,随着大数据、云计算、物联网等快速发展,以神经网络为基础的人工智能技术极大地促进了科学转化为应用,图像识别、语音识别、无人驾驶等迎来前所未有的发展高潮。大量以深度学习为基础的人工智能技术有着人工干预的局限性,科研人员试图使用减少人工干预的自主智能方法来降低人员成本,未来人机混合智能将会成为主要发展方向。 2017-07,国务院发布《新一代人工智能发展规划》,为抢占全球人工智能制高点,中国已将其上升至国家战略,国务院要求从小学起增加人工智能相关课程,形成人才梯队,抢抓人工智能发展机遇将会给科技发展和产业变革带来重大影响。 一、人工智能的主要研究范畴 1.1 自然语言处理 语言是人类区别于其他动物的本质特征,人类的智慧大多以语言的实质得以记载或者流传,自然语言处理是人工智能领域的重要分支,主要包括自然语言理解和自然语言生成,它的目的是实现人机间自然语言通信,把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。想要实现通用的、高质量的自然语言处理是人类的终极目标。虽然目前这一项研究针对一定应用已经产生实用系统,一部分

语音识别系统调研报告

语音识别系统调研报告 姓名:罗小嘉学号:2801305018 1、摘要:本文简要的介绍了语音识别系统的原理,发展和在各个方面的应用前景。 2、关键词:语音识别;应用 3、引言:语音识别主要是指用机器在各种情况下,根据信息执行人的各种意图,有效地了解、识别语音和其它声音。它是近十几年来发展起来的具有理论价值和实用价值的新兴学科:从计算机大学科角度看,可视为智能计算机的智能接口;从信息处理学科来看,可视为信息识别的一个重要分支;从自动控制学科来看,又可视为模式识别的一个重要组成部分. 早在18 世纪,人们就对语音学进行了科学研究,但由于各种条件的限制,语音识别仅在计算机技术迅速发展之后,才成为一个非常活跃的研究领域. 60 年代末期,面对语音识别的种种困难,人们开始研究特定人、孤立词、小词汇量的识别,从而使语音识别的问题能够在当时的条件下得以开展;70年代后期,特定人、孤立词、小词汇量的语音识别取得较为满意的效果,语音识别的研究则沿着特定人向非特定人、孤立词向连续词、小词汇量向大词汇量方向扩展研究领域和目标;80 年代中期以来,计算机技术、信息技术及模式识别等技术的迅猛发展,极大地促进了语音识别技术的发展. 4、正文:语音识别系统要求能够实现实时语音识别。该语音识别系统的关键技术主要是语言实时识别技术、语音端点检测与声韵分割。如图: 对于语音端点检测与声韵分割的问题,从背景噪声中找出语音的开始和终止,这在语音处理中是很基本的问题,因为准确的端点检测,不仅可以提高识别精度,还可以避免计算噪声,减少计算量. 大多数语音处理系统采用过零率和能量两参数作端点检测. 但过零率受噪声影响较大,采用多门限过零率作语音起点检测,将能量信息直接反应在门限中,同时将分析窗长取小,使起点检测比较准确,效果较好. 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇

语音放大器设计实验报告

模拟电子技术课程设计 语 音 放 大 器 姓名:伍慧兰 学号:2015550828 班级:15通信工程1班 指导老师:罗光明 目录 一、设计目的 (2) 二、知识点和设计内容 (2) 三、设计方案 (3) 四、实验原理与参考电路 (4) (一)实验原理图如图1-2 (4) (二)实验原理 (5) 1) 前置放大器 (5) 2) 有源带通滤波器 (5) 3) 功率放大器 (6)

五、实验的主要元器件 (7) (一)元器件清单 (7) (二)部分器件的使用介绍 (8) 1) LM324芯片 (8) 2) TDA2030引脚图与应用电路参数 (12) 六、实验步骤 (13) (一)电路仿真实验 (13) (二)硬件实物实验 (19) 1) 前置放大器的焊接与调试 (19) 2) 有源带通滤波器 (20) 七、实验中的问题提出与解决方法 (24) 八、注意事项 (25) 九、实验感想 (26) 参考资料 (27) 语音放大器设计 一、设计目的 1、了解语音识别知识; 2、掌握集成运算放大器的工作原理及其应用; 3、掌握低频小信号放大电路、带通滤波器和功放电路的设计方法; 4、培养应用现代工具对模拟电子系统进行仿真测试、制作调试、故障检查及分析的能力; 5、培养市场素质、工艺素质、自主学习能力、分析问题解决问题的能力以及团队精神; 6、培养文献查阅与综述和撰写课程设计报告的能力。 二、知识点和设计内容 本实验的知识点为分立元件放大器或集成运放、有源滤波器、集

成功率放大器;涉及电子电路各个模块之间的联合调试技术。 三、设计方案 语音放大器设计的基本设计思路 分析可知本语音放大器应包括输入电路、前置放大器、有源带通滤波器、功率放大器、扬声器等几部分组成,如图1-1所示。 前置放大器可采用集成运算放大器,有源带通滤波器可采用LPF 和HPF 串联构成,功率放大电路选用集成功放。 设计的性能指标 通常语音信号非常微弱,需要经过放大、滤波、功率放大后才能驱动扬声器发声。假设语音信号为峰峰值不大于10mV 频率范围100Hz~3kHz 的正弦波,要求驱动8Ω1W 的扬声器。具体性能指标如下: 1、前置放大器:输入信号Uid ≤10mV ;输入阻抗Ri ≥100k Ω 2、有源带通滤波器:通带100Hz~3kHz ;增益Au=1 3、功放:最大不失真输出功率Pomax ≥1W ;负载阻抗R L =8Ω 4、输出功率连续可调;直流输出电压≤50mV ;静态电源电流≤100mA 输入 电路 前置 放大 带通 滤波 功率 放大 图1-1 语音放大电路原理框图

基于单片机的语音识别智能家居控制系统设计

基于单片机的语音识别智能家居控制系统设计 摘要:“智能家居”主要通过利用先进的单片机技术,蓝牙识别技术和语音识别技术,将家用电器,如电灯,电视,冰箱等联系起来,通过语音来控制各个家用电器设备,是人们的生活更加方便,安全和健康。 关键词:智能家居;单片机;语音识别 传统的家电控制方式主要有开关按键和红外遥控两种。这两种必须需要人去直接触碰,有着极大的安全隐患,而且控制距离短,不能够穿墙控制。我们在日常生活中经常遇到以下情况,躺在床上看书或看电视时,卧室电灯不能方便地控制,还要起来去关掉电灯。类似这种不方便的情况在家庭生活中多有出现。尤其是对于老年人、残疾人来说,家电控制更为不易。因此我设计了一种基于单片机的智能家居语音控制系统,采用了语音指令控制家用电器的开启或关闭,从而使现代家居生活更轻松、更便捷、更安全。 1 系统介绍 系统主要分为以下几个部分:由语音识别模块、51单片机、蓝牙发送模块组成语音遥控;由蓝牙接收模块、主控器、接口电路组成家电语音控制平台。 2 硬件电路 整个系统的硬件电路主要包括核心主控制和语音识别两个部分主控制部分为STC公司STC12LE5A60S2单片机,语音识别部分为LD3320语音识别芯片系统,用户发出声音控制指令时,语音识别部分把指令传送给主控制器,主控制器处理后,发出命令控制外围的家用电器设备。 3 非特定人语音识别模块设计

LD3320主要组成有高精度的语音识别处理器和一些外部电路,包括声音输出接口和麦克风接口。可以真正实现语音识别,声音控制和人际对话的各项功能,另外还有完整的非特征人语音识别特征库和高效的人语言识别搜索引擎模块。 (1)语音识别分三个步骤:频谱分析、特征提取、匹配识别。LD3320已把各部分硬件集成在单芯片上,我们主要对LD3320进行二次开发。 (2)LD3320芯片采用并行方式直接与单片机相接,具有识别率高,识别速度快,多接口,多支持等优点,可以连续快速识别多种语言。 (3)设计步骤:确定寄存器读写操作方式(并行或串行SPI),熟悉寄存器的功能,确定所需寄存器的地址,编写驱动程序(初始化→写入识别列表→开始识别→响應中断)。 4 单片机控制器 51单片机的显著特征是采用超低功耗架构,可显著延长电池使用寿命;在本设计中,单片机的P0口接LD3320的8个数据口,P3口连接RDB、WRB、CSB、RSTB等控制引脚;SIMO0、SOMI0口连接射频模块的SPI数据口;在主控器上还接有一个扬声器,作为信息反馈装置;51单片机系列单片机针对C语言与汇编程序精心优化,我们可以通过简单的C 语言编程对其行控制。 5 无线信息传输——蓝牙通信 利用HC05蓝牙发射/接收模块完成“操作指令”的发送和接收。 为了实现对家电电器的控制,我们采用LED灯和继电器模拟实物电灯或者家电,通过语音识别去控制家电的开关,为了提高系统的识别率,本系统采用两级指令完成对系统的控制。向LD模块添加关键词时,通过编辑程序定义二维数组设定一级语音指令为“小黑”,二级语音指令为“开灯”、“关灯”,设定指令时,添加拼音的输入方式作为关键词数组,例如添加“小黑”命令,则写入“xiaohei”,汉字间的拼音用空格隔开。实现功能为接收语音

相关文档
最新文档