对WAV文件格式的实例分析_徐济仁
WAV文件格式实例分析

提 供 了 系统 化 的分 类 。 如 果 和 MS — DO S文件 系 统 作 比较 , R I F F c h u n k就 好 比是 硬 盘 的 根 目录 , 其 格 式 辨别 码就 是
5 0
一
《 微型机与应用} 2 0 0 2 年 第 3期
维普资讯
中 列 出 了 4种 不 同 频 道数 、取 样 所需 的位 元 数 及 位 元 位 置 的安 排 :
5 2 4 9 4 6 4 6: 对 应 的 AS CI I 码为 R I F F , 表示 c h u n k
W ORD wF o r ma t Ta g; W ORD n Ch a n ne l s ; DW OR D t t S ampl e s Pe r S e  ̄; DW O RD nA g By t e 。 p e r Se c; W OR D n Bl o c kAl i g n;
其意义分别为: ①w F o r ma t T a g : 记 录 此 声 音 的 格 式 代 号 , 例 如
W AVE FORM AT PCM 、 W AVE FORAM
— — — —
AD P C M等 =
式 辨 别 码 。然 而 RI F F又 规 定文 件 中 仅 能 有 1个 以 R I F F 为 辨 别码 的 c h u n k 。
0 0 01 : 记 录 声 音 的频 道数 , 频 道数 为 1 : O 0 0 0 5 6 2 2:记 录 每 秒 取 样 数 。 每 秒 取 样 数 为
0 00 0 56 22 H
O 0 O 0 5 6 2 2 : 记 录每 秒 的数 据 量 。每 秒 的数 据 量 为
通信原理编码实验报告

大连理工大学语音信号A律编码解码报告课程名称:通信原理学院(系):电信专业:通信工程班级:1101学号:201181227 201181145学生姓名:殷青张非凡2014年 4 月17 日一.实验原理1.1总体框图1.2 低通滤波器信道中所用的音频信号频率范围为300~3400hz,因此,我们需要对获得的音频信号滤波,使用低通滤波器。
1.3 8k重采样信道中的带宽为8khz,因此,我们需要对获得的音频信号进行重采样,以获得8khz的信号。
1.4抽样信号的非均匀量化编码(13折线)为了改善小信号时的信号量噪比,采用非均匀量化,量化间隔随信号采样值的不同而变化,信号抽样值小时,量化间隔也小;信号抽样值大时,量化间隔也大,实际用13折线法近似逼近A律压缩来进行非均匀量化。
如下图所示:语音信号中通常采用8位的PCM编码就能保证满意的通信质量。
8bits的安排:极性码:第一位;段落码:第二至四位,代表13折线中的8个段落;段内码:第五至八位,代表每一段落内的16个均匀划分的量化间隔。
段落码和段内码的编码规则如下表所示:二.实验内容2.1语音信号的获取。
我们用电脑上的录音机录了一段“早上好,我是***”的录音。
并用软件“格式工厂”将其转成wav格式。
原始信号波形图如下。
代码:figure;[x0,fs0,bits0]=wavread('DSP2.wav');plot(x0);xlabel('t'),ylabel('幅值');title('原始信号波形');2.2信号处理——低通滤波器&8k重采样2.2.1低通滤波:设计思想:利用窗函数FIR函数,将语音信号的高频成分滤除,即达到低通滤波的目的。
低通滤波器的频响特性曲线如下图:2.2.2重采样:设计思想:wav文件的抽样频率已经是44khz,要用8khz重采样,而从44k到8k,由于44不能被8整点采样,造成可能的语音信号的缺失,因此,我们先用插0法将44khz的信号扩展成88khz的信号,再对88khz信号每11点抽一个值,这样,8k重采样基本完成。
wav音频文件的内部结构

wav音频文件的内部结构wav音频文件是一种无损的音频文件,相对于MP3来说音质较好,当然文件大小也很大。
A WAVE file is often just a RIFF file with a single “WAVE” chunk which consists of two sub-chunks –a “fmt ” chunk specifying the data format and a “data” chunk containing the actual sample data. Call this form the “Canonical form”其文件的内部格式如下:用表格统计各个部分的含义如下:一个简单的示例如下所示:chunk 结构typedef struct waveChunk {unsigned int chunkID; //RIFFunsigned int chunksize; //存储整个文件的文字数unsigned int WaveID; //WAVE}WAVE;typedef struct tWAVEFORMATEX {short wFormatTag; // format typeshort nChannels; // number of channels (i.e. mono, stereo...) unsigned int nSamplesPerSec; // sample rateunsigned int nAvgBytesPerSec; // for buffer estimationshort nBlockAlign; // block size of datashort wBitsPerSample; // number of bits per sample of mono datashort cbSize; // the count in bytes of the size of/* extra information (after cbSize) */} WAVEFORMATEX, *PWAVEFORMATEX;typedef struct dataChunk {unsigned int Subchunk2ID; //dataunsigned int Subchunk2size; //data sizeunsigned char *data; //data}WAVE;Q&A8bit/16 bit 样值的二进制编码表示一样吗?现有的wav支持哪几种音频编码方法?data format在数据域中除了单声道-量化位数为8音频数据之外PCM存储格式按照补码的形式存放。
[多媒体]02数字声音
![[多媒体]02数字声音](https://img.taocdn.com/s3/m/1b9edea0b0717fd5360cdc67.png)
Beijing Jiaotong University
18
多媒体
Audio
• 其中在Audio中 – 话 音 (speech) 信 号 : 频 率 范 围 为 300 ~ 3400Hz的信号 – 全频带声音:20-20kHz • Music /Noise.. • 在多媒体技术中,处理的信号主要是Audio 信号,包括音乐、话音、风声、雨声、鸟 叫声、机器声等。
Beijing Jiaotong University 19
多媒体
人的听力
• 人耳对中频段1~3千赫的声 音最为灵敏,对高、低频段的声音,特别 是低频段的声音则比较迟钝。
• 利用这些特性可以在压缩音频数据时区分 对待
Beijing Jiaotong University
20
多媒体
Beijing Jiaotong University
27
多媒体
数字化主要包括采样和量化这两个 方面。 采样频率(sampling rate)是将模拟 声音波形转换为数字时,每秒钟所抽取 声波幅度样本的次数,单位是Hz(赫兹)。
Beijing Jiaotong University
28
多媒体
量化数据位数(也称量化级)是每 个采样点能够表示的数据范围,经常采 用的有8 位、12 位和16 位。 例如,8 位量化级表示每个采样点 可以表示256个不同量化值,而16位量 化级则可以表示65536 个不同的量化值。 记录声音时,如果每次生成一个声 道数据,称为单声道;每次生成两个声 波数据,称为立体声(双声道)。
Beijing Jiaotong University
3
多媒体
什么是声音
• 声音是通过一定介质(如空气、水等)传 播的连续的波
Wave文件格式解析

Wave文件是用于多媒体文件存储的Microsoft RIFF(Resource Interchange File Format 资源交换档案标准)规范的子集之一。
一个RIFF文件以一个文件头(File Header)开始,接着是一系列数据块(data chunk)。
一个Wave文件常常是一个带有一个单“WAVE”块的RIFF文件。
该“WAVE”chunk由两个子快组成,一个“fmt”chunk用于详细说明数据格式,一个“data”chunk包含实际的样本数据。
这种形式我们称为规范形式。
下面我们看一个具体的例子,声音文件如下:
52 49 46 46 24 08 00 00 57 41 56 45 66 6d 74 20 10 00 00 00 01 00 02 00
22 56 00 00 88 58 01 00 04 00 10 00 64 61 74 61 00 08 00 00 00 00 00 00
24 17 1e f3 3c 13 3c 14 16 f9 18 f9 34 e7 23 a6 3c f2 24 f2 11 ce 1a 0d
上图所示例子,该WAVE文件采用PCM编码。
该音频具有双声道,每个样点进行16位量化编码,双声道的一个样点占4字节,存储顺序是每个样点的左右声道交替存储。
对于Data块,根据声道数和采样率的不同情况,布局如下(每列代表8bits):1、8 Bit 单声道:
2、8 Bit 双声道
3、16 Bit 单声道:
4、16 Bit 双声道。
WAV波形文件的结构及其应用实践

偏移地址 长度 (字节 ) 数据类型 值或含义 格式标记 "RIFF"① 文件长度 ②
00H 04H 08H 0CH 10H 14H 16H 18H 1CH 20H 22H 24H 28H
4 4 4 4 4 2 2 3 3 2 2 4 4
Char Longint Char Char Longint Word Word Longint Longint Word Word Char Longint
>?*@A)B?A $))C()$DCEA8F$GHIJ+*?)2K 55 参 数 F$LHI’ 增加或减小音量的百分比 DAM’( +N’OA (*E A*P1PP76 )* DAM’( 55PP7J 源 文
件的变量实例
" #$% 音频数据表结构 #$% 音频数据表结 构采用 % 左 ! 右 & 声道数据 交
中国自控网 !http://www.autocontrol.com.cn Q EEN Q 120 元 / 年 邮局订阅号 !82-946 !!!
越强 $ 目前计算机中配置的 EH 位声卡的采 样位数包 括 J 位和 EH 位两种 $ 声 道 数 ’有 单 声 道 和 立 体 声 之 分 #单 声 道 的 声 音 只能使用一个喇叭发声 ! 有的声卡也将单声道信息处 理成两个喇叭同时输出 " # 立 体声的 ,-. 可以 使两个 喇 叭 都 发 声 ! 一 般 左 右 声 道 有 分 工 "# 这 样 更 能 感 受 到 音频信息的空间效果 $ 显然 # 双声道数据还 原特性更 接近人们的听力习惯 # 但采集得到的数据量会增加 E
! 假设用每间隔 FAFE 秒进行波形分割"# 如图 G 所示 $
wav信的波形分析与合成
MAXSIN(peaki)=maxpeak;
MAXSIN(1026-peaki)=maxpeak;
maxsin=100*ifft(MAXSIN);
figure('numbertitle','off','name',’用最大正弦分量重构信号’);
subplot(2,1,1)
title('FFT后幅频特性的fftshift')
%fs=1024
YR1024=fft(yr,1024);
figure('numbertitle','off','name','1024点FFT');
subplot(2,1,1)
plot(linspace(-pi,pi,1024),abs(YR1024))%FFT的幅频特性
figure('numbertitle','off','name',’用最大正弦分量重构信号’);
subplot(2,1,1)
plot(maxsin);
title('重构的信号');
subplot(2,1,2);
plot(yr1024);
y = wavrecord(duration*fs, fs, format);%录制两秒mic声音
wavwrite(y, fs, nbits, waveFile);%将声音按fs频率nbits写入mysound.wav
wavplay(y,fs);%播放(或者使用sound(y,fs))
2.录制好的男生声音文件名为“mysound.wav”,女声声音文件名为“nv.wav”
wav文件格式分析详解
wav文件格式分析详解<转> (2008-12-18 22:02:51)标签:wav 音频 it 分类:研发杂物箱一、综述W A VE文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标准的。
RIFF是英文Resource Interchange File Format的缩写,每个W A VE文件的头四个字节便是“RIFF”。
W A VE文件是由若干个Chunk组成的。
按照在文件中的出现位置包括:RIFF W A VE Chunk, Format Chunk, Fact Chunk(可选), Data Chunk。
具体见下图:------------------------------------------------| RIFF W A VE Chunk || ID = 'RIFF' || RiffType = 'W A VE' |------------------------------------------------| Format Chunk || ID = 'fmt ' |------------------------------------------------| Fact Chunk(optional) || ID = 'fact' |------------------------------------------------| Data Chunk || ID = 'data' |------------------------------------------------图1 Wav格式包含Chunk示例其中除了Fact Chunk外,其他三个Chunk是必须的。
每个Chunk有各自的ID,位于Chunk最开始位置,作为标示,而且均为4个字节。
并且紧跟在ID后面的是Chunk大小(去除ID和Size所占的字节数后剩下的其他字节数目),4个字节表示,低字节表示数值低位,高字节表示数值高位。
WAV文件的结构剖析
WAV 文件的结构剖析王 颀 赵世刚 张春寿 计算机多媒体技术的发展使视听处理技术产生了巨大进步。
用计算机“剪”、“拼”、“接”的视频、音频节目比比皆是。
这些视、音频文件在计算机内的存储结构和组织结构对使用者是透明的,这给技术人员带来困惑和诸多不便(例如:受病毒攻击或误操作需恢复文件时)。
如果掌握了这类文件结构,就可用一些简单的维护软件,以“特征字符”为引导,将各簇挂接,恢复文件。
下面以非压缩的基本WAV 文件(扩展名为wav )为例,介绍音频文件的储存与组织结构,以期达到抛砖引玉的目的。
WAV 音频文件是存储数字音频(波形)数据的文件。
它支持多种分辨采样频率和多声道音频,在IBM 平台上非常流行。
广泛应用在专业数字音频波形节目制作上,这种格式采用微软电子技术交换文件介绍的方式以块存储数据。
11数据的组织所有数据以字节(8位二进制)方式存储,多字节数据值按低位优先顺序存储,如图1所示。
21文件结构WAV 文件是不同类型块的集合。
其中,所必需的格式块内含描述波形的重要参数(诸如采样频率等);数据块内含音频波形数据,两者关系见图2。
31样本点和样本帧样本点是某时间点上所采到的一个语音样本幅值(简称采样值)。
单字节采样值以无符号数0—255表示;采样值超过8位二进制值92 济南教育学院学报2000年第3期 时,则以2的补码形式表示。
例如:16位二进制数(0111111111111111)B十六进制的(7FFF )H 表示(32767)D (最大值),(8000)H 表示(32768)D (最小值)。
采样值在9—16位时用二字节描述;采样值在17—24位时用三字节描述;采样值在25—32位时用四字节描述。
采样值的数据位应遵循左对齐及余位补“O ”规则。
例如,采样值为12位,用4—15位存储该值,0—3位填“0”。
具体讲,采样值为二进制101000010111,数据描述如图3所示。
需要特别指出的是:机内存储要求低字节优先,波形数据要求最高位优先。
wav文件格式
" VE WA ,
"mt f "
sef MWA E O MA ) io(C z P VFR T
src o P MWAVE O t t C u f F RMAT
dt aa
x X x X
辨别码由4 个 A C I S I码所构成 , 数据大小则标
示出紧跟其后数据的长度( 单位为 B t , y )而数据大 e 小本身也用掉 4 Bt, 个 y 所以事实上一个 cuk的 e hn
naps rc 每 取 数。 S : 录 秒 样 S l ee 记 me P
n vBt e c记录每秒的数据量。 Pre: A gy s S e
nl k l : n记录区块的对齐单位。 Bo Ai c g
2 V文件信息的具体应用 WA
WA 中包括 了对原始声音的高速率采 V文件 样, 并且以WA E C _ R T脉冲编码调制 V _ F MA P M O 格式, 我们可以在 V S A C十十程序中实现, IU L 在读 出 WA E D V H R文件头之后 , 下面就是原始声音 的 高速率采样信息, 我们可以对它作多方面的信息处
n hn e = w iPra p 1 l= C anl 2 Bt e m e 6 s , s S 图 2 C 文件中位元安排方式 P M
第一排表示单声道 8 位元, 第二排表示双声道 8 位元, 第三排表示单声道 1 6位元 , 第四排表示双 声道 1 位元。8位元代表音量大小由 8个位元所 6 表示 ,6 1 位元则代表音量大小由 1 个位元所表示。 6
如果和 MS O - S文件系统作 比较,R F " n D " IF cuk h 就好 比是一台硬盘的根 目录, 其格式辨别码便是此 《 电子技术》0 1 20 年第 1 期
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
#
,.// 文件和 ’() 文件格式
点击 “程序” “*20342 方式” , 进入 *20342 01
工作方式, 调用 342 应用程序 35-67, 可以看到具 体的 ’() 文件。 文件长度为 "#89: (十六进制) , 那么哪些是声 音文件的采样信息呢?先来分析 ,.// 文件。 在 ’;<=>?@ 环境下, 大部分的多媒体文件都依 循着一种结构来存放信息, 这种结构称为 “资源互换 文件格式” (,A@>BCDA@ .<EACDFG<HA /;IA />CJGE ) , 简 称 ,.//。例如声音的 ’() 文件、 视频的 ()# 文件 等等均是由此结构衍生出来的。 ,.// 可以看作是一 种树状结构, 其基本构成单位为 DFB<K , 犹如树状结 构中的节点, 每个 DFB<K 由 “辨别码” 、 “ 数据大小” 及 “数据” 所组成。 辨别码由 L 个 (29.. 码所构成,数据大小则标 示出紧跟其后数据的长度 (单位为 -MEA ) , 而数据大 小本身已用掉 L 个 -MEA ,所以事实上一个 DFB<K 的 长度为数据大小加 8。一般而言, DFB<K 本身并不允 许 内 部 再 包 含 DFB<K, 但 有 两 种 例 外 , 分 别 为 以 “,.//” 及 “N.2O” 为辨别码的 DFB<K 。而针对此两种 “数 据 ” 中 切 出 L 个 -MEA 。 DFB<K, ,.// 又 从 原 先 的 此 L 个 -MEA 称为 “格式辨别码” , 然而 ,.// 又规定 在 “QJE”的 DFB<K 下包含了一个 +9*’()5P 其定义如下: /4,*(O 数据结构, EMSA=AQ @ECBDE SDJ?GTAQ>CJGE 0 EGH U ’()5/4,*(O ?Q ; ’4,3 ?-;E@+AC2GJSIA; V +9*’()5/4,*(O; EMSA=AQ @ECBDE ?GTAQ>CJGE 0 EGH U ’4,3 ?/>CJGEOGH W ’4,3 <9FG<<AI@W 3’4,3 <2GJSIA@+AC2ADW 3’4,3 <(TH-MEA@SAC2ADW ’4,3 <-I>DK(I;H<W V ’()5/4,*(O;
! 收稿日期 " !""#$"%$"&
MK
《电声技术》 !""# 年第 ## 期总第 #$% 期
! 参考文献 " T#U 黄 伟 伦 等 P 6?O/QV94/? 多 媒 体 程 序 设 计 实 务 与 范 例 P
武汉: 华中理工大学出版社, #$$JP
第一排表示单声道 J 位元,第二排表示双声道 第三排表示单声道 #K 位元, 第四排表示双 J 位元, 声道 #K 位元。 J 位元代表音量大小由 J 个位元所表 示, #K 位元则代表音量大小由 #K 个位元所表示。理 论 上 J 位 元 可 以 表 示 "L!MM , #K 位 元 可 表 示 "L 不 过 &F:G(&> 确 定 #K 位 元 取 值 的 范 围 为 KM MNK , ON! #KJLN! #K%。此外尚有一点要注意的是, " 并不 一定代表无声, 而是由中间的数值来决定, 也就是在 若 J 位元时为 #!J, #K 位元时为 " 才是无声。所以, 程序设计时需放入无声的数据,应特别注意声音格 式是 #K 位元还是 J 位元, 以放入适当的值。
M% I# MK IM 对应的 0?8QQ 码为 /012。
以下为三个 A;H:E , 辨别码分别为 S*, (注意 , 后 面有一个空格) , S+A,, G+,+。 (注意 , 后面 KK K9 %I !" 对应的 0?8QQ 码为 S*, 有一个空格) , 表示 A;H:E 的辨别码为 S*, (注意 , 后 面有一个空格) ; (注意 , 后面有一 "" "" "" #! 表示辨别码为 S*, 个空格) 的 A;H:E 的 数 据 长 度 为 """""#JI (十 六 进 制) ; 记录着此声 音 的 格 式 代 号 , 表示它的格 "" "#: 式为 /0123’4560-3786; 记录声音的频道数, 频道数为 # ; "" "#: 记录每秒取样数, 每秒取样数 "" "" MK !!: (十六进制) ; """"MK !!R 记录每秒的数据量, 每秒的数据量 "" "" MK !!: 为 """"MK!!R; 记录区块的对齐单位为 # ; "" "#: 记录每个取 样 所 需 的 位 元 数 , 它的值为 "" "J: 表示需要用一个字节; J, 备用字。 "" !J: 表示 A;H:E KK K# KN %I 对应的 0?8QQ 码为 S+A,, 的辨别码为 S+A,。 "" "" "" "I 表示辨别码为 S+A, 的 A;H:E 的数据 长度为 I 个字节; "" "" "# M! 表 示 真 实 的 声 音 采 样 数 据 量 的 大 小, 长度为 """""#M!R。 KI K# %I K# 对 应 的 0?8QQ 码 为 G+,+, 表 示 A;H:E 的辨别码为 G+,+。 "" "" "# M! 表 示 表 示 辨 别 码 为 G+,+ 的 A;H:E 的数据长度为 """""#M! (十六进制) 个字节; …… N9 I! IK I0 I9 M# MM M0 $C 0" 0# 0! 0N 0I 0I 0MO0M 0M 0K 0J。 表示为真实的采样数据。 N9 I! IK ……开始, 有的 /01 文件可能在实际应用中稍微有一些 变化, 也可能适当增加一些 A;H:E , 分析方法基本上 同上面类似。
等。 记录声音的频道数。 :8;+::<=>: 记录每秒取样数。 :?+*@=<>7<)?<A : 记录每秒的数据量。 :0B.CD,<>7<)?<A : 记录区块的对齐单位。 :C=(AE0=F.:: 记录每个取样所需的位元数。 &CF,>7<)?+*@=<: “G+,+ ” A;H:E 包含真正的声音数据。/F:G(&> 目 前仅提供 /0123’4560-3786 一种数据格式, 所 代表的意义是脉冲编码调制(786) 。针对此格式, “G+,+ ” 的 A;H:E 中数据 的 存 放 情 /F:G(&> 定义了在 形,图 ! 中列出了 I 种不同频道数及取样所需的位 元数以及位元位置的安排。
《电声技术》 !""# 年第 ## 期总第 #$% 期
XX
网络与多媒体 !"#$%&’ ()* +,-#./"*.(
其意义分别为: 据长度为 """""#JIR (十六进制) ;
&’()*+,-+.:记录着此声音的格式代号,例如 /0123’4560-3786, /0123’"506309786 等
文件中仅能有一个以 “,.//” 为辨别码的 DFB<K 。 只要依循此结构的文件, 均称之为 ,.// 档。此 种结构提供了一种系统化的分类。如果和 *2P342 文件 系 统 作 比 较 , “,.//” DFB<K 就 好 比 是 一 台 硬 盘 的根目录,其格式辨别码便是此硬盘的逻辑代码 (9 : 或 3: ) , 而 “N.2O” 其 DFB<K 即 为 其 下 的 子 目 录 , 他的 DFB<K 则为一般的文件。至于在 ,.// 文件的 处理方面, 微软提供了相关的函数。 视窗下的各种多 媒体文件格式就如同在磁盘机下规定仅能放怎样的 目录, 而在该目录下仅能放何种数据。 (波形) 的缩写。声音文件 ’() 为 ’()5/4,* 的结构如图 # 所示, “,.//” 的 格 式 辨 别 码 为 “’()5” 。整个文件由两个 DFB<K 所组成:辨别码 (注意, 最后一个是空白字符R ) 及 “=GEG ” 。 “QJE”
!"#$%&’ ()* +,-#./"*.( 网络与多媒体
对 !"# 文件格式的实例分析
徐济仁,牛纪海,陈家松 (合肥电子工程学院 通信与通抗原理教研室,安徽 合肥 !&""&%)
・ 格式分析 ・
’() 文件格式是一种重要的用于存放声音文
件的文件格式,尽管现在有 *+& , ,(* 等压缩效率 更高的声音文件格式, 并且广泛被音乐文件所采用, 但是有很多的应用程序 仍 然 采 用 ’() 文 件 格 式 。 由于 ’() 文件没有采用压缩技术,所以它的文件 很庞大, 一般都在几 *- 以上。 但是也正因为没有采 用压缩技术, 声音的采样数据很容易被读出来, 便于 用作其它的处理。例如, 画出声音的信号波形、 作出 频谱等。 而且现在很多的应用程序几乎都支持 ’() 文件格式,也有专门软件可以完成从 ’() 文件格 式向其它文件格式的转换,因此 ’() 文件在目前 仍然有着广泛的应用价值。下面详细分析 ’() 文 件格式的具体含义。