wav音频格式

合集下载

44.1khz 的wav例子

题目：探索44.1kHz的WAV音频格式在当今数字化的世界里，音频文件已经成为我们日常生活中不可或缺的一部分。

而WAV格式作为一种常见的音频文件格式，其44.1kHz的采样率更是被广泛运用于各种音频设备和媒体评台。

在本文中，我们将深入探讨44.1kHz的WAV音频格式，探寻其在音频处理和播放中的重要性。

1. 什么是44.1kHz的WAV音频格式？WAV是一种无损音频文件格式，最初由微软和IBM在Windows上推出。

它以PCM编码方式存储音频数据，因此能够提供高质量的音频效果。

而44.1kHz则是指音频的采样率，即以每秒44,100次的频率对声音的快照进行采样。

这一标准是由CD音质确定的，因此被广泛应用于CD音轨和音频编辑中。

2. 44.1kHz的重要性和适用场景44.1kHz的采样率之所以被广泛采用，是因为它能够准确地还原人耳能够感知的所有频率。

这意味着在这一采样率下录制的音频可以达到接近原始声音的还原效果，保留了丰富的音频细节，尤其适用于音乐、录音以及音频处理等领域。

3. 如何理解44.1kHz的WAV音频格式？在理解44.1kHz的WAV音频格式时，我们不仅要关注其数字表示，还需深入了解其对音频体验的影响。

采样率的增加能够提高音频的精度和质量，而44.1kHz的采样率已经达到了人类耳朵的极限感知范围。

无论是从技术还是从感官上来说，这一采样率都能够满足我们对高品质音频的追求。

4. 结语44.1kHz的WAV音频格式在当前的数字音频领域中扮演着重要的角色，其高质量和广泛应用性使其成为音频文件处理和传输中不可或缺的一部分。

通过深入探索和理解这一音频格式，我们不仅能够更好地应用于实际场景中，更能够对数字音频的发展与应用有着更全面、深刻的理解。

个人观点：作为一名音频领域的从业者，我对44.1kHz的WAV音频格式有着深刻的认识和理解。

这一采样率的选择不仅考虑了技术因素，更兼顾了人类听觉的特性，为我们带来了更加真实和丰富的音频体验。

研究音频的本质,详解各种音频格式的区别

研究音频的本质，详解各个音频格式的区别总共分为6个部分，分别是wav格式的介绍，有损格式的介绍，无损压缩格式的介绍，各音频格式的频谱分析，以及基于分析在音频文件选择上做的推荐，后添加有损压缩格式的比较。

1.wav音频格式的三大参数，及各参数对于音频文件的含义wav文件有4个参数，分别是采样频率，声道数，量化位数，以及码率共4个而这4个参数里最好理解的就是声道数，所以不对此参数进行介绍那么我将要介绍的参数就是采样频率F，量化位数B，和码率R采样频率在三个参数里面最重要的是采样频率，后面两个参数都是基于在传输存储过程中根据要求而得到的，唯独采样频率，它是把模拟世界的信号带到数字世界的桥梁。

在讲采样频率前，我们可以先回忆一下我们初中时学抛物线时的情景。

在初中时，老师教我们画抛物线时，是用什么方法画的？？如果大家回想起来的话，就应该记得，是5点法。

是的，用5个点就可以近似的把抛物线给画出来。

音频信号是啥呢？其实是余弦波，只是这个余弦波的频率和幅值都是随时间的变量而已。

我们要对这个音频信号进行记录，不可能把每一时刻的值都记录，但是，我们可以参考画抛物线的方法，用尽量少的点去精确的描绘这个音频信号。

而采样频率，它干的就是这个活，也就是一秒内我们要记录这个音频信号多少个点，就能近似精确的表达这个音频信号。

在信号处理，有这么一个定理，叫奈奎斯特定理。

这个定理怎么得来，你们不用知道，这个是信号处理专业的人才需要知道。

我们只需了解的是，这个定理它告诉我们，如果我们要精确的记录一个信号，我们的采样频率必须大于等于音频信号的最大频率的两倍，记住，是最大频率。

也就是F>=2*fmax。

而在wav格式里，F=44.1kHz。

我们知道，人耳的听音频率范围是20-20kHz，也就是说，如果我们要精确记录这个音频信号，采样频率最低起码是40kHz。

这就是为啥是44.1kHz而不是其他的频率。

量化位数虽然有了采样频率，我们可以精确记录音频信号，然而，这些记录过的音频信号是模拟量，对于计算机而言，是无法处理的。

WAV文件格式分析与详解

WAV文件格式分析与详解作者：王若钧何杉来源：《数字技术与应用》2014年第03期摘要：WAV文件格式信息是对WAV文件编程的重要依据。

揭开WAV文件格式的奥秘是开发功能强大的具有自主知识产权的语音处理软件的关键。

本文结合波形文件的基本知识，较系统地说明了WAV文件的存储原理、文件结构、WAV文件头格式、基于PCM编码的数据组织，内容全面、清楚、准确，还包含了一些新汇集的参数。

可作为开发人员的参考资料。

关键词：文件格式 WAV 编码声音中图分类号：TP311 文献标识码：A 文章编号：1007-9416（2014）03-0093-021 引言WAV文件是在PC机平台上很常见的、最经典的多媒体音频文件，最早于1991年8月出现在Windows 3.1操作系统上，文件扩展名为WAV，是WaveFom的简写，也称为波形文件，可直接存储声音波形，还原的波形曲线十分逼真。

WAV文件格式简称WAV格式是一种存储声音波形的数字音频格式，是由微软公司和IBM联合设计的，经过了多次修订，可用于Windows，Macintosh，Linix等多种操作系统，详述如下。

2 波形文件的基础知识2.1 波形文件的存储过程声源发出的声波通过话筒被转换成连续变化的电信号，经过放大、抗混叠滤波后，按固定的频率进行采样，每个样本是在一个采样周期内检测到的电信号幅度值；接下来将其由模拟电信号量化为由二进制数表示的积分值；最后编码并存储为音频流数据。

有的应用为了节省存储空间，存储前，还要对采样数据先进行压缩。

2.2 WAV文件的编码编码包括了两方面内容，一是按一定格式存储数据，二是采用一定的算法压缩数据。

WAV格式对音频流的编码没有硬性规定，支持非压缩的PCM（Puls Code Modulation）脉冲编码调制格式，还支持压缩型的微软自适应差分脉冲编码调制Microsoft ADPCM（Adaptive Differential Puls Code Modulation）、国际电报联盟（International Telegraph Union）制定的语音压缩标准ITU G.711 a-law、ITU G.711-law、IMA ADPCM、ITU G.723 ADPCM （Yamaha）、GSM 6.10、ITU G.721 ADPCM编码和其它压缩算法。

wav 波形单位换算

wav 波形单位换算WAV是一种音频文件格式，它是无损压缩的，可保留原始音频数据的全部细节。

在数字音频处理中，我们常常需要进行波形单位的转换，例如从秒（s）到采样点（sample）或者从采样点到毫秒（ms）。

下面是关于wav波形单位换算的相关内容。

首先，我们来讨论一下wav文件的基本概念。

WAV文件是由一个个采样点组成的，每个采样点表示音频信号在离散时间中的幅度值。

常见的采样频率有44.1kHz和48kHz，采样深度通常为16位或24位。

在这样的设置下，我们可以计算出每秒钟的采样点数。

例如，对于一个16位、44.1kHz的WAV文件，每秒钟采样点数为44,100。

在音频处理中，我们会遇到将时间单位转换为采样点的情况。

为了做到这一点，我们需要知道音频的采样频率。

以秒（s）为单位的时长乘以采样频率即可得到相应的采样点数。

例如，一个10秒的音频文件在44.1kHz采样频率下将有440,100个采样点（10秒 x 44,100采样点/秒）。

与此相反，如果我们想要将采样点数转换为时间单位，我们需要知道音频的采样频率。

我们可以通过将采样点数除以采样频率来计算得到时间长度（单位为秒）。

假设一个音频文件有440,100个采样点，在44.1kHz采样频率下，该音频文件的时长为10秒（440,100采样点 ÷ 44,100采样点/秒）。

此外，我们还常常需要将时间单位转换为毫秒（ms）。

在音频处理中，毫秒是一个相对较小的时间单位，以更精确地描述音频信号的时效性。

将秒（s）转换为毫秒（ms）非常简单，只需要将时间值乘以1000。

例如，10秒等于10,000毫秒（10秒 x 1000毫秒/秒）。

综上所述，wav波形单位换算涉及到将秒转换为采样点，将采样点转换为秒，以及将秒转换为毫秒。

这些转换的计算公式如下：1. 秒（s）转换为采样点：采样点数 = 秒 x 采样频率2. 采样点转换为秒（s）：秒 = 采样点数 ÷采样频率3. 秒（s）转换为毫秒（ms）：毫秒 = 秒 x 1000在数字音频处理中，准确地进行wav波形单位换算非常重要。

常见的数字音频格式常见的声音格式有哪些

常见的数字音频格式常见的声音格式有哪些1.WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Window平台及其程序广泛支持。

WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，采用44.1kHz的采样频率，16位量化位数，跟CD一样，对存储空间需求太大不便于交流和传播。

2.MIDI是MuicalIntrumentDigitalInterface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。

它定义了计算机音乐程序、数字合成器及电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音。

MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。

把这些指令发送给声卡，由声卡按照指令将声音合成出来。

midi是乐器数字接口的意思，向合成器发送音乐指令，便可以生成音乐信号。

我们知道，声音有四大特性，音高，音长，音强，音色。

向midi合成器发送用何种乐器演奏（音色），音高，持续时间（音长），音量大小等指令，电子乐器便可以发出所要求的。

3.大家都很熟悉CD这种音乐格式了，扩展名CDA，其取样频率为44.1kHz，16位量化位数，跟WAV一样，但CD存储采用了音轨的形式，又叫“红皮书”格式，记录的是波形流，是一种近似无损的格式。

4.MP3全称是MPEG-1AudioLayer3，它在1992年合并至MPEG规范中。

MP3能够以高音质、低采样率对数字音频文件进行压缩。

换句话说，音频文件(主要是大型文件，比如WAV文件）能够在音质丢失很小的情况下(人耳根本无法察觉这种音质损失)把文件压缩到更小的程度。

5.MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。

wav格式结构

W A V实际上是Waveform Audio File Format（波形音频文件格式）的简称，它是微软公司开发的一种声音文件格式。

W A V实际上是对PCM格式的的一种包装，W A V取样频率可以是44100Hz、22050Hz、11025Hz等，量化位数可以8位或16位，声道数可以是单声道，也可以是立体声。

W A V文件包含了一个“fmt ”段落和一个“data”段落，“fmt”段落包含了音源样本的参数信息，“data”段落包含了实际的音源数据。

在W A V文件中，“fmt”段通常包含以下信息：1. 格式说明标志位（Subchunk1ID）：4个字节，等于“fmt ”或者“wFormatTag”。

2. 格式说明标志位长度（Subchunk1Size）：4个字节，等于16或者所使用的单声道位数与有关设置的乘积加上2。

3. 音频流的通道数（nChannels）：2个字节，表示每个声道的样本数。

4. 每秒的采样数（nSamplesPerSec）：4个字节，表示每秒的采样频率。

5. 采样点振幅位数（nAvgBytesPerSec）：4个字节，等于每秒发送字节数，这是nChannels和nSamplesPerSec的乘积的两倍加一再除以8的结果。

6. 音频流码的位深度（nBlockAlign）：2个字节，等于nChannels 和nAvgBytesPerSec的乘积除以8的结果。

7. 总采样点数（wNumBlocks）：2个字节，等于采样点数。

8. 格式说明标志位（Subchunk2ID）：4个字节，等于“data”。

9. 格式说明标志位长度（Subchunk2Size）：4个字节，等于采样点数乘以nChannels再乘以nAvgBytesPerSec除以8的结果。

以上信息仅供参考，如需了解更多信息，建议咨询专业人士。

计算机常用声音文件格式

计算机常用声音文件格式计算机中常用的声音文件格式有很多种，每种格式有其特定的用途和优势。

以下是一些常见的声音文件格式：1. WAV（Waveform Audio File Format）：WAV 是一种无损音频文件格式，通常用于存储高质量的音频。

它支持多种音频编解码器，因此可以存储各种音频数据。

2. MP3（MPEG Audio Layer III）：MP3 是一种有损音频压缩格式，它可以显著减小文件大小而保持相对较高的音质。

由于其高度的压缩率，MP3 是在线音乐和音频传输中广泛使用的格式。

3. AAC（Advanced Audio Coding）：AAC 是一种有损音频编码标准，通常用于在相对较低的比特率下提供较高的音频质量。

它是许多音频和视频格式（例如MP4）的默认音频编码。

4. FLAC（Free Lossless Audio Codec）：FLAC 是一种无损音频压缩格式，它可以保持原始音频质量而不损失任何数据。

FLAC 文件相对较大，但适用于对音质要求较高的场景，例如专业音乐制作。

5. OGG（Ogg Vorbis）：OGG 是一个开放的、免费的多媒体容器格式，其中包括音频编码格式Vorbis。

OGG Vorbis 提供了一种有损的音频压缩方案，类似于MP3，但通常在相同比特率下提供更好的音质。

6. MIDI（Musical Instrument Digital Interface）：MIDI 不是一种音频文件格式，而是一种包含音符、音量和乐器信息的数字音乐标准。

MIDI 文件很小，用于存储音符和乐器信息，而不是音频本身。

7. AIFF（Audio Interchange File Format）：AIFF 是一种无损音频文件格式，常用于Mac平台。

与WAV类似，AIFF支持高质量音频数据。

这些格式的选择取决于具体的应用场景、存储需求、音频质量要求等因素。

例如，对于音乐制作和专业录音，无损格式如WAV、FLAC可能更为适用；而对于在线音乐流媒体，有损格式如MP3、AAC更为常见。

wav音频格式

多媒体技术近年来发展很快，较好品质的声卡可以提供16位的立体声及44KHZ的播放录制能力，它不仅可以提供原音逼真的取样，其合成的音质也十分理想，有的声卡还加入了数字信号处理器，可编程控制的DSP具有强大的运算能力，它可以用来作声音信息的压缩和一些特殊效果的处理。

具有此功能的声卡提供的WAV文件提供的语音信息可以满足语音特征识别的要求。

RIFF概念在Windows环境下，大部分的多媒体文件都依循着一种结构来存放信息，这种结构称为"资源互换文件格式"(Resources lnterchange File Format)，简称RIFF。

例如声音的WAV文件、视频的AV1文件等等均是由此结构衍生出来的。

RIFF可以看做是一种树状结构，其基本构成单位为chunk，犹如树状结构中的节点，每个chunk由"辨别码"、"数据大小"及"数据"所组成。

图一、块的结构示意图辨别码由4个ASCII码所构成，数据大小则标示出紧跟其后数据的长度(单位为Byte)，而数据大小本身也用掉4个Byte，所以事实上一个chunk的长度为数据大小加8。

一般而言，chunk本身并不允许内部再包含chunk，但有两种例外，分别为以"RIFF"及"L1ST"为辨别码的chunk。

而针对此两种chunk，RIFF又从原先的"数据"中切出4个Byte。

此4个Byte 称为"格式辨别码"，然而RIFF又规定文件中仅能有一个以"RIFF"为辨别码的chunk。

图二、RIFF/LIST块结构只要依循此一结构的文件，我们均称之为RIFF档。

此种结构提供了一种系统化的分类。

如果和MS一DOS文件系统作比较，"RIFF"chunk就好比是一台硬盘的根目录，其格式辨别码便是此硬盘的逻辑代码(C：或D：)，而"L1ST"chunk即为其下的子目录，其他的chunk则为一般的文件。

WAV文件格式说明

1. 音频简介经常见到这样的描述: 44100HZ 16bit stereo 或者 22050HZ 8bit mono 等等.44100HZ 16bit stereo: 每秒钟有 44100 次采样, 采样数据用 16 位(2字节)记录, 双声道(立体声);22050HZ 8bit mono: 每秒钟有 22050 次采样, 采样数据用 8 位(1字节)记录, 单声道;当然也可以有 16bit 的单声道或 8bit 的立体声, 等等。

采样率是指：声音信号在“模→数”转换过程中单位时间内采样的次数。

采样值是指每一次采样周期内声音模拟信号的积分值。

对于单声道声音文件，采样数据为八位的短整数（short int 00H-FFH）；而对于双声道立体声声音文件，每次采样数据为一个16位的整数（int），高八位(左声道)和低八位(右声道)分别代表两个声道。

人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求. 所以 22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。

这和电影的每秒 24 帧图片的道理差不多。

每个采样数据记录的是振幅, 采样精度取决于储存空间的大小:1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍.这样我们就可以根据一个 wav 文件的大小、采样频率和采样大小估算出一个wav 文件的播放长度。

譬如 "Windows XP 启动.wav" 的文件长度是 424,644 字节, 它是"22050HZ / 16bit / 立体声" 格式(这可以从其 "属性->摘要" 里看到),那么它的每秒的传输速率(位速, 也叫比特率、取样率)是 22050*16*2 = 705600(bit/s), 换算成字节单位就是 705600/8 = 88200(字节/秒), 播放时间：424644(总字节数) / 88200(每秒字节数) ≈ 4.8145578(秒)。

WAV是什么格式,教你WAV转MP3的方法

Wav是什么格式？这是很多朋友心中的疑问。

其实wav是微软公司开发的音频文件格式，它的优点是能很大限度的保证音频不失真。

而缺点也很明显，有些播放器不兼容导致无法播放，它占用的磁盘空间也比较大，所以很多人想把wav转成mp3格式，这样就方便很多了。

因此，今天就顺便把wav转mp3的方法分享给大家。

一、wav转mp3
1.打开工具
首先我们打开电脑里的【迅捷音频转换器】，接着点击【添加文件】将要转换的音频加入工具中，或者直接拖拽文件进入也是可以的。

2.设置参数
然后我们在主页右上角选择一下输出的音频格式，随后选择声道（全部声音/仅系统/仅麦克风），还有就是选择编码（VBN/CBN），选好之后就可以了。

3.开始转换
最后一步就更简单了，我们先设置音频输出后的保存位置，然后直接点击左下角的【开始转换】，然后静静的等待几秒钟，就会转换完成。

二、音频提取
其实这个工具还可以提取视频中的音频，下面我们一起来看看吧。

1.上传视频
我们直接点击顶部的【音频提取】，然后将要提取的视频拖拽到工具中，或者点击【添加文件】进行添加也行。

2.确定片段
然后我们通过调整【片段指针】选择想要提取的视频片段，当然你想提取整个视频的话，就不需要调整了，接着点击右侧的【确定并添加到输出列表】。

3.开始提取
最后我们点击【更改路径】设置一下文件保存位置后，就可以点击【开始提取】了，等待片刻就能提取成功。

看到这里你应该清楚WAV是什么格式了吧，其实它就是一种无损音乐格式，而且wav格式转换成mp3格式的方法也特别简单。

如果你要转换其他音频格式或剪辑音频的话，也是可以用上面这个工具哦。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

具有此功能的声卡提供的WAV文件提供的语音信息可以满足语音特征识别的要求。

RIFF概念在Windows环境下，大部分的多媒体文件都依循着一种结构来存放信息，这种结构称为"资源互换文件格式"(Resources lnterchange File Format)，简称RIFF。

例如声音的WAV文件、视频的AV1文件等等均是由此结构衍生出来的。

RIFF可以看做是一种树状结构，其基本构成单位为chunk，犹如树状结构中的节点，每个chunk由"辨别码"、"数据大小"及"数据"所组成。

一般而言，chunk本身并不允许内部再包含chunk，但有两种例外，分别为以"RIFF"及"L1ST"为辨别码的chunk。

而针对此两种chunk，RIFF又从原先的"数据"中切出4个Byte。

此4个Byte 称为"格式辨别码"，然而RIFF又规定文件中仅能有一个以"RIFF"为辨别码的chunk。

图二、RIFF/LIST块结构只要依循此一结构的文件，我们均称之为RIFF档。

此种结构提供了一种系统化的分类。

至于在RIFF文件的处理方面，微软提供了相关的函数。

视窗下的各种多媒体文件格式就如同在磁盘机下规定仅能放怎样的目录，而在该目录下仅能放何种数据。

WAV文件格式WAVE文件是非常简单的一种RIFF文件，它的格式类型为"WAVE"。

RIFF块包含两个子块，这两个子块的ID分别是"fmt"和"data",其中"fmt"子块由结构PCMWAVEFORMAT所组成，其子块的大小就是sizeofof(PCMWAVEFORMAT),数据组成就是PCMWAVEFORMAT结构中的数据。

图三、WAVE文件结构PCMWAVEFORMAT结构定义如下：Typedef struct{W A VEFORMA T wf; /波形格式；WORD wBitsPerSample; //W A VE文件的采样大小；} PCMWA VEFORMA T;//WA VEFORMA T结构定义如下:typedef struct{WORD wFormatag; //编码格式，包括W A VE_FORMA T_PCM，WA VEFORMA T_A DPCM等WORD nChannls; //声道数，单声道为1，双声道为2;DWORD nSamplesPerSec; //采样频率；DWORD nA vgBytesperSec; //每秒的数据量；WORD nBlockAlign; //块对齐；} W A VEFORMA T；"data"子块包含WAVE文件的数字化波形声音数据，其存放格式依赖于"fmt"子块中wFormatTag 成员指定的格式种类，在多声道WAVE文件中，样本是交替出现的。

如16bit的单声道WAVE文件和双声道WAVE文件的数据采样格式分别如图四所示：16位单声道：图四、WAVE文件数据采样格式WAV文件格式实例分析：在Windows环境下，大部分的多媒体文件都依循着一种结构来存放信息，这种结构称为"资源互换文件格式"(Resources lnterchange File Format)，简称RIFF。

例如声音的WAV文件、视频的AVI文件等等均是由此结构衍生出来的。

RIFF可以看做是一种树状结构，其基本构成单位为chunk，犹如树状结构中的节点，每个chunk由"辨别码"、"数据大小"及"数据"所组成。

辨别码由4个ASCII码所构成，数据大小则标示出紧跟其后数据的长度(单位为Byte)，而数据大小本身也用掉4个Byte，所以事实上一个chunk的长度为数据大小加8。

一般而言，chunk本身并不允许内部再包含chunk，但有两种例外，分别为以"RIFF"及"LIST"为辨别码的chunk。

而针对此两种chunk，RIFF又从原先的"数据"中切出4个Byte。

此4个Byte称为"格式辨别码"，然而RIFF又规定文件中仅能有一个以"RIFF"为辨别码的chunk。

只要依循此一结构的文件，我们均称之为RIFF档。

此种结构提供了一种系统化的分类。

如果和MS一DOS文件系统作比较，"RIFF"chunk就好比是一台硬盘的根目录，其格式辨别码便是此硬盘的逻辑代码(C：或D：)，而"LIST"chunk即为其下的子目录，其他的chunk则为一般的文件。

至于在RIFF文件的处理方面，微软提供了相关的函数。

视窗下的各种多媒体文件格式就如同在磁盘机下规定仅能放怎样的目录，而在该目录下仅能放何种数据。

WAV为WAVEFORM(波形)的缩写。

在声音文件的结构中，"RIFF"的格式辨别码为"WAVE"。

整个文件由两个chunk所组成：辨别码"fmt "(注意，后面有一个空格)及"data"。

在"fmt "的chunk下包含了一个PCMWAVEFORMAT数据结构，其定义如下：typedef struct pcmwaveformat - tag {WAVEFORMAT wf ；WORD wBitsPerSample；} PCMWAVEFORMAT；typedef struct waveformat - tag {WORD wFormatTag ;WORD nChannels;DWORD nSamplesPerSec;DWORD nAvgB ytesperSec;WORD nBlockAlign;} WAVEFORMAT；其意义分别为：wFormatTag：记录着此声音的格式代号，例如WAVE_FORMAT_PCM，WAVE_F0RAM_ADPCM 等等。

nC hannels：记录声音的频道数。

nSamp1esPerSec：记录每秒取样数。

nAvgB ytesPerSec：记录每秒的数据量。

nBlockA1ign：记录区块的对齐单位。

wBitsPerSample：记录每个取样所需的位元数。

"data"Chunk包含真正的声音数据。

Window目前仅提供WAVE_FORMAT_PCM一种数据格式，所代表的意义是脉派编码调变(Pu1se Code Modulation)。

针对此格式，Windows定义了在"data"的chunk 中数据的存放情形，图2中列出了四种不同频道数及取样所需的位元数以及位元位置的安排。

"RIFF" 频道0 频道0 频道0 频道0xxxx nChannel s=1,wBitsPerSample=8"WAVE" 频0(左) 频道1(右) 频道0(左) 频道1 (右)"fmt "nC hannels=2,wBitsPerSample=8sizeof(PCMWAVEFORMAT)struct of PCMWAVEFORMAT 频道0(低位) 频道0(高位) 频道0(低位)频道0(高位)"data" nChannel s=1,wBitsPerSample=16xxxx 频道0(低位) 频道0(高位) 频道0(低位)频道0(高位)(低位) (高位) (低位) (高位)wave form datanC hannels=2,wBitsPerSample=16图1 WAV文件结构图2 PCM文件中位元安排方式第一排表示单声道8位元，第二排表示双声道8位元，第三排表示单声道16位元，第四排表示双声道16位元。

8位元代表音量大小由8个位元所表示，16位元则代表音量大小由16个位元所表示。

理论上8位元可以表示0～255，16位元可表示0～65536，不过windows却定16位元其值的范围从-32168～32167。

此外尚有一点要注意的是，0并不一定代表无声，而是由中间的数值来决定，也就是在8位元时为128，16位元时为0才是无声。

所以，若程序设计时需放入无声的数据，糯特别注意声音格式是16或是8位元，以放入适当的值。

WAV文件信息的具体应用WAV文件中包括了对原始声音的高速率采样，并且以WAVE_PCM_FORMAT脉派编码调变格式，我们可以在VISUAL C++程序中实现，在读出WAVEHDR文件头之后，下面就是原始声音的高速率采样信息，我们可以对它作多方面的信息处理。

波形显示。

我们可以以时域-幅度的方式显示出原始声音的波形，这是最简单同时也是最直接的信息处理方式。

在时域范围内，我们可以观察该信号波形是否连续，中间是否有跳变等。

频谱显示我们可以以频域-幅度的方式显示出原始声音的频谱，在对原始信号经过FFT变换之后，可以得到该信号的频谱，进而得到该信号的能量集中带，分布特征，谱对称系数等等。

用于语音信号识别讲话者的个体识别是语音信号处理的一个重要内容，但它的一个前提条件是必须提供语音信号的数字波形，通常的方法是将原始的语音信号进行放大、抗混叠滤波、A/D采样、数值编码，最终得到语音信号的数字波形，通常多采用硬件处理，费时费力，如果我们借助非常成熟的声卡技术，将WAV 文件打开，就非常方便地得到语音信号的数字波形，为下一步进行语音信号识别提供良好的前端预处理。