wave文件(.wav)格式、PCM数据格式

合集下载

游戏音效处理中音频格式以及优缺点概述

游戏音效处理中音频格式以及优缺点概述游戏音效适用于游戏中的各个领域，针对不同的场景以及动作，都会有不同的音效，今天小编来和大家一起聊聊游戏音效中常见的音频格式有哪些，以及这些音频格式有哪些优缺点。

WAV格式WAVE是录音时用的标准的WINDOWS文件格式，文件的扩展名为“WAV”，数据本身的格式为PCM或压缩型，属于无损音乐格式的一种。

WAV的优点是可通过增加驱动程序，而支持各种各样的编码技术。

缺点是不适于传播和用作聆听，支持的编码技术大部分只能在Windows平台下使用，适用领域音频原始素材保存。

MP3格式MP3是利用人耳对高频声音信号不敏感的特性，将时域波形信号转换成频域信号，并划分成多个频段，对不同的频段使用不同的压缩率，对高频加大压缩比（甚至忽略信号）对低频信号使用小压缩比，保证信号不失真。

这样一来就相当于抛弃人耳基本听不到的高频声音，只保留能听到的低频部分，从而将声音用1∶10甚至1∶12的压缩率压缩。

由于这种压缩方式的全称叫MPEG Audio Player3，所以人们把它简称为MP3。

MP3的优点是在低至128kbps的比特率下提供接近CD，音质的音频质量广泛的支持，缺点是出现的比较早，音质不是太好，适用领域一般聆听和高保真聆听。

Windows Media格式Windows Media格式是属于wma格式的音频文件，音质要强于MP3格式，更远胜于RA格式。

优点是功能齐全使用方便，同时支持无失真、有失真、语音压缩方式，缺点是失真压缩方式下音质不高，必须在Windows平台下才能使用。

适用领域音频档案级别保存，一般聆听，网络音频流传输。

MIDIMIDI是编曲界最广泛的音乐标准格式，可称为“计算机能理解的乐谱”。

它用音符的数字控制信号来记录音乐。

优点是音频数据为乐器的演奏控制，通常不带有音频采样，缺点是没有波表硬件或软件配合时播放效果不佳，适用领域，与电子乐器的数据交互，乐曲创作等。

不同的音频格式各有利弊，主要还是要看自己对于游戏音效的需求，根据需求而决定格式。

常用音频格式介绍

常用音频格式介绍
音频格式是文件的一种格式，可以存储声音信息，有助于为多种设备
提供有关声音的服务。

它为音乐和声音文件的处理提供了便利。

其中，常
用的音频格式有WAV、MP3、AAC、WMA等。

WAV（Wave）格式是一种无损音频格式，是微软公司和IBM公司开发的，它们同时也设计了ADPCM等压缩格式，能够在数字设备中储存音频数据，由于它的简易性、完整性和容量大，一般被用来存储CD质量的音乐
文件。

MP3（MPEG-1 Audio Layer 3）格式是压缩后的音频文件格式，使用MPEG-1和MPEG-2的音频编码技术，能将原本音频资料压缩到原来的一半
至一十分之一，但保持很高的音质。

AAC（Advanced Audio Coding）格式是一种无损压缩的音频编码技术，可以将原始的音频文件压缩到原来的一半至一十分之一，其压缩率和编码
效率比MP3高，相比之下，AAC在压缩率以及传输速度上都有更好的表现。

WMA（Windows Media Audio）格式是一种无损的数字音频编码技术，
它是微软公司开发的，不仅可以表示CD质量的音频，还可以存储较少的
音乐数据，以满足不同的网络带宽要求。

OGG（Ogg Vorbis）格式是一种无损的音频压缩格式，它是自由软件
的后来者，它的压缩率比MP3和AAC的压缩率高，能够在不降低声音质量
的情况下再次压缩音频文件。

Wave文件格式解析

Wave文件是用于多媒体文件存储的Microsoft RIFF（Resource Interchange File Format 资源交换档案标准）规范的子集之一。

一个RIFF文件以一个文件头（File Header）开始，接着是一系列数据块（data chunk）。

一个Wave文件常常是一个带有一个单“WAVE”块的RIFF文件。

该“WAVE”chunk由两个子快组成，一个“fmt”chunk用于详细说明数据格式，一个“data”chunk包含实际的样本数据。

这种形式我们称为规范形式。

下面我们看一个具体的例子，声音文件如下：
52 49 46 46 24 08 00 00 57 41 56 45 66 6d 74 20 10 00 00 00 01 00 02 00
22 56 00 00 88 58 01 00 04 00 10 00 64 61 74 61 00 08 00 00 00 00 00 00
24 17 1e f3 3c 13 3c 14 16 f9 18 f9 34 e7 23 a6 3c f2 24 f2 11 ce 1a 0d
上图所示例子，该WAVE文件采用PCM编码。

该音频具有双声道，每个样点进行16位量化编码，双声道的一个样点占4字节，存储顺序是每个样点的左右声道交替存储。

对于Data块，根据声道数和采样率的不同情况，布局如下（每列代表8bits）：1、8 Bit 单声道：
2、8 Bit 双声道
3、16 Bit 单声道：
4、16 Bit 双声道。

WAV文件格式相关资料集

endianFile offset (bytes)Field Size (bytes)播放软件利用此值可以估描述WAVE文件的基本单元是“sample”，一个sample 代表采样一次得到的数据。

因此如果用44KHz采样，将在一秒中得到44000个sample。

每个sample可以用8位、24位，甚至32位表示（位数没有限制，只要是8的整数倍即可），位数越高，音频质量越好。

其数值不确定,取决于编码格1（WAVE_FORMAT_PCM）; 编码格通道数，单声道为1，双声采样频率（每秒样本数）常用的采样频率有11025,每秒数据量；其值为：通道数×每数据块的调整数（按字节算的），如果有多个声道，对每个声道而言，样“RIFF”大写字符串"RIFF",标明该“WAVE”;WAVE 标志所有WAV格式的文件此处为字符串“fmt ”播放软件需要一次处理多个该值大小每样本的数据位数，表示每个对于PCM文件为16。

指除前8字节的fmt标志，最后一位为空littlefield name4biglittlelittle littlelittlelittlelittlelittle……biglittlebigbiglittle224224444442文件长度从下一个字段首地址开始到文件末尾的对基本格式块的扩充部分，根据AudioFormat 有所不同。

“data”数据标记符语音数据大实际的声音此处有一个值得注意的细节，8位代表无符号的数值，而16位或16位以上代表有符号的数值。

例如，如果有一个10bit的样本，由于sample位数要求是8的倍数，我们就需要把它填充到16位。

16位中：0-5位补0，6-15位是原始的10bit数据。

这就是左补零对齐原则上述只是单声道，如果要处理多声道，就需要在任意给定时刻给出多个sameple。

例如，在多声道中，给出某一时刻，我们需要分辨出哪些sample是左声道的，哪些sample是右声道的。

wav音频格式

多媒体技术近年来发展很快，较好品质的声卡可以提供16位的立体声及44KHZ的播放录制能力，它不仅可以提供原音逼真的取样，其合成的音质也十分理想，有的声卡还加入了数字信号处理器，可编程控制的DSP具有强大的运算能力，它可以用来作声音信息的压缩和一些特殊效果的处理。

具有此功能的声卡提供的WAV文件提供的语音信息可以满足语音特征识别的要求。

RIFF概念在Windows环境下，大部分的多媒体文件都依循着一种结构来存放信息，这种结构称为"资源互换文件格式"(Resources lnterchange File Format)，简称RIFF。

例如声音的WAV文件、视频的AV1文件等等均是由此结构衍生出来的。

RIFF可以看做是一种树状结构，其基本构成单位为chunk，犹如树状结构中的节点，每个chunk由"辨别码"、"数据大小"及"数据"所组成。

图一、块的结构示意图辨别码由4个ASCII码所构成，数据大小则标示出紧跟其后数据的长度(单位为Byte)，而数据大小本身也用掉4个Byte，所以事实上一个chunk的长度为数据大小加8。

一般而言，chunk本身并不允许内部再包含chunk，但有两种例外，分别为以"RIFF"及"L1ST"为辨别码的chunk。

而针对此两种chunk，RIFF又从原先的"数据"中切出4个Byte。

此4个Byte 称为"格式辨别码"，然而RIFF又规定文件中仅能有一个以"RIFF"为辨别码的chunk。

图二、RIFF/LIST块结构只要依循此一结构的文件，我们均称之为RIFF档。

此种结构提供了一种系统化的分类。

如果和MS一DOS文件系统作比较，"RIFF"chunk就好比是一台硬盘的根目录，其格式辨别码便是此硬盘的逻辑代码(C：或D：)，而"L1ST"chunk即为其下的子目录，其他的chunk则为一般的文件。

pcm编码方式与wave音频格式

1. 音频简介经常见到这样的描述: 44100HZ 16bit stereo 或者 22050HZ 8bit mono 等等.44100HZ 16bit stereo: 每秒钟有 44100 次采样, 采样数据用 16 位(2字节)记录, 双声道(立体声);22050HZ 8bit mono: 每秒钟有 22050 次采样, 采样数据用 8 位(1字节)记录, 单声道;当然也可以有 16bit 的单声道或 8bit 的立体声, 等等。

采样率是指：声音信号在“模→数”转换过程中单位时间内采样的次数。

采样值是指每一次采样周期内声音模拟信号的积分值。

对于单声道声音文件，采样数据为八位的短整数（short int 00H-FFH）；而对于双声道立体声声音文件，每次采样数据为一个16位的整数（int），高八位(左声道)和低八位(右声道)分别代表两个声道。

人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求. 所以 22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。

这和电影的每秒 24 帧图片的道理差不多。

每个采样数据记录的是振幅, 采样精度取决于储存空间的大小:1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍.这样我们就可以根据一个 wav 文件的大小、采样频率和采样大小估算出一个wav 文件的播放长度。

譬如 "Windows XP 启动.wav" 的文件长度是 424,644 字节, 它是"22050HZ / 16bit / 立体声" 格式(这可以从其 "属性->摘要" 里看到),那么它的每秒的传输速率(位速, 也叫比特率、取样率)是 22050*16*2 = 705600(bit/s), 换算成字节单位就是 705600/8 = 88200(字节/秒), 播放时间：424644(总字节数) / 88200(每秒字节数) ≈ 4.8145578(秒)。

被遗忘的时光wav格式

被遗忘的时光wav格式随着科技进步的不断加快，我们与周围世界的交流日益频繁，尤其是在数字娱乐领域，各种高清、流畅的视频、音频体验让人目不暇接。

但是，有些奇妙的体验只可以被保存在具有某种特殊格式的文件中，比如wav格式。

wav格式被广泛用于数字音频存储，但它远远不止于此。

以下是本篇文章的重点：1. 被遗忘的时光wav（Waveform Audio File Format，波形音频文件格式）格式是一种标准化的、未压缩的音频文件格式。

这种格式使用PCM采样，并且通常采用44.1kHz采样率及16位的采样深度。

wav格式最初由IBM和微软共同开发，现在已成为数字音频领域中最常见的格式之一。

当我们回顾过去时，wav格式似乎已经陪伴了我们很长时间。

1991年，wav格式基本上已成为计算机上嵌入式、CD-ROM和互联网上音频的标准格式。

在这段时间里，wav格式已经确立了它被广泛认可的位置，并在运用领域拓展了许多新的技术领域。

2. Wav格式在音乐领域的重要性Wav格式成为了音乐领域主流的音频格式之一。

在复古的录音机和万花筒内部的信息记录方式中，也可以找到wav格式的影子。

对于一些音乐制作人员而言，wav格式可能是他们最爱的格式。

它可以提供无损旋转任何样式的音频文件，也适合自然环境记录和播放。

在今天，虽然数码播放器和云音乐变成了主流，但高音质音乐的发展是wav格式的显著标志之一。

wav格式虽然占用空间较大，但在保证音质的前提下，它的播放效果却是最为优秀的，这也是我个人最钟爱wav格式的原因。

3. Wav格式在电脑领域的闪光点通常来说，Wav格式具有非常好的兼容性。

它可以在几乎任何设备上运行，包括PC、Mac、智能手机、平板电脑等等。

如果您正在寻找高清声音或原始录音的无损格式，wav是绝佳的选择。

另外，wav格式也是一种开放和可编程的文件格式。

这意味着任何人都可以利用标准的格式和编码器开发自己的软件和应用程序。

它也支持与其他格式的无缝互操作性，这使得它成为数字音频处理的一个重要平台。

数字图像的文件格式有wav

数字图像的文件格式有wav
数字图像的文件格式WAV是在PC机平台上很常见的、最经典的多媒体音频文件,最早于1991年8月出现在Windows3.1操作系统上,文件扩展名为WAV,是WaveFom的简写,也称为波形文件,可直接存储声音波形,还原的波形曲线十分逼真。

WAV文件格式简称WAV格式是一种存储声音波形的数字音频格式,是由微软公司和IBM联合设计的,经过了多次修订,可用于Windows,Macintosh,Linix等多种操作系统。

声源发出的声波通过话筒被转换成连续变化的电信号,经过放大、抗混叠滤波后,按固定的频率进行采样,每个样本是在一个采样周期内检测到的电信号幅度值;接下来将其由模拟电信号量化为由二进制数表示的积分值;最后编码并存储为音频流数据。

有的应用为了节省存储空间,存储前,还要对采样数据先进行压缩。

PCM编码是直接存储声波采样被量化后所产生的非压缩数据,故被视为单纯的无损耗编码格式,其优点是可获得高质量的音频信号。

基于PCM编码的WAV格式是最基本的WAV格式,被声卡直接支持,能直接存储采样的声音数据,所存储的数据能直接通过声卡播放,还原的波形曲线与原始声音波形十分接近,播放的声音质量是一流的,在Windows平台下被支持得最好,常常被用作在其它编码的文件之间转换的中间文件。

PCM的缺点是文件体积过大,不适合长时间记录。

正因为如此,又出现了多种在PCM编码的基础上经改进发展起来的编码格式,如:DPCM,ADPCM编码等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

wave文件(*.wav)格式、PCM数据格式1. 音频简介经常见到这样的描述: 44100HZ 16bit stereo 或者22050HZ 8bit mono 等等.44100HZ 16bit stereo: 每秒钟有44100 次采样, 采样数据用16 位(2字节)记录, 双声道(立体声);22050HZ 8bit mono: 每秒钟有22050 次采样, 采样数据用8 位(1字节)记录, 单声道;当然也可以有16bit 的单声道或8bit 的立体声, 等等。

采样率是指：声音信号在“模→数”转换过程中单位时间内采样的次数。

采样值是指每一次采样周期内声音模拟信号的积分值。

人对频率的识别范围是20HZ - 20000HZ, 如果每秒钟能对声音做20000 个采样, 回放时就足可以满足人耳的需求. 所以22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。

这和电影的每秒24 帧图片的道理差不多。

每个采样数据记录的是振幅, 采样精度取决于储存空间的大小:1 字节(也就是8bit) 只能记录256 个数, 也就是只能将振幅划分成256 个等级;2 字节(也就是16bit) 可以细到65536 个数, 这已是CD 标准了;4 字节(也就是32bit) 能把振幅细分到4294967296 个等级, 实在是没必要了.如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍.这样我们就可以根据一个wav 文件的大小、采样频率和采样大小估算出一个wav 文件的播放长度。

譬如"Windows XP 启动.wav" 的文件长度是424,644 字节, 它是"22050HZ / 16bit / 立体声" 格式(这可以从其"属性->摘要" 里看到),那么它的每秒的传输速率(位速, 也叫比特率、取样率)是22050*16*2 = 705600(bit/s), 换算成字节单位就是705600/8 = 88200(字节/秒),播放时间：424644(总字节数) / 88200(每秒字节数) ≈ 4.8145578(秒)。

但是这还不够精确, 包装标准的PCM 格式的WAVE 文件(*.wav)中至少带有42 个字节的头信息, 在计算播放时间时应该将其去掉,所以就有：(424644-42) / (22050*16*2/8) ≈ 4.8140816(秒). 这样就比较精确了.关于声音文件还有一个概念: "位速", 也有叫做比特率、取样率, 譬如上面文件的位速是705.6kbps 或705600bps, 其中的b 是bit, ps 是每秒的意思;压缩的音频文件常常用位速来表示, 譬如达到CD 音质的MP3 是: 128kbps / 44100HZ.2. wave文件格式2.1 概述WAVE文件是计算机领域最常用的数字化声音文件格式之一，它是微软专门为Windows系统定义的波形文件格式（Waveform Audio），由于其扩展名为"*.wav"。

WAVE是录音时用的标准的WINDOWS文件格式，文件的扩展名为“WAV”，数据本身的格式为PCM或压缩型。

WAV文件格式是一种由微软和IBM联合开发的用于音频数字存储的标准，它采用RIFF文件格式结构，非常接近于AIFF和IFF格式。

符合PIFF Resource Interchange File Format规范。

所有的WAV都有一个文件头，这个文件头音频流的编码参数。

WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。

多媒体应用中使用了多种数据，包括位图、音频数据、视频数据以及外围设备控制信息等。

RIFF为存储这些类型的数据提供了一种方法，RIFF文件所包含的数据类型由该文件的扩展名来标识，能以RIFF文件存储的数据包括：音频视频交错格式数据(.AVI) 、波形格式数据(.WAV) 、位图格式数据(.RDI) 、MIDI格式数据(.RMI) 、调色板格式(.PAL) 、多媒体电影(.RMN) 、动画光标(.ANI) 、其它RIFF文件(.BND)。

wave文件有很多不同的压缩格式，所以，正确而详细地了解各种WAVE文件的内部结构是成功完成压缩和解压缩的基础，也是生成特有音频压缩格式文件的前提。

最基本的WAVE文件是PCM（脉冲编码调制）格式的，这种文件直接存储采样的声音数据没有经过任何的压缩，澳门新濠天地官网是声卡直接支持的数据格式，要让声卡正确播放其它被压缩的声音数据，就应该先把压缩的数据解压缩成PCM格式，然后再让声卡来播放。

2.2 Wave文件的内部结构注：由于WAV格式源自Windows/Intel环境，因而采用Little-Endian字节顺序进行存储。

WAVE文件是以RIFF(Resource Interchange File Format, "资源交互文件格式")格式来组织内部结构的。

RIFF文件结构可以看作是树状结构，其基本构成是称为"块"（Chunk）的单元，最顶端是一个“RIFF”块，下面的每个块有“类型块标识(可选)”、“标志符”、“数据大小”及“数据”等项所组表１：基本上面说到的“类型块标识”只在部分chunk中用到，如"WAVE" chunk中，这时表示下面嵌套有别的chunk。

当使用了"类型块标识" 时，该chunk就没有别的项（如块标志符，数据大小等），它只作为文件读取时的一个标识。

先找到这个“类型块标识”，再以它为起点读取它下面嵌套的其它chunk。

每个文件最前端写入的是RIFF块，每个文件只有一个RIFF块。

从Wave文件格式详细说明中可以看到这一点。

非PCM格式的文件会至少多加入一个"fact" 块，它用来记录数据(注意是数据而不是文件)解压缩后的大小。

这个"fact" 块一般加在"data" 块的前面。

WAVE文件是由若干个Chunk组成的。

按照在文件中的出现位置包括：RIFF WAVE Chunk, Format Chunk, Fact Chunk(可选), Data Chunk。

具体见下图：-------------------------------------------| RIFF WAVE Chunk || ID = "RIFF" || RiffType = "WAVE" |-------------------------------------------| Format Chunk || ID = "fmt " |-------------------------------------------| Fact Chunk(optional) || ID = "fact" |-------------------------------------------| Data Chunk || ID = "data" |-------------------------------------------图Wav格式包含Chunk示例Fact Chunk=======================================| |所占字节数| 具体内容|=======================================| ID | 4Bytes | "fact" |---------------------------------------| Size | 4Bytes | 4 |---------------------------------------| data | 4Bytes |解压后的音频数据的大小(B)|---------------------------------------图Fact Chunk2.3 Wave文件格式详细说明别名字节数类型注释ckid 4 char "RIFF" 标志, 大写cksize 4 int32 文件长度。

这个长度不包括"RIFF"标志和文件长度本身所占字节, 下面的子块大小也是这样。

fcc type 4 char "WAVE" 类型块标识, 大写。

ckid 4 char 表示"fmt" chunk的开始。

此块中包括文件内部格式信息。

小写, 最后一个字符是空格。

cksize 4 int32 文件内部格式信息数据的大小。

FormatTag 2 int16 音频数据的编码方式。

1 表示是PCM 编码Channels 2 int16 声道数，单声道为1，双声道为2SamplesPerSec 4 int32 采样率(每秒样本数), 比如44100 等BytesPerSec 4 int32 音频数据传送速率, 单位是字节。

其值为采样率×每次采样大小。

播放软件利用此值可以估计缓冲区的大小。

BlockAlign 2 int16 每次采样的大小= 采样精度*声道数/8(单位是字节); 这也是字节对齐的最小单位, 譬如16bit 立体声在这里的值是4 字节。

播放软件需要一次处理多个该值大小的字节数据，以便将其值用于缓冲区的调整。

BitsPerSample 2 int16 每个声道的采样精度; 譬如16bit 在这里的值就是16。

如果有多个声道，则每个声道的采样精度大小都一样的。

[cbsize] 2 int16 [可选]附加数据的大小。

[...] x[ckid] 4 char "fact".[cksize] 4 int32 "fact" chunk data size.[fact data] 4 int32 解压后的音频数据的大小(Bytes).ckid 4 char 表示"data" chunk的开始。

此块中包含音频数据。

小写。

cksize 4 int32 音频数据的长度...... 文件声音信息数据(真正声音存储部分)[......] 其它chunk2.4 Windows平台上WAVEFORMAT结构的认识PCM和非PCM的主要区别是声音数据的组织不同，这些区别可以通过两者的WAVEFORMAT 结构来区分。