第11章MPEG声音

合集下载

mpeg是什么标准

mpeg是什么标准

mpeg是什么标准MPEG是什么标准?MPEG,全称为Moving Picture Experts Group,是一种数字视频和音频压缩标准,它是一种压缩技术,用来减小视频和音频文件的大小,以便更容易存储和传输。

MPEG标准是由国际标准化组织ISO/IEC制定的,它是一种通用的压缩标准,被广泛应用于数字电视、DVD、数字音频播放器、数字广播等领域。

MPEG标准的发展可以追溯到20世纪80年代初。

当时,视频和音频文件的传输和存储需要大量的存储空间和带宽,这给数字媒体的发展带来了很大的困难。

为了解决这个问题,国际标准化组织成立了Moving Picture Experts Group,并开始着手制定一种数字视频和音频压缩标准,从而推动数字媒体的发展。

MPEG标准的主要特点是高压缩比和高质量的压缩。

通过MPEG标准,可以将视频和音频文件的大小减小到原始大小的几分之一甚至更小,同时保持较高的视听质量。

这使得视频和音频文件更容易存储和传输,也为数字媒体的发展提供了强大的支持。

MPEG标准包括了一系列的压缩技术和编码格式,其中最著名的是MPEG-1、MPEG-2和MPEG-4。

MPEG-1是最早的MPEG标准,它主要用于VCD(Video CD)和MP3等格式;MPEG-2则广泛应用于DVD、数字电视和数字广播等领域;而MPEG-4则是一种更为先进的压缩技术,支持更高的压缩比和更丰富的多媒体内容。

除了视频和音频压缩标准外,MPEG还制定了一系列相关的标准,如MPEG-7和MPEG-21。

MPEG-7是一种多媒体内容描述标准,用于描述和检索多媒体内容;而MPEG-21则是一种多媒体框架标准,用于多媒体内容的交互和管理。

总的来说,MPEG标准在数字媒体领域发挥着重要的作用。

它不仅推动了数字媒体的发展,也为用户提供了更好的视听体验。

随着数字媒体技术的不断发展,MPEG标准也在不断更新和完善,为数字媒体的未来发展提供了强大的支持。

标准及条件接收

标准及条件接收

2.数字电视条件接收系统结构(见下图)
图象 声音 数据
复 用 器
ECM
加 扰 器
调 制 器
发 射 机
CW
接 收 机
解 调 器
CW
解 扰 器
解 复 用 器
图象 声音 数据
EMM
加密器B
加密器A
解密器A
解密器B
授权 控制系统
控制字 发生器
帐单
安全处理器
用户 管理系统
授权
支付
智能卡
第11章 数字电视原理
比特传送流TS。
(7)加扰器
第11章 数字电视原理
对TS流进行加扰,即能量分散,其目的是使未授权用户不能
正常收看付费频道的数字电视节目。 (8)智能卡与安全处理器 二者之间进行双向认证,增强对未授权用户的禁入、盗
版接收机的销售及智能卡非法复制的控制。
(9)解密器A
对ECM进行解密。 (10)解密器B
的三大基石。 三网融合的具体体现是数字交互式电视,三网融合不仅 体现在技术、终端和网络上,还表现在业务、行业等上。
第11章 数字电视原理
(3)数字交互式电视(ITV)
● ITV又称数字互动电视,是一种受用户控制的数字视
频、音频分配业务,在节目间和节目内观众能够自主选择。
第11章 数字电视原理
VOD视1.5.4 数字交互式电视 1.数字交互式电视概述
(1)现代电视技术发展的两个重要标志(见下图)
现代电视技术发展 的第一个重要标志
模拟电视
单向传输 数字电视
现代电视技术发展 的第二个重要标志
数字 交互式电视
(2)三网融合
三网是指电信网、计算机网、广播电视网,是信息社会

MP3软解码库Libmad详细解释

MP3软解码库Libmad详细解释

本文档版权归属于 西安交通大学人工智能与机器人研究所 作者: 李国辉 g h l i @ a i a r . x j t u . e d u . c n
第2章 Mp3 解码算法流程
MP3 的全称为 MPEG1 Layer-3 音频文件, MPEG 音频文件是 MPEG1 标准中的声音部 分,也叫 MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即 Layer1、Layer2、 Layer3,且分别对应 MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层 次的编码。MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和 MP2 的压 缩率分别为 4:1 和 6:1-8:1,而 MP3 的压缩率则高达 10:1-12:1。一分钟 CD 音质的音 乐,未经压缩需要 10MB 的存储空间,而经过 MP3 压缩编码后只有 1MB 左右。不过 MP3 对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3 采取了“ 心理声学模型”, 即编码时先对音频文件进行频谱分析,然后再根据心理声学模型把谱线分成若干个阈值分 区,并计算每个阈值分区的阈值,接着通过量化和熵编码对每个谱线进行编码,最后形成具 有较高压缩比的 MP3 文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效 果。
2.1. Mp3 文件格式
MP3 文件以一帧为一个编码单元, 各帧编码数据是独立的。 为了清晰而准确地描述 mp3 文件格式,下面采用位流语法描述,这种语法格式与 c 语言近似,易于理解,且描述清晰。 其中粗体表示码流中的数据项,bslbf 代表位串,即“Bit string, left bit first ”,uimsbf 代表无 符号整数,即”unsinged integer, most significant bit first”,数字表示该数据项所占的比特数。

第9章欣赏Internet上的多媒体

第9章欣赏Internet上的多媒体

• 3.MOV格式
• MOV(MOVie digital video technology)是Apple公司开发的 视频文件格式。最开始只能在Apple公司的Macintosh计算机上使用, 后来Apple公司的Quick Time播放软件的出现,才开始发展到支持 Windows平台。
• MOV格式的视频文件有不压缩和压缩两种方式。
2020/11/27
第9章欣赏Internet上的多媒体
• 2.MP4格式 • MP4格式是由美国唱片行业联合倡导、美国网络技术公司开发 出的,采用了MPEG-2 AAC(Advanced Audio Coding)音频压缩技 术的音乐文件格式。它并不是MP3格式的改进版。
• 特点:
• MP4中内嵌了用于播放这种格式音乐文件的播放器,使每
2020/11/27
第9章欣赏Internet上的多媒体
• 2.ASF格式
• ASF(Advanced Streaming Format)是Microsoft公司为了和 Real Networks公司的RM竞争而发展出来的一种可以直接在网上观 看视频节目的文件压缩格式。
• 视频采用的是MPEG-4压缩算法 • 音频采用的是Microsoft公司的压缩格式WMA
✓压缩比通常在10:1到40:1之间。
2020/11/27
第9章欣赏Internet上的多媒体
• 2.GIF格式 • GIF(Graphics Interchange Format)的原义是“图像互换 格式”,是CompuServe公司在1987年开发的图像文件格式。
✓压缩比一般在2:1左右。
• 3.TIFF格式 • TIFF(Tag Image File Format)是由Aldus公司(后与Adobe公 司合并)和Microsoft公司为扫描仪和桌面出版系统研制开发的一种 较为通用的图像文件格式。 • TIFF格式有压缩和非压缩两种形式,目前大多数扫描仪都可以 输出TIFF格式的图像文件。

多媒体技术基础之MEG简介

多媒体技术基础之MEG简介
14
MPEG -7标准
?MPEG-7标准(ISO/IEC l5938).
?并非压缩标准 ?建筑在其他的标准之上的,例如,PCM, MPEG-1, MPEG-2和
MPEG-4等
2001年9月形成。它是“多媒体内容描述接口” (Multimedia Content Description Interface)的标准, 该 标准将确定各种类型的多媒体信息的标准描述方法, 可应用于数字图书馆、各种多媒体目录服务、广播媒
多媒体技术基础
Fundamentals of Multimedia
第 11 章 MPEG简介
Chapter 11 Introduction to MPEG
本章大纲
?1. MPEG概述 ?2. MPEG-1视频的编码 ?3. MPEG-1视频的解码
2
视频压缩编码的标准
?ITU-T标准
?用于ISDN视频会议的 H.261(Px64)标准 ?用于PSTN可视电话的 H.263标准 ?用于ATM/B-ISDN 视频会议的 H.262标准
7
MPEG -1标准
?MPEG-1 标准(ISO/IEC11172). 1992 年发布。
用于1.5Mbps 数据传输率的运动图像及其伴音的 编码。主要应用于 VCD,MP3音乐等.
?MPEG-1在JPEG和H.261等优秀标准的基础上,
对参加竞争的14个方案,通过反复协调而得到统一, 从而成为先进、合理、质量高、成本低的优秀标 准.
3
视频压缩编码的国际标准
ITU-T
H.261
H.263 H.263+ H.263++
Joint ITU-T/MPEG
H.262/MPEG-2

多媒体技术基础第3版第2章数据无损压缩

多媒体技术基础第3版第2章数据无损压缩
*
*
2.0 数据无损压缩概述(续2)
2章 数据无损压缩
The Father of Information Theory—— Claude Elwood Shannon Born: 30 April 1916 in Gaylord, Michigan, USA Died: 24 Feb 2001 in Medford, Massachusetts, USA
统计编码
编码特性
编码方法
香农-范诺编码 霍夫曼编码 算术编码
*
*
2.2.1 统计编码——香农-范诺编码 香农-范诺编码(Shannon–Fano coding) 在香农的源编码理论中,熵的大小表示非冗余的不可压缩的信息量 在计算熵时,如果对数的底数用2,熵的单位就用“香农(Sh)”,也称“位(bit)” 。“位”是1948年Shannon首次使用的术语。例如 最早阐述和实现“从上到下”的熵编码方法的人是Shannon(1948年)和Fano(1949年),因此称为香农-范诺(Shannon- Fano)编码法
2章 数据无损压缩
02
霍夫曼(D.A. Huffman)在1952年提出和描述的“从下到上”的熵编码方法
根据给定数据集中各元素所出现的频率来压缩数据的一种统计压缩编码方法。这些元素(如字母)出现的次数越多,其编码的位数就越少
广泛用在JPEG, MPEG, H.26X等各种信息编码标准中
*
*
2.2.2 霍夫曼编码— Case Study 1 现有一个由5个不同符号组成的30个符号的字符串:BABACACADADABBCBABEBEDDABEEEBB 计算 该字符串的霍夫曼码 该字符串的熵 该字符串的平均码长 编码前后的压缩比 霍夫曼编码举例1

数字电视Cv

数字电视Cv

2
视频压缩原理, class 02
数字电视原理与应用
视频压缩原理 信号
时间变量的曲线——时域信号 示波器的电信号:
随时间变化的电压值 只给出直流分量和均方根值
频谱分析仪给出频域信号
幅度 (功率)
时域测量
3
频域测量
视频压缩原理, class 02
数字电视原理与应用
视频压缩原理 谐波分解
Discrete Fourier Transform 12
f f s N ; t 1 f s
视频压缩原理, class 02
数字电视原理与应用
DFT
DFT和反DFT的计算公式: DFT: IDFT:
视频压缩原理
谐波分解
在数学上,周期时域信号可以用傅立叶级数分析法分解成各次谐波 周期时域信号的频谱是离散谱,包含直流分量、基波和多次谐波, 谐波的频率是基波频率的整数倍 非周期时域信号的频谱是连续谱
1.4
2 1 0 -1 0 0.2
1.2
1
0.8
50
100
150
200
250
300
0.6
0.4
0.2
9
视频压缩原理, class 02
数字电视原理与应用
1、傅立叶变换
幅度和相位特性:
幅频特性 相频特性
A( f ) (Re( f ) 2 Im( f ) 2 )
( f ) arctan(
Im( f ) ) Re( f )
对实部和虚部应用毕达哥拉斯原理,可以计算出幅度和相位 群延迟曲线可以通过对相频曲线求微分获得 实部对称性 虚部反对称性
f
图5.4 幅度和相位特性 10

数字声音及MIDI简介

数字声音及MIDI简介
三、MIDI音序器
·概念 ·音轨
因而采样频率11. 根据CCITT(Consultative Committee of International Telegraph and Telephone)的声音标准,把声音根据使用范围分为以下三个等级: 声音进入计算机的第一步就是数字化
频率和振幅(0—120db) 1kHz,可完全重现原来的声音。 乐器数字化接口(Musical Instrumment DigitalInterface) ·计算机作曲(cakewalk) 带宽:用于描述组成复合信号的频率范围。 ·超声(ultyrasonic) 压缩比1:15,比Mp3的1:12高。
Realone player ,
是最好的一种声音格式文件,16为采 样精度,44.1kHz,可完全重现原来 的声音。
Windows自带工具CD唱机
2.4 MIDI系统
一、MIDI的产生
Musical Instrument Digital interface 用于在音乐合成器(music synthesizers)、(music instruments)和计算机之间交换音乐信息的 一种标准协议。
fs ≥ 2 fmax
fs ≥ 2 fmax 媒体播放器、超级解霸,Realone Player、Winmap ·高保真立体声级:20Hz-20kHz 3 常用声音文件格式及存储 ·音频信号(adio)
SNR=10lg[(Vsignal)2/(Vnoise)2]=20 lg(Vsignal/vnoise) 1kHz,可完全重现原来的声音。 因而采样频率11. ·计算机作曲(cakewalk)
一、采样
采样定理(1924,Nyquist thoery)
fs ≥ 2 fmax
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用来分割子带也就是时间-频率变换部件是一个多相滤波 器组。
它把输入信号变换到32个频域子带中去。在一瞬内层I是 变换为12个子带取样数据,层Ⅱ、层Ⅲ是变换成36个子 带取样数据
37
38
子带的划分方法有两种,
一种是线性划分, 另一种是非线性划分。如果把声音频带划分成带宽相
等的子带,这种划分就不能精确地反映人耳的听觉特 性,因为人耳的听觉特性是以“临界频带”来划分的, 在一个临界频带之内,很多心理声学特性都是一样的。
34
子带编码主要步骤
(1)输入声音信号经过一个“时间-频率多相滤波器组” 变换到频域里的多个子带中。
(2)输入声音信号同时经过“心理声学模型(计算掩蔽 特性)”,该模型计算以频率为自变量的噪声掩蔽阈值 (masking threshold),查看输入信号和子带中的信 号以确定每个子带里的信号能量与掩蔽阈值的比率。
30
特性(2)
MPEG声音标准提供三个独立的压缩层次:层 1(Layer 1)、层2(Layer 2)和层3(Layer 3),用户对层次的选择可在复杂性和声音质量之 间进行权衡。
31
特性(3)
可预先定义压缩后的数据率
MPEG声音标准也支持用户预定义的数据率
音质要求
电话 优于短波 优于调幅广播 类似于调频广播 接近CD CD
在低频区域,一个子带覆盖好几个临界频带。在 这种情况下,某个子带中量化器的比特分配就不 能根据每个临界频带的掩蔽阈值进行分配,而要 以其中最低的掩蔽阈值为准。
39
40
心理声学模型
计算全局掩蔽阈值和每个子带的SMR(信掩比) 信掩比(SMR)是指最大的信号功率与全局掩蔽阈
值之比,下图表示了某个子带中的信掩比。
在心理上,主观感觉的声音强弱使用响度级“方 (phon)”或者“宋(sone)”来度量。
5
听阈/痛阈
听阈:当声音弱到人耳刚刚可以听见时的声音强 度。
听阈是随频率变化的。
例如1kHz纯音的声强达到10-16w/cm2(定义为0 dB声强 级)时,人耳刚刚能听到,此时主观响度级定为零方。
声音带宽(kHz)
2.5 5.5 7.5 11 15 > 15
方式
单声道 单声道 单声道 立体声 立体声 立体声
数据率( kb/s)
8 16 32 56 ~ 64 96 112 ~ 128
压缩比
96 :1 48 :1 24 :1 26 ~ 24 :1 16 :1 12 ~ 10 :1
32
特性(4、5)
心理声学模型中的另一个概念是听觉掩蔽特性。
23
11.3 MPEG-1 Audio
MPEG-1 Audio定义了三个独立的压缩层次, 分别简称为第1层——MP1(MPEG Audio Layer1)、第2层——MP2、第3层——MP3
第1层仅利用频域掩蔽特性 第2层利用频域掩蔽特性和时间掩蔽特性 第3层利用了频域掩蔽特性、时间掩蔽特性和临 界频带特性
41
量化和编码
找出每个子带的最大样本值,对该子带数据进行 归一化,使各子带电平一致,然后再进行量化。 记录的该样本值称为比例因子(scale factor)
根据SMR来决定各子带的量化位分配(bit allocation),比值大的分配较多的量化比特。 子带样本根据位分配进行量化和编码,对高度掩 蔽的子带就不用对它进行编码了。
痛阈:声音强到使人耳开始感到疼痛的声压级。
频率为1kHz的纯音的声强级达到120dB左右时,人耳就 会感到疼痛。
6
“听阈—频率”曲线
最下面的一根曲线叫做“零方等响度级”曲 线,也称“绝对听阈”曲线,即在安静环境 中,人耳能听到的纯音最小值。
7
11.1.2 对音高的感知
客观上用频率来表示声音的音高,单位是Hz。而 主观感觉的音高单位则是“美(Mel)”,主观音高 与客观音高的关系是 Mel=1000log2(1+f)
滞后掩蔽则是由于神经行为具有一定的持久性, 可持续50~200ms。
16
总的掩蔽效应
17
如何利用掩蔽效应
在保证音频质量的同时提高编码效率
不必传输被掩蔽的声音 (频率掩蔽) 如果一个小信号发生在一大信号的后面,则该小信号就可以不用
传输 (时域掩蔽)
例如:
A signal consists of two frequency 1KHz and 1.1KHz with different volume, such as 60dB and 40dB
28
11.3.2 声音的性能
MPEG声音(ISO/IEC 11172-3)压缩算法是 世界上第一个高保真声音数据压缩国际标准,并 且得到了极其广泛的应用。
虽然MPEG声音标准是MPEG标准的一部分,但 它也完全可以独立应用,MPEG-1 Audio标准 的主要性能为:
29
特性(1)
MPEG编码器的输入信号为线性PCM信号,采样 率为32, 44.1或48 kHz,输出为32 kb/s~ 384 kb/s。
10
11.1.3 掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的 声音的现象。前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。
【例】安静房间里的普通谈话可以听得很清楚, 但在播放摇滚乐的环境下同样的普通谈话就听不 清楚了。
11
分类
频域掩蔽
第 11 章 MPEG声音
Chapter 12 MPEG Audio
Compared with voice signal, audio signal often has wider bandwidth, more channels and larger dynamic range, so audio coding methods differ greatly with voice coding methods
具体思想是首先把时域中的声音数据变换到频域,对 频域内的子带分量分别进行量化和编码,根据心理声 学模型确定样本的精度,从而达到压缩数据量的目的。
27
MPEG量化
MPEG声音数据压缩的基础是量化。
实验表明,采样频率为48 kHz、样本精度为16比特 的立体声音数据压缩到256 kb/s时,即在6:1的压 缩率下,即使是专业测试员也很难分辨出是原始声音 还是编码压缩后的声音。
24
声音的数据量
声音的数据量由两方面决定:
采样频率和样本精度。 要减小数据量,就需要降低采样频率或者降低样本精
度。
25
话音编码
PCM,ADPCM 音源特定编码:这种方法主要是针对话音的编码
300-3400Hz
如果用来编码音乐,质量比较差
26
11.3.1 声音编码
MPEG-1的声音压缩采用了另一种方法,称为子 带编码(sub-band coding,SBC)方法,这也 是一种功能很强而且很有效的声音信号编码方法。
1
大纲
听觉系统感知特性 MPEG-1 Audio MPEG-2 Audio MPEG-4 Audio
2
声音编码
波形声音压缩编码(如ADPCM)和参数编码(如LPC) 分别依据波形本身的相关性和人的发音器官特性 进行编码
感知声音编码(perceptual audio coding):对音 源性质没有作任何假设,而是利用人耳的听觉特 性对声音进行压缩。去除声音信号本身的相关性 和人耳不可感知的部分。
60dB,1KHz声音的掩蔽区域
听阈
13
频域掩蔽
要想让2000Hz的纯音也听不到,则需要把它降到 比1000Hz的纯音低45dB。
一般弱纯音离强纯音越近就越容易被掩蔽。
45
14
不同频率段的掩蔽曲线
下图的一组曲线分别表示频率为250Hz、1kHz、4kHz和 8kHz纯音的掩蔽效应,它们的声强均为60dB。
42
数据流帧包装
按规定的帧格式对声音样本和编码信息(包括位 分配和比例因子等)进行包装。
43
11.4 MPEG-2 Audio
MPEG-2标准委员会定义了两种声音数据压缩格 式:
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种 特性称为频域掩蔽
时域掩蔽
在时间上相邻的声音之间也有掩蔽现象,称为时域掩 蔽。
12
频域掩蔽
也称同时掩蔽(simultaneous masking)。
一个频率为1000Hz的纯音,另外还有一个 1100Hz的纯音,前者比后者高18dB,在这种 情况下,我们就只能听到1000Hz的强音。
(4) 编码后的数据流支持循环冗余校验 CRC(cyclic redundancy check)。
(5) MPEG声音标准还支持在数据流中添加附加信 息。
33
11.3.3 子带编码
MPEG-1使用子带编码来达到既压缩声音数据又 尽可能保留声音原有质量的目的。
SBC的基本想法就是在编码过程中保留信号的带宽而 扔掉被掩蔽的信号,其结果是编码之后还原的声音, 也就是解码或者叫做重构的声音信号与编码之前的声 音信号不相同,但人的听觉系统很难感觉到它们之间 的差别。
3
11.1 听觉系统的感知特性
听觉系统对声音的感知特性:
响度 音高 掩蔽效应 临界频带
4
11.1.1 对响度的感知
声音的响度:就是声音的强弱。
物理上,声音的响度使用客观测量单位来度量,即 dyn/cm2(达因/平方厘米)(声压)或w/cm2(瓦特/平方厘 米)(声强)。
一组带通滤波器。
基于这种现象,声音编码常常用到子带编码方法
20
相关文档
最新文档