数字音频技术综述

合集下载

数字广播发展综述

数字广播发展综述
当前 我国进行 D / ABDMB试验 广播的主要有广东电
在全 世界范围内
据统计 .到 20 年 9月英国的 D B接收机选 鲫 万 台 仅 04 A 在 20 05年的圣诞节期间 .就售出 D B接收机 4 5 A 83 万台
到 20 0 5年底 英国总共 已有 I 4 4. 9万台 D B接收机 +5 0 A 4 万人 ( 占英国人 口的 1 1 l ‰.2 0 0 4年仅占 5 %)收听数字 . 3 声音广播是通过 D AB发射网 .而不是通过互联 网与 D V T 预计到 2 0 0 8年 +英国有 3 % 的家庭 拥有多于一个的 D 0 AB 接收机
维普资讯
广 电
+ 4
] fC Gf W
...。。。。 。 .。。.。
. +

。。 .。。
。.。。。.。。. 。。.



l _ l 。。


黟,






数字广播发展综述
电文 、静止画面 、计算机程序等 .甚至可 以对移动 的电视
接收机传送 电视节 目。因此 .早在大约 l 0年前就 已开始称
D AB 为数 字 多 媒体 广 播 ( B) DM 。
lDA I B的 嗣标
在过去的几十 年中 . 调频 (M )广播 曾以最好 的声音 F
广播质量受到听众 的欢迎 。但是 .这种模拟的窄带传输方 法的主要 问题是对 多径传播缺乏抵抗能力 。尤其在移动接 收时 .由于无线 电信道 的频率选择性和时间选择性 .多径 传播会产生严重 的衰落现 象、损 害接 收质 量。 为了改进调频广播 的技术质量 .虽然采用 了不少新的 方法和技术 . 收到 了一定的成效 、 但都有一定的局限性 . 并 不能彻底改变 F 广播 的固有 弱点 。人们从 理论 和实践中 M

智能音频信号处理技术综述

智能音频信号处理技术综述

智能音频信号处理技术综述在现今科技高速发展的时代,智能生活已经逐渐成为我们的日常生活中不可或缺的一部分。

人们普遍选择使用智能音箱、智能手机和智能电视等各类电子设备。

这些智能设备中的音频技术成为不可忽视的一环。

如何让音频设备具备更好的音质、更智能的音频处理技术是当前音频技术研究工作者面临的一项挑战。

本文将对智能音频信号处理技术的发展历程、技术特点、应用领域以及未来发展方向进行简述。

一、发展历程1.传统音频信号处理技术在数十年前,人们所使用的音频设备还很原始,没有数字音频设备,只有模拟音频设备。

此时代的音频声音质量较差且不智能化。

音频处理只能通过模拟电路来进行了,存在着许多问题。

音频信号的处理质量、声音效果等都很难满足人们对音频品质的需求。

这种处理方式的缺点在于,传统的模拟信号处理技术完全依靠硬件,很难应对日益复杂的音频信号处理要求。

同时,无法使用大量的算法,也无法在处理信号的同时实现智能应用。

因此,不断有新的音频信号处理技术涌现出来。

2.数字音频信号处理技术从上世纪90年代末开始,随着数字语音处理技术和数字信号处理技术的不断发展,数字音频信号处理逐渐成为音频制作领域和音频设备设计领域的重要技术。

数字音频信号处理技术采用数字信号处理器等器件实现,是音频设备智能化的重要途径。

3.深度学习-神经语音处理技术目前,深度学习引领了人工智能技术的发展趋势,而直接基于大规模深度网络的语音处理技术也在与日俱增的获得关注。

深度学习通过人工神经网络模拟人类大脑进行学习,它能够对音频信号进行识别和处理,使其具有智能的特性。

深度学习技术在音频信号处理领域的应用也不同寻常。

二、技术特点1.高保真音质高保真音质是智能音频信号处理技术最突出的特点之一。

智能音箱的植入小喇叭而非大音箱,使人们能够更好地享受到音乐之美。

多数使用的人声分离算法也属于音质方面的升级。

2.智能人机交互智能音频信号处理技术使智能音箱、智能电视遵循用户的指令进行操作,不仅可以进行语音交互,还可以识别用户的声音。

数字音乐学研究综述

数字音乐学研究综述

数字音乐学研究综述数字音乐是指利用计算机技术对音乐进行数字化处理,包括音频的录制、编辑、混音、编码、传输和播放等过程。

随着计算机技术和网络技术的快速发展,数字音乐逐渐成为人们获取和分享音乐的主要方式。

数字音乐学是研究数字音乐技术与艺术的交叉学科,旨在探究数字音乐的理论与实践问题。

数字音乐学的历史可以回溯到20世纪60年代,当时计算机科学家和音乐家开始利用计算机技术进行音乐创作实验。

随着计算机技术的不断进步,数字音乐逐渐开始渗透到音乐产业的各个领域。

数字音乐以其高品质、便捷、互动等优势,逐渐成为流行音乐的主要形式。

数字音乐学主要涉及以下几个方面:1.数字音频编码技术数字音频编码技术是实现音频数字化的关键技术。

数字音频编码技术通过将音频信号压缩并编码成数字信号,然后通过传输或存储方式来传递音频信息。

目前常用的数字音频编码标准有MP3、AAC、WMA等,这些标准的发展,使得数字音频在保证音质的同时能够实现更高效的传输和存储。

2.数字音乐制作技术数字音乐制作技术是数字音乐学的核心内容之一。

数字音乐制作技术包括音乐创作、编辑、混音、母带制作等多个方面。

数字音乐制作软件的出现,使得音乐制作人员可以在计算机上完成所有的音乐制作工作,实现数字化的音乐制作流程。

数字音乐制作工具的不断升级和完善,为音乐制作人员提供了更多的创作灵感和技术支持。

3.数字音乐传播和消费数字音乐传播和消费是数字音乐学的另一重要内容。

音乐下载、在线播放、流媒体服务等数字音乐传播方式的出现,改变了传统音乐产业的格局。

数字音乐的传播和消费方式的变化对音乐产业的各个层面都产生了深远的影响。

数字音乐传播和消费的主要问题包括音乐产权保护、数字音乐市场的竞争等。

4.数字音乐的艺术价值数字音乐学的另一个研究方向是数字音乐的艺术价值。

数字音乐的出现提供了更多的音乐创作和表现方式,同时也带来了挑战和问题。

数字音乐的艺术价值的研究,旨在探讨数字音乐如何利用数字技术来呈现音乐的艺术特性和价值,并评价数字音乐在音乐艺术领域的贡献和局限性。

数字音频技术期末总结高中

数字音频技术期末总结高中

数字音频技术期末总结高中1. 引言数字音频技术是指将声音信号转换为数字数据,并利用计算机等设备进行处理和传输的技术。

随着信息技术的发展,数字音频技术已经广泛应用于音乐、广播、影视等领域。

本次期末总结将对数字音频技术的基本原理、应用及未来发展进行梳理和总结。

2. 基本原理数字音频技术基于模拟音频信号的采样、量化和编码。

采样是指将连续的模拟音频信号离散化成一系列的采样点,采样率决定了采样点的数量。

量化是指对采样点进行量化处理,将其转换为离散的数字数值。

量化的精度决定了数字音频信号的动态范围和信噪比。

编码是将量化后的数字音频信号转换为二进制码,以便于存储和传输。

3. 应用领域(1) 音乐制作和录制数字音频技术使得音乐制作更加方便和灵活。

音乐制作人可以通过计算机软件进行编辑、混音和后期处理,大大节省了时间和成本。

录音棚也从传统的模拟设备转向了数字设备,提高了音频信号的质量和稳定性。

(2) 电影和电视音频数字音频技术在影视制作中扮演着重要的角色。

通过数字音频处理器,可以对音频信号进行均衡、压缩、混响等处理,使得观众能够获得更加真实和沉浸式的音效体验。

(3) 广播和网络音频数字音频技术为广播和网络音频的传输提供了便利。

通过网络传输,用户可以随时随地收听自己喜欢的音乐或节目。

而广播电台通过数字化的信号处理和传输也提高了音频的质量和传输的可靠性。

4. 数字音频技术的挑战与未来发展数字音频技术的发展还面临着一些挑战。

首先是音频信号的压缩和传输问题。

随着音质的提高和网络传输的普及,对音频信号的压缩和传输要求更高。

其次是音频信号的处理和合成问题。

随着虚拟现实、增强现实等技术的快速发展,对音效的合成和处理也提出了更高的要求。

未来,数字音频技术有望在以下几个方面进行进一步发展。

首先是音频质量的提高。

随着技术的进步,人们对音质的要求会越来越高,数字音频技术需要不断提升音质,使音频能够还原真实的声音。

其次是音频的个性化和交互化。

数字音乐学研究综述

数字音乐学研究综述

数字音乐学研究综述数字音乐学研究是音乐学中的一个新兴学科,它的研究内容涉及数字音乐制作、数字音乐分析、数字音乐表演等多个方面。

近年来,随着数字技术的不断升级、数字音乐产业的不断发展,数字音乐学研究也日益受到关注和重视。

本文将对数字音乐学研究的发展现状和研究内容进行简要综述。

一、数字音乐制作数字音乐制作是数字音乐学研究的一个重要方面。

随着数字技术的不断发展,数字音乐制作方式也在不断发生变化。

传统的音乐制作过程中,需要通过录音室等专业设备进行音频采集、处理等工作,而数字技术的应用则为音乐制作提供了更为便捷和高效的方式,可以用计算机、音频软件等工具实现音乐制作的多种功能。

数字音乐制作中的关键技术包括:数字音频采集技术、数字音频处理技术、数字信号处理技术等。

其中,数字信号处理技术在数字音乐制作中占有重要地位,通过数字信号处理技术,可以对音频信号进行降噪、去混响、变调、变速等处理,从而实现音频信号的优化和改善效果。

数字音乐分析是数字音乐学研究的另一个重要方面。

数字音乐分析的研究目的是通过分析音频信号的特征参数,揭示出音乐的结构、节奏、旋律、音高、音色等方面的规律,促进对音乐语言、音乐风格和音乐形式等方面的研究。

数字音乐分析的研究方法主要包括基于谱分析的分析方法、基于安排分析的分析方法、基于机器学习的分析方法等。

在分析方法上,基于机器学习的分析方法是近年来的研究热点之一,通过机器学习算法,可以实现对音频信号的特征识别、分类等操作。

数字音乐表演是数字音乐学研究的另一个重要方面。

随着数字技术的不断发展,数字音乐表演已成为了现代音乐表演的一种主要形式,不仅在流行音乐领域,也在古典音乐领域迅速崛起。

数字音乐表演中的关键技术包括:数字音乐合成技术、实时音频处理技术、交互式表演技术等。

其中,数字音乐合成技术是数字音乐表演中的一个重要环节,它主要采用软/硬件合成器实现音乐合成过程。

实时音频处理技术和交互式表演技术则主要通过数字技术实现现场音频的处理和音乐表演的互动。

数字信号处理综述

数字信号处理综述

数字信号处理综述数字信号处理(Digital Signal Processing,DSP)是指对数字信号进行采样、量化和运算等处理的技术领域。

它在现代通信、图像、音频、视频等领域中起着重要的作用。

本文将对数字信号处理的基本原理、应用领域和未来发展进行综述。

一、数字信号处理的基本原理数字信号处理基于离散时间信号,通过数学运算对信号进行处理。

其基本原理包括采样、量化和离散化等步骤。

1. 采样:将连续时间信号转换为离散时间信号,通过对连续时间信号进行等间隔采样,得到一系列的采样值。

2. 量化:将连续幅度信号转换为离散幅度信号。

量化是对连续幅度信号进行近似处理,将其离散化为一系列的离散值。

3. 离散化:将连续时间信号的采样值和离散幅度信号的量化值进行结合,形成离散时间、离散幅度的数字信号。

通过采样、量化和离散化等步骤,数字信号处理能够对原始信号进行数字化表示和处理。

二、数字信号处理的应用领域数字信号处理广泛应用于各个领域,其中包括但不限于以下几个方面。

1. 通信领域:数字信号处理在通信中起着重要作用。

它能够提高信号的抗干扰性能、降低信号传输误码率,并且能够实现信号压缩和编解码等功能。

2. 音频与视频处理:数字信号处理在音频与视频处理中具有重要应用。

它可以实现音频的降噪、音频编码和解码、语音识别等功能。

在视频处理中,数字信号处理可以实现视频压缩、图像增强和视频流分析等功能。

3. 生物医学工程:数字信号处理在生物医学工程中的应用越来越广泛。

它可以实现医学图像的增强和分析、生物信号的滤波和特征提取等功能,为医学诊断和治疗提供支持。

4. 雷达与成像技术:数字信号处理在雷达与成像技术中有重要的应用。

通过数字信号处理,可以实现雷达信号的滤波和目标检测、图像的恢复和重建等功能。

5. 控制系统:数字信号处理在控制系统中起着重要作用。

它可以实现控制信号的滤波、系统的辨识和控制算法的优化等功能。

三、数字信号处理的未来发展随着科技的进步和应用需求的不断增加,数字信号处理在未来有着广阔的发展空间。

数字音频指纹技术综述_李伟

数字音频指纹技术综述_李伟

收稿日期:2007-06-20 基金项目:国家自然科学基金项目(60402008,60533100)资助. 作者简介:李 伟,男,1970年生,博士,副教授,研究方向为多媒体信息检索、信息隐藏与数字水印;李晓强,男,1973年生,博士,副教授,研究方向为信息隐藏与数字水印、数字图像处理与模式识别、数字版权管理;陈 芳,女,1972年生,女,硕士研究生,研究方向为音频识别与认证;王淞昕,男,1973年生博士,副教授,研究方向为智能电子政务.数字音频指纹技术综述李 伟1,李晓强2,陈 芳1,王淞昕31(复旦大学计算机科学与工程系,上海200433)2(上海大学计算机工程与科学学院,上海200072)3(上海财经大学信息管理与工程学院,上海200433)E -mail:w eili -fudan @fudan .edu .cn 摘 要:近年来,互联网上出现了海量音乐信息,手工选取某首歌曲很多时候已经变得不可能.这直接促使产生了能够进行音乐自动识别的数字音频指纹技术,并成为研究界和工业界一个非常活跃的研究开发领域.数字音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字签名,其主要目的是建立一种有效机制来比较两个音频文件的感知听觉质量,可用在音频识别、内容完整性校验等应用中.本文介绍音频指纹技术的产生背景、基本概念及性质、典型应用场合及模型,澄清了音频指纹这一术语在音频识别和音频水印中的区别,综述了现有的绝大多数典型音频指纹算法,最后讨论了存在的问题并提出了可能的解决方案.关键词:数字音频指纹;音频识别;感知重要性;鲁棒签名中图分类号:T P391 文献标识码:A 文章编号:1000-1220(2008)11-2124-07Review of Digital Audio FingerprintingLI W ei 1,L I Xiao -qiang 2,CHEN Fa ng 1,W AN G So ng -xin 31(Depar tment of Compu ter Science and Eng ineering ,Fud an University ,Shanghai 200433,China )2(S chool of Computer En gineering and Science ,Shan ghai Univer s ity ,Sh anghai 200072,China )3(S choolof In formation ,Mana gement &Eng ineer ing ,Shangha i University of Finance &Economics ,Shangh ai 200433,China )Abstract :Recently ,numer ous music o n the Inter net has give n rise to the technique called "Audio Fing erprinting ",w hich is now v e ry ac tiv e in the research community and industry.Digital a udio finge rprint is a ro bust co ntent-ba sed compact sig naturethat summa rizes a n audio reco rding ,it is typically used fo r automa tic music identificatio n and audio v erifica tio n.T his paper giv es a vision o n the backg ro und ,co ncepts and pr oper ties o f audio fing erprinting ,clarifies the differences betw een the same ter m "audio fing erprint"simultaneo usly used in audio identification and audio wa terma rking ,enumer ates sev eral repr esenta tiv e application scena rio s ,a nd summarizes most sta te -o f -the -a rt a udio fing erprinting alg o rith ms .Sev eral bar riers tha t hinder fur-ther adva nce o f this technique and possible so lutions ar e a lso discussed and co ncluded.Key words:digital a udio finge rprint ;audio identifica tio n ;pe rceptual sig nificance ;ro bust sig natur e 1 数字音频指纹技术概述1.1 音频指纹技术的背景及基本概念音频压缩技术的进步以及大容量存储器的出现使得互联网上出现了以音乐为主的海量音频信息,手工选取某首歌曲很多时候已经变得不可能,这直接促使产生了可以进行音乐自动识别的数字音频指纹技术.音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字签名,其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量.注意这里不是直接比较通常很大的音频数据本身,而是比较其相应通常较小的数字指纹.大量音频数据的指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中,并采用指纹作为相应元数据的索引[1].一个音频指纹系统通常包括两个部分:即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的比对算法.当要识别一段未知音频时,首先按照指纹提取算法计算其音频特征,然后和数据库中存储的大量音频指纹相比对从而进行识别.一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本.若识别到对应的原始指纹,则可提取出相应的元数据信息返回给用户.使用音频指纹而不是音频数据本身进行检索具有以下三方面好处:小型微型计算机系统J o urnal of Chinese Co mputer Sy stems 2008年11月第11期V o l.29No.112008 ·因为指纹数据量相对比较小,可以大大减少对硬盘及内存的存储要求.·指纹来源于音频数据听觉最重要的部分,因此在经受信号失真时仍能进行有效比对.·指纹数据库与媒体数据库相比尺寸减小很多,可以进行更高效的搜索.1.2 音频检索技术和数字水印技术中指纹概念的区别这里我们有必要澄清一下音频水印技术和音频识别技术中数字指纹概念的区别.在数字水印技术中有一种用于盗版源头跟踪的经过特殊设计的水印信息,对音像制品的每个拷贝嵌入不同的水印,在发现盗版时即可据此发现盗版分发的源头,其主要理论基础是通信理论中各种具有正交性的码字设计[2].本文使用的是1.1节描述的音频指纹定义,即首先提取基于重要音频内容的紧致表示,然后用其在指纹数据库中搜索未知音频的音频识别技术.该含义的音频指纹技术还有其它一些不同的名字,如鲁棒性比对(Robust M a tching)、鲁棒/感知散列法(Ro bust/Per ceptual Hashing)、被动水印(Pa s-siv e W ater mar king)、自动音乐识别(Auto matic M usic Reco g-nitio n)、基于内容的数字签名(Co ntent-ba sed Digital Sig na-tures)和基于内容的音频识别(Content-based Audio Identifi-ca tio n).和数字指纹技术相关的领域包括信息检索(Info rma-tio n Retriev al)、模式识别(Pa tter n Reco g nitio n)、信号处理(Sig nal Pro cessing)、密码学(Cry pto g raphy)和音乐认知学(M usic Co gnition)等.1.3 数字指纹与哈希函数的区别一个数字音频指纹可以视为一段音频的摘要,因此一个指纹函数F可以把一段包含大量数据的音频X映射为只有有限个比特的一个指纹.密码学里的Hash函数H也可以把通常比较大的物体X 映射为比较小的哈希值.设X和Y为两个对象,其哈希值分别为H(X)和H(Y),通过比较H(X)和H(Y)可以确认X和Y的关系.若H(X)=H(Y),则数学上可以证明X和Y以极小的错误概率相等.最初人们考虑密码Hash函数可以很好的适用于指纹函数.但是,对于多媒体数据人们更关心的是听觉质量的相似性,而不是严格的数学相等.例如,一首CD里的歌曲和其128Kb/s压缩的M P3版本对人耳听觉系统来讲是完全一样的,即它们按照听觉相似性原则应该视为相等,但是他们的波形数据和由此计算的Hash值却完全不同.因此,密码学的H a sh函数不能用于确定多媒体数据之间的听觉相似性,而且,Hash函数是比特敏感的,即使一个比特数据的改变也会引起完全不同的Hash值[3].对听觉相似的多媒体数据产生数学上相等的指纹事实上是不可能的.假设X和Y听觉相似即X=Y,Y和Z听觉相似即Y=Z.如果对听觉相似的多媒体存在数学相等的指纹,那么就会得出X=Z的结果,但这与众所周知的听觉非传递性相冲突.因此,听觉相似的音频数据只能产生相似但不是数学相等的音频指纹,而听觉不相似的音频则以很高的概率产生不相似的指纹.用数学表达就是,对一设计良好的指纹函数F,应该有一门限T在很高的概率下使‖F(X)-F(Y)‖<T,如果X和Y是听觉类似的;并且‖F(X)-F(Y)‖>T,如果X 和Y是听觉不类似的.例如,两首不同歌曲的指纹会有很大不同,而同一首歌曲在信号处理失真下产生的两个版本,其指纹只是轻微的不同.1.4 音频指纹的性质·准确性:包括正确识别率、漏检率(False neg a tiv e)和误检率(False positive).·鲁棒性:指未知音频能在经受比较严重的音频信号处理后仍然能够被识别出来.这些失真包括G SM和M P3等有损压缩、由于剪切或错位引起的失同步、变调、均衡化、噪声、D/A-A/D转换等.为了得到强鲁棒性,指纹必须基于听觉重要内容的音频特征提取,从而在一定程度上实现对信号处理的不变性.·区分性:即不同歌曲之间的指纹应该具有较大的差异,而同一音乐不同版本之间的指纹应该具有很小的差异.·可靠性:即一首歌曲被正确识别的几率,通常用误检率(False po sitiv e)来衡量.一首歌曲被错误识别的概率越小,该系统可靠性就越高.在数字水印技术中,Fa lse nega tiv e是最关键的参数,因为把一个有版权的音频判断成没有版权会严重损害水印系统的信誉;而在指纹检索系统中,False po si-tiv e是最重要的参数,因为它把本来在数据库中没有相似性的指纹说成是相似的,这会严重影响检索系统的可信度.·指纹尺寸:为进行快速搜索,指纹一般存于内存中,大小用比特数/秒或比特数/歌表示.指纹的尺寸在很大程度上决定指纹数据库的内存容量.·粒度:粒度是一个依赖于应用的参数,即需要多少秒的未知音频片段来识别整首音频.在一些应用中,需要用整首歌曲来进行识别,但其他一些应用中可能只需要一小段音频就可以识别整首歌曲.·搜索速度:对实际商业应用的音频指纹系统来说,检索速度是一个关键的参数.通常要求使用有限计算资源如普通PC机在一个10万首歌曲的指纹数据库中搜索速度在毫秒量级.·可伸缩性:指数据库含有非常多指纹条目或存在非常多并发识别请求时的系统性能,这会影响系统的准确性和复杂性.·通用性:能够对不同音频格式进行识别和使用同样数据库进行不同应用的能力.·安全性:对抗恶意欺骗指纹识别系统操作的能力.以上这些因素互相具有很大的影响.例如,如果采用较小的粒度,那么就要在一个粒度内提取更大的指纹来得到相同的检索可靠性.因为粒度变小会使可靠性降低,而指纹尺寸增大会使可靠性上升.再比如,当采用鲁棒性更强的指纹时会加快搜索速度,这是因为指纹搜索是一种近似性搜索,指纹越鲁棒,在相同的信号处理环境中未知指纹和原始指纹之间距离就越小,从而会加快搜索速度.2 音频指纹使用的一般模型2.1 音频识别212511期 李 伟等:数字音频指纹技术综述 整个过程模仿人耳识别音乐的过程.如图1所示,许多音频作品的指纹在离线情况下计算出来,连同一些重要的元数据如歌曲名称、演唱者、词曲作者、歌词等一并存储到数据库中,在识别过程中未知音频按照同样的算法计算出指纹,然后与数据库中存储的指纹进行比对,如果查找到就返回查询者感兴趣的元数据信息.图1 基于指纹的音频识别框图Fig .1 Fr ame of audio identificatio n based on fing erprinting 2.2 内容完整性校验内容完整性校验的目的在于检测恶意操作对音频数据的改变.首先从原始音频中提取指纹,它可以保存在数据库中,或者以头文件的形式附加到原始音频,也可以采用水印方法自嵌入到原始数据中[4].在校验阶段,从未知音频中提取指纹与原始指纹相比对,即可验证原始音频是否已被修改以及如何被修改.进行内容认证也可以采用半脆弱水印技术,只是水印涉及版权,一般保存在发行者手里[5].2.3 辅助水印技术音频指纹可以用作音频水印技术的辅助手段.例如,音频指纹可以从音频数据中导出依赖于内容的秘密信息作为密钥,从而增强安全性,避免因为对许多音频使用同样的密钥而泄漏信息,防备拷贝攻击、共谋攻击等.此外,指纹还可以用于协助抵抗去同步攻击,通过使用指纹检测器能够在音频流中找到锚点从而重同步水印嵌入和检测区域[6].2.4 基于内容的音频检索和处理从复杂的多媒体数据中提取紧致签名并建立有效的索引系统是音乐信息检索M IR 的重要问题.音频指纹系统可以从音频信号中提取从低层到高层的不同级别重要信息,尤其是高层信息比如节拍、旋律、和声、音色等完全可以用于各种M IR 应用,比如音乐流派分析、音频分类、哼唱检索等,从而从单一的音频识别扩展到相似音频检索[7].3 数字音频指纹的典型应用3.1 音乐识别音乐识别是音频指纹技术最原始和最广泛的应用,目前已经出现了一些实际运行的商业产品.2004年美国Gra-ceno te Inc 与荷兰皇家菲利普研究院(Philips Resear ch )共同开发了可通过手机使用的乐曲识别软件“G racenote M o bile ”,它结合了菲利普音频指纹识别技术和Gr aceno te 的“波形指纹信息数据库”.例如,当用户希望知道所听乐曲的名字及其艺术家姓名时,可以用手机拨通Gracenot e M obile 的服务电话,通过手机收集周围的声音向服务器传输5~10秒钟的乐曲.服务器根据发过来的部分乐曲进行识别处理后,通过短信息向用户手机发送找到的乐曲名、艺术家名及一些图象信息[8].西班牙移动通信运营商Amena 公司也采用Philips 的音频指纹技术提供一种称为M usiwav e 的音乐识别服务[9].英国Sha zam 娱乐有限公司从2002年8月份也开始提供此类服务,但基于不同的音频指纹技术[10].在中国,北京酷我科技有限公司应用其音频指纹技术实现歌曲的精确匹配和识别,并建立了一套大型音频指纹数据库系统,为广大互联网网民提供音乐识别服务.开发的音乐识别软件名称是“酷我M P 3伴侣”,它能根据音乐的旋律准确识别歌曲并提供歌名、歌手、专辑名、歌词等信息.识别后的歌曲无论在音乐播放软件还是便携式M P3播放器中都会显示正确的信息[11].虽然以上基于音频指纹的音乐识别系统对于通信信道中的各种失真具有很强的鲁棒性,但是以上系统却经常无法识别同一音乐的不同版本.例如,如果歌曲“漫步”在数据库中存储的指纹是从CD 版本计算出来,那么用演唱会版本的“漫步”片段去检索就可能会失败,如何在语义级而不是信号级进行不同版本的歌曲识别是一个研究难点.3.2 音频内容控制和跟踪3.2.1 发行端监控内容发布者在电台音乐数据库里寻找一段音乐以决定他们是否有权播放.3.2.2 传输信道监控版权所有者要监视电台是否已支付版权费,并进行播放统计.广告商也需要监视是否按协议播放.此应用必须即时更新数据库.3.2.3 消费者端监控禁止消费者错误使用音频信号.用指纹识别歌曲后可以用指纹来控制CD 、DV D 、M P3播放器等电子设备的行为.3.3 增值服务不同用户可能对不同的元信息感兴趣.例如,普通用户可能对一般信息如歌词、歌曲名称、词曲作者、专辑年份、演唱者等感兴趣;音乐家可能想知道乐器如何演奏以及节奏、旋律、和声;而录音师可能对录音过程感兴趣.元信息可以按照不同目的组织存储,使用指纹技术进行正确的检索来得到用户感兴趣的信息.3.4 完整性校验系统在某些应用中,在播放音频前必须校验其内容完整性,保证其没有被修改或过度失真.比如领导的重要讲话、军事指令等,播放前必须验证在保持内容操作下的完整性.3.5 其他应用除了以上典型应用,音频指纹技术还有一些其它应用.例如,文献[12]用音频指纹来评价M P 3压缩后的音频质量,实验表明原始音频X 和其压缩版本Y 之间的指纹误码率B it Err or Rate (BER )和信噪比Sig nal -to -N oise Ra tio (SN R )的平方根基本是成反比关系的,即BER 越小(X 和Y 的指纹越相似),SN R 就越大(压缩质量越好).2126 小 型 微 型 计 算 机 系 统 2008年4 音频指纹算法综述各种不同指纹算法的共同点是都基于图1所示的框架模型,不同点主要在于特征选取、指纹建模、指纹的相似性度量、数据库快速查找的索引机制等.4.1 音频指纹的设计原则现有文献提取的音频指纹基本分为以下两类:·语义特征类指纹:基于感知类音频特征如明亮度、音乐流派、每分钟的节拍数、作品基调等.这些特征通常具有明确的含义,并可直接应用于音乐分类、产生播放列表等应用.·非语义类指纹:基于物理类音频特征如能量、谱特性、基频等,即具有更明确数学形式的低层特征,但人耳不能直接从音乐中听到.一个典型例子是M PEG-7标准中提出的音频描述子Audio Fla tness.基于以下原因,绝大多数文献趋向于采用非语义特征:·语义特征并不能总给出明确无二义性的含义,与具体的人有关.而且,语义会随着时间而改变.例如,几十年前被分类为硬摇滚的音乐现在可能被视为轻音乐,这使得数学分析变得十分困难.·语义特征一般来说比非语义特征更难以计算.·语义特征并不普遍适用.例如,每分钟的节拍数就不很适用于没有明显节奏的古典音乐.4.2 算法概述大多数指纹提取算法基于以下方法:首先将音频信号分成互相重叠的帧,对每一帧计算一系列特征,这些特征需要对各种音频信号处理至少在一定程度上保持不变.已经提出的特征有傅立叶系数F FT[13]、迈尔倒谱系数M el Frequency Cepst ral Coefficients(M F CC)[14]、频谱平滑度Spect ral Flat-ness[15]、尖锐度Shar pness[15]、线性预测编码系数Linea r Pre-dictiv e Co ding(L PC)[15]等,还有这些基本量的导出量如均值和方差.通常这些特征使用分类器技术映射到一个更简洁的表示,如隐含马尔可夫模型Hidden M a rkov M o dels (HM M)[16]或量化技术[17].每帧算出的指纹叫做子指纹(sub-fing erprint),一个子指纹通常并不能包含足够的信息来进行音频识别,足以识别完整音频的未知音频单元叫做指纹块(fing er print block),即指纹粒度.Philips公司开发了一种经典的鲁棒音频指纹识别系统[3].音频信号首先被分割为0.37秒的帧,相互之间有31/ 32的重叠,使用H a nning窗平滑帧边缘.每帧提取的32位特征叫做子指纹,由于相邻帧之间有很大的重叠,相邻子指纹也具有很大的相似性并且随时间缓慢变化.为计算每帧的32比特子指纹,从估计的功率谱密度中选取33个非重叠的频带,分布于300-2000Hz范围内并成对数间隔,在一定程度上近似于人耳听觉系统HA S.具体计算公式如下所示:ED(n,m)=E(n,m)-E(n,m+1)-(E(n-1,m)-E(n-1,m+1))E(n,m)=11ED(n,m)>0ED(n,m)<0实验结果表明,即使在未知音频经受如下信号处理如128Kbps和32K bps的M P3编解码、20Kbps的Real M edia编解码、G SM编码、全通滤波、幅度压缩、均衡化、带通滤波、±4%保持音调不变的时间缩放Time-Scale M odifica tio n (T SM)、±1%和±4%音调和节拍都发生变化的线性速度变化Linea r Speed Chang e(L SC)、添加噪声、重采样、D/A-A/D 转换等,系统仍具有很高的正确识别率.该系统使用误码率BER作为未知音乐指纹和数据库中指纹间的相似性测量标准,如果BER低于某个门限(该算法中使用0.35),即认为在数据库中找到了匹配的目标.文献[18]中以上作者对上述算法进行了进一步改进.通过把300-2000Hz频率范围划分为512个更小的按对数间隔的子带,并结合与频率移动位置无关的自相关函数得到了4%-6%的线性速度变化(Linear Speed Chang e)抵抗力,并且不影响对其它音频信号处理的鲁棒性,这足以应付一般广播电台的处理速度.文献[19]中以上作者对文献[3]的算法进行了另一种改进.这里没有使用33个子带的能量作为计算指纹的关键因素,而是利用一种局部正规化音频谱的Fourier-M ellin变换的相位成分,该变化的尺度不变性使得对线性速度变化(Lin-ea r Speed Change)的抵抗力达到了10%,同时保持了对其它音频处理的强鲁棒性和指纹间的区分能力.文献[20]采用一种频域、时间域相结合的滤波算法对上述Philips算法进行了改进,在真实环境下增强了音频指纹对信道和背景噪声的抵抗能力.作者认为Philips算法的频带能量具有相关性,当某些频带被噪声污染时,这种频带之间的相关性会引起原始指纹和未知指纹之间海明Hamming距离的增大,因此采用频率滤波器来消除频带之间的相关性.文献[21]采用一维连续小波变换Co ntinuous W av elet Tr ansfo rm(CW T)进行音频信号局部化时频分析来研究音频的表征和识别,产生两个指纹分别进行认证和识别.音频信号具有丰富的时频变化,只能用多尺度时频分析才能有效刻画.而且,由于小波变换具有对信道噪声天然的抵抗能力并且能够区分不同频带的内容,因此选用一维连续小波变换CW T 很显然要比其它如傅立叶变换Fo urier T ransfor m(F T)或短时傅立叶变换Sh or t-Time Fo urier T ransfo rm(ST F T)要更具备天然的优势.在数字水印中离散小波变换Discrete W av ele t Tra nsfo rm(DW T)一般比DCT要性能更优越一些,但是由于DW T本身的二进制特性,它并不足以抓住音频信号的特性.因此,变化的频率分量只能用CW T紧密的尺度分解来有效了解其变化.实验结果验证了算法的有效性,缺点是与基于FF T技术的指纹相比尺寸稍大,会影响一些检索速度.但基于FF T的指纹会失去时间局部化特征,不能用于认证和定位篡改区域.文献[22]描述了一种叫做AudioDN A的音频指纹技术,通过对提取的低级音频特征用HM M模型进一步聚类降低维数,得到了较高的识别率,并且对无线广播信号失真很鲁棒.M P EG-7音频标准提供了一个通用的框架来描述音频数据,两个具有代表性的工具是Audio Spec trum Fla tness描述子和Audio Sig na ture描述方案.基于M PEG-7的描述子开212711期 李 伟等:数字音频指纹技术综述 发了几种音频指纹算法,都取得了比较好的结果[23,24,25].文献[26]基于正规化的子带频谱质心提出一种音频指纹算法,选择子带频谱质心是因为它对很多信号处理具有较强的抵抗力.实验结果表明该方法不仅可靠而且还对不同的音频信号处理如均衡化、噪声、M P3压缩、随机开始、时间尺度缩放、线性速度变化等具有很强的鲁棒性.文献[27]中作者进一步基于三种子带谱特征即一阶正规化矩、二阶正规化矩和谱平滑度来设计音频指纹,将其模拟为平稳过程并使用欧氏距离平方与门限来可靠地进行指纹比对.对比实验表明,在这三种特征中一阶正规化矩具有最佳性能.文献[28]在频域上对不同特征进行量化,在识别被攻击的歌曲上得到了很好的结果.算法对压缩、剪切、噪声、子采样、立体声/单声道转换等都具有很强的鲁棒性.文献[29,30]用子带正规化方法来研究用于音频识别的调制频率特征,主要目的是发现对时间和频率不变的鲁棒特征.作者受人耳听觉系统启发提出一种叫做"联合声学和调制频率"的长期特征分析,在检测声学频率之后使用小波变换进行调制频率分解,然后进行交叉熵分类.实验结果表明:(1)标准谱特征对音频识别在频率发生失真比如低比特率压缩或均衡化时是不够的;(2)频率调制特征对性能有很大提高;(3)子带正规化对一般时间和频率失真产生不变性是很必要的.在同样的测试数据集下,对比实验表明传统的M FCC特征产生88.2%的正确识别率,而本方法高达97.4%.本算法的频率特征还可以应用到其它音频分类或检测的应用中,比如说话人识别或认证.文献[31]基于音频信号时频特性提出三种鲁棒哈希函数即Least Squa res Periodicity-Estima tio n(LSP E),Co rr ela-tio n-Ba sed Periodicity Estimate(CPE)和SV D-M F CC.这些哈希函数可以很好地用于音频识别和认证,它们都可以抵抗许多不同的接近于感知极限的音频信号处理,其中SV D-M FCC性能最佳.本文的指纹大小只有26样本/秒,与16k Hz 的采样频率相比数据量缩小了600倍,甚至不需要存储完整的指纹,只需要其一部分即可实现几乎同样的性能.此外本文还讨论了安全性问题并提出了一种基于密钥的哈希函数.文献[32]提出一种在未知音频被时间缩放情况下进行准确识别的算法.该系统在概念上可以处理任意缩放因子,而且与以前方法不同的是不需要额外的计算负担.实验结果表明可以实现±15%的抵抗率.该系统除了识别音频,还能够定位未知音频在原始音频中的位置,并产生一个相当精确的缩放因子估计.由此带来的副作用是粒度增加,需要最小长度为12秒的一个音频片段才能进行识别,在没有时间缩放的情况下这显得有点大.另外当还有别的信号失真时,特征可靠性及检测准确率会下降,但可以通过结合其它鲁棒特征来增强性能.文献[33]基于一套与音乐节拍相关的音频特征设计了一个可以抵抗严重信号处理失真和高达79%-126%Time-Sca le M o dification的强鲁棒音频识别系统.与以往文献中主要采用音频信号局部频谱特征不同,本文主要采用与节奏、节拍相关的短时时域特征.为得到鲁棒的与节拍相关的高层特征,作者把节拍估计值缩维分入各个节拍类中,由此得到一种循环节拍谱Cyclic Beat Spectrum(CBS).作者还计划结合基于Chro ma的和声特征将该技术扩展到更广范围的音乐.文献[34]用混合高斯模型Ga ussian Mix ture M odels (GM M)对音频信号建模,评测了用于音频指纹系统中许多易于计算的特征的性能:包括短时傅立叶变换S T F T香农熵、Rényi熵、谱质心、谱带宽、谱平坦度、谱波峰因数和M el频率倒谱系数.结果表明,所有这些特征都具有90%以上的正确识别率和10-3的误检率,其中谱质心特征具有最佳性能,正确识别率达到99.2%,误检率为10-4.绝大多数音频指纹算法都是针对特定应用采用手工设计的启发式特征,例如M FCC、过零率、能量、谱特征以及它们的导出量等.但是,这样设计的启发式特征未必是最优的,也许存在比当前特征性能更好或对噪声更鲁棒的特征.文献[35, 36]没有使用启发式特征,而是使用一种叫做失真区分分析Disto rtion Discriminant Analysis(DD A)的算法通过一个线性卷积神经网络来根据音频内容自动提取最佳鲁棒音频特征.输入到DD A的音频经受听觉重要的预处理和去均衡化,来进一步压制失真.每个DD A层应用定向PCA(O PCA)而不是反向传播来训练权重,减少维数并把它的输入投影到使信噪比SN R最大化的方向上.为增强平移不变性,减少计算时间,并在不同时间尺度伸缩时具有鲁棒性可以将多个层集合起来,多层D DA有效的在一个宽的时间窗口上提取特征.将DDA扩展到非线性层会进一步减少误检率和漏检率,这是一个很有趣的工作.音频指纹不仅可以用于音乐识别,还可以在大型数据库中检测同一音乐文件的不同版本[37],即使是压缩比不同或具有不同长度.通过对齐指纹,可以自动识别这两段音乐不同的位置.此外,通过搜索一个歌曲内重复的音乐片段,还可以自动发现音乐的代表性部分用来产生缩略图,极大的方便了浏览.这两种音频指纹的应用都不需要额外的指纹数据库,且应用都效果很好.重复片段检测器只有1%的误检率,缩略图产生器则超过了使用固定窗口的算法.精确的音频内容描述是下一代互联网多媒体搜索引擎的关键成分.一些歌曲会被不同的演唱者演绎,其配器、演唱风格、节奏都可能有很大不同.现有的音频指纹技术只能识别对数据库是已知的歌曲.文献[38]提出一种新的算法,可以很高的概率识别不为数据库所知的歌曲.假设某歌曲有A、B、C、D 四个版本,而数据库中只存储A、B、C三个版本的指纹,那么根据本算法提取的的小波特征可以识别不在数据库中存储的D版本.作者应用39个不同的小波基函数,5个不同尺度,3种不同类型的神经网络来进行音频内容描述.具体说就是发展了一种新型的小波偏差度量方法,用来测量得到的小波系数的等级.这些偏差度量结合一个只有三个独立样本集训练的径向基概率神经网络在不同的小波基函数下可以得到大约60%-78%的识别率.2128 小 型 微 型 计 算 机 系 统 2008年。

数字音频系统

数字音频系统
• 比特率(Bit Rate)、码率、位率、位速、速率、 码流(Data Rate) ,表示经过编码(压缩)后 的音频数据每秒钟需要用多少个比特来表示。 单位为 bps。同一种编码格式,比特率越高, 音频的质量就越好,但编码后的文件就越大。 • 文件大小=比特率*播放时间。 • PCM编码的比特率=采样率*采样位数*声道数。 • CD的比特率=44.1KHz*16bit*2=1.4112Mbps。
综述
1,Audio音频
1,Audio音频
1,Audio音频
1,Audio音频
1,Audio音频
• 声音是一种压力波、机械波。声音作为波的 一种,频率和振幅就成了描述波的重要属性, 发声体振动频率与我们通常所说的音高对应, 即音调(高音低音),而发声体振动的振幅 影响声音的大小,即响度(音量、声强)。 声音可以被分解为不同频率不同强度正弦波 的叠加,不同的发声体由于材料、结构不同, 这种不同的叠加就产生不同的波形,发出声 音的音色(音品)也就不同。 • 音调,响度,音色是声音的三个主要特征。
数字音频系统
恒诚FAE王帅 V1.1
综述
• • • • • • • • • • • • • 1,Audio(音频) 2,MIC(麦,Microphone,麦克风) 3,ADC(模拟数字转换器) 4,DSP(数字信号处理器) 5,Codec(编解码器)=Coder(编码器)+ Decoder(解码器) 6,DAC (数字模拟转换器) 7,Power Amplifier(功放,功率放大器) 8,Speaker(Loudspeaker扬声器、喇叭) 9,Headphone(Earphone;Earpiece;Headset,耳机) 10,I2S总线 11,SPDIF索尼飞利浦数字接口 12,DSD直接比特流数字编码 13, Hi-Fi和Hi-End
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数字音频编码技术综述
摘要:本文介绍了常用的数字音频编码方式,包括MPEG系列伴音标准及Dolby Digital
标准的原理,并对这几种重要的音频编码技术的多方面性能进行了比较,最后,对数字音频压缩编码技术进行了展望。

关键词:数字音频编码;MPEG;Dolby Digital
Overview of Digital Audio Coding Technology 【Abstract】In this paper, some usual digital audio coding methods are discussed, including MPEG standard and Dolby Digital standard. And comparisons in many aspects are made between these audio coding methods. Finally, it discussed the prospect of digital audio compression.
【Key Words】digital audio coding;MPEG;Dolby Digital
1 引言
数字音频是多媒体业务的重要组成部分,数字音频编码技术已经成为多媒体的一个重要研究领域,并已被广泛地应用于数字音频广播(DAB)、高清晰度电视(HDTV)、多媒体网络通信等领域中。

数字音频编码技术按数据量的压缩性能可分为非压缩音频(如波形音频、MIMI音频和CD音频)和压缩音频(如MEPG音频、杜比AC-3等)两类。

而在网络应用中,为了提高带宽的利用率,增强数据的安全性和传输的可靠性,往往需要对数字音频进行压缩处理。

一般地,根据压缩后的音频能否完全重构出原始声音可将音频压缩技术分为无损压缩及有损压缩两大类。

而按压缩方案的不同,又可讲其划分为时域压缩、变换压缩、自带压缩,以及多种技术相互融合的混合压缩等等。

数字音频的发展最初是从无损压缩开始的,如70年代开始采用的类似PCM的瞬时压扩技术和块压扩技术,这种技术的编码效率低。

80年代末至90年代初,研究者利用人耳的掩蔽效应和临界频带的特性来进行子带编码和变换编码,出现的系统有:MUSUCAM系统、128kps的AC-2系统、AC-3系统等。

90年代至今,有损压缩把音频数据的压缩率提高到12:1,也带来了音频质量的下降。

比较著名的是:MP3,AAC,RM等。

2 MPEG数字音频编码标准
ISO/IEC的MPEG音频编码的标准采用了2种编码算法:MUSICAM和ASPEC。

以这两种算法为基础形成了三个不同层次的音频压缩算法,三种算法对应不同的应用要求并具有不同的编码复杂度。

子代掩蔽编码标准MUSICAM的编码器框图如图1所示。

MUSICAM 采用了多项滤波器,将信号分割成带宽统一的32个子带。

它增强了心理声学模型分析,1024点FFT是心理声学模型时域分析工具。

由于MUSICAM的音质好、合理的算法复杂度和适中的时延等有点,使得它被ISO/IEC选用为MPEG音频编码的主要算法。

图1 MUSICAM 编码器原理图
2.1 MPEG-1
在MPEG-1的音频编码标准中,按照复杂度规定了三种模式(层
I ,层II ,层III )。

层I 是MUSICAM 编码方法的简单型(MP1),VCD 的音频压缩方案即为层1。

层II 为MUSICAM 标准型(MP2),典型码流128kps 。

广泛应用与数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。

层III 是综合了层II 和ASPEC 的有点提出的混合压缩技术(MP3),它的复杂度相对较高,编码不利于实时,它是MUSUCAM 和ASPEC 两个算法的结合,典型码流是64kbps 。

低码率仍有高品质的音质,因此成为广泛应用于网络音频。

MP3编码器的框图如图2所示。

图2 MP3编码器的框图
2.2 MPEG-2
MPEG-2的音频编码标准,是在MPEG-1音频编码标准的基础上由双声通道扩展到多通道。

声道数扩展到5.1,即左中右三个主声道,左环、右环两个环绕声道和一个重低音(LEF )声道。

为了与MPEG-1后向兼容(BC ),MPEG-2帧基本结构对应于在MPEG-1中的规定,多声道扩展是插入到MPEG-1音频帧,用于传送附加数据的区域中,信号兼容利用多声道信号的矩阵组合来实现,如果需要更高比特率,则产生一个附加的第二个扩展比特流,为了降低整体比特流,MPEG-2 采用了自适应预测、限制中心声道频率等措施。

MPEG-2有一种AAC (Advanced Audio Coding )模式,它不后向兼容MPEG-1。

在MPEG-2的正式听音测试中,数据流速率为320kbps 的AAC 可以提供比数据流速率为640kbps 的
MPEG-2BC更好的音质。

因此,AAC是一种比MPEG-2BC编码算法更好的音频压缩算法,而且可以使用于各种环境下,如可以做电视信号的伴音等。

AAC的编码器框图如图2所示。

图2 AAC的编码器框图
2.3 MPEG-4
MPEG-4音频编码对音频的低比特率编码进行了大幅度的强化。

相对于MPEG-1,MPEG-2而言,MPEG-4增加了通信用途并设想应用与各种信息压缩率、各种传输线路形式(包括记录媒体)以及联系连接形式(1对1,N对1,1对N等)。

3 杜比数码 Dolby Digital
Dolby Digital是一种多路数字音频格式,由Dolby公司研制开发。

它可将音频与元数据以尽可能的数据率送至接收机,从而为视频数据与其他DTV服务项目保存宝贵的空中频谱。

其中,AC-1用于卫星通信和数码有线广播,AC-2用于专业音频的传输和存储。

AC-3是在AC-1和AC-2基础上发展起来的多通道编码技术,保留了原AC-2中如窗函数处理、指数变换编码、自适应比特分配等许多特点,还新增了运用立体声多声道的编码技术策略的coupling和rematrix算法。

一般而言,立体声的左声道和右声道的信号在听觉上十分相似,存在着许多重复的冗余信息,将这两个声道的信号联合起来加以编码,便可除去冗余的信号且不会影响原来的音质。

其编码器框图如图3所示。

图3 AC-3编码器原理图
AC-3又被称为感觉编码系统,它将每一声道的音频根据人耳听觉特性划分为许多最优的狭窄频段,利用音响心理学“听觉掩蔽效应”,删除人耳所听不到或可忽略的部分,并采用数字信号压缩编码。

同时,利用狭窄频段的划分使部分频段噪声在编码时可被几乎全部滤除,使其余噪声的频谱靠近在信号频谱附近,而这些噪声可被信号所抑制。

因此杜比AC-3系统实际上是一种具选择性及强抑噪的系统,以较低的码率支持全音频多声道,并具优良的回放音质和效果。

AC-3采用全音域5.1声道运行方式,即左、右、中置、左环绕、右环绕,再加上一个超重低音的声道,故又称作 5.1声道。

其中前5个声道的频响范围都是音频全频带即3HZ-20kHz,而LEF声道的频响范围是3-120Hz,仅占整个频谱的十分之一,因此又称为5.1声道环绕声系统。

AC-3传输速率为32-640kbit/s,动态范围为20bit,采样频率支持32kHz,44.1kHz和48kHz,输出声道数目可变。

AC-3的压缩比可以达到1:12,能够以384kbit/s的速率播放5.1声道声音。

可见,AC-3确是一种完善而又灵活的编码方案。

3 总结
随着人类听觉特性理论的深入发展和数字化技术的广泛应用,以及市场对消费类音乐质量的趋高要求,数字音频编码技术已经成为多媒体的一个重要研究领域,并已被广泛地应用于数字音频广播(DAB)、高清晰度电视(HDTV)、多媒体网络通信等领域中。

数字音频压缩算法种类繁多,从上文的分析中可以看出,根据不同的应用场合和对传输速率及音质的特殊要求,可以组合出不同的标准或规范。

未来,一方面继续研究新的音频压缩算法,另一方面,根据不同的应用要求改进现行规范或提出新的技术方案。

参考文献
[1] Peter Noll. MPEG Digital Audio Coding[J]. IEEE Signal Processing Magazine, 1997,(9).
[2] Stephen Li,June Rowlands,etc.An AC-3/MPEG Multi-standard Audio Decoder
IC[C].IEEE 1997 Custom Integrated Circuits Conference.
[3] 林胜,杨成军,全子一.MPEG声音编码标准简介[J].数字声频,2001,(2).
[4] 郑世宝.《网络多媒体》课程.上海交通大学.。

相关文档
最新文档