数字音视频技术

第四节数字音视频技术
学习目标及主要内容
* 掌握音频数字化、数字音频文件格式
* 了解乐器数字接口MIDI
* 掌握视频数字化、视频文件格式
* 掌握流媒体概念
* 掌握数字图像技术、数字图像格式
* 理解超文本概念
* 4.1.1 数字音频技术概述
*
* 1、音频（语音、音响和音乐）。音频的作用是直接通过讲话表达信息、制造某种效果和气氛。
* 2、音频技术主要包括音频采集、语音编码/解码、文---语转换(Text To Speech)、音乐合成、语音识别与理解、音频数据传输、音频－－视频同步、音频效果与编辑等，我们所说的主要指数字化和乐器数字化接口MIDI
4.1.2 数字音频技术概述
* 1、音频数字化指的是一个用来表示声音强弱的数据序列，它是由模拟声音经采样和量化后得到的由二进制数0和1组成的数字序列。
* 2、计算机、数字CD、数字磁带（DAT）、MP3播放器中存储的都是数字声音
4.1.3 采样及采样频率
1、采样、采样频率
* A、采样：即每隔一个时间间隔在模拟声音波形上取一个幅度值。

* 声音波形图：
采样频率示意图 ?采样频率
4.1.3 采样及采样频率
* B、采样频率：对声音波形每秒中采样的次数，即通过波形采样的方法记录1秒钟长度的声音，需要多少个数据。
* C、44KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。根据采样理论，采样频率为40KHz左右，采样频率越高，声音失真越小数据量也越大。原则上采样率越高，声音的质量越好。
4.1.3 采样及采样频率
D、采样频率如何确定？
* 失真的例子便是电影上车辆行驶时车轮转动的情况（一个典型的“马车轮”效应的例子）。飞快转动的车轮有时看起来似乎是静止不动甚至会向反方向转动。
* 合理的采样频率在Nyquist（奈奎斯特）定理中早已有明确的答案：要想不产生失真，则采样频率至少是录制的最高频率的两倍。这个频率通常称作Nyquist极限
4.1.3 采样及采样频率
* 问题：采样频率应为多少？
* 得出结论：由于人类听觉器官的特性，人类欣赏的数字音频文件的采样频率最高为
20KHz×2=40KHz

4.1.4 量化
4.1.5 A、即把采样得到的幅度值用二进制表示
4.1.6 B、量化数据位数（也称量化级）是每个采样点能够表示的数据范围，N位可以表示2^N的次方个数值，8位量化级表示每个采样点可以表示256个不同量化值。
4.1.7 C、量化位数越大，音质越好。
4.1.8 思考：量化位数与音频文件体积有怎样的关系？
4.1.9
4.1.10 量化示意图
4.1.11
4.1.5 声道
* A、反映音频数字化质量的另一个重要因素是声音通道个数，如果每次生成一个声波数据,称为单声道. 如果每次生成二个声

波数据,称为立体声。
* B、现阶段可实现的声道数为2.0，2.1，4.1，5.1，7.1等。
* C、5.1声道有右前、左前、中间、右后、左后及重低音六组声音通道，可表现环绕立体声场效果。
5.1声道接口

4.1.6 波特率
* A、是指单位时间 (每秒)记录声音所需要的存储容量，单位是kbps (千位每秒)
* 思考：如果我们知道某个音频文件的波特率和持续时间，可不可以计算出该文件的体积。
* B、在没有压缩的声音文件里，波特率等于采样率×量化位数×声道数
* 思考：由上可知，音频文件的计算公式是什么？

4.1.7 声音文件的数据量
* A、根据采样频率、量化级数和声道数，可以估算出声音数字化后每秒的数据量
* 存储量=（采样频率×量化位数×声道数×）/8（字节数）
* 例：普通CD唱片的采样率为44.1KHz，量化位数为16位，双声道，则一分钟的数据量为
* 44.1×1000×16×2/8=10，584，000 Byte=10 MB
* 提问：找个现有的音频文件计算验证该公式

4.1.8数字音频文件格式
* A、WAV文件：Microsoft公司的音频文件格式，它来源于对声音的实际波形进行记录，这种存储方式十分简单，再现声音也非常方便，但对声音的压缩非常小，所占存储空间非常大。
* B、MP3文件：MP3全称MPEG1 Layer3，是MPEG1 Audio的组成部分，压缩比可达1：10～1：15（约每分钟1M），而音质基本不变。
* 此外还有：WMA、MID、RA、RM、AIF等
4.2 乐器数字接口MIDI
1、乐器数字接口MIDI的概念
* A、MIDI（musical instrument digital interface）是作为“乐器数字接口”的缩写出现的，并用它来泛指数字音乐的国际标准
* B、标准的多媒体PC平台能够通过内部合成器或连接到计算机MIDI端口的外部合成器播放MIDI文件，利用MIDI文件演奏音乐，所需的存储量最少。

MIDI文件概念：
* A、是指存放MIDI信息的标准文件格式
* B、MIDI文件中包含音符、定时和多达16个通道的演奏定义。文件包括每个通道的演奏音符信息:键通道号、音长、音量和力度（击键时，键达到最低位置的速度）
* 注意：这是与普通波形文件的本质区别。
* C、由于MDDI文件是一系列指令，而不是波形，它需要的磁盘空间非常少。
4.3数字视频技术
* A、视频的原理回顾----视频压缩的必要
* B、视频数字化的原理：视频数字化的目的是将模拟信号经模数转换和彩色空间转换等过程，转换成计算机可以显示和处理的数字信号。视频处理技术包括视频图像信号的获取和视频图像信号压缩与存储等方面。
4.3.2 视频数字化过程
* ①采样：将连续的视频波形信号变为离散量
* ②量化：将图像幅度信号变为离散的二进制数值
* ③编码：将数字化的视频信号经过编码成

为电视信号，从而可以应用在电视等媒体上

4.3.3数字视频的格式：
* ①Windows视频文件（AVI）
* Windows视频文件将整个视频流中的每一幅图像逐幅记录，信息量非常大，短短几秒钟文件的体积就超过10M，AVI文件内部一般均含有音轨，最高可答CD音质。
* ②Quick Time文件（MOV）
* 是苹果公司开发的专用视频格式，后来移植到PC机上，与AVI大体上属于，也是网络上的视频格式之一。
* ③MPEG视频文件（MPG）
* MPG是压缩视频的基本格式，压缩比很大，是一种广泛应用的格式，有MPEG1，PEG2，MPEG3，MPEG4等标准
* ④流媒体文件 Rm Ra Rmvb
* Rm Ra文件格式由Real公司开发的流媒体格式，对视频有极高的压缩率，虽然牺牲了一些画质与音质，但却能在网上流畅的播放它。
* Flv格式：FLV流媒体格式是一种新的视频格式，全称为Flash Video ，特点是体积小，特别适合于网络应用（示例）
* Wmv格式等

4.4 数字图像技术
数字图像就是有摄象机或扫描仪等设备输入并存储在计算机里的数字信息，计算机科学中的图形和图像等概念是有区别的，图形一般指用计算机绘制的画面、如直线、矩形和图表等，图像指由输入设备捕捉实际场景画面产生的数字图像，数字图像通常有矢量和位图图形两种形式。
4.4.1 矢量图形
* A、矢量图形是用一组指令集合来描述图形的内容，这些指令用来描述构成该图形的直线、图、圆弧等位置、维数和形状。
* B、矢量图形主要用来表示线框型的图画、工程制图、美术字、简单动画等。
* C、绝大多数CAD和3D造型软件使用矢量图形作为基本的图形存储格式。
4.4.2位图图像
位图图像由数字阵列信息组成，用以描述图像中各像素点的强度和颜色。位图适合于表现含有大量细节（如明暗变化，场景复杂和多种颜色等）的画面，并可直接、快速地在屏幕上显示出来，位图占用的存储空间较大，一般需要压缩。

4.4.3分辨率与图像深度
* A、直接影响位图显示质量的因素主要有分辨率和图像深度。
* B、分辨率
有图像分辨率、屏幕分辨率和像素分辨率三个不同的概念。图像分辨率指数字图像的尺寸，即水平和垂直方向的像素个数。
* C、图像深度
* 如果用若干位表示位图中像素的颜色信息，这些位的个数就称为图像深度（N）。可以显示2^N种颜色，
* 深度为1的图像只能有两种颜色，称为单色图像，深度为4的图像可以有16种颜色，深度为8的图像可以有256种颜色
4.4.4图像文件数据量

* 1、文件的存储量=（位图高度×位图宽度×位图深度）/8
* 例如，一幅640×480的256色图像（未压缩）的数据量为：
* （640×480×8）/8=307，200（B）=300KB
* 思考

：分别计算一个jpg 和 bmp格式的文件，看看是否符合。
4.4.5 图像文件格式
* 1、BMP（bit map picture）:PC机上最常用的位图格式，有压缩和不压缩两种形式，可表现从2位到24位的色彩，在Windows下相当稳定，运用极为广泛。
* 2、JPG（Joint photographics expert group）:可以大幅度地压缩图形文件的一种图形格式。JPG格式存储的文件是其他类型图形文件的1/10到1/20，而且色彩数最高可达到24位，所以它被广泛应用
* 3、GIF（graphics interchange format）:在各种平台的各种图形处理软件上均可处理的经过压缩的图形格式。缺点是存储色彩最高只能达到256种。
* 4、其他如PSD、PNG、CDR、TIF等。
4.4.6 超文本
1、来源
* 1965年Ted Nelson在计算机上处理文本文件时想了一种把文本中遇到的相关文本组织在一起的方法，让计算机能够响应人的思维以及能够方便地获取所需要的信息。他为这种方法杜撰了一个词，称为超文本(hypertext)。
* 2、超文本概念：超文本是一种文本，它和书本上的文本是一样的。但与传统的文本文件相比，它们之间的主要差别是，传统文本是以线性方式组织的，而超文本是以非线性方式组织的。
* 3、这里的“非线性”是指文本中遇到的一些相关内容通过链接组织在一起，用户可以很方便地浏览这些相关内容。这种文本的组织方式与人们的思维方式和工作方式比较接近。
* 4、超媒体=超文本+多媒体

* 5、超文本的基本结构由节点(node)和链(link)组成。节点用于存储各种信息，节点内容可以是文本、语音、图形、图象或一段活动影象;节点大小可以是一个窗口也可以是一帧或若干帧所包含的数据，链则用来表示各节点(即各种信息)之间的关联。节点和链均有多种不同的类型因而形成各种不同的多媒系统。
第五节多媒体技术的应用
多媒体技术的发展改变了计算机的应用领域，使计算机由办公室、实验室中的专用品变成了信息社会的普通工具，广泛用于：
* 工业生产管理、
* 学校教育、
* 公共信息咨询、
* 商业广告、
* 军事指挥与训练，
* 家庭生活与娱乐等领域。
4.5.1 多媒体的应用
主要内容

* 多媒体信息系统
* 虚拟现实
* 多媒体网络与通信
* 家用多媒体
* 电子出版
4.5.2 多媒体信息系统
所谓信息系统，是指为使用者提供各类信息、辅助人们对环境进行控制和决策的系统。信息系统是人、计算机、思想的收集和处理活动大集成，如地理信息系统、银行和证券信息系统、铁路订票系统等。