信息论与编码

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

研究意义
二维的系统能表达通信系统发送和接收的关系，也能表达存储系统的存取关系，二维的结果还可以向多维系统推广，因此这个研究具有重要的意义。
联合事件集合和概率矩阵
两个事件集合E、F的联合事件集合
E1 F1 E 2 F1 {EF } = ... E F n 1 E1 F2 E 2 F2 ... E n F2 E1 Fm ... E 2 Fm ... ... ... E n Fm ...
q1 + q2 + .. + qm En = U Fk , pn = ∑ qk , p{Fk } = qk；则有 =1 pn k =1 k =1
m m
这时构成的三个概率空间分别具有熵函数：
q1 qm H1 ( p1 , p2 ,..., pn ); H 2 ( p1 ,..., pn −1 ; q1 ,..., qm ); H 3( ... ) pn pn 它们之间具有关系： H 2 = H1 + pn * H 3
三、平均信息量—熵平均信息量熵
1、熵(Entropy)的概念 2、熵的计算 3、熵的含义 4、熵的性质 5、剩余度∆H
熵(Entropy)的概念的概念
通常研究单独一个事件或单独一个符号的信息量是不够的，往往需要研究整个事件集合或符号序列(如信源)的平均的信息量(总体特征)，这就需要引入新的概念；
信息的度量（信息的度量（续）
计算信息量主要要注意有关事件发生概率的计算；例：从26个英文字母中，随即选取一个字母，则该事件的自信息量为 I = -log2 (1/26) = 4.7 比特例：设m比特的二进制数中的每一个是等概率出现的(这样的数共有2m个)，则任何一个数出现的自信息为: I = -log2 (1/ 2m) = m 比特/符号
s1 s 2 s3 s 4 s1 s 2 s3 s 4 1 1 1 1 S= = p1 p 2 p3 p 4 2 4 8 8
则其熵为：
1 1 2 H (S) = −∑ p i log p i = log 2 + log 4 + log 8 = 1.75 比特 / 符号 2 4 8 i =1
信息的度量（信息的度量（续）
由于信息量与概率成反比，并且具有可加性，可以证明，信息量的计算式为
1 I ( x k ) = log 2 = − log 2 Pk pk
其中Pk是事件Xk发生的概率，这也是先农关于(自)信息量的度量(概率信息)；自信息量 I(xk) 的含义
当事件 xk发生以前，表示事件xk发生的不确定性；当事件 xk发生以后，表示事件xk所提供的信息量；
剩余度∆H 剩余度
剩余度刻画了事件集合中符号的相关性程度，其定义为： ∆H=H0 - H 其中：H0为熵的最大值，H为熵的实际值；
剩余度∆H (续) 剩余度续
例：英文字母表
由27个元素构成的集合的熵的最大值为： H0=log27=4.75 bit/符号 (当27个元素等概率分布时) 对于实际的有意义英文来说，由于受到英语构词法等规则的限制，其字母不是等概率出现的，而呈现一定的分布（如下表）。由此可以计算出实际英文字母表(26字母+1空格)的熵为: H(x)=4.03bits/字母；因此，英文字母表的剩余度∆H=4.75-4.03=0.72 以上结论仅仅从英文字母的概率分布得出。一般认为，如果考虑到英语的所有特点，则实际英文字母表的熵为 H=1.4bits/字母；也就是说，英语的冗余是很大的。
14 12 10 8 6 4 2 0
A B C D E F G H I J K L MN O P Q R S T U VWX Y Z
剩余度∆H (续) 剩余度续
正是因为原始的信息都有冗余，才有可能对信息进行压缩，以尽量减少冗余，提高每个符号携带的信息量；但另一方面，冗余信息可以提高信息的抗干扰能力，如果信息的某部分在传输中被损坏，则通过冗余有可能将其恢复。
先农关于信息定义和度量的局限
局限
这个定义的出发点是假设事物的状态可以用一个以经典集合论为基础的概率模型来描述，然而实际存在的某些事物运动状态很难用一个合适的经典概率模型来描述，甚至在某些情况下不存在这样的模型；这个定义和度量没有考虑收信者的主观性和主观意义，也抛开了事物本身的具体含义、用途、重要程度和引起的后果等，这与实际不完全一致。
(冗余小,有效) 中国 (冗余大,可靠) 中华人民共和国
从提高信息传输效率的角度出发，总是希望减少剩余度（压缩），这是信源编码的作用；从提高信息抗干扰能力来看，总是希望增加或保留剩余度，这是信道编码的作用；
四、二维离散概率量的熵
1、研究意义 2、联合事件集合和概率矩阵 3、边际熵和联合熵 4、条件概率和条件熵 5、从通信系统角度看熵的意义 6、熵间的相互关系
一、信息论发展简史
信息论是在长期通信工程的实践中，由通信技术与概率论、随机过程和数理统计相结合而逐步发展起来的一门科学。奈魁斯特：他在1924年研究影响电报传递速度的因素时,就察觉到信息传输速度和频带宽度有关系; 哈特莱(Hartley)：他在1928年用概率的观点来分析信息传输问题; 仙农（Claude E.Shannon)：1948年发表《通信的数学理论》(A Mathematical Theory of Communication),为创立信息论作出了决定性的贡献; 维纳(N. Wiener)等：为信息论的进一步发展和拓展作了大量工作;主要在通信的统计理论与滤波器理论方面
的概念（熵(Entropy)的概念（续）的概念
假设离散事件集合的概率特性由以下数学模型表示：
X a1 = p( x ) p( a1 ) an n i∑1 P (a i ) = 1 p(a 2 ) ...... P (a n ) = a2 ......
则如果将自信息量看为一个随机变量，其平均信息量为自信息量的数学期望，其定义为：
信息的度量
信息的度量（信息量）和不确定性消除的程度有关，消除了多少不确定性，就获得了多少信息量；不确定性就是随机性，可以用概率论和随机过程来测度不确定性的大小，出现概率小的事件，其不确定性大，反之，不确定性小；由以上两点可知：概率小 ——> 信息量大，即信息量是概率的单调递减函数；此外，信息量应该具有可加性；
“信息”不同于情报
情报往往是军事学、文献学方面的习惯用词，它的含义比 “信息”窄的多，一般只限于特殊的领域，是一类特殊的信息； “情报”是人们对于某个特定对象所见、所闻、所理解产生的知识；
信息论中“信息” 与其他概念的区别(续信息论中“信息” 与其他概念的区别续)
“信息”不同于知识
知识是人们根据某种目的,从自然界收集得来的数据中整理、概括、提取得到的有价值的信息，是一种高层次的信息；知识是信息，但不等于信息的全体；
4
熵的含义
熵是从整个集合的统计特性来考虑的，它是从平均意义上来表征集合的总体特征的。
熵表示事件集合中事件发生后，每个事件提供的平均信息量；熵表示事件发生前，集合的平均不确定性；
例：有2个集合，其概率分布分别为：
a2 X a1 P ( X ) = 0.99 0.01 Y a1 a2 P (Y ) = 0.5 0.5
信息论与编码
数学与计算机科学学院朱西平 (xpzhu188@163.com )
课程参考教材
靳蕃，信息论与编码方法在计算机·通信中的应用，西南交通大学出版社，1992 曲炜，朱诗兵，信息论基础及应用，清华大学出版社，2005 ROBERT J.MCELIECE，信息论与编码理论（第 2版），电子工业出版社，2003 RANJAN BOSE著，武传坤译，信息论、编码与密码学，机械工业出版社，2005 傅祖芸，信息论与编码，电子工业出版社，2004
分别计算其熵，则： H(X)=0.08 bit /符号, H(Y)=1bit / 符号
熵的性质
连续性: 当某事件Ek的概率Pk稍微变化时， H函数也只作连续的不突变的变化；对称性: 熵函数对每个Pk 对称的。该性质说明熵只与随机变量的总体结构有关，与事件集合的总体统计特性有关；非负性: H>=0；确定性，即： H(1,0)=H(1,0,0)=H(1,0,0…,0)=0，即当某一事件为确定事件时，整个事件集合的熵为0；
二、信息的概念和度量
1、信息论中“信息” 与其他概念的区别 2、仙农关于“信息”的定义 3、信息的度量 4、仙农关于信息定义和度量的优点和局限
信息论中“信息” 信息论中“信息” 与其他概念的区别
“信息”是信息论中最基本、最重要的概念，它是一个既抽象又复杂的概念； “信息”不同于消息
在现代信息论形成之前，信息一直被看作是通信中消息的同义词，没有严格的数学含义；所谓消息，是用文字、符号、数据、语言、图片、图像等能够被人们感觉器官所感知的形式，把客观事物运动和主观思维活动的状态表达出来；消息是信息的载体；消息是表现形式，信息是实质；
n 1 H ( X ) = E log = − ∑ p(a i ) * log p(a i ) i =1 p( a i )
由于这个表达式和统计物理学中热熵的表达式相似，且在概念上也有相似之处，因此借用“熵”这个词，把H(X)称为信息“熵”；
熵的计算
例：设某信源输出四个符号，其符号集合的概率分布为：
信息的度量（信息的度量（续）
自信息量的单位
自信息量的单位取决于对数的底；底为2，单位为“比特（bit）”；底为e，单位为“奈特（nat）”；底为10，单位为“哈特（hat）”； 1 nat = 1.44bit , 1 hat = 3.32 bit；
Leabharlann Baidu
先农关于信息定义和度量的优点
优点
它是一个科学的定义，有明确的数学模型和定量计算；它与日常生活中关于信息的理解不矛盾；它排除了对信息一词某些主观性的含义，是纯粹形式化的概念；
熵的性质（熵的性质（续）
极值性，即当所有事件等概率出现时，平均不确定性最大，从而熵最大，即：
1 1 1 H ( P1 , P2 ,..., Pn ) ≤ H ( , , ... , ) = log n n n n
熵的性质（熵的性质（续）
可加性: 设有一事件的完全集合{E1,E2,…,En},其熵为 H1(p1,p2,…,pn)。现设其中一事件En又划分为m个子集，即：
“信息”不同于信号
把消息变换成适合信道传输的物理量，就是信号；信号是承载消息的物理量；
仙农关于“信息” 仙农关于“信息”的定义
关于信息的科学定义，目前已有百余种流行的说法，它们从不同的侧面和层次来揭示信息的本质；仙农从研究通信系统传输的实质出发，对信息做出了科学的定义；仙农注意到：收信者在收到消息之前是不知道消息的具体内容的。通信系统消息的传输对收信者来说，是一个从不知到知的过程，或者从知之甚少到知之甚多的过程，或是从不确定到部分确定或全部确定的过程。因此, 对于收信者来说, 通信过程是消除事物状态的不确定性的过程，不确定性的消除，就获得了信息，原先的不确定性消除的越多，获得的信息就越多； “信息”是事物运动状态或存在方式的不确定性的描述，这就是仙农关于信息的定义。
这说明对集合的进一步划分会使它的不确定性增加，即熵总是往大增加。
熵的性质（熵的性质（续）
例子: 设事件A1, A2构成全集，p(A1)=p1=3/15, p(A2)=p2=12/15. 现将事件A2又进一步划分为2个子集B和C，且p(B)=q1=4/15, p(C)=q2=8/15,则：
3 3 12 12 1 H1 ( p1 , p2 ) = −( log + log ) = (15 log 5 − 24) 15 15 15 15 15 1 H 2 ( p1 ; q1 , q2 ) = (15 log 5 + 12 log 3 − 32) 15 q1 q2 1 H 3 ( , ) = (15 log 3 − 10) p2 p2 15 12 显然，其结果满足： H 2 = H1 + * H 3 15