第三章 离散信源 - 习题课 - 2013

第三章 离散信源 - 习题课 - 2013
第三章 离散信源 - 习题课 - 2013

信息论的旅程

3、信源的输出中含有多少

信息?可压缩程度?4、传输信息的最高

速率(信道容量)

2

5、无失真信源编码7、限失真信源编码6-9、有噪信道编码

研究目的:找到信息传输过程中的共同规律,以提高信息传输的可靠性、有效性、保密性和认证性,实现信息传输系统最优化。

信息的度量

用随机过程{x(t)}来描述,即随机波形信源

4

信源的数学模型及其分类

离散无记忆信源

离散信源–主要内容

离散无记忆信源的扩展信源

离散平稳信源

马尔可夫信源

信源的相关度和冗余度

冗余度

本章作业讲解

第3章_离散信源()题与答案

该信源发出的信息序列为(202 120 130 213 001 203 210 110 321 010 021 032 011 223 210)。求: (1)此消息的自信息量是多少? (2)此消息中平均每符号携带的信息量是多少? 解: (1) 此消息总共有14个0、13个1、12个2、6个3,因此消息发出的概率是: 此消息的信息量是:I二-log p =87.811 bit 3.2某一无记忆信源的符号集为{0, 1},已知信源的概率空间为 ;x 口0 1: ]P(X)」J/4 3/4: (1)求信息符号的平均熵; ⑵ 由100个符号构成的序列,求某一特定序列(例如有m个“0”和(100 - m个“1”) 的自信息量的表达式; ⑶计算⑵中序列的熵。 解: (1) 丁"133、 H(X)二一p(X|) log p(X|) log log 0.811 bit i\_4 4 4 4 J 100 -m 3 —,100 4 3〔00 -m l(xj - -log p(xj - -log 10厂=41.5 1.585m bit 4 H(X100) =100H(X) =100 0.811 =81.1 bit 其概率空间为 ;X L X1 = 0 X2 =1 X3 = 2 X4 = 3 J P(X)J '、3/8 1/4 1/4 1/8 离散无记忆信源 ⑵ 此消息中平均每符号携带的信息量是: I /n =87.811/45=1.951 bit z-m 100 -m g盯(4〕

3.5某信源的消息符号集的概率分布和二进制代码如题表 3.2所列

(1)求信息的符号熵; (2)求每个消息符号所需要的平均二进制码的个数或平均代码长度。进而用这一结果求码序列中的一个二进制码的熵; (3)当消息是由符号序列组成时,各符号之间若相互独立,求其对应的二进制码序列中出现 0和1的无条件概率P o和P i,求相邻码间的条件概率P o/1、P l/0、P i/1、P o/o。 解: (1) 「1 1 1 1 1 1 1 1 \ H(X) - p(xjlogp(x) log log log log 1.75 bit i(2 2448888 丿 ⑵ - 丁1111 L =E(h)=為p(x)h 1 ——2 — 3 — 3=1.75 i 2 4 8 8 1 1 H N(X) H (X) H(X) =1 bit N L 设消息序列长为N,则u0、u1、u2、u3的个数分别为N/2, N/4, N /8, N/8个。 N N N N 7N 则0的个数为一1 — 1 — 1 — 0 =—— 2 4 8 8 8 N N N N 7N 而1的个数为0 1 2 3 = 2 4 8 8 8 因而p0 = p1 = 0.5 P0/1 二P10 / P1 =屮P 0/0 = P00 / P0 P1/0 二p 01 / p 1 二2__2 1 P1/1 二 p 11 / p 1

信源及信源熵习题答案

第二章: 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 《 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) ( 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) " 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少 (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量 》 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下:

第3章_离散信源(1)题与答案

3.1 设有一离散无记忆信源,其概率空间为 ??? ? ??=====??????8/14/1324/18/310)(4321x x x x X P X 该信源发出的信息序列为(202 120 130 213 001 203 210 110 321 010 021 032 011 223 210)。 求: (1) 此消息的自信息量是多少? (2) 此消息中平均每符号携带的信息量是多少? 解: (1) 此消息总共有14个0、13个1、12个2、6个3,因此消息发出的概率是: 6 2514814183?? ? ?????? ?????? ??=p 此消息的信息量是:bit p I 811.87log =-= (2) 此消息中平均每符号携带的信息量是:bit n I 951.145/811.87/== 3.2 某一无记忆信源的符号集为{0, 1},已知信源的概率空间为 ???? ??=??????4/34/110 )(X P X (1) 求信息符号的平均熵; (2) 由100个符号构成的序列,求某一特定序列(例如有m 个“0”和(100 - m )个“1”)的自信息量的表达式; (3) 计算(2)中序列的熵。 解: (1) bit x p x p X H i i i 811.043log 4341log 41 )(log )()(=??? ??+-=-=∑ (2) bit m x p x I x p m i i m m m i 585.15.4143 log )(log )(4 34341)(100 100100 100100+=-=-==? ? ? ?????? ??=--- (3) bit X H X H 1.81811.0100)(100)(100=?== 3.5 某信源的消息符号集的概率分布和二进制代码如题表3.2所列。 题表 3.2

(完整版)计算离散信源的熵matlab实现

实验一:计算离散信源的熵 一、实验设备: 1、计算机 2、软件:Matlab 二、实验目的: 1、熟悉离散信源的特点; 2、学习仿真离散信源的方法 3、学习离散信源平均信息量的计算方法 4、熟悉 Matlab 编程; 三、实验内容: 1、写出计算自信息量的Matlab 程序 2、写出计算离散信源平均信息量的Matlab 程序。 3、掌握二元离散信源的最大信息量与概率的关系。 4、将程序在计算机上仿真实现,验证程序的正确性并完成习题。 四、实验报告要求 简要总结离散信源的特点及离散信源平均信息量的计算,写出习题的MATLAB 实现语句。 信息论基础: 自信息的计算公式 21()log a I a p = Matlab 实现:I=log2(1/p) 或I=-log2(p) 熵(平均自信息)的计算公式 22111()log log q q i i i i i i H x p p p p ====-∑∑ Matlab 实现:HX=sum(-x.*log2(x));或者h=h-x(i)*log2(x(i)); 习题: 1. 甲地天气预报构成的信源空间为: 1111(),,,8482 X p x ??????=???????? 小雨 云 大雨晴 乙地信源空间为: 17(),88 Y p y ??????=???????? 小雨晴 求此两个信源的熵。求各种天气的自信息量。 案:() 1.75;()0.5436H X H Y ==

运行程序: p1=[1/2,1/4,1/8,1/8];%p1代表甲信源对应的概率p2=[7/8,1/8];%p2代表乙信源对应的概率 H1=0.0; H2=0.0; I=[]; J=[]; for i=1:4 H1=H1+p1(i)*log2(1/p1(i)); I(i)=log2(1/p1(i)); end disp('自信息量分别为:'); I disp('H1信源熵为:'); H1 for j=1:2 H2=H2+p2(j)*log2(1/p2(j)); J(j)=log2(1/p2(j)); end disp('自信息量分别为:'); J disp('H2信源熵为:'); H2

第二章信源熵-习题答案(精品文档)

· 1 · 2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 0.75 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下: bit C x p x I C x p i i i 208.134 log )(log )(4)(1352 13 2 213 52 13 =-=-==

离散信源题与答案

离散信源题与答案 Last revision date: 13 December 2020.

3.1 设有一离散无记忆信源,其概率空间为 该信源发出的信息序列为(202 120 130 213 001 203 210 110 321 010 021 032 011 223 210)。求: (1) 此消息的自信息量是多少? (2) 此消息中平均每符号携带的信息量是多少? 解: (1) 此消息总共有14个0、13个1、12个2、6个3,因此消息发出的概率是: 此消息的信息量是:bit p I 811.87log =-= (2) 此消息中平均每符号携带的信息量是:bit n I 951.145/811.87/== 3.2 某一无记忆信源的符号集为{0, 1},已知信源的概率空间为 (1) 求信息符号的平均熵; (2) 由100个符号构成的序列,求某一特定序列(例如有m 个“0”和(100 - m )个“1”)的自信息量的表达式; (3) 计算(2)中序列的熵。 解: (1) (2) (3) 3.5 某信源的消息符号集的概率分布和二进制代码如题表3.2所列。 (1) (2) 求每个消息符号所需要的平均二进制码的个数或平均代码长度。进而用这一结果求码序列中的一个二进制码的熵; (3) 当消息是由符号序列组成时,各符号之间若相互独立,求其对应的二进制码序列中出现0和1的无条件概率0p 和1p ,求相邻码间的条件概率1/0p 、0/1p 、1/1p 、0/0p 。 解: (1) (2) (3) 设消息序列长为N ,则0u 、1u 、2u 、3u 的个数分别为8/ ,8/ ,4/ ,2/N N N N 个。 则0的个数为 8 708181412N N N N N =?+?+?+? 而1的个数为8738281402N N N N N =?+?+?+?

第二章信源信息熵

第二章信源与信息熵 主要内容:(1)信源的描述与分类;(2)离散信源熵和互信息;(3)离散序列信源的熵;(4)连续信源的熵和互信息;(5)冗余度。 重点:离散/连续信源熵和互信息。 难点:离散序列有记忆信源熵。 说明:本章内容主要针对信源,但是很多基本概念却是整个信息论的基础,所以安排了较多课时。由于求熵涉及一些概率论的基础知识,考虑到大四的同学可能对这部分知识已经遗忘,故适当复习部分概率论知识。较难的 2.1.2节马尔可夫信源部分放置在本章最后讲,便于同学理解。本章概念和定理较多,比较抽象,课堂教学时考虑多讲述一些例题,通过例题来巩固概念和消化定理。 作业: 2.1—2.7,2.10,2.12。 课时分配:10课时。 板书及讲解要点: 在信息论中,信源是发出消息的源,信源输出以符号形式出现的具体消息。如果符号是确定的而且预先是知道的,那么该消息就无信息而言。只有当符号的出现是随机的,预先无法确定,一旦出现某个符合就给观察者提供了信息。因此应该用随机变量或随机矢量来表示信源,运用概率论和随机过程的理论来研究信息,这就是香农信息论的基本点。 2.1 信源的描述与分类 在通信系统中收信者在未收到消息以前对信源发出什么消息是不确定的,是随机的,所以可用随机变量、随机序列或随机过程来描述信源输出的消息,或者说用一个样本空间及其概率测度——概率空间来描述信源。 信源:产生随机变量、随机序列和随机过程的源。 信源的基本特性:具有随机不确定性。 信源的分类 离散信源:文字、数据、电报——随机序列 连续信源:话音、图像——随机过程 离散信源:输出在时间和幅度上都是离散分布的消息。

消息数是有限的或可数的,且每次只输出其中一个消息,即两两不相容。 发出单个符号的无记忆信源 离散无记忆信源: 发出符号序列的无记忆信源 离散信源 离散有记忆信源: 发出符号序列的有记忆信源 发出符号序列的马尔可夫信源 概率论基础: 无条件概率,条件概率和联合概率的性质和关系: (1) 非负性 0()()(/)(/)()1i j j i i j i j p x p y p y x p x y p x y ≤≤,,,, (2) 完备性 111 1 11 ()1,()1,(/)1, (/)1,()1 n m n i j i j i j i m m n j i i j j j i p x p y p x y p y x p x y ===========∑∑∑∑∑∑ 1 1 ()(),()()n m i j j i j i i j p x y p y p x y p x ====∑∑ (3) 联合概率 ()()(/)()(/)()()()(/)()(/)() i j i j i j i j i j i j j i j i j i p x y p x p y x p y p x y X Y p x y p x p y p y x p y p x y p x =====当与相互独立时,, (4) 贝叶斯公式 1 1 () () (/)(/)() () i j i j i j j i n m i j i j i j p x y p x y p x y p y x p x y p x y === = ∑∑, 2.1.1 无记忆信源: 例如扔骰子,每次试验结果必然是1~6点中的某一个面朝上。可以用一个离散型随机变量X 来描述这个信源输出的消息。

离散信源题与答案

? ?? ???=====??????8/14/1324/18/310)(4321x x x x X P X 该信源发出的信息序列为(202 120 130 213 001 203 210 110 321 010 021 032 011 223 210)。 求: (1) 此消息的自信息量是多少 (2) 此消息中平均每符号携带的信息量是多少 解: (1) 此消息总共有14个0、13个1、12个2、6个3,因此消息发出的概率是: 6 2514814183?? ? ?????? ?????? ??=p 此消息的信息量是:bit p I 811.87log =-= (2) 此消息中平均每符号携带的信息量是:bit n I 951.145/811.87/== 某一无记忆信源的符号集为{0, 1},已知信源的概率空间为 ???? ??=??????4/34/110 )(X P X (1) 求信息符号的平均熵; (2) 由100个符号构成的序列,求某一特定序列(例如有m 个“0”和(100 - m )个“1”)的自信息量的表达式; (3) 计算(2)中序列的熵。 解: (1) bit x p x p X H i i i 811.043log 4341log 41 )(log )()(=??? ??+-=-=∑ (2) bit m x p x I x p m i i m m m i 585.15.414 3 log )(log )(4 34341)(100 100100 100100+=-=-==? ? ? ?????? ??=--- (3) bit X H X H 1.81811.0100)(100)(100=?== 某信源的消息符号集的概率分布和二进制代码如题表所列。 题表

离散信源题与答案

设有一离散无记忆信源,其概率空间为 ??? ? ??=====??????8/14/1324/18/310)(4321x x x x X P X 该信源发出的信息序列为(202 120 130 213 001 203 210 110 321 010 021 032 011 223 210)。 求: (1) 此消息的自信息量是多少? (2) 此消息中平均每符号携带的信息量是多少? 解: (1) 此消息总共有14个0、13个1、12个2、6个3,因此消息发出的概率是: 6 2514814183?? ? ?????? ?????? ??=p 此消息的信息量是:bit p I 811.87log =-= (2) 此消息中平均每符号携带的信息量是:bit n I 951.145/811.87/== 某一无记忆信源的符号集为{0, 1},已知信源的概率空间为 ???? ??=??????4/34/110 )(X P X (1) 求信息符号的平均熵; (2) 由100个符号构成的序列,求某一特定序列(例如有m 个“0”和(100 - m )个“1”)的自信息量的表达式; (3) 计算(2)中序列的熵。 解: (1) bit x p x p X H i i i 811.043log 4341log 41 )(log )()(=??? ??+-=-=∑ (2) bit m x p x I x p m i i m m m i 585.15.4143 log )(log )(4 34341)(100 100100 100100+=-=-==? ? ? ?????? ??=--- (3) bit X H X H 1.81811.0100)(100)(100=?== 某信源的消息符号集的概率分布和二进制代码如题表所列。 题表

信息论与编码第二章 信源熵习题的答案[最新]

2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量symbol bit n X H / 24log log )(1=== 八进制脉冲的平均信息量symbol bit n X H / 38log log )(2=== 二进制脉冲的平均信息量symbol bit n X H / 12log log )(0=== 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:bit x y p 75.0)/(11= 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15 .075.025.0log )()/()(log )/(log )/(11111111=?-=-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: ! 521)(=i x p bit x p x I i i 581.225!52log )(log )(==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下:

第二章信源与信息度量习题

第二章 信源与信息度量 习题 1. 某大学设置五个学院,每个学院的学生数分别为 学院: 数学 物理 外语 外贸 医学 人数: 300 400 500 600 200 问“某学生王某是外语学院学生”这一消息提供的信息量是多少? 2. 同时扔出两个正常的骰子,也就是各面呈现的概率都是1/6,求: (1) 事件“2和5同时呈现”的自信息量; (2) 事件“两个4同时呈现”的自信息量; (3) 事件“至少呈现一个1”的自信息量。 3. 字母“e ”在英文中出现的概率是0.103,字母“c ”出现的概率为0.022,字母“x ”出现的概率是0.001,求这些字母各自的自信息量。 4. 某电子厂共能生产A 、B 、C 、D 四种仪器,其中A 因技术落后停产了,B 占全部产量的20%,C 占30%,D 占50%。有两个消息“现在完成1台仪器B ”,和“现在完成1台仪器C ”,试确定哪一种消息提供的信息量大些?其中有什么规律? 5. 某地,35%的女孩上大学,65%的女大学生身高超过1.6米,而一个女孩身高超过1.6米的概率是50%,现有一条消息:说某一个身高超过1.6米的女孩是大学生,求这条消息的信息量。 6. 试求: (1) 在一付标准的扑克牌中抽出一张(每张牌均认为是不同的)的平均信息量。 (2) 若扑克牌仅按它的等级鉴定而不问它的花色(大、小王属同一等级),重复上述计算。 7. 某地的天气预报为:晴(占4/8),多云(占2/8),雨(占1/8),雪(占1/8),冰雹(占0/8);而当地老农对天气的预测只能做到:晴(占7/8),雨(占1/8)。试求两者对天气预报各自提供的平均信息量,并说明从中得到的规律。 8. 某离散无记忆平稳信源的概率空间为:12340123()3/81/41/41/8X x x x x p X ====????=????????,若某消息符号序列为:202 120 130 213 001 203 210 110 321 010 021 032 011 223 210,求: (1) 该消息的自信息量; (2) 该消息平均每个符号携带的信息量。 9. 若每帧电视图像由3×105 个像素组成,且像素是独立变化的。每个像素取128个不同的亮度电平,并设亮度电平等概率出现。 (1) 问每帧图像含有多少信息量? (2) 若现有一广播员在约10,000个汉字的字汇中选1,000个字来口述此电视图像,问广播员描述此图像所播出的信息量是多少?(假设,10,000个汉字字汇等概率分布,并彼此无依赖) (3) 若要恰当地描述出此图像的所有信息量,广播员在口述中至少需要多少汉字? 10. 设有一个信源,发送“0”和“1”两种符号,无论何时发出符号的概率均为p (0) = 0.4,p (1) = 0.6,并与以前发出的符号无关, (1) 问该信源是否是平稳信源? (2) 计算2()H X ,312()/H X X X 和lim ()N N H X →∞;

第三章 信源及信源熵

第三章 信源及信源熵 ?信源的主要问题: 信源的描述(数学建模); 信源输出信息能力的定量分析(信源熵); 信源信息的有效表示(信息编码)。 编码器 信道 译码器 信宿 噪声源 信源

第三章 信源及信源熵 ?信源的主要问题: 信源的描述(数学建模); 信源输出信息能力的定量分析(信源熵); 信源信息的有效表示(信息编码)。 编码器 信道 译码器 信宿 噪声源 信源

第三章信源及信源熵 ?3.1 信源的分类及其数学模型?3.2 离散单符号信源 ?3.3 离散多符号信源 ?3.3.1 离散平稳信源 ?3.3.2 离散平稳无记忆信源 ?3.3.3 离散平稳有记忆信源 ?3.3.4 马尔可夫信源 ?3.4 信源的相关性和剩余度

3.1 信源的分类及其数学模型 ?信源的分类 分类1:根据信源输出的消息在时间和取值上是离散或连续分。时间(空间)取值信源种类举例数学描述 离散离散 离散信源 (数字信源) 文字、数据、 离散化图像 离散随机变量序列 离散连续连续信号跳远比赛的结果、 语音信号抽样以后 连续随机变量序列 连续连续 波形信源 (模拟信源) 语音、音乐、热噪 声、图形、图像 随机过程 连续离散不常见

3.1 信源的分类及其数学模型 分类2:根据各维随机变量的概率分布是否随时间的推移而变化分。 1)平稳信源 2)非平稳信源 分类3:根据随机变量间是否统计独立分。 1)有记忆信源 2)无记忆信源

3.1 信源的分类及其数学模型 实际信源分类: ()( ()1H NH X H H m ??=???????????∞????????+?? ?? ???? ?X 离散无记忆信源:)记忆长度无限长:离散平稳信源平稳信源离散有记忆信源记忆长度有限马尔可夫信源:连续平稳信源非平稳信源 信源

英语信源汉语信源信息熵的研究

英语信源、汉语信源及其信息熵的研究 摘要 英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源熵达到最大值。也就是说,信源符号相关性越强,所提供的平均信息量就越小。所以,研究这两种信源的信息熵,就可以得出每种信源中符号的相关性,和提供的平均信息量,量化的来比较两种语言。 关键词 英语信源 汉语信源 信息熵 正文 一、英语信源及其信息熵 英语字母有26个,加上空格,共27个符号。根据熵的性质,信源的最大熵 02log 27 4.76(/)H bit symbol == 但实际上,英语中的字母并非等概率出现,字母之间还有严格的依赖关系。如果我们对英语书中27个符号出现的概率加以统计,可得: 27个英语字符出现的概率 符号 概率 符号 概率 符号 概率 空格 0.2 S 0.052 Y,M 0.012 E 0.105 H 0.047 G 0.011 T 0.072 D 0.035 B 0.0105 O 0.0654 L 0.029 V 0.008 A 0.063 C 0.023 K 0.003 N 0.059 F,U 0.0225 X 0.002

I 0.055 M 0.021 J,Q 0.001 R 0.054 P 0.0175 Z 0.001 如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得 27121()log () 4.03(/) i i i H p a p a bit symbol ==-=∑ 按上述表格中的概率分布,随机选择英语字母排列起来,得到一个信源输出序列: AI_NGAE_ITE_NNR_ASAEV_OTE_BAINTHA_HYROO_POER_SE TRYGAIETRWCO … 可见,这些字母完全是随机排列,毫无相关性,却不是英语单词,所以我们应该考虑字母的依赖性。 为了进一步逼近实际情况,可把婴语信源近似地看作1阶,2阶,…,∞阶马尔可夫信源,求得相应的熵 2 3.32(/)H bit symbol = 3 3.1(/)H bit symbol = 异推出,马尔可夫信源阶数越高,输出的序列越接近实际情况。当依赖关系延伸到无穷远时,信源输出就是真正的英语。所以我们求马尔可夫信源的极限熵 1.4(/)H bit symbol ∞= 二、汉语信源及其信息熵

英语信源汉语信源信息熵的研究

英语信源、汉语信源及其信息熵的研究 摘要英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源 符号概率符号概率符号概率 空格0.2 S 0.052 Y,M 0.012 E 0.105 H 0.047 G 0.011 T 0.072 D 0.035 B 0.0105 O 0.0654 L 0.029 V 0.008 0.023 K 0.003 A 0.063 C N 0.059 F,U 0.0225 X 0.002 I 0.055 M 0.021 J,Q 0.001

R 0.054 P 0.0175 Z 0.001 如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得 27121()log () 4.03(/) i i i H p a p a bit symbol ==-=∑ 1.4(/)H bit symbol ∞= 二、汉语信源及其信息熵 对于英语,字符数少,可轻松的计算出英语信源的信息熵,但是对于汉语这个中文字符极其庞大的信源,科学家们做出了大量的统计

与计算。方法同上面的英语信源信息熵的计算,不过计算量增加了非常多。下面是截取的一些统计资料。 CCL 语料库-现代汉语总字频数:307,317,060 总字种数:9711 字频表: 的:11523375 一:4140344 是:3291508 了:3059837 在:2933070 人:2827726 不:2733842 国:2645758 有:2507415 中:2182025 他:2029395 这:1968713 我:1940875 和:1872750 大:1832977 (ZIPF'S LAW)核算,汉字的容量极限是12366个汉字,汉字的平均信息量是9.65比特 三、英语信源和汉语信源的比较 显而易见,汉语信源的信源熵远远大于英语信源的信息熵,说明

信源及信源熵习题答案

· 1 · 第二章: 2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 0.75 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下: bit C x p x I C x p i i i 208.134 log )(log )(4)(1352 13 2 213 52 13=-=-==

第章离散信源题与答案

设有一离散无记忆信源,其概率空间为 该信源发出的信息序列为(202032)。求: (1)此消息的自信息量是多少? (2)此消息中平均每符号携带的信息量是多少? 解: (1) 此消息总共有14个0、13个1、12个2、6个3,因此消息发出的概率是: 此消息的信息量是:bit p I 811.87log =-= (2) 此消息中平均每符号携带的信息量是:bit n I 951.145/811.87/== 某一无记忆信源的符号集为{0,1},已知信源的概率空间为 (1)求信息符号的平均熵; (2)由100个符号构成的序列,求某一特定序列(例如有m 个“0”和(100-m )个“1”)的自信息量的表达式; (3)计算(2)中序列的熵。 解: (1) (2) (3) 某信源的消息符号集的概率分布和二进制代码如题表所列。 (1)(2)求每个消息符号所需要的平均二进制码的个数或平均代码长度。进而用这一结果求码序列中的一个二进制码的熵; (3)当消息是由符号序列组成时,各符号之间若相互独立,求其对应的二进制码序列中出现0和1的无条件概率0p 和1p ,求相邻码间的条件概率1/0p 、0/1p 、1/1p 、0/0p 。 解: (1) (2) (3) 设消息序列长为N ,则0u 、1u 、2u 、3u 的个数分别为8/ ,8/ ,4/ ,2/N N N N 个。 则0的个数为 8 708181412N N N N N =?+?+?+? 而1的个数为8738281402N N N N N =?+?+?+?

因而5.010==p p 设有一个信源,它产生0,1序列的信息。该信源在任意时间而且不论以前发生过什么消息符号,均按P(0)=,P(1)=的概率发出符号。 (1)试问这个信源是否是平稳的; (2)试计算H(X 2),H(X 3/X 1X 2)及H ∞; (3)试计算H(X 4)并写出X 4信源中可能有的所有符号。 解: (1) 这个信源是平稳无记忆信源。因为有这些词语:“它在任意时间....而且不论以前发生过什么符..........号. ……” (2) (3) 有一马尔可夫信源,已知转移概率为3/2)/(11=S S p ,3/1)/(12=S S p ,1)/(21=S S p ,0)/(22=S S p 。试画出状态转移图,并求出信源熵。 解: 黑白传真机的信息元只有黑色和白色两种X ={黑,白},一般气象图上黑色出现的概率为P(黑)=,白色出现的概率为P(白)=,黑白消息前后没有关联,其转移概率为P(白/白)=,P(黑/白)=,P(白/黑)=,P(黑/黑)=。求该一阶马尔可夫信源的不确定性H(X/X),并画出该信源的状态转移图。 解: 设信源产生A,B,C 三种符号2/1)/(=B B p ,4/1)/()/(==B C p B A p ,8/5)/(=A A p ,4/1)/(=A B p ,8/1)/(=A C p ,8/5)/(=C C p ,4/1)/(=C B p ,8/1)/(=C A p 。试计算冗余度。 解: 一阶马尔可夫信源的状态图如下图所示。信源X 的符号集为{0,1,2}。 (1)求平稳后信源的概率分布; (2)求信源的熵H ∞。 解: (1) (2)

通信原理第三章-离散信源及信息测度

第三章 离散信源及其信息测度 3.1 信源的数学模型及分类 信源是信息的来源,是产生消息或消息序列的源泉。信息是抽象的,而消息是具体的。消息不是信息本身,但它包含着和携带着信息。我们不研究信源的内部结构,不研究信源为什么产生和怎样产生各种不同的、可能的消息,而只研究信源的各种可能的输出,以及各种可能消息的不确定性。 在通信系统中收信者在未收到消息以前,对信源发出什么消息是不确定的,是随机的,所以可用随机变量、随机矢量或随机过程来描述信源输出的消息。不同的信源输出的消息不同,可以根据消息的不同的随机性质来对信源进行分类。 1)信源输出的单符号消息可用随机变量描述 在实际情况中,有些信源可能输出的消息数是有限的或可数的,而且每次只输出其中一个消息,如书信文字、计算机的代码、电报符号、阿拉伯数字码等。这些信源输出的都是单个符号的消息,它们符号集的取值是有限的或可数的。我们可用一维离散型随机变量X 来描述这些信源的输出。这样的信源称为离散信源。它的数学模型就是离散型的概率空间 121 2(), ,(),(),()q q X P x a a a P a P a P a =???????????? (3-1) 显然,()(1,2,,)i P a i q =应满足 1()1q i i P a ==∑ (3-2) 式中,{}i a 是离散信源可能的输出符号;()1(1,2,,)0i P a i q ≤=≤是信源输出符号 (1,2,,)i a i q =的先验概率。 有的信源虽然输出的是单个符号(代码)的消息,但其可能出现的消息数是不可数的无限值,即输出消息的取值是连续的,或取值是实数集(,)-∞∞。例如,语音信号、热噪声信号某时间的连续取值数据,遥控系统中有关电压、温度、压力等测得的连续数据。这些数据取值是连续的,但又是随机的。我们可用一维的连续型随机变量X 来描述这些消息,则这种信源称为连续信源,其数学模型是连续型概率空间 ()(x)X P x p =?????????? ??R (3-3) 并满足 ()d 1b a p x x =? 或()d 1p x x =?R 式中,R 表示实数集(,)-∞∞;()p x 是随机变量X 的概率密度函数。 上述离散信源和连续信源是最简单、最基本的情况,信源只输出一个消息(符号),所

离散信源题与答案完整版

离散信源题与答案集团标准化办公室:[VV986T-J682P28-JP266L8-68PNN]

3.1 设有一离散无记忆信源,其概率空间为 该信源发出的信息序列为(202 120 130 213 001 203 210 110 321 010 021 032 011 223 210)。求: (1) 此消息的自信息量是多少? (2) 此消息中平均每符号携带的信息量是多少? 解: (1) 此消息总共有14个0、13个1、12个2、6个3,因此消息发出的概率是: 此消息的信息量是:bit p I 811.87log =-= (2) 此消息中平均每符号携带的信息量是:bit n I 951.145/811.87/== 3.2 某一无记忆信源的符号集为{0, 1},已知信源的概率空间为 (1) 求信息符号的平均熵; (2) 由100个符号构成的序列,求某一特定序列(例如有m 个“0”和(100 - m )个“1”)的自信息量的表达式; (3) 计算(2)中序列的熵。 解: (1) (2) (3) 3.5 某信源的消息符号集的概率分布和二进制代码如题表3.2所列。 (1) (2) 求每个消息符号所需要的平均二进制码的个数或平均代码长度。进而用这一结果求码序列中的一个二进制码的熵; (3) 当消息是由符号序列组成时,各符号之间若相互独立,求其对应的二进制码序列中出现0和1的无条件概率0p 和1p ,求相邻码间的条件概率1/0p 、0/1p 、1/1p 、0/0p 。 解: (1) (2) (3) 设消息序列长为N ,则0u 、1u 、2u 、3u 的个数分别为8/ ,8/ ,4/ ,2/N N N N 个。 则0的个数为 8 708181412N N N N N =?+?+?+? 而1的个数为8738281402N N N N N =?+?+?+?

信源及信源熵习题答案

第二章: 2、1 试问四进制、八进制脉冲所含信息量就是二进制脉冲得多少倍? 解: 四进制脉冲可以表示4个不同得消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同得消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同得消息,例如:{0, 1} 假设每个消息得发出都就是等概率得,则: 四进制脉冲得平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲得平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲得平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以: 四进制、八进制脉冲所含信息量分别就是二进制脉冲信息量得2倍与3倍。 2、2 居住某地区得女孩子有25%就是大学生,在女大学生中有75%就是身高160厘米以上得,而女孩子中身高160厘米以上得占总数得一半。假如我们得知“身高160厘米以上得某女孩就是大学生”得消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(就是大学生) x 2(不就是大学生) P(X) 0、25 0、75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm) y 2(身高<160cm) P(Y) 0、5 0、5 已知:在女大学生中有75%就是身高160厘米以上得 即:p(y 1/ x 1) = 0、75 求:身高160厘米以上得某女孩就是大学生得信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ?? ??-=-= 2、3 一副充分洗乱了得牌(含52张牌),试问 (1) 任一特定排列所给出得信息量就是多少? (2) 若从中抽取13张牌,所给出得点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现就是等概率得则所给出得信息量就是: (2) 52张牌共有4种花色、13种点数,抽取13张点数不同得牌得概率如下: 2、4 设离散无记忆信源,其发出得信息为(23211223210),求 (1) 此消息得自信息量就是多少? (2) 此消息中平均每符号携带得信息量就是多少? 解: (1) 此消息总共有14个0、13个1、12个2、6个3,因此此消息发出得概率就是: 此消息得信息量就是: (2) 此消息中平均每符号携带得信息量就是: 2、5 从大量统计资料知道,男性中红绿色盲得发病率为7%,女性发病率为0、5%,如果您问一位男士:“您就是否就是色盲?”她得回答可能就是“就是”,可能就是“否”,问这两个回答中各含多少信息量,平均每个回答中含有多少信息量?如果问一位女士,则答案中含有得平均自信息量就是多少?

相关文档
最新文档