第2章 信息的统计度量

合集下载

信息论与编码-第2讲-信源及信息度量1

信息论与编码-第2讲-信源及信息度量1



自信息含义
当事件xi发生以前:表示事件xi发生的不确定性。 当事件xi发生以后:表示事件xi所含有(或所提供)的信
息量。在无噪信道中,事件xi发生后,能正确无误地传输到 收信者,所以I(xi)可代表接收到消息xi后所获得的信息量。 这是因为消除了I(xi)大小的不确定性,才获得这么大小的信 息量。
2.1.1 单符号离散信源的数学模型
(1) 信源的描述方法 (2) 单符号离散信源数学模型
(1) 信源的描述方法
在通信系统中收信者在未收到消息以前,对信源发出 什么消息是不确定的。
① 离散信源:输出的消息常常是以一个个符号形式出现,


这些符号的取值是有限的或可数的。 单符号离散信源:只涉及一个随机事件,可用随机变量描述。 多符号离散信源:每次输出是一个符号序列,序列中每一位出现




② 联合自信息量

信源模型为
x2 y1 ,, x2 ym ,, xn y1 ,, xn y m XY x1 y1 ,, x1 ym , P( XY ) p( x y ),, p( x y ), p( x y ),, p( x y ),, p( x y ),, p( x y ) 1 m 2 1 2 m n 1 n m 1 1

计算y1与各种天气之间的互信息量 对天气x1,不必再考虑 对天气x2, I ( x2 ; y1 ) log2 p( x2 / y1 ) log2 1/ 2 1(比特) p( x ) 1/ 4
i i

验概率的函数。

函数f [p(xi)]应满足以下4个条件 根据上述条件可以从数学上证明这种函数形式是对 数形式。

信息论与编码2-1

信息论与编码2-1

除条件外,条件互信息的含义与互信 息的含义与性质都相同。
§2.3 离散集的平均自信息量(熵)
本节包括以下内容
信息熵 熵函数的数学特性 条件熵 联合熵
2. 3. 1 信息熵
离散信源X的熵定义为自信息的平均值,记 为H(X)
H(X) E [I(x)] p(x)log p(x)
p(x) x
§2.2 互信息量和条件互信息 量
本节包括以下内容
互信息量 互信息量的性质 条件互信息量
2.2.1 互信息
离散随机事件xi和yj 之间的互信息(x∈X ,y ∈Y) 定义为: p(x i | y j ) I(x i ; y j ) log p(x i ) 简记为
p( x | y) I ( x; y) log p( x)
关于对数底的选取:
以2为底:单位为比特(bit,为binary digit的缩写), 工程上常用; 以3为底:单位为Tit; 以e为底:单位为奈特(Nat,为Natural Unit的缩写), 理论推导时常用; 以10为底:单位为Dit或哈特。
–单位之间的换算关系为:
1奈特 = logee = log2e比特 = 1.443比特 1 Dit =log1010 =log210比特 = 1/log102比特 = 3.32比特
通过计算可得
I ( x; y) I ( x) I ( x | y)
注: 1)互信息的单位与自信息单位相同; 2)x与y的互信息等于x的自信息减去在y 条件 下x的自信息。 I(x;y)表示当 y发生后x不确定性的变 化。这种变化,反映了由y发生所得到的关 于x 的信息量。互信息是一种消除不确定 性的度量。 3)应注意I(x;y)与 I(x|y)的区别。

信息论讲义_第一讲

信息论讲义_第一讲

• 香农定义的信息也有其局限性,存在一些缺陷
– 定义的出发点是假定事物状态可以用一个以经典集 合论为基础的概率模型来描述。 – 没有考虑收信者的主观特性和主观意义,也撇开了 信息的具体含意、具体用途、重要程度和引起后果 等因素。
20
1.1.4 信息、消息与信号
信息: 比较抽象的概念;是系统中传输的对 象;包含在消息之中。 消息:比较具体,但不是物理量;具有不同 形式,例如语言、文字、符号、图像等能够 被人感知;可以传输并被通信双方理解;同 一消息含有不同信息;同一信息可用不同消 息载荷。 信号:最具体,是消息的载荷者;是表示消 息的物理量,可测量、可显示、可描述,是 信息的物理表达层。
12
1.1.2 广义的信息概念
信息本身看不见、摸不着,它必须依附于一定的物 质形式(如文字、声波、电磁波等)。这种运载信 息的物质称为信息的载体,一切物质都有可能成为 信息的载体。
13
1.1.3 概率信息概念
由美国数学家香农1948年提出,亦称香农信息 基于对通信活动基本功 基于对通信活动对象和 基于对通信活动的机制 或狭义信息。概率信息是从 不确定性 能的观察分析,“通信 过程的分析研究,“信 和本质的分析研究, (Uncertainty) 和概率测度出发定义信息的。 的基本问题是在信宿端 源发出的消息总是从可 “人类只有在两种情况 香农针对人类通信活动的特点,提出了 精确或近似地复制发送 能发生的消息符号集合 下有通信的需求, 1)自 端所挑选的消息。通常 中随机选择,通信系统 己有某种形式的消息要 ① 形式化假说 消息是有语义的,即它 无法预先知道信源在什 告诉对方,且估计对方 ② 非决定论 按某种关系与某些物质 么时候会选择什么消息 不知道; 2)自己有某种 ③ 不确定性 概念的实体联系着。通 发送”,即具有通信意 疑问需要对方给出解答” 信中语义方面的问题与 义的消息都是随机发生 经过通信活动后,消除 工程问题没有关系” 的 了 随机事件,获取了信 不确定性

信息论编码 第二章信息度量1

信息论编码   第二章信息度量1

50个红球,50个黑球
Y
20个红球,其它4种 颜色各20个
Z
问题:能否度量、如何度量??
2.3.2信源熵数学描述
信源熵
• 定义:信源各个离散消息的自信息量的数学期望 (即概率加权的统计平均值)为信源的平均信息 量,一般称为信源的信息熵,也叫信源熵或香农 熵,有时也称为无条件熵或熵函数,简称熵。 • 公式: n 1 H ( X ) = E[ I ( xi )] = E[log2 ] = −∑ p( xi ) log2 p( xi ) p( xi ) i =1 • 熵函数的自变量是X,表示信源整体,实质上是无 记忆信源平均不确定度的度量。也是试验后平均 不确定性=携载的信息 信息量为熵 • 单位:以2为底,比特/符号 • 为什么要用熵这个词,与热熵的区别?
3
( 2)
∑ p ( x ) = 1, ∑ p ( y
i =1 m i j =1
n
m
j
) = 1,∑ p ( xi / y j ) = 1,
i =1 n
n
概 率 复 习
∑ p( y
j =1 n
j
/ xi ) = 1, ∑ ∑ p ( xi y j ) = 1
j =1 i =1 m
m
( 3) ( 4) (5)
1
对天气x1 ,Q p( x1 / y1 ) = 0,∴不必再考虑x1与y1之间 信息量
对天气 x 2 : I ( x 2 : y 1 ) = log
2
p ( x 2 / y1 ) = log p ( x2 )
2
1/ 2 = 1( bit ) 1/ 4
同理 I ( x 3 : y 1 ) = I ( x 4 : y 1 ) = 1( bit ), 这表明从 y 1 分别得到了

信息论基础第2章离散信源及其信息度量[83页]

信息论基础第2章离散信源及其信息度量[83页]
④ 一般情况下,如果以 r 为底 r 1,则
I (ai ) logr P(ai ) (r进制单位)
通常采用“比特”作为信息量的实用单位。在本书中,且为了 书写简洁,底数 2 通常省略不写。
【例】假设有这样一种彩票,中奖概率为 0.0001,不中 奖概率为 0.9999。现有一个人买了一注彩票。 试计算
定义: 设信源的概率空间为
X
P( x)
a1 P(a1
)
a2 P(a2 )
aq
P(aq )
则自信息量的数学期望定义为信源的平均自信息量,即
q
H ( X ) E[I (ai )] P(ai ) log2 P(ai ) (bit/符号) i 1
简记为
H ( X ) P(x) log2 P(x) xX
(1) 事件“彩票中奖”的不确定性; (2) 事件“彩票不中奖”的不确定性; (3) 事件“彩票中奖”和事件“彩票不中奖”相
比较,哪个提供的信息量较大?
【例】 对于 2n 进制的数字序列, 假设每一符号的出现相互 独立且概率相等,求任一符号的自信息量。
解:
根据题意, P(ai ) =1/2n,所以 I (ai ) log P(ai ) log(1/ 2n ) n(bit)
一般的多符号离散信源输出的随机序列的统计特性 比较复杂,分析起来也比较困难。将在第 3 章中详细讨 论。
《信息论基础》
2.3 离散随机变量的信息度量
一、自信息量I(xi)和信息熵H(X)
定义: 随机事件的自信息量定义为该事件发生概率的
对数的负值。设集合 X 中的事件 x ai 发生概率为 P(ai ) ,
按输出符号之间依赖关系分类,多符号离散信源 可分为无记忆信源和有记忆信源。

信息论与编码理论-习题答案-姜楠-王健-编著-清华大学

信息论与编码理论-习题答案-姜楠-王健-编著-清华大学

第1章 绪论1.1 信源、编码器、信道、干扰、译码器、信宿 1.2 香农1.3 通信系统模型1.4信号是消息的表现形式,是物理的,比如电信号、光信号等。

消息是信息的载荷者,是信号的具体容,不是物理的,但是又比较具体,例如语言、文字、符号、图片等。

信息包含在消息中,是通信系统中被传送的对象,消息被人的大脑所理解就形成了信息。

1.5 略第2章 信息的统计度量2.1 少2.2 y 的出现有助于肯定x 的出现、y 的出现有助于否定x 的出现、x 和y 相互独立 2.3 FTTTF 2.4 2.12比特2.5依题意,题中的过程可分为两步,一是取出一枚硬币恰好是重量不同的那一枚,设其发生的概率为1p ,由于每枚硬币被取出的概率是相同的,所以1181p =所需要的信息量()()1log 6.34I A p bit =-=二是确定它比其他硬币是重还是轻,设其发生的概率为2p ,则212p =总的概率12111812162p p p ==⨯=所需要的信息量()log log1627.34I p bit =-==2.6 设A 表示“大学生”这一事件,B 表示“身高1.60m 以上”这一事件,则()()()0.250.5|0.75p A p B p B A ===故()()()()()()|0.750.25|0.3750.5p AB p A p B A p A B p B p B ⨯====()()()11|loglog 1.42|0.375I A B bit p A B ===2.7 四进制波形所含的信息量为()log 42bit =,八进制波形所含信息量为()log 83bit =,故四进制波形所含信息量为二进制的2倍,八进制波形所含信息量为二进制的3倍。

2.8()()()()()()2322log 3log 32log 3 1.585I p bit I p bit I I =-=-==故以3为底的信息单位是比特的1.585倍。

信息论基础第2章离散信源及其信息度量

信息论基础第2章离散信源及其信息度量
《信息论基础》
第2章 离散信源及其信息度量
本章内容
2.1 离散信源的分类 2.2 离散信源的统计特性 2.3 离散随机变量的信息度量 2.4 离散信源的N次扩展信源 2.5 离散平稳信源 2.6 马尔可夫信源 2.7 离散信源的相关性和剩余度
《信息论基础》
2.1 离散信源的分类
离散信源的分类
按照离散信源输出的是一个消息符号还是消息符 号序列,可分为单符号离散信源和多符号离散信 源。
,
q2 pn
,
qm ) pn
n
m
其中, pi 1, qj pn 。
i1
j 1
可见,由于划分而产生的不确定性而导致熵的增加量为
pnHm (
q1 pn
,
q2 pn
, qm pn
)
6、上凸性
熵函数 H (p) 是概率矢量 p ( p1, p2 ,
pq ) 的严格∩型凸函数
( 或 称 上 凸 函 数 )。 即 对 任 意 概 率 矢 量 p1 ( p1, p2 , pq ) 和
成 H ( p1) 或 H ( p2 ) 。
和自信息相似,信息熵 H ( X ) 有两种物理含义:
① 信源输出前,信源的信息熵表示信源的平均 不确定度。
② 信源输出后,信源的信息熵表示信源输出一 个离散消息符号所提供的平均信息量。如果信道无噪 声干扰,信宿获得的平均信息量就等于信源的平均信 息量,即信息熵。需要注意的是,若信道中存在噪声, 信宿获得的平均信息量不再是信息熵,而是 2.5 节介 绍的平均互信息。
联合熵 H (XY ) 的物理含义表示联合离散符号集 XY 上
的每个元素对平均提供的信息量或平均不确定性。 单位为“bit/符号对”。 需要注意的是,两个随机变量 X 和 Y 既可以表示两个

教育与心理统计学 第二章 常用统计参数考研笔记-精品

教育与心理统计学  第二章 常用统计参数考研笔记-精品

第二章常用统计参数第二章常用统计参数用参数来描述一组变量的分布特征,便于我们对数据分布状况进行更好的代表性的描述,也有利于我们更好地了解数据的特点。

常见的统计参数包括三类:集中量数、差异量数、地位量数(相对量数X相关量数。

描述统计的指标通常有五类。

第一类集中量数:用于表示数据的集中趋势,是评定一组数据是否有代表性的综合指标,比如平均数、中数、众数等。

概述[不背]第二类差异量数:用于表示数据的离散趋势,是说明一组数据分散程度的指标,比如方差、标准差、差异系数等。

第三类地位量数:是反映个体观测数据在团体中所处位置的量数,比如百分位数、百分等级和标准分数等。

第四类相关量数:用于表示数据间的相互关系,是说明数据间关联程度的指标,比如积差相关、肯德尔和谐系数、①相关等。

第五类:是反映数据的分布形状,比如偏态量和峰度等(不作介绍I第一节集中量数(一)集中量数的定义(种类、作用)[湖南12名]描述数据集中趋势的统计量数称为集中量数。

集中量数能反映大量数据向某一点集中的情况。

常用的集中量数包括算术平均数、加权平均数、几何平均数、中数、众数等等,它们的作用都是用于度量次数分布的集中趋势。

(二)算术平均数(平均数、均数)(一级)简述算术平均数的定义和优缺点。

(1)平均数的含义算术平均数可简称为平均数或均数,符号可记为M。

算术平均数即数据总和除以数据个数,即所有观察值的总和与总频数之比。

只有在为了与其他几种集中.数洞区别时,如几何平均数、调和平均数、加权平均数,才全称为算术平均数。

如果平均数是由变量计算的,就用相应的变量表示,如又匕算术平均数是用以度量连续变量次数分布集中趋势及位置的最常用的集中量数,在一组数据中如果没有极端值, 平均数就是集中趋势中最有代表性的数字指标,是真值的最佳估计值。

(2)平均数的优缺点简述算术平均数的使用特点[含优缺点]算术平均数优点①反应灵敏。

观测数据中任1可一个数值或大或小的变化,甚至细微的变化,在计算平均数时,都能反映出来。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

熵函数的数学特性5 可加性
H(X, Y) = H(X) + H(Y|X) 当X、Y相互独立时, H(X, Y) = H(X)+H(Y)

1 0.9
H(p,1-p)
熵函数的数学特性6 极值性

0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0


p( x | y ) I ( x; y ) log 0 正: p( x) y的出现有助于肯定x的出现 p( x | y ) x:张三病了。 1 p ( x | y ) p( x) y:张三没来上课。 p( x) 负: p( x | y ) 0 y的出现有助于否定x的出现 I ( x; y ) log p( x)

规定:0log0 = 0
自信息量的含义



自信息量表示了一个事件是否发生的不确 定性的大小。一旦该事件发生,就消除了 这种不确定性,带来了信息量,即: 自信息量表示了一个事件的发生带给我们 的信息量的大小。 自信息量表示了确定一个事件是否发生, 所需的信息量的大小。 自信息量表示了将事件的信息量表示出来, 所需的二进制位的个数。
p(x):x出现的概率 I(x):x的不确定性 p(x|y):y出现之后 I(x|y):知道y之后仍然保留的关于 x出现的概率 x的不确定性
后验概率
衡量的都是不确定性
条件自信息量的例子

事件:
x=“美国总统的专机发生空难” y=“今天是9.11”

概率:
p(x)= 0.01% p(x|y)=1%
信息论与编码理论 第2章 信息的统计度量
主要内容 从概率的角度研究问题
自信息量 互信息量 平均自信息量 平均互信息量

信息的大小
多个信息之间 关联的密切程度
2.1 自信息和条件自信息

2.1.1 自信息量
事件发生的概率越大,它发生后提供的信息量
越小。
张三今天吃饭了 事件发生的概率越小,一旦该事件发生,它提 供的信息量就越大。 美国总统的专机发生空难
x:李四考了全班第一名。 p( x | y ) y:李四没有复习功课。 1 p( x | y ) p( x)
p( x)

无论正负,互信息量的绝 对值越大,x和y的关系越密 切。
回想自信息量I(x) I(x)≥0:x的出现或多或少总能 带来一些信息
互信息量的性质4 互信息量不大于其中任一事件的自信息量

这表明该事件的不确 定性很大。
联合自信息量

定义2-2 二维联合集XY上的元素(xiyj) 的联 合自信息量定义为
I ( xi y j ) log p( xi y j )
联合自信息量衡量的是多个事件同时出现 的不确定性; 或者,两个事件同时发生带给我们的信息 量的大小; 或者,将该信息量表示出来,所需的二进 制位的个数。
互信息量的性质2 互信息量可为0

概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式
p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n
当事件x、y统计独立时,互信息量为0 p(x|y)=p(x) 无论是否知道y,都对x出现的概率没有影响 x和y没有什么关系
2.2.2 互信息量的性质

概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式 p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n

全概率公式
x1 y1 y2 … ym p(x1y1) p(x1y2) … p(x1ym) x2 p(x2y1) p(x2y2) … p(x2ym) … … … … … xn p(xny1) p(xny2) … p(xnym) 和 p(y1) p(y2) … p(ym)

p(x1)
p(x2)

p(xn)
1
互信息量的性质1 互信息量的互易性

概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式
p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n
I(x;y) = I(y;x)
n
2.3.2 熵函数的数学特性
对称性 非负性 确定性 扩展性 可加性 极值性 上凸性

熵函数的数学特性1 对称性
集合中各分量的次序任意变更时,熵值 (平均自信息量)不变 从熵(平均自信息量)的公式上来看,该 结论是明显的 q

H ( X ) p( xi ) log p( xi )

含义:本身的不确定性,减去知道了事 件y之后仍然保留的不确定性,即由y所 提供的关于x的信息量,或者说由y所消 除的x的不确定性。
I ( x; y) I ( x) I ( x | y)
互信息量=原有的不确定性-尚存在的不确定性
互信息量的例子

事件:

x=“美国总统的专机发生空难” y=“今天是9.11” p(x)= 0.01% p(x|y)=1%

概率:

前面已求出自信息量和条件自信息量为:
I ( x) 13.2877
而x和y的互信息量为:
I ( x | y) 6.6439
p( x | y ) 1% I ( x; y ) log log log100 6.6439 p ( x) 0.01% I ( x) I ( x | y )
ห้องสมุดไป่ตู้
证明
p( x | y ) 1 I ( x; y ) log log I ( x) p( x) p( x)
同理:I(x;y) = I(y;x) ≤ I(y) 互信息量=原有的不确定性-尚存在的不确定 性

2.3 离散集的平均自信息量(熵)





离散集X={x1, x2, …, xn} x2 xn 离散集的概率分布表示为 X x1 P p( x ) p ( x ) p ( x ) 1 2 n 离散集中的每一个事件 I ( x1 ) I ( x2 ) I ( xn ) 都有自己的自信息量 所有这些自信息量的均值,就是离散集的平均自 信息量 定义2-5 集X上,随机变量I(xi)的数学期望定义为 平均自信息量。 n H ( X ) E ( I ( xi )) E[ log p( xi )] p( xi ) log p( xi ) 又称作集X的信息熵,简称熵。 H(X)又可记作H(p1,p2,…,pn)

举例
张三今天没来上课 张三有可能病了

为什么没来上课就会猜到生病了? 因为二者有关系 互信息衡量的就是这种关系的大小
2.2.1 互信息量
定义2-4 随机事件yj的出现给出关于事件xi 的信息量,定义为互信息量。 定义式:

I ( xi ; y j ) log

p( xi | y j ) p( xi )

熵函数的数学特性3 确定性

集合中只要有一个事件为必然事件,则其 余事件为不可能事件,熵为0。 H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0
熵函数的数学特性4 扩展性
lim Hq 1 ( p1 , p2 ,
0
, pq , ) Hq ( p1 , p2 ,
冰雹 1/8 1/4 2
17 H wA ( X ) wi p A ( xi ) log p A ( xi ) 8 i 1
18 H wB ( X ) wi pB ( xi ) log pB ( xi ) 8 i 1
4
熵函数的数学特性2 非负性
H(X)≥0 源于自信息量的非负性。 什么时候为0:有且仅有一个pi=1,其余的 pi=0,即确定事件集。

熵的单位同自信息量的单位
熵的例子
串口通信 某串口的概率空间为

0 X P 1 2 1 1 2

则熵为
1 1 1 1 H ( X ) p ( xi ) log p ( xi ) log log 1 2 2 2 2 i 1

证明:
p( x | y ) p ( x) I ( x; y ) log log log1 0 p ( x) p ( x)


含义:当两个事件相互独立时,一个事件不能提供另一个 事件的任何信息。 即一个事件发生之后,对于确定另一个事件是否发生没有 任何帮助。
互信息量的性质3 互信息量可正可负
i 1


平均自信息量

含义
熵表示了集合中所有事件是否发生的平均不确
定性的大小。 熵表示了集合中事件发生,带给我们的平均信 息量的大小。 熵表示了确定集合中到底哪个事件发生时,所 需的平均信息量的大小。 熵表示了,如果用二进制数据将集合中的各个 元素表示出来,所需的二进制位的个数的平均 值。
i 1
深层含义:熵是有局限性的。它仅与随机 变量的总体结构有关,抹煞了个体的特性。 例2-7 晴 多云 雨 冰雹 A地 1/2 1/4 1/8 1/8 “加权熵”
B地 1/2 1/8 1/8 1/4
加权熵
例2-8
A地 B地 权重 晴 1/2 1/2 1
4
多云 1/4 1/8 1
雨 1/8 1/8 1
, pq )

集合X有q个事件,集合Y比X仅仅是多了一个概率 接近0的事件,则两个集合的熵值一样。 证明: lim log 0 0 含义:
相关文档
最新文档