教育信息熵第二章

合集下载

3第二章2-熵的性质

3第二章2-熵的性质
i =1 i =1 q q
∑ P(a ) = 1
i =1 i
q
•定义自信息的数学期望为平均自信息量H(X),称为信息熵: 定义自信息的数学期望为平均自信息量 信息熵: 定义自信息的数学期望为平均自信息量 ,称为信息熵
我们用概率矢量 来表示 率分布P(x): 来表示概 我们用概率矢量P来表示概率分布 :
4、扩展性 、
lim H q +1 ( p1 , p 2 ,..., p q − ε , ε ) = H q ( p1 , p 2 ,..., p q )
ε →0
因为
ε →0
lim H q +1 ( p1, p2 ,⋅ ⋅ ⋅, pq − ε , ε )
= lim{−∑ pi log pi − ( pq − ε ) log( pq − ε ) − ε log ε }
∑p
i =1
n
i
= 1,
∑q
j =1
m
j
=1
∑∑ p q
i =1 j =1 i
n
m
j
=1
p ( xi y j ) = p ( xi ) p ( y j ) = pi q j
可加性是熵函数的一个重要特性。 可加性是熵函数的一个重要特性。
证明: 证明:
H nm ( p1 q1 , p1 q 2 ,..., p1 q m , p 2 q1 ,..., p n q m )
q −1 i =1
= −∑ pi log pi =H q ( p1 , p2 ,⋅ ⋅ ⋅, pq )
i =1
ε →0 q
lim ε log ε = 0
ε →0
所以, 所以,上式成立
性质说明:信源的取值数增多时, 性质说明:信源的取值数增多时,若这些取值对应的概率 很小(接近于零 则信源的熵不变。 接近于零), 很小 接近于零 ,则信源的熵不变。

第二章-信息量和熵

第二章-信息量和熵

H XY EX ,Y I (xi , y j )
EY EX I (xi , y j )
2.平均自信息量--熵 联合熵H(XY)与熵H(X)及条件熵H
(X/Y)之间存在下列关系 :
H(XY)=H(X)+H(Y/X) H(XY)=H(Y)+H(X/Y)
三维联合符号集合XYZ上的共熵H(XYZ):
I(xi; yj ) [lbp(xi )][lbp(xi | yj )] I(xi ) I(xi | yj )
1.互信息量
即互信息量为后验概率与先验概率比值的对数 :
I ( xi; y j )
lb
p ( xi / y j ) p ( xi )
p(xi) ——先验概率:信源发xi的概率 p(xi/yj)——后验概率:信宿收到yj后,推测信源发xi的概率
2.平均自信息量--熵
熵的性质
(4).条件熵不大于信源熵(无条件熵)
H(X/Y) ≤ H(X) H(Y/X) ≤ H(Y)
当且仅当Y和X相互独立时,式取等
物理含义:从平均意义上讲,条件熵在一般情形下总是小于无条件熵。从直 观上说,由于事物总是联系的,因此对随机变量X的了解平均讲总能使Y 的不确定性减少。同样,对Y的了解也会减少X的不确定性。
(1) yj对xi的互信息 I(xi;yj)
I(xi;yj)= I(xi)- I(xi/yj) [含义] 互信息I(xi;yj) =自信息I(xi) - 条件自信息I(xi/yj)
*I(xi) -----信宿收到yj之前,对信源发xi的不确定度 * I(xi/yj) -----信宿收到yj之后,对信源发xi的不确定度 * I(xi;yj) -----收到yj而得到(关于xi )的互信息
相应地,在给定随机变量X的条件下,Y集合的条件

教育信息处理课后习题解答全

教育信息处理课后习题解答全

《教育信息处理》作业第二章 教育信息熵1.试结合某一实际的教学系统,说明该系统中信息熵的意义。

熵的大小可用于表示概率系统的不确定程度。

假设教师在安排座位时不了解学生的情况,那么每个同学被安排坐到第一组第一排的几率是相等的,对于这样的系统,我们很难预测那个同学会被安排坐到第一组第一排,这种系统的不确定性最大。

该系统的信息熵具有最大值。

但如果教师对这个班的学生非常了解,并且打算将较调皮捣蛋的学生安排一个坐到第一组第一排,那么该系统的不确定程度就会大大减少;而如果大家都知道会安排最调皮的那个学生坐在第一组第一排,那么这个系统就是一个确定系统,不确定度为0。

2.针对某一简单的教学系统,计算该系统的信息熵。

设某一系统具有四种状态A1、A2、A3、A4,其产生的概率分布为:p1=21、p2=41、p3=81、p4=81该系统中任一状态产生时所给予的平均信息量为: H=-∑=ni pi 1log 2pi =-21log 221 - 41log 241 - 81log 281 - 81log 281=1.75(bit) 3.试说明熵的性质。

信息熵具有一下的基本性质:(1)单峰性;(2)对称性;(3)渐化性;(4)展开性;(5)确定性。

6.通过实例,计算测试问题的信息熵和等价预选项数。

设某一多重选择题的应答分布实测值为(51,52,101,201,41),则该分布具有的熵为:H =-∑=ni pi 1log2pi =-51log 251 - 52log 252 - 101log 2101 - 201log 2201 - 41log 241= 0.46+0.53+0.33+0.22+0.5=2.04(bit)与之熵等价的预选项数为: K= 2H = 22.04 = 4.1125第三章 教材分析1.什么是教材分析?教材分析的目的是什么?应基于怎样的基本思想对教材进行分析。

对于设定的教学目标,学习要素的数量有一个最小的限度。

教育信息处理课后答案

教育信息处理课后答案

第一章教育信息概述1、试举例说明什么是信息,什么是数据和知识,彼此间有什么关系。

简单地讲,通过信息,可以告诉我们某件事情,可以使我们增加一定的知识。

信息被定义为熵的减少,即信息可以消除人们对事物认识的不确定性,并将消除不确定程度的多少作为信息量的量度。

比如我们在每天都会收看电视节目预报,在掌握了当天晚上的电视节目的信息后。

我们对于当晚要看什么电视,在哪个电台看等一些认识的不确定性就得以消除,而消除的程度就取决于我们对电视节目了解的多少即信息量的多少。

数据是信息的素材,是在各种现象和事件中收集的。

当我们根据一定的利用目的,采取相应的形式对数据进行处理后,就可得到新的信息(制作出新的信息)。

比如天气预报中的气温,天气情况多云、阴等。

知识是一种信息,是在对数据、信息理解的基础上,以某种可利用的形式,高度民主组织化后的可记忆的信息。

比如说,我们在看完书后,我们将书中的故事情节有机的组合,在加上自身对于故事的理解,将整个故事重新阐述,记忆在大脑中。

2、试从信息的特点说明信息产业与其他产业相比较,有什么特点由于信息不具大小,无论怎样小的空间,都可存放大量的信息,无论怎样狭窄的通道,都能高速地传递大量的信息。

信息产业是一种省空间、省能源的产业。

信息由于没有重量,在处理时,不需要能量。

信息产业是一种省能源产业。

信息一旦产生,很容易复制,它有利于大量生产。

3、说明教育信息数量化的特点和方法教育信息的数量化特点:不连续性和不可加性。

比如人的IQ4、从教育信息、教育信息所处理的对象和教育信息的结构化特点出发,说明用于教育信息处理的方法。

(1)加强与其他学科的交流。

教育信息处理是一种跨多门学科的综合性学科领域。

它涉及教育学、心理学、认知科学、信息科学等多门学科的研究。

教育信息处理应努力与这些学科进行交流,学习他们的思想、方法,学习它们的理论、技术,努力地完善自己,在实践的基础上,确立自己的理论和方法。

(2)从行为向认知变换。

4第二章3-熵的计算

4第二章3-熵的计算

q
q
(3)根据概率关系,可以得到联合熵与条件熵的关系: 根据概率关系,可以得到联合熵与条件熵的关系: 联合熵与条件熵的关系
H ( X1 X 2 ) = −∑∑ P(ai a j ) logP(ai a j )
i =1 j =1
q q
q
qபைடு நூலகம்
= −∑∑ P (ai a j ) log( P (ai )P (a j | ai ))
得:
H ( X ) = −∑ P(ai ) logP(ai ) = 1.542( Bit / Symbol)
i =1 3
H ( X 2 / X 1 ) = −∑∑ P(ai a j ) logP(a j / ai ) = 0.87(Bit / Symbol)
i =1 j =1 3
3
3
H ( X 1 X 2 ) = −∑∑ P(ai a j ) logP(ai a j ) = 2.41( Bit / Symbols)
0.71比特/符号

从另一角度(来研究信源X的信息熵的近似值) 从另一角度(来研究信源X的信息熵的近似值):
( 1 ) 由于信源 X 发出的符号序列中前后两个符号之间有依 由于信源X 赖性,可以先求出在已知前面一个符号X 已知前面一个符号 赖性, 可以先求出在已知前面一个符号Xl=ai时,信源输出 下一个符号的平均不确定性 的平均不确定性: 下一个符号的平均不确定性:
0.71比特/符号
二维平稳信源X:
条件熵H(X2|X1) 平均符号熵H2(X) 简单信源X符号熵H(X)
H(X2|X1) ≤H2(X) ≤H(X) H(X1X2)=H(X1)+H(X2|X1)=2H2(X)
有记忆平稳信源的联合熵、条件熵、 有记忆平稳信源的联合熵、条件熵、平均符号熵 与无记忆信源熵之间的定量关系。 与无记忆信源熵之间的定量关系。

第二章 信源和信息熵

第二章  信源和信息熵

第二章 信源和信息熵
2.1 信源的数学模型及分类
通信系统模型及信息传输模型:
第二章 信源和信息熵
一、离散无记忆信源
例:扔一颗质地均匀的正方体骰子,研究其下落后, 朝上一面的点数。每次试验结果必然是1点、2点、3点、 4点、5点、6点中的某一个面朝上。每次试验只随机出 现其中一种消息,不可能出现这个集合以外的消息, 考察此事件信源的数学模型。
• 平均符号熵就是信源符号序列中平均每个信 源符号所携带的信息量。
• 条件熵≤无条件熵;条件较多的熵≤条件较少 的熵,所以:
第二章 信源和信息熵
离 散 平 稳 信 源 性 质(H1(X)<∞时):
• 条件熵随N的增加是递减的; • 平均符号熵≥条件熵; • 平均符号熵HN(X)随N增加是递减的; • 极限熵
且:I(X1;X2)=I(X2;X1)
第二章 信源和信息熵
注意:任何无源处理总是丢失信息的,至多保持原来 的信息,这是信息不可增性的一种表现。
二、离散平稳信源的极限熵 设信源输出一系列符号序列X1,X2, ‥XN 概率分布: 联合熵:
定义序列的平均符号熵=总和/序列长度,即:
第二章 信源和信息熵
即:收信者所获得的信息量应等于信息传输前 后不确定性的减少的量。
例:设一条电线上串联8个灯泡,且损坏的可 能性为等概,若仅有一个坏灯泡,须获知多少 信息量才可确认?
第二章 信源和信息熵
例解:
测量前,P1(x)=1/8,存在不确定性: I(P1(x))=log8=3bit
第一次测量获得信息量: 第二次测量获得信息量: 第三次测量获得信息量: 每次测量获得1bit信息量,需三次测量可确定坏灯泡
例:运用熵函数的递增性,计算熵函数 H(1/3,1/3,1/6,1/6)的数值。

第二章教育信息熵

第二章教育信息熵
H=-6[(1/6)log(1/3)]=log3 于是条件熵H为log3 。
在不知道结局为单双数时,掷一次骰子的结局 的不确定性为log6 ,在仅告诉你结局是单数或 者双数时是没有全部解除你对结局的疑惑,但 是它确实给了一些信息,这个信息(以I表示) 就用无条件熵与条件熵的差来计量。于是有
I=log6-log3=log6/3=log2
这里的无条件熵就是log6 ,而已经知道结局 是单数或者双数的条件熵可以根据前面的条件 熵公式计算。
➢ 肯定是单点(双点)时它是各个点的概率 ( 条件概率)
123456 单数 1/3 0 1/3 0 1/3 0 双数 0 1/3 0 1/3 0 1/3
公式中的p(yj)有两种情况,一个指单数的出 现概率,一个是双数的出现概率。它们显然 都是1/2 ,因此
通过A、B系统信息熵的计算,有
H(Pa)=1(bit) H(Pb)=2(bit) 由此判定系统B的不确定程度是系统A的两倍。
四、信息熵的基本性质
1.单峰性 设某一系统包含两个事件A、B,其产生 的概率分别为P和1-P。该系统的熵为:
当p为0时,H=0 当p为1时,H=0 当p为1/2时,H有极大值 若系统中每一事件产生的概率相同,均为 1/n,这种系统的H为最大值。
我们称之为信息熵,简称为熵(entropy)。
设某一系统具有四种状态A1、A2、A3、A4,其率 分别为:
p1=1/2, p2=1/4, p3=1/8, p4=1/8 该系统的平均信息量为:
4
H pilo g2pi i1
1 2
lo g2
1 2
1 4
lo g2
1 4
1 8
l
o
g2
1 8

第二章教育信息熵

第二章教育信息熵

它满足的两个关系:
(1) 不确定性与概率的关系;
(2) 可加性的要求。
精选可编辑ppt
5
二 信息熵
1 平均信息量(信息熵)
一般情况下
状态空间: X: x1 , x2 …………… xn
概率分布:P(x):P(x1),P(x2) ……… P(xn) ,

n
P(xi ) 1
i 1
这里一 联合熵
1 信源
现有两个信源:X,Y
X:x1 , x2 … xn
Y: y1 , y2,…… ym
P(x):P(x1),P(x2)… P(xn) P(y):P(y1),P(y2)… P(ym)
精选可编辑ppt
27
联合空间: X.Y: x1y1, x1y2,………… x1ym
……………. xny1, xny2,………… xnym P(x.y):P(x1,y1),P(x1,y2)………P(x1,ym) …………. P(xn,y1),P(xn,y2)……… P(xn,ym)
精选可编辑ppt
28
其中P(xi,yj)为xi和yj的联合概率 且P(xi,yj)=P(xi)*P(yj/xi)=P(yj)*P(xi/yj) 当:xi和yj相互独立时
最大值,即
H≤ Hmax = log n 实例:
1)英语字母的使用并非是相互独立的,字母 间存在相关性;
2)英语字母并非等概率使用(表2.1:P33)
故:英语字母的熵通常远小于4.76(有人计
算≈1.4)
精选可编辑ppt
23
三 相对熵
我们定义:h= H / Hmax 为相对熵, 它便于比较两个不同事件数目的系统的 信息熵。
精选可编辑ppt
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 两种不同的单位
上面的定义式中,没有考虑对数的底a, 当它取不同的底时(常取2或e),信息 熵的单位为比特(bits)和奈特(nats)。
1比特=0.693奈特
1奈特=1.443比特
此外,还有一个哈特(以10为底),是 取人名哈特莱(Hartley),他提出了熵 定义式中的对数,且1哈特=3.32比特。
H = -Σ Pi logPi
讨 论 : 某 一 个 Pi=1, 其 它 选 项 无 人 选 , 此 时 : H=0,分散程度最小
每一个Pi=1/m,每个选项均匀分布,此 时:H=log m(最大)分散程度最大。
如图所示
图2-8 等价预选项目的数据
由于H是熵(平均信息量)
设H与回答均匀地分布于K个(不是m个,而 是小于或等于m个)选项时的信息量相等 (原来是m个答案非均匀的分布)
2)英语字母并非等概率使用(表2.1:P33)
故:英语字母的熵通常远小于4.76(有人计算 ≈1.4)。
三 相对熵
我们定义:h= H / Hmax 为相对熵, 它便于比较两个不同事件数目的系统的 信息熵 。
四 冗余度
定义:r=1-h=1-H/Hmax= (Hmax -H)/Hmax 冗余度的含义:在传递信息时,不必要的 冗长部分的比例,即为了表示某一定量的信 息量,我们需要用更多的事件数。
…………. P(xn,y1),P(xn,y2)……… P(xn,ym)
其中P(xi,yj)为xi和yj的联合概率 且P(xi,yj)=P(xi)*P(yj/xi)=P(yj)*P(xi/yj) 当:xi和yj相互独立时:
P(yj/ xi)= P(yj) P(xi/ yj)= P(xi)
2 二元联合信源的熵: H(X,Y)= -ΣΣP(xi,yj) log P(xi,yj) 当每个信源相互独立时:
n i1
P( Xi)
log(1/
P( Xi))
/
n i1
P( Xi)
n
[
P(
xi)
log(
P
1 (x
i)
)]
i 1
信息熵(平均信息量):
n
n
H (X )
P( xi)
log(
) 1
P( xi)
P(xi) log P(xi)
i 1
i 1
也可以简写为:
n
H Pi log Pi H ( p1, p2, , , pn) i 1
第二章 教育信息熵
• 熵的最早提出(1865年)与热力学 • 熵在信息论中的地位
第一节 熵的概述
一 信息量的表示 1 信息的多少与信源的不确定性有关 实例:5个学生比赛选拔出1人为冠军
2 信息量的度量与信源的不确定性
实例1:5个学生水平相差不多(接近等概率); 实例2:5个学生水平相差大(不等概率),
4 互信息 定义 I(X,Y)=H(X)+ H(Y)- H(X,Y)
为信源X和信源Y的互信息。
通过变换,可得: I(X,Y)=H(X,Y)- H(X|Y)- H(Y|X)
5 关于几个熵的关系: H(X) H(Y) H(X,Y) H(Y/X) H(X/Y) I(X;Y)
三 Kullback信息量(略)
(2)如果X和Y独立,则 H(Y/X)=H(Y) 这时H(X,Y)=H(X)+H(Y)
(3)反之,若Y完全由X决定,因而已知X 即可确定Y,不再有任何不确定性, 则 H(Y/X)=0 这时H(X,Y)=H(X)
(4)一般情况下 0<= H(Y/X)<= H(Y) 即条件熵永远小于或等于无条件熵
(5) 由于X与Y之间存在的 对称性 ,可得 H(X,Y)=H(Y)+H(X/Y)
一般系统介于上述两种极端情况之间。
四 信息熵的基本性质 1 单峰性(极值性)
任何一个随机系统,其信息熵都有一个极大值(单 峰),即各状态出现为等概率时,熵为最大:
H(p1,p2,,,pn)≤H(1/n,1/n,,,1/n) = log n
实例:一个二事件系统,概率分别为p和1-p 该系统的熵为:H=-[plogp+(1-p) log(1-p)] 其H—P图具有单峰性(图2.1)
通过信息熵的计算,我们能够得到这些测试问题的难 易程度和学生的学习能力倾向,可以作为测试问题的 评价及其指标。
二 等价预选项数
题目分析:难度,区分度
这里主要讨论选择题:除了难度与区分度, 还有一个问题:就是对题目各备选项的 有效性作出评价。
1 等价预选项数 令 i=1,2,3………m 为 选 择 题 的 一 个 选 项 , Pi 为考生选择第i项的概率,则该选择题的熵:
图2-1 两个事件H-P图
2 对称性
H(p1 , p2 , p3) = H(p1 , p3 , p2) = H(p3,p2,p1)
1)这是由于加法满足交换率; 2)这也说明熵反映了该系统的整体特性。
3 渐化性(递增性) 设某系统共有n个事件,现在第n个事件分裂
成两个事件,概率分别为q、r 即 pn = q+r 该系统的熵变为:
= 2.157
显然 H(X,Y)<= H(X)+H(Y)
2.157
2.522
二 条件熵 1 概率关系 把联合概率P(xi,yj)=P(xi)*P(yj/xi)代入 H(X,Y)= -ΣΣ P(xi,yj)log[P(xi)*P(yj/xi)]
= -ΣΣ P(xi,yj)logP(xi) -ΣΣ P(xi,yj)logP(yj/xi)
(比特/事件)
(3) H(X,Y)= -[P(x1,y1)logP(x1,y1) + P(x1,y2)logP(x1,y2) +P(x1,y3)logP(x1,y3) +P(x2,y1)logP(x2,y1) +P(x2,y2)logP(x2,y2) +P(x2,y3)logP(x2,y3)]
= -[(1/20)log(1/20)+(7/20)log(7/20) +(1/10)log(1/10)+(7/20)log(7/20) +(1/20)log(1/20)+(1/10)log(1/10)]
三 熵的意义
1 熵的大小表示某概率系统的不确定程度 实例1:某一概率系统的概率分布如下: (1,0,0,,,0) 这是一个确定性系统,计算其信息熵H=0,
即该系统不确定性为0。
实例2:某一概率系统的概率分布为等概率: (1/n,1/n,,,1/n),设该系统共有n个
状态(事件); 这是一个最不确定系统,计算其信息熵H为
2/5
2/5
1/5
(1) 先求出 Px(x1)=1/2 Px(x2)=1/2 Py(y1)=2/5 Py(y2)=2/5 Py(y3)=1/5 (2) 求出 H(X)= -[(1/2)log(1/2)+
(1/2)log(1/2)] = 1 同理 H(Y)=1.522 而 H(X)+H(Y)=2.522
证明(利用熵函数的表达式):作为习题
4 展开性(扩展性)
H(p1,p2,,,pn) = H(p1,p2,,,pn,0) = H (p1,p2,,,pn,0,,,0)
说明:某系统的事件数增加了,但这些事 件的出现概率为0时,该系统的熵不变。
5 确定性 H(1,0) = H(0,1)=H(1,0,,,0) = H(0,0,,,0,1)=0
= -Σ P(xi)logP(xi) -ΣΣ P(xi,yj)logP(yj/xi)
= H(X)+H(Y/X)
2 条件熵 上式中的 H(Y/X)=-ΣΣ P(xi,yj)logP(yj/xi)
叫做给定X时关于Y的条件熵 它表示:已知X时关于Y还保留的平均不确定性
3 讨论:
(1)联合熵表示将XY作为一个整体看待时, 总的平均不确定性H(X,Y)等于X的不确 定性与已知X后关于Y的不确定性H(Y/X) 的和。
其中A的水平高超;
哪一组比赛悬念更大(获得的信息量多)?
3 小结:信源输出的消息可以看作是随机事件 事件出现的概率大,出现机会多,不确定程度小 事件出现的概率小,出现机会少,不确定程度大
即 Pi大, f(Pi)小 Pi小, f(Pi)大
即 f(Pi)应是Pi的单调减函数 f(pi)=∽(1/pi)
6 非负性
H(p1,p2,…,pn) ≥0 (只针对离散信源)
小结:熵是一种描述系统总体特性的统计量
第二节 相对熵与冗余度
一 最大熵 任何一个随机系统(共有n个状态),各状 态出现为等概率时,且各个状态无相关性, 其信息熵都有一个最大值: Hmax = log n
实例:英语用来传输信息,使用26个字母,加 上一个空格,共27个符号。
二 信息熵
1 平均信息量(信息熵)
一般情况下
状态空间: X: x1 , x2 …………… xn
概 率 分 布 : P(x):P(x1),P(x2) ……… P(xn),

n
P(xi) 1
i 1
这里假定各状态是相互独立的.
出现Xi的不确定性: log(1/P(xi)) 该信源每个状态的平均(加权平均)不确定性:
实例:(英语字母),为了表示某一内容 的文章,我们需要用更多的字母。
五 关于冗余度的讨论 1 冗余度使得信息传递的效率降低
实例:英语字母使用中的冗余度达到70%-80%, 所以英语是一种传递效率不高的语言。
2 冗余度可以提高信息传递中的抗干扰能力 实例:传输“中华人民共和国”与传输“中国”,效
果是一样的,因此有一定的冗余度。 但前者在传输时,抗干扰能力更高。 中文(汉字)的冗余度
第四节 熵模型 (略)
第五节 测试问题信息量
一 测试问题信息熵的计(1,0,0,0,0),
相关文档
最新文档