贝叶斯分类器-学习课件
合集下载
机器学习及应用 第6章 贝叶斯分类器

P X x | Y=ck P X 1 x , X 2 x ,
1 2
, X n x | Y=ck
n
P X j x | Y=ck
j j 1
n
6.2 朴素贝叶斯分类
根据贝叶斯定理,计算后验概率:
P Y=ck | X x P X x | Y ck P Y ck
的概率P(Yes|Spam),那么当出现“中奖”关键词时,该邮件是垃圾邮
件的概率P(Spam|Yes)为
P Spam | Yes
附: Email
P Yes | Spam P Spam 0.75 0.4 0.75 P Yes 0.4
Spam 3/4 P(Yes|Spam) 1/4 P(No|Spam) 0.4 P(Spam) 概率 0.4 P(Yes) 0.6 P(No)
特征属性、特征属性划分及训练样本质量决定。
分类器训练阶段:其输入是特征属性和训练样本,输出是分类器。这 一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。
应用阶段:其输入是分类器和待分类项,输出是待分类项与类别的映
射关系。这一阶段也是机械性阶段,由程序完成。
6.2 朴素贝叶斯分类
, K ,上式的分母都相同,因此可简Fra bibliotek为:n
y f x argmaxP Y ck P X j x | Y=ck
j ck j 1
6.2 朴素贝叶斯分类
6.2.2 朴素贝叶斯分类算法
朴素贝叶斯分类算法大致可分为三个阶段:
准备工作阶段:这一阶段的输入是所有待分类数据,输出是特征属性 和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的 阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由
贝叶斯分类器ppt课件

对不相关属性的鲁棒性
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网络( Bayesian Belief Networks,BBN)
贝叶斯误差率
13
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
设C=0表示真实账号,C=1表示不真实账号。
15
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
16
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网络( Bayesian Belief Networks,BBN)
贝叶斯误差率
13
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
设C=0表示真实账号,C=1表示不真实账号。
15
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
16
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
贝叶斯分类器讲义 PPT

特征选择
特征选择可以看作是一个(从最差的开始)不断删去无 用特征并组合有关联特征的过程,直至特征的数目减少至易 于驾驭的程度,同时分类器的性能仍然满足要求为止。例如, 从一个具有M个特征的特征集中挑选出较少的N个特征时, 要使采用这N个特征的分类器的性能最好。
特征方差 类间距离 降维
二、概率论基本知识
样本空间的划分 定义 设 为试验E的样本空间, B1, B2 ,L , Bn 为 E 的一组事件,若
1 0 Bi Bj , i, j 1, 2,L , n;
20 B1 U B2 UL U Bn , 则称 B1, B2 ,L , Bn 为样本空间 的一个划分.
全概率公式
定义 设为试验E的样本空间, A为E的事件, B1, B2 ,L , Bn为的一个划分,且P(Bi ) 0 (i 1, 2,L , n),则
基本方法:用一组已知的对象来训练分类器 目的的区分:1. 分类错误的总量最少
2. 对不同的错误分类采用适当的加权 使分类器的整个“风险”达到最低 偏差:分类错误
分类器的性能测试
已知类别的测试集;已知对象特征PDF的测试集 PDF的获取:画出参数的直方图,并计算均值和方差,
再规划到算法面积,需要的话再做一次平滑,就可将 这个直方图作为相应的PDF设计 独立每一类的测试集 使用循环的方法
概率论基本知识
确定事件:概念是确定的,发生也是确定的; 随机事件:概念是确定的,发生是不确定的; 模糊事件:概念本身就不确定。
联合概率和条件概率
联合概率:设A,B是两个随机事件,A和B同时发生 的概率称为联合概率,记为:P(AB);
条件概率:在B事件发生的条件下,A事件发生的概率 称为条件概率,记为:P(A|B), P(A|B) = P(AB) / P(B) ;
西瓜书PPT 07贝叶斯分类器

半朴素贝叶斯分类器
为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用
的属性条件独立性假设;对属性条件独立假设记性一定程度的放松, 由此产生了一类称为“半朴素贝叶斯分类器” (semi-naïve Bayes classifiers)
半朴素贝叶斯分类器
为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用
对离散属性而言,令
表示 中在第 个属性上取值为 的样
本组成的集合,则条件概率
可估计为
对连续属性而言可考虑概率密度函数,假定
,其
中 和 分别是第 类样本在第 个属性上取值的均值和方差,
则有
朴素贝叶斯分类器
例子:用西瓜数据集3.0训练一个朴素贝叶斯分类器,对测试例
“测1”进行分类 (p151, 西瓜数据集 p84 表4.3)
贝叶斯网
贝叶斯网 (Bayesian network)亦称“信念网”(brief network),
它借助有向无环图 (Directed Acyclic Graph, DAG)来刻画属性 间的依赖关系,并使用条件概率表 (Conditional Probability Table, CPT)来表述属性的联合概率分布。
此时条件风险
于是,最小化分类错误率的贝叶斯最有分类器为
即对每个样本 ,选择能使后验概率
最大的类别标记。
贝叶斯决策论
不难看出,使用贝叶斯判定准则来最小化决策风险,首先要获得后验
概率
。
然而,在现实中通常难以直接获得。机器学习所要实现的是基于有限
的训练样本尽可能准确地估计出后验概率
。
主要有两种策略:
计算任意两个属性之间的条件互信息 (conditional mutual information)
贝叶斯分类ppt课件

Q1 什么是分类
超市中的物品分类
生活中的垃圾分类
Q1 什么是分类
由此可见,分类是跟 我们的生活息息相关 的东西,分类让生活 更加有条理,更加精 彩.
生活信息的分类
Q1 什么是分类
分类就是把一些新的数据项映射到给定类别的中的某 一个类别,比如说当我们发表一篇文章的时候,就可以自 动的把这篇文章划分到某一个文章类别。
下面给出划分:a1:{a<=0.05, 0.05<a<0.2, a>=0.2} a2:{a<=0.1, 0.1<a<0.8, a>=0.8} a3:{a=0(不是),a=1(是)}
2、获取训练样本 这里使用运维人员曾经人工检测过的1万个账号作为训练样本。
3、计算训练样本中每个类别的频率 用训练样本中真实账号和不真实账号数量分别除以一万,得到:
对于X (去年退税 否, 婚姻状况=婚姻中, 可征税收入 120K)
Q2 分类的流程
动物种 类 狗 猪 牛 麻雀 天鹅 大雁
动物A 动物B
体型
中 大 大 小 中 中 大 中
翅膀数 量 0 0 0 2 2 2 0 2
脚的只数
4 4 4 2 2 2 2 2
是否产 蛋 否 否 否 是 是 是 是 否
朴素贝叶斯分类实例 检测SNS社区中不真实账号
下面讨论一个使用朴素贝叶斯分类解决实际问 题的例子。
这个问题是这样的,对于SNS社区来说,不真 实账号(使用虚假身份或用户的小号)是一个普遍 存在的问题,作为SNS社区的运营商,希望可以 检测出这些不真实账号,从而在一些运营分析报告 中避免这些账号的干扰,亦可以加强对SNS社区 的了解与监管。
• 由于P(X)对于所有类为常数,只需要P(X|H)*P(H) 最大即可。
朴素贝叶斯分类ppt课件

件是次品的概率是多少
解 设事件 A 为“任取一件为次品”,
事件 Bi 为" 任取一件为 i 厂的产品" ,i 1,2,3.
B1 B2 B3 , Bi Bj , i, j 1,2,3.
2021精选ppt
9
由全概率公式得
30% 2% A 1% 1%
B1
20% B3
50%
B2
P( A) P(B1)P( A B1) P(B2 )P( A B2 ) P(B3 )P( A B3 ). P(B1) 0.3, P(B2 ) 0.5, P(B3 ) 0.2, P( A B1) 0.02, P( A B2 ) 0.01, P( A B3 ) 0.01,
2021精选ppt
28
统计结果
天气 E1
温度 E2
湿度 E3
有风 E4
打网球
PN
PN
PN
P NP
N
晴 2/9 3/5 热 2/9 2/5 高 3/9 4/5 否 6/9 2/5 9/14 5/14
云 4/9 0/5 暖 4/9 2/5 正常 6/9 1/5 是 3/9 3/5
雨 3/9 2/5 凉 3/9 1/5
• P(x2|y):表示y的细胞异常的概率是0.18(后验概率)
2021精选ppt
22
22
朴素贝叶斯分类
• 朴素贝叶斯分类的工作过程如下:
• (1) 每个数据样本用一个n维特征向量X= {x1,x2,……, xn}表示,分别描述对n个属性A1,A2,……,An样本的n个
度量。
• (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样 本X(即没有类标号),分类器将预测X属于具有最高后验
解 设事件 A 为“任取一件为次品”,
事件 Bi 为" 任取一件为 i 厂的产品" ,i 1,2,3.
B1 B2 B3 , Bi Bj , i, j 1,2,3.
2021精选ppt
9
由全概率公式得
30% 2% A 1% 1%
B1
20% B3
50%
B2
P( A) P(B1)P( A B1) P(B2 )P( A B2 ) P(B3 )P( A B3 ). P(B1) 0.3, P(B2 ) 0.5, P(B3 ) 0.2, P( A B1) 0.02, P( A B2 ) 0.01, P( A B3 ) 0.01,
2021精选ppt
28
统计结果
天气 E1
温度 E2
湿度 E3
有风 E4
打网球
PN
PN
PN
P NP
N
晴 2/9 3/5 热 2/9 2/5 高 3/9 4/5 否 6/9 2/5 9/14 5/14
云 4/9 0/5 暖 4/9 2/5 正常 6/9 1/5 是 3/9 3/5
雨 3/9 2/5 凉 3/9 1/5
• P(x2|y):表示y的细胞异常的概率是0.18(后验概率)
2021精选ppt
22
22
朴素贝叶斯分类
• 朴素贝叶斯分类的工作过程如下:
• (1) 每个数据样本用一个n维特征向量X= {x1,x2,……, xn}表示,分别描述对n个属性A1,A2,……,An样本的n个
度量。
• (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样 本X(即没有类标号),分类器将预测X属于具有最高后验
贝叶斯网贝叶斯分类器

网
4
5
2
Chapter 7
6
1
*
图表设计
典型案例
EM算
法
*
7.5 贝叶斯网
贝叶斯网
结构
学习
推断
贝叶斯网(Bayesian network)
➢ 亦称“信念网”(belief network)
➢ 有向无环图(Directed Acyclic Graph) &条件概率表(CPT, Conditional Probability Table)
学习
结构
贝叶斯网联合概率分布定义:
给定父结点集 ,贝叶斯网假设每个属性与其非后裔属性独立:
1 , 2 , … , = ෑ ( | ) = ෑ |
分别计算 , 2
拉普拉斯修正
分类器使用
*
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器
朴素贝叶斯分类器(naïve Bayes classifiers)
例如:
分别计算 , 2
拉普拉斯修正
分类器使用
*
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器
拉普拉斯修正
拉普拉斯修正(Laplacian correction)
➢ 给定N 个类别标记 = {1 , 2 , … , },令 λij 代表将第 j 类样本误分类为第 i 类所产生的
损失,则基于后验概率,可知,将样本 x 分到第i 类的条件风险(risk)为:
= ( |)
=1
➢ 寻找一个判定准则 h 以最小化总体风险:
Geoff Webb
澳大利亚
Monash大学
(, ) ෑ ( |, )
4
5
2
Chapter 7
6
1
*
图表设计
典型案例
EM算
法
*
7.5 贝叶斯网
贝叶斯网
结构
学习
推断
贝叶斯网(Bayesian network)
➢ 亦称“信念网”(belief network)
➢ 有向无环图(Directed Acyclic Graph) &条件概率表(CPT, Conditional Probability Table)
学习
结构
贝叶斯网联合概率分布定义:
给定父结点集 ,贝叶斯网假设每个属性与其非后裔属性独立:
1 , 2 , … , = ෑ ( | ) = ෑ |
分别计算 , 2
拉普拉斯修正
分类器使用
*
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器
朴素贝叶斯分类器(naïve Bayes classifiers)
例如:
分别计算 , 2
拉普拉斯修正
分类器使用
*
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器
拉普拉斯修正
拉普拉斯修正(Laplacian correction)
➢ 给定N 个类别标记 = {1 , 2 , … , },令 λij 代表将第 j 类样本误分类为第 i 类所产生的
损失,则基于后验概率,可知,将样本 x 分到第i 类的条件风险(risk)为:
= ( |)
=1
➢ 寻找一个判定准则 h 以最小化总体风险:
Geoff Webb
澳大利亚
Monash大学
(, ) ෑ ( |, )
7.贝叶斯分类器的学习

例如:T=5时,可能的观察序列V5=v3v2v3v4v1
HMM的参数表示
θπ,A,B
状态转移矩阵:A,M*M的方阵; 状态输出概率:B,M*K的矩阵; 初始概率:π,包括M个元素。
M个状态,K个可能的输出值。
HMM的三个核心问题
估值问题:已有一个HMM模型,其参数已知, 计算这个模型输出特定的观察序列VT的概率 – 前 向算法,后向算法;
pnx1nin1V1nxh-nxi
窗函数的形式
窗函数的宽度对估计的影响
识别方法
1. 保存每个类别所有的训练样本;
2. 选择窗函数的形式,根据训练样本数n选择 窗函数的h宽度;
3. 识别时,利用每个类别的训练样本计算待识 别样本x的类条件概率密度:
pn
xi
n1i jni1V1nx-hxij
it1arg1 m ja M x jtaji
P *VTθ1 m ja M x jT , w*Targ1 m ja M xjT
5. 路径回朔:
w*tw*t1t1
Viterbi算法图示
1 2
1 3
w1
w1
w1
...
2 2
2 3
w2
w2
w2
...
3 2
3 3
w3
w3
w3
...
.
.
.
.
.
.
.
.
.
M 2
隐状态输出的观察值可以是离散值, 连续值,也可以是一个矢量。
HMM的工作过程
HMM的工作原理
HMM的内部状态转移过程同Markov模型相同, 在每次状态转移之后,由该状态输出一个观察 值,只是状态转移过程无法观察到,只能观察 到输出的观察值序列。
HMM的参数表示
θπ,A,B
状态转移矩阵:A,M*M的方阵; 状态输出概率:B,M*K的矩阵; 初始概率:π,包括M个元素。
M个状态,K个可能的输出值。
HMM的三个核心问题
估值问题:已有一个HMM模型,其参数已知, 计算这个模型输出特定的观察序列VT的概率 – 前 向算法,后向算法;
pnx1nin1V1nxh-nxi
窗函数的形式
窗函数的宽度对估计的影响
识别方法
1. 保存每个类别所有的训练样本;
2. 选择窗函数的形式,根据训练样本数n选择 窗函数的h宽度;
3. 识别时,利用每个类别的训练样本计算待识 别样本x的类条件概率密度:
pn
xi
n1i jni1V1nx-hxij
it1arg1 m ja M x jtaji
P *VTθ1 m ja M x jT , w*Targ1 m ja M xjT
5. 路径回朔:
w*tw*t1t1
Viterbi算法图示
1 2
1 3
w1
w1
w1
...
2 2
2 3
w2
w2
w2
...
3 2
3 3
w3
w3
w3
...
.
.
.
.
.
.
.
.
.
M 2
隐状态输出的观察值可以是离散值, 连续值,也可以是一个矢量。
HMM的工作过程
HMM的工作原理
HMM的内部状态转移过程同Markov模型相同, 在每次状态转移之后,由该状态输出一个观察 值,只是状态转移过程无法观察到,只能观察 到输出的观察值序列。