汇总贝叶斯分类器.ppt
合集下载
贝叶斯分类 ppt课件

P(w)的计算:
因为利用贝叶斯进行分类时,我们只要比较概率的大小即可, 而P(w)对于所有的类别都是一样的,因此无须计算
= 0.0298 P(阳性)= P(cancer 阳性) + P(无cancer阳性) = 0.0078 + 0.0298
P(cancer| 阳 性 )= P(cancer 阳 性 ) / P( 阳 性 )= 0.0078/(0.0078 + 0.0298 )=0.207
P(无cancer |阳性)=1-P(癌症|阳性)= 1- 0.207 = 0.793
贝叶斯所采用的许多术语被沿用至今。贝叶斯思想 和方法对概率统计的发展产生了深远的影响。今天, 贝叶斯思想和方法在许多领域都获得了广泛的应用。
条件概率
在实际问题中,往往会遇到求在事件B已经发生的条件下, 事件A的概率
这时由于附加了条件,它与事件A的概率P(A)的意义是不 同的
我们把这种概率记为P(A|B)
如何计算P(Ci|X)?
贝叶斯分类基Βιβλιοθήκη 思路:假设有两种类别C1和C2,给定实例X,要求得到X所属的类别是C1还是C2。 计算 P(C1|X) 和 P(C2|X),如果 P(C1|X) > P(C2|X),则实例X属于C1,否 则属于C2。 简单的说,就是去计算在X出现的情况下,X属于哪种类别的概率更高。
朴素贝叶斯分类(Naive Bayes)
假设有n个类别C1,,给定一个实例的特征向量w, 则此实例属于类Ci的概率为
P(Ci |w)P(w|P C (iw )P )(Ci)
P(Ci)的计算:
将训练样本中属于类Ci的实例数量除以训练样本数量即P(Ci), 例如动物图片识别中,假设有100个训练实例,其中有15张为猫,则 P(猫) = 15 / 100 = 0.15
因为利用贝叶斯进行分类时,我们只要比较概率的大小即可, 而P(w)对于所有的类别都是一样的,因此无须计算
= 0.0298 P(阳性)= P(cancer 阳性) + P(无cancer阳性) = 0.0078 + 0.0298
P(cancer| 阳 性 )= P(cancer 阳 性 ) / P( 阳 性 )= 0.0078/(0.0078 + 0.0298 )=0.207
P(无cancer |阳性)=1-P(癌症|阳性)= 1- 0.207 = 0.793
贝叶斯所采用的许多术语被沿用至今。贝叶斯思想 和方法对概率统计的发展产生了深远的影响。今天, 贝叶斯思想和方法在许多领域都获得了广泛的应用。
条件概率
在实际问题中,往往会遇到求在事件B已经发生的条件下, 事件A的概率
这时由于附加了条件,它与事件A的概率P(A)的意义是不 同的
我们把这种概率记为P(A|B)
如何计算P(Ci|X)?
贝叶斯分类基Βιβλιοθήκη 思路:假设有两种类别C1和C2,给定实例X,要求得到X所属的类别是C1还是C2。 计算 P(C1|X) 和 P(C2|X),如果 P(C1|X) > P(C2|X),则实例X属于C1,否 则属于C2。 简单的说,就是去计算在X出现的情况下,X属于哪种类别的概率更高。
朴素贝叶斯分类(Naive Bayes)
假设有n个类别C1,,给定一个实例的特征向量w, 则此实例属于类Ci的概率为
P(Ci |w)P(w|P C (iw )P )(Ci)
P(Ci)的计算:
将训练样本中属于类Ci的实例数量除以训练样本数量即P(Ci), 例如动物图片识别中,假设有100个训练实例,其中有15张为猫,则 P(猫) = 15 / 100 = 0.15
模式识别--第三讲 贝叶斯分类器

二、 各种贝叶斯分类器
根据分类决策规则的不同,贝叶斯分类有多种形式,下面介绍比较常见的几 种贝叶斯分类器。
1、 最小错误率贝叶斯分类器
当已知类别出现的先验概率 P (i ) 和每个类中的样本分布的类条件概率 密度 P ( x | i ) 时 ,可以求得一个待分类样本属于每类的后验概率 P( i | x) , 将其划归到后验概率最大的那一类中, 这种分类器称为最小错误率贝叶斯分 类器(Minimum Error Rate Bayes’ Classifier) ,其分类决策规则可表示为:
对于随机性分类决策, 可以利用贝叶斯公式来计算样本属于各类的后 验概率:
第 3 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@
《模式识别》讲义 2013 版:第三讲 贝叶斯分类器
设 i , i 1, 2, c 是特征空间 中不同 的 类 , 每类都 有其出 现的先验 概率
第三讲贝叶斯分类器自动化学院模式识别与智能系统研究所贝叶斯估计最大似然估计是把待估的参数看作确定性的未知量而贝叶斯估计则是把待估的参数作为具有某种分布形式的随机变量通过对第i类学习样本x的观察使概率密度分布px获得参数分布的概率密度函数再通过求取其数学期望获得参数估计值
《模式识别》讲义 2013 版:第三讲 贝叶斯分类器
图 1 确定性分类决策
随机性分类决策 Stochastic Classifying 特征空间中有多个类, 当样本属于某类时,其特征向量会以一定的概 率取得不同的值;现有待识别的样本特征向量取了某 值,则它按不同概率 有可能属于不同的类,分类决策将它按概率的大小划归到某一类别中。
图 2 随机性分类决策
第 2 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@
贝叶斯分类器讲义

贝叶斯分类原理: 根据已知各类别在整个样本空间中的出现的先验概率, 以及某个类别空间中特征向量X出现的类条件概率密度, 计算在特征向量X出现的条件下,样本属于各类的概率, 把样本分类到概率大的一类中。
利用贝叶斯方法分类的条件: 各类别总体的概率分布是已知的; 要分类的类别数是一定的;
癌细胞识别,两类别问题——细胞正常与异常
若仅利用先验概率进行分类 统计的角度得出的两类细胞的出现概率 无法实现正常与异常细胞的分类目的 先验概率提供的信息太少,要结合样本观测信息,为 此需要利用类条件概率
例:细胞识别问题 ω1正常细胞,ω2癌细胞 经大量统计获先验概率P(ω1),P(ω2)。 对任一细胞样本x观察:有细胞光密度特征 , 有类条件概率密度: P(x/ ω ί) ί=1,2,…。 可以把先验概率转化为后验概率, 利用后验概率可对未知细胞x进行识别 。
先验概率、后验概率和类(条件)概率密度:
先验概率:
根据大量样本情况的统计,在整个特征空间中,任 取一个特征向量x,它属于类ωj的概率为P(ωj),也就是说 ,在样本集中,属于类ωj的样本数量于总样本数量的 比值为P(ωj)。我们称P(ωj)为先验概率。 显然,有: P(ω1)+ P(ω2)+…… +P(ωc)=1 如果没有这一先验知识,那么可以简单地将每一 候选类别赋予相同的先验概率。不过通常我们可以用 样例中属于类ωj的样例数|ωj|比上总样例数|D|来近似, 即 P( )= | j |
11xr???12111??????xxr则?????????221111211xpxpxpjjj????????2?j???????????22211211222xpxpxpxrjjj????????若有1?x?????????????????????p1112222121222211112????????????xpxpxp1??x由贝叶斯公式可得
贝叶斯分类器ppt课件

对不相关属性的鲁棒性
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网络( Bayesian Belief Networks,BBN)
贝叶斯误差率
13
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
设C=0表示真实账号,C=1表示不真实账号。
15
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
16
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网络( Bayesian Belief Networks,BBN)
贝叶斯误差率
13
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
设C=0表示真实账号,C=1表示不真实账号。
15
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
16
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
贝叶斯分类器讲义 PPT

特征选择
特征选择可以看作是一个(从最差的开始)不断删去无 用特征并组合有关联特征的过程,直至特征的数目减少至易 于驾驭的程度,同时分类器的性能仍然满足要求为止。例如, 从一个具有M个特征的特征集中挑选出较少的N个特征时, 要使采用这N个特征的分类器的性能最好。
特征方差 类间距离 降维
二、概率论基本知识
样本空间的划分 定义 设 为试验E的样本空间, B1, B2 ,L , Bn 为 E 的一组事件,若
1 0 Bi Bj , i, j 1, 2,L , n;
20 B1 U B2 UL U Bn , 则称 B1, B2 ,L , Bn 为样本空间 的一个划分.
全概率公式
定义 设为试验E的样本空间, A为E的事件, B1, B2 ,L , Bn为的一个划分,且P(Bi ) 0 (i 1, 2,L , n),则
基本方法:用一组已知的对象来训练分类器 目的的区分:1. 分类错误的总量最少
2. 对不同的错误分类采用适当的加权 使分类器的整个“风险”达到最低 偏差:分类错误
分类器的性能测试
已知类别的测试集;已知对象特征PDF的测试集 PDF的获取:画出参数的直方图,并计算均值和方差,
再规划到算法面积,需要的话再做一次平滑,就可将 这个直方图作为相应的PDF设计 独立每一类的测试集 使用循环的方法
概率论基本知识
确定事件:概念是确定的,发生也是确定的; 随机事件:概念是确定的,发生是不确定的; 模糊事件:概念本身就不确定。
联合概率和条件概率
联合概率:设A,B是两个随机事件,A和B同时发生 的概率称为联合概率,记为:P(AB);
条件概率:在B事件发生的条件下,A事件发生的概率 称为条件概率,记为:P(A|B), P(A|B) = P(AB) / P(B) ;
贝叶斯算法ppt课件

f ( x i 1 , x i 2 , x i 3 ,......, x in ) y i
Q3 分类的方法
对数据挖掘中心的可信技术分类算法的内 容及其研究现状进行综述。认为分类算法大体 可以分为传统分类算法和基于软件计算的分类 法两类,主要包括相似函数,关联规则分类算 法,K近邻分类算法,决策树分类算法,贝叶斯 分类算法和基于模糊逻辑,遗传算法,粗糙集 和神经网络的分类算法。 分类的算法有很多种,他们都有各自的优缺 点和应用范围,本次我就贝叶斯分类算法展开 我的演讲。
有腿
否
类别 哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 哺乳动物 非哺乳动物
类别
?
Q2 分类问题
税号 1 2 3 4 5 6 7 8 9 10 去年退税 是 否 否 是 否 否 是 否 否 否 婚姻状况 单身 婚姻中 单身 婚姻中 离婚 婚姻中 离婚 单身 婚姻中 单身 可征税收入 125k 100k 70k 120k 95k 60k 220k 85k 75k 90k 逃税 否 否 否 否 是 否 否 是 否 是
动物A
动物B
大
中
0
2
2
2
是
否
无
是
?
?
• 根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息, 我们能否对新发现的物种,比如动物A,动物B进行分类?
Q2 分类的流程
• 步骤一:将样本转化为等维的数据特征(特征提取)。
– 所有样本必须具有相同数量的特征 – 兼顾特征的全面性和独立性
动物种类 体型 翅膀数量 脚的只数 是否产蛋 是否有毛 类别
西瓜书PPT 07贝叶斯分类器

半朴素贝叶斯分类器
为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用
的属性条件独立性假设;对属性条件独立假设记性一定程度的放松, 由此产生了一类称为“半朴素贝叶斯分类器” (semi-naïve Bayes classifiers)
半朴素贝叶斯分类器
为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用
对离散属性而言,令
表示 中在第 个属性上取值为 的样
本组成的集合,则条件概率
可估计为
对连续属性而言可考虑概率密度函数,假定
,其
中 和 分别是第 类样本在第 个属性上取值的均值和方差,
则有
朴素贝叶斯分类器
例子:用西瓜数据集3.0训练一个朴素贝叶斯分类器,对测试例
“测1”进行分类 (p151, 西瓜数据集 p84 表4.3)
贝叶斯网
贝叶斯网 (Bayesian network)亦称“信念网”(brief network),
它借助有向无环图 (Directed Acyclic Graph, DAG)来刻画属性 间的依赖关系,并使用条件概率表 (Conditional Probability Table, CPT)来表述属性的联合概率分布。
此时条件风险
于是,最小化分类错误率的贝叶斯最有分类器为
即对每个样本 ,选择能使后验概率
最大的类别标记。
贝叶斯决策论
不难看出,使用贝叶斯判定准则来最小化决策风险,首先要获得后验
概率
。
然而,在现实中通常难以直接获得。机器学习所要实现的是基于有限
的训练样本尽可能准确地估计出后验概率
。
主要有两种策略:
计算任意两个属性之间的条件互信息 (conditional mutual information)
模式识别贝叶斯分类器多功能应用领域演示报告PPT

对于上面的两个概率,我们通过肉眼也基本可以判定,P(垃圾|邮件内容) > P(正常|邮件内容) ,所以可以判 定邮件 Q 是垃圾邮件。
第8页
什么是先验概率?什么是后验概率?
先验概率:基于已有知识对随机事件进行概率预估,但不考虑任何相关因素(P(c))。 后验概率:基于已有知识对随机事件进行概率预估,并考虑相关因素(P(c|x))。
被胖揍一顿:70% 被简单地数落一下:20% 被温情的鼓励:10%
被胖揍一顿:0% 被简单地数落一下:0% 被温情的鼓励:100%
第2页
简介 医疗中应用 AI中应用 科学研究中应用 自然语言处理
应用于:肝脏疾病的诊断,还被应用到包含癌症等疾病诊断中。
贝叶斯能起到帮助医生诊断的作用。医生会把患者的病历、饮酒历史、各种检查的数值、症状等输入
到贝叶斯网络里去查询,这样原本不明的肝脏疾病的先验概率就会被更新成可信度更高的后验概率。
随之会给出精度很高的诊断结果,判断出是肝脏疾病还是其他疾病,也可以帮助医生更加容易地选择
第8页
简介 医疗中应用 AI中应用 科学研究中应用 自然语言处理
2.计算各词语在不同类别的概率 首先计算“购买”单词在正常和垃圾邮件中出现的概率 P(购买|正常) = 1/(20*10) = 1/100 P(购买|垃圾) = 10/(8*10) = 1/8 再计算“通知”单词分别出现的概率 P(通知|正常) = 4/(20*10) = 1/50 P(通知|垃圾) = 4/(20*10) = 1/50 最后计算“物品”单词分别出现的概率 P(物品|正常) = 1/(20*10) = 1/200 P(物品|垃圾) = 20/(20*10) = 1/10
2.P(感冒|打喷嚏x建筑工人)= P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒)/ P(打喷嚏) x P(建筑工人)
第8页
什么是先验概率?什么是后验概率?
先验概率:基于已有知识对随机事件进行概率预估,但不考虑任何相关因素(P(c))。 后验概率:基于已有知识对随机事件进行概率预估,并考虑相关因素(P(c|x))。
被胖揍一顿:70% 被简单地数落一下:20% 被温情的鼓励:10%
被胖揍一顿:0% 被简单地数落一下:0% 被温情的鼓励:100%
第2页
简介 医疗中应用 AI中应用 科学研究中应用 自然语言处理
应用于:肝脏疾病的诊断,还被应用到包含癌症等疾病诊断中。
贝叶斯能起到帮助医生诊断的作用。医生会把患者的病历、饮酒历史、各种检查的数值、症状等输入
到贝叶斯网络里去查询,这样原本不明的肝脏疾病的先验概率就会被更新成可信度更高的后验概率。
随之会给出精度很高的诊断结果,判断出是肝脏疾病还是其他疾病,也可以帮助医生更加容易地选择
第8页
简介 医疗中应用 AI中应用 科学研究中应用 自然语言处理
2.计算各词语在不同类别的概率 首先计算“购买”单词在正常和垃圾邮件中出现的概率 P(购买|正常) = 1/(20*10) = 1/100 P(购买|垃圾) = 10/(8*10) = 1/8 再计算“通知”单词分别出现的概率 P(通知|正常) = 4/(20*10) = 1/50 P(通知|垃圾) = 4/(20*10) = 1/50 最后计算“物品”单词分别出现的概率 P(物品|正常) = 1/(20*10) = 1/200 P(物品|垃圾) = 20/(20*10) = 1/10
2.P(感冒|打喷嚏x建筑工人)= P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒)/ P(打喷嚏) x P(建筑工人)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A: attributes
M: mammals
N: non-mammals
P( A | M ) 6 6 2 2 0.06 7777
P( A | N ) 1 10 3 4 0.0042 13 13 13 13
P( A | M )P(M ) 0.06 7 0.021 20
P( A | N )P(N ) 0.004 13 0.0027 20
其中,P(zi | parents(zi))的值对应于Zi的CPT中的表目
课件
训练贝叶斯信念网络
若干情况
给定网络结构和所有可观测变量
只需要学习CPT
网络结构已知,而某些变量是隐藏的
使用梯度下降法或类似于神经网络的方法训练信念网络
可以看到,虽然这个用户没有使用真实头像,但是通过分类器 的鉴别,更倾向于将此账号归入真实账号类别。
这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个
别属性的抗干扰性。
课件
贝叶斯信念网络
贝叶斯信念网络(Bayesian belief network)允许在变 量的子集间定义类条件独立性
因果关系图模型
很可能每个P(X |Y=yj)都为0
解决方法
使用m估计、Laplace 估计:
原估计: P(Xi=xi |Y=yj) = nij/nj
m-estimate:P( xi
|
yj)
nc mp nm
Laplac e :
P( X i
xi
|Y
yi )
nij nj
1
课件
k
Example of Naïve Bayes Classifier
For (年收入, Class=No):
If Class=No
样本均值= 110 样本方差= 2975
P(年收入 120 | No) 课件 1
(120110)2
e 2(2975) 0.0072
2 (54.54)
贝叶斯分类器: 例(续)
X=(有房=否,婚姻状况=已婚,年收入=$120K)
课件
给出了LungCancer的CPT. 对于其双亲值的每个可能 组合, 表中给出了LungCancer的每个值的条件概率.
例如, 由左上角和右下角, 分别看到:
P(LungCancer = “yes” | FamilyHistory = “yes”, Smoker = “yes”) = 0.8
表示变量之间的依赖
给出联合概率分布的说明
X
Y
图示
结点: 随机变量 弧: 依赖
Z P
X,Y 是Z的父节点/前驱, 并且Y 是P的父节点/前驱 Z 和P之间没有依赖关系, 图中课没件 有环
贝叶斯信念网络 : 例
变量LungCance(LC)值的条件概率表(CPT), 给出其双 亲结点FamilyHistory和Smoke的每个可能值的组合的 条件概率
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所课以件X分类为No
贝叶斯分类器
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
在SNS社区中这三项均可直接从数据库里得到或计算出来的。
下面给出划分:
a1:{a<=0.05, 0.05<a<0.2, a>=0.2}, a2:{a<=0.1, 0.1<a<0.8, a>=0.8}, a3:{a=0(不是),a=1(是)}。 课件
2、获取训练样本
使用运维人员曾经人工检测过的1万个账号作为训 练样本。
朴素贝叶斯分类(续)
估计P(xi |yj)
设第i个属性Ai是分类属性, 则 P(xi|yj) = nij/nj
其中nij是在属性Ai上具有值xi的yj类的训练样本数, 而nj是yj类 的训练样本数
设第i个属性Ai是连续值属性
把Ai离散化
假定Ai服从高斯分布
P(xi | y j )
1
e
(
P(No)=7/10 P(有房=是|No) =3/7 P(有房=否|No) =4/7 P(有房=是|Yes) =0 P(有房=否|Yes) =1 P(婚姻状况=单身|No) =2/7 P(婚姻状况=离婚|No) =1/7 P(婚姻状况=已婚|No) =4/7 P(婚姻状况=单身|Yes) =2/3 P(婚姻状况=离婚|Yes) =1/3 P(婚姻状况=已婚|Yes) =0
对不相关属性的鲁棒性
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网课络件 ( Bayesian Belief Networks,BBN)
贝叶斯误差率
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1 课件
P(LungCancer = “no” | FamilyHistory = “no”, Smoker = “no”) = 0.9
课件
对应于属性或变量Z1,…,Zn的任意元组(z1,…,zn)的联 合概率由下式计算
n
P(z1,..., zn ) P(zi | Parents(Z i)) i 1
non-mammals
sometimes yes
non-mammals
no
yes
mammals
yes
no
non-mammals
sometimes yes
non-mammals
no
yes
non-mammals
no
yes
mammals
no
yes
non-mammals
yes
no
mammals
no
yes
non-mammals
P128数据
Name
Give Birth
human
yes
python
no
salmon
no
whale
yes
frog
no
komodo
no
bat
yes
pigeon
no
cat
yes
leopard shark yes
turtle
no
penguin
no
porcupine yes
eel
no
salamander no
案例:检测SNS社区中不真实账号
对于SNS社区来说,不真实账号(使用虚假身份或用户的 小号)是一个普遍存在的问题,作为SNS社区的运营商, 希望可以检测出这些不真实账号,从而在一些运营分析报 告中避免这些账号的干扰,亦可以加强对SNS社区的了解 与监管。
将社区中所有账号在真实账号和不真实账号两个类别
3、计算训练样本中每个类别的频率
用训练样本中真实账号和不真实账号数量分别除 以一万,得到:
课件
4、计算每个类别条件下各个特征属性划分的频率
课件
5、使用分类器进行鉴别
使用上面训练得到的分类器鉴别一个账号,这个账号使用非真 实头像,日志数量与注册天数的比率为0.1,好友数与注册天 数的比率为0.2。
年收 入
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠 贷款
No No No No Yes No No Yes No Yes
Normal distribution:
P(A | c )
i
j
1
e(
Ai ij
2
2 ij
)2
2 2
ij
One for each (Ai,ci) pair
mammals
no
no
non-mammals
yes
no
non-mammals
yes
no
mammals
sometimes yes
non-mammals
no
yes
non-mammals
no
yes
mammals
no
yes
non-mammals
no
yes
mammals
yes
no
non-mammals
sometimes yes
xi ij
2
2 ij
)
2
2 ij
其中, ij,ij分别为给定yj类的训练样本课在件 属性Ai上的均值和标准差
朴素贝叶斯分类
朴素贝叶斯分类器所需要的信息
计算每个类的先验概率P(yj) : P(yj)=nj/n 其中, nj是yi类的训练样本数,而n是训练样本总数
对于离散属性Ai,设的不同值为ai1, ai2, …,ail ,
其中, nj是类yj中的训练样本数,而n是训练样本总数
估计P(X|yj)
为便于估计P(X|yj), 假定类条件独立----给定样本的类 标号, 假定属性值条件地相互独立.
于是, P(X|Y=yj)可以用下式估计
d
P(X | y j ) P(xi | y j ) i 1
其中, P(x |yj)可以由训练样本估课值件
将X指派到具有最大后验概率P(yj|X)的类yj,即
将X指派到P(X|yj)P(yj) 最大的类yj
朴素贝叶斯分类
朴素贝叶斯分类 (Naïve Bayes Classifier)工作原理
给定一个未知的数据样本X, 分类法将预测X属于具有最高后验 概率的类. 即, 未知的样本分配给类yj, 当且仅当