基于规则的分类器

合集下载

基于规则的深度分类器结合近红外光谱技术判别烟用香精香料

基于规则的深度分类器结合近红外光谱技术判别烟用香精香料

基于规则的深度分类器结合近红外光谱技术判别烟用香精香料彭军仓;黄扬明;王瑶;康世平;张凤霞;张萌萌;孙赵麟;闵顺耕【摘要】采用近红外光谱技术对57种烟用香精香料进行分类研究,用SIMCA算法及基于规则深度分类器两种模式识别方法对715个样品光谱数据进行分类判别.异常光谱采用杠杆值法进行剔除,用判别准确率来评价分类模型效果.结果表明:基于规则深度分类器的识别准确率优于SIMCA算法,同时比较预处理方法对识别准确率的影响,得出对于液体样品,采用漫透反射附件的近红外光谱技术对识别准确度有较大影响的结论.主要原因在于产生的光谱图存在基线漂移现象,一阶导数可提升模型识别准确率,其校正集准确率与预测集准确率分别为98.74%与98.07%,可以满足香精香料现场分析的需要.【期刊名称】《分析仪器》【年(卷),期】2019(000)002【总页数】7页(P111-117)【关键词】近红外光谱;香精;香料;基于规则分类器;深度学习【作者】彭军仓;黄扬明;王瑶;康世平;张凤霞;张萌萌;孙赵麟;闵顺耕【作者单位】陕西中烟工业有限责任公司,宝鸡721013;中国农业大学,北京100193;陕西中烟工业有限责任公司,宝鸡721013;陕西中烟工业有限责任公司,宝鸡721013;陕西中烟工业有限责任公司,宝鸡721013;陕西中烟工业有限责任公司,宝鸡721013;陕西中烟工业有限责任公司,宝鸡721013;中国农业大学,北京100193【正文语种】中文香精香料具有改善卷烟吸味品质,赋予卷烟特征香气的作用,是构成卷烟品牌风格和保证卷烟产品质量的重要因素。

目前烟用香精香料质量分析方法主要有理化指标测定(相对密度、折光系数、挥发分总量、酸值、乙醇、丙二醇、丙三醇)与四类指标(外观、混溶度、香气与香味质量)感官评价两大类方法。

这些检测方法技术要求高、涉及分析仪器多,且过程非常繁琐,检测周期长、允差范围较大和重复性较差;烟草企业通常需要的香精香料品种繁多,且香精香料质量受到原料、加工等多种因素的影响,加上香料的成分通常又过于复杂,这给原料管理和质量保证造成极大的困难,因此,香精香料种类现场快速识别对于原料确认和卷烟质量保证具有重要的意义。

大数据理论考试(习题卷3)

大数据理论考试(习题卷3)

大数据理论考试(习题卷3)第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化性能下降,这种现象称之为()。

A)欠拟合B)过拟合C)拟合D)以上答案都不正答案:B解析:当学习器把训练样本学得太好了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降这种现象在机器学习中称为过拟合 。

2.[单选题]例如Hive建表语句中stored as 的作用是指定表的格式,下列不属于Hive表的常见格式的是()create table if not exists textfile_table( ueserid STRING, movieid STRING, rating STRING, ts STRING)row formated delimated fields terminated by '\t'stored as textfile;A)PigTableB)ORCC)PARQUETD)TEXTFIL答案:A解析:3.[单选题]机器学习中,基于样本分布的距离是以下哪一个()A)马氏距离B)欧式距离C)曼哈顿距离D)闵可夫斯基距离答案:A解析:马氏距离是基于样本分布的一种距离。

4.[单选题]以下关于数据服务API开放方使用流程,描述正确的是:( )。

A)创建api并发布apiB)获取APIC)调用APID)创建应用并获取授答案:A解析:5.[单选题]令N为数据集的大小(注:设训练样本(xi,yi),N即训练样本个数),d是输入空间的维数(注:d即向量xi的维数)。

硬间隔SVM问题的原始形式(即在不等式约束(注:yi(wTxi+b)≥1)下最小化(1/2)wTw)在没有转化为拉格朗日对偶问题之前,是()。

A)一个含N个变量的二次规划问题B)一个含N+1个变量的二次规划问题解析:欲找到具有最大间隔 的划分超平面,也就是要找到能满足式题中不等式约束的参数w 和b ,是一个含d+1个变量的二次规划问题。

遗传算法中基于规则的分类器编码长度研究

遗传算法中基于规则的分类器编码长度研究

[ Ab s t r a c t l G e n e t i c A l g o r i t h m( G A )i s u s e d a s a ma c h i n e l e a r n i n g t o o l f o r d e s i g n i n g l i n g u i s t i c r u l e b a s e d o n c l a s s i i f c a t i o n s y s t e ms ,
a c c u r a c y a n d t h e e ic f i e n c y o f c l a s s i i f e r .I t a n a l y z e s t h e e fe c t o f t h e c o d i n g l e n g h t f o r c l a s s i i f e r c l a s s i i f c a t i o n b y p r o b a b i l i s t i c
确描 述 。针对 遗 传算法 编码 没有 统一 标 准 的问题 ,研 究基于 规则 的分类器 个体 特征 编码 长度 与分 类准 确率 以及 效率 之 间的 关系 ,
通过概率逼近分析个体特征编码长度对分类准确率的影响,利用迭代步骤数的数学期望计算方法,计算遗传算法分类器的分类效
率 。实验 结果 证 明 ,遗 传算 法在密 西根 编码 条件 下 ,个 体特 征编码 长度 越 长 ,分 类器 的分 类准确 率越 高、 收敛速 度越 慢 。 关健 诃 :遗传 算法 ;分 类规 则 ;遗 传 算法编 码 ;学 习分类器 系 统 ;离 散数 据 ;连 续数 据
( S c h o o l o f I n f o r m a t i o n S c i e n c e a n d T e c h n o l o g y , E a s t C h i n a No ma r l U n i v e r s i t y , S h a n g h a i 2 0 0 2 4 1 , C h i n a )

基于“3σ”规则的贝叶斯分类器

基于“3σ”规则的贝叶斯分类器
t av y sa ls i e y usng d t s r tz to n e e t d a r fd t e—pr c s i g he n ie Ba e in ca sf rb i aa diceia in a d s l ce spa to aa pr i o e sn . KEY W O RD S: nt o s v ra ls;Co iin lp o a l y De st Gen t l oihm Co i u a be nu i ndto a r b bit n i i y; ei a g rt c
t e at b ts n o d rt l n t h n ef rn e r m e t i ig s mpe,te o t ls b s mp e s ti s l ce h t ue .I r e e i ae t e itree c s f i r o mi o t r n n a l h p i u a l e s ee t d h a ma
d cinfrBs h n l u t o ip e o —A ( P o B A)po u t naec rido t rd ci r ar u ,Th eut s o ta ti p sil orl byi rv o e ersl h w h ti s o s et ei l mp e s b a o
第2卷 第3 7 期
文章编号 :06— 3 8 2 1 )3— 04— 4 10 9 4 (0 0 0 0 9 0
计算机来自仿真 20 月 0 年3 1
基 “ ’ 则 的 贝 叶 斯 分 类 器 于 3r o’ 规
周 开武 , 慧 中 杨
( 南 大 学 通信 与控 制 工 程 学 院 , 苏 无 锡 24 2 ) 江 江 112

《大数据时代下的数据挖掘》试题及答案..

《大数据时代下的数据挖掘》试题及答案..

《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则7)下面哪种不属于数据预处理的方法? (D)A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个9)下面哪个不属于数据的属性类型:(D)A.标称B.序数C.区间D.相异10)只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)以下哪种方法不属于特征选择的标准方法: (D)A.嵌入B.过滤C.包装D.抽样12)下面不属于创建新属性的相关方法的是: (B)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属于映射数据到新的空间的方法? (A)A.傅立叶变换B.特征加权C.渐进抽样D.维归约14)假设属性income的最大最小值分别是12000元和98000元。

基于Fisher准则线性分类器设计

基于Fisher准则线性分类器设计

基于Fisher 准则线性分类器设计一、实验类型设计型:线性分类器设计(Fisher 准则)二、实验目的本实验旨在让同学进一步了解分类器的设计概念,能够根据自己的设计对线性分类器有更深刻地认识,理解Fisher 准则方法确定最佳线性分界面方法的原理,以及Lagrande 乘子求解的原理。

三、实验条件matlab 软件四、实验原理线性判别函数的一般形式可表示成0)(w X W X g T += 其中⎪⎪⎪⎭⎫⎝⎛=d x x X 1根据Fisher 选择投影方向W 的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求,用以评价投影方向W 的函数为:2221221~~)~~()(S S m m W J F +-= )(211*m m S W W -=-⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=d w w w W 21我们称为线性变换,其中式一个向量,1-W S 是W S 的逆矩阵,如21m m -是d 维,W S 和1-W S 都是d ×d 维,得到的*W 也是一个d 维的向量。

向量*W 就是使Fisher 准则函数)(W J F 达极大值的解,也就是按Fisher 准则将d 维X 空间投影到一维Y 空间的最佳投影方向,该向量*W 的各分量值是对原d 维特征向量求加权和的权值。

以上讨论了线性判别函数加权向量W 的确定方法,并讨论了使Fisher 准则函数极大的d 维向量 的计算方法,但是判别函数中的另一项0W 尚未确定,一般可采用以下几种方法确定0W 如或者 或当1)(ωp 与2)(ωp 已知时可用[]⎥⎦⎤⎢⎣⎡-+-+=2)(/)(ln 2~~2121210N N p p m m W ωω……当W 0确定之后,则可按以下规则分类,2010ωω∈→->∈→->X w X W X w X W TT使用Fisher 准则方法确定最佳线性分界面的方法是一个著名的方法,尽管提出该方法的时间比较早,仍见有人使用。

machine-learning-机器学习PPT课件

machine-learning-机器学习PPT课件
机器学习(Machine Learning)是研究计算机怎样 模拟或实现人类的学习行为,以获取新的知识或 技能,重新组织已有的知识结构使之不断改善自 身的性能。它是人工智能的核心,是使计算机具 有智能的根本途径,其应用遍及人工智能的各个 领域,它主要使用归纳、综合而不是演绎
➢基于规则 ➢基于统计
硕0032班 董向瑜
2策树中提取规则 2. 规则的产生:
•对于每一个规则r: A → y, •考虑替换规则r’: A’ → y
•A’ 是去掉A属性集中的一个属性
•比较前后两个规则的误差率,选择误差率低的
•重复直到不能泛化
2021/3/12
10
I. 很强的表达性 II. 易于理解 III. 易于生产 IV. 能够很快分类新的实例 V. 性能和决策树相当
2021/3/12
1
基于规则的分类器概述及举例 基于规则分类器的应用 基于规则分类器的性能评价(覆盖率和准确率) 基于规则分类器的特点
互斥原则 穷尽原则
规则的形成
直接 间接
基于规则分类器的优点
2021/3/12
2
Rule-based classifier(基于规则的分类器) 用一系列规则集“if …then…”来分类记录 规则:(条件)y ➢条件是若干属性的合取(conjunction) ➢y是类标签
2021/3/12
7
直接:从数据集从提取规则 e.g.: RIPPER, CN2
间接:从其它的分类模型中提取规则 比如决策树转为规则
2021/3/12
8
1. 从一个空集开始 2. 每次学习一个规则 3. 从数据集中去掉被这个规则覆盖的记录 4. 重复2-3步,直到所增加的规则对于分类效果的增

《数据挖掘》练习题(第5章)

《数据挖掘》练习题(第5章)

一、填空题1、每一个分类规则可以表示为如下形式:():i i i r y →条件规则左边称为 ,规则右边称为 ,包含预测类i y 。

2、给定数据集D 和分类规则:r A y →,将D 中触发规则r 的记录所占的比例称为规则的 。

3、给定数据集D 和分类规则 :r A y →,将D 中触发r 的记录中类标号等于y 的记录所占的比例称为规则的 。

4、分类规则的质量可用规则的 和 表示。

5:r (胎生=是 )∧ (体温=恒温)→哺乳类的覆盖率是 ;规则的准确率是 。

6、规则集的两个重要性质是 和 。

7、如果规则集R 中不存在两条规则被同一条记录触发,则称规则集R 中的规则是 ,这个性质确保每条记录至多被R 中的一条规则覆盖。

8、如果对属性值的任一组合,R 中都存在一条规则加以覆盖,则称规则集R 具有 ,这个性质确保每一条记录都至少被R 中的一条规则覆盖。

9、以下是脊椎动物分类问题的规则集:1:r (胎生=否)∧ (飞行动物=是)→鸟类2:r (胎生=否 )∧(水生动物=是)→鱼类3:r(胎生=是)∧(体温=恒温)→哺乳类4:r(胎生=否)∧(飞行动物=否)→爬行类5:r(水生动物=半)→两栖类、提取分类规则的方法有和两大类。

11、提取分类规则的直接方法是指。

12、提取分类规则的间接方法是指。

13、规则的排序方案有和两种。

14、常见的分类规则增长策略有和两种。

二、问答题1、如果基于规则的分类器中的规则集不是穷举的,应该如何解决?2、如果基于规则的分类器中的规则集不是互斥的,应该如何解决?3、使用无序规则来建立基于规则的分类器有什么利弊?4、k-近邻分类器中,k值的大小对分类器的性能会产生什么影响?5、考虑一个二值分类问题,属性集和属性值如下:空调={可用,不可用}引擎={好,差}行车里程={高,中,低}生锈={是,否}假设一个基于规则的分类器产'生的规则集如下:1:r行车里程=高→价值=低2:r行车里程=低→价值=高3:r空调=可用,引擎=好→价值=高4:r空调=可用,引擎=差→价值=低5:r空调=不可用→价值=低(1)这些规则是互斥的吗?(2)这些规则集是完全的吗?(3)规则需要排序吗?(4)规则集需要默认类吗?三、计算题1、设有一个训练集,它包含60个正例和100个反例。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

21
规则剪枝
• 停止条件
– 计算增益 – 如果增益不显著, 则丢弃新规则
• 规则剪枝
– 类似于决策树后剪枝 – 降低错误剪枝 :
• 删除规则中的合取项
• 比较剪枝前后的错误率 • 如果降低了错误率, 则剪掉该合取项
2020年4月24日星期五
数据挖掘导论
22
直接方法: RIPPER
• 对于2类问题, 选定一个类为正类,另一个为负类 – 从正类学习规则 – 负类时缺省类
– 满足规则前件的记录所占的比例 • 规则的准确率(accuracy) :
– 在满足规则前件的记录中,满足 规则后件的记录所占的比例
• 规则: (Status=Single) No
Coverage = 40%, Accuracy = 50%
Tid Refund Marital Taxable Status Income Class
– ei是规则作随机猜测R的期2 望频fi度log (fi /ei ) i 1
2020年4月24日星期五
数据挖掘导论
18
规则评估:例
• 例: 60个正例和100个反例
规则r1:覆盖50个正例和5个反例(acc = 90.9%);规则r2:覆盖2个正例和0个反例 (acc = 100%)
• 使用准确率, r2好 • 使用似然比
• 问题
– 加入/删除合取项有多种选择,如何选择? – 何时停止加入/删除合取项? 需要评估标准
2020年4月24日星期五
数据挖掘导论
16
规则增长: 例
• 一般到特殊
{}=>哺乳类
表皮覆盖=毛发=> 哺乳类
体温=恒温=>哺乳类
有腿=否 =>哺乳类
体温=恒温,有腿=是 =>哺乳类
体温=恒温,胎生=是 =>哺 乳类
胎生 水生动物 飞行动物













































数据挖掘导论
有腿
是 否 否 否 是 是 是 是 是 否 是 是 是 否 是
冬眠
否 是 否 否 是 否 是 否 否 否 否 否 是 否 是
类标号
哺乳类 爬行类 鱼类 哺乳类 两栖类 爬行类 哺乳类 鸟类 哺乳类 鱼类 爬行类 鸟类 哺乳类 鱼类 两栖类
2020年4月24日星期五
数据挖掘导论
11
规则提取的直接方法: 顺序覆盖
• 基本思想 – 依次对每个类建立一个或多个规则 – 对第i类建立规则
• 第i类记录为正例,其余为负例 • 建立一个第i类的规则r,尽可能地覆盖正例,而不覆盖负例 • 删除r覆盖的所有记录,在剩余数据集上学习下一个规则,直
到所有第i类记录都被删除
8
有序规则集
• 根据规则优先权将规则排序定秩(rank) – 有序规则集又成决策表(decision list)
• 对记录进行分类时 – 由被触发的,具有最高秩的规则确定记录的类标号 – 如果没有规则被触发,则指派到缺省类
规则的排序方案
• 基于规则的序
– 根据规则的质量排序
• 基于类的序
– 属于同一类的规则放在一起 – 基于类信息(如类的分布、重要性)对每类规则排序
第十九讲 基于规则的分类器
主讲:王彦
数据挖掘
1
基于规则的分类器
• 使用一组 “if…then…” 规则进行分类 • 规则: (Condition) y
– 其中 • Condition 是属性测试的合取 • y 是类标号
– 左部: 规则的前件或前提 – 右部: 规则的结论 – 分类规则的例子:
• (胎生=否) (飞行动物=是) 鸟类
2020年4月24日星期五
数据挖掘导论
13
顺序覆盖: 例
(a) Original data
(b) Step 1
(c) Step 2
(c) Step 3
2020年4月24日星期五
数据挖掘导论
14
Learn-One-Rule函数
• Learn-one-rule 函数的目标是提取一个分类规则,该规则覆盖 训练集中的大量正例,仅覆盖少量反例。

?
鲨血
2020年4月24日星期五
数据挖掘导论
6
规则的分类器的特征
• 互斥规则集 – 每个记录最多被一个规则覆盖 – 如果规则都是相互独立的,分类器包含互斥规则
• 如果规则集不是互斥的 – 一个记录可能被多个规则触发 – 如何处理? • 有序规则集 – 基于规则的序 vs 基于类的序 • 无序规则集 – 使用投票策略
– 该确度率量 的与规F则pO1和ILipn1f/G(pa1i n+n1p)成1 正 l比og,2 p所1p以1n它1 更lo倾g 2向p于0p选0n择0 那些高支持度计数和高准 – 继续前例
• r1和r2的FOIL信息增益分别为43.12和2,因此规则r1比r2好
2020年4月24日星期五
数据挖掘导论
数据挖掘导论
17
规则评估(续)
• 常用的度量
– 准确率、似然比、Laplace、M-estimate、FOIL信息增益
• 准确率
– Accuracy
,n : 被规则覆盖的实例数,nc : 被规则正确分类的实
例数 nc
– 问题:准确率n高的规则可能覆盖率太低
• 似然比 (越高越好) – k是类的个数 – fi是被规则覆盖的类i的样本k 的观测频度
– 规则增长 – 实例删除 – 规则评估 – 停止准则 – 规则剪枝
2020年4月24日星期五
数据挖掘导论
15
规则增长
• 两种策略
– 一般到特殊 • 从初始规则r: {}→y开始 • 反复加入合取项,得到更特殊的规则,直到不能再加入
– 特殊到一般 • 随机地选择一个正例作为初始规则 • 反复删除合取项,得到更一般的规则,直到不能再删除
2020年4月24日星期五
数据挖掘导论
10
如何建立基于规则的分类器
• 直接方法:
– 直接由数据提取规则 – 把属性空间分为较小的子空间,以便于属于一个子空间的所有记
录可以使用一个分类规则进行分类
• 间接方法:
– 由其他分类模型提取规则 (例如,从决策树、神经网络等) – 例如: C4.5rules
– R (r2) = 2 [2log2(2/0.75)+0log2(0/1.25)] = 5.66 – r1比r2好
2020年4月24日星期五
数据挖掘导论
19
规则评估(续)
• 考虑规则覆盖率的评估度量
Laplace f 1 nk
– n是规则覆盖的M样-e例s数tim,aft+e是规f则n覆盖kkp的 正例数,k是类的总数,p+是正类的
2020年4月24日星期五
数据挖掘导论
7
规则的分类器的特征
• 穷举规则集 – 每个记录至少被一个规则覆盖 – 如果规则集涵盖了属性值的所有可能组合,则规则集具有穷举 覆盖
• 如果规则集不是穷举的 – 一个记录可能不被任何规则触发 – 如何处理? • 使用缺省类
2020年4月24日星期五
数据挖掘导论
• 规则r1覆盖“鹰” => 鸟类 • 规则r3 覆盖“灰熊” => 哺乳类
名称 体温
鹰 恒温 灰熊 恒温
2020年4月24日星期五
表皮覆盖羽毛 软毛胎生Fra bibliotek水生动物否



数据挖掘导论
飞行动物
是 否
有腿
是 是
冬眠
否 是
类标号 ? ?
4
规则的质量
• 用覆盖率和准确率度量 • 规则的覆盖率(coverage) :
2020年4月24日星期五
数据挖掘导论
2
基于规则的分类器: 例
• 脊椎动物数据集
名称 体温
人类 蟒蛇 鲑鱼 鲸 青蛙 巨蜥 蝙蝠 鸽子 猫 虹鳉 美洲鳄 企鹅 豪猪 鳗鲡
蝾螈
恒温 冷血 冷血 恒温 冷血 冷血 恒温 恒温 恒温 冷血 冷血 恒温 恒温 冷血 冷血
2020年4月24日星期五
表皮覆盖
毛发 鳞片 鳞片 毛发 无 鳞片 毛发 羽毛 软毛 鳞片 鳞片 羽毛 刚毛 鳞片 无
先验概率 – 当规则的覆盖率很高时,两个度量都渐近地趋向于规则的准确率f+/n – 继续前例
• r1的Laplace度量为51/57 = 89.47%,很接近它的准确率 • r2的Laplace度量(75%)比它的准确率小很多
2020年4月24日星期五
数据挖掘导论
20
规则评估(续)
• 考虑规则的支持度计数的评估度量 – 规则的支持度计数对应于它所覆盖的正例数 – FOIL信息增益(First Order Inductive Leaner information gain) – 设规则r : A→+覆盖p0个正例和n0个反例; – 规则r’: A B→+覆盖p1个正例和n1个反例.扩展后规则的FOIL信息增益定义为
– r1 : 正类的期望频度为e+ = 5560/160 = 20.625 ; 负类的期望频度为e = 55100/160 =
34.375
– r2: 正类的期望频度为e+ = 260/160 = 0.75;
相关文档
最新文档