一种改进的基于粗糙集的决策树算法
合集下载
一种改进的基于粗糙集的启发式值约简算法

作者简 介: 金海波 (9 0一)男 , 18 , 硕士 , 助教 , 主要研究方 向是数据挖掘。
l2 8
太
原
科
技
大
Байду номын сангаас
学
学
报
21 00芷
且恢复了所有的标记“ ” ? 为原属性值 , 但该记录仍
值)则把记录 的决策类别修改为最大 所对应的 , c决策类别 , 并且将记录 中所有属性标记“ ” ? 改为
第3 卷 第 3 1 期
21 0 0年 6月
太
原
科
技 大
学
学
报
V 1 1 N ・ o 3 o3 .
J n 2 1 u.00
J U N L O A Y A N V R IY O .C E C N E H O O Y O R A FT I U N U I E ST F S I N E A D T C N L G
支持度统计度量 , 生成 了不同置信度 水平 下的决策规 则集 , 并设计 了基 于规 则集 的分类 算法。对 Mok n
数据集 的对 比实验表明 , 算法是有效的。 该 关键词 : 粗糙 集; 值约简 ; 决策规 则; 分类算法 中图分类号 :P 8 T 1 文献标志码 : A
粗糙 集理论 是波 兰 学 者 Pwa Z于 18 alk・ 92年 提 出 的一 种 处 理模 糊 性 和 不 确定 性 问题 的数 学 理 论… , 可用 于数据 分析 。约 简 是 粗糙 集 理 论 的研 究 内容 之一 , 它是在 保持 信 息 系统 分 类 能 力 不 变 的前 提下 , 除冗余 的 属 性 和 属 性 值 , 取 简 洁 的决 策 删 获
外一 条记 录 ; 则删 除本 记 录 。 否 对 上 述算法 进行 分 析 , 到 如下 的改进 思路 : 得
一种基于粗糙集的改进KNN文本分类算法

表示 为 向量 空 间中 的特 征 向量 ;
目前 文本 分类 方 法 主 要包 括 决 策 树 、 K最 近邻 ( N 、 联规 则 、 持 向量 机 ( V 、 叶斯算 法 K N)关 支 S M) 贝 ( ae) Bys 、神 经 网络 、粗糙 集 等 。其 中基 于 向量 空
() 2 将待 分类 文本 t表示 为 和训 练文 本 一 致 的 i
1 KN N算法的基本 思想及存在 问题
K N作为一 种基 于实 例 的文 本分 类 算 法 , N 被认
为是 向量 空 间模 型 (V M) 最 好 的 分 类 算 法 之 S 下
一
5 ) s) ( 一o = (
向量 长度 。
衙
( 1 )
式 ( ) 0 两个 向量 d 和 d 的夹 角 ,l 1中 是 1 l l表示 d () 4 选择 与 d 相似度 最 大的 k 文本 作 为 向量 个
2 ]
,
该算法分为训练和分类两个 阶段 4。其思 l J
想是 : 文本训 练 阶段 , 在 主要 是 一 般 特 征 的提 取 、 特
21 0 2年 4月 1 3日收到 教育部科学技术研究重点项 目(0 1 8 、 2 8 4 )
d 的 k 最 近邻 ; 个 () 5 根据 d 的 k 最 近 邻 , 算 文本 类 别 相 应 个 计
^ 纛 , k
() 6 比较 各 类 的权 重 , 待 分 类 文 本 t归 人 权 将 重 最大 的类别 。 作 为一种 有监 督 机 器 学 习 的非 参 数 方 法 , N KN 集
R = { ∈ U l[ n X ≠ } X ] 。
它 们分别 为 的 下近似 集 和 上近 似集 。 定 义 3 给 定一 个知 识库 K = (,R) 对 于 每个子 【, , 和一个 等价 关 系 R ∈ id K) 全集 可 n( ,
目前 文本 分类 方 法 主 要包 括 决 策 树 、 K最 近邻 ( N 、 联规 则 、 持 向量 机 ( V 、 叶斯算 法 K N)关 支 S M) 贝 ( ae) Bys 、神 经 网络 、粗糙 集 等 。其 中基 于 向量 空
() 2 将待 分类 文本 t表示 为 和训 练文 本 一 致 的 i
1 KN N算法的基本 思想及存在 问题
K N作为一 种基 于实 例 的文 本分 类 算 法 , N 被认
为是 向量 空 间模 型 (V M) 最 好 的 分 类 算 法 之 S 下
一
5 ) s) ( 一o = (
向量 长度 。
衙
( 1 )
式 ( ) 0 两个 向量 d 和 d 的夹 角 ,l 1中 是 1 l l表示 d () 4 选择 与 d 相似度 最 大的 k 文本 作 为 向量 个
2 ]
,
该算法分为训练和分类两个 阶段 4。其思 l J
想是 : 文本训 练 阶段 , 在 主要 是 一 般 特 征 的提 取 、 特
21 0 2年 4月 1 3日收到 教育部科学技术研究重点项 目(0 1 8 、 2 8 4 )
d 的 k 最 近邻 ; 个 () 5 根据 d 的 k 最 近 邻 , 算 文本 类 别 相 应 个 计
^ 纛 , k
() 6 比较 各 类 的权 重 , 待 分 类 文 本 t归 人 权 将 重 最大 的类别 。 作 为一种 有监 督 机 器 学 习 的非 参 数 方 法 , N KN 集
R = { ∈ U l[ n X ≠ } X ] 。
它 们分别 为 的 下近似 集 和 上近 似集 。 定 义 3 给 定一 个知 识库 K = (,R) 对 于 每个子 【, , 和一个 等价 关 系 R ∈ id K) 全集 可 n( ,
基于变精度粗糙集决策树的构造算法

表 1 信 息 表
B 尺 X :u { ∈U RI <P E, )<1一 , Ⅳp E / J 8 (
N X =L E ∈ U RJ ( ) l一 } E J{ / E, ≥ P 卢.
定 义 3 X在 分类误 差 卢( . ≤1 下 的近 0 5< ) 似精 度 为
l称 P X, )×I I , ( Y 为绝 对分类 误差 . 定 义 2 设 U是论 域 , R是 U上 的等价 关 系 ,
对 于 E( . , ] , U, 0 5 1 VX 则 关 于 的下 近
收 稿 日期 :0 1 7o 2 1 _7
作者简介 : 张
怡 (9 0 ) 女 , 18 - , 甘肃兰州人 , 讲师 , 硕士
・
1 ・ 2
兰 州 工 业 高 等 专 科 学 校 学 报
第 l 8卷
似 , 近似 , 界域 , 边界 域 的定义 为 上 边 卢负
R X =u { ∈ U R I尸 E, < i一 } E / ( X) ,
决策 规则 利 用 了 较 少 的属 性 , 得 产 生 的 规 则 更 使 加精 练 , 加 直 观 , 且 在 建 立 决 策 树 的过 程 中 , 更 并 属性 的约简 数 目明显 减少 .
(. ≤1 , 05< )放松了传统粗糙集理论对 近似边界
的严格 定 义 . 当 =0时 , 变精 度 粗 糙 集 模 型 就 蜕
变 成 了传 统 的粗 糙 集 模 型 . 句 话 说 , 糙 集 是 换 粗 VR P S的一个 特 例 , P S拥 有 粗 糙 集 的所 有 优 点 VR
L 0 l l= 0 .
规则信息等问题. 为了提高分类算法 的效率 , 本文
将变 精度 粗 糙 集 和 决 策 树 结 合 使 用 , 两 种 方 法 使
B 尺 X :u { ∈U RI <P E, )<1一 , Ⅳp E / J 8 (
N X =L E ∈ U RJ ( ) l一 } E J{ / E, ≥ P 卢.
定 义 3 X在 分类误 差 卢( . ≤1 下 的近 0 5< ) 似精 度 为
l称 P X, )×I I , ( Y 为绝 对分类 误差 . 定 义 2 设 U是论 域 , R是 U上 的等价 关 系 ,
对 于 E( . , ] , U, 0 5 1 VX 则 关 于 的下 近
收 稿 日期 :0 1 7o 2 1 _7
作者简介 : 张
怡 (9 0 ) 女 , 18 - , 甘肃兰州人 , 讲师 , 硕士
・
1 ・ 2
兰 州 工 业 高 等 专 科 学 校 学 报
第 l 8卷
似 , 近似 , 界域 , 边界 域 的定义 为 上 边 卢负
R X =u { ∈ U R I尸 E, < i一 } E / ( X) ,
决策 规则 利 用 了 较 少 的属 性 , 得 产 生 的 规 则 更 使 加精 练 , 加 直 观 , 且 在 建 立 决 策 树 的过 程 中 , 更 并 属性 的约简 数 目明显 减少 .
(. ≤1 , 05< )放松了传统粗糙集理论对 近似边界
的严格 定 义 . 当 =0时 , 变精 度 粗 糙 集 模 型 就 蜕
变 成 了传 统 的粗 糙 集 模 型 . 句 话 说 , 糙 集 是 换 粗 VR P S的一个 特 例 , P S拥 有 粗 糙 集 的所 有 优 点 VR
L 0 l l= 0 .
规则信息等问题. 为了提高分类算法 的效率 , 本文
将变 精度 粗 糙 集 和 决 策 树 结 合 使 用 , 两 种 方 法 使
一种基于粗糙集的决策树构造方法

给定信 息系统 S ( , , 于每个子集 = U A) 对 定义两个子集 【 :
q u, x= yE I y R X=Uf / YAX# YEURI }
知识表达 系统也称 为信息系统。 通常也用 s ( , ) = UA 来代替 s ( , = UA,
。
() 4对于 9中的每一个属性 R, . 计算使用R 进行分类时 的近似 分类 . 精度 , 择近似分类精度 最大 的 所 对应 的R 作为测试属性 , 被 选 设
兄 的不同取值分为 m个不相交 的子集 , 葺 ≤m, , 伸出 m ,号 J , 从( Q ) 个
维普资讯
S IT C F R A I N D V L P E T&E O O Y C - E H I O M TO E E O M N N CNM
文章编号:0 5 6 3 (0 6 1- 16 0 10 — 0 3 2 0 )3 0 3— 3
20 年 06
∑I I
i= l
在各种决 策树 算法中最有影 响的是 Q i ̄ 于 18 u m 96年提出的 以信息 熵 的下降速度为启发信息选取节点 的 I 3 D 算法 “ , ] 但这种算法不是最 优
的, RH n 已经证 明了求解最优决策树是一个 N — a 问题 [。 J .o g . P hr d 2 ]
() 1令决策树 的初始状态 只含有一个树根 ( Q) 中 , , 是全体训 其 练实例 的集合 , 口是条件属性 的集合 ; () 瑚 所有 叶节点 ( , 都有 如下状态 : 2若 Q) 或者第一个 分量 中 的训练实例都属于同一个类 , 或者第二个 ̄-Q为空 , - M 则停止算法 , 结果
属性取 值较 多的属性 不一定最 优 ; 3 非递增学 习算法 ; 3抗噪性 I 是 D 1 D
一种基于粗糙集理论的决策树构造方法

决 策 树方 法 可 以大 大 降低 决 策 树 算 法 执 行 的时 间 复 杂 度 。
的属性作为分类属性 , 递归地构造决策 树的分枝 。构建决策树
时使 用 较 多 的一 种 挑 选 测试 属 性 方 法 是 基 于信 息 熵 原 理 , : 如 信 息 增 益 、 益 率 , 有基 于属 性 相 关 性 的 决策 树 的 构 造 。 以粗 糙 增 还 集 理 论 中 的属 性 重 要 度作 为 启 发 函数 来 挑 选 测 试 属 性 , 能 客 它 观 地 反 映条 件 属 性 对决 策 表 的 决 策 能 力 , 讨 论 决 策 表信 息 系 在 统 时 , 个 条 件属 性 对 应 着 一个 等 价 关 系 , 一 即在 条 件属 性 上 取 值
at b t i 0(f t ue s i r C¨nI . x ei na rsl ntred t esd mo srt a epo o e loi m a o s u t s o lxd cs n ) E p r me tl eut O e aast e ntaet th rp sdagrt c ncn t c l sc mpe eii s h h t h r ae o
Ab t a t src I hs p p rw s h in f a c f h t i u e i r u h s t h o y a h d xt ee ts l t g at b tsf r o sr ci g n t i a e e u e te sg i c n e o eat b t n o g e e r ste i e os l c p i i t ue n tu t i t r t n tn i r o c n
第2 8卷第 2期
21 0 1年 2月
的属性作为分类属性 , 递归地构造决策 树的分枝 。构建决策树
时使 用 较 多 的一 种 挑 选 测试 属 性 方 法 是 基 于信 息 熵 原 理 , : 如 信 息 增 益 、 益 率 , 有基 于属 性 相 关 性 的 决策 树 的 构 造 。 以粗 糙 增 还 集 理 论 中 的属 性 重 要 度作 为 启 发 函数 来 挑 选 测 试 属 性 , 能 客 它 观 地 反 映条 件 属 性 对决 策 表 的 决 策 能 力 , 讨 论 决 策 表信 息 系 在 统 时 , 个 条 件属 性 对 应 着 一个 等 价 关 系 , 一 即在 条 件属 性 上 取 值
at b t i 0(f t ue s i r C¨nI . x ei na rsl ntred t esd mo srt a epo o e loi m a o s u t s o lxd cs n ) E p r me tl eut O e aast e ntaet th rp sdagrt c ncn t c l sc mpe eii s h h t h r ae o
Ab t a t src I hs p p rw s h in f a c f h t i u e i r u h s t h o y a h d xt ee ts l t g at b tsf r o sr ci g n t i a e e u e te sg i c n e o eat b t n o g e e r ste i e os l c p i i t ue n tu t i t r t n tn i r o c n
第2 8卷第 2期
21 0 1年 2月
基于变精度粗糙集的决策树优化算法研究

基于变精度粗糙集的决策树优化算法研究
常志玲 , 周庆敏
( 南京 工业 大 学 信 息科 学与 工 程 学 院,江 苏 南京 2 0 0 ) l0 9
摘 要 : 用 变精度 粗糙 集理论 , 出了一种 利用新 的启发 式函数构造 决 策树 的 方法。该方 法以 变精度 粗糙 集的分 类质量 的 应 提 量度 作 为信 息函数 , 对条 件属 性进行 选择 。和 I 3算法 比较 , 方法充 分考虑 了属 性 间的依赖 性和 冗余性 , 其考虑 了训 练 D 本 尤 数 据 中的噪 声数据 ,允许 在构造 决 策树 的过程 中划入 正域 的 实例 类别存 在 一定的 不一致 性 ,可 简化 生成 的决策树 ,提 高决
代 表 一 个测 试 输 出,而 每个 树 叶节 点 代表 类 或 类 分布 。树 的最
顶层 节 点 是根 节 点 。 造 决策 树 的主 要 思想 是 以信 息论 为 工 具 , 构 在 各 非 叶 节 点选 择 重 要 的属 性 或 属 性组 , 自上 而 下 地 分割 训练
Ke r s VP ; d cso e ; ru hs t q ai fca sf ain I loi m ywo d : RS e iint e o g e; u l o lsi c t ; D3ag rt r y t i o h
0 引 言
决 策 树 是指 用 树 形 结 构来 表 示 决 策集 合 , 一种 直 观 的 知 是
c a s f ai n a t si f r t n f n t n t ee t h o d t n ati u ei i me h d Co ae t D3 a g rt m, d p n e c ls i c t c sa o mai c i s l c ec n i o t b t n t s i o n o u o o t i r h to . mp r d wi I l o i h h eed ny
基于多尺度粗糙集模型的决策树优化算法
CHE i- n U S o . a .XU Hu . N Jai .S h u b o u a1 i
( colfI om t nE gne n,W sA h i nvrt u a n u 2 7 1, hn ) Sho fr ai n ier g et n u U i sy o n o i e i,L ’nA hi 30 2 C ia
a p o i t ca s ia in a c r c n df r n c e s u e o s lc e t at b t s a d t e h l — o n f co a u p r xmae ls i c t c u a y i i e e t s a s wa s d t e e t t s t u e n h o d d w a tr w s p t f o l r i
中图分类号 : P 8T 3 1 1 T 1 ;P 1 .3 文献标 志码 : A
De ii n t e p i i a i n a g r t s d o u ts a e r ug e o e cso r e o tm z to l o ihm ba e n m lic l o h s t 2 1 .34 o:03 2/ P J 18 .0 0 2 3 1
基 于 多尺 度 粗 糙 集模 型 的决 策 树 优 化 算 法
陈家俊 ,苏守宝 , 华丽 徐
( 皖西学 院 信息工程学院 , 安徽 六安 2 7 1 ) 3 0 2
(h n @ W C eu c) cej j X.d . a
摘
要 : 对经典决策树算 法构造 的决策树 结构复杂、 针 缺乏对噪 声数据适应 能力等局 限性 , 于多尺度粗糙 集模 基
型提 出一种新 的决策树 构造 算法。算法引入尺度 变量和尺度 函数概 念 , 用不 同尺度 下近似分 类精 度选择测试属性 采 构造决策树 , 用抑制 因子对决策树进行修 剪, 使 有效地去 除了噪 声规则 。结果表 明该算 法构 造的决策树 简单有效 , 对 噪声数据有一 定的抗 干扰性 , 能满足 : 且 不同用户对决策精度的要 求。 关键词 : 决策树 ; 多尺度粗糙 集模 型 ; 近似 分类精度 ; 抑制 因子 ; 噪声数据
( colfI om t nE gne n,W sA h i nvrt u a n u 2 7 1, hn ) Sho fr ai n ier g et n u U i sy o n o i e i,L ’nA hi 30 2 C ia
a p o i t ca s ia in a c r c n df r n c e s u e o s lc e t at b t s a d t e h l — o n f co a u p r xmae ls i c t c u a y i i e e t s a s wa s d t e e t t s t u e n h o d d w a tr w s p t f o l r i
中图分类号 : P 8T 3 1 1 T 1 ;P 1 .3 文献标 志码 : A
De ii n t e p i i a i n a g r t s d o u ts a e r ug e o e cso r e o tm z to l o ihm ba e n m lic l o h s t 2 1 .34 o:03 2/ P J 18 .0 0 2 3 1
基 于 多尺 度 粗 糙 集模 型 的决 策 树 优 化 算 法
陈家俊 ,苏守宝 , 华丽 徐
( 皖西学 院 信息工程学院 , 安徽 六安 2 7 1 ) 3 0 2
(h n @ W C eu c) cej j X.d . a
摘
要 : 对经典决策树算 法构造 的决策树 结构复杂、 针 缺乏对噪 声数据适应 能力等局 限性 , 于多尺度粗糙 集模 基
型提 出一种新 的决策树 构造 算法。算法引入尺度 变量和尺度 函数概 念 , 用不 同尺度 下近似分 类精 度选择测试属性 采 构造决策树 , 用抑制 因子对决策树进行修 剪, 使 有效地去 除了噪 声规则 。结果表 明该算 法构 造的决策树 简单有效 , 对 噪声数据有一 定的抗 干扰性 , 能满足 : 且 不同用户对决策精度的要 求。 关键词 : 决策树 ; 多尺度粗糙 集模 型 ; 近似 分类精度 ; 抑制 因子 ; 噪声数据
一个基于粗糙集和决策树的最简分类规则集生成算法
一
个 基 于 粗 糙 集 和 决 策 树 的 最 简 分 类 规 则 集 生 成 算 法
孙 长 嵩 , 西 国 , 健 沛 董 张
( 尔滨 X程 大 学 计 算机科 学与技 术 学院 , 龙 江 哈 尔滨 哈 - . 黑 10 0 ) 50 1
摘
要 : 用 粗 糙 集 理 论 中 属 性 核 与 不 可 分 辨 关 系 给 出 了 属 性 约 简 和 数 据 过 滤 算 法 , 除 信 息 系 统 中 与 决 策 无 利 去
A l o ih s d o Ro h t a e ii n Tr e g r t m Ba e n ug Se nd D c so e t a n M i i a a sng R u e S t o G i n m l Cl s i l e
S UN a g s n ,DONG — u Ch n - o g Xi g o,ZHANG in p i Ja — e
关 的冗余 信 息. 简化 的信 息 系统 基 础上 用传 统算 法 构造 决 策 树 , 利用 由粗 糙 集 理 论 推 出 的极 小 、 大 化 学 在 并 极 习方法 对决 策树 规 则进行 极小 、 大 化 处理 . 后 给 了一 个最 简分 类规 则 集生 成算 法 . 极 最
关 键 词 : 据 挖 掘 ; 糙 集 ; 策 树 ; 类 规 则 数 粗 决 分 中 图 分 类 号 :P 9 文 献 标 识 码 : 文 章 编 号 :0 6— 0 3 0 2 0 0 8 0 T37 A 10 7 4 f 0 ) 5— 0 7— 5 2
d e s d i h i h ft to fr d to r m o g e nd a e u e o d a t e ii n te ul s . An r s e n t e lg to he noi n o e uc i n fo r u h s ta r s d t e lwih d c so r e r e ag rt l o hm o g i i ma l s i g r l e s p o o e tt e e ft e pa e . i t a n m ni lc a sn e s ti r p s d a h nd o h p r u K e o ds: a a m i i yw r d t n ng; r ug e ; de i in te o h st cso r e;c a sng r l lsi e u
一个基于粗集的决策树规则提取算法
的有用规则 。
粗糙集理论 [4 波兰 科学 家 P wa . 3 ,是 J a l Z在 18 k 92 年提 出的对不完整数据进行 分析 、 推理 、 习、 学 发现 的 新方法 , 借鉴 了逻辑学 和哲学 中对不精确 、 模糊 的各种 定义 , 针对信息的不同分类模型 , 出不精确范畴 等概 提 念, 为处理模糊 信息系统或不 确定性 问题提供 了一种 新型的数学工具 , 它不仅能够解 决传统 的数据 分析方 法如决策树法不能解决 的粗糙 集数 据 , 到传统方法 得 如神经 网络得不到的较高精度 规则 , 而且能发 现属性 之间的依 赖关 系并 对所 得 的结果进 行 简 明易懂 的解 释。该理论 已广泛应 用于信息 处理 据挖掘 等认知 数
dt n l1 3ag rt ,tSs lri h tu t r ,n c n i rv h fii c fcasf ain ii a 1 lo i o 3 m h i’ i e t esr cu e ad a mp n mp o et eef e y o lsic t . cn i o
dee dn eb sdo p n a c a e nm n hst Usn t sag r h ,a xrc r pr l fo ca f aini omain se . o ae g e . i hi lo t m cne ta t i ue rm lric t g i cs s i o nfr t s tm C mp r dwi h r. o y t ht eta
rai h oy mes r . ee tean w lo tm o lrii t nr l x rcin b h o i trb t fi otn eo trb t n n t t e r au e Prsn el e ag r h frca fc i e e ta t y c o sn atiue o n o i a o o s o g s mp ra c fat ue a d i s
粗糙集理论 [4 波兰 科学 家 P wa . 3 ,是 J a l Z在 18 k 92 年提 出的对不完整数据进行 分析 、 推理 、 习、 学 发现 的 新方法 , 借鉴 了逻辑学 和哲学 中对不精确 、 模糊 的各种 定义 , 针对信息的不同分类模型 , 出不精确范畴 等概 提 念, 为处理模糊 信息系统或不 确定性 问题提供 了一种 新型的数学工具 , 它不仅能够解 决传统 的数据 分析方 法如决策树法不能解决 的粗糙 集数 据 , 到传统方法 得 如神经 网络得不到的较高精度 规则 , 而且能发 现属性 之间的依 赖关 系并 对所 得 的结果进 行 简 明易懂 的解 释。该理论 已广泛应 用于信息 处理 据挖掘 等认知 数
dt n l1 3ag rt ,tSs lri h tu t r ,n c n i rv h fii c fcasf ain ii a 1 lo i o 3 m h i’ i e t esr cu e ad a mp n mp o et eef e y o lsic t . cn i o
dee dn eb sdo p n a c a e nm n hst Usn t sag r h ,a xrc r pr l fo ca f aini omain se . o ae g e . i hi lo t m cne ta t i ue rm lric t g i cs s i o nfr t s tm C mp r dwi h r. o y t ht eta
rai h oy mes r . ee tean w lo tm o lrii t nr l x rcin b h o i trb t fi otn eo trb t n n t t e r au e Prsn el e ag r h frca fc i e e ta t y c o sn atiue o n o i a o o s o g s mp ra c fat ue a d i s
一种基于粗糙集理论的ROUSTIDA改进算法
维普资讯
第 1 6卷 第 3期
2 0 0 8年 6月
电
脑
与
信 息 技 术
V 11 o3 0 .6 N .
Co u e n If r t n e h oo' mp tr a d no ma o T c n l ̄ i v
CHEN , Ke XUAN on —ha g Zh g n
(uh uV ct nl ie i , uh u J n s 1 14C ia S zo o ao aUnvrt S zo ,i gu25 0 ,hn) i sy a
Abs r c : s d al nc pee daa a ayi me h oft e r g s t he r a h ds ng ih arx in fr ad t a t Bae on l i om lt t n lss t od h ou h e t o y nd t e it us m t ,br g o w r i i a m pr v d R O U S DA lo ih .Th tm eho c i m a e u e ni oe TI ag rt m a t d a1 k s ofi o m a on s se i h r g lt e e t d b d t, nf r t yt m n t e e ua on r f ce y aa i i l
m 是属性集 , =x = , , ) ) U {l l2 …n是论域 , ( ) j j a x 是对象 x ij j
按规律判断为缺失的数据进行必要 的补充 ,以形成相 对完整的原始集 ,为进一步准确地实行决策与控制提
供 基础 。
在属性 a上的取值。M i ) i (, 表示经过扩充 的可辨识矩 j 阵中的第 i 行第 j 列元素, 则经过扩充的可辨识矩阵 M
第 1 6卷 第 3期
2 0 0 8年 6月
电
脑
与
信 息 技 术
V 11 o3 0 .6 N .
Co u e n If r t n e h oo' mp tr a d no ma o T c n l ̄ i v
CHEN , Ke XUAN on —ha g Zh g n
(uh uV ct nl ie i , uh u J n s 1 14C ia S zo o ao aUnvrt S zo ,i gu25 0 ,hn) i sy a
Abs r c : s d al nc pee daa a ayi me h oft e r g s t he r a h ds ng ih arx in fr ad t a t Bae on l i om lt t n lss t od h ou h e t o y nd t e it us m t ,br g o w r i i a m pr v d R O U S DA lo ih .Th tm eho c i m a e u e ni oe TI ag rt m a t d a1 k s ofi o m a on s se i h r g lt e e t d b d t, nf r t yt m n t e e ua on r f ce y aa i i l
m 是属性集 , =x = , , ) ) U {l l2 …n是论域 , ( ) j j a x 是对象 x ij j
按规律判断为缺失的数据进行必要 的补充 ,以形成相 对完整的原始集 ,为进一步准确地实行决策与控制提
供 基础 。
在属性 a上的取值。M i ) i (, 表示经过扩充 的可辨识矩 j 阵中的第 i 行第 j 列元素, 则经过扩充的可辨识矩阵 M
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0 引 言
粗糙集理论作为处理各种不完备信息的有效工
具, 一方 面 由于它 的数 学 基础 成 熟 且 不 需 要先 验 知
本文 以粗糙 集 和 数 据挖 掘 理 论 为 出发点 , 将数 据挖 掘 中的决 策树 技术 与粗糙 集 理论进 行 了有机 的
结合 , 提出了一种基于粗糙集技术的决策树算法 , 该
称 为论 域 , =C U D是 属性集 合 , 子集 c称 为条 件 属性 , 子 集 D称 为结果 属性集 , =U 是 属性
r ∈ R
差, 难 以发现有用 的规则。将粗糙 集与决策树结合 起来 , 首先 , 利用粗糙集进行属性约简 , 去除冗余属
性, 然后 , 利用决策树方法构建决策树 , 产生分类规
2 0 1 3 年 6 月
廊 坊师范学院学报( 自然科学版 )
J o u r n a l o f L a n g f a n g T e a c h e r s C o H e g e ( N a t u r l a S c i e n c e E d i t i o n )
t r e e o f d a t a mi n i n g . Th i s a l g o r i t h m c o n s t r u c t s a d e c i s i o n t r e e r e c u r s i v e l y b y c lc a u l a t i n g t h e i mp o r t a n c e o f p r o p e r t i e s o f t h e
法。该算法通过将计算属性相对于划分 的重要度作为选 择扩展 属性根 结点 的标 准 , 递9 3 - 地 生成决策 树, 可 以克服 I D 3算法偏 向于选 择取值 较多的属性的不足。
【 关键 词】 粗糙集 ; 属性重要度 ; 决策树
The Ap pl i c a t i o n o f At t r i b ut e Re d u c t i o n Ba s e d o n Ro u g h S e t i n Hi g h e r Ed u c a t i o n As s e s s me n t
则, 最终可 以形成新 的分类方法。
取值集合 , , 表示属性 r ∈ 的属性值范围, 即属 性 r 的值域 , 厂 : U×R— 是一个信息函数 。 2 ]
[ 收稿 日期] 2 0 1 3 — 0 4 — 0 2 [ 作者简介] 吴学辉 ( 1 9 7 8 一 ) , 男, 硕士 , 运城学院计算机科学与技术系讲师 , 研究方 向 : 数据挖掘 。
xu e - h u
【 A b s t r a c t 】 A t e m o t h o d t o d e s i g n t h e d e c i s i o n t r e e b a s e d o n r o u g h s e t i s p r o p o s e d b y c o m b i n a t i n g r o u g h s e t a n d d e c i s i o n
v a l u e s .
【 K e y w o r d s 】 d e c i s i o n t r e e ; r o u g h s e t ; a t t r i b u t e i m p o r t a n c e
[ 中图分类号 ]T P 1 8 [ 文献标 识码 ]A [ 文章编号]1 6 7 4—3 2 2 9 ( 2 0 1 3 ) 0 3— 0 0 3 3 —0 4
J u n. 2 01 3
Vo 1 . 1 3 No . 3
第1 3 卷 第 3期
一
种 改进 的基 于粗 糙 集 的决 策 树 算 0 0 0 )
【 摘
要 】 将数据挖掘 中的决策树与粗糙 集理论 进行 了有机 结合 , 提 出了一种基 于粗糙 集技 术 的决 策树 构造 算
r e l a t i v e d i v i s i o n. Th e lg a o r i t h m c a n o v e r c o me s o me s h o r t c o mi n g s o f I D3 lg a o i r t h m wh i c h t e n d e d t o c h o o s e mo r e p r o p e r t y
扩展属性根结点的标准 , 并递归地生成决策树。该
算法 可 以克 服 I D 3算 法 偏 向 于 选 择 取 值 较 多 的属
性 的不 足 。
1 粗糙集理论相关概念
定义 1 一个 信息 表 的知识 表达 系统 S可 表示
为: S =< U, R, V , f>。 其中 : 是对象集合 , 也
算 法 通过将 计算 属性 相对 于划 分 的重要 度作 为选 择
识; 另一方面在于它的易用性。粗糙集在消除冗余
信息 、 处 理 大数据 集等 方 面也有 其特 殊 的优势 , 所 以 应 用于数 据 挖掘 阶段 的数据 预处 理 、 属性 约简 等 , 但 是 它 的分 类 缺乏交 互 验证 功能 , 因此 , 分类 结果 不够 稳定 , 精 度也 不 高 。 _ 1 决 策 树 方法 具 有 分类 精 度 高 、 生成 的模 式 简单 、 对 噪声 数据 有很 好 的健壮 性 , 但是 当数 据集 中的属性 过 多 时 , 生 成 的 决 策树 结 构 性 较