多值决策表的最小决策树生成

多值决策表的最小决策树生成
多值决策表的最小决策树生成

Computer Science and Application 计算机科学与应用, 2016, 6(10), 617-628 Published Online October 2016 in Hans. https://www.360docs.net/doc/8b7684820.html,/journal/csa https://www.360docs.net/doc/8b7684820.html,/10.12677/csa.2016.610076

文章引用: 乔莹, 许美玲, 钟发荣, 曾静, 莫毓昌. 多值决策表的最小决策树生成[J]. 计算机科学与应用, 2016, 6(10):

Minimal Decision Tree Generation for Multi-Label Decision Tables

Ying Qiao, Meiling Xu, Farong Zhong, Jing Zeng, Yuchang Mo

Zhejiang Normal University, Jinhua Zhejiang

Received: Oct. 5th , 2016; accepted: Oct. 23rd , 2016; published: Oct. 28th , 2016

Copyright ? 2016 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

https://www.360docs.net/doc/8b7684820.html,/licenses/by/4.0/

Abstract

Decision tree is a widely used classification in data mining. It can discover the essential knowledge from the common decision tables (each row has a decision). However, it is difficult to do data mining from the multi-label decision tables (each row has a set of decisions). In a multi-label deci-sion tables, each row contains several decisions, and several decision attributes are represented using a set. By testing the existing heuristic algorithms, such as greedy algorithms, their perfor-mance is not stable, i.e ., the size of the decision tree might become very large. In this paper, we propose a dynamic programming algorithm to minimize the size of the decision trees for a multi- label decision table. In our algorithm, the multi-label decision table is divided into several sub-tables, and the decision tree is constructed by using all subtables of the multi-label decision table, then useful information can be discovered from the multi-label decision tables.

Keywords

Multi-Label Decision Tables, Decision Trees, Dynamic Programming Algorithm

多值决策表的最小决策树生成

乔 莹,许美玲,钟发荣,曾 静,莫毓昌

浙江师范大学,浙江 金华

收稿日期:2016年10月5日;录用日期:2016年10月23日;发布日期:2016年10月28日

Open Access

乔莹等

摘要

决策树技术在数据挖掘的分类领域应用极其广泛,可以从普通决策表(每行记录包含一个决策值)中挖掘有价值的信息,但是要从多值决策表(每行记录包含多个决策值)中挖掘潜在的信息则比较困难。多值决策表中每行记录包含多个决策值,多个决策属性用一个集合表示。针对已有的启发式算法,如贪心算法,由于性能不稳定的特点,该算法获得的决策树规模变化较大,本文基于动态规划的思想,提出了使决策树规模最小化的算法。该算法将多值决策表分解为多个子表,通过多值决策表的子表进行构造最小决策树,进而对多值决策表进行数据挖掘。

关键词

多值决策表,决策树,动态规划算法

1. 引言

多值决策表每行记录的多个决策被标记为一个决策集,在现实生活中这样的表很常见,因为没有足够多的属性值去标记单独的行,因此就有条件属性值相同而决策值不同的实体。目前多值决策表已经得到了人们的关注,例如图像的语义标注问题[1],音乐情感分类[2],基因组的功能分类[3]和文本分类[4]等。此外,这类数据集在优化问题中是很常见的,如在旅行商中找出Hamiltonian回路的最小长度问题,在邮局中找出最近的邮局问题。这种情况下,我们通常在输出的多个解中选择最优解[5]。

在已有研究中,多值数据的决策树和其他分类通常认为是预测多值分类问题[6][7][8][9]。文献[10]研究了使用基于边界子表的多值决策表构造决策树的贪心算法。除此之外,文献[11]研究了在最常用决策情况下的贪心算法和广义的决策方法,但所研究的多值决策表局限于单值决策表,即决策集中只有一个元素。与多值数据有关的问题常常被认为是分类学习问题:多标签学习[12]、多实例学习[9]等,也有一些部分被标记的半监督学习[13]。此外,如在局部学习[14]、模糊学习[15]、多标签学习[16]中认为只有一个决策值是正确的。这些文献只是关注了分类的结果,而不是数据模型的优化。但我们需要解决的是多值决策问题。

本文研究用决策树对多值决策表进行信息挖掘,考虑信息表达和模型优化问题,目标是利用动态规划算法使得决策树的规模达到最小。包含五部分内容:第二部分给出了相关的概念,第三部分中提出了构造决策树最小化算法,即动态规划算法,第四部分给出了实例分析并与已有的贪心算法进行比较,第五部分进行全文总结。

2. 概念

多值决策表T是由非负整数填充的矩形表表示。这个表的列记为条件属性f1,…,f n,且每个条件属性对应的属性值用非负整数表示。如果属性值为字符串,那么必须将字符串编译为非负整数值。在表中没有重复的行,且每一行的多个决策用一个非空有限自然数集(决策集)表示。我们用N(T)表示表T的行数,r i表示第i行,其中i = 1,…,N(T)。如r1表示第一行,r2表示第二行等(见表1)。

如果一个决策属于表T每一行记录的决策集,那么我们称它为表T的常用决策。如果表T没有记录或有一个常用决策,那么称表T为退化表。如表2中的T′是一个退化表,常用决策为1。

从表T中删除一些行形成的表称为表T的子表。表T的子表是由行和列交叉组成的,列代表条件属性,用f i1,…,f im表示,对应的条件属性值用a1,…,a m表示,因此表T的子表可用T(f i1, a1),…,(f im,

乔莹等Table 1. A multi-label decision table T

表1. 多值决策表T

T f1f2f3d

r10 1 0 {1}

r2 2 1 0 {1,2}

r3 1 0 2 {1,3}

r40 0 1 {2}

Table 2. A degenerate table T′ of the multi-label decision table T

表2. 多值决策表T的退化表T′

T′f1f2f3d

r10 1 0 {1}

r2 2 1 0 {1,2}

r3 1 0 2 {1,3}

a m)表示。这样的非空子表(包括表T)称为T的可分离子表。如表1的多值决策表T的子表T(f1, 0)由第1行和第4行组成(见表3);类似地,子表T(f1, 0)(f2, 0)由第4行组成(见表4)。

用E(T)表示表T的每个条件属性值不同的属性集。如表T中,E(T) = {f1, f2, f3}。同理,对于子表T(f1, 0)有E(T(f1, 0)) = {f2, f3},因为在子表T(f1, 0)中,条件属性f1的值是恒为0的常量。对于f i∈E(T),我们用E(T, f i)表示条件属性f i(f i列)的一组值。如表T和条件属性f1,E(T, f1) = {0, 1}。

在决策集中属性值出现次数最多且数值最小的决策,称为T的最常用决策。如表T0的最常用决策是1。即使1和2在决策集中都出现3次,但是1是最小决策,因此我们选择1作为最常用决策。H(T)表示表T的决策集中包含最常用决策的行数。对于表T,H(T) = 3。

3. 决策树最小化算法

3.1. 决策树

根据表T构造决策树,每个叶子节点代表一个决策用一个自然数表示,每个非叶子节点代表属性集合{f1, …, f n}中的一个属性。从每个非叶子节点出发的输出边用不同的非负整数表示,如二值属性的两条边就用0和1表示。

令Γ为根据表T构造的决策树,v为Γ的节点。节点v和T的子表是一一映射,即对于每个节点v,都有唯一的T的子表与之对应。我们定义表T的子表T(v)对应于节点v。如果v是Γ的根节点,那么T(v) = T,即子表T(v)与T是一样的。否则T(v)是表T的子表T(f i1, δ1) … (f im, δm),属性f i1, …, f im和属性值δ1, …, δm分别是从根节点到节点v整条路径上的节点和边。如果对于Γ的任何节点v满足以下条件,我们称Γ是T的决策树:

1) 如果T(v)是退化的,那么v被标记为T(v)的常用决策。

2) 如果T(v)是非退化的,那么v用f i∈E(T(v))表示,假设E(T(v), f i) = {a1, …, a k},则来自节点v的k 条输出边为a1, …, a k。

假设图1给出的是多值决策表的决策树例子,如果节点v用属性f3表示,那么对应于节点v的子表T(v)记为T(f1, 0)。类似地,对应于节点2的子表为T(f1, 0)(f3, 1)。

N(Γ)表示决策树Γ的节点数,N t(Γ)和N n(Γ)分别表示决策树Γ的叶子节点数和非叶子节点数。

乔莹等

Table 3. A subtable T(f1, 0) of the multi-label decision table T

表3.多值决策表T的子表T(f1, 0)

T(f1, 0) f1f2f3d

r10 1 0 {1}

r40 0 1 {2} Table 4. A subtable T(f1, 0)(f2, 0) of the multi-label decision table T

表4.多值决策表T的子表T(f1, 0)(f2, 0)

T(f1, 0)(f2, 0) f1f2f3d r40 0 1 {2}

Figure 1. A decision tree for the

multi-label decision table

图1. 多值决策表的决策树

3.2. 动态规划算法

在这一节中,我们给出动态规划算法A d用以构造最小决策树。A d算法是针对一个给定的多值决策表构建最小决策树的算法(节点数、非叶子节点数或叶子节点数最少)。这个算法是以动态规划方法为基础

[17],在最坏的情况下该算法的复杂度表现为指数阶。该算法将多值决策表分解成若干个互相关联的子表,

将子表在各个阶段按照一定的次序排列,对某个给定的阶段状态先求解子表的问题,然后从子表的解中得到多值决策表的最优解。它的动态性体现在对于重复出现的子问题,第一次遇到对它进行求解,并将解保存起来,以备后续再次使用。

令多值决策表T,其中用f1,…,f n表示n个条件属性,包含表T所有可分离子表的集合记为S(T)。

算法A d的第一部分是构造集合S(T)。在构造集合S(T)时,首先将给定的T表指定为S(T) = {T},即S(T)集中只有一个T表,显然T表是未处理过的并且E(T)非空,然后以子表T(f i, δ)的形式添加到S(T)集合中,并判断集合中的子表是否被处理过,属性值不同的属性集是否为空集。如果是未处理过的,并且属性集非空,那么就将该表的子表添加到S(T)集合中。以此类推,直到S(T)集合中的所有表都被处理过,最后返回S(T) (见算法1)。

乔莹等

算法1 可分离子表S(T)集合的构造

输入:一个多值决策表T,条件属性为f1, …, f n

输出:S(T)集

指定S(T) = {T}且对未处理过的T进行标记;

While(true) do

if S(T)中没有未处理过的表then

返回S(T);

else

选择一个S(T)中未处理过的表T s

E T=?then

if()s

标记表T s已被处理

else

以T s(f i, δ)的形式添加到S(T)集合中,f i∈E(T s),δ∈E(T s,f i),添加后的S(T)集合中不会有重复的表,标记T s表已被处理,且新的子表T s(f i, δ)未被处理

end if

end if

end while

算法A d的第二部分是构造最小决策树,决策树大小考虑的是树的节点数或者是非叶子节点、叶子节点数。从算法1得到的S(T)集合中选择一个未指定为决策树的表,选择的标准是该表要么是退化表要么是它所有的子表是已被指定为决策树的可分离子表。如果是退化表,那么将退化表的常用决策作为叶子节点;否则用决策树表示子表,其中决策树的节点由属性表示,决策树的边由属性值表示。最后在所得到决策树中选出规模最小的(见算法2)。A d算法返回对应于表T的最小化决策树。

算法2对S(T)的每个表构造最小化决策树

输入:一个多值决策表T,条件属性f1, …, f n和集合S(T)

输出:T的决策树A d(T)

While(true) do

if T已被指定为完整的决策树then

返回决策树A d(T);

else

选择一个S(T)集中仍然未指定为决策树的T s表,这个表要么是退化表要么是T s表的所有已被指定为决策树的可分离子表if T s是退化表then

指定T s表是由一个节点组成的决策树,并且用T s表的共同决策作为叶子节点

else

用决策树Γ(f i,δ)将子表T s(f i, δ)指定为树的一部分,其中每个f i∈E(T s),δ∈E(T s,f i),决策树Γfi的根节点用f i表示,这里f i∈E(T s),E(T s,f i)={δ1,…,δr},从这个根节点出发恰好有r条边d1,…,d r,每条边分别由数字δ1,…,δr表示。

在被指定的T s表中选择出所有决策树规模最小的决策树Γfi。

end if

end if

end while

乔莹等

4. 实例分析

4.1. 实例介绍

动态规划算法在实际生活中应用非常广泛,如在学校的教务系统中根据学生的考试成绩,就可以预测到学生的文理科情况。表5是某中学教务系统中学生的语文、数学、英语考试成绩,其中r i表示学生。

用0和1分别表示条件属性值中的“一般”和“好”;用1、2和3分别表示决策集中的“艺术生”、“文科生”、“理科生”;用f i表示“语文”、“数学”、“英语”科目。这样将表5转化成抽象的二值属性的多值决策表(见表6)。

4.2. 最小决策树构造

本节以多值决策表T0为例(见表6),利用第3节中提到的动态规划算法构造多值决策表的最小决策树。具体步骤如下:

Step1:假定S(T) = {T0},且对T0未做过任何的处理,令T s = T0可写出表T s的子表T s(f1, 0),T s(f1, 1),T s(f2, 0),T s(f2, 1),T s(f3, 0),T s(f3, 1)。见表7~12。

表7~12在S(T)集合中未出现,所以将这6个子表添加到S(T)集合中,得到新的S(T) = {T0, T s(f1, 0), T s(f1,

1), T s(f2, 0), T s(f2, 1), T s(f3, 0), T s(f3, 1)},并对表T0作标记表示已被处理。

Step2:在S(T)集合中选择一个未处理过的子表,令T s= T s(f1, 0),这时T s的子表为T s(f1, 0)(f2, 0),T s(f1,

0)(f2, 1),T s(f1, 0)(f3, 0),T s(f1, 0)(f3, 1)。列举如下(见表13~16)。

将这4个子表添加到S(T)集合中,得到新的S(T) = {T0, T s(f1, 0), T s(f1, 1), T s(f2, 0), T s(f2, 1), T s(f3, 0), T s(f3,

1), T s(f1, 0)(f2, 0), T s(f1, 0)(f2, 1), T s(f1, 0)(f3, 0), T s(f1, 0)(f3, 1)},并对表T0,T s(f1, 0),T s(f1, 0)(f2, 1),T s(f1, 0)(f3,

0)作标记表示已被处理。

按照同样的方法,最后得出S(T)={T0, T s(f1, 0), T s(f1, 1), T s(f2, 0), T s(f2, 1), T s(f3, 0), T s(f3, 1), T s(f1, 0)(f2, 0), T s(f1, 0)(f2, 1), T s(f1, 0)(f3, 0), T s(f1, 0)(f3, 1), T s(f1, 1)(f2, 0), T s(f1, 1)(f2, 1), T s(f2, 0)(f3, 1), T s(f1, 0)(f2, 0)(f3, 0), T s(f1,

0)(f2, 0)(f3, 1)}。其中在S(T)集合中的结果是互异的,但是同一个结果可能是多个不同表的子表,如T s(f1,

1)(f2, 0)和T s(f1, 1)(f3, 1)。

Step3:选择S(T)集合中的任意一个表,当选择T表时,由于T表为非退化表,所以根据算法2得出以下结果(图2),其中Γf1、Γf2、Γf3分别表示T s(f1, 0)和T s(f1, 1),T s(f2, 0)和T s(f2, 1),T s(f3, 0)和T s(f3, 1)所对应的决策树子树。

在以上的决策树中选择规模最小的决策树。由于它们的规模是一样的,所以要对每一个决策树进行拓展。下面以选择表T s(f1, 0)为例。

Step4:当选择T的子表T s(f1, 0)时,得到的结果是Γf2和Γf3,但Γf2和Γf3分别表示T s(f1, 0)(f2, 0)和T s(f1,

0)(f2, 1),T s(f1, 0)(f3, 0)和T s(f1, 0)(f3, 1)所对应的决策树子树。

当选择T的子表T s(f1, 1)时,由于该表为退化表,所以将共同决策3作为叶子节点,故结合以上三个表的选取,得到的决策树如图3所示。

Step5:当选择T s(f1, 0)的子表T s(f1, 0)(f2, 0)时,得到的决策树为Γf1,f2,f3;当选择T s(f1, 0)的子表T s(f1, 0)(f3,

0)和T s(f1, 0)(f3, 1),得到决策树Γf1,f3。由于Γf1,f3的规模比Γf1,f2,f3小,因此选择决策树Γf1,f3 (图4)。

利用同样的方法可对决策树Γf2和Γf3进行构造,构造后的结果如图5所示。

由于Γf3,f2,f1会使决策树的规模变得更大,所以在拓展过程中不考虑它的拓展。由以上的决策树可以看出,Γf2,f1,f3,Γf2,f3,f1,Γf3,f2,f1比Γf1,f3的规模大,且Γf1,f3已经是完整的决策树,所以Γf1,f3是多值决策表T0规模最小的决策树。因此,多值决策表(表5)根据动态规划算法构造出最小决策树(见图6)。

乔莹等Table 5. A student’s rank table

表5. 学生成绩等级表

学生数学英语语文类别

r1一般一般一般{艺术生}

r2一般好好{艺术生,文科生}

r3好一般好{艺术生,理科生}

r4好好一般{文科生,理科生}

r5一般一般好{文科生}

Table 6. A multi-label decision table T0

表6. 多值决策表T0

T0f1f2f3d

r10 0 0 {1}

r20 1 1 {1,2}

r3 1 0 1 {1,3}

r4 1 1 0 {2,3}

r50 0 1 {2}

Table 7. A subtable T s(f1, 0) of the multi-label decision table T0

表7. 多值决策表T0的子表T s(f1, 0)

T s(f1, 0) f1f2f3d r10 0 0 {1}

r20 1 1 {1,2}

r50 0 1 {2}

Table 8. A subtable T s(f1, 1) of the multi-label decision table T0

表8. 多值决策表T0的子表T s(f1, 1)

T s(f1, 1) f1f2f3d r3 1 0 1 {1,3}

r4 1 1 0 {2,3}

Table 9. A subtable T s(f2, 0) of the multi-label decision table T0

表9. 多值决策表T0的子表T s(f2, 0)

T s(f2, 0) f1f2f3d r10 0 0 {1}

r3 1 0 1 {1,3}

r50 0 1 {2}

乔莹等

Table 10. A subtable T s(f2, 1) of the multi-label decision table T0

表10.多值决策表T0的子表T s(f2, 1)

T s(f2, 1) f1f2f3d r20 1 1 {1,2}

r4 1 1 0 {2,3} Table 11. A subtable T s(f3, 0) of the multi-label decision table T0

表11.多值决策表T0的子表T s(f3, 0)

T s(f3, 0) f1f2f3d r10 0 0 {1}

r4 1 1 0 {2,3} Table 12. A subtable T s(f3, 1) of the multi-label decision table T0

表12. 多值决策表T0的子表T s(f3, 1)

T s(f3, 1) f1f2f3d r20 1 1 {1,2}

r3 1 0 1 {1,3}

r50 0 1 {2} Table 13. A subtable T s(f1, 0)(f2, 0) of the multi-label decision table T0

表13. 多值决策表T0的子表T s(f1, 0)(f2, 0)

T s(f1, 0)(f2, 0) f1f2f3d r10 0 0 {1}

r50 0 1 {2} Table 14. A subtable T s(f1, 0)(f2, 1) of the multi-label decision table T0

表14. 多值决策表T0的子表T s(f1, 0)(f2, 1)

T s(f1, 0)(f2, 1) f1f2f3d r20 1 1 {1,2} Table 15. A subtable T s(f1, 0)(f3, 0) of the multi-label decision table T0

表15. 多值决策表T0的子表T s(f1, 0)(f3, 0)

T s(f1, 0)(f3, 0) f1f2f3d r10 0 0 {1} Table 16. A subtable T s(f1, 0)(f3, 1) of the multi-label decision table T0

表16. 多值决策表T0的子表T s(f1, 0)(f3, 1)

T s(f1, 0)(f3, 1) f1f2f3d r20 1 1 {1,2}

r50 0 1 {2}

乔莹 等

(1) (2) (3)

Figure 2. Some subtrees of the decision tree, (1) Γf 1, (2) Γf 2, (3)

Γf 3 图2. 决策树子树。(1) Γf 1;(2) Γf 2;(3) Γf 3

(1) (2)

Figure 3. Some subtrees of the decision tree, (1) Γf 1,f 2, (2) Γf 1,f 3 图3. 决策树子树。(1) Γf 1,f 2;(2) Γf 1,f 3

(1) (2)

Figure 4. Some subtrees of the decision tree, (1) Γf 1,f 2,f 3, (2) Γf 1,f 3 图4. 决策树子树。(1) Γf 1,f 2,f 3;(2) Γf 1,f 3

(1) (2) (3)

Figure 5. Some subtrees of the decision tree, (1) Γf 2,f 1,f 3, (2) Γf 2,f 3,f 1, (3) Γf 3,f 2,f 1 图5. 决策树子树。(1) Γf 2,f 1,f 3,(2) Γf 2,f 3,f 1,(3) Γf 3,f 2,f 1

乔莹等

Figure 6. The result of classification

by dynamic programming algorithm

图6. 动态规划算法的分类结果

4.3. 性能比较

本节利用已有的贪心算法构造多值决策表的决策树,通过比较进一步说明动态规划算法的构造性能。

在贪心算法中,我们需要选择更小的子表,直到我们得到可以用于标记叶子节点的退化表,使用自顶向下的顺序构造决策树。在每一步中进行的贪心选择属性是根据不确定性测度和不纯度函数的类型。具体构造过程如下:

Step1:选择的子表T0为表T,即T0 = T,树G中只有一个根节点v,所以用T0标记节点v。通过使用表6中的数据计算不纯度函数I(T0, f1)、I(T0, f2)、I(T0, f3)的值分别为3,3,7,由于I(T0, f1) = I(T0, f2)相等,所以取f i中i值小的I(T0, f1),用f1代替T0标记节点v,对于每个δ,δ∈E(T′, f2) = {0, 1},在树G中加入节点v0,v1,分别与连接节点v相连并将边标记为0,1,分别用子表T(f1, 0),T(f1, 1)标记节点v0,v1,结果如图7所示。

Step2:在子表T(f1, 0) ,T(f1, 1)中任选选择一个如T(f1, 0)即T0= T(f1, 0)。使用表7~11中的数据计算不纯度函数I(T0, f2)、I(T0, f3)的值分别为5和0,所以选择f3,用f3代替T0标记节点v0,分别用子表T(f1, 0) (f3, 0)、T(f1, 1) (f3, 1)标记节点v0,v1,结果如图8所示。

重复上述过程得到最终的决策树(图9)。因此,多值决策表(表5)根据贪心算法构造出的决策树(见图10)。

由动态规划算法构造多值决策表的决策树(图6)与贪心算法构造多值决策表的决策树(图10)进行对比,可得出贪心算法构造出的决策树不是最小的。

5. 总结

决策树技术在数据挖掘的分类领域应用极其广泛,从多值决策表中挖掘潜在的信息是当前研究热点。

多值决策表中每行记录包含多个决策值,多个决策属性用一个集合表示。针对已有的启发式算法,如贪心算法,由于性能不稳定的特点,该算法获得的决策树规模变化较大。

本文主要研究了多值决策表的决策树最优解问题,通过对动态规划算法和贪心算法进行比较,提出了利用动态规划算法使多值决策表的决策树规模最小。通过实例的演示,说明了决策树的最小化有利于人们对多值决策表进行决策,提高决策预测的准确率和降低决策树的复杂度。

乔莹等

Figure 7. Decision tree for the first step

图7. 第一步贪心选择构造的决策树

Figure 8. Decision tree for the second step

图8. 第二步贪心选择构造的决策树

Figure 9. Decision tree by greedy algorithm

图9. 贪心选择构造的决策树

Figure 10. The result of classification by greedy algorithm

图10. 贪心算法的分类结果

乔莹等

基金项目

国家自然科学基金面上项目(61572442, 61272130)浙江省科技厅公益性技术应用研究项目(2015C33085)浙江省教育厅项目(Y201226127)。

参考文献(References)

[1]Boutell, M.R., Luo, J., Shen, X. and Brown, C.M. (2004) Learning Multi-Label Scene Classification. Pattern Recogni-

tion, 37, 1757-1771. https://www.360docs.net/doc/8b7684820.html,/10.1016/j.patcog.2004.03.009

[2]Wieczorkowska, A., Synak, P., Lewis, R.A. and Ras, Z.W. (2005) Extracting Emotions from Music Data. ISMIS, Vo-

lume 3488 of the series Lecture Notes in Computer Science, 456-465.

[3]Blockeel, H., Schietgat, L., Struyf, J., Dzeroski, S. and Clare, A. (2006) Decision Trees for Hierarchical Multilabel

Classification: A Case Study in Functional Genomics. In: Fürnkranz, J., Scheffer, T. and Spiliopoulou, M., Eds., Pro-

ceedings PKDD, ser. LNCS, Springer, Berlin, Vol. 4213, 18-29.

[4]Zhou, Z.-H., Jiang, K. and Li, M. (2005) Multi-Instance Learning Basedweb Mining. Applied Intelligence, 22, 135-147.

https://www.360docs.net/doc/8b7684820.html,/10.1007/s10489-005-5602-z

[5]Moshkov, M. and Zielosko, B. (2011) Combinatorial Machine Learning -A Rough Set Approach. ser. Studies in Com-

putational Intelligence, Springer, Vol. 360. https://www.360docs.net/doc/8b7684820.html,/10.1007/978-3-642-20995-6

[6]Comité, F.D., Gilleron, R. and Tommasi, M. (2003) Learning Multi-Label Alternating Decision Trees from Texts and

Data. Proceedings of 3rd International Conference, MLDM 2003, Leipzig, 5-7 July 2003, 35-49.

https://www.360docs.net/doc/8b7684820.html,/10.1007/3-540-45065-3

[7]Loza Mencía, E. and Fürnkranz, J. (2008) Pairwise Learning of Multilabel Classifications with Perceptrons. IEEE In-

ternational Joint Conference on Neural Networks, 1-8 June 2008, 2899-2906.

https://www.360docs.net/doc/8b7684820.html,/10.1109/IJCNN.2008.4634206

[8]Tsoumakas, G., Katakis, I. and Vlahavas, I.P. (2010) Mining Multi-Label Data. In: Maimon, O. and Rokach, L., Eds.,

Data Mining and KnowledgeDiscovery Handbook, Tel Aviv University, 667-685.

[9]Zhou, Z.-H., Zhang, M.-L., Huang, S.-J. and Li, Y.-F. (2012) Multi-Instance Multi-Label Learning. Artificial Intelli-

gence, 176, 2291-2320. https://www.360docs.net/doc/8b7684820.html,/10.1016/j.artint.2011.10.002

[10]Azad, M., Chikalov, I., Moshkov, M. and Zielosko, B. (2012) Greedy Algorithm for Construction of Decision Trees

for Tables with Many-Valued Decisions. Proceedings of the 21st International Workshop on Concurrency, Specifica-

tion and Programming, Berlin, 26-28 September 2012, ser. CEUR Workshop Proceedings, L. Popova-Zeugmann,

https://www.360docs.net/doc/8b7684820.html,, 2012, Vol. 928.

[11]Azad, M., Chikalov, I. and Moshkov, M. (2013) Three Approaches to Deal within Consistent Decision Tables—

Comparison of Decision Tree Complexity. RSFDGrC,Halifax, 11-14 October 2013, 46-54.

https://www.360docs.net/doc/8b7684820.html,/10.1007/978-3-642-41218-9

[12]Tsoumakas, G. and Katakis, I. (2007) Multi-Label Classification: An Overview. IJDWM, 3, 1-13.

https://www.360docs.net/doc/8b7684820.html,/10.4018/jdwm.2007070101

[13]Zhu, X. and Goldberg, A.B. (2009) Introduction to Semi-Supervised Learning, ser. Synthesis Lectures on Artificial In-

telligence and Machine Learning. Morgan & Claypool Publishers, San Rafael, California.

[14]Cour, T., Sapp, B., Jordan, C. and Taskar, B. (2009) Learning from Ambiguously Labeled Images. CVPR, Miami,

Florida, 20-25 July 2009, 919-926.

[15]Hüllermeier, E. and Beringer, J. (2006) Learning from Ambiguously Labeled Examples. Intelligent Data Analysis, 10,

419-439.

[16]Jin, R. and Ghahramani, Z. (2002) Learning with Multiple Labels. NIPS,Vancouver, British Columbia, 9-14 December

2002, 897-904.

[17]Moshkov, M. and Chikalov, I. (2000) On Algorithm for Constructing of Decision Trees with Minimal Depth. Funda-

menta Informaticae, 41, 295-299.

期刊投稿者将享受如下服务:

1. 投稿前咨询服务(QQ、微信、邮箱皆可)

2. 为您匹配最合适的期刊

3. 24小时以内解答您的所有疑问

4. 友好的在线投稿界面

5. 专业的同行评审

6. 知网检索

7. 全网络覆盖式推广您的研究

投稿请点击:https://www.360docs.net/doc/8b7684820.html,/Submission.aspx 期刊邮箱:csa@https://www.360docs.net/doc/8b7684820.html,

管理系统中计算机-应用题决策树与决策表

1、某单位招聘考试需要考核数学、英语、计算机三门课程,其录取规则是: (1)总分240分以上(含)录取。 (2)总分在240分以下(不含),180分以上(含)的,如果数学和英语成绩均在60分以上(含),需要参加面试;如果数学或英语中只有1门成绩在60分以下(不含) 的,需复试该课程后再决定是否录取。 (3)其他情况不录取。 画出此项处理的决策表。 2、某运输公司货运收费标准是: 本地货运每吨运费20元。外地货运每吨运费40元,距离500公里(含)以上每吨 加运费10元。外地货运量100吨(古)以上运费增加5%。 用决策表表达运费的计算方法。 3、某地区电话收费标准为: (1)市内电话:每分钟0.1元; (2)长途电话:A区间每分钟0.3元,B区间每分钟0.5元,夜间及节假日A、B区间话

费减半。 要求:用决策树表达此项处理逻辑。 4、邮寄包裹收费标准如下:若收件地点在1000公里以内,普通件每公斤2元,挂号件每公斤3元,若收件地点在1000公里以外,普通件每公斤2.5元,挂号件每公斤3.5元;若收件地点在1000公里以外,若重量大于30公斤,超重部分每公斤加收0.5元。请绘制确定收费决策表、决策树(重量用W表示)。 决策树表示为:

5、某维修站对①“功率大于50马力”且“维修记录不全”或②“已运行十年以上”的机器给予优先维修,否则做一般处理。请用决策表表达此处理逻辑。 解答: ①确定规则的个数:这里有3个条件,每个条件有两个取值,帮应有2*2*2=8; ②列出所有的条件茬和动作桩。 ③填入条件项。可从最后一行条件开始,逐行向上填满。如第三行是:YNYNYNYN 第二行是: YYNNYYNN等等。 ④填入动作桩和动作项,这样便得到形如下图的初始判定表。

流程图 决策表 决策树习题及答案

1、已知产品出库管理的过程是:仓库管理员将提货人员的零售出库单上的数据登记到零售出库流水账上,并每天将零售出库流水账上当天按产品名称、规格分别累计的数据记入库存账台。请根据出库管理的过程画出它的业务流图。 产品出库管理业务流图 2、设产品出库量的计算方法是:当库存量大于等于提货量时,以提货量作为出库量;当库存量小于提货量而大于等于提货量的10%时,以实际库存量作为出库量;当库存量小于提货量的10%时,出库量为0(即提货不成功)。请表示出库量计算的决策树。 3、有一工资处理系统,每月根据职工应发的工资计算个人收入所得税,交税额算法如下: 若职工月收入=<800元,不交税; 若800职工<职工月收入=<1300元,则交超过800元工资额的5%;

若超过1300元,则交800到1300元的5%和超过1300元部分 的10%。 试画出计算所得税的决策树和决策表。 1、解:(1)决策树 设X为职工工资,Y为职工应缴税额。 X<=800 ——Y=0 某工资处理系统8001300 ——Y=(1300-800)*5%+(X-1300)*10% (2)决策表 4、某货运站的收费标准如下: (1) 收费地点在本省,则快件每公斤6元,慢件每公斤4元; (2) 收费地点在外省,则在25公斤以内(含25公斤)快件每公斤8 元,慢件每公斤6元;如果超过25公斤时,快件每公斤10元,慢件 每公斤8元 试根据上述要求,绘制确定收费标准的决策表,并配以简要文字说明。 答:在货运收费标准中牵涉条件的有:本省、外省之分,有快、慢件之分,对于外省运件以25公斤为分界线,故货运站收费标准决策表的条件有三个,执行的价格有四档:4元/公斤、6元/公斤、8元/公斤、10元/公斤,从而可得某货运站的收费标准执行判断表如下表格所示。 收费标准判断表

决策树决策表练习

1、某运输公司收取运费的标准如下: ①本地客户每吨5元。 ②外地客户货物重量W在100吨以(含),每吨8元。 ③外地客户货物100吨以上时,距离L在500公里以(含)超过部分每吨增加7元,距离500公里以上时,超过部分每吨再增加10元。 试画出决策树、决策表,反映运费策略。 2、邮寄包裹收费标准如下: 若收件地点在1000公里以,普通件每公斤2元,挂号件每公斤3元;若收件地点在1000公里以外,普通件每公斤2.5元,挂号件每公斤3.5元,若重量大于30公斤,超重部分每公斤加收0.5元。绘制收费标准的决策树和决策表(重量用W表示)。 3、某工厂对一部分职工重新分配工作,其原则如下: 年龄不满20岁,文化程度为小学脱产学习,文化程度是中学的为电工。年龄满20岁但不足50岁,文化程度为小学或中学,男性为钳工,女性为车工;文化程度是大学的为技术员。年龄满50岁及50岁以上,文化程度是小学或中学的为材料员;文化程度是大学的为技术员。请画出处理职工分配政策(以文化程度为基准)的决策表、决策树。

4、某学校对教职工拟定奖励策略如下:(1)高级职称且教学评估优秀的奖励1000元,教学效果评估合格的奖励800元;(2)中级职称且教学评估优秀的奖励800元,教学效果评估合格的奖励500元;(3)初级职称且教学评估优秀的奖励500元。要求画出奖励策略的决策树。 5、某用电量计费系统记费如下:如果按固定价格方法记帐,对耗电量小于100度(不包含100度)的情况,按每月最低费用收费。超过100度时,就按A类计费办法收费。如果按可变价格方法记帐,则对100度以下(不包含100度)耗电量,按A类计费办法收费,超过100度时按B类计费办法收费。画出上述说明的决策树。 6、某金融部门的贷款发放最高限额问题描述如下: 对于固定资产超过500万元(含500万元)的企业:·如果无不良还款记录,低于3年期(含3年)的贷款最高限额为100万元; ·如果有不良还款记录,低于3年期(含3年)的贷款最高限额为50万元。 对于固定资产低于500万元的企业: ·如果无不良还款记录,低于3年期(含3年)的贷款最高限额为60万元;

管理信息系统应用题-流程图-决策树-等。

管理信息系统应用题 1.请根据以下订货业务处理过程画出管理业务流程图: 采购员从仓库收到缺货通知单后,查阅订货合同单,若已订货,则向供货单位发出催货请求;否则填写订货单送供货单位;供货单位发出货物后,立即向采购员发出取货通知单。 解: 订货业务处理流程图

2.请将下列决策处理过程用以决策树及决策表表示出来。 铁路货运收费标准如下: (1)若收货地点在本省以内,快件每公斤5元,慢件每公斤3元。 (2)若收货地点在外省,且重量小于或等于20公斤,快件每公斤7元,慢件每公斤5元;反之,若重量大于20公斤,超重部分每公斤加收1.5元。 解:决策树如下: 决策表如下:

3. 用图书、作者两个实体及其属性和联系构建E -R 图,并转化为关系数据模型。 答:E -R 图如下: 转换成的关系数据模型如下: 图书(ISBN ,书名,出版社,价格) 作者(身份证号,姓名,出生地) 写作(ISBN ,身份证号,定稿时间) 4. 试根据以下储蓄所取款过程画出数据流程图:储户将填好的取款单及存折交储蓄所,经查对存款账,将不合格的存折和取款单退回储户,合格的存折和取款单被送交取款处理,处理时要修改存款账户和现金账,处理的结果是将存折、利息单和现金交储户,同时将取款单存档。 图书 作者 写作 出版社 ISBN 书名 姓名 出生地 身份证号 定稿时间 价格 N M

5.某企业负责处理订货单的部门每天能收到 40 份左右的来自顾客的订货单,订货单上的项目包括订货单编号、顾客编号、产品编号、数量、订货日期、交货日期等。假定这些订单由:“订货单处理”处理逻辑进行处理。试根据这一业务情况写出数据字典中的“订货单”数据流定义。 数据流名称:订货单 编号DFO01 简述:顾客送来的订货单 数据流来源:“顾客”外部实体 数据流去向:“订货单处理”处理逻辑 数据流组成:订货单编号 + 顾客编号 + 产品编号 + 数量 + 订货日期 +交货日期 流通量:40份左右/天 6.试根据下述情况制出表格分配图。 采购部门准备的采购单为一式四份:第 1 张送供货方;第 2 张送交收货部门,用于登入待收货登记册;第 3 张交会计部门作应付款处理,记入应付账;第 4 张留在采购部门备查。 采购部门财会部门

多值决策表的最小决策树生成

Computer Science and Application 计算机科学与应用, 2016, 6(10), 617-628 Published Online October 2016 in Hans. https://www.360docs.net/doc/8b7684820.html,/journal/csa https://www.360docs.net/doc/8b7684820.html,/10.12677/csa.2016.610076 文章引用: 乔莹, 许美玲, 钟发荣, 曾静, 莫毓昌. 多值决策表的最小决策树生成[J]. 计算机科学与应用, 2016, 6(10): Minimal Decision Tree Generation for Multi-Label Decision Tables Ying Qiao, Meiling Xu, Farong Zhong, Jing Zeng, Yuchang Mo Zhejiang Normal University, Jinhua Zhejiang Received: Oct. 5th , 2016; accepted: Oct. 23rd , 2016; published: Oct. 28th , 2016 Copyright ? 2016 by authors and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). https://www.360docs.net/doc/8b7684820.html,/licenses/by/4.0/ Abstract Decision tree is a widely used classification in data mining. It can discover the essential knowledge from the common decision tables (each row has a decision). However, it is difficult to do data mining from the multi-label decision tables (each row has a set of decisions). In a multi-label deci-sion tables, each row contains several decisions, and several decision attributes are represented using a set. By testing the existing heuristic algorithms, such as greedy algorithms, their perfor-mance is not stable, i.e ., the size of the decision tree might become very large. In this paper, we propose a dynamic programming algorithm to minimize the size of the decision trees for a multi- label decision table. In our algorithm, the multi-label decision table is divided into several sub-tables, and the decision tree is constructed by using all subtables of the multi-label decision table, then useful information can be discovered from the multi-label decision tables. Keywords Multi-Label Decision Tables, Decision Trees, Dynamic Programming Algorithm 多值决策表的最小决策树生成 乔 莹,许美玲,钟发荣,曾 静,莫毓昌 浙江师范大学,浙江 金华 收稿日期:2016年10月5日;录用日期:2016年10月23日;发布日期:2016年10月28日 Open Access

《管理系统中计算机应用》-决策表、决策树

1.某商业企业根据用户欠款时间长短和现有库存量情况处理用户订贷,具体如下: (1)当用户欠款时间小于等于1个月时:如果需求量小于等于库存量,则立即发货;如果需 求量大于库存量,则先进货后再发货。 (2)当用户欠款时间大于1个月时:如果需求量小于等于库存量,则先付款,再发货;如果 需求量大于库存量,则不发货。 请按要求绘制决策表和决策树。(浙江省2002年1) 2.某运输公司收取运费的标准如下:①本地客户每吨5元。②外地客户货物重量W在100 吨以内(含),每吨8元。③外地客户货物100吨以上时,距离L在500公里以内(含)超过部分每吨再增加7元,距离500公里以上时超过部分每吨再增加10元。 试画出决策表和决策树,反映运费策略。(200204) 1

3.某次入学考试科目为英语、数学、政治三门课,录取规则是: (1)总分必须200分(含)以上,200分以下不录取。 (2)在总分200分以上情况下,单科要求如下: ①英语、数学都60分(含)以上的录取; ②英语70分(含)以上,数学55分(含)以上的需参加复试决定是否录取; ③其他情况一律不录取。 请用决策树和决策表写出录取策略。(200210) 4.某公司货运收费标准是:(200510) 本地货运每吨运费10元。外地货运每吨运费20元,距离500公里(含)以上每吨加运费5元。外地货运量100吨(含)以上时运费增加5%。 设货运量为N吨,距离为L公里,运费为W元。用决策树和决策表表达运费的计算方法。 2

5.某地区电话收费标准为:(200801) (1)市内电话:每分钟0.1元; (2)长途电话:A区间每分钟0.3元,B区间每分钟0.5元,夜间及节假日A、B区间话 费减半。 要求:用决策树和决策表表达此项处理逻辑。 6.某学生选课系统根据学生本学期选课学分的不同,采取不同的处理:(201101) (1)学分总数小于等于0分,则进行“异常”处理: (2)学分总数大于0分,小于或等于4分,则直接进行“补选课”处理; (3)学分总数大于20分,则进行“调选课”处理; (4)其他情况为正常,选课结束。 请用决策树和决策表表示该决策过程。 3

决策树决策表练习题与参考答案

1 .某厂对一部分职工重新分配工作,分配原则是:⑴年龄不满20岁,文化程度是小学者脱产学习,文化程度是中学者当电工; ⑵年龄满20岁但不足50岁,文化程度是小学或中学者,男性当钳工,女性当车工;文化程度是大专者,当技术员。 ⑶年龄满50岁及50岁以上,文化程度是小学或中学者当材料员,文化程度是大专者当技术员。 要求:做出决策表。

车工 材料员 V V V V 技术员 V V 优化后的决策表如下: 条件及行 动说明 1 2 3 4 5 7 8 9 10 11 12 年龄 <20 w 20 (20,50] (20,50] (20,50] (20,50] (20,50] (20,50] 药0 药0 药0 文化程度 小学 中学 小学 小学 中学 中学 大专 大专 小学 中学 大专 性别 - - 男 女 男 女 男 女 - - - 脱产学习 V 电工 钳工 V V 车工 V V 材料员 V V 技术员 V V V 2、试画出某企业库存量监控处理的判断树 若库存量w 0,按缺货处理;若库存量w 库存下限,按下限报警处 理; 若库存量〉库存下限,而又w 储备定额,则按订货处理;若库存量〉库 存下限,而又>储备定额,则按正常处理;若库存量》 库存上限,又〉储 备定额,则按上限报警处理。 缺货处理 3某货运站收费标准如下: 、库存上限 上限报警 若收件地点在本省,则快件6..元/公 若收件地点在外省/则库存下限 4元/公斤; v 库存上 正常处理 以内(包括25公斤),快件8元/公斤, 慢件6元/公斤;而超过25公斤时储快件10元/公斤,慢件货处元/公斤; w 库存下 下限报警 库存量

MIS决策树&决策表

1、某企业仓库发货方案如下:在欠款时间30天(含)以内的,如果需求量不大于库存量,则立即发货,否则先按库存发货,进货后再补发;欠款时间在30天以上60天(含)以内的,如果需求量不大于库存量,先付款再发货,否则不发货;欠款时间在60天以上的,通知先交欠款。画出反映此方法的判定表和判定树。 参考答案: 2、请根据以下描述的逻辑关系绘出决策树和决策表: 移动通信公司为促进业务的发展发行各种优惠卡,其中包括金卡、银卡和普通卡三种,用户可以根据其信用度享受不同额度的透支。其中金卡、银卡和普通卡允许透支的额度分别为1000元、500元和100元。发卡的规则如下: 从未发生过话费拖欠,且每月通话费在300元(含)以上者可获金卡,每月通话费在150元(含)以上者可获银卡,低于150元者可获普通卡;发生过话费拖欠,能在规定时间内补清欠款,每月通话费在300元(含)以上者可获银卡,每月通话费在150元(含)以上者可获普通卡;发生过话费拖欠,并未能在规定时间内补清欠款,无论每月话费多少均不能获得优惠卡。

参考答案: 3、邮寄包收费标准如下:若收件地点在1000公里以内,普通件每公斤2元,挂号件每公斤3元。若收件地点在1000公里以外,普通件每公斤2.5元,挂号件每公斤3.5元;若重量大于30公斤,超重部分每公斤加收0.5元。请绘制确定收费决策树、决策表(重量用w 表示)。 参考答案:

4.将下面的判定表改成判定树。 学生奖励处理的判定表

5.请根据以下描述的逻辑关系绘出决策树和决策表: 移动通信公司为促进业务的发展发行各种优惠卡,其中包括金卡、银卡和普通卡三种,用户可以根据其信用度享受不同额度的透支。其中金卡、银卡和普通卡允许透支的额度分别为1000元、500元和100元。发卡的规则如下: 从未发生过话费拖欠,且每月通话费在300元(含)以上者可获金卡,每月通话费在150元(含)以上者可获银卡,低于150元者可获普通卡;发生过话费拖欠,能在规定时间内补清欠款,每月通话费在300元(含)以上者可获银卡,每月通话费在150元(含)以上者可获普通卡;发生过话费拖欠,并未能在规定时间内补清欠款,无论每月话费多少均不能获得优惠卡。 6、某车间对每个工人发月奖金的方法如下:如果产品数量N不超过50件,则按每件10元发奖金;如果超过50件但不超过100件,则超过50件的部分按每件20元发奖金;如果超过100件,则超过100件的部分按每件50元发奖金。试绘制该处理的决策树和结构式语言。

决策树and决策表练习

决策表练习&决策树. 1、某运输公司收取运费的标准如下: ①本地客户每吨5元。 ②外地客户货物重量W在100吨以内(含),每吨8元。

③外地客户货物100吨以上时,距离L在500公里以内(含)超过部分每吨增加7元,距离500公里以上时,超过部分每吨再增加10元。 试画出决策树、决策表,反映运费策略。 2、邮寄包裹收费标准如下: 若收件地点在1000公里以内,普通件每公斤2元,挂号件每公斤3元;若收件地点在1000公里以外,普通件每公斤2.5元,挂号件每公斤3.5元,若重量大于30公斤,超重部分每公斤加收0.5元。绘制收费标准的决策树和决策表(重量用W表示)。

3、某工厂对一部分职工重新分配工作,其原则如下: 年龄不满20岁,文化程度为小学脱产学习,文化程度是中学的为电工。年龄满20岁但不足50岁,文化程度为小学或中学,男性为钳工,女性为车工;文化程度是大学的为技术员。年龄满50岁及50岁以上,文化程度是小学或中学的为材料员;文化程度是大学的为技术员。请画出处理职工分配政策(以文化程度为基准)的决策表、决策树。 4、某学校对教职工拟定奖励策略如下:(1)高级职称且教学评估优秀的奖励1000元,教学效果评估合格的奖励800元;(2)中级职称且教学评估优秀的奖励800元,教学效果评估合格的奖励

500元;(3)初级职称且教学评估优秀的奖励500元。要求画出奖励策略的决策树。 5、某用电量计费系统记费如下:如果按固定价格方法记帐,对耗电量小于100度(不包含100度)的情况,按每月最低费用收费。超过100度时,就按A类计费办法收费。如果按可变价格方法记帐,则对100度以下(不包含100度)耗电量,按A 类计费办法收费,超过100度时按B类计费办法收费。画出上述说明的决策树。 6、某金融部门的贷款发放最高限额问题描述如下:

相关文档
最新文档