数据挖掘-决策树

合集下载

请介绍至少四种典型的机器学习和数据挖掘算法

请介绍至少四种典型的机器学习和数据挖掘算法
1. 决策树：决策树是最常见的机器学习算法之一，是一种将数据（此
处即有关问题的观察和测量数据）映射到潜在结果（由结论和动作组成）的分类方法。

它通常适用于复杂的问题，可以自动分析和分类数据，从而有助于解决现实世界中的挑战性问题。

2. 聚类分析：聚类分析是一种机器学习和数据挖掘算法，它使用输入
数据创建一组相似元素的分组，并将不相似元素分为不同组。

它是一
种无监督学习，无需有任何先验知识，可以自动分析出模式和结构。

3. 线性回归：线性回归是机器学习中最重要的算法之一，它旨在为某
个变量或结果预测另一个变量或结果的值。

它允许我们预测和解释现
实世界中的客观观察。

通过线性回归，可以找到数据变量之间的关系，并应用该关系预测另一变量的值。

4. 支持向量机：支持向量机（SVM）是一种机器学习技术，它可以用
来解决分类和回归问题。

它不同于传统的感知机技术，能够解决非线
性问题。

它可以用来构建分类器，识别明确的目标和特征，通过拟合
相关性分析，以对不同的对象实行有效的分类。

常用的数据挖掘算法

常用的数据挖掘算法
数据挖掘是从大量数据中自动提取出有用的信息和模式的过程。

常用的数据挖掘算法包括以下几种：
1. 决策树算法：决策树是一种基于树形结构的分类算法。

它将数据集分成一系列的小集合，每个小集合对应于一个决策树上的节点。

决策树使用不同的属性来分类数据，并通过树的分支来描述分类过程。

2. 聚类算法：聚类算法是一种无监督学习算法，它将数据集分成一些相似的组或集群。

聚类算法基于数据点之间的相似度或距离来判断它们是否属于同一组。

3. 关联规则算法：关联规则算法是一种用于发现数据集中各种物品之间关系的算法。

它通过分析数据集中的项集，发现不同项之间的关联性，并生成有用的规则。

4. 神经网络算法：神经网络算法是一种通过模拟人脑神经系统来处理信息的算法。

它通过学习数据集中的模式来构建模型，并使用该模型进行预测和分类。

5. 支持向量机算法：支持向量机算法是一种用于分类和回归的监督学习算法。

它使用一种称为“核函数”的方法将数据映射到高维空间中，使得数据在该空间中能够被更好地分离。

以上是常用的数据挖掘算法，它们在不同的应用场景下具有不同的优点和局限性。

数据挖掘-决策树PPT资料48页

info([2,3],[4,0],[3,2])=0.693位计算信息增益 info([9,5])- info([2,3],[4,0],[3,2]) =
0.247位选择获得最大信息增益的属性进行划分
划分过程的终止
当所有叶节点都是纯的。
因训练集包含两个具有相同属性集，但具有不同类的实例。
ID3代表归纳决策树(induction decision—tree)版本 3，它是一种用来由数据构造决策树的递归过程。
lD3算法的步骤
1. 试探性地选择一个属性放置在根节点，并对该属性的每个值产生一个分支。
2. 分裂根节点上的数据集，并移到子女节点，产生一棵局部树(partial tree)。
决策树作用(2)
决策树的主要作用是揭示数据中的结构化信息。决策树汇总了数据，并揭示了其中隐藏的结构：
规则：
如果血压高，则采用药物A。
如果血压低，则采用药物B。
如果血压正常。年龄小于或等于 40，则采用药物 A，否则采用药物B。
准确率、支持度、错误率
该例得到的规则和对应的准确率和支持度是：
如果血压高，则采用药物A(准确率100％，支持度 3／12)。
如果血压低，则采用药物B(准确率100％，支持度 3／12)。
如果血压正常并且年龄小于或等于40，则采用药物A(准确率100％，支持度3／12)。
如果血压正常并且年龄大于40。则采用药物B(准确率100％，支持度3／12)。
3. 对该划分的质量进行评估。 4. 对其他属性重复该过程。 5. 每个用于划分的属性产生一棵局部树。 6. 根据局部树的质量，选择一棵局部树。 7. 对选定的局部树的每个子女节点重复以上1-6步。 8. 这是一个递归过程。如果一个节点上的所有实例

分类分析--决策树（经典决策树、条件推断树）

分类分析--决策树（经典决策树、条件推断树）分类分析--决策树决策树是数据挖掘领域中的常⽤模型。

其基本思想是对预测变量进⾏⼆元分离，从⽽构造⼀棵可⽤于预测新样本单元所属类别的树。

两类决策树：经典树和条件推断树。

1 经典决策树经典决策树以⼀个⼆元输出变量（对应威斯康星州乳腺癌数据集中的良性/恶性）和⼀组预测变量（对应九个细胞特征）为基础。

具体算法如下：(1) 选定⼀个最佳预测变量将全部样本单元分为两类，实现两类中的纯度最⼤化（即⼀类中良性样本单元尽可能多，另⼀类中恶性样本单元尽可能多）。

如果预测变量连续，则选定⼀个分割点进⾏分类，使得两类纯度最⼤化；如果预测变量为分类变量（本例中未体现），则对各类别进⾏合并再分类。

(2) 对每⼀个⼦类别继续执⾏步骤(1)。

(3) 重复步骤(1)~(2)，直到⼦类别中所含的样本单元数过少，或者没有分类法能将不纯度下降到⼀个给定阈值以下。

最终集中的⼦类别即终端节点（terminal node）。

根据每⼀个终端节点中样本单元的类别数众数来判别这⼀终端节点的所属类别。

(4) 对任⼀样本单元执⾏决策树，得到其终端节点，即可根据步骤3得到模型预测的所属类别。

上述算法通常会得到⼀棵过⼤的树，从⽽出现过拟合现象。

结果就是，对于训练集外单元的分类性能较差。

为解决这⼀问题，可采⽤10折交叉验证法选择预测误差最⼩的树。

这⼀剪枝后的树即可⽤于预测。

R中的rpart包⽀持rpart()函数构造决策树，prune()函数对决策树进⾏剪枝。

下⾯给出判别细胞为良性或恶性的决策树算法实现。

（1）使⽤rpart()函数创建分类决策树：#⽣成树：rpart()函数可⽤于⽣成决策树library(rpart)set.seed(1234)dtree <- rpart(class ~ ., data=df.train, method="class",parms=list(split="information"))#rpart() 返回的cptable值中包括不同⼤⼩的树对应的预测误差，因此可⽤于辅助设定最终的树的⼤⼩。

数据挖掘算法：决策树算法如何学习及分裂剪枝

数据挖掘算法：决策树算法如何学习及分裂剪枝
1、决策树模型与学习
决策树（decision tree）算法基于特征属性进行分类，其主要的优点：模型具有可读性，计算量小，分类速度快。

决策树算法包括了由Quinlan提出的ID3与C4.5，Breiman等提出的CART。

其中，C4.5是基于ID3的，对分裂属性的目标函数做出了改进。

决策树模型
决策树是一种通过对特征属性的分类对样本进行分类的树形结构，包括有向边与三类节点：
根节点（root node），表示第一个特征属性，只有出边没有入边；
内部节点（internal node），表示特征属性，有一条入边至少两条出边
叶子节点（leaf node），表示类别，只有一条入边没有出边。

上图给出了（二叉）决策树的示例。

决策树具有以下特点：
对于二叉决策树而言，可以看作是if-then规则集合，由决策树的根节点到叶子节点对应于一条分类规则;
分类规则是互斥并且完备的，所谓互斥即每一条样本记录不会同时匹配上两条分类规则，所谓完备即每条样本记录都在决策树中都能匹配上一条规则。

分类的本质是对特征空间的划分，如下图所示，
决策树学习
决策树学习的本质是从训练数据集中归纳出一组分类规则[2]。

但随着分裂属性次序的不同，所得到的决策树也会不同。

如何得到一棵决策树既对训练数据有较好的拟合，又对未知数据有很好的预测呢？
首先，我们要解决两个问题：。

决策树数据挖掘算法

决策树数据挖掘算法一、什么是决策树算法？决策树算法是一种基于树形结构的数据挖掘算法，它通过将数据集划分成不同的子集来构建一个树形模型，以实现对数据的分类或预测。

决策树算法的优点在于易于理解和解释，并且可以处理具有高度非线性关系的复杂数据集。

二、决策树算法的原理1. 决策树的定义决策树是一种基于树形结构的分类模型，它由节点和边组成。

节点表示一个特征或属性，边表示该属性可能取值之间的关系。

2. 决策树算法流程（1）选择最佳特征作为当前节点；（2）将训练集按照该特征进行划分，并创建子节点；（3）对每个子节点递归执行步骤（1）和（2），直到所有叶子节点都为同一类别或无法再划分为止。

3. 决策树算法中用到的概念（1）信息熵：表示数据集纯度或不确定性的度量，计算公式为：$H=-\sum_{i=1}^{n}p_i\log_2p_i$，其中 $p_i$ 表示第 $i$ 个类别在数据集中的占比。

（2）信息增益：表示特征对数据集纯度的提升程度，计算公式为：$IG(D,A)=H(D)-H(D|A)$，其中 $D$ 表示原始数据集，$A$ 表示某个特征。

（3）基尼指数：表示数据集纯度或不确定性的度量，计算公式为：$Gini(D)=\sum_{k=1}^{|\mathcal{Y}|}\sum_{k'\neqk}p_kp_{k'}=1-\sum_{k=1}^{|\mathcal{Y}|}p_k^2$，其中$\mathcal{Y}$ 表示类别集合。

（4）基尼增益：表示特征对数据集纯度的提升程度，计算公式为：$GINI(D,A)=Gini(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Gini(D^v)$，其中 $V$ 表示特征 $A$ 取值的个数，$D^v$ 表示特征 $A=v$ 的样本子集。

三、决策树算法的优缺点1. 优点（1）易于理解和解释；（2）能够处理具有高度非线性关系的复杂数据集；（3）能够同时处理离散型和连续型变量；（4）能够处理多分类问题。

决策树的最佳用途是

决策树的最佳用途是
决策树是一种基于树状结构的分类和预测模型，它能够通过一系列的判断与条件推断，对待分类对象进行自动分类，具有易于理解、易于实现和易于推广的优点。

在实际应用中，决策树模型有着广泛的应用场景，可以用于解决各种分类和预测问题，最佳用途包括以下几个方面：
1. 数据挖掘及分类问题
决策树可用于对数据进行分类和预测，如对客户信用评级、市场营销、疾病诊断、信用卡欺诈检测等领域的数据进行分类。

在数据挖掘中，决策树模型经常被用于探测数据之间的关系、寻找出现频率高的模式，以及发现常见的趋势。

2. 生产过程控制
决策树可以用于生产环境中的过程控制问题，如用于筛选并制定优化过程，提高产品质量和生产效率。

通过在决策树模型中定义和监控不同的生产指标，可以获得对生产过程的全面控制和实时响应。

3. 风险评估和投资决策
决策树可以对各种风险进行量化评估及投资决策，如对不同投资项目的潜在风险进行分类、排序等。

通过建立适合的决策树模型，可以高效地评估风险并输出相
应的决策建议，支持投资决策的决策制定和风险控制。

4. 医学诊断及治疗预测
决策树可以使用在医学领域的诊断和治疗预测中。

通过分析患者的各种症状和病历，决策树模型可以推测出患者可能面临的病症、提供通畅的诊断路径、指导治疗过程，帮助医生更准确地进行诊断和治疗。

总之，决策树模型是一种重要的数据分析和处理工具，可应用于各种领域的分类、预测和决策问题。

在实际运用中，我们可以根据不同的应用场景和实际需求，选择合适的数据集和算法，搭建适合的决策树模型，并进行精准的预测和决策。

python金融数据挖掘决策树题目及答案

python金融数据挖掘决策树题目及答案基本概念决策树（Decision Tree）它通过对训练样本的学习，并建立分类规则，然后依据分类规则，对新样本数据进行分类预测，属于有监督学习。

优点在相对短的时间内，能够对大型数据做出可行且效果良好的结果；使用者不需要了解很多的背景知识，通过决策树就能够直观形象的了解分类规则；1）决策树易于理解和实现2）决策树能够同时处理数值型和非数值型数据逻辑－类比决策树分类的思想类似于找对象，例如一个女孩的母亲要给这个女孩介绍男朋友，于是母女俩有了下面的对话：女儿问：“多大年龄了”；母亲答：“26”女儿接着问：“长得帅不帅？”；母亲答：“挺帅的。

”女儿问：“收入高不？”；母亲答：“不算很高，中等情况”女儿问：“是公务员吗？”；母亲答：“是，在财政局上班”最后，女儿做出决定说：“那好，我去见见！”这个女孩的决策过程就是典型的分类树决策:在来看一个金融场景下的举例：客户向银行贷款的时候，银行对用户的贷款资格做一个评估的流程：首先银行工作人员询问客户是否有房产，如何回答有，则判断客户可以偿还贷款，如果没有则进入第二层的属性判断询问，是否结婚，如何已婚，两个人可以负担的起贷款，则判断为可以偿还，否则进入第三层的属性判断询问，月薪是否超过五千，如果满足，则判断为可以偿还，否则给出不能偿还贷款的结论。

看完上面两个例子，我们可以看出，决策树是非常实用的，下面我们就进入正式案例的讲解；案例实操下面以金融场景举例：（一）情景铺垫用户购买金融产品的过程“类似于”理财，对于P2P平台来说，严格来说，这个过程称之为撮合。

用户在金融平台上充值购买相应期限和约定利率的金融产品，产品到期后，用户有两种选择一种是提现（赎回），另一种就是复投。

对于用户到期赎回的理解是比较简单的，比如你在2018年1月1日买了6个月10万元定存金融产品，那么在2018年7月1日的时候，你可以选择连本带息全部赎回，当然你也可以在到期日选择在平台还款时，继续投资，这个过程就是复投。

数据仓库与数据挖掘技术第六章决策树

第6章决策树方法6.1信息论的基本原理6.1.1信息论原理6.1.2互信息的计算1. 定义2. 出现概率3. 条件概率4. 子集概率5. 子集条件概率6. 信息熵7. 互信息6.2常用决策树算法6.2.1ID3算法1. 基本思想数据仓库与数据挖掘技术图6-1ID3决策树2. 主算法数据仓库与数据挖掘技术图6-2ID3算法流程3. 建树算法4. 实例计算6.2.2C4.5算法1. 信息增益比例的概念2. 连续属性值的处理3. 未知属性值的处理4. 规则的产生5. 案例计算数据仓库与数据挖掘技术图6-3天气结点及其分支图6-4C4.5算法形成的决策树数据仓库与数据挖掘技术6.3决策树剪枝6.3.1先剪枝6.3.2后剪枝6.4由决策树提取分类规则6.4.1获得简单规则图6-5决策树6.4.2精简规则属性数据仓库与数据挖掘技术6.5利用SQL Server 2005进行决策树挖掘6.5.1数据准备6.5.2挖掘模型设置6.5.3挖掘流程图6-6选择数据挖掘技术数据仓库与数据挖掘技术图6-7选择数据源视图图6-8指定表类型数据仓库与数据挖掘技术图6-9指定定型数据图6-10指定列的内容和数据类型图6-11完成数据挖掘结构的创建数据仓库与数据挖掘技术6.5.4挖掘结果分析图6-12挖掘得到的“次级”决策树图6-13挖掘得到的依赖关系图数据仓库与数据挖掘技术图6-14“余额”结点的依赖关系图图6-15与“余额”结点链接强度最强结点示意图数据仓库与数据挖掘技术6.5.5挖掘性能分析图6-16列映射图数据仓库与数据挖掘技术图6-17属性“次级”的预测提升图习题61. 概率分布［0:0625;0:0625;0:125;0:5］的熵是多少？2. 汽车保险例子。

假定训练数据库具有两个属性: 年龄和汽车的类型。

年龄——序数分类。

汽车类型——分类属性。

类——L: 低(风险)，H: 高(风险)。

使用ID3算法做出它的决策树。

数据挖掘十大经典算法

数据挖掘十大经典算法数据挖掘是通过分析大量数据来发现隐藏的模式和关联，提供商业决策支持的过程。

在数据挖掘中，算法起着至关重要的作用，因为它们能够帮助我们从数据中提取有用的信息。

以下是十大经典的数据挖掘算法：1.决策树算法：决策树是一种基于分层选择的预测模型，它使用树状图的结构来表示决策规则。

决策树算法适用于分类和回归问题，并且可以解释性强。

常用的决策树算法有ID3、C4.5和CART。

2.朴素贝叶斯算法：朴素贝叶斯是一种基于概率的分类算法，它假设特征之间是相互独立的。

朴素贝叶斯算法简单有效，适用于大规模数据集和高维数据。

3.支持向量机（SVM）算法：SVM是一种针对分类和回归问题的监督学习算法，它通过构建一个最优的超平面来实现分类。

SVM在处理非线性问题时使用核函数进行转换，具有较强的泛化能力。

4.K近邻算法：K近邻是一种基于实例的分类算法，它通过找到与目标实例最接近的K个邻居来确定目标实例的类别。

K近邻算法简单易懂，但对于大规模数据集的计算成本较高。

5.聚类算法：聚类是一种无监督学习算法，它将相似的实例聚集在一起形成簇。

常用的聚类算法有K均值聚类、层次聚类和DBSCAN等。

6.主成分分析（PCA）算法：PCA是一种常用的降维算法，它通过线性变换将原始数据转换为具有更少维度的新数据。

PCA能够保留原始数据的大部分信息，并且可以降低计算的复杂性。

7. 关联规则算法：关联规则用于发现项集之间的关联关系，常用于市场篮子分析和推荐系统。

Apriori算法是一个经典的关联规则算法。

8.神经网络算法：神经网络是一种模仿人脑神经元通信方式的机器学习算法，它能够学习和适应数据。

神经网络适用于各种问题的处理，但对于参数选择和计算量较大。

9.随机森林算法：随机森林是一种基于决策树的集成学习算法，它通过建立多个决策树来提高预测的准确性。

随机森林具有较强的鲁棒性和泛化能力。

10.改进的遗传算法：遗传算法是一种模拟生物进化过程的优化算法，在数据挖掘中常用于最优解。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

创建Analysis Services 项目更改存储数据挖掘对象的实例创建数据源视图创建用于目标邮件方案的挖掘结构创建目标邮件方案的第一步是使用Business Intelligence Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。

在本任务中，您将基于Microsoft 决策树算法创建初始挖掘结构。

若要创建此结构，需要首先选择表和视图，然后标识将用于定型的列和将用于测试的列1.在解决方案资源管理器中，右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上，单击“下一步”。

3.在“选择定义方法”页上，确保已选中“从现有关系数据库或数据仓库”，再单击“下一步”。

4.在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术？”下，选择“Microsoft 决策树”。

5.单击“下一步”。

6.在“选择数据源视图”页上的“可用数据源视图”窗格中，选择Targeted Mailing。

可单击“浏览”查看数据源视图中的各表，然后单击“关闭”返回该向导。

7.单击“下一步”。

8.在“指定表类型”页上，选中vTargetMail 的“事例”列中的复选框以将其用作事例表，然后单击“下一步”。

稍后您将使用ProspectiveBuyer 表进行测试，不过现在可以忽略它。

9.在“指定定型数据”页上，您将为模型至少标识一个可预测列、一个键列以及一个输入列。

选中BikeBuyer行中的“可预测”列中的复选框。

10.单击“建议”打开“提供相关列建议”对话框。

只要选中至少一个可预测属性，即可启用“建议”按钮。

“提供相关列建议”对话框将列出与可预测列关联最密切的列，并按照与可预测属性的相互关系对属性进行排序。

显著相关的列（置信度高于95%）将被自动选中以添加到模型中。

查看建议，然后单击“取消”忽略建议。

11.确认在CustomerKey行中已选中“键”列中的复选框。

12.选中以下行中“输入”列中的复选框。

可通过下面的方法来同时选中多个列：突出显示一系列单元格，然后在按住Ctrl 的同时选中一个复选框。

1.AgemuteDistance3.EnglishEducation4.EnglishOccupation5.Gender6.GeographyKey7.HouseOwnerFlag8.MaritalStatus9.NumberCarsOwned10.NumberChildrenAtHome11.Region12.TotalChildren13.YearlyIncome13.在该页的最左侧的列中，选中以下行中的复选框。

1.AddressLine12.AddressLine23.DateFirstPurchase4.EmailAddress5.FirstNamestName确保这些行仅选择了左侧列中的复选标记。

这些列将添加到结构中，但不会包含在模型中。

但是，模型生成后，它们将可用于钻取和测试。

有关钻取的详细信息，请参阅针对挖掘模型和挖掘结构使用钻取（Analysis Services –数据挖掘）。

14.单击“下一步”。

检查和修改每列的内容类型和数据类型15.在“指定列的内容和数据类型”页上，单击“检测”运行用来确定每列的默认数据类型和内容类型的算法。

16.查看“内容类型”和“数据类型”列中的各项；如有必要，请进行更改，以确保设置与下表所示一致。

通常，向导会检测数值，并分配相应的数值数据类型；但有些情况下，您可能想要将数值作为文本处理。

例如，GeographyKey 应作为文本处理，因为对此标识符进行数学运算是不对的。

17.单击“下一步”。

指定测试集1.在“创建测试集”页上，将“测试数据百分比”保留其默认值：30。

2.对于“测试数据集中的最大事例数”，请键入1000。

3.单击“下一步”。

指定钻取可以针对模型和结构启用钻取。

该窗口中的复选框针对命名模型启用钻取，并允许您从用来为模型定型的模型事例检索详细信息。

如果基础挖掘结构也已经配置为允许进行钻取，则可以从模型事例和挖掘结构返回详细信息（其中包括挖掘模型中所不包含的列）。

有关详细信息，请参阅针对挖掘模型和挖掘结构使用钻取（Analysis Services –数据挖掘）命名模型和结构并指定钻取1.在“完成向导”页上的“挖掘结构名称”中，键入TargetedMailing。

2.在“挖掘模型名称”中，键入TM_Decision_Tree。

3.选中“允许钻取”复选框。

4.查看“预览”窗格。

请注意，仅显示出那些选作“键”、“输入”或“可预测”的列。

您选择的其他列（例如，AddressLine1）不能用于生成模型，但是将在基础结构中可用，您可以在处理和部署模型之后查询这些列。

创建聚类分析挖掘模型1.切换到Business Intelligence Development Studio 中数据挖掘设计器的“挖掘模型”选项卡。

请注意，设计器显示两列，一列是挖掘结构，另一列是在前一课中创建的TM_Decision_Tree挖掘模型。

2.右键单击“结构”列，选择“新建挖掘模型”。

3.在“新建挖掘模型”对话框中的“模型名称”中，键入TM_Clustering。

4.在“算法名称”中，选择“Microsoft 聚类分析”。

5.单击“确定”。

新模型现在显示在数据挖掘设计器的“挖掘模型”选项卡中。

此模型是用Microsoft 聚类分析算法生成的，它将具有相似特征的客户进行分类并预测每个分类的自行车购买行为。

虽然您可以修改新模型的列用法和属性，但在本教程中不需要对TM_Clustering模型进行任何更改。

创建Naive Bayes 挖掘模型1.在数据挖掘设计器的“挖掘模型”选项卡中，右键单击“结构”列，并选择“新建挖掘模型”。

2.在“新建挖掘模型”对话框中的“模型名称”下，键入TM_NaiveBayes。

3.在“算法名称”中，选择Microsoft Naive Bayes，再单击“确定”。

此时将显示一条消息，说明Microsoft Naive Bayes 算法不支持Age和Yearly Income列，这些都是连续列。

4.单击“是”，以确认此消息并继续下面的操作。

设置HoldoutSeed1.在Business Intelligence Development Studio 的数据挖掘设计器中，单击“挖掘结构”选项卡或“挖掘模型”选项卡。

Targeted Mailing MiningStructure 显示在“属性”窗格中。

2.确保按F4可以打开“属性”窗格。

3.确保CacheMode已设置为KeepTrainingCases。

4.为HoldoutSeed输入12。

部署并处理模型在数据挖掘设计器中，可以处理挖掘结构、与挖掘结构关联的特定挖掘模型，或者结构以及与该结构关联的所有模型。

在本任务中，我们将同时处理结构和所有模型。

部署项目并处理所有挖掘模型1.在“挖掘模型”菜单上选择“处理挖掘结构和所有模型”。

如果更改了结构，系统将提示您在处理模型之前生成和部署项目。

单击“是”。

2.在“处理挖掘结构- Targeted Mailing”对话框中单击“运行”。

“处理进度”对话框将打开以显示有关模型处理的详细信息。

模型处理可能需要一些时间，具体取决于您的计算机。

3.模型处理完成后，在“处理进度”对话框中单击“关闭”。

4.在“处理挖掘结构 - <结构>”对话框中单击“关闭”。

在“决策树”选项卡中浏览模型1.在“数据挖掘设计器”中，选择“挖掘模型查看器”选项卡。

默认情况下，设计器将打开添加到结构中的第一个模型（在本例中为TM_Decision_Tree）。

2.使用放大镜按钮调整树的显示大小。

默认情况下，Microsoft 树查看器仅显示树的前三个级别。

如果树级别不到三个，则查看器仅显示现有级别。

可以使用“显示级别”滑块或“默认扩展”列表查看更多级别。

3.将“显示级别”滑到第四条。

4.将“背景”值更改为1。

通过更改“背景”设置，可以迅速查看每个节点中[Bike Buyer] 的目标值为1的事例的数量。

请注意，在这种特定的情况下，每个事例均表示一个客户。

值1指示该客户之前购买了自行车；值0指示该客户尚未购买自行车。

节点的底纹颜色越深，节点中具有目标值的事例所占的百分比越大。

5.将光标放在标记为“全部”的节点上。

将出现显示以下信息的工具提示：∙事例总数∙非自行车购买者事例的数量∙自行车购买者事例的数量∙缺少[Bike Buyer] 值的事例的数量或者，将光标放在树中的任何节点上，查看从上级节点到达该节点所需的条件。

还可以在“挖掘图例”中查看同样的信息。

6.单击“Age >=34 且< 41”的节点。

直方图将显示为一个穿过该节点的窄水平条，并表示此年龄范围中以前买过自行车的客户（粉色）和没有买过自行车的客户（蓝色）的分布情况。

查看器显示：没有汽车或者有一辆汽车、年龄在34 到40 的客户有可能购买自行车。

再进一步考察发现，实际年龄在38 到40 的客户购买自行车的可能性会增加。

由于您在创建结构和模型时启用了钻取，因此，可以从模型事例和挖掘结构中检索详细的信息，其中包括挖掘模型中所不包含的列（例如，emailAddress 和FirstName）。

有关详细信息，请参阅针对挖掘模型和挖掘结构使用钻取（Analysis Services –数据挖掘）。

钻取到事例数据1.右键单击某个节点，然后依次选择“钻取”和“仅限模型列”。

每个定型事例的详细信息将以电子表格方式显示。

这些详细信息来自您在生成挖掘结构时选作事例表的vTargetMail 视图。

2.右键单击某个节点，然后依次选择“钻取”和“模型和结构列”。

将显示同一个电子表格，并在末尾处附加结构列。

“依赖关系网络”选项卡“依赖关系网络”选项卡显示决定挖掘模型预测能力的各个属性之间的关系。

依赖关系网络查看器进一步证实了我们的发现：年龄和地区是预测自行车购买行为的重要因素。

在“依赖关系网络”选项卡中浏览模型1.单击Bike Buyer节点以确定它的依赖关系。

依赖关系网络的中间节点(Bike Buyer) 表示挖掘模型中的可预测属性。

粉色阴影指示所有属性都会对自行车购买行为产生影响。

2.调整“所有链接”滑块可确定影响最大的属性。

向下滑动滑块时，将只保留对[Bike Buyer] 列影响最大的属性。

通过调整滑块，可以发现年龄和地区是预测个人自行车购买行为的最主要因素Microsoft 聚类分析算法将事例分组为包含类似特征的分类。

在浏览数据、标识数据中的异常及创建预测时，这些分组十分有用。

Microsoft 分类查看器提供了以下选项卡，用于浏览聚类分析挖掘模型：以下部分介绍如何选择适当的查看器以及如何浏览其他挖掘模型。