SPSS Modeler数据挖掘操作之分类回归树的基本应用示例

合集下载

基于IBM SPSS Modeler 14.2的数据挖掘

基于IBM SPSS Modeler 14.2的数据挖掘

基于IBM SPSS Modeler14.2的数据挖掘对某公司销售记录进行分析。

该公司在2012.7.13-2010.8.17进行了发放优惠劵活动,产生了1291条记录,9个字段,每个字段的意义如表1所示。

数据可以到下面地址下载:http://61.129.34.202/BIweb/eBay_business_case_v3.0.xlsx。

表1 记录中字段的意义字段名字段类型字段意义Cmpgn_name 标志活动名,均为Coupon campaign nameControl_yn 标志购买者类型: 控制:'c', 测试:'t'Redeemer_YN 标志是否为重复购买者: 是:'y', 否:'n'USER_ID 连续购买者IDGender 名义购买者性别: 女:'F',男:'M', 未知:'U'sge 连续购买者年龄, age=-99 意味着信息丢失CK_DATE 连续购买日期BUY_QTY 连续购买商品数量GMB 连续购买金额(美元)下面利用IBM SPSS Modeler 14.2进行决策树、聚类分析、关联分析和回归分析。

(1)决策树分析启动IBM SPSS Modeler 14.2,导入文件。

在工作平台上,添加一个Excel源节点。

双击该节点,文件类型设为“Excel 2007,2010(*.xlsx)”,导入文件为源Excel文件的路径,按名称DATA选择工作表,其他默认设置,如图15.87所示。

图15.87 导入文件查看源数据。

添加一个“表”节点,运行该表节点。

如图15.88所示,共有9个字段,1291条记录。

图15.88源数据下面首先利用C5.0算法进行决策树分析,探讨客户的年龄、性别、单次购买量、单次购买金额与购买者是否重复购物的关系。

添加“类型”节点。

在数据源节点后添加一个类型节点,把gender、age、BUY_QTY和GMB的角色设为数据流的输入,redeemer_yn的角色设为目标,其他的角色设为无,如图15.89所示。

SPSS Modeler数据挖掘 第四讲

SPSS Modeler数据挖掘 第四讲

确定每一步特征空间划分标准时,都同时兼顾由此将 形成的两个区域,希望划分形成的两个区域所包含的 样本点尽可能同时“纯正”
决策树算法概述:核心问题

第一,决策树的生长 利用训练样本集完成决策树的建立过程 第二,决策树的剪枝 利用测试样本集对所形成的决策树进行精简

决策树算法概述:树生长

P(u 2 | v1 ) P11 P21 P(u 2 | v2 ) P12 P22
C5.0算法:熵


先验不确定性:通信发生前,信宿对信源的状态具 有不确定性 后验不确定性:通信发生后,信宿收到发自信源的 信息,先验不确定性部分被消除,信宿对信源仍有 一定程度的不确定性 后验不确定性等于先验不确定性,表示信宿没有 收到信息; 后验不确定性等于零,表示信宿收到了全部信息 信息是用来消除随机不确定性的,信息量的大小 可由所消除的不确定性大小来计量
分类预测:决策树(一)
主要内容



决策树算法概述 从学习角度看,决策树属有指导学习算法 目标:用于分类和回归 C5.0算法及应用 分类回归树及应用 模型的对比分析
决策树算法概述:基本概念

得名其分析结论的展示方式类似一棵倒置的树
•根节点 •叶节点 •中间节点 •2叉树和多 叉树
决策树算法概述:特点



信息熵等于0,表示只存在唯一的信息发送可能, P(ui)=1,没有发送的不确定性; 如果信源的k个信号有相同的发送概率,P(ui)=1/k, 则信息发送的不确定性最大,信息熵达到最大 P(ui)差别小,信息熵大,平均不确定性大;反之
C5.0算法:信息增益

已知信号U的概率分布P(U)且收到信号V=vj,发出信 号的概率分布为P(U|vj),信源的平均不确定性:

基于IBM-SPSS-Modeler-14.2的客户数据挖掘

基于IBM-SPSS-Modeler-14.2的客户数据挖掘

基于IBM SPSS Modeler 14.2的客户数据挖掘IBM SPSS Modeler 14.2是一个从大量数据中挖掘有用模式的企业级数据分析平台,遵循跨行业数据挖掘流程标准(CRISP-DM)。

从数据源到数据建模,IBM SPSS Modeler 14.2提供了丰富的数据挖掘流程各个阶段需要的组件。

IBM SPSS Modeler 14.2包含数据获取、数据预处理、数据建模、评估和部署等一系列步骤,分析人员可通过拖放方式组合节点完成数据挖掘流程(以下简称数据流)。

IBM SPSS Modeler 14.2主界面如图 1 所示,包括流工作区、节点选项卡、管理器和IBM SPSS Modeler工程。

其中流工作区主要是用于创建数据流,用户可以把节点选项卡下的组件直接拖放到流工作区。

节点选项卡有多种节点:数据源、记录选项、字段选项、图形、建模、输出和导出等。

管理器主要用于管理输出和模型,用户可以对这些输出和模型进行打开、重命名、保存和删除等操作。

IBM SPSS Modeler工程允许用户以CRISP-DM模式管理数据流。

图1 IBM SPSS Modeler主界面IBM SPSS Modeler 14.2允许用户直接手动输入数据和把可变文件、Statistics文件、SAS文件、Excel和XML等多种数据导入,以供数据分析。

在导入数据后,需要对数据进行预处理。

IBM SPSS Modeler 14.2提供丰富的数据预处理组件,主要包括记录预处理和字段预处理。

其中在记录预处理中,提供了选择、抽样、汇总、排序、合并和追加等组件。

字段预处理包括类型、过滤、导出、分箱、字段重排、自动数据准备和分区等组件。

IBM SPSS Modeler 14.2提供了各种来自机器学习和统计学的建模方法,如分类、关联、聚类、序列和回归等模型。

本章应用IBM SPSS Modeler 14.2平台的几种常用数据挖掘算法,对客户交易的数据进行分析,获取客户管理有用的知识。

数据挖掘第19讲SPSSModeler分类课件

数据挖掘第19讲SPSSModeler分类课件
基于学
习方式
基于连
接方式
神经网络节点构成
W1
W2



激活函

神经网络激活函数
➢ 阀值函数(阶跃函数)
() =
1 (当v大于等于0时)
0 (当v小于0时)
➢ 分阶段函数
➢ Sigmoid函数(S型函数)
1
() =
1 − −
神经网络建立步骤
① 数据处理(去除变量间的量纲影响、分类型变量
案例背景
中国电信市场的用户通常都为刚需用户,不存
A
在用户不再使用电信业务。但各大运营商之间
却存在巨大的竞争,尤其是各家运营商之间的
很多服务几乎都是交叉重叠的服务,因此用户
D
ABCD
B
通常会由于某些原因离网转而使用其它运营商
的服务。为有效减少自家用户的流失,运营商
通常会基于自身的数据做一些分析来最大限度


阴天
凉爽
正常


阴天
凉爽



阴天

正常


下雨
凉爽



C5.0计算步骤
① 计算目标变量(是否打球)不确定性
I(是否打球)
② 计算各个输入变量的熵
E(是否打球|天气)、……、E(是否打球|是否有风)
③ 计算各个输入变量的信息增益
Gain(是否打球|天气)、 ……、 Gain(是否打球|是否有风)
14 14
14
计算步骤
Step 2:计算每个属性的信息增益(以天气为例)
天气
是否打球
=
“是”
是否打球

SPSS Modeler数据挖掘 第五讲

SPSS Modeler数据挖掘 第五讲


异质性下降指标:
Nl Nr R(t ) R(t ) R(t r ) R(t l ) N N
•从分组变量的众多取值中找到最佳分割点:同上
CART:剪枝算法


预修剪策略 决策树最大深度 父节点和子节点所包含的最少样本量或比例 树节点中输出变量的最小异质性减少量 后修剪策略 根据一定的规则,剪去决策树中的那些不具有 一般代表性的叶节点或子树 CART依次给出所有可能子树,从中挑选一棵 如何得到这些子树?挑选标准是什么?
效益评价:收益评价(单个节点)

响应%和收益%:意味追求高响应%吗? 低响应%和低收益%的规则,不理想 例:甲壳虫人群100人,90人购买,10不购买

IF 年轻富婆 THNE 买 10人,响应%=100%(高),收益%=10/90(低) 90人,响应%=70%(中低),收益%=63/90(高)
( s, t ) pl pr | p( j | tl ) p( j | tr ) | j

2
Ordered策略:适用于定序型输入变量,只 有两个连续的别类才可合并成超类
CART:生长算法(回归树)

异质性指标:方差
1 N R(t ) ( yi (t ) y (t ))2 N 1 i 1
效益评价:收益评价(单个节点)


收益:对具有某类特征的数据,输入和输出变量 取值规律的提炼的能力 针对用户关心的“目标”类别。例:流失 yes 收益评价指标 【收益:n】:节点中样本属目标类别的样本量 【响应(%)】:节点中样本属目标类别的样本 量占本节点样本的百分比(置信程度) 【收益(%)】:节点中样本属目标类别的样本 量占目标类别总样本的百分比(适用广泛性)

数据挖掘SPSSMODELER教程第二十课:回归与决策树增补

数据挖掘SPSSMODELER教程第二十课:回归与决策树增补

连续、分类、标志 、名义、有序
连续、分类、标志 、名义、有序
连续、分类、标志 、名义、有序
连续、分类、标志 、名义、有序
连续、分类、标 志、名义、有 序
分类、标志、名 义
连续、分类、标 志、名义、有 序
标志、名义、有 序
目标 数量
1
1
1
1
SPSS Modeler 数据挖掘项目
第二十课:回归与决策树增补回顾
回归分析
基本理解:常见分布、步进方法、交互效应、回归系数、标化、无量纲化、显著性、 置信水平、置信区间、修正R2、Z分数、T检验、F检验、条件数、VIF。。。。。。 迭代算法的理解(牛顿迭代、Fisher迭代、欧拉迭代、雅克比迭代。。。。)
代算法的理解;
标志、名义
、有序
COX
与时间相关;可以无输入,但必须选择一个时 连续、分类、
标志
1
间字段;
标志、名义
、有序
决策树
算法
特点
input output
C&R QUEST CHAID C5.0
二叉;离差;可先验;
二叉;卡方检验与方差检验;可 先验;
多叉;卡方检验;不可先验;
多叉;信息度量;不可先验;
模型 回归
特点 线性、变量独立、正态分布、方差齐性
input
连续
output
连续
目标 数量
1பைடு நூலகம்
Logistic 可作为建模基准; 线性 线性、变量独立、正态分布、方差齐性
连续、分类、 标志、名义
1
标志、名义
、有序
连续、分类、 连续
1
标志、名义
、有序
Genlin 灵活、适用性强;分布与链接函数的理解;迭 连续、分类、 连续、标志 1

数据挖掘-决策树-分类和回归树

数据挖掘-决策树-分类和回归树
– Shannon- 信息论之父;
– 将信息传输看做一种统计学现象,并且为通信 工程师提供一种方法,使用普通的二进制位流 确定通信信道的容量 —bit 。
4.2.2 信息论和信息熵
? 熵:
– 源于热力学概念; – 热力学熵( S):物理系统中不能用来做功的
能量的一种度量,也是系统无序性的一种度量; – 在构造决策树上的应用;
? 利用卡方自动交互检测法可以快速、有效 地挖掘出主要的影响因素,它不仅可以处 理非线性和高度相关的数据,而且可以将 缺失值考虑在内,能克服传统的参数检验 方法在这些方面的限制,结果的解释也简 单明了。
4.3.3 CHAID 算法
? 卡方自动交互检测法的分类过程是:
– 首先选定分类的反应变量;
– 然后用解释变量与反应变量进行交叉分类,产 生一系列二维分类表,分别计算二维分类表的 X2值,比较P 值的大小,以 P 值最小的二维表作 为最佳初始分类表,在最佳二维分类表的基础 上继续使用解释变量对反应变量进行分类;
? 决策树的主要作用是揭示数据中的结构化 信息。
4.1 引言
? 决策树算法用于树生长的策略,主要问题:
– 选择分类变量的标准; – 找到被选择的变量的分裂点的标准; – 确定何时停止树生长过程的标准。
? 本章所讨论的算法,他们主要差别是用来 处理上述问题1 ,2 的标准不同。
4.1 引言
? 如果目标变量(相应变量或类变量)是标 称/ 分类变量,称此树为分类树;
? 如果目标变量是连续的(收入),则称为 回归树。
4.2 构造分类树
? 4.2.1 用于标称属性的ID3 算法
– ID3 :归纳决策树版本 3,是一种用来数据构 造决策树的递归过程;
– 我们试探性的选择一个属性放置在根节点,并 对这个属性的每个值产生一个分支;

SPSS Modeler 建立线性回归模型

SPSS Modeler 建立线性回归模型

Modeler 建立线性回归模型示例线性回归模型是一种常用的统计学模型。

IBM SPSS Modeler 是一个强大的数据挖掘分析工具,本文将介绍如何用它进行线性回归预测模型的建立和使用。

在本文中,将通过建立一个理赔欺诈检测模型的实例来展示如何利用IBM SPSS Modeler 建立线性回归预测模型以及如何解释及应用该模型。

回归分析(Regression Analysis)是一种统计学上对数据进行分析的方法,主要是希望探讨数据之间是否有一种特定关系。

线性回归分析是最常见的一种回归分析,它用线性函数来对因变量及自变量进行建模(自变量和因变量都必须是连续型变量),这种方式产生的模型称为线性模型。

线性回归模型由于其运算速度快、直观性强以及参数易于确定等特点,在实践中应用最为广泛,也是建立预测模型的重要手段之一。

IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。

在后面的文章中,将通过一个理赔欺诈检测的实际商业应用来介绍如何用IBM SPSS Modeler 建立、分析及应用线性回归分析模型。

用线性回归建立理赔欺诈检测模型在本例中,用于建立模型的数据存放在InsClaim.dat 中,该文件是一个CSV 格式的数据文件,存储了某医院以往医疗保险理赔的历史记录。

该文件共有293 条记录,每条记录有 4 个字段,分别是ASG(疾病严重程度)、AGE(年龄)、LOS(住院天数)和CLAIM(索赔数额)。

图1 显示了该数据的部分内容。

图 1. 历史理赔数据文件任务与计划基于已有的数据,我们的任务主要有如下内容:∙建立理赔金额预测模型,该模型将基于病人的疾病严重程度、住院天数及年龄预测其索赔金额。

∙假设模型匹配良好,分析那些与预测误差较大的病人资料。

∙通过模型来进行索赔欺诈预测。

根据经验及对数据进行的初步分析(这个数据初步分析可以通过IBM SPSS Modeler 的功能实现,此处不是重点,故不做深入介绍),可以猜测理赔金额与疾病严重程度、住院天数以及年龄存在线性相关关系,因此我们将首先选用线性回归模型进行建模,因此可以得到下面这样一个初步计划:∙应用线性回归分析来建立模型。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析目标是:找到影响客户流失的重要因素以辅助实现客户流失的事件控制
具体操作
3
将Telephone.sav数据源添加到数据流编辑窗口,并在该节点的【类型】选 项卡,完成读取数据。
选择【建模】选项卡中的【C&R树】节点,连接到数据源后面,如图所示
具体操作
4
右键单击【C&R树】节点,选择【编辑】选 项进行节点参数设置。
【 C&R树】节点的参数设置包括“字段”、 “构建选项”、“模型选项”和“注释”, 此处只介绍“构建选项”选项卡。
具体操作-【构建选项】选设置分类 回归树的主要参数,包括目标、基 本、停止规则、成本和先验、整体、 高级六类,如图所示
具体操作-【构建选项】选项卡设置
6
【目标】选项中指定决策树的建立模 式。
具体操作-【构建选项】选项卡设置
7
【基本】选项中设置分类回归树的与 修剪和后修剪的基本参数。
在【最大树状图深度】框中指定分类 回归树不包括根节点在内的最大数深 度
8
【停止规则】选项中设置分类回归树 与修剪的其他参数
9
在【成本和先验】选项卡中设置损失矩阵 和先验分布,通常先验分布可以使基于训 练样本的,也可以指定为等概论分布。
10
在【整体】选项卡中指定使用策略时建立 模型的个数,以及与测试应如何采纳个模 型的预测结果。
11
【高级】选项卡中设置分类回归树建立和 修剪过程的高级参数。
SPSS Modeler数据挖掘操作之
分类回归树的基本应用示例
版权说明
1
本文档操作案例选编自中国人民大学出版社《基于SPSS Modeler的数据挖掘》薛 薇编著,若作者对本资料持有异议,请及时与本网站联系,我们将第一时间妥善 处理。
数据说明
2
以虚拟的典型客户数据为例,讨论回归树的具体操作以及如何通过交互操作 控制决策树的生长和修剪过程
相关文档
最新文档