SPSS关联模型步骤
SPSS因子分析与对应分析

SPSS因子分析与对应分析SPSS(Statistical Product and Service Solutions)是一种广泛应用于社会科学领域的统计分析软件,它提供了多种功能和方法来帮助研究者对数据进行分析。
因子分析和对应分析是SPSS中两种常用的统计方法,用于数据的维度缩减和模式识别,下面将详细介绍这两种方法。
1. 因子分析(Factor Analysis):因子分析是一种用于理解数据结构、推断变量之间的关系,以及确定数据中的潜在因素的统计方法。
这一方法旨在将大量变量缩减为较少的维度,并发现潜在的(或不可观察的)因子。
这些因子通常用于解释数据中的共变异。
在SPSS中,进行因子分析的主要步骤包括:数据准备、可行性检验、提取因子、旋转因子和解释因子。
以下是这些步骤的详细说明:-数据准备:确保数据的正确性和合适性。
选择合适的变量,将不适合进行因子分析的变量进行筛选或删除缺失数据。
- 可行性检验:使用Kaiser-Meyer-Olkin(KMO)测度和Bartlett's球数检验来评估因子分析的适用性。
若KMO值大于0.6且Bartlett's球数检验具有统计显著性,则可以进行因子分析。
-提取因子:使用主成分分析或最大似然法等方法,将数据转化为较少的维度。
确定提取的因子数量和数据的维度。
- 旋转因子:使用方差旋转方法(如Varimax)或最大似然法等,使得因子与原始变量之间具有更好的解释性。
-解释因子:根据旋转后的因子载荷矩阵,解释因子的含义并建立因子模型。
2. 对应分析(Correspondence Analysis):对应分析是一种多变量数据分析方法,用于探索分析观察数据的关联性和差异性,特别是在分类数据分析中非常有用。
这一方法可以绘制两个或多个变量之间的关系图,帮助研究者理解变量之间的关联模式和因素。
在SPSS中,进行对应分析的主要步骤包括:数据准备、计算表格、计算相关系数、计算标准化残差、选择模型和解释结果。
SPSS回归分析

SPSS回归分析SPSS(统计包统计软件,Statistical Package for the Social Sciences)是一种强大的统计分析软件,广泛应用于各个领域的数据分析。
在SPSS中,回归分析是最常用的方法之一,用于研究和预测变量之间的关系。
接下来,我将详细介绍SPSS回归分析的步骤和意义。
一、回归分析的定义和意义回归分析是一种对于因变量和自变量之间关系的统计方法,通过建立一个回归方程,可以对未来的数据进行预测和预估。
在实际应用中,回归分析广泛应用于经济学、社会科学、医学、市场营销等领域,帮助研究人员发现变量之间的关联、预测和解释未来的趋势。
二、SPSS回归分析的步骤1. 导入数据:首先,需要将需要进行回归分析的数据导入SPSS软件中。
数据可以以Excel、CSV等格式准备好,然后使用SPSS的数据导入功能将数据导入软件。
2. 变量选择:选择需要作为自变量和因变量的变量。
自变量是被用来预测或解释因变量的变量,而因变量是我们希望研究或预测的变量。
可以通过点击"Variable View"选项卡来定义变量的属性。
3. 回归分析:选择菜单栏中的"Analyze" -> "Regression" -> "Linear"。
然后将因变量和自变量添加到正确的框中。
4.回归模型选择:选择回归方法和模型。
SPSS提供了多种回归方法,通常使用最小二乘法进行回归分析。
然后,选择要放入回归模型的自变量。
可以进行逐步回归或者全模型回归。
6.残差分析:通过检查残差(因变量和回归方程预测值之间的差异)来评估回归模型的拟合程度。
可以使用SPSS的统计模块来生成残差,并进行残差分析。
7.结果解释:最后,对回归结果进行解释,并提出对于研究问题的结论。
要注意的是,回归分析只能描述变量之间的关系,不能说明因果关系。
因此,在解释回归结果时要慎重。
SPSS常见数据分析方法比较

SPSS常见数据分析方法比较SPSS(Statistical Package for the Social Sciences)是一种流行的统计分析软件,被广泛应用于社会科学研究和商业分析领域。
SPSS提供了各种数据分析方法,帮助用户从数据中提取有用的信息和洞察。
本文将介绍SPSS中常见的数据分析方法,并进行比较。
一、描述性统计分析描述性统计分析是在数据收集和处理阶段非常重要的一步。
通过计算变量的均值、中位数、标准差、最大值、最小值等指标,了解数据的基本分布情况。
SPSS提供了丰富的描述性统计分析方法,包括频数分析、分布分析、交叉报表等。
这些方法可以帮助用户对数据进行初步的分析和认识,为后续的数据分析提供基础。
二、假设检验假设检验是统计分析中常用的方法,用于判断样本数据与总体参数之间的差异是否显著。
SPSS提供了多种假设检验方法,包括t检验、方差分析(ANOVA)、卡方检验等。
这些方法可以帮助用户进行单样本或多样本的假设检验,判断不同组别的数据是否存在显著差异,从而提供统计依据。
三、相关分析相关分析用于研究两个或多个变量之间的关系。
SPSS提供了多种相关分析方法,包括Pearson相关系数分析、Spearman相关系数分析、回归分析等。
这些方法可以帮助用户判断两个变量之间的线性或非线性关系,揭示变量之间的相互关联。
四、回归分析回归分析是一种用于研究因变量与自变量之间关系的统计方法。
SPSS提供了多种回归分析方法,包括线性回归、逻辑回归、多元回归等。
这些方法可以帮助用户建立数学模型,预测因变量的取值,并判断自变量对因变量的影响程度。
五、因子分析因子分析是一种用于探索性因素之间关系的统计方法。
SPSS提供了多种因子分析方法,包括主成分分析、因子旋转等。
这些方法可以帮助用户降维处理多个相关变量,提取出共同因子,并理解变量之间的结构关系。
六、聚类分析聚类分析是一种将个体或对象进行分类的方法,将相似的个体或对象归为一类,不相似的个体或对象归为不同类。
毕业论文SPSS路径分析怎么做?案例解析详解

路径分析1、作用路径分析,一种基于线性回归方法、用于分析错综复杂变量之间路径关系的一种模型。
2、输入输出描述输入:变量对应的路径关系,一般要求输入数据为定量数据。
输出:各变量作用的路径关系或是否成立。
3、案例示例案例:研究“幸福感”的影响因素,有四个变量可能对幸福感有影响,他们分别是:经济水平、受教育程度、身体健康、情感支持。
通过路径分析可以得到这四个变量如图所示路径关系作用于幸福感。
4、案例数据模型要求为变量对应的路径关系,一般要求输入数据为定量数据(案例数据中为幸福度、经济水平、情感支持水平、身体健康水平、受教育程度),路径关系可以参考案例里的路径,这是由调查或者询问专家获得的。
5、案例操作Step1:新建分析;Step2:上传数据;Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;Step4:选择【路径分析】;Step5:查看对应的数据数据格式,【路径分析】要求按照初步假设出模型中各变量的相互关系,绘制成一张清晰的路径分析图;Step6:点击【开始分析】,完成全部操作。
6、输出结果分析输出结果 1:模型路径图图表说明:上表展示了带权路径图,主要包括模型的标准化系数,用于分析路径影响关系情况。
输出结果 2:模型回归系数表图表说明:基于配对项经济水平->情感支持水平,显著性 P 值为 0.000***,水平上呈现显著性,则拒绝原假设,因此此路径有效,其影响系数为 0.489。
基于配对项受教育程度->情感支持水平,显著性 P 值为 0.016**,水平上呈现显著性,则拒绝原假设,因此此路径有效,其影响系数为-0.132。
基于配对项情感支持水平->幸福度,显著性 P 值为 0.025**,水平上呈现显著性,则拒绝原假设,因此此路径有效,其影响系数为 0.233。
基于配对项身体健康水平->幸福度,显著性 P 值为 0.000***,水平上呈现显著性,则拒绝原假设,因此此路径有效,其影响系数为-0.354。
如何使用SPSS进行数据分析和统计

如何使用SPSS进行数据分析和统计章节一:介绍SPSS软件SPSS(Statistical Package for the Social Sciences)是一款被广泛应用于社会科学领域的统计分析软件。
其功能强大,易于使用,可以用于数据的整理、描述性统计、数据分析、模型建立、预测等多种统计分析任务。
本文将重点介绍如何使用SPSS进行数据分析和统计。
章节二:数据导入与整理在使用SPSS进行数据分析前,首先需要将数据导入软件。
SPSS支持导入多种数据格式,如Excel、CSV等。
在导入数据后,需要对数据进行整理和清洗,包括去除无效数据、处理缺失值、设定变量类型、重编码变量等。
这样可以确保数据的质量和准确性。
章节三:描述性统计描述性统计是数据分析的第一步,用于对数据的基本特征进行描述。
SPSS提供了丰富的描述性统计功能,例如计算变量的均值、标准差、频数和百分比等。
此外,还可以通过绘制直方图、柱状图、散点图等图表来展示数据的分布和变化趋势。
章节四:单样本检验单样本检验用于检验一个样本的平均数是否与已知的总体平均数有显著差异。
SPSS中可以使用t检验进行单样本检验。
在进行单样本检验时,需要设定原假设和备择假设,并对数据进行分组和比较。
通过SPSS输出的结果,可以判断样本平均数与总体平均数是否存在显著差异。
章节五:相关分析相关分析用于研究两个或多个变量之间的关系。
SPSS提供了相关系数的计算和相关图的绘制功能,可以清晰地展示变量之间的相关性。
通过相关分析,可以了解变量之间的正向或负向关系,并做出相应的解释和推断。
章节六:回归分析回归分析是一种用于研究自变量与因变量之间关系的方法。
SPSS支持多种回归分析模型,如线性回归、多元回归等。
通过回归分析,可以估计变量之间的影响程度,预测因变量的值,并且可以通过检验回归模型的显著性来评估模型的拟合效果。
章节七:方差分析方差分析用于比较多个样本均值之间的差异是否显著。
SPSS中提供了单因素方差分析和多因素方差分析的功能。
如何利用SPSS进行因子分析(七)

因子分析是一种用于探索变量之间关系的统计方法。
在研究中,我们常常需要对大量的变量进行分析,以了解它们之间的关联性。
因子分析可以帮助我们发现变量之间的潜在结构,同时也可以帮助我们减少数据集中的复杂性。
在本文中,我们将探讨如何利用SPSS软件进行因子分析。
1. 数据准备在进行因子分析之前,首先需要准备好数据。
数据可以是定量的,也可以是定性的。
在SPSS中,我们可以通过导入Excel表格或者直接输入数据进行分析。
在导入数据之后,我们需要对数据进行清洗和筛选,确保数据的完整性和准确性。
2. 变量选择在因子分析中,我们需要选择适当的变量进行分析。
通常情况下,我们会选择相关性较高的变量进行分析,以便发现它们之间的潜在结构。
同时,我们也可以通过相关性分析或者变量筛选的方法来确定需要进行因子分析的变量。
3. 因子分析模型在SPSS中进行因子分析的时候,我们需要选择合适的因子分析模型。
通常情况下,我们可以选择主成分分析或者最大似然法进行因子分析。
在选择模型的时候,我们需要考虑数据的性质和研究的目的,以确保选择合适的模型进行分析。
4. 因子提取在进行因子分析的过程中,我们需要对因子进行提取。
在SPSS中,我们可以选择合适的提取方法,比如主成分法或者最大似然法。
在进行因子提取的时候,我们需要考虑提取的因子数目和因子的解释性,以便选择最合适的因子进行分析。
5. 因子旋转在因子分析中,我们通常会对因子进行旋转,以便更好地解释因子的结构。
在SPSS中,我们可以选择方差最大旋转或者极大似然旋转等方法进行因子旋转。
在进行因子旋转的时候,我们需要考虑因子的解释性和简单性,以便选择最合适的旋转方法。
6. 因子负荷在因子分析的结果中,我们通常会关注因子负荷。
因子负荷可以帮助我们理解变量和因子之间的关系,以及变量在因子上的权重。
在SPSS中,我们可以通过因子负荷矩阵和因子旋转后的因子负荷矩阵来进行观察和分析。
7. 结果解释在完成因子分析之后,我们需要对结果进行解释。
重复测量资料的广义估计方程分析及SPSS实现
重复测量资料的广义估计方程分析及SPSS实现一、本文概述在统计学中,重复测量资料是一种常见的数据类型,通常涉及到同一观察对象在不同时间点或不同条件下的多次测量。
这类数据在医学、社会科学、心理学等领域的研究中尤为常见,例如追踪病人的病情发展、评估教育干预的效果、研究消费者的购买行为等。
为了有效分析这类数据,研究者需要采用适当的统计方法,以控制潜在的干扰因素,揭示数据间的内在关联。
广义估计方程(Generalized Estimating Equations,GEE)是一种适用于分析重复测量资料的统计方法。
它通过指定一个工作相关矩阵,来纠正观察对象间的相关性,并允许研究者根据数据的特性选择适当的相关结构。
GEE的优点在于其稳健性和灵活性,即使在数据分布不符合正态分布或观测次数不等的情况下,也能提供可靠的参数估计。
本文旨在介绍广义估计方程的基本原理及其在SPSS软件中的实现方法。
我们将首先概述广义估计方程的基本概念和数学模型,然后详细阐述如何在SPSS中运用GEE分析重复测量资料。
通过实例演示,读者将能够掌握从数据准备到结果解读的完整流程,从而提高对重复测量资料的分析能力。
本文还将讨论GEE分析中的一些常见问题及注意事项,以帮助研究者在实践中避免常见错误,确保分析结果的准确性和可靠性。
二、广义估计方程(GEE)的基本原理广义估计方程(GEE)是一种用于分析重复测量数据的方法,它扩展了传统的线性回归模型,允许处理复杂的数据结构,包括时间序列、聚类数据、纵向数据等。
GEE的核心在于其灵活性,它不需要指定数据的具体分布形式,只需要指定工作相关性结构,因此在实际应用中具有广泛的适用性。
构建工作相关性结构:在GEE中,研究者需要指定一个工作相关性矩阵,用于描述观测值之间的相关性。
这个矩阵可以根据数据的实际情况进行选择和构建,例如,如果数据是时间序列,可以选择一阶自回归(AR(1))模型;如果数据是聚类数据,可以选择交换相关(Exchangeable)模型等。
SPSS相关性分析专题知识
散点图
经过观察散点图能够直观旳发觉变量之间旳统 计关系 以及它们旳强弱程度和数据正确可能 走向。散点图以横轴表达两个变量中旳一种变 量,以纵轴表达另一种变量,将两个变量之间 相相应旳变量值以坐标点旳形式逐一标在直角 坐标系中,经过点旳分布形状、分布模式和疏 密程度来形象描述两个变量之间旳有关关系。
设D是两个变量每对数据旳等级差,n是样本 量。 则Spearman有关系数为:
n
6
D
2 i
r 1
i1
n (n 2 1)
n
n
2
Di2 (Ui Vi )
i1
i0
Kendall旳tau-b(K)
Kendall旳 系数是另一种计算定序变量之间或 者定序和尺度变量之间有关系数旳措施。 Spearman旳等级有关系数能够以便检验两个 定序变量是否有关,但 是极难详细解释两个变 量怎样有关及有关程度。Kendall旳等级有关 系数能够同步反应两个变量旳有关程度。
DW t2 n
et2
2(1 )
t2
DW=2表达无自有关,在0-2之间阐明存在正自有关,在2-4之间阐明存在负 旳自有关。一般情况下,DW值在之间即可阐明无自有关现象。
曲线估计
变量之间旳关系分为本质线性关系和本质非线 性关系。本质线性关系是经过变量变换能够转 化为线性有关旳。
SPSS曲线估计还能够以时间为解析变量。
有关分析旳作用
判断变量之间有无联络 拟定有关关系旳体现形式及有关分析措施 把握有关关系旳方向与亲密程度 为进一步采用其他统计措施进行分析提供根据 用来进行预测
有关分析和回归分析区别
有关分析:假如仅仅研究变量之间旳相互关系 旳亲密程度和变化趋势,并用合适旳统计指标 描述。
spss数据处理与分析教案-SPSS Modeler数据挖掘
子任务1:新建“因子提取.str”数据流,导入“电信客户数据.sav”,分析电信客户消费影响因素。
(1)筛选“年龄”“收入”“家庭人数”“开通月数”“基本费用”“宽带费用”“流量费用”变量。
(2)利用因子分析建模,不采用因子旋转时,查看公共因子的结果。
(20分钟)
(30分钟)
(30分钟)
课后总结分析:
授课内容
(项目,任务)
项目六SPSS Modeler数据挖掘
任务1决策树
教学目标:
1.理解决策树模型的原理。
2.掌握决策树的操作方法。
教学重点、难点:
重点:掌握决策树的操作方法。
难点:理解决策树模型的原理。
教学内容及过程设计
补决策树分析引例
1.决策树基本模型
子任务1:新建“决策树.str”数据流,导入“学生数据.xlsx”(见本书配套资源),利用决策树5.0算法生成决策树,研究哪些因素会显著影响学生参与社会公益活动,其中“是否参与公益活动”为目标字段,其余字段为输入字段。
【步骤1】~【步骤13】
任务实训
新建“规则集.str”数据流,导入“学生数据.xlsx”(见本书配套资源),利用决策树5.0算法生成规则集,研究哪些因素显著影响学生是否参与社会公益活动,其中“是否参与公益活动”为目标字段,其余字段为输入字段。(提示:在“决策树”节点中,不选择默认的“决策树”,而选择“规则集”。)
【步骤1】~【步骤10】
2.“boosting”决策树优化模型
子任务2:新建“决策树优化.str”数据流,导入“电信客户数据.sav”,利用决策树5.0算法生成决策树,并利用boosting建立3个关联模型进行优化,研究哪些因素显著影响客户流失,其中“流失”为目标字段,其余字段为输入字段(除了“收入”“教育程度”和“年龄”字段)。
第七章 SPSS的相关分析
单因素方差分析
当一个变量为定类变量,另一变量为定距 变量时,两变量间是否有关,通常以分组 平均数比较的方法来考察。即按照定类变 量的不同取值来分组,看每个分组的定距 变量的平均数是否有差异。不同组间的平 均数差异越小,两个变量间的关系越弱; 相反,平均数差异越大,变量间关系越强。
单因素方差分析的基本步骤
最后,对不同看法进行分析。如果显著性 水平设为0.05,则概率值小于0.05,拒绝原 假设,认为本市户口和外地户口对未来三 年是否打算买房的看法是不一致的。
在列联表中,这一定理就具体转化为:若 两变量无关,则两变量中条件概率应等于 各自边缘的概率乘积。反之,则两变量有 关,或称两变量不独立。
由此可见,期望值(独立模型)与观察值 的差距越大,说明两变量越不独立,也就 越有相关。因此,卡方的表达式如下:
X
2
j i
( O ij E ij ) 2 E ij
第七章
相关分析与检验
主要内容
方差分析回顾 相关分析的概念
列联分析
简单相关分析
偏相关分析
方差分析回顾
概念:方差分析是从因变量的方差入手,研究诸 多自变量中哪些变量是对因变量有显著影响的变 量,对因变量有显著影响的各个自变量其不同水 平以及各水平的交互搭配是如何影响因变量的。 方差分析认为因变量的变化受两类因素的影响: 第一,自变量不同水平所产生的影响; 第二,随机变量所产生的影响。这里的随机变量指 那些人为很难控制的因素,主要指试验过程中的 抽样误差。
卡方的取值在0~∞之间。卡方值越大,关 联性越强。在SPSS中,有Pearson X2和 相似比卡方(Likelihood Ratio X2 )两种。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS Clenmentines提供众多的预测模型,这使得它们可以应用在多种商业领域中: 如超市商品如何摆放可以提高销量; 分析商场营销的打折方案,以制定新的更为有效的方案; 保险公司分析以往的理赔案例,以推出新的保险品种等等,具有很强的商业价值。 超市典型案例
如何摆放超市的商品引导消费者购物从而提高销量,这对大型连锁超市来说是一个现实的营销问题。关联规则模型自它诞生之时为此类问题提供了一种科学的解决方法。该模型利用数据挖掘的技术,在海量数据中依据该模型的独特算法发现数据内在的规律性联系,进而提供具有洞察力的分析解决方案。通过一则超市销售商品的案例,利用“关联规则模型”,来分析商品交易流水数据,以其发现合理的商品摆放规则,来帮助提高销量。 关联规则简介
关联规则的定义 关联规则表示不同数据项目在同一事件中出现的相关性,就是从大量数据中挖掘出关联规
则。有关数据挖掘关联规则的具体理论依据这里不做详细讲解,大家可以参看韩家炜的数据挖掘概论。为了更直观的理解关联规则,我们首先来看下面的场景。 一个市场分析人员经常要考虑这样一个问题:哪些商品是频繁被顾客同时购买的? 顾客1:牛奶+面包+谷类 顾客2:牛奶+面包+糖+鸡蛋 顾客3:牛奶+面包+黄油 顾客4:糖+鸡蛋 以上的情景类似于当年沃尔玛做的市场调查:啤酒+尿片摆放在同一个货架上,销售业绩激增的著名关联规则应用。 市场分析员分析顾客购买商品的场景,顾客购买面包同时也会购买牛奶的购物模式就可用以下的关联规则来描述: 面包 => 牛奶 [ 支持度 =2%, 置信度 =60%] (式 1) 式 1中面包是规则前项(Antecedent),牛奶是规则后项 (Consequent)。实例数(Instances)表示所有购买记录中包含面包的记录的数量。 支持度(Support)表示购买面包的记录数占所有的购买记录数的百分比。
规则支持度(Rule Support)表示同时购买面包和牛奶的记录数占所有的购买记录数的百分
比。 置信度(confidence)表示同时购买面包和牛奶的记录数占购买面包记录数的百分比。
提升(Lift)表示置信度与已知购买牛奶的百分比的比值,提升大于 1 的规则才是有意义
的。 关联规则 式 1的支持度 2% 意味着,所分析的记录中的 2% 购买了面包。置信度 60% 表明,购买面包的顾客中的 60% 也购买了牛奶。如果关联满足最小支持度阈值和最小置信度阈值,就说关联规则是有意义的。这些阈值可以由用户或领域专家设定。就顾客购物而言,根据以往的购买记录,找出满足最小支持度阈值和最小置信度阈值的关联规则,就找到顾客经常同时购买的商品。 此处进行关联规则应用可以使用两种数据格式:1,交易数据格式,2,表格格式。 1.交易格式 CustomerID ITEM 1 bread 2 jam 3 juice 3 jam 4 milk 2.表格格式 CustomerID bread jam juice milk 1 T F F F 2 F T F F 3 F T T F 4 F F F T 关联规则挖掘算法
Aprior、Carma 和序列节点是常用的关联规则挖掘算法,它们都可以使用交易格式和表格格式数据进行挖掘处理。其中 Aprior 算法,处理速度快,对包含的规则数没有限制,是一种最有影响的挖掘关联规则的方法。 本次试验将使用SPSS Clementine11 自带的安装目录下的 Demos 文件夹下的 BASKETS1n 数据。希望分析出哪些商品会和啤酒一起购买,以此来合理安排商品的摆放,进而提高啤酒的销量。 此数据属于表格格式数据,每条记录表示顾客的一次购物。记录的字段包括卡号、顾客基本信息、付款方式和商品名称(每个商品一个字段 , 该商品字段值为 T, 表示购买该商品 , 值为 F 表示未购买,具体可参考表 2, 表格格式数据)。商品名称都有 fruitveg(水果蔬菜),freshmeat(生鲜肉),dairy(奶制品),cannedveg(罐装蔬菜),cannedmeat(罐装肉),fozenmeal(冻肉),beer(啤酒), wine(酒类),softdrink(软饮),fish(鱼), confectionery(甜食)。 首先打开Clementine ,会出现一张空白的流界面,这时用户可以在里面创建自己的流。
第一步,为流添加一个数据节点,这里选择 Clementine自带的 Demo 数据。将界面下方选项卡的“数据源”选项中的“可变文件”拖放到空白界面中,双击打开,在文件选项卡中选择 Clementine 自带的 Demo 数据BASKETS1n,如图所示。
点击确定按钮,这时就成功的创建了数据节点。 第二步,为流添加类型节点,类型节点是显示和设置数据每个字段的类型、格式和角色。从界面下方的“字段选项”卡中,将“类型”节点拖放到界面中,接着将数据节点和类型节点连接起来,或者直接在“字段选项”卡中双击“类型”节点,将两者连接起来。这时双击打开“类型”节点,此时“类型”节点中显示了数据的字段和其类型,点击“类型”节点界面上的“读取值”按钮,这时会将数据节点中的数据读取过来。如下图所示。
接着可以为参与建模的数据字段设置角色,角色分“输入”,“目标”,“两者”和“无”。输入表示该字段可供建模使用,目标表示该字段为建模的预测目标,两者表示该字段为布尔
型的输入字段,无表示该字段不参与建模。Apriori 节点需要一个或多个输入字段和一个或多个目标字段,输入字段和输出字段必须是符号型字段。在此可以选择一个或多个字段为目标字段,表明该模型的预测目标字段;对于 Apriori 建模节点,也可以不设置目标字段,则需要在建模节点中设置“后项”。 第三步,为流添加 过滤节点,将不参与的字段排除在外。该步骤为可选步骤。从“字段选项”卡中选择“过滤”节点,并将其拖入到界面中,将“过滤”节点加入到流中。双击打开“过滤”节点,在不参与建模字段的箭头上点击,会出现一个红叉,表示该字段被过滤掉了,不参与建模,如图所示。 对于一些与建模关系不大的节点可以将其过滤掉,比如卡号、性别、家乡和年龄字段。 第四步,有了这些前期的准备过程,接下来就可以开始创建关联规则模型节点了,在此之前,让我们先添加一个图形节点—— 网络节点,建立此节点的目的是为了让用户首先可以直观的看到商品之间的关联程度,有一个感性认识。选择“图形”选项卡中的“网络”节点,将此拖入界面,将“网络”节点加入流中,与“过滤”节点连接起来。双击打开网络节点,在“字段”列表中选择添加字段,可以将所有的商品字段添加进来;也可以点击“仅显示真值标志”,将只显示那些“两者”的字段,如图所示。
点击“选项”卡,进入选项设置,用户可以在此设置链接数量的显示范围,不显示一些链接数量低的链接,如图所示。
点击“运行”按钮,这时会生成一个商品之间关联程度(链接数量)的网络图,用户可以在下方的调节杆上调节链接数量的显示范围。
上图中,线的粗细和深浅代表联系的强弱,可以直观的看到 beer 和 frozenmeat,cannedeg 联系程度比较强。 第五步,添加“建模”节点到流中,开始关联规则模型设置和使用的篇章。首先点击界面下方“建模”选项卡,再点击 Apriori,节点拖放到界面中,连接该节点到过滤节点上,或者双击 Apriori 节点。接着设置 Apriori 节点的参数,建立关联规则模型。双击打开 Apriori 节点,如下图所示。
该“字段”选项卡,是设置参与建模的字段和目标字段的,可以看到其中包括两个选项,“使用类型节点设置”和“使用定制设置”,这里将为用户分别呈现两种选项的使用方法。这里无论选择哪个选项,都需要将市场分析员重点关注的商品包括在其中,其他商品可以不包括。 如果用户选择“使用定制设置”选项,则需要将啤酒设置在“后项”列表中,将其他重点关注的商品设置在“前项”列表中,如下图所示。
这里,分区允许您使用指定字段将数据分割为几个不同的样本,分别用于模型构建过程中的训练、测试和验证阶段。如果设置了“分区”,除了在此选择分区字段外,还需要在“模型”选项卡中,勾上“使用分区数据”的选择框。关于“分区”的概念、作用和使用方法,本文不做详细介绍。 除此,“使用事务处理格式”选择框,是针对于事务性数据的,如果数据为交易格式,需要勾上此选择框,但本示例的数据为表格格式,故无需选择。 设置好了字段后,点击“模型”选项卡,进入模型设置。如下图所示。
用户可以在“模型名称”处为本模型设置一个名字,如果想使用分区功能,则需要勾上“使用分区数据”选项。 用户为规则模型设置一个 最低条件支持度,那么模型将从所有规则中选择那些为真,并且其对应的记录的百分比大于此值的规则。如果您获得的规则适用于非常小的数据子集,请尝试增加此设置。 接着,用户需要为模型设置一个 最小规则置信度,表明正确预测的百分比。置信度低于指定标准的规则将被放弃。如果您获得的规则太多,请尝试增加此设置。如果您获得的规则太少(甚至根本无法获得规则),请尝试降低此设置。 用户还可以为任何规则指定“最大前项数”。这是一种用来限制规则复杂性的方式。如果规则太复杂或者太具体,请尝试降低此设置。 对于“仅包含标志变量的真值”选项,如果对于表格格式的数据选择了此选项,则在生成的规则中只会出现真值。这样使得规则更容易理解。该选项不适用于事务格式的数据。 为了提高建模性能,设置了“优化”选项供用户选择。选择“速度”可指示算法从不使用磁盘溢出,以便提高性能。选择“内存”可指示算法在合适的时候,以牺牲某些速度为代价使用磁盘溢出。