SAS EM实例进阶

合集下载

sas案例集

sas案例集

sas案例集SAS案例集。

SAS(Statistical Analysis System)是一种统计分析系统,它提供了强大的数据分析和数据挖掘功能,被广泛应用于各个领域。

在本文档中,我们将介绍一些实际的SAS案例,帮助读者更好地了解SAS的应用和功能。

案例一,销售数据分析。

某公司的销售数据存储在一个大型数据库中,包括产品销售额、客户信息、销售地区等。

公司希望利用这些数据进行分析,找出销售额的变化趋势,挖掘客户的购买习惯,并对不同地区的销售情况进行比较。

通过SAS的数据处理和统计分析功能,可以轻松实现这些目标。

首先,可以使用SAS连接数据库,提取所需的数据;然后利用SAS的统计函数和图表功能,对销售额进行趋势分析和客户购买习惯挖掘;最后,利用SAS的地理信息分析功能,对不同地区的销售情况进行可视化展示。

通过这些分析,公司可以更好地了解销售情况,制定更有效的营销策略。

案例二,医疗数据挖掘。

一家医院希望利用患者的病历数据进行挖掘,找出不同疾病之间的关联性,预测患者的病情发展趋势。

SAS的数据挖掘和机器学习功能可以帮助医院实现这一目标。

首先,可以利用SAS清洗和预处理病历数据,确保数据的准确性和完整性;然后利用SAS的关联规则分析和聚类分析功能,找出不同疾病之间的关联性;最后,利用SAS的预测建模功能,预测患者的病情发展趋势。

通过这些分析,医院可以更好地了解患者的病情,提前采取有效的治疗措施。

案例三,金融风险分析。

一家银行希望利用客户的信用卡消费数据进行风险分析,找出不同客户之间的信用风险,预测客户的信用卡违约情况。

SAS的数据挖掘和风险建模功能可以帮助银行实现这一目标。

首先,可以利用SAS清洗和预处理信用卡消费数据,确保数据的准确性和完整性;然后利用SAS的分类分析和回归分析功能,找出不同客户之间的信用风险;最后,利用SAS的风险建模功能,预测客户的信用卡违约情况。

通过这些分析,银行可以更好地了解客户的信用风险,采取相应的风险管理措施。

SAS_EM工具笔记

SAS_EM工具笔记

EM的使用Input Data SourceInput Data Source:Open…:进行运行前的设置,设置数据源,设置使用的字段,剔除无用的字段。

导入后,会生成另一个数据集,例如,本例为Output: EMDA TA:view_ajb中,在后继的节点中,如果需要设置数据集的名字,则使用该output指定的数据集名。

Data Tab:设置原始数据集名,数据集的作用(Role),以及导入的数据记录的个数。

Role可以设置为:一般设置为RA W,后面的节点可能需要各种Role的数据(如Neural Network等),如果在此设置为Train等,则该数据集在连接到后面的节点时,默认为相同的Role。

V ariables Tab:设置字段的作用。

Interval V aribles Tab:对字段进行简单的统计。

Sample抽样节点,从Input data source中抽取部分数据。

作为输入数据集。

可以有多个Input data source连接到sample节点。

Open…:进行运行前的设置。

Data tab:General Tab:设置获取数据的方法V ariables Tab:观察原始数据的特点,右击字段可以选择distribution of …察看数据的频率。

Output Tab:Run: 进行抽样。

Result…:查看运行后的结果,抽取的结果数据集已经生成。

Data Partition对数据进行划分,生成不同Role的数据集。

好像不能生成score数据集。

Neural NetWorkOpen…Data Tab:设置神经网络工作时的数据集。

需要设置不同的Role的数据集。

Score用来预测的。

Score预测可以另用Score节点来完成。

Run:进行神经网络训练。

Result…:查看结果。

可以查看output training data等。

Fit statistics模型拟合结果的统计。

2024~2025学年度八年级数学上册第2课时 用“SAS”判定三角形全等教学设计

2024~2025学年度八年级数学上册第2课时 用“SAS”判定三角形全等教学设计

第2课时用“SAS ”判定三角形全等教学步骤师生活动教学目标课题12.2第2课时用“SAS ”判定三角形全等授课人素养目标1.掌握基本事实:两边及其夹角分别相等的两个三角形全等,经历探索“SAS ”的过程,培养学生观察、归纳及动手能力,发展学生的几何直观感知能力与推理能力.2.能用尺规作图:已知两边及其夹角作三角形,培养学生分析与作图能力.教学重点“SAS ”的探索及运用,尺规作图:已知两边及其夹角作三角形.教学难点“SAS ”的探究过程.教学活动教学步骤师生活动活动一:创设情境,新课导入设计意图设置悬念引起学生思考,为接下来探究三角形全等的判定条件——“SAS”做铺垫.【情境引入】小红到小明家去玩,发现小明正拿着一只玻璃容器苦思冥想,原来他想测量一下它的内径是多少,但是无法将刻度尺伸进去直接测量.小红帮他想出一个办法:把两根长度相等的小木条AB ,CD 的中点连在一起,木条可以绕中点O 自由转动,如下图所示,这样只要测量A ,C 之间的距离,就可以知道玻璃容器的内径.你想知道为什么吗?经过这节课的学习你就会知道答案了.【教学建议】此问题实际求证BD =AC,学生可联想到利用全等三角形的性质,而已有两边和夹角分别相等,自然过渡到探讨“SAS”是否可行,顺利衔接新课.这个问题中涉及了转化思想与数学建模思想.活动二:动手操作,探究新知设计意图以“两边一角分别相等”能否保证两个三角形全等切入主题,经历探索三角形全等的判定条件——“SAS”的过程,学会尺规作图:已知两边及其夹角作三角形的方法,并运用“SAS”解题,经历“SSA”无法判定两个三角形全等的探索过程.探究点用“SAS”判定三角形全等在上节课中我们知道用三个条件探索三角形全等共有四种情况——三边分别相等、两边一角分别相等、两角一边分别相等、三角分别相等,并探索了用“SSS”判定三角形全等的过程.这节课我们将继续探索“两边一角分别相等”能否证明两个三角形全等.问题“两边一角分别相等”有几种可能性呢?请举例.答:有两种可能性,如图所示.我们分情况进行讨论.探究先任意画出一个△ABC.再画出一个△A ′B ′C ′,使A ′B ′=AB ,A ′C ′=AC ,∠A ′=∠A(即两边和它们的夹角分别相等).把画好的△A ′B ′C ′剪下来,放到△ABC 上,它们全等吗?【教学建议】“探究”中讨论的是两边一角分别相等中的两边及其夹角分别相等的情形.这里对“SAS”的处理与“SSS”类似,先通过作图实验操作,让学生充分经历探究满足两边及其夹角分别相等的两个三角形是否全等的过程,然后总结规律,直接以基本事实的方式给出“SAS”的判定方法.需注意已知两边及其夹角作三角形也是课标要求的重要作图,需要学生掌握作图步骤,作图过程中利用了上节课学到的作一个角等于已知角的基本作图.设计意图问题4揭示图形语言与文字语言之间的联系,使学生经历从现实世界抽象出几何模型的过程,认识三角形的各个基本要素.如图给出了画△A′B′C′的方法.你是这样画的吗?答:上述画法是先画一个角,再画夹这个角的两边.也可以采用先画一边,然后画角,再画另一边的方法,步骤如下:(1)作A′B′=AB;(2)作∠B′A′E=∠A;(3)在射线A′E 上截取A′C′=AC;(4)连接B′C′.探究的结果反映了什么规律?由探究可以得到以下基本事实,用它可以判定两个三角形全等:也就是说,三角形的两条边的长度和它们的夹角的大小确定了,这个三角形的形状、大小就确定了.例(教材P 38例2)如图,有一池塘,要测池塘两端A ,B 的距离,可先在平地上取一个点C ,从点C 不经过池塘可以直接到达点A 和B.连接AC 并延长到点D ,使CD =CA.连接BC 并延长到点E ,使CE =CB.连接DE ,那么量出DE 的长就是A ,B 的距离.为什么?分析:如果能证明△ABC ≌△DEC ,就可以得出AB =DE.由题意可知,△ABC 和△DEC 具备“边角边”的条件.∴△ABC≌△DEC (SAS)∴AB=DE.追问:想一想,∠1=∠2的根据是什么?AB=DE 的根据是什么?答:∠1=∠2的根据是对顶角相等,AB=DE 的根据是全等三角形的对应边相等.从例题可以看出:因为全等三角形的对应边相等,对应角相等,所以证明线段相等或角相等时,常常通过证明它们是全等三角形的对应边或对应角来解决.思考如图,把一长一短的两根木棍的一端固定在一起,摆出△ABC.固定住长木棍,转动短木棍,得到△ABD.这个实验说明了什么?图中的△ABC 与△ABD 满足两边和其中一边的对角分别相等,即AB =AB ,AC =AD ,∠B =∠B ,但△ABC 与△ABD 不全等.这说明,有两边和其中一边的对角分别相等的两个三角形不一定全等.【教学建议】例题从实际背景中引申出几何问题——证明两条线段相等.可引导学生观察思考,要证的线段是两个三角形中的两条边,如果能证明两个三角形全等,那么就能利用全等三角形的性质得到线段相等.于是通过例题可以达到三个教学目的,一是让学生学会运用“SAS”解题;二是让学生更透彻地认识到证线段相等或角相等可以利用判定三角形全等的手段(之前的学习中已经提到过);三是启发学生联想,以另外的实际背景对活动一中的问题进行解释.【教学建议】“思考”以做实验的方式探讨两边和其中一边的对角分别相等能否保证两个三角形全等.教学中也可以画出如左栏图所示的图形,让学生直观地发现结论.这个过程也再次让学生体会到要判断一个命题是假命题,只要举出一个反例.最后是对“两边一角分别相等”能否保证两个三角形全等进行总结性描述.教学步骤师生活动°=30°.ABC≌△ECD(SAS).+∠ACD=90°,【作业布置】1.教材P43~45习题12.2第3,10,13题.2.《创优作业》主体本部分相应课时训练.板书设计第2课时用“SAS ”判定三角形全等1.基本事实:两边和它们的夹角分别相等的两个三角形全等(“边角边”或“SAS ”).2.尺规作图:已知两边及其夹角作三角形.3.实际应用:用“SAS ”判定三角形全等.教学反思本节课是探索三角形全等条件的第2课时,是在学习了“SSS ”之后展开的.它不仅是下节课探索其他判定三角形全等条件的基础,又为后面探索直角三角形全等的条件提供了很好的模式和方法.因此,本节课的知识具有承前启后的作用,占有相当重要的地位.同时,本节课具有较强的操作性和直观性,有利于学生从直观上积累感性认识,促进学生对新知识的理解和掌握.解题大招一用“SAS ”判定三角形全等的实际应用在实际生活中,常常通过说明两个三角形全等,得出对应边相等,对应角相等,从而解决一些实际问题,如把不能直接测量的长度(或角度)“转移”到可以直接测量的位置测量.例1如图是雨伞在开合过程中某时刻的截面图,D ,E 分别是伞骨AB ,AC 的中点,DM ,EM 是连接弹簧M 和伞骨的支架,且DM =EM ,在弹簧向上滑动的过程中,∠AMD =∠AME ,试说明AB =AC.解:在△ADM 和△AEM =EM ,AMD =∠AME ,=AM ,∴△ADM ≌△AEM(SAS ),∴AD =AE.∵D ,E 分别是AB ,AC 的中点,∴AD =12AB ,AE =12AC ,∴AB =AC.解题大招二用倍长中线法构造全等三角形当出现中线,而现有图形中不存在两个全等三角形时,常通过倍长中线法将中线延长一倍,根据“SAS ”构造全等三角形,再利用对应边相等去寻求线段间的数量关系.例2在数学课上,老师出示了这样一个问题:“如图①,在△ABC 中,AC =8,BC =5,D 为AB 边的中点,求AB 边上的中线CD 的取值范围.”经过小组合作交流,找到了解决方法——“倍长中线法”.请按照图②所示的思维框图,完成求解过程.解:如图①,延长CD 至点E ,使DE =CD ,连接AE ,则CE =2CD.∵D 为AB 边的中点,∴AD =BD.又∠ADE =∠BDC ,DE =DC ,∴△ADE ≌△BDC(SAS ),∴AE =BC =5.在△ACE 中,AC -AE <CE <AC +AE ,∴8-5<2CD <8+5,∴1.5<CD <6.5.解题大招三利用“SAS ”证三角形全等的“手拉手”模型例3两个大小不同的等腰直角三角板如图①放置,图②是由它抽象出的几何图形,B ,C ,E 三点在同一直线上,连接CD.(1)求证:△ABE ≌△ACD ;(2)试猜想CD 与BE 的位置关系,并证明你的结论.(1)证明:∵△ABC 和△ADE 都是等腰直角三角形,∴AB =AC ,AD =AE ,∠BAC =∠DAE =90°,∴∠BAC +∠CAE =∠DAE +∠CAE ,即∠BAE =∠CAD.在△ABE 和△ACD =AC ,BAE =∠CAD ,=AD ,∴△ABE ≌△ACD(SAS ).(2)解:CD ⊥BE.证明如下:∵△ABE ≌△ACD ,∴∠B =∠ACD.∵∠BAC =90°,∴∠B +∠ACB =90°,∴∠ACD +∠ACB =90°,即∠BCD =90°,∴CD ⊥BE.培优点用“SAS ”判定三角形全等解决动点问题例如图①,在△ABC 中,∠A =∠B ,AC =BC =20cm ,AB =16cm ,D 为AC 的中点.(1)如果点P 在线段AB 上以6cm /s 的速度由点A 向点B 运动,同时,点Q 在线段BC 上由点B 向点C运动.①若点Q 的运动速度与点P 的运动速度相等,经过1s 后,△APD 与△BQP 是否全等?说明理由.②若点Q 的运动速度与点P 的运动速度不相等,设运动时间为t s ,当t 为何值时,△APD 与△BQP 全等?求出此时点Q 的运动速度.(2)如图②,若点Q 以②中的运动速度从点B 出发,点P 以原来的运动速度从点A 同时出发,都按逆时针方向沿△ABC 的三边运动,经过多长时间,点P 与点Q 第一次在△ABC 的哪条边上相遇?解:(1)①△APD 与△BQP 全等.理由:经过1s 后,AP =BQ =6cm .∵AC =20cm ,D 为AC 的中点,∴AD =12AC =10cm .又BP =AB -AP =16-6=10(cm ),∴AD =BP.又∠A =∠B ,∴△APD ≌△BQP(SAS ).②因为v P ≠v Q ,所以AP≠BQ.又∠A=∠B,所以要使△APD与△BQP全等,只能AP=BP=12AB=8cm,BQ=AD=10cm,∴6t=8,解得t=43,∴点Q的运动速度为10÷43=7.5(cm/s).所以当t为43时,△APD与△BQP全等,此时点Q的运动速度为7.5cm/s.(2)因为v Q>v P,所以只能是点Q追上点P,即点Q比点P多走BC+AC的路程.设经过x s后点P与点Q第一次相遇,依题意得7.5x-6x=20+20,解得x=803,此时P运动了803×6=160(cm).又△ABC的周长为AB+BC+AC=16+20+20=56(cm),且160=56×2+48,所以点P,Q第一次是在AC边上相遇,即经过803s,点P与点Q第一次在△ABC的AC边上相遇.。

SAS_EM功能强大的数据挖掘工具

SAS_EM功能强大的数据挖掘工具
数据抽样工具 对获取的数据,可再从中作抽样操作。抽样的方 式是多种多样的,有:随机抽样、等距抽样、分层抽 样、从起始顺序抽样和分类抽样等方式。 1. 随机抽样 在采用随机抽样方式时,数据集中的每一组观 测值都有相同的被抽样的概率。如按 10% 的比例对 一个数据集进行随机抽样,则每一组观测值都有 10% 的机会被取到。 2. 等距抽样 如按 5% 的比例对一个有 100 组观测值的数据集 进行等距抽样,则有:100/5=20,等距抽样方式是 取第 20、40、60、80 和第 100 等五组观测值。 3. 分层抽样 在这种抽样操作时,首先将样本总体分成若干 层次(或者说分成若干个子集)。在每个层次中的观 测值都具有相同的被选用的概率,但对不同的层次 您可设定不同的概率。这样的抽样结果可能具有更 好的代表性,进而使模型具有更好的拟合精度。 4. 从起始顺序抽样 这种抽样方式是从输入数据集的起始处开始抽 样。抽样的数量可以给定一个百分比,或者就直接给
建立数据挖掘用的数据库 在进行数据挖掘分析模型的操作之前,要建立 一个数据挖掘的数据库(D M D B ),其中就放置此次 要进行操作的数据。因为此后可能要进行许多复杂 的数学运算,在这里建立一个专门的数据集将使您 的工作更加有效率。在处理之前,可对您选进数据挖 掘数据库的各个变量预先进行诸如最大、最小、平 均、标准差等处理。对一些要按其分类的变量的等级 也先放入 Meta Data 之中,以利接下来的操作。总 之在这个数据库中为数据挖掘建立一个良好的工作 环境。 (作者单位 长春税务学院)
最新sas82版本中sasem模块的功能介绍获大奖的数据挖掘产品sasem是一个图形化界面菜单驱动的拖拉式操作对用户非常友好且功能强大的数据挖掘集成环境见图
统计 IT
TONGJ IIT 北京统计

应用SASEM进行数据挖掘

应用SASEM进行数据挖掘
03
成本较高:由于SAS EM是商业软件,其价格相对较高,可能不适合 小型企业和个人用户。
04
开放性不足:与其他开源工具相比,SAS EM的开放性较低,限制了 用户对其进行定制和扩展的能力。
SAS EM的未来发展前景
1 2 3
持续优化与升级
随着技术的不断发展,SAS EM将继续优化算法 和界面,提高数据挖掘的效率和准确性。
案例三:销售预测
总结词
利用SAS EM进行销售预测,通过分析历 史销售数据和市场趋势,预测未来的销 售情况,帮助企业制定合理的生产和销 售计划。
VS
详细描述
在销售预测中,SAS EM通过时间序列分 析方法,分析历史销售数据和市场趋势, 预测未来的销售情况。通过对不同产品、 地区、销售渠道的销售数据进行整合和分 析,SAS EM能够发现销售规律和市场变 化趋势,为企业制定合理的生产和销售计 划提供依据,提高企业的市场竞争力。
应用SAS EM进行数据挖掘
目录
• SAS EM简介 • 数据挖掘流程在SAS EM中的实现 • 案例分析 • SAS EM与其他数据挖掘工具的比较 • 结论
01
SAS EM简介
SAS EM是什么
SAS Enterprise Miner(EM)是SAS公司开发的一款数据挖掘 软件,它提供了一套完整的数据挖掘解决方案,包括数据预处 理、模型构建、模型评估和部署等。
它基于图形化界面,用户可以通过拖放节点的方式进行数据 挖掘任务的构建,无需编写复杂的代码,大大降低了数据挖 掘的门槛。
SAS EM的特点与优势
易用性
高效性
SAS EM提供了直观的图形化界面,用户可 以通过简单的拖放操作完成数据挖掘流程 的构建,无需具备深厚的编程基础。

SAS EM实现逻辑回归

SAS EM实现逻辑回归

参数wald检验结果
Type 3 Analysis of Effects
DF
Pr>ChiSq
Effect avggr gender
DF 1 1 1
Wald ChiSquare 73.3143 6.1696 4.7037
Pr > ChiSq <.0001 0.013 0.0301
Intercept Only 507.938
OVERVIEW
小结
Logistic模型通过分析目标变量取某个值的概率与各效应之间的 关系解决分类问题,包括二分类及多分类问题; Logistic模型建立包括参数估计、模型检验、参数检验等步骤;
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
30
hours of study

40
变量p与x 的关系;
50 60 70
学习时间
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Logistic回归模型介绍
二分类Logistic回归数学模型
参数估计 Standar 95% Confidence Wald dized Limits Estimat Standar ChiPr > Estimat Exp(Est e d Error Square ChiSq e ) 1 1 1 1 -33.17 0.39 -0.36 -0.44 3.82 0.05 0.15 0.20 75.44 <.0001 73.31 <.0001 6.17 4.70 0.013 0.03 0.00 1.47 0.70 0.65 -40.66 0.30 -0.65 -0.83 -25.69 0.48 -0.08 -0.04 优势比 Odds Ratio Estimates

sas案例分析

sas案例分析

sas案例分析SAS案例分析。

SAS(Statistical Analysis System)是一种统计分析系统,被广泛应用于数据分析、数据挖掘、预测分析等领域。

它提供了丰富的数据处理和分析功能,能够帮助用户有效地进行数据探索和建模分析。

下面我们将通过一个实际案例来展示SAS在数据分析中的应用。

某电商公司希望通过分析用户行为数据,提高用户留存率和购买转化率。

为了实现这一目标,他们收集了大量的用户数据,包括用户的浏览记录、购买记录、点击广告的行为等。

接下来,我们将使用SAS对这些数据进行分析,以期找到一些有益的信息。

首先,我们将对用户的浏览记录进行分析。

通过SAS的数据处理功能,我们可以对用户的浏览行为进行统计,比如哪些商品被浏览次数最多,用户在网站停留的平均时间等。

这些信息可以帮助我们了解用户的兴趣和偏好,从而为后续的推荐系统提供依据。

其次,我们可以利用SAS对用户的购买记录进行分析。

通过对用户购买行为的统计分析,我们可以找到哪些商品的销量最好,哪些用户购买频率较高,哪些商品组合销售效果较好等。

这些信息可以帮助我们优化商品推荐和营销策略,提高用户的购买转化率。

此外,我们还可以通过SAS对用户的点击广告行为进行分析。

通过对广告点击率、转化率等指标的统计分析,我们可以找到哪些广告的效果较好,哪些广告的点击率较高,哪些广告的转化率较低等。

这些信息可以帮助我们优化广告投放策略,提高广告的转化效果。

最后,我们可以利用SAS进行用户群体分析。

通过对用户数据的聚类分析,我们可以找到不同用户群体的特征和行为模式,从而为不同群体的用户制定个性化的营销策略和推荐策略。

通过以上分析,我们可以看到SAS在数据分析中的强大功能。

它能够帮助我们从海量的数据中找到有用的信息,为企业决策提供有力支持。

希望通过这个案例的介绍,能够让大家对SAS在数据分析中的应用有一个更深入的了解。

sas数据分析案例

sas数据分析案例

sas数据分析案例SAS 数据分析案例:销售数据分析背景:某电子产品公司想要了解其产品在不同市场的销售情况,以便制定更好的销售策略。

为了实现这个目标,公司收集了一份包含产品销售数据的数据集。

数据集包括以下字段:- 销售日期:产品被销售的日期- 销售地区:产品被销售的地理位置- 销售额:每次销售的金额- 产品类别:产品的类型- 促销活动:销售是否发生在促销活动期间目标:通过分析销售数据,了解以下信息:1. 不同地区的销售情况:了解不同地区的销售额,哪些地区是公司的热销地区,哪些地区是潜在市场。

2. 产品类别的销售情况:了解不同产品类别的销售额,哪些产品类别是公司的主要销售产品,哪些产品类别需要进一步推动销售。

3. 促销活动效果评估:了解促销活动对销售额的影响,是否可以通过更多的促销活动来提高销售额。

步骤:1. 建立连接:使用 SAS 软件建立与数据集的连接。

2. 数据预处理:对数据进行清洗,包括删除缺失数据、异常值处理等。

3. 地区销售情况分析:- 使用图表展示不同地区的销售额,比较各地区的销售情况。

- 根据销售额,筛选出热销地区和潜在市场,进一步分析销售额的变化趋势。

4. 产品类别销售情况分析:- 使用图表展示不同产品类别的销售额,比较各产品类别的销售情况。

- 根据销售额,筛选出主要销售产品和推动销售的产品类别,进一步分析销售额的变化趋势。

5. 促销活动效果评估:- 对促销活动期间的销售额和非促销活动期间的销售额进行对比,分析促销活动对销售额的影响。

- 根据分析结果,评估促销活动的效果,并提出更好的促销策略。

结果:1. 地区销售情况的分析结果可以帮助公司确定销售重点地区和潜在市场,从而调整营销策略,提高销售额。

2. 产品类别销售情况的分析结果可以帮助公司了解不同产品类别的销售状况,从而决定是否需要加大某些产品类别的推广力度。

3. 促销活动效果评估的结果可以帮助公司了解促销活动对销售额的影响,从而优化促销活动的策划和执行。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SAS EM实例进阶Created by:Ning Gang****************HP GDCC GAPSE2008-12-29 1.SAS Enterprise Miner简介1.1. 数据挖掘简介数据仓库的发展,为分析人员提供了在各种层次上、历史回溯的数据信息。

对未来的信息要进行预测,这就演化出来数据挖掘技术。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

目前数据挖掘应用于很多行业中,来解决众多的商业问题,如数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。

1.2. EM简介SAS Enterprise Miner简称EM,它把统计分析系统和图形用户界面(GUI)紧密结合,对用户友好、直观、灵活、使用方便,使对统计学无经验的用户也可以理解和使用。

SAS定义了数据挖掘方法——SEMMA方法,即抽样(Sample)、探索(Explore)、修改(Modify)、建模(Model)、评价(Assess)。

以下SEMMA方法从SAS Help文档中拷贝,不再翻译以求理解准确。

∙Sample the data by creating one or more data tables. The sample should be large enough to contain the significant information, yet smallenough to process.∙Explore the data by searching for anticipated relationships, unanticipated trends, and anomalies in order to gain understanding and ideas.∙Modify the data by creating, selecting, and transforming the variables to focus the model selection process.∙Model the data by using the analytical tools to search for a combination of the data that reliably predicts a desired outcome.Assess the data by evaluating the usefulness and reliability of the findings from the data mining process.EM建立分析流程中,不必包含SEMMA方法每一步,同时其中的步骤可以重复出现。

在SAS窗口菜单中依此选择“解决方案”---“分析”---“企业数据挖掘”,即打开下图所示的EM的窗口。

EM为那些非统计学专家的分析员提供了GUI界面,在工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对各节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。

数据挖掘专家则可以在更深层次的后台进行编程,得到更优更好的分析流程。

EM在市场中的竞争产品有SPSS的Clementine,数据挖掘的方法是类似的。

2.SAS数据挖掘实例2.1. 分类的基本概念与步骤在介绍EM实例之前,还是来学习一下数据挖掘的分类方法吧。

数据挖掘有一些常用的模型和算法,如分类方法、聚类方法、关联规则等等。

分类是数据挖掘中一项非常重要的任务。

通过例子来理解分类吧。

老师根据分数把学生分成A、B、C、D、E五类,这里只要通过简单的分界线(60,70,分类可用于预测,预测的目的是从历史数据记录中自动推导出对给定数据的趋势描述,从而能对未来数据进行预测。

分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别的某一个类别中。

通过以下这个例子来了解如何通过分类方法来预测吧。

属性PlayTennis的两个取值Yes/No表示是否适宜与打网球。

历史数据记录了哪些天气情况适合打网球,哪些不适合。

现在我们想预测未来的天气情况下是否适合网球运动。

分类方法可以解决这个问题,通过历史数据来构造一个分类模型,历史数据中提供了一个特定的标签(这里即为PlayTennis),通过学习构造出了以下的分类规则。

这里使用易于理解的决策树分类方法。

当这个模型的准确率可以接受,就可以被用来预测未来日子的天气状况是否适合于打网球。

如明天的天气状况为(Rain,Windy),想要得到PlayTennis?,那么就可以通过上面图示的规则知道,明天不适合打网球。

一般的,数据分类(Data Classification)分为两个步骤:建模和使用。

1.建立一个模型,描述预定的数据类集或概念集要构造分类模型,需要有一个训练样本数据集作为输入,训练样本有一个特定的类标签与之对应。

由于提供了每个训练样本的类标签,那么分成了多少类就确定了。

构造分类模型有不同的算法,可参考数据挖掘算法书籍。

模型的描述可以用分类规则、决策树或等式、规则式等形式。

2.使用模型进行分类首先要评估分类模型的预测准确率。

有别于训练样本,需要从数据集中随机抽取样本构造测试样本。

对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。

模型在给定测试集上的准确率即为被模型正确分类的测试样本的百分比。

如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类,从而达到预测的目的。

2.2. 使用EM进行数据挖掘在下文中,用一个简单数据挖掘实例来让大家熟悉EM,在SAS的帮助文档里有更多的例子,读者可以自学代码,来熟悉EM中的各种模型。

在此例中,EM进行数据挖掘的基本思路是,1.定义商业应用的目标。

目标即为前文所述的类标签。

2.在待挖掘的数据进行采样,样本数据要有一定的数量,特征要明显。

3.对采样数据进行探索,了解数据的分布特征。

4.如果数据需要清洁、转换等,要对数据进行一定的预处理。

5.对样本数据进行建模。

EM提供了很多的模型,如决策树,神经网络,回归模型等。

可以使用多个模型对样本数据进行建模。

6.评估哪个模型对测试数据表现出色,选择对此应用最适宜的模型。

7.将选中的模型应用于所有的数据上,然后获得应用定义的目标。

2.2.1.例程背景描述EM随机带有一个数据集SAMPSIO.DMAGECR (the German Credit benchmark data set)。

该数据集中包括了过去1000个申请人和相应的信用评级(“GOOD”or“Bad”),数据的SAMPSIO.DMAGECR数据集中60%的样本数据(training data)被用来构造模型(train the model),剩余的40%测试数据(validation data)用来调整模型,并用来对模型进行比较,从多个模型中选择最适合此应用的。

另外一个数据集SAMPSIO.DMAGESCR中有75个新的申请人,新申请人的信用评级未知(即类标签GOOD_BAD字段未知)。

将选定的分类模型应用到新的数据,即可确定新申请人的信用等级。

下面请大家一步一步做,最后会生成如下的图,并对那75个新申请人进行信用评价。

2.2.2.第一步—新建项目1.在SAS窗口中依次选择“解决方案”—“分析”—“企业数据挖掘”,打开EM。

2.新建项目,命名为“myProject”,并选择目录存放。

3.点击“Create”,创建新项目,项目中缺省有一个空白的Diagram。

4.右键点击“Diagram”,Rename为“My Sample Flow”。

2.2.3.第二步—定义输入数据集1.从左侧Project Navigator窗口的Tools页拖拽Input Data Source node至DiagramWorkspace。

2.双击Input Data Source node打开配置界面。

3.在Source Data框中填入“SAMPSIO.DMAGECR”。

Metadata会随之自动创建。

2.2.4.第三步—设置目标变量必须对input data source中设置目标变量(即类标签),目标变量可以是一组变量,在此例中,目标变量只有一个,为GOOD_BAD,即申请人的信用评级。

1.选择Variable属性页。

2.在GOOD_BAD的Model Role列上右击,选择“Set Model Role”,另一个对话框弹出。

3.选择“target”。

先不要关闭Input Data Source node。

2.2.5.第四步—为目标变量Variable设置Target Profile1.右击目标变量GOOD_BAD,选择“Edit target profile”,窗口“Target Profiles for theGOOD_BAD”弹出。

2.设置Target Event Level。

选择Target tab,这里缺省设置Descending Order,TargetEvent Level是“Good”,这就是说你要对有良好信用的客户进行建模。

选用缺省,不用修改。

3.定义目标变量GOOD_BAD的Loss Matrixa)选择Assessment Information tab,预定义了四种decision matrices。

我们要新定义realistic loss matrix。

b)右键点击“Default Loss matrix”,选择“Copy”,创建了一个新的decision matrix,名字是“Profit matrix”。

c)只有一种matrix可以被设置成使用状态,右击“Profit matrix”,选择“Set touse”,星号移到了Profit matrix选项,表明在随后的建模和评估过程中要使用的active decision matrix。

d)将Profit matrix改名为“Realistic Loss”。

e)单击“Edit Decisions”,将“good”更名为“accept”,“bad”更名为“reject”。

相关文档
最新文档