SAS EM 简介

合集下载

基于SAS/EM的图书借阅数据关联规则数据挖掘

基于SAS/EM的图书借阅数据关联规则数据挖掘
r lt s a o i i c wh c o g d h i ay b k orowi g a d urhai . ea on m ng d gt wih i h t uie t e l r oo b r i s br n n p c sng
Ke r s as ca o u e; o k ln aa S M ; a ii g y wo d : so it n r ls b o — a d d t; ASE i d t m nn a
基 于 S S E 的图书借 阅数据关联规则数 据挖 掘 A /M
欧 阳烽
( 南 师 范 大 学 , 南 长 沙 4 08 ) 湖 湖 10 1

要: SS 以 A 数据挖掘 系统 E 模块 中的 Asc f n节点为关联规则数据挖掘平 台, M s  ̄o o i 对经过数据预 处理 的读 者借 阅数
据进行 关联规则数据挖掘 , 揭示数据间的关联关 系, 用来指导图书馆图书借 阅工作和采购工作。 关键词 : 关联规 则; 图书借 阅数据;A E 数据挖掘 S S M; 中图法分类号 :P 7 24 r 文献标识码 : A
M ii gAso ito lso a e s La dDa ao ASEM n n s ca i nRu e f Re d r - n t nS
21 图书 借 阅数 据的获 取及 数据预 处 理 . 23 S SE 关联 规则数 据挖 掘 结果分 析 . A M
21 图书借阅数据的获取 .1 . 如图 1 所示 ,对要进行关联规则挖掘的图书借阅 数据按预先确定 的时间期 限、 操作类型、 索取号 、 条码 号和读 者证 号等条件从图书管理系统 IA I 系统 数 L SI 据库 中以文本类型提取并形成原始数据 ,原始借 阅数 据共 2 l 。 l2条 21 图书借阅数据预处理 .2 . 由于图书借阅数据关联规则数据挖掘的 目的是发 现借阅书籍 间的关联关系 ,因此在数据预处理阶段可 以将时间期 限、 操作类型、 条码号等数据清除, 只保 留

SAS_EM工具笔记

SAS_EM工具笔记

EM的使用Input Data SourceInput Data Source:Open…:进行运行前的设置,设置数据源,设置使用的字段,剔除无用的字段。

导入后,会生成另一个数据集,例如,本例为Output: EMDA TA:view_ajb中,在后继的节点中,如果需要设置数据集的名字,则使用该output指定的数据集名。

Data Tab:设置原始数据集名,数据集的作用(Role),以及导入的数据记录的个数。

Role可以设置为:一般设置为RA W,后面的节点可能需要各种Role的数据(如Neural Network等),如果在此设置为Train等,则该数据集在连接到后面的节点时,默认为相同的Role。

V ariables Tab:设置字段的作用。

Interval V aribles Tab:对字段进行简单的统计。

Sample抽样节点,从Input data source中抽取部分数据。

作为输入数据集。

可以有多个Input data source连接到sample节点。

Open…:进行运行前的设置。

Data tab:General Tab:设置获取数据的方法V ariables Tab:观察原始数据的特点,右击字段可以选择distribution of …察看数据的频率。

Output Tab:Run: 进行抽样。

Result…:查看运行后的结果,抽取的结果数据集已经生成。

Data Partition对数据进行划分,生成不同Role的数据集。

好像不能生成score数据集。

Neural NetWorkOpen…Data Tab:设置神经网络工作时的数据集。

需要设置不同的Role的数据集。

Score用来预测的。

Score预测可以另用Score节点来完成。

Run:进行神经网络训练。

Result…:查看结果。

可以查看output training data等。

Fit statistics模型拟合结果的统计。

应用SASEM进行数据挖掘

应用SASEM进行数据挖掘
03
成本较高:由于SAS EM是商业软件,其价格相对较高,可能不适合 小型企业和个人用户。
04
开放性不足:与其他开源工具相比,SAS EM的开放性较低,限制了 用户对其进行定制和扩展的能力。
SAS EM的未来发展前景
1 2 3
持续优化与升级
随着技术的不断发展,SAS EM将继续优化算法 和界面,提高数据挖掘的效率和准确性。
案例三:销售预测
总结词
利用SAS EM进行销售预测,通过分析历 史销售数据和市场趋势,预测未来的销 售情况,帮助企业制定合理的生产和销 售计划。
VS
详细描述
在销售预测中,SAS EM通过时间序列分 析方法,分析历史销售数据和市场趋势, 预测未来的销售情况。通过对不同产品、 地区、销售渠道的销售数据进行整合和分 析,SAS EM能够发现销售规律和市场变 化趋势,为企业制定合理的生产和销售计 划提供依据,提高企业的市场竞争力。
应用SAS EM进行数据挖掘
目录
• SAS EM简介 • 数据挖掘流程在SAS EM中的实现 • 案例分析 • SAS EM与其他数据挖掘工具的比较 • 结论
01
SAS EM简介
SAS EM是什么
SAS Enterprise Miner(EM)是SAS公司开发的一款数据挖掘 软件,它提供了一套完整的数据挖掘解决方案,包括数据预处 理、模型构建、模型评估和部署等。
它基于图形化界面,用户可以通过拖放节点的方式进行数据 挖掘任务的构建,无需编写复杂的代码,大大降低了数据挖 掘的门槛。
SAS EM的特点与优势
易用性
高效性
SAS EM提供了直观的图形化界面,用户可 以通过简单的拖放操作完成数据挖掘流程 的构建,无需具备深厚的编程基础。

sas模块简介

sas模块简介

SAS系统是一个模组软件系统,它由多个功能的模组组合而成,其相关软件模组的说明如下:BASE为SAS系统的核心模组。

提供档案建立、资料撷取、管理、分析和展示的功能。

SAS/ASSIST软件为选单式的使用者接口模组。

它能将SAS系统所提供的各种应用工具,以不用撰写程式的方法,而是以选单的方式去执行各模组的功能。

SAS/CONNECT为协同式及分散式处理模组。

它提供将各种不同平台的SAS系统连结起来,使系统达到资料整合与资源共享的能力。

SAS/GRAPH为制作高分辨率彩色图形模组。

可用来产生多种颜色和多种型式的统计图,如:柱形图、圆饼图、点状图、3D图、等高线图和地图等等。

SAS/ETS用来开发及维护主管资讯系统(Executive Information System)的应用系统开发工具。

提供时间序列读取、分析、预测和建立计量经济模型等功能。

SAS/AF应用系统开发工具。

利用面向对象程式(Object-Oriented Programming)及图形的使用者界面(Graphic User Interface)来开应用系统。

以利使用者方便应用SAS内的各项功能。

SAS/FSP为图形使用者接口的资料交谈式工具。

以图形接口作为资料登录、编辑、撷取和查询功能。

SAS/ACCESS为和各数据库软件间的资料连结与转换。

提供连结的数据库软件为:ORACLE, IBM DB2,MS ACCESS, DBASE, SYBASE, MS SQL SERVER等等。

SAS/STAT为全面性统计分析方法的工具。

提供如回归分析、变异数分析、类别分析、多变量分析、群集分析、存活分析、PSYCHOMETRICANALYSIS和无母数分析,并有正规化、线型化与非线型化等变量转换的功能。

SAS/LAB以导引方式的进行资料分析的工具。

提供统计的假设分析(Assumption),如OUTLIER、NORMAL、SCALING转换等功能,并可以协助作出结论,且可将执行过程全部储存,以做为日后分析或报告的参考。

SAS语言介绍

SAS语言介绍

一SAS语句SAS语言程序由数据步和过程步组成。

数据步用来生成数据集、计算、整理数据,过程步用来对数据进行分析、报告。

SAS语言的基本单位是语句,每个SAS语句一般由一个关键字(如DATA,PROC,INPUT,CARDS,BY)开头,包含SAS名字、特殊字符、运算符等,以分号结束。

SAS关键字是用于SAS语句开头的特殊单词,SAS语句除了赋值、累加、注释、空语句以外都以关键字开头。

SAS名字在SAS程序中标识各种SAS成分,如变量、数据集、数据库,等等。

SAS 名字由1到8个字母、数字、下划线组成,第一个字符必须是字母或下划线。

SAS关键字和SAS 名字都不分大小写。

二SAS表达式SAS数据步程序中的计算用表达式完成。

表达式把常量、变量、函数调用用运算符、括号连接起来得到一个计算结果。

常量SAS常量主要有数值型、字符型两种,并且还提供了用于表达日期、时间的数据类型。

数值型:数值型常数可以用整数、定点实数、科学计数法实数表示。

如:12,-7.5,2.5E-10字符型:字符型常数为两边用单撇号或两边用双撇号包围的若干字符。

如:'Beijing',"Li Ming","李明"日期、时间:日期型常数是在表示日期的字符串后加一个字母d大小写均可),中间没有空格。

时间型常数是在表示时间的字符串后加一个字母t。

日期时间型常数在表示日期时间的字符串后加字母dt。

日期型:'13JUL1998'd时间型:'14:20't日期时间型:'13JUL1998:14:20:32'dt因为SAS是一种数据处理语言,而实际数据中经常会遇到缺失值,比如没有观测到数值,被访问人不肯答,等等。

SAS中用一个单独的小数点来表示缺失值常量。

变量SAS变量的基本类型有两种:数值型和字符型。

日期、时间等变量存为数值型(实际记录为距1960/01/01的天数)。

SAS EM实例进阶

SAS EM实例进阶

SAS EM实例进阶Created by:Ning Gang****************HP GDCC GAPSE2008-12-29 1.SAS Enterprise Miner简介1.1. 数据挖掘简介数据仓库的发展,为分析人员提供了在各种层次上、历史回溯的数据信息。

对未来的信息要进行预测,这就演化出来数据挖掘技术。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

目前数据挖掘应用于很多行业中,来解决众多的商业问题,如数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。

1.2. EM简介SAS Enterprise Miner简称EM,它把统计分析系统和图形用户界面(GUI)紧密结合,对用户友好、直观、灵活、使用方便,使对统计学无经验的用户也可以理解和使用。

SAS定义了数据挖掘方法——SEMMA方法,即抽样(Sample)、探索(Explore)、修改(Modify)、建模(Model)、评价(Assess)。

以下SEMMA方法从SAS Help文档中拷贝,不再翻译以求理解准确。

∙Sample the data by creating one or more data tables. The sample should be large enough to contain the significant information, yet smallenough to process.∙Explore the data by searching for anticipated relationships, unanticipated trends, and anomalies in order to gain understanding and ideas.∙Modify the data by creating, selecting, and transforming the variables to focus the model selection process.∙Model the data by using the analytical tools to search for a combination of the data that reliably predicts a desired outcome.Assess the data by evaluating the usefulness and reliability of the findings from the data mining process.EM建立分析流程中,不必包含SEMMA方法每一步,同时其中的步骤可以重复出现。

SAS软件及部分常用功能简介

SAS软件及部分常用功能简介
颜色和字体选择
使用适当的颜色和字体,使图表更加美观和 专业。
动态数据可视化
交互式图表
允许用户通过点击或拖动来交互地查看数据。
时间序列动画
展示随时间变化的数据趋势。
动态更新
随着数据的改变,图表能够自动更新。
数据筛选
允许用户根据特定条件筛选数据,并实时反 映在图表上。
05
编程与自定义功能
SAS编程语言基础
SAS软件及部分常用功能简介
• SAS软件概述 • 数据导入与处理 • 统计分析功能 • 数据可视化功能 • 编程与自定义功能

01
SAS软件概述
SAS软件简介
SAS(Statistical Analysis System)软件是由美国北卡罗来纳大学于1966年开发的统计分析软件,最初 主要用于农业领域的数据分析。经过多年的发展,SAS已成为全球领先的数据分析和统计分析解决方案提 供商。
SAS软件采用模块化设计,用户可以根据需要选择不同的模块进行数据处理、统计分析、数据挖掘、 预测建模等。
SAS软件的特点与优势
强大的数据处理能力
SAS提供了丰富的数据导入、导出和转换工具,支持多种 数据格式和数据库系统,能够高效地处理大规模数据集。
灵活的数据挖掘功能
SAS的数据挖掘工具能够帮助用户发现隐藏在数据中的模 式和关联,支持多种数据挖掘算法,如决策树、神经网络 、聚类等。
饼图
用于表示各部分在整体中所占的比 例。
03
02
折线图
用于展示时间序列数据或连续变量 的变化趋势。
散点图
用于展示两个变量之间的关系。
04
图表制作与美化
选择数据
确保数据准确无误,是制作图表的基础。

sas模块简介

sas模块简介

SAS系统是一个模组软件系统,它由多个功能的模组组合而成,其相关软件模组的说明如下:BASE为SAS系统的核心模组。

提供档案建立、资料撷取、管理、分析和展示的功能。

SAS/ASSIST软件为选单式的使用者接口模组。

它能将SAS系统所提供的各种应用工具,以不用撰写程式的方法,而是以选单的方式去执行各模组的功能。

SAS/CONNECT为协同式及分散式处理模组。

它提供将各种不同平台的SAS系统连结起来,使系统达到资料整合与资源共享的能力。

SAS/GRAPH为制作高分辨率彩色图形模组。

可用来产生多种颜色和多种型式的统计图,如:柱形图、圆饼图、点状图、3D图、等高线图和地图等等。

SAS/ETS用来开发及维护主管资讯系统(Executive Information System)的应用系统开发工具。

提供时间序列读取、分析、预测和建立计量经济模型等功能。

SAS/AF应用系统开发工具。

利用面向对象程式(Object-Oriented Programming)及图形的使用者界面(Graphic User Interface)来开应用系统。

以利使用者方便应用SAS内的各项功能。

SAS/FSP为图形使用者接口的资料交谈式工具。

以图形接口作为资料登录、编辑、撷取和查询功能。

SAS/ACCESS为和各数据库软件间的资料连结与转换。

提供连结的数据库软件为:ORACLE, IBM DB2,MS ACCESS, DBASE, SYBASE, MS SQL SERVER等等。

SAS/STAT为全面性统计分析方法的工具。

提供如回归分析、变异数分析、类别分析、多变量分析、群集分析、存活分析、PSYCHOMETRICANALYSIS和无母数分析,并有正规化、线型化与非线型化等变量转换的功能。

SAS/LAB以导引方式的进行资料分析的工具。

提供统计的假设分析(Assumption),如OUTLIER、NORMAL、SCALING转换等功能,并可以协助作出结论,且可将执行过程全部储存,以做为日后分析或报告的参考。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS/EM 是一个图形化界面,菜单驱动的,拖拉式操作,对用户非常友好且 功能强大的数据挖掘集成环境。其中集成了:
数据获取工具; 数据抽样工具; 数据筛选工具; 数据变量转换工具; 数据挖掘数据库; 数据挖掘过程; 多种形式的回归工具; 为建立决策树的数据剖分工具; 决策树浏览工具; 人工神经元网络; 数据挖掘的评价工具。
2 SAS Enterprise Miner 5.1
SAS EM 是基于全球广泛认可的 SEMMA 数 据挖掘进程。SEMMA 为执行数据挖掘的核心任 务提供了一个灵活的框架,所以不管是富有经验 的统计人员,还是经验稍微欠缺的商业分析师, 都可以在该框架的指导下开发出更多更好的模 型。SEMMA 包括五个主要的步骤,亦即采样(S), 研究(E),修改(M),建模(M)和评估(A)。SAS 独 特的 SEMMA 方法采用了结构化的进程,以合理 的方式对每一步所需的工具进行组织。借助可以 被您修改,保存和共享的流程图,SEMMA 能够 更方便地使用研究统计技术和视图技术,选择和 变换最重要的变量,通过这些变量来创建模型, 以便预测结果,对模型的精确度进行确认,并进 行模型部署的准备工作。
3.数据筛选工具 通过数据筛选工具您可从观测值样本中筛选掉您不希望包括进来的观 测值。对于分类变量可给定某一类的类值说明此类观测值是要排除于抽样 范围之外的。对于区间变量可指定其值大于或小于某值时的这些组观测值 是要排除于抽样范围之外的。
通过数据筛选使样本数据更适合您要数据挖掘的目标。
4.数据变量转换工具 利用此工具可将某一个数据进行某种转换操作,然后将转换后的值作 为新的变量存放在样本数据中。转换的目的是为了使您的数据和将来要建 立的模型拟合的更好。例如,原来的非线性模型线性化、加强变量的稳定 性等。可进行取幂、对数、开方… 等转换。当然,您亦可给定一个公式进 行转换。
在SAS/EM中,可利用具有明确代表意义的图形化的模块将这些数据挖掘的工 具单元组成一个处理流程图,并依此来组织您的数据挖掘的过程。这一过程在任 何时候均可根据具体情况的需要进行修改、更新并将适合您需要的模式存储起 来,以便此后重新调出来使用。SAS/EM 图形化的界面,可视化的操作,可引导 即使是数理统计经验不太多的使用者也能按照 SEMMA 的原则成功的进行数据挖 掘。对于有经验的专家,SAS/EM 又提供了大量的选项,可让有经验的人士进行 精细的调整分析处理。
6.数据挖掘过程 在数据挖掘的过程中可以使用 SAS 广泛的数学方法,以及实现最新数 学方法的环境。SAS/EM 提供丰富的数据挖掘模型和灵活算法,包括如下模 型算法: 聚类分析(Clustering);支持平均距离、欧几里得距离和 WARD 方法。 多元回归模型/Logistic 回归(Regression);在线性回归中有若干不
从起始顺序抽样 这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给 定一个百分比,或者就直接给定选取观测值的组数。 分类抽样 在前述几种抽样方式中,抽样的单位都是一组观测值。分类抽样的单 位是一类观测值。这里的分类是按观测值的某种属性进行区分。如按客户 名称分类、按地址区域分类等。显然在同一类中可能会有多组观测值。分 类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。 设置多种形式的抽样方式不仅给了您抽样的灵活性,更重要的是从抽 样阶段您就能主动的考虑数据挖掘的目的性,强化了最后结论的效果。
SAS/EM 界面
这一强大的数据挖掘工具组合阵容,保证了可以支持企业级的数据挖掘的各 个方面工作。
1.数据获取工具 在 SAS/EM 的这个数据获取工具中,您可以通过对话框指定要使用的 数据集的名称,并指定要在数据挖掘中使用的数据变量。变量分为两类: 区间变量(Interval Variable)和分类变量(Class Variable)。区间变量是指 那些要进行统计处理的变量。对于这样一些变量,在数据输入阶段您就可 以指定它们是否要作最大值、最小值、平均值、标准差等的处理。还可给 出该变量是否有值的缺漏,缺漏的百分比是多少等。利用这些指定可对输 入数据在获取伊始就进行了一次检查,并把结果告诉您,您可初步审视其 质量如何。区间变量以外的变量称之为分类变量。在数据输入阶段将会提 供给您每个分类变量共有多少种值可供分类之用。
数据更换
z 集中性测量。 z 基于分布的操作。 z 通过替代数据把树的数据补 齐。 z 中等间距。 z 稳健的 M 估计。 z 缺省常数。
8.结果输出 SAS/EM 的 Score 节点提供以 SAS 数据步代码的方式产生模型打分的 公式。
SAS/EM 提供 Score Converter 节点,可以把 Enterprise Miner 的挖掘流 程图由 Score 节点产生的 SAS 数据步打分代码转换成 C 或 JAVA 语言。客 户可以把这些 C 或 JAVA 语言的数据挖掘打分代码集成到标准的 C 或 JAVA 应用中去。
2.数据抽样工具 对获取的数据,可再从中作抽样操作。抽样的方式是多种多样的,有: 随机抽样、等距抽样、分层抽样、从起始顺序抽样和分类抽样等方式。 随机抽样 在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样 的概率。如按 10%的比例对一个数据集进行随机抽样,则每一组观测值都 有 10%的机会被取到。 等距抽样 如按 5%的比例对一个有 100 组观测值的数据集进行等距抽样,则有: 100 / 5 = 20,等距抽样方式是取第 20、40、60、80 和第 100 等五组观测 值。 分层抽样 在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若干 个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的 层次您可设定不同的概率。这样的抽样结果可能具有更好的代表性,进而 使模型具有更好的拟合精度。
同方法可供选择,诸如向前、向后的逐步回归等,还有多种回归运 算结束的准则可以指定。在 Logistic 回归过程中可拟合逻辑型的模
型,其中响应变量可以是双值的或者是多值的。亦可使用逐步法选 择模型,还可以进行回归诊断及计算预测值和残差值。 决策树模型,支持 C45、CHAID、CART 等算法; 神经网络模型;可以处理线性模型;多层感知模型(MLP-Multilayer perceptron 这是采用较多的缺省方式)和放射型功能(RBF-Radial basis function)。 关联模式/序列模式分析(Association); 时间序列分析(Time Series);SAS/EM 的 Time Series 节点可以很方 便的把交易数据转换为时间序列数据。 链路分析模型(Link Analysis);用于检查一个复杂系统中的各个个 体的链接关系。 记 忆 基 础 推 理 ( Memory-based Reasoning ); 支 持 K- 最 近 邻 算 法 (k-nearest neighbor algorithm)。 SOM/KOHONEN 神经网络分类算法;支持 Kohonen 向量量化(Kohonen vector quantization)、自组织特征映射(Self-Organizing Feature Map)。 主成分分析(principal components analysis); 二阶模型(Two Stage Model)。二阶模型可以同时预测分类目标变量 与间隔值目标变量。
5.建立数据挖掘用的数据库 在进行数据挖掘分析模型的操作之前,要建立一个数据挖掘的数据库 (DMDB),其中就放置此次要进行操作的数据。因为此后可能要进行许多 复杂的数学运算,在这里建立一个专门的数据集将使您的工作更加有效率。 在处理之前,可对您选进数据挖掘数据库的各个变量预先进行诸如最大、 最小、平均、标准差… 等处理。对一些要按其分类的变量的等级也先放入 Meta Data 之中,以利接下来的操作。总之在这个数据库中为数据挖掘建立 一个良好的工作环境。
具体来讲,EM 的功能包括以下几点:
多重界面
便于操作的图 可通过网络发送。 z 可访问 SAS 编程环境。 z 可进行 XML 图交换。 z 其他项目或者用户可以把流程图作为模 板进行复用。 z 批处理: z 封装了图形用户界面的所有功能。 z 基于 SAS 宏进行操作。 z 试验性的 Java API。 z 基于网络的模型库: z 管理大型模型组合。 z 通过算法,等级,目标等内容来查询模型。 z 把诸如累积增益图,树形图和评分代码这 样的结果发送给商务管理者和数据管理者。
7.数据挖掘的评价工具 在 SAS/EM 的评价工具中,向您提供了一个通用的数据挖掘评价的架 构,可以比较不同的模型效果;预报各种不同类型分析工具的结果。 SAS/EM 提供 Assessment 节点进行模型评估。在 Assessment 节点中, 可以使用 LIFT 图、PROFIT/LOSS 图、ROI 图、诊断分类图、ROC 图、 Threshold-based 图等一系列标准的图表,进行模型比较与评估。在 SAS/EM 的评价工具中,还可以进行客户化的工作,对那些标准的评价图表按具体 要求进行更改。这样一来,评价工作就会更有意义。
z 通过 SAS ETL Studio 恢复和部署 Enterprise Miner 评分代码。
采样
z 简单随机采样。 z 分层采样。 z 按权重采样。 z 聚类采样。 z 系统采样。 z 通过前 N 个点采样。 z 罕见事件采样。
数据分割
z 创建训练,验证和测试数据集。 z 确保您的模型在使用发布数据的过 程中具有良好的通用性。 z 通过类目标进行缺省的分层。 z 通过任何类变量进行均匀分割。
另外,SAS/EM 中的用户自定义模型(User-defined Model)节点可以 允许用户在一个集成的数据挖掘环境中评估并比较自定义的模型。自定义 的模型可以是使用 SAS 语言开发的算法模型。也可以是某些用 C 或 Fortran 开发的专利算法,通过 SAS/TOOLKIT 模块将其代码移植集成到 SAS 系统。
同时,SAS/EM 提供 Ensemble 节点进行多个模型的整合。Ensemble 节点 可以创建一个新的模型以平均来自多个前置模型的分类目标的后验概率或间 隔目标的预测值。由此可以使得生成的模型更加稳定和高效。
相关文档
最新文档