数据挖掘方法论(SEMMA).

合集下载

大数据CDA考试(习题卷10)

大数据CDA考试(习题卷10)

大数据CDA考试(习题卷10)第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]以下哪个部分不是一篇数据分析报告必须有的。

( )A)标题B)正文C)结论与建议D)附录答案:D解析:2.[单选题]关于相关关系有误的是()。

A)按相关的程度分为完全相关、不完全相关和不相关B)按相关的特点分为单相关和多相 关C)按相关的方向分为正相关和负相关D)按相关的形式分为线性相关和非线性相关。

答案:B解析:3.[单选题]数据挖掘中Naive Bayes于什么方法?()A)聚类B)分类C)时间序列D)关联规则答案:B解析:4.[单选题]下哪种不是Hive支持的数据类型()。

A)tructB)ntC)apD)ong答案:D解析:5.[单选题]下列哪种方法不能用于检验一元线性回归残差是否服从正态分布( )A)PP图B)SW检验C)KS检验D)ADF检验答案:D解析:ADF检验一般用于时序模型6.[单选题]下列有关数据分析说法正确的是( )。

A)数据分析规定其操作流程分为5步B)SEMMA是数据挖掘项目方法论的名称C)数据分析只是针对大数据情形,小数据是没有意义的D)数据分析中模型的精度是第一位的答案:B解析:A项,没有明确规定的步骤数量;C项两类数据各有用处;D项,数据分析需要权衡成本、精度、效率等。

7.[单选题]Java编程所必须的默认引用包为()A)java.sys包B)ng 包C)java.util 包D)以上都不是答案:B解析:8.[单选题]下列涉及通配符的操作,范围最大的是( )A)nameB)nameC)nameD)name答案:C解析:%匹配多个字符,_匹配一个字符。

9.[单选题]检验单总体均值的过程中,如果是小样本,但总体标准差已知,检验统计量应该选择( )。

A)B)C)D)答案:A解析:见单总体均值检验概念10.[单选题]对于Hive 中关于普通表和外部表描述不正确的是?A)默认创建普通表B)删除外部表时,只除外部表数据而 不删除元数据C)外部实质是将已存在于HDFS 上的文件路径跟表关联起来D)删除普通表时,元数据和数据同时 被删除答案:C解析:11.[单选题]为AB类的一个无形式参数无返回值的方法methiod 书写方法头,使得使用类名 AB作为前级就可以调用它,该方法头的形式为()。

数据挖掘的技巧

数据挖掘的技巧

数据挖掘的技巧数据挖掘是一项重要的技术,它利用各种算法和工具来发现和提取隐藏在大量数据背后的有价值的信息。

在当今信息爆炸的时代,数据挖掘的技巧变得尤为重要,它可以帮助我们在海量数据中发现有用的模式和规律。

本文将介绍一些数据挖掘的技巧,帮助读者更好地理解和应用这一技术。

一、数据预处理数据预处理是数据挖掘的首要步骤,它包括数据清洗、数据集成、数据转换和数据规约。

数据清洗指对数据进行去除冗余、填充缺失值、处理异常值等操作,以确保数据的准确性和完整性。

数据集成是将来自不同来源的数据合并为一个一致的数据集,以用于后续分析。

数据转换是将原始数据通过归一化、标准化等方法转换为适合挖掘的形式。

数据规约是通过抽取、压缩等方法减少数据量,提高挖掘效率。

二、特征选择在数据挖掘过程中,特征选择是非常关键的一步。

由于原始数据中通常包含大量的特征变量,而不是所有特征都对挖掘目标有意义或有帮助,因此需要进行特征选择来减少维度、降低计算复杂度并提高挖掘效果。

常用的特征选择方法包括过滤式和包裹式,前者使用统计或相关性指标来评估特征的重要性,后者通过包裹模型来评估特征的贡献度。

三、算法选择选择适合的算法对于数据挖掘任务的成功与否至关重要。

不同的问题和数据类型需要不同的算法来处理。

常见的数据挖掘算法包括关联规则、分类、聚类、回归等。

关联规则用于发现不同属性之间的关联关系,分类算法用于通过训练数据来预测新样本的类别,聚类算法用于对数据进行分组,回归算法用于分析和预测变量之间的关系。

四、模型评估与优化在应用数据挖掘模型之前,需要进行模型评估和优化。

模型评估是通过指标或评估方法来评估模型的性能和准确性,以选择最优的模型。

常用的评估指标包括准确率、召回率、精确率和F1值等。

模型优化是通过调整参数、特征选择等方法来提高模型的性能和泛化能力。

五、可视化与解释性数据挖掘的结果通常需要以可视化的方式展示,以方便理解和沟通。

可视化技术包括散点图、柱状图、折线图等,可以帮助直观地展示数据的分布、趋势和关系。

CDA数据分析师 LEVEL 1模拟题

CDA数据分析师 LEVEL 1模拟题

21、如果多元线性回归模型中残差不等于 0,而是一个常数,那么( ) A. 这个常数应该包含在常数项 B. 应该去除常数项 C. 应该去除残差项 D. 模型有效 答案:A 分析:如果残差的期望不等于 0,而等于其他的某个常数,那么这个常数就应该 出现在多元线性回归的常数项内。
22、分析师小 A 在对他的模型进行评估时,更倾向选用调整 R²作为指标。因为
7、希望将不同数据表中的数据进行关联的时候,我们可以采用表连接。以下不 是 sql 表连接方式的一个是( ) A. right join B. left join C. union D. all join 答案:D 分析:连接后保留两张表全部信息应使用 full join。
8、以下哪个数据库可以使用 row number over partition by 函数( ) A. MySql B. SQL Server C. Oracle D. SAS 答案:C 分析:Oracle 包含了非常多的高级函数,row number over partition by 就是其中之 一。这个函数在 Hive 和 Impala 上也可以使用。
18、使用余弦相似度时,结果等于 1 表示两个向量( ) A. 完全相同 B. 完全相反 C. 完全相关 D. 不确定 答案:A 分析:余弦相似度表示 a、b 两个向量之间夹角的余弦值。等于 1 时,表明两个 向量方向完全相同,越接近 1,表明两个向量越相似。
第 6 页,共 27 页
版权所有,侵权必究
15、以下哪个聚类方法又叫快速聚类法( ) A. K-means 聚类法 B. 层次聚类法 C. 系统聚类法 D. 两步聚类法 答案:A 分析:K-means 聚类法计算量非常小,因此又得名快速聚类法。
第 5 页,共 27 页

第三章 数据挖掘的方法论

第三章 数据挖掘的方法论
第3章 数据挖掘方法论

数据挖掘将商业需求和所需要的数据联系在一 起,它是对客户和商业前景的理解,理解产品 和市场,理解供货方和合作伙伴,理解销售的 全过程,并用数据将他们整合到一起。为了成 功运用数据挖掘,对数据挖掘技术层面的理解 至关重要,尤其是应该了解如何将数据变成有 用信息的过程。
数据挖掘方法论CRISP-DM和SEMMA
面向CRM的数据挖掘方法论


数据挖掘四个重要的业务过程所构成:理解业 务问题;将数据转换成可执行的结果;结果实 施过程;评价结果的实施。 成功实现数据挖掘需要全部四个过程,每一步 产生的结果不断向后传播,由数据不断产生信 息。从数据中提炼信息,不断更新建模技术, 根据以前努力的结果改进数据挖掘过程,如此 往复生成新的有用的知识。

假设1:过去是将来的预言家 假设2:数据是可以获得的 假设3:数据中包括我们的预期目标
1. 正确识别业务问题


(1) 实施数据挖掘是否必要? (2) 是否有最让人感兴趣的客户子群或客户细 分? (3) 相关的行业规则有哪些? (4) 关于数据 (5) 检验领域专家的观点
2. 数据转换成可操作的决策(2)

建立数据 挖掘模型 是一个互 动的过程
2. 数据转换成可操作的决策(2)

CRISP-DM(CRossIndustry Standard Process for Data Mining) 即为”跨行业数据挖掘过 程标准”,该模型将一个 KDD工程分为6个不同的, 但顺序并非完全不变的阶 段:。CRISP-DM 模型在 各种KDD过程模型中占据 领先位置,采用量达到近 60%。

CRISP-DM是从数据挖掘项目执行的角度谈方法 论,SEMMA 则是从对具体数据集的一次探测和挖掘的 角度来谈方法论, CRISP- DM的考虑的范围比SEMMA 要大。CRISP-DM关注商业目标、数据的获取和管理, 以及模型在商业背景下的有效性; SEMMA 不否认商业 目标,但更强调数据挖掘是一个探索的过程。SEMMA 体现了不同算法在项目过程的不同阶段有不同的重要 性, 没有如同CRISP-DM一样详细而规范的文本, 从 项目管理的需要来看CRISP-DM更适用一些。由于 CRISP- DM在阶段间可以反馈,整个流程又是循环的, 在逻辑上CRISP- DM是可以实现SEMMA的, 它们互不 矛盾。但由于强调的重点不同, 在实践上则会有明显 的区别。

数据挖掘方法论(SEMMA)

数据挖掘方法论(SEMMA)

数据挖掘方法论(SEMMA)SAS数据挖掘方法论─ SEMMA(2009-07-20 21:15:48)Sample ─数据取样Explore ─数据特征探索、分析和予处理Modify ─问题明确化、数据调整和技术选择Model ─模型的研发、知识的发现Assess ─模型和知识的综合解释和评价Sample──数据取样当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。

这就象在对开采出来矿石首先要进行选矿一样。

通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。

通过数据取样,要把好数据的质量关。

在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。

因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性。

若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导。

若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。

再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。

SAS不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验。

若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。

你还应当从实验设计的要求来考察所取样数据的代表性。

唯此,才能通过此后的分析研究得出反映本质规律性的结果。

利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。

Explore──数据特征探索、分析和予处理前面所叙述的数据取样,多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。

semma的数据挖掘方法论

semma的数据挖掘方法论

semma的数据挖掘方法论Semma数据挖掘方法论是一种高效的数据挖掘方法,它包含以下步骤:第一步,样本设计(Sample):在样本设计阶段,需要搜集足够多的数据,并且保证数据集的丰富性、有代表性和可靠性,并且会针对不同场景选择不同的样本搜集方式。

第二步,探索性数据分析(Explore):探索性数据分析是在数据集中进行初始的数据分析以及数据可视化,以发现数据的结构和特征,为后续建模提供支持。

在这一步骤中,可以使用多种统计工具和图表对数据进行初步的分析和可视化操作,以发现数据潜在的规律和异常等。

第三步,数据预处理(Modify):数据预处理是针对数据集中的缺失值、异常值、重复值等数据问题进行处理和清洗,以提高数据的质量和准确性,确保数据符合建模的要求,包括数据格式的规整化、特征的筛选、标准化等过程。

第四步,建模(Model):在建模过程中,使用适当的算法进行建模,并进行模型选择与评估,以得到一个具有较高准确率、鲁棒性和泛化能力的模型。

在这一步骤中,需要针对业务问题选取合适的算法,比如分类算法、回归算法、聚类算法等,以提高建模的精度和效率。

第五步,评估(Assess):在模型建成后,需要进行模型的评估和验证,以确保模型的有效性和工作状态。

比如可以使用交叉验证和ROC曲线等方法对模型进行测试和评估,定量分析模型的表现和改进空间。

第六步,部署(Deploy):在测试通过后,将模型部署到实际产品或业务系统中,进行生产环境测试和优化,以满足业务需求,对业务流程进行优化、精细化改进。

这一步骤中,需要进行维护和管理,以保证模型的可靠性和有效性。

以上是Semma数据挖掘方法论的步骤,它是一种基于问题驱动的数据挖掘方法论,适用于多种数据挖掘场景,可帮助数据分析师快捷地搜寻数据、挖掘数据、整理数据、模拟数据、学习数据等工作,从而更好地解决实际业务问题。

数据挖掘的方法

数据挖掘的方法

数据挖掘的⽅法
数据挖掘是从⼤量的数据中发现隐含的信息或者知识的过程,属于主动性分析⽅法,不需要先进⾏假设,可以发现未知知识。

数据挖掘常⽤的分析⽅法包括:分类、聚类、关联分析、数值预测、序列分析、社会⽹络分析等。

1、分类:
分类(classification)是通过对具有类别的对象的数据集进⾏学习,概括其主要特征,构建分类模型,根据该模型预
测对象的类别的⼀种数据挖掘和机器学习技术。

分类属于监督性学习。

2、聚类:
聚类(clustering)是依据物以类聚的原理,将没有类别的对象根据对象的特征⾃动聚集成不同簇的过程,使得属于同⼀个簇的对象之间⾮常相似,属于不同簇的对象之间不相似。

聚类属于⾮监督性学习。

3、关联分析:
关联分析最早⽤于分析超市中顾客⼀次购买的物品之间的关联性。

4、数值预测:
数值预测⽤于预测连续变量的取值。

常⽤的预测⽅法是回归分析。

5、社会⽹络分析:
社会⽹络分析(social network analysis)是对社会⽹络的结构和属性进⾏分析,以发现其中的局部或全局特点,发现其中有影响⼒的个⼈或组织,发现⽹络的动态变化规律等。

数据挖掘的概念与常用统计分析技术——胡良平

数据挖掘的概念与常用统计分析技术——胡良平

附录3 数据挖掘技术与基因表达谱分析 第60章数据挖掘的概念与常用统计分析技术本章主要介绍数据挖掘的相关知识和SAS企业数据挖掘器的基本原理和操作方法。

首先,对数据挖掘的背景、基本概念和相关应用做了简要的概述;其次,介绍了SAS企业数据挖掘器的基本工作原理,以及SAS企业数据挖掘器所包含的功能和支持的数据挖掘算法;再次,详细阐述了数据挖掘中关联规则和序列规则的定义和常用统计量,并通过实例介绍了如何在SAS企业数据挖掘器中进行关联规则和序列规则挖掘;最后,通过实例的方式详细描述了如何在SAS企业数据挖掘器中进行分类预测,其中涵盖了数据准备、数据探索与数据转换、构造预测模型和模型评估与数据预测等步骤,涉及的分类模型主要有人工神经网络、决策树和logistic回归。

60.1 数据挖掘的基本概念60.1.1 数据挖掘的背景近年来,数据挖掘引起了各行各业的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。

随着数据的膨胀和技术环境的进步,人们对联机决策和分析等高级信息处理的需求越来越迫切,在强大的商业需求的驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商机。

学者们也开始思考如何从大容量数据集中获取有用信息和知识的方法。

因此,在20世纪80年代后期,产生了数据挖掘信息处理思想。

任何技术的产生总是有它的技术背景的。

数据挖掘技术的提出和普遍接受是由于计算机及其相关技术的发展为其提供了研究和应用的技术基础。

归纳数据挖掘产生的技术背景,下面一些相关技术的发展起到了决定性的作用:(1)数据库、数据仓库和Internet等信息技术的发展;(2)计算机性能的提高和先进的体系结构的发展;(3)统计学和人工智能等方法在数据分析中的研究和应用。

数据库技术从20世纪80年代开始,已经得到广泛的普及和应用,另外,Internet的普及也为人们提供了丰富的数据源,而且Internet技术本身的发展,已经不仅仅是简单的信息浏览,以Web计算为核心的信息处理技术也可以处理Internet环境下的多种信息源。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SAS数据挖掘方法论─ SEMMA(2009-07-20 21:15:48Sample ─数据取样Explore ─数据特征探索、分析和予处理Modify ─问题明确化、数据调整和技术选择Model ─模型的研发、知识的发现Assess ─模型和知识的综合解释和评价Sample──数据取样当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。

这就象在对开采出来矿石首先要进行选矿一样。

通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。

通过数据取样,要把好数据的质量关。

在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。

因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性。

若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导。

若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。

再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。

SAS不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验。

若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。

你还应当从实验设计的要求来考察所取样数据的代表性。

唯此,才能通过此后的分析研究得出反映本质规律性的结果。

利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。

Explore──数据特征探索、分析和予处理前面所叙述的数据取样,多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。

当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。

进行数据特征的探索、分析,最好是能进行可视化的操作。

SAS有:SAS/INSIGHT和SAS/SPECTRA VIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。

它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。

这里的数据探索,就是我们通常所进行的深入调查的过程。

你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。

但是,这种复杂的关系不可能一下子建立起来。

一开始,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。

这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察。

在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察。

但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。

可能实际存在着你的先验知识认为不存在的关系。

假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系。

很可能这里就是发现的新知识!有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。

假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。

在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。

所幸的是SAS 向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反应。

免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。

这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保持了一个集中的较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力。

Modify──问题明确化、数据调整和技术选择通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解。

对你原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。

问题越明确,越能进一步量化,问题就向它的解决更前进了一步。

这是十分重要的。

因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题,没有问题的进一步明确,你简直就无法进行有效的数据挖掘操作。

在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要。

Gartner group在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。

针对问题的需要可能要对数据进行增删;也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。

SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。

若使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作。

在问题进一步明确;数据结构和内容进一步调整的基础上,下一步数据挖掘应采用的技术手段就更加清晰、明确了。

Model──模型的研发、知识的发现这一步是数据挖掘工作的核心环节。

虽然数据挖掘模型化工作涉及了非常广阔的技术领域,但对SAS研究所来说并不是一件新鲜事。

自从SAS问世以来,就一直是统计模型市场领域的领头羊,而且年年提供新产品,并以这些产品体现业界技术的最新发展。

按照SAS提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据结构和内容也有了充分的适应性。

SAS在这时也向你提供了充分的可选择的技术手段:回归分析方法等广泛的数理统计方法;关联分析方法;分类及聚类分析方法;人工神经元网络;决策树……等。

在你的数据挖掘中使用哪一种方法,用SAS软件包中什么方法来实现,这主要取决于你的数据集的特征和你要实现的目标。

实际上这种选择也不一定是唯一的。

好在SAS软件运行效率十分高,你不妨多试几种方法,从实践中选出最适合于你的方法。

Assess──模型和知识的综合解释和评价从上述过程中将会得出一系列的分析结果、模式或模型。

同一个数据源可以利用多种数据分析方法和模型进行分析,ASSESS 的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要对模型进行针对业务的解释和应用。

若能从模型中得出一个直接的结论当然很好。

但更多的时候会得出对目标问题多侧面的描述。

这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。

所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。

假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。

你提供的决策支持信息适用性如何,这显然是十分重要的问题。

除了在数据处理过程中SAS 软件提供给你的许多检验参数外,评价的办法之一是直接使用你原来建立模型的样板数据来进行检验。

假如这一关就通不过的话,那末你的决策支持信息的价值就不太大了。

一般来说,在这一步应得到较好的评价。

这说明你确实从这批数据样本中挖掘出了符合实际的规律性。

另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。

这次的检验效果可能会比前一种差。

差多少是要注意的。

若是差到你所不能容忍程度,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身不够完善。

这时候可能要对前面的工作进行反思了。

若这一步也得到了肯定的结果时,那你的数据挖掘应得到很好的评价了。

SAS Enterprise Miner ─SEMMAThe acronym SEMMA – sample, explore, modify, model, assess – refers to the core process of conducting data mining. Beginning with a statistically representative sample of your data, SEMMA makes it easy to apply exploratory statistical and visualisation techniques, select andtransform the most significant predictive variables, model the variables to predict outcomes, and confirm a model's accuracy.Before examining each stage of SEMMA, a common misunderstanding is to refer to SEMMA as a data mining methodology. SEMMA is not a data mining methodology but rather a logical organisation of the functional tool set of SAS Enterprise Miner for carrying out the core tasks of data mining. Enterprise Miner can be used as part of any iterative data mining methodology adopted by the client. Naturally steps such as formulating a well defined business or research problem and assembling quality representative data sources are critical to the overall success of any data mining project. SEMMA is focused on the model development aspects of data mining:Sample (optional your data by extracting a portion of a large data set big enough to contain the significant information, yet small enough to manipulate quickly. For optimal cost and performance, SAS Institute advocates a sampling strategy, which applies a reliable, statistically representative sample of large full detail data sources. Mining a representative sample instead of the whole volume reduces the processing time required to get crucial business information. If general patterns appear in the data as a whole, these will be traceable in a representative sample. If a niche is so tiny that it's not represented in a sample and yet so important that it influences the big picture, it can be discovered usingsummary methods. We also advocate creating partitioned data sets with the Data Partition node:Training -- used for model fitting.Validation -- used for assessment and to prevent over fitting.Test -- used to obtain an honest assessment of how well a model generalizes.Explore your data by searching for unanticipated trends and anomalies in order to gain understanding and ideas. Exploration helps refine the discovery process. If visual exploration doesn't reveal clear trends, you can explore the data through statistical techniques including factor analysis, correspondence analysis, and clustering. For example, in data mining for a direct mail campaign, clustering might reveal groups of customers with distinct ordering patterns. Knowing these patterns creates opportunities for personalized mailings or promotions.Modify your data by creating, selecting, and transforming the variables to focus the model selection process. Based on your discoveries in the exploration phase, you may need to manipulate your data to include information such as the grouping of customers and significant subgroups, or to introduce new variables. You may also need to look for outliers and reduce the number of variables, to narrow them down to the most significant ones. You may also need to modify data when the "mined" data change. Because data mining is a dynamic, iterative process, you can update data mining methods or models when new information is available.Model your data by allowing the software to search automatically for a combination of data that reliably predicts a desired outcome. Modeling techniques in data mining include neural networks, tree-based models, logistic models, and other statistical models -- such as time series analysis, memory-based reasoning, and principal components. Each type of model has particular strengths, and is appropriate within specific data miningsituations depending on the data. For example, neural networks are very good at fitting highly complex nonlinear relationships.Assess your data by uating the usefulness and reliability of the findings from the data mining process and estimate how well it performs. A common means of assessing a model is to apply it to a portion of data set aside during the sampling stage. If the model is valid, it should work for this reserved sample as well as for the sample used to construct the model. Similarly, you can test the model against known data. For example, if you know which customers in a file had high retention rates and your model predicts retention, you can check to see whether the model selects these customers accurately. In addition, practical applications of the model, such as partial mailings in a direct mail campaign, help prove its validity.By assessing the results gained from each stage of the SEMMA process, you can determine how to model new questions raised by the previous results, and thus proceed back to the exploration phase for additional refinement of the data.Once you have developed the champion model using the SEMMA based mining approach, it then needs to be deployed to score new customer cases. Model deployment is the end result of data mining - the final phase in which the ROI from the mining process is realized. Enterprise Miner automates the deployment phase by supplying scoring code in SAS, C, Java, and PMML. It not only captures the code for of analytic models but also captures the code for preprocessing activities. You can seamlessly score your production data on a different machine, and deploy the scoring code in batch or real-time on the Web or in directly in relational databases. This results in faster implementation and frees you to spend more time uating existing models and developing new ones.。

相关文档
最新文档