数据挖掘

数据挖掘
数据挖掘

一、数据挖掘概述

1、数据挖掘

定义:通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。

——数据挖掘是一门技能,不是一种现成的产品。

2、数据挖掘能做什么

6种方法:分类(classification)、估计(estimation)、预测(prediction)、组合或关联法则(affinity grouping or association rules)、聚类(clustering)、描述与可视化(description and visualization)

前三种方法属于直接的数据挖掘,目标是应用可得到的数据建立模型,用其他可得到的数据来描述我们感兴趣某一变量。

后三种方法属于间接的数据挖掘,没有单一的目标变量,目标是在所有变量中发现某些联系。

1)分类:其特点是先对不同的类别加以定义,并由预先分类的样本构成训练集。任务是建立一个模型并应用这一模型对未分类数据进行分类。分类处理的是离散的结果。

2)估计处理的是连续的结果。

3)组合法的任务是确认哪些事物会一起出现。

4)聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中。聚类与分类的区别是聚类并不依赖于事先确定好的组别。

3、技术层面的数据挖掘

1)算法与技巧

2)数据

3)建模实践

二、数据挖掘方法论:互动循环系统

1、数据挖掘的两种类型

一种是自上而下的方法,称之为有监督的数据挖掘方法,当明确知道要搜索的目标时,可以是用这种方法。

一种是自下而上的方法,称之为无监督的数据挖掘方法,实际就是让数据解释自己。此方法是在数据中寻找模式,然后把产生的结果留给使用者去判断其中哪些模式重要。

数据挖掘的结果通常是这两种方法的结合。

1)有监督的数据挖掘

黑匣子模型:使用一个或多个输入值产生一个输出的模型。我们并不关心模型如何运作,那只是黑盒子,我们只关心可能的最优结果。

我们根据已知事例,分析其相关资料,将分析结果用在从未联络的潜在客户,这样的模型称之为预测模型。预测模型使用历史记录来计算某些相应结果中的得分。成功预测的要领之一是拥有足够支持结果的数据来训练模型。

2)无监督的数据挖掘

半透明模型:有时需要使用模型能够得到与数据相关的重要信息,我们也需要了解模型的运作细节,这就好比一组半透明的盒子。

2、数据挖掘的互动循环过程

数据挖掘的互动过程是一种高层次的流程,由四个重要的业务过程所构成:

理解业务问题;

将数据转换成可执行的结果;

结果实施过程;

评价结果的实施。

3、将数据转换成可操作的决策

数据挖掘的核心是将数据转换为可操作的结果。

建立模型的第一步是确认和获得合适的数据。首先要考虑得到的数据是否符合解决企业业务问题的需要;在建模的时候需要尽可能完整的数据。

------将数据转换成具有合适粒度的数据。粒度是指建模数据的级别大小。

------加入衍生变量是数据挖掘过程的第三步。衍生变量值是合并原始数据生成的结果。

------准备建模数据集,将数据集分成三部分:训练数据集、测试数据集、评估数据集。

------将结果生成决策。可以赋之以行动的结果有如下几种不同的表现方式:新的认知;

用于特定商业活动的结果;

可被储存的结果;

周期性预测结果;

实时得分;

修复数据。

预测模型在使用(生成得分)之前必须得到训练(构建):

训练模型是使用历史数据和待预测信息已知的数据创建模型的过程。

较多的近期数据+ 预测模型 预测、可信度

用预测模型产生评分是这样一个过程,它将模型应用到未来的数据中,预测未来。

预测模型的成功应用依赖于三个假定:

1)过去是将来的预言家。

2)数据是可获得的。

3)数据中应包括我们的预期目标。

三、客户和他们的生命周期

1、谁是企业的客户

客户大致分为两种类型:消费者(consumer)和企业客户(business customer)。

1)消费者

经济营销单位是市场营销中对客户的描述。由于客户在经济活动中的多重身份,客户的答案也不统一,具体表现如下:

行为身份(action role),表示对某项互动活动的个体或实体;

所有权身份(ownership role),表示拥有某项经济活动所有权的个体或实体;

决策身份(decision making role),表示具有制定和影响购买决策和行为的个体或实体,这种身份用于家庭。

2)企业客户

消费者的身份是购买最终产品和服务,而企业客户的身份是向你行销、出售、提供产品和服务。企业客户间的关系更加复杂。

市场行销中的间接关系,是客户的关系变得异常复杂。由于客户关系的越趋复杂,分析这些关系时必须考虑到企业中介的作用。

普通消费者和企业客户最大区别在于有没有账户管理团队(account management team)的存在。从合作的角度,数据挖掘必须能够支持账户管理系统。

3)客户市场细分

指的是将客户划分为互不相交的不同的类别。

2、客户的生命周期

1)客户的生命周期指的是一个客户和一个企业之间不同的关系阶段,它直接影响到客户对一个公司的长期价值。

一般认为有如下三种方法提升客户的价值:

对客户已有产品增添新功能,或者说提升产品的购买价值;

向客户出售更多、更容易升级的产品;

使客户能长期购买本公司的产品。

客户的背景资料是客户和公司商业交往中的详细档案。

2)客户生命周期的不同阶段

3)客户生命周期中的重要事件

4)客户生命周期中不同时段所产生的资料

未来潜在客户的资料通常最少。

响应资料指的是客户对促销活动所做出的反应的资料。

3、客户的生理生命周期

除了客户的消费生命周期外,我们还要考虑客户本身的生理生命周期。

这些重要事件包括以下几个方面:更换工作、初为人母、结婚娶嫁、离职退休、搬迁新居、重疾有染等。这些事件都为公司发展客户,改善客户关系提供了有利时机。

4、选择最佳时机,锁定最佳客户

两种观点,来评价客户关系管理的好坏:一是将注意力放在客户身上,节支增收;二是将每一位客户的价值最大化。

1)预算最优化

2)促销活动最优化

3)客户最优化

最好的下一个信息包括所能提供的任何类型,诸如:

对新客户提供不一样的促销;

选择适当的管道来传递信息;

针对将要离开的客户,推出留念客户的方案;

针对将要停止付费的客户,推出解决方案;

针对客户不同的需求,推出量身定做的服务;

所能提供的不同产品。

第二部分数据挖掘的三大支柱

三大支柱:数据挖掘技术、数据和数据建模

四、数据挖掘技术和算法

1、不同的目标要求不同的技术

数据挖掘功能可以是目标性的,也可以是描述性的,其差异取决于数据挖掘实践的目标。

1)目标性数据挖掘首要任务是创建一个可以预测、指定标记以及估计数值的预测模型,从而可以自动实现决策过程。

2)描述性数据挖掘的主要任务是增加对数据深入的了解,然后了解数据所反映的广泛的现实世界。

2、三种数据挖掘技术

自动类别侦测(automatic cluster detection);

决策树(decision trees);

神经网络(neural networks)。

1)自动类别侦测

区隔方法:把所有的记录认为是一个大类,然后这个类分成两个或更多较小的类,这些较小的类自身也被拆分,直到最后每个记录只属于一个类为止。该过程的每

一步都会记录下有关分群的度量值,直到最后能找到最佳的聚类集合。

凝聚方法:先把每个记录当作一个类,不断的组合新的类,直到最后所有的记录变成一个类。

K-均值聚类法(k-means),当输入变量是数值型时,这种算法效果更好。

K-均值算法是把数据集拆分成预先给定数目的类,这个数目就是“K-均值”中的“K”。

第一步:选择K个数据点作为种子点(seed),多少可任意。每个种子点是只有一个元素的胚胎群。

第二步:把每个记录点归于离其质心最近的那个类。初始种子间用虚线连接,由种子产生的类的界限(两个初始种子连线的中垂线)用实现表示,可完成以初始种子为中心的归类。

第三步:计算新类的质心(取每个字段的平均),再按照新类的界限(每队质心的中垂线)把每个点归类,依次迭代直到类与类之间的界限不再改变。

自动类别侦测是一种无监督的方法,即便没有对于问题的先验知识也可以应用,另一方面除了将数据映射到几何坐标体系,可以从一定程度上反映一些样本点彼此临近的程度外,我们无法得知这样做的道理,因此聚类的结果实际很难应用。

自动聚类算法产生的聚类结果并不都保证有实际价值,一旦产生类别就由我们自己来解释,三种最常用的是:

把类别作为目标变量建一个决策树,并用它产生一些规则解释如何归类新的样品;

使用可视化方法研究观察这些类别如何受输入变量变化的影响;

检查一类到另一类变量分布的差异,每一次一个变量。

2)决策树

按功能分决策树有两种类型:

分类树,对样品进行标识并把它们正确归类。同时还可以提供分类正确的信度。

回归树,对数值型的目标变量进行估计。

不同决策树算法的不同主要体现在三个方面:

①树的每一层允许的拆分点的数目。

②建树时拆分点的选择原则。

③为了防止“过度拟合”,该怎样抑制树的成长。

决策树的工作原理:

决策树的每个分枝相当于单变量的校验,结果将整个空间分成两个或更多空间。

例子:设定仅有两个变量X和Y,每个变量取值在0~100之间。树的每个拆分点都是二分的,在每个拆分点处,根据对X或Y的校验,一个记录要么进入左枝要么进入右枝。

决策树的建立过程:

决策树是通过递推分割的方式建立起来的。递推分割是一种把数据拆分成不同小的部分的迭代过程。

①确定初始拆分点

这个过程始于包含预分类样品的训练集。所谓预分类,就是在这些数据集中,目标变量标识了已知的类别。我们的目标就是建立一个能区分不同类别的树,也就是说根据其他变量或自变量的取值,这棵树能够对新样品的目标变量进行分类。

第一个步骤是选择哪一个字变量是最佳拆分变量。评估一个可能的拆分点的度量是差异的减少。

------度量差异性:基尼系数,目地是度量总体的差异程度。解释为从总体中有放回地随机取得两个样品属于不同类别的概率,一个种类被连续两次抽到的概率是P^2,差异系数就是1减去所有的P^2。当只有两个类别时差异系数就是2P(1-P)。

差异总的减少为根部的差异减去后代加权的差异,最佳拆分点就是差异性减少最大的那一个。

②初始拆分点会形成两个节点,每一个节点会像根节点一样被再次拆分。若某一个节

点下的结果都是一样的,就没必要拆分下去了,这样的节点叫做叶节点。

③树的修剪,修剪是为了改善决策树各位而把一些枝叶修剪的过程。

树长到一定深度时,模型已经是对训练集的过度拟合。

如何处理过度拟合?解决方法主要是修剪法和盆栽法:

a)盆栽法尽力限制树的成长以免它长得太深。每个节点都会使用各种检验决定更深入的拆分是否有用。检验方法可以是规定每个节点下最小的记录数目,也可以对

每一个可能的拆分用统计检验其显著性。

b)修剪法可以允许初始决策树长的足够深,然后用一些规则剪掉不是一般性的枝节。

通常的方法是找到初始决策树的各种各样的越来越小的子树相关的分类错误率。

树以及它所有的子树的效果是由一系列的叫作检验集的已经分类数据集合来度

量的,仅用一个检验集,算法是根据最小的基于检验集的误差率可以把树修剪回

一棵子树。

选择决策树所产生的后果

决策树的每一次分隔都是根据单一变量所在的检验,因此决策树不可能发现有关变量之间互相关系的规则,这使得有必要增加一些可能会很重要的衍生变量。

什么时候选择决策树

当数据挖掘的任务是对记录的分类或者未知结果的预测时,决策树是一个好的选择。当目的是把每个记录归并到许多范围更大的目录的其中时,可以选择决策树的方法。3)神经网络

神经网络有一个输入层和一个输出层,每个输入值本身就是一个单元或网络节点。一般进入输入层的并不是输入变量的实际值,而是通过一个权重和输出单元相联系。在输出单元内部,各输入权重通过一个组合函数组合起来,然后向后传递到转移函数,其结果就是神经网络的输出。组合函数和转移函数一起构成了激活函数。

①隐层:通常在输入层和输出层之间还会有一个或多个层,叫做隐层,其中的单元叫

隐单元。

②激活函数:组合函数通常是输入变量的加权求和函数,常见的转移函数是S形或钟

的。钟形转移函数也叫做径向基函数。常见的S形转移函数是正切函数、双曲正切

函数和逻辑斯函数。

③神经网络的训练:训练一个神经网络就是把权重分配给每个单元的输入变量的过程,

所产生的神经网络对重要的函数要有最好的拟合近似。从更广的意义上看,建立神经网络模型的大多软件包使用这种最优化方法的变体,就是向后传播方法。

④后向传播

训练一个后向传播神经网络有三个步骤:

得到一个训练实例。在网络中使用现有的权重计算实例的输出;

后向传播然后计算——取计算结果和期望(实际)结果的差;

该误差用来调整权重。

⑤数据准备问题

神经网络模型要产生好的结果必须作大量的数据准备工作。

神经网络的输入量必须变换到特定的一个区域(通常是-1到1之间),需要详细考虑针对输入数据的附加变换和操作。

定类变量需要转变为数值型变量,而且不能有伪排序。关于定类变量的另一方法是为变量可能取到的每一个值产生一个二分的标签变量。

何时使用神经网络

如果在分类和预测中模型的结果比了解模型的原理更为重要,神经网络就是很好的选择。当有成百上千个特征量要输入时,神经网络的效果就不是很好,可能会导致长时间的训练且不会收敛于好的结果,这时需要把它和决策树结合起来使用。

五、无所不在的数据

1、数据结构

行:在数据挖掘中行是行为的集合,行的定义取决于数据挖掘结果如何使用。

列:列或段代表了在每条记录里的数据。

对数据挖掘十分重要的一些特例:

1)只有一种值的列。只有一种值有时是数据的一个特性。

2)几乎只含一种值的列。

3)拇指规则是即使某一列被证实是很有信息量的,但如果它几乎是单一值,则意味着没有用处。也就是说如果某一列95%~99%的值相同,这一列很可能没有。

4)列的值各不相同。另一个极端是列的值在每一行上都不相同或几乎不同,这样的列同样没有用处。因为每个记录上数值几乎不同使得无法产生预测值。

5)忽略与目标同义的列。当某一列和目标列相关度很高时,可能意味这一列是目标列的同列。

数据挖掘中列的作用,其三种基本种类角色是:输入列;目标列(只有当构造预测模型时才使用);忽略列。

简而言之,数据挖掘中的数据需要采用以下格式:

1)所有数据应该在一个表格或数据库视图中。

2)每一行对应于业务问题相关的一个案例。

3)忽略具有单一值的列。

4)忽略所有行的值都不同的列。

5)对于预测模型,目标列是可识别的;删除所有同义列。

2、数据来源:数据通常存储于关系数据库,也可以是平面、树型或其他复杂文件结构。

操作系统;

数据仓库;

数据市场和在线分析处理系统;

调查和产品登记数据;

外部数据源。

度量数据取值的不同方法

次序是最重要的度量性质。无自然顺序的数据列被称为定类数据。定类型数据列有一个含义明确的数值集合,这些数值通常没有自然顺序的类别标识,无序性是定类数据的重要特性之一。有序的数据列则呈现出几种不同的风格:

1)定序型:有顺序但不允许算术运算。通常,对数值型变量的值域进行区间分割,就会得到定序变量。区间划分能平衡数值分布上的不平均,这也是处理极值点的一种方法。

2)定距型:有顺序并允许进行减法运算,但不能进行加法运算。日期、时间、温度是最常见的例子。

3)数值型:支持四则运算,可以将两个数值型数据相加,或进行其他类型的四则运算。

3、衍生变量

衍生变量是原始数据中并不存在的通过计算合成而得的变量。

1)按照合适的间隔尺度对数据进行分类汇总后所积累而成的汇总值构成了衍生变量的一大类。

2)对多个列变量进行计算会得到一类重要的衍生变量。这种方法利用一行中已经存在的数据计算新的数值。

3)从某一列中提取信息。日期数据包含着关于行为的丰富信息。

六:建立有效的预测模型

1、建立好的预测模型

预测模型的建立过程:

1)模型是通过预分类数据中的一部分数据来建立的。用于建立模型的这部分数据被称为训练集。

2)利用另外一个子集——测试集来对模型进行修正。

3)可以估计模型的效果,或者对模型的效果进行比较。这个过程需要用到第三个数据集——评价集。它是在建模和测试修正过程中尚未用到的那部分数据的集合,也是模型集的一个部分。

4)将模型应用于得分集。得分集没有进行预分类,也不是模型集的一部分。

2、对模型集进行处理

1)分割与掌握:训练集、测试集与评价集

要诀:对模型集按照60:30:10的百分比划分,结果较好。

2)模型集规模对模型效果的影响:训练模型的数据量越大效果会越好。

但是模型集过大可能不是最好的选择。

3)调整模型参数

4)模型集密度对模型效果的影响

抽样:从原始数据集中抽取一定量的记录构成新数据集的过程。

过抽样:多抽取稀有结果,少抽取常见结果,以建立模型集的过程。其目的是调整模型集中常见结果和非常见结果的比例。

3、使用多个模型

1)多个模型的表决

每个模型都做出了自己的预测,然后将各项预测进行比较,当所有模型结果都一致时置信度通常会更高。

替代已有的模型:表决的简单问题。有多个可以取代老模型的模型,在第一阶段需要对所有模型进行表决,模型越老,表决的权重就越大。第二阶段在将这些模型同新近一点的模型进行比较的同时,还要在这些模型直接进行比较。最后老模型就可以“退休”了。

2)试用多种技巧

对定性预测采取多数制原则,对定量预测采取平均值方法。

对模型结果进行组合,方法可以是将预测结果当作拥有一定可靠度的佐证。

例如:模型A——>“暗的”置信度为80%

模型B——>“亮的”置信度为60%

模型C——>“暗的”置信度为50%

“暗的”置信度为:模型A为80%,模型B为40%,模型C为50%

“亮的”置信度为:模型A为20%,模型B为60%,模型C为50%

我们把置信度值组合起来当作证据,假设各个分离的模型是独立的,则“暗的”证据是80%×40%×50%=16%,“亮的”证据是20%×6%×50%=6%,证据的总是则为16%+6%=22%,“暗的”置信度就是它的证据占总证据的百分比即:16%/22%=72.7%,对应“亮的”置信度为27.2%。

3)将输入分段

将输入分段进入模型有两个基本原因:第一是处理缺失数据,并不是所有的记录都可以获得相应的数据的;第二:要将商业信息融入建模过程。

将数据分段,一种方式是利用自动聚类算法,给每条记录都分配一个组别,然后将各个组看作不同的分段。不过这种方法所产生的结果并不是总令人满意,因为此时模型集很小。

4)模型的分段

模型的分段与输入分段模型密切相关,二者最大的区别在于输入分段模型其分隔是预先知道的,而对模型分段,其数据的分段则由另外一个模型决定。其目的常常就是只就其中一个部分数据来建立模型。

5)误差修正

6)增强数据

4、做试验!

1)模型集

规模、密度

2)不同类型的模型以及模型参数

3)时间范围

七:实施控制:建立数据挖掘环境

1、何谓数据挖掘环境

数据挖掘环境是组织的一个或几个部分,这些组织的核心竞争力就是数据挖掘。数据挖掘环境包括以下几个部分:

1)有一支得到承认的专门开发数据挖掘技术的团队;

2)一个或多个事业单位之间的交流渠道,所有工作都以企业的需要为中心;

3)使数据挖掘发挥作用的一套工具,包括硬件和软件;

4)能够接触到整个组织上下的数据,以及发布结果便于各个部门依照执行的能力。

2、案例1:建造公司内部核心竞争力

本案例考察的是一个财产和意外伤害保险公司,它正在实施数据挖掘。

保险行业的数据挖掘:该行业拥有大量的数据以及大量的统计人员和精算人员。

1)选择团队

选出组织中对数据挖掘负责的人员。团队里包括用户管理员、负责提供数据和硬件的信息技术部门、为初始项目提供业务经验的市场专家。此团队负责在公司里倡导数据挖掘和客户关系管理,核心目标是培养竞争力。

2)找出商业需求

他们发现了几个可以利用数据挖掘为公司增加竞争力的领域,更近一步选定了可能成为示范项目的商业课题——分析某个州的汽车保险数据,建立预测模型,以估计保单的损失率。

选择分析单位:司机?汽车?保单?家庭?本例中选择的分析单位是保单,它包含了保单层次的全部信息——汽车数量、司机数量、汽车保险的新增车辆频率、退保频率。

研究区域选择新泽西州,费率是在州范围统一设定的。此时在州定费率框架下,公司的费率平均较高,则低风险个体就具有高盈利能力。按照保险业的说法,他们正在寻找州定费率没有效力的领域,并对这些领域进行开发。

3)表明对信息的需求(Request for Information,REI)

拟出商业需求,就要通过REI找出供应商,并同他们取得联系。

4)选择供应商

3、案例2:创造新的商机

本案例讲述的是一个人寿保险公司。

1)向网上发展

该保险公司认识到,有必要建立直接的销售单位来弥补代理网络的不足。代理商建立的客户关系在保持客户方面非常得力,但是保持个人关系的成本非常高昂。

此公司的内部目标是年底之前通过网络卖出20%的保单。

2)环境

该公司设立了一个独立的部门来进行直接销售业务。在网络方面,主要业务来源之一是给定标价后对不同保险推销员的网站进行比较。通过点击这些网站就将有投保意向的客户反映到公司的网页上。

新的直接保险销售单位主要是一个营销小组。他的一个功能就是进行市场分析,并且在团队内部成立一个市场分析小组。

3)潜在客户的数据仓库

销售寿险的时候关键是要决定哪些潜在客户最后会真正购买。

作为直接销售投资的一个组成部分,公司正在建立潜在客户数据仓库。数据来源常常是公司外部的供应商。建立潜在客户数据仓库的一个非常重要的问题是如何选择外部供应商、利用人口统计资料来扩大数据的数量并提高其质量。

4)下一个步骤

进行促销活动。

4、案例3:在数据仓库工作中培养数据挖掘技能

本案例讲述的是一家银行。该银行的目的是要在数据仓库工作基础上建立数据挖掘专家系统。

1)特殊类型的数据仓库

该银行决定利用Tandem电脑公司的硬件和软件,来建立以客户为中心的数据仓库。

2)数据挖掘的计划

随着数据被加载进入数据仓库,可以用于挖掘的数据就会越来越多。银行开始着手实施数据挖掘的示范项目:

判定商业目标;

对数据进行评价;

准备和转换数据;

探索和解释数据;

发送结果。

3)信息技术部门内部的数据挖掘

5、案例4:利用特斯拉快速建模环境法(RME)进行数据挖掘

1)建立高级数据挖掘环境所需的条件

从技术角度讲,需要比先前更高水平的支持:

①从多个源头获取数据,并将这些数据整合到一个数据挖掘表格的能力;

②根据需要,对已建立的模型进行评估的能力;

③随着时间的变化,对几百个模型评分进行管理的能力;

④随着时间的变化,对几十或几百个模型进行管理的能力;

⑤将数据挖掘结果返回数据仓库及其他应用软件的能力。

2)什么是RME?

RME注重建模前后的活动,以使数据挖掘分析人员有效的传送数据挖掘结果。其目的就是让数据挖掘分析人员为商业用户迅速地开发数据挖掘软件。

3)RME如何运作?

RME系统构架是根据SAS建立起来的。

××公司有自己的建立在客户数据仓库基础上的数据挖掘环境,它的数据仓库有以下几个主题区域:

①家庭(Household):已经收到目录或者购买过目录的家庭的数据;

②促销记录(Promotional History):关于哪些家庭接受了哪些目录或促销广告相关

的数据,还包括提出目录需求请求的家庭资料;

③交易(Transaction):每项购买和退货的详细记录;

④产品(Product):每种产品的相关资料;

⑤店铺/目录(Store/Catalog):关于每个店铺和目录的资料,包括大小、规模等方

面的信息。

如图:RME是一个三层的分布式应用软件。RME在控制图像化用户界面、产生SQL 和SAS程序代码以及生成得分资料的时候,特别注重处理元数据。这种元数据是根据数据仓库的实际轮廓以及数据的商业含义而产生的。

4)RME如何协助数据准备

开发模型的过程中,需要接触和存取许多不同数据来源。

从数据仓库中抽取资料,有几类不同的操作过程:

①合计(Aggregation):将一个家庭的多项记录加以合成,放到一个字段里头。

②扁平化(Flattering):将多个记录归并到一个单一的家庭记录上。

③筛选(Filtering):是伴随着合计以及扁平化的操作来对记录进行筛选过滤。5)RME如何支持抽样

两种主要的抽样形式:

①随机抽样

②分层抽样:从总体中抽选家庭,使得产生的模型集按照单个变量服从某种特殊

的分布。

如图:抽样过程分成4个部分。

6)RME如何协助建立模型

在建立模型过程中,用户如果发现自己需要更多的数据或者不同的模型集,此时只需要回到RME,重复建立模型的程序就可以达到目的。

最后一步则将数据转换与模型得分代码结合起来。这两者就可以代表一个完整的模型,如何再将模型登记到RME中。

7)RME如何协助模型评估和管理

一旦模型建立完毕,RME会再次参与进来,登记模型为模型集评分、安排评分操作的顺序等。

模型登记的过程是自动的。模型登记的信息会以元数据的格式存储在数据仓库中。8)顾客评分

整个评分过程如图所示:

①RME为模型生成了合适的抽选资料。注意,数据抽取不包括抽样,但已经过优

化,只包括模型所需要的变量,而且将日期指标转换成了实际的时间范围。

②将已登记过的得分代码增加到每个家庭的记录当中。实际做法是为每个家庭记

录增加一个或几个新的字段。

③用户可以具体指明处理这些得分的方式。

④将得分装载返回数据仓库,在那里它们能用于其他应用软件,并满足下游营销

部门的需要。

数据挖掘试题与答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

数据挖掘现状与前景

数据挖掘,这是个听起来既神秘,又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏,宝藏的诱惑性很强,但是黄沙远处却看不透彻,不知此行是对是错,看到的光亮又是否只是虚幻的海市蜃楼。 所以很多学习数据挖掘的,或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。 以下,我们就来分析看看数据挖掘的现状及前景。 首先看看百科中数据挖掘的定义:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 基于数据挖掘可能产生的巨大价值,我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题,不仅如此,政府以及大型企业也开始重视这一领域,投资人力物力支持数据挖掘项目。 或许这样说还不够直观,那就就数字佐证。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 国外如此,那中国呢? 随着我国信息化的发展,数据的积累及计算机的广泛应用,加上来自外资企业商业智能数据挖掘应用带来的竞争压力,商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多,不仅仅是金融保险电信等行业或是政府机构,中小企业也逐渐将商业智能应用于业务之中。 信息化时代数据的潜力不容小觑,IT部门一直是企业的核心,而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全,而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。 所以,请坚定勇敢地踏出迈向数据挖掘的那一步吧,然后扎实地学好所需的知识理论及实践技巧,最后所收获到的,或许比你所期待的还多。

《数据挖掘》试题与标准答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

数据挖掘-题库带答案

数据挖掘-题库带答案 1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡() 答案:正确 2、决策将日益基于数据和分析而作出,而并非基于经验和直觉() 答案:错误 解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉 3、2011年被许多国外媒体和专家称为“大数据元年”() 答案:错误 解析:2013年被许多国外媒体和专家称为“大数据元年” 4、我国网民数量居世界之首,每天产生的数据量也位于世界前列() 答案:正确 5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。() 答案:错误 解析:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。 6、数据整合、处理、校验在目前已经统称为 EL() 答案:错误 解析:数据整合、处理、校验在目前已经统称为 ETL 7、大数据时代的主要特征() A、数据量大 B、类型繁多 C、价值密度低 D、速度快时效高 答案: ABCD 8、下列哪项不是大数据时代的热门技术() A、数据整合 B、数据预处理 C、数据可视化 D、 SQL

答案: D 9、()是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。 A、预测 B、分析 C、预测分析 D、分析预测 答案: C 10、大数据发展的前提? 答案: 解析:硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起 11、调研、分析大数据发展的现状与应用领域。? 答案: 解析:略 12、大数据时代的主要特征? 答案: 解析:数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。 13、列举大数据时代的主要技术? 答案: 解析:预测分析: 预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务

19款最好用的免费数据挖掘工具大汇总

数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。 数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。 免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见的是Python。数据挖掘中通常涉及到四种任务: 分类:将熟悉的结构概括为新数据的任务 聚类:在数据中以某种方式查找组和结构的任务,而不需要在数据中使用已注意的结构。 关联规则学习:查找变量之间的关系 回归:旨在找到一个函数,用最小的错误来模拟数据。 下面列出了用于数据挖掘的免费软件工具 数据挖掘工具 1.Rapid Miner

Rapid Miner,原名YALE又一个学习环境,是一个用于机器学习和数据挖掘实验的环境,用 于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。 它使得实验可以由大量的可任意嵌套的操作符组成,这些操作符在xmxxxxl文件中是详细的,并且是由快速的Miner的图形用户界面完成的。最好的是用户不需要编写代码。它已经有许 多模板和其他工具,让我们可以轻松地分析数据。 2. IBM SPSS Modeler

IBM SPSS Modeler工具工作台最适合处理文本分析等大型项目,其可视化界面非常有价值。它允许您在不编程的情况下生成各种数据挖掘算法。它也可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。 3.Oracle Data Mining

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

(完整版)数据挖掘概念课后习题答案

第 1 章 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。 使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所 有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩 (GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比 较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最 终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级 计算机科学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能发现的关联规则为: m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”) [s uppor t=12%,c on f i d e nc e=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台 。 个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度) ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或,而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的 功能) 相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是 预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数 据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分 析、序列或周期模式匹配、和基于相似性的数据分析 1.9 列举并描述说明数据挖掘任务的五种原语。 五种原语是: ?任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或 数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或 维、关于修复的数据排序和分组。 ?挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关 联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必 须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。 ?背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导 知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的 形式。 ?模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且 被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴 趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易 性、确定性、适用性、和新颖性的特征。 ?发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地

数据挖掘试卷及答案

12/13 年第2学期《数据挖掘与知识发现》期末考试试卷及答案 一、什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。(20分) 数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。 步骤: 1)数据清理(消除噪声或不一致数据) 2) 数据集成(多种数据源可以组合在一起) 3 ) 数据选择(从数据库中检索与分析任务相关的数据) 4 ) 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 5) 数据挖掘(基本步骤,使用智能方法提取数据模式) 6) 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;) 7) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 二、元数据的定义是什么?元数据包括哪些内容?(20分) 元数据是关于数据的数据。在数据仓库中, 元数据是定义仓库对象的数据。 元数据包括: 数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义, 以及数据集市的位置和内容。 操作元数据,包括数据血统(移植数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)、管理信息(仓库使用统计量、错误报告和审计跟踪)。 汇总算法,包括度量和维定义算法, 数据所处粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。 由操作环境到数据仓库的映射,包括源数据库和它们的内容,网间连接程序描述, 数据划分, 数据提取、清理、转换规则和缺省值, 数据刷新和净化规则, 安全 (用户授权和存取控制)。 关于系统性能的数据,刷新、更新定时和调度的规则与更新周期,改善数据存取和检索性能的索引和配置。 商务元数据,包括商务术语和定义, 数据拥有者信息和收费策略。 三、在 O L A P 中,如何使用概念分层? 请解释多维数据模型中的OLAP上卷 下钻切片切块和转轴操作。(20分) 在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些 O L A P 数据立方体操作用来物化这些不同视图,允许交互查询和分析手头数据。因此, O L A P 为交互数据分析提供了友好的环境。 上卷:上卷操作通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。 切片:在给定的数据立方体的一个维上进行选择,导致一个子方。 切块:通过对两个或多个维执行选择,定义子方。

数据挖掘的发展与实施

数据挖掘的发展及实施 郑灵武 (河海大学企业管理学院,江苏常州) 摘要:本文主要论述知识管理工具体系中,数据挖掘的产生、发展、作用和代表 性软件,讲述数据挖掘的实施过程及存在的问题,并给出改进的措施。 关键字:数据挖掘;发展;实施 一、序言 随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中丰富的信息,如何处理这些数据得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次问题:能不能从数据中提取信息或者知识为决策服务。就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一难题。 现如今,数据挖掘已经成为一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。 二、数据挖掘的产生与发展 数据挖掘的出现是一个逐渐演变的过程。电子数据处理的初期,人们试图实现自动决策支持,当时人们关心与研究的焦点主要是机器学习。机器学习的过程是先将已知的并被成功解决的范例输入计算机,然后机器通过学习这些范例总结并生成相应的通用规则,这些规则常被使用来解决某一类问题。随着神经网络技术的形成和发展,人们的注意力开始转向知识工程。知识工程的过程不同于机器学习,而是直接在计算机上输入代码化的规则,计算机通过使用这些规则来解决某些问题。专家系统就是基于这种方法所得到的成果,但它有许多不足,比如投资大、效果不甚理想等。 80年代,在新的神经网络理论的指导下,关注焦点重新回到机器学习,其成果被广泛地应用于处理大型商业数据库。在80年代末,出现了一个新的术语——数据库中的知识发现,简称KDD(Knowledge Discovery in Database),它泛指所有从源数据中发掘模式或联系的方法。KDD描述了整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而数据挖掘(data mining)描述使用挖掘算法进行数据挖掘的子过程。 因为其中的许多工作由统计方法来完成,因此统计方法与数据挖掘的有机结合是最好的策略。数据挖掘技术的形成与数据仓库技术的发展有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的主要原因之一。因为很多数据挖掘可直接从操作数据源中挖掘信息,所以数据仓库并不是数据挖掘的先决条件。

数据挖掘概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER 数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA :Grade point aversge) 的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如, 具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75% 是四年级计算机科学专业的学生,而具有低GPA 的学生的65% 不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “ computing science ” ) ? owns(X, “ personal computer ” ) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的 学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98% (置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 年龄频率 1~5200 5~15450 15~20300 20~501500 50~80700 80~11044 计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194 ;N/2=1597

数据仓库与数据挖掘考试试题

一、填空题(15分) 1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。 3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。 4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。 5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。 二、多项选择题(10分) 6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD) A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括( ABCD ) A 精确度 B 查全率和查准率 C F-Measure D 几何均值 9.层次聚类方法包括( BC ) A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D ) A 网络结构 B 先验概率 C 后验概率 D 条件概率表 三、计算题(30分) 11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分) 解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:

(完整word版)数据挖掘题目及答案

一、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么? 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 特点: 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。 2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3、相对稳定的 数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4、反映历史变化 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可用的信息 二、 数据库有4笔交易。设minsup=60%,minconf=80%。 TID DATE ITEMS_BOUGHT T100 3/5/2009 {A, C, S, L} T200 3/5/2009 {D, A, C, E, B} T300 4/5/2010 {A, B, C} T400 4/5/2010 {C, A, B, E} 使用Apriori算法找出频繁项集,列出所有关联规则。 解:已知最小支持度为60%,最小置信度为80% 1)第一步,对事务数据库进行一次扫描,计算出D中所包含的每个项目出现的次数,生成候选1-项集的集合C1。

数据挖掘

数据挖掘软件分析报告 摘要 随着数据挖掘技术被人们广泛重视和应用,刺激了数据挖掘软件业的蓬勃发展。现在流行的几种开源数据挖掘平台主要有:R、Tanagra、Weka、YALE、Orange、KNIME、GGobi。这些开源数据挖掘平台有什么优缺点,如何根据我们的需要选择合适的数据挖掘软件进行数据挖掘。本文在实验的基础上对Weka和KNIME进行了比较和分析。 关键词:数据挖掘工具、Weka、KNIME 1.Weka 1.1 简介 Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品——Clementine)的,基于JAVA环境下开源的机器学习,以及数据挖掘软件。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类、回归、聚类关联规则以及在新的交互式界面上的可视化。而开发者则可使用java语言,在Weka的架构上开发出更多的数据挖掘算法。 Weka可能是名气最大的开源机器学习和数据挖掘软件。高级用户可以通过java编程和命令行来调用其分析组件。同时Weka也为普通用户提供了图形化界面,称为WekaKnowledgeFlow Environment和Weka Explorer。在Weka论坛可以找到很多扩展包,比如文本挖掘,可视化,网络计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。

1.2Weka数据格式 WEKA存储数据的格式是ARFF(Attribute-Relation FileFormat)文件,这是一种ASCII文本文件。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格或者叫作数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。 整个ARFF文件可以分为两个部分。第一部分是头信息,包括对关系的声明和对属性的声明;第二部分是数据信息。我们打开Weka的自带数据cpu.arff。可以看到如下所示结果。 图中红色的框内是该数据的头信息,可以看出该关系名称为cpu,粉红色的框中是数据信息,从图中我们可以看出该数据共有七个属性。 Weka支持四种数据类型:Numeric(数值型)、(标称型)、String(字符串型)、date [](日期和时间型)。 1.3Weka用户交互界面 运行Weka之后可以看到Weka的主界面如下图所示。

数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》 一、判断题(每小题1分,计30分,答题时每5个答案写在一起) 1.数据库作为数据资源用于管理业务中的信息分析处理。(X) 2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。(X) 3.关系数据库是二维数据(平面),多维数据库是空间立体数据。(v) 4.数据进入数据仓库之前,必须经过加工与集成。(V) 5.OLAP使用的是当前数据;OLTP使用的是历史数据。(V) 6.对数据仓库操作不明确,操作数据量少。(X) 7.数据集市实现难度超过数据仓库。(X) 8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。(X) 9.数据集市可升级到完整的数据仓库。(V) 10.数据库中存放的数据基本上是保存当前综合数据。(X) 11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。(V) 12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。 (V) 13.OLTP的事务处理量大,处理内容比较简单但重复率高。(V) 14.数据仓库的用户有两类:信息使用者和探索者。(V) 15.对数据库的操作比较明确,操作数据量大。(X) 16.数据库用于事务处理,数据仓库用于决策分析。(V) 17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。(V) 18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。(V)

19.OLTP每次操作的数据量不大且多为当前的数据。(V ) 20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。(V) 21.随着业务的变化,数据仓库中的数据会随时更新。(X) 22.数据集市的规模比数据仓库更大。(X) 23.数据集市具有更详细的、预先存储在数据仓库的数据。(V) 24.不同维值的组合及其对应的度量值构成了不同的查询和分析。(V) 25.OLAP使用细节性数据,OLTP使用综合性数据。(X) 26.数据集市由企业管理和维护。(X) 27.OLAP的概念模型是多维的。(V) 28.数据库已经成为了成熟的信息基础设施。(V) 29.数据库既保存过去的数据又保存当前的数据。(X) 30.OLTP面对的是事务处理操作人员和低层管理人员。(V) 二、填空题(每小题1分,计10分) 1.信息使用者通常查看概括数据或聚集数。 2.探索者的任务是寻找公司数据内隐含的价值。 3.数据立方体是在所有可能组合的维上进行分组聚集计算的总和。 4.基本的多维数据分析操作包括切片切块、旋转、钻取等。 5.数据立方体的构建和维护等计算方法成为了多维数据分析研究的关键问 题。 6.OLAP是建立在网络上的开发体系结构。 7.在数据立方体中,不同维度组合构成了不同的子立方体。 8.不同的数据仓库需要建立不同的数据库。

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习 题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。 3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。 4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库数据仓库的特点主要有哪些 2) 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

数据挖掘

《数据挖掘》总复习题1.数据挖掘系统可以根据什么标准进行分类?答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类2.知识发现过程包括哪些步骤?答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?答:一个映射序列,将低层概念映射到更一般的较高层概念。4.多维数据模型上的OLAP 操作包括哪些?答:上卷、下钻、切片和切块、转轴/ 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种?答:关系OLAP 服务器(ROLAP)、多维OLAP 服务器(MOLAP)、混合OLAP 服务器(HOLAP)、特殊的SQL 服务器6.数据预处理技术包括哪些?答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。7.什么是数据清理?答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性8.什么是数据集成?答:集成多个数据库、数据立方体或文件9.什么是数据归约?答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果10.数据清理的内容包括哪些?答:缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原OLAP——on-line analytical processing DM——data mining KDD——knowledge discovery in databases OLTP——on-line transaction processing DBMS——database management system DWT——discrete wavelet transform (DMQL)--Data Mining Query Language 12.什么是数据挖掘?答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。13.什么是关联规则?答:(关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导和后继。)假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I 的非空子集,即,每一个交易都与一个唯一的 标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即 概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即 条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。 )14.什么是可信度?什么是支持度?答:15. 什么是概念描述?什么是特征化?什么是属性相关分析?答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化:是目标类数据的一般特性或特征的汇总。属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。16.什么是数据仓库?其主要特征是什么?答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。特征:面向主题、数据集成、随时间而变化、数据不易丢失(数据不易丢失是最明显特征)17.什么是数据集市?答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的) 18.数据库中的知识发现过程由哪几个步骤组成?答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示19.典型的数据挖掘系统有哪几个主要成分?答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。21.在数据挖掘

相关文档
最新文档