数据挖掘

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、数据挖掘概述

1、数据挖掘

定义:通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。

——数据挖掘是一门技能,不是一种现成的产品。

2、数据挖掘能做什么

6种方法:分类(classification)、估计(estimation)、预测(prediction)、组合或关联法则(affinity grouping or association rules)、聚类(clustering)、描述与可视化(description and visualization)

前三种方法属于直接的数据挖掘,目标是应用可得到的数据建立模型,用其他可得到的数据来描述我们感兴趣某一变量。

后三种方法属于间接的数据挖掘,没有单一的目标变量,目标是在所有变量中发现某些联系。

1)分类:其特点是先对不同的类别加以定义,并由预先分类的样本构成训练集。任务是建立一个模型并应用这一模型对未分类数据进行分类。分类处理的是离散的结果。

2)估计处理的是连续的结果。

3)组合法的任务是确认哪些事物会一起出现。

4)聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中。聚类与分类的区别是聚类并不依赖于事先确定好的组别。

3、技术层面的数据挖掘

1)算法与技巧

2)数据

3)建模实践

二、数据挖掘方法论:互动循环系统

1、数据挖掘的两种类型

一种是自上而下的方法,称之为有监督的数据挖掘方法,当明确知道要搜索的目标时,可以是用这种方法。

一种是自下而上的方法,称之为无监督的数据挖掘方法,实际就是让数据解释自己。此方法是在数据中寻找模式,然后把产生的结果留给使用者去判断其中哪些模式重要。

数据挖掘的结果通常是这两种方法的结合。

1)有监督的数据挖掘

黑匣子模型:使用一个或多个输入值产生一个输出的模型。我们并不关心模型如何运作,那只是黑盒子,我们只关心可能的最优结果。

我们根据已知事例,分析其相关资料,将分析结果用在从未联络的潜在客户,这样的模型称之为预测模型。预测模型使用历史记录来计算某些相应结果中的得分。成功预测的要领之一是拥有足够支持结果的数据来训练模型。

2)无监督的数据挖掘

半透明模型:有时需要使用模型能够得到与数据相关的重要信息,我们也需要了解模型的运作细节,这就好比一组半透明的盒子。

2、数据挖掘的互动循环过程

数据挖掘的互动过程是一种高层次的流程,由四个重要的业务过程所构成:

理解业务问题;

将数据转换成可执行的结果;

结果实施过程;

评价结果的实施。

3、将数据转换成可操作的决策

数据挖掘的核心是将数据转换为可操作的结果。

建立模型的第一步是确认和获得合适的数据。首先要考虑得到的数据是否符合解决企业业务问题的需要;在建模的时候需要尽可能完整的数据。

------将数据转换成具有合适粒度的数据。粒度是指建模数据的级别大小。

------加入衍生变量是数据挖掘过程的第三步。衍生变量值是合并原始数据生成的结果。

------准备建模数据集,将数据集分成三部分:训练数据集、测试数据集、评估数据集。

------将结果生成决策。可以赋之以行动的结果有如下几种不同的表现方式:新的认知;

用于特定商业活动的结果;

可被储存的结果;

周期性预测结果;

实时得分;

修复数据。

预测模型在使用(生成得分)之前必须得到训练(构建):

训练模型是使用历史数据和待预测信息已知的数据创建模型的过程。

较多的近期数据+ 预测模型 预测、可信度

用预测模型产生评分是这样一个过程,它将模型应用到未来的数据中,预测未来。

预测模型的成功应用依赖于三个假定:

1)过去是将来的预言家。

2)数据是可获得的。

3)数据中应包括我们的预期目标。

三、客户和他们的生命周期

1、谁是企业的客户

客户大致分为两种类型:消费者(consumer)和企业客户(business customer)。

1)消费者

经济营销单位是市场营销中对客户的描述。由于客户在经济活动中的多重身份,客户的答案也不统一,具体表现如下:

行为身份(action role),表示对某项互动活动的个体或实体;

所有权身份(ownership role),表示拥有某项经济活动所有权的个体或实体;

决策身份(decision making role),表示具有制定和影响购买决策和行为的个体或实体,这种身份用于家庭。

2)企业客户

消费者的身份是购买最终产品和服务,而企业客户的身份是向你行销、出售、提供产品和服务。企业客户间的关系更加复杂。

市场行销中的间接关系,是客户的关系变得异常复杂。由于客户关系的越趋复杂,分析这些关系时必须考虑到企业中介的作用。

普通消费者和企业客户最大区别在于有没有账户管理团队(account management team)的存在。从合作的角度,数据挖掘必须能够支持账户管理系统。

3)客户市场细分

指的是将客户划分为互不相交的不同的类别。

2、客户的生命周期

1)客户的生命周期指的是一个客户和一个企业之间不同的关系阶段,它直接影响到客户对一个公司的长期价值。

一般认为有如下三种方法提升客户的价值:

对客户已有产品增添新功能,或者说提升产品的购买价值;

向客户出售更多、更容易升级的产品;

使客户能长期购买本公司的产品。

客户的背景资料是客户和公司商业交往中的详细档案。

2)客户生命周期的不同阶段

3)客户生命周期中的重要事件

相关文档
最新文档