从数据挖掘走向大数据演讲稿

大家好！欢迎大家来参加我们今天这个联络中心大数据系列应用的讲座，这一次我们这个讲座是我们这一系列的第一次课程。现场有我们的观众，也有视频前面的观众。

首先简单介绍一下所谓联络中心的大数据应用，这个系列课程还是围绕着现在比较流行大数据的概念，然后跟联络中心之间彼此相关的关系，跟相应的应用，那我们会有六个课程的主题。

第一部分我们是在讲从数据挖掘到大数据。第二个主题是跟大家介绍有关大数据的基本概念，第三个部分会跟大家介绍联络中的一个全局的战略，第四个部分是在讲联络中的精准营销上面的运用，第五个部份是怎么运用联络中心提升客户的体验，最后第六个这个单元我们会跟大家介绍一下如何在联络中心内部搭建测试学习这个平台。

那开始我们后面课程之前，会花点时间简单介绍一下我自己个人背景。

我叫徐元亮在联络中心这个行业工作有超过20XX以上的时间，那最早我求学跟第一份工作是在台湾但是从20XX年以后就在内地开始工作，那在大陆这边也有超过20XX以上工作时间。在学校部分我在台湾的国立台湾大学心理系取得本科的学历，之后在美国德克萨斯贝勒大学BaylorUniversity取得教育心理学的学位。

第一份工作是在台湾电信公司叫台湾大哥大它的一个2000以上规模的CallCenter里面担任培训主管一个工作，在20XX年到大陆之后陆陆续续保险公司在几家保险公司曾经公做过包括太平洋保险天平保险中国大地保险最后一份工作在大地保险工作七年时间，协助它建立电话销售中心整个筹建以及后面规模的运作，那个人最大的管理幅度当时大概下面管理大概超过有2000的座席。年营业额超过10亿。那在20XX年以后离开了企业界，在外面开始从事咨询与专门培训的工作那我今年开始20XX年也成立专门这个培训工作室，那主要培训内容主要围绕着联络中心开始跟各位能够有机会介绍这个有关联络中心大数据运用或者电话营销管理或者电话客服管理这个课程。以上是有关是自己资历的简介，那之后是我们这系列正式课程。

首先第一个我们要跟大家做报告分享主题是从数据挖掘走向大数据。开始今天主题之前要跟大家谈一下到底大数据是什么样概念，还

有就是说我们跟联络中心彼此之间有什么样的关系。

这几年在我们国内大数据是热门的话题！各行各业几乎脱口都要

谈到大数据，做一些数据分析整理的时候，基本上你不讲大数据感觉

好像这个企业管理现在这个数据库管理就脱节了。实际上真真正有多

少企业已经真正开始用大数据这个应用，就联络中心这个行业来讲又

有那些联络中心真正开始应用大数据。

个人觉得就是说如果真正要了解大数据在联络中心的运用，可能

要先从客户关系管理跟数据挖掘，这些基本的数据管理概念开始谈起。

这一张投影片大概是我在10多年前第一份工作，刚才提到的台湾

大哥大有位同事叫李明德李先生，他现在应该还在台湾大哥大工作，

当时他做的投影片。

经过10多年时间，虽然中间有一些跟客互动渠道有了变化，但是

里面一些包括联络中心跟数据仓储跟后面目标客户细分，客户忠诚度

终身价值之间的关系，其实10多年来我认为还是没有太大的变化。中

间数据挖掘技术其实从这个概念到现在有将近20年时间，但是真正在

联络中心或者企业界，得到很好的应用可能也是最近几年的事情。

这张图可以跟大家解释，有关客户关系管理跟联络中心的一些说明，简单来讲就是说我们认为做到应用数据挖掘或大数据联络的前提，它必须是一个以客户为中心的联络中心，在前台部分它会有各种不同

的接触渠道，跟客户进行互动包括传统电话语音包括现在比较流行的

手机APP或即时通讯软件像QQ或者是说天猫、淘宝’上面的旺旺包括

微信上面的这个社交媒体，微信微博，包括互联网上面官网，包括微

信的公众号等等。这些都可以依靠我们联络中心在后台给客户提供相

应的一些支持。

另外来讲，ATM终端，或者是在国外我们看到有一些加油站或者便利超商它也有一些做娱乐或者是相关服务购买、充值的终端，事实上

也能够由CallCenter在后面提供相关的服务。

另外还有传统服务传真电子邮件等等，这些其实也都在联络中心

提供互动的一些范围。还有就是一些实体渠道。传统上面我们大家认

为联络中心跟面对面的机构跟渠道之间没有什么太大关系，但事实上

我们看到很多先进公司事实上在传统渠道的部分他其实也是有CallCenter在给我们传统渠道面对面销售人员或者这个中介销售队伍

提供相应的支持。

比如说十年前我在帮微软和Cisco提供外包服务的时候，就看到

他们的企业销售团队在跟客户去谈这些大的订制化IT系统解决方案的

时候，不管是说买这个作业系统的软件或买一些服务器、Router路由

器硬件，通常来讲他们会在CallCenter指定一个相应的助理做项目的

支持，然后他们会提供简单的咨询及问题反应记录，甚至有一些制式

化的报价等相应的工作。

有一些比较复杂的工作他会即时联系大客户项目代表本人到现场

进行处理，总而言之，就是说如果我们能够做到以客户为中心的后台，其实联络中心它是会随着我们交互渠道不断的演进，在前台各种不一

样的交互渠道中去提供数据收集跟整理。

为了做到以客户为中心，联络中心后面必须要有一个数据仓储，

在数据仓储里面包括来自市场营销来自客户服务，从前端销售到后端

服务售后整个全方位的一些信息。通过数据挖掘的一些手段以及工具，那我们能够做到目标客户的细分，针对不同客户细分我们给他一些客

制化这个产品服务或者是说对流层。最终目的是提高客户的忠诚度以

及提高客户终身价值，这个是我对联络中心与数据挖掘彼此之间关系

的理解。

下一张投影片主要跟大家介绍怎么样从数据挖掘到真正产生商业

价值、企业管理价值的商业智能系统。

简单来讲就是说我们做大量数据挖掘工作之后最主要目的是能够

帮我们很多线索，作为我们联络中心跟客户去做服务跟销售的一个参

考依据，甚至说做一个重要的指导。

为了达到这个目的从单纯数据挖掘我们必须进一步要做到所谓商

业智能系统，商业智能系统的基本雏形大概会是这个样子的，在这个

整个系统的最后面会有一些各种各样的数据源，不同数据源经过ETL

一些程序它会进入我们的数据仓库，在经过数据仓库之后同样进到另

外一道ETL.它会进到各个子的数据集市DataMarket在我们不同业务部

门有需要的时候，不管是给客户提供销售、给客户提供服务，这个时

候我们会从不同的数据集市子集当中，去抽取我所需要的信息，给我

的工作提供相应指导，这个是一个简单的商业智能系统的雏形架构。

中间跟大家提一下ETL这样的概念，我们在讲数据挖掘或者比较

热门的大数据的时候，经常提到我这个系统、这个模型的ETL流程是

怎样？他指的就是：数据的提取Extract、数据转换Transform、以及

数据加载Load,那这几个是在做数据整理当中，经常要使用的步骤。

不同数据库的管理系统，不同数据库的模型在这当中它其实有一

些相应的不同作法，这也代表系统的优势和劣势，简单来讲，整个数

据化到商业智能，后台部份必须具备跟数据库连接的功能、必须要具

备ETL功能、必须要具备数据仓库跟数据集市管理功能，在前端的部份，它要有一个很友好的数据展示功能配置，同时要能做到数据探索

的配置，比方说，我在显示的时候我可以看到全国的数据，我也可以

进一步往下细分的每一个市，每一个三级的县或乡镇，甚至于来讲，

可以看到某年龄段的客户或针对某一个产品曾经购买的客户。

回到我们讲数据挖掘在企业以及CallCenter的应用，我觉得可以

从两个层面来看比较常见的应用。第一个跟我们联络中心比较有关的，是基于贯穿客户生命价值的数据分析，简单来讲，我们看整个生命周

期可分为三个阶段：第一个阶段是客户获取、第二个阶段是客户接触、最后一个阶段是客户挽留跟赢回。

在客户获取阶段我们可以去做相关的渠道分析，比方说分析网络

推广的成本跟收益，分析电话外呼响应率，分析交叉销售跟向上销售

的效率。在客户生命周期价值部份，我们可以去分析客户价值模型，

我们可以去做相关的客户分群，我们可以去做客户风险模型，针对他

的信用、针对他的风险去做一些基于数据库的分析。

客户接触阶段主要可以从三个象限去做考虑，第一个是产品，第

二个是客户，第三个是坐席，产品部份我们去分析它的产品设计对于

整个销售行为、客户阶段的影响，产品定价可以去做进一步分析；客

户的部份，我们可以分析他的沟通策略及用户体验；坐席部分，我们

可以去做坐席的工作绩效，以及离职率等人力资源相关指标的分析。

最后是客户挽回跟赢回，客户挽回指的是说当客户有流失风险的

时候，我应该怎么样作提早的介入，中间我们可以去分析客户挽回相

应所花的预算，还有礼品的有效性，以及客户挽回成功率的模型。在

客户赢回这个部份指的是说因为任何一个原因，这个客户可能不在我

们这边继续购买产品或服务了，但是我有一个新的产品或服务，或者

新的促销活动的时候，怎么想办法重新赢回。这里面我们可以分析客

户流失的原因，流失率的分析，也可以去做重新赢回成功率的分析。

第二个我们经常使用到的数据分析向度，是贯穿整个企业经营的

数据分析。从企业经营角度，我们分成四个部份来看，第一个是营销

分析，第二是企业风险控制分析、第三个是产品创新、第四个是资源

配置。

中间有一些我们可能会在后面其他单元讲到，简单来说，在整个

企业级的分析当中，我们希望能尽量收集到大量数据，数据来源能尽

量真实和准确，或着想办法提升它的真实准确程度，不同的数据可以

来自不同的纬度，不一定要有非常明确的相关性，在数据之间会进一

步交叉检验，有条件的情况下，我们可以在企业外部找一些公共的数

据资源，或者跟其他企业、其他行业的数据间，去做外部数据的交换

或拓展。

简单来讲，可以应用到的一些数据包括：客户信用分数、年收入、教育背景、职业、人脉关系、社交网络的记录、信用纪录、负债记录、在专业领域里面的相关纪录，他目前所属的人生阶段，已婚、未婚、

有没有小孩等等，他的行为偏好以及电子商务购买的相关纪录，这些

都可以做为企业分析的基础。同样的，在我们企业分析的依据之下，

也可以对我们联络中心的作业提供相应的指导。

最后来讲，我们在做整个数据挖掘它的目的，就是说，我们当然

希望下一步能够把我们的联络中心转换成一个基于大数据管理的联络

中心。

首先的条件就是，在整个联络中心的后台，你必须要具备所谓数

据生态系统的条件，如果说我联络中心没有做到以客户为中心，我联

络中心的运作后台并没有相应数据库跟挖掘分析模型的支持，那其实

大数据对我的联络中心日常管理作业起不到很大的指导意义。

所谓的数据生态系统，至少包含三大部分。第一个是有相应的数

据源，包括外部电信运营商的数据，他的网路使用习惯，使用的流量，包括他的GIS的相关定位的历史纪录跟信息，公安部、教育部或者其

他政府机构的公告讯息，社交网路上面留下的纪录以及电子商务购买

的纪录，还有金融机构相关的购买跟信用行为、贷款行为等相应纪录，这些都可以做为数据来源；这些外部数据通过第二个部分，我们的数

据实验室，在每个数据去做一定的价值评估，通过数据源的管理，去

做数据相应的匹配，这里面可能会包括有效性的验证、除重、或者内

外部数据的比对，在比对过程当中、整理过程当中，我们去评价相关

所整理数据的价值，然后结合内外部数据，才回到我们第三个部分，

就是建立起企业的数据平台，数据平台里面包含模型管理，中间可能

包括相关的人口数据、资产数据、信用数据、生活行为、社会、支付

行为等等其他一些数据，如果说企业考虑在现有的数据生态系统的基

础下，我希望往进一步往大数据进行，现在开始也有很多大数据的基

础架构，能够提供企业相应支持，这几年比较流行的比方说Hadoop、PIG、Hive这些是都基于大数据，或是基于非结构化数据，能够提供数据库支持的平台。

基本上基于以上这几点我们认为，在讨论联络中心去做大数据应

用之前，必须要提前具备的主题，也是我们今天讨论从数据挖掘走向

大数据的内容，以上这个单元就到这边，谢谢大家。

《大数据时代下的数据挖掘》试题及答案要点

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法？ (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法？ (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

大数据挖掘常用方法

数据挖掘常用的方法在大数据时代，数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。其主要基于人工智能，机器学习，模式学习，统计学等。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。

(3)聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART 模型为代表。虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。 (6)Web数据挖掘。Web数据挖掘是一项综合性技术，指Web 从文档结构和使用的集合C 中发现隐含的模式P，如果将C看做是输入，P 看做是输出，那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化海量数据挖掘技术及工程实践》题目、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时，分类和预测数据流挖掘可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析建立一个模型， B. D. 聚类隐马尔可夫链通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时，15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型：(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作：( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法：(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是：(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为：(D) 15) 一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130 人，四年级110 人。则年级属性的众数是：(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术：(B) A. 等高线图 B. 饼图

数据挖掘案例分析--啤酒与尿布讲课稿

前言 “啤酒与尿布”的故事是营销届的神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象就是卖场中商品之间的关联性，研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长！商品相关性分析是购物篮分析中最重要的部分，购物篮分析英文名为market basket analysis(简称MBA，当然这可不是那个可以用来吓人的学位名称)。在数据分析行业，将购物篮的商品相关性分析称为“数据挖掘算法之王”，可见购物篮商品相关性算法吸引人的地方，这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。购物篮分析的算法很多，比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等，上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程，因此在这里我不介绍具体的购物篮分析算法，而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟，在进入20世纪90年代后，很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中，成为了软件产品的组成部分，客户购买了这些软件产品后就等于有了购物篮分析的工具，比如我们正在使用的Clementine。缘起 “啤酒与尿布”的故事可以说是营销界的经典段子，在打开Google搜索一下，你会发现很多人都在津津乐道于“啤酒与尿布”，可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初，甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料，我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal （个人翻译--艾格拉沃）提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

大数据时代的数据挖掘

大数据时代的数据挖掘大数据是2012的时髦词汇，正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论，是因为隐藏在大数据后面超千亿美元的市场机会。大数据时代，数据挖掘是最关键的工作。以下内容供个人学习用，感兴趣的朋友可以看一下。智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。数据挖掘的定义技术上的定义及含义数据挖掘（Data Mining ）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。 ----何为知识从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。这里所说的知识发现，不是要求发现放之四海而皆准的真理，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。实际上，所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。n x _s u x i a n g n i n g

数据挖掘领域的十大经典算法原理及应用

数据挖掘领域的十大经典算法原理及应用国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。 1.C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： 1)用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2) 在树构造过程中进行剪枝； 3) 能够完成对连续属性的离散化处理； 4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。 2. The k-means algorithm即K-Means算法 k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机，英文为Support Vector Machine，简称SV 机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面

学习18大经典数据挖掘算法

学习18大经典数据挖掘算法本文所有涉及到的数据挖掘代码的都放在了github上了。地址链接: https://https://www.360docs.net/doc/bb7942402.html,/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间，自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现，涉及到了决策分类，聚类，链接挖掘，关联挖掘，模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结，后面都是我自己相应算法的博文链接，希望能够帮助大家学习。 1.C4.5算法。C4.5算法与ID3算法一样，都是数学分类算法，C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断，而C4.5采用的是增益率。详细介绍链接：https://www.360docs.net/doc/bb7942402.html,/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全称是分类回归树算法，他是一个二元分类，采用的是类似于熵的基尼指数作为分类决策，形成决策树后之后还要进行剪枝，我自己在实现整个算法的时候采用的是代价复杂度算法，详细介绍链接：https://www.360docs.net/doc/bb7942402.html,/androidlushangderen/article/details/42558235 3.KNN(K最近邻)算法。给定一些已经训练好的数据，输入一个新的测试数据点，计算包含于此测试数据点的最近的点的分类情况，哪个分类的类型占多数，则此测试点的分类与此相同，所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点，远的点自然就小点。详细介绍链接：https://www.360docs.net/doc/bb7942402.html,/androidlushangderen/article/details/42613011 4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接：https://www.360docs.net/doc/bb7942402.html,/androidlushangderen/article/details/42680161 5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接：https://www.360docs.net/doc/bb7942402.html,/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法，可以拆分为2个算法，1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架，在每次计算结果之后，逼近统计模型参数的最大似然或最大后验估计。

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS ＆SPATIAL INFOＲMATION TECHNOLOGY Vol．37，No．7收稿日期：2014－01－22 作者简介：马宏斌（1982－），男，甘肃天水人，作战环境学专业博士研究生，主要研究方向为地理空间信息服务。大数据时代的空间数据挖掘综述马宏斌1 ，王柯1，马团学 2（1．信息工程大学地理空间信息学院，河南郑州450000；2．空降兵研究所，湖北孝感432000）摘要：随着大数据时代的到来，数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题，介绍了国内外研究中利用大数据处理工具和云计算技术，在空间数据的存储、管理和挖掘算法等方面的做法，并指出了该类研究存在的不足。最后，探讨了空间数据挖掘的发展趋势。关键词：大数据；空间数据挖掘；云计算中图分类号：P208 文献标识码：B 文章编号：1672－5867（2014）07－0019－04 Spatial Data Mining Big Data Era Ｒeview MA Hong －bin 1，WANG Ke 1，MA Tuan －xue 2 （1．Geospatial Information Institute ，Information Engineering University ，Zhengzhou 450000，China ； 2．Airborne Institute ，Xiaogan 432000，China ） Abstract ：In the era of Big Data ，more and more researchers begin to show interest in data mining techniques again．The paper review most unresolved problems left by traditional spatial data mining at first．And ，some progress made by researches using Big Data and Cloud Computing technology is introduced．Also ，their drawbacks are mentioned．Finally ，future trend of spatial data mining is dis-cussed． Key words ：big data ；spatial data mining ；cloud computing 0引言随着地理空间信息技术的飞速发展，获取数据的手段和途径都得到极大丰富，传感器的精度得到提高和时空覆盖范围得以扩大，数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子显微镜、CT 成像等各种宏观与微观传感器或设备，也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、地图数字化、统计图表等空间数据获取手段，还可能是来自计算机、网络、GPS ，ＲS 和GIS 等技术应用和分析空间数据。特别是近些年来，个人使用的、携带的各种传感器（重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等），具备定位功能电子设备的普及，如智能手机、平板电脑、可穿戴设备（GOOGLE GLASS 和智能手表等），使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息（Volunteer Geographic Information ）的出现，使这些普通民众也加入到了提供数据者的行列。以上各种获取手段和途径的汇集，就使每天获取的数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ，并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间，平均每年获取8．6万景影像，每天获取67GB 的观测数据。而2012年发射的资源三号（ZY3）卫星，每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫星、飞机等飞行平台上，未来10年，全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来，那就是大数据时代。大数据具有 “4V ”特性，即数据体量大（Volume ）、数据来源和类型繁多（Variety ）、数据的真实性难以保证（Veracity ）、数据增加和变化的速度快（Velocity ）。对地观测的系统如图1所示。在这些数据中，与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用，原因是传统的科研模型不具有普适性且支持的数据量受限，受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识，这就需要利用强有力的数据分析工具来将

大数据讲座学习心得

大数据讲座学习心得大数据讲座学习心得大数据讲座学习心得大数据时代已经悄然到来，如何应对大数据时代带来的挑战与机遇，是我们当代大学生特别是我们计算机类专业的大学生的一个必须面对的严峻课题。大数据时代是我们的一个黄金时代，对我们的意义可以说就像是另一个“80年代”。在讲座中秦永彬博士由一个电视剧《大太监》中情节来深入浅出的简单介绍了“大数据”的基本概念，并由“塔吉特”与“犯罪预测”两个案例让我们深切的体会到了“大数据”的对现今这样一个信息时代的不可替代的巨大作用。在前几年本世纪初的时候，世界都称本世纪为“信息世纪”。确实在计算机技术与互联网技术的飞速发展过后，我们面临了一个每天都可以“信息爆炸”的时代。打开电视，打开电脑，甚至是在街上打开手机、PDA、平板电脑等等，你都可以接收到来自互联网从世界各地上传的各类信息:数据、视频、图片、音频……这样各类大量的数据累积之后达到了引起量变的临界值，数据本身有潜在的价值，但价值比较分散;数据高速产生，需高速处理。大数据意味着包括交易和交互数据集在内的所有数据集，其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。遂有了“大数据”技术的应运而生。现在，当数据的积累量足够大的时候到来时，量变引起了质变。 “大数据”通过对海量数据有针对性的分析，赋予了互联网“智商”，这使得互联网的作用，从简单的数据交流和信息传递，上升到基于海量数据的分析，一句话“他开始思考了”。简言之，大数据就是将碎片化的海量数据在一定的时间内完成筛选、分析，并整理成为有用的资讯，帮助用户完成决策。借助大数据企业的决策者可以迅速感知市场需求变化，从而促使他们作出对企业更有利的决策，使得这

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理在我们实际生活中,事务型数据处理需求非常常见,例如：淘宝网站交易系统、1２306网站火车票交易系统、超市ＰOＳ系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。二就是计算相对简单，一般只有少数几步操作组成，比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成；五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如OＲＡＣLＥ、MＹSQL、SQＬSERVER,再加数据复制（DataGurａd、RＭAＮ、ＭｙSQＬ数据复制等)等高可用措施即可满足业务需求。在数据量与并发交易量增加情况下，一般可以采用ORＡLＣＥRAC集群方式或者就是通过硬件升级（采用小型机、大型机等，如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、1230６等互联网企业中,由于数据量大、访问并发量高，必然采用分布式技术来应对,这样就带来了分布式事务处理问题，而分布式事务处理很难做到高效，因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

２数据统计分析数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等．数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算，每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂，例如会涉及大量goｕpbｙ、子查询、嵌套查询、窗口函数、聚合函数、排序等；有些复杂统计可能需要编写ＳQＬ脚本才能实现．三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计；传统得数据统计分析主要采用基于ＭＰP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法，把数据整理成适合统计分析得结构来实现高性能得数据统计分析，以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。另外目前在数据统计分析领域,为了满足交互式统计分析需求，基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘数据挖掘主要就是根据商业目标，采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

大学数据挖掘期末考试题

:号学题目-一 - -二二三四五六七八九十总成绩复核得分阅卷教师 :名姓班级业专院学院学学科息信与学数题试试考末期期学季春年学一320数据挖掘试卷课程代码：C0204413课程：数据挖掘A卷一、判断题（每题1分，10分） 1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（） 2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（） 3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（） 4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（） 5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（） 6. 属性的性质不必与用来度量他的值的性质相同。（） 7. 全链对噪声点和离群点很敏感。（） 8. 对于非对称的属性，只有非零值才是重要的。（） 9. K均值可以很好的处理不同密度的数据。（） 10. 单链技术擅长处理椭圆形状的簇。（）二、选择题（每题2分，30分） 1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（） A. 分类 B.聚类 C.关联分析 D.主成分分析 2. （）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。 A. MIN（单链） B.MAX（全链） C.组平均 D.Ward方法 3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（）数据挖掘方法。 A分类B预测C关联规则分析D聚类 4. 关于K均值和DBSCAN的比较，以下说法不正确的是（） A. K均值丢弃被它识别为噪声的对象，而DBSCAN —般聚类所有对象。 B. K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。 C. K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇 D. K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇 5. 下列关于 Ward 'Method说法错误的是：（） A. 对噪声点和离群点敏感度比较小 B. 擅长处理球状的簇 C. 对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差 D. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似 6. 下列关于层次聚类存在的问题说法正确的是：（） A. 具有全局优化目标函数 B. Group Average擅长处理球状的簇 C. 可以处理不同大小簇的能力 D. Max对噪声点和离群点很敏感 7. 下列关于凝聚层次聚类的说法中，说法错误的事：（） A. 一旦两个簇合并，该操作就不能撤销 B. 算法的终止条件是仅剩下一个簇 2 C. 空间复杂度为O m D. 具有全局优化目标函数 8规则｛牛奶，尿布｝T｛啤酒｝的支持度和置信度分别为：（）

计算机技术专题讲座心得与体会

众所周知，河南科技大学的多媒体教学现在已成为活跃课堂、调动学习积极性的一种主要手段。随着计算机的发展，新的技术不断的涌现，各种信息技术的不断前进，我很感谢学院在在培养我们专业知识的同时，充分利用我们学校的多媒体优势，在课外时间里，又给我们安排了关于计算机新技术的三次讲座，从课外的角度扩宽了我们的视野，让我们在大二这迷茫的阶段，对自己未来的发展有了一些清晰的道路。依旧记得第一次讲座是听计算机主任张志勇老师给我们讲的数字版权的讲座，他首先给我们讲解了数字版权的意义，他说：“计算机软件是现代社会主要的技术基础之一，是信息时代的重要产物，对软件这一人类智力成果和知识结晶实行有效法律保护的重要性日益突出，对软件的保护问题已经成为当今世界保护知识产权的一项重要的内容，受到了国际法学界和各国政府的普遍重视。是呀，通过张志勇老师的讲解，使我们逐渐认识到：随着计算机技术的迅猛发展，计算机普及化越来越高，微型计算机和个人计算机相继成为市场上的主导产品。计算机程序，也就是我们平常所说的软件也获得了长足的发展，计算机软件市场也发生了巨大的变化。一方面是软件用户的急剧增加，另一方面是通用软件的大量上市。这给全世界以及人们的工作、生活都带来了深远的影响。如何加强数字版权的意识，现在显得非常的重要。当图书数字化以后，盗版极其容易，复制件与原件一模一样，而且复制几乎没有什么成本，这就使得网络出版的版权控制更加困难。一些新出版的畅销图书很快被做成电子书在网上流传，但这往往是一些个人网站未经授权擅自制作的，是违反著作权法的行为。因此，目前很多出版社都不愿意让自己出版社的图书数字化，最主要的原因就是对数字出版中盗版问题的恐惧。版权的法律保护问题解决不好，即使产业本身具有发展潜力，出版社对数字出版也只能是敬而远之。尽管目前比较流行的数字版权技术DRM 是采用下载计费、数字底纹加密和硬盘绑定等措施实现对网络出版物传播范围的控制，它可以严格控制电子图书的阅读期限、阅读次数，不经授权读者不能将电子图书复制给朋友，也不能打印，可以对网络出版物进行一些必要的版权控制和管理，但网络出版物形式多种多样，制作技术手段不断进步，硬件产品日新月异，很难形成一种通用的、有效的数字版权技术来彻底地保护各种网络出版物，并且保证其加密技术永远不被破解。因此，数字出版领域的版权保护问题已经成为制约出版社进入数字出版领域的障碍之一。对此，除了加大相关法律、法规的执行力度外，也要在版权保护的技术方面加以突破和创新现实是客观的，如何改变这种局面，加强数字管理的规范，目前看来非常的迫切，在接下来的近四十分钟里，张志勇老师给我们讲了几种目前加强数字版权保护的几种方法和新技术设计师所完成的功能。张志勇老师不断强调，数据加密和防拷贝是数字版权管理的核心技术，而数字版权管理是针对网络环境下的数字媒体版权保护而提出的一种新技术，并说一般具有以下六大功能[2]： (1)数字媒体加密：打包加密原始数字媒体，以便于进行安全可靠的网络传输。 (2)阻止非法内容注册：防止非法数字媒体获得合法注册从而进入网络流通领域。

数据挖掘经典书籍

数据挖掘入门读物：深入浅出数据分析这书挺简单的，基本的内容都涉及了，说得也比较清楚，最后谈到了R是大加分。难易程度：非常易。啤酒与尿布通过案例来说事情，而且是最经典的例子。难易程度：非常易。数据之美一本介绍性的书籍，每章都解决一个具体的问题，甚至还有代码，对理解数据分析的应用领域和做法非常有帮助。难易程度：易。数学之美这本书非常棒啦，入门读起来很不错！数据分析： SciPy and NumPy 这本书可以归类为数据分析书吧，因为numpy和scipy真的是非常强大啊。Python for Data Analysis 作者是Pandas这个包的作者，看过他在Scipy会议上的演讲，实例非常强！Bad Data Handbook 很好玩的书，作者的角度很不同。数据挖掘适合入门的教程：集体智慧编程学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法，浅显易懂，还有可执行的Python代码。难易程度：中。 Machine Learning in Action 用人话把复杂难懂的机器学习算法解释清楚了，其中有零星的数学公式，但是是以解释清楚为目的的。而且有Python代码，大赞！目前中科院的王斌老师（微博：王斌_ICTIR）已经翻译这本书了机器学习实战(豆瓣)。这本书本身质量就很高，王老师的翻译质量也很高。难易程度：中。我带的研究生入门必看数目之一！ Building Machine Learning Systems with Python 虽然是英文的，但是由于写得很简单，比较理解，又有Python 代码跟着，辅助理解。数据挖掘导论最近几年数据挖掘教材中比较好的一本书，被美国诸多大学的数据挖掘课作为教材，没有推荐Jiawei Han老师的那本书，因为个人觉得那本书对于初学者来说不太容易读懂。难易程度：中上。Machine Learning for Hackers 也是通过实例讲解机器学习算法，用R实现的，可以一边学习机器学习一边学习R。数据挖掘稍微专业些的： Introduction to Semi-Supervised Learning 半监督学习必读必看的书。 Learning to Rank for Information Retrieval 微软亚院刘铁岩老师关于LTR的著作，啥都不说了，推荐！Learning to Rank for Information Retrieval and Natural Language Processing 李航老师关于LTR的书，也是当时他在微软亚院时候的书，可见微软亚院对LTR的研究之深，贡献之大。推荐系统实践这本书不用说了，研究推荐系统必须要读的书，而且是第一本要读的书。 Graphical Models, Exponential Families, and Variational Inference 这个是Jordan老爷子和他的得意门徒Martin J Wainwright 在Foundation of Machine Learning Research上的创刊号，可以免费下载，比较难懂，但是一旦读通了，graphical model的相关内容就可以踏平了。 Natural Language Processing with Python NLP 经典，其实主要是讲NLTK 这个包，但是啊，NLTK 这个包几乎涵盖了NLP 的很多内容了啊！数据挖掘机器学习教材： The Elements of Statistical Learning 这本书有对应的中文版：统计学习基础(豆瓣)。书中配有R包，非常赞！可以参照着代码学习算法。统计学习方法李航老师的扛鼎之作，强烈推荐。难易程度：难。 Machine Learning 去年出版的新书，作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作，写完之后，就去Google了，产学研结合，没有比这个更好的了。

大数据常用的算法

大数据常用的算法（分类、回归分析、聚类、关联规则）在大数据时代，数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。其主要基于人工智能，机器学习，模式学习，统计学等。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART 模型为代表。虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。 (6)Web数据挖掘。Web数据挖掘是一项综合性技术，指Web 从文档结构和使用的集合C 中发现隐含的模式P，如果将C看做是输入，P 看做是输出，那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。当前越来越多的Web 数据都是以数据流的形式出现的，因此对Web 数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有：PageRank算法，HITS算法以及LOGSOM 算法。这三种算法提到的用户都是笼统的用户，并没有区分用户的个体。目前Web 数据挖掘面临着一些问题，包括：用户的分类问题、网站内容时效性问题，用户在页面停留时间问题，页面的链入与链出数问题等。在Web 技术高速发展的今天，