统计学和数据挖掘(中文).
统计分析与数据挖掘

统计分析与数据挖掘数据挖掘是一项新兴的技术,它借助统计分析技术从数据中挖掘出有意义的信息和知识。
随着数据的日益增多,数据挖掘在商业、金融、医疗、安全、社交网络等多个领域得到了广泛应用,也成为了企业和组织中重要的策略决策工具之一。
一、统计分析和数据挖掘的关系统计分析是数据挖掘的基础,它提供了数据描述和推断的方法。
因此,在进行数据挖掘之前,我们需要对数据进行统计分析,了解数据的基本特征和规律。
比如,我们可以通过描述统计方法(如均值、标准差、频率、比例)和推断统计方法(如假设检验、方差分析、回归分析、卡方检验)对数据进行分析和解释。
这些统计分析技术不仅能够帮助我们发现数据中的异常值和缺失值,以及数据的相关性和分布规律,还能帮助我们预测未来的趋势和结果。
但是,统计分析只是数据挖掘的一个环节,它只能回答一些已知的问题,而不能挖掘出未知的信息和知识。
因此,我们需要借助数据挖掘中的机器学习、聚类、分类、预测、关联规则、文本挖掘等技术来发现数据中的隐藏规律和知识。
这些技术不仅能够帮助我们发现数据中的重要特征和潜在关系,还能帮助我们进行数据可视化和决策支持。
二、统计分析和数据挖掘的应用1. 商业决策数据挖掘在商业决策中得到了广泛应用。
比如,企业可以借助数据挖掘技术,分析客户的消费行为、产品趋势、市场竞争等,从而制定更好的营销策略和销售方案。
2. 医疗健康数据挖掘在医疗健康领域也有着重要作用。
医疗机构可以通过数据挖掘技术,分析大量的医疗记录,发现潜在的诊断规律和治疗效果,提高医疗服务质量和效率。
3. 社交网络数据挖掘在社交网络领域也得到了广泛应用。
社交网络中的海量数据可以帮助我们分析用户的兴趣爱好、行为模式、人际关系等,从而更好地进行社交网络管理和营销。
三、数据挖掘的局限性和应对策略虽然数据挖掘技术在许多领域中获得了成功,但其本身也存在一定的局限性。
比如,数据质量可能存在问题,样本可能不足,模型可能不够精确等,这些都会影响到数据挖掘的结果和应用。
试论统计学与数据挖掘

的。其次, 处理数据就是对数据进行加工使之满足数据挖掘流程的要 是统计学与数据挖掘存在 的不 同之处。 而数据挖掘主要是通过计算机 对众多不清晰的数据进行筛选 、 处理和归类 , 每一 求, 通常的做法是对数据进行处理 , 填充不完善 的数据 , 一旦出现处理 来进行复杂的操作 , 不一致的现象, 就进行转换 , 将数据简单化, 以免对数据挖掘效果产生 环节都离不开计算机的帮助。 只有通过这些实际操作才能得出具有科 负面影响。分析数据这个流程至关重要 , 不但要对获得到的数据进行 学性、 普遍性的结沦。 向易于理解的模式转变, 还要提取 出具有应用价值的数据 , 这个模 式 4 结 论
文化教 育
民营 科技2 0 1 3 年第2 期
试论统计学 与数据挖掘
毛 青 ( 海南师范大学数 学与统计 学院 , 海南 海 口 5 7 0 1 0 0 ) 摘 要: 随着社会 的不断进 步, 统计学与数据挖掘 受到 了人们 的关注, 这种技 术主要 应用现代 管理数据存储 方法, 其 中的数 据挖掘便是从 众多随机 的、 不清晰的数据之 中寻求知识与信息的过程 , 其 中便 应用到统计 学
的理论基础 , 两者之间存在 着紧密的关联。统计学理论基础 为数 据挖掘 的发展起到 了推动 的作 用 , 与此 同时数据挖掘给统 计学带来的 新 的研 究领域 。现将对统计学与数据挖掘展 开详 细的论述 。 关键词 : 统计 学理论 ; 数 据挖掘 ; 数据分析 1 统计学的含义与理论基础 用问题 , 比如建立网络系统 , 通过逻辑 回归等方法试图解决 目前问题。 1 . 1 统计学的含义。 统计学是人们众所周知 的一门学科 , 所 以本篇论 2 . 3 数据挖掘的应用。随着数据挖掘近些年来的不断发展 , 所处理 的
统计分析与数据挖掘

统计分析与数据挖掘统计分析和数据挖掘是一种新兴的领域,它们的目的是提取出数据中的隐藏信息和模式,以便做出更准确的预测和决策。
这个领域涉及到许多不同的技术和方法,如聚类分析、回归分析、决策树、神经网络等,通过这些技术和方法,我们可以从海量的数据中学到更多有用的信息,并作出更好的决策。
一、统计分析统计分析是从数据中提取有用信息的一种方法。
它涉及到对数据进行测量、收集、分类、分析和解释,以及用图表等形式来呈现数据。
统计分析可以用来预测趋势、评估风险、探索关系和发现异常等方面。
最常用的统计分析方法包括:1. 描述性统计分析:用来总结样本或总体的特征,比如平均值、中位数、众数、标准差等。
2. 探索性统计分析:用来发现数据的模式和关系,比如直方图、散点图、箱线图等。
3. 推断性统计分析:用来从样本中推断总体的性质,比如t检验、方差分析等。
4. 非参数统计分析:用来对数据的概率分布进行估计,比如卡方检验、K-S检验等。
二、数据挖掘数据挖掘是一种从大量数据中发现知识的过程。
它包括用统计技术、机器学习和数据库技术来发现隐藏在数据中的模式和关系。
数据挖掘可以被应用于市场分析、产品设计、服务质量提升等领域。
最常用的数据挖掘算法包括:1. 分类算法:用来将数据分为多个类别,比如朴素贝叶斯、随机森林等。
2. 聚类算法:用来将数据分为不同的群组,比如K-Means、层次聚类等。
3. 关联规则算法:用来发现数据中的关联性,比如Apiori算法等。
4. 回归算法:用来预测数据中的趋势和变化,比如线性回归、决策树回归等。
三、统计分析与数据挖掘的联系统计分析和数据挖掘通常被视为相似的技术,因为它们都是从数据中提取信息的方法。
然而,数据挖掘和统计分析在方法论上有所区别。
统计分析通常是通过一些预先指定的模型来解决问题,而数据挖掘则是通过算法从数据中学习到模型。
但是,统计分析和数据挖掘也有一些共同点。
它们都是通过数据来学习到知识,并用于预测和决策。
数据挖掘统计学相关技术

数据挖掘统计学相关技术
数据挖掘和统计学是互补的技术,它们都专注于从数据中提取信息,并且在各自的领域内都具有广泛的应用。
下面将分别介绍数据挖掘和统计学相关的技术。
数据挖掘技术:
1.分类和预测:分类是将数据分为不同的类别,预测是通过数据预测未来趋势或结果。
分类和预测可以使用多种算法,如决策树、神经网络和支持向量机等。
2.聚类分析:聚类分析是将数据分成不同的组,每组中的数据相似度高,组间相似度低。
它可以使用多种算法,如K均值和DBSCAN等。
3.关联规则挖掘:关联规则挖掘用于查找数据之间的关联性,可以用于市场篮子分析、Web分析等领域。
它使用的算法包括Apriori和FP-Growth等。
4.异常检测:异常检测用于检测与大多数数据不同的数据点。
它使用的算法包括离群点检测和基于统计检验的检测等。
统计学相关技术:
1.假设检验:假设检验是通过收集样本数据来验证假设的正确性或错误性。
它包
括单样本t检验、双样本t检验、方差分析等。
2.回归分析:回归分析用于建立变量之间的关系,包括线性回归、多项式回归和逻辑回归等。
3.方差分析:方差分析用于比较三个或以上的组之间的差异。
它包括单因素方差分析和双因素方差分析等。
4.统计建模:统计建模是使用统计方法来解释数据中的现象。
它包括时间序列分析、因子分析和聚类分析等。
以上是数据挖掘和统计学相关的技术介绍。
这些技术都可以在不同的领域中得到广泛应用,例如金融、医疗、营销等。
统计学中的大数据分析和数据挖掘

统计学中的大数据分析和数据挖掘统计学是一门应用科学,旨在通过收集、分析和解释大量数据,从中获取有关现象和变量之间关系的信息。
随着信息和通信技术的快速发展,大数据分析和数据挖掘成为了统计学的重要分支。
本文将讨论大数据分析和数据挖掘在统计学中的应用、方法以及对于决策制定的意义。
一、大数据分析在统计学中的应用大数据分析是指对海量数据进行收集、处理、分析和解释的过程,以发现隐藏在数据中的规律和模式。
在统计学中,大数据分析广泛应用于以下几个方面:1. 帮助预测和预测分析:通过分析历史数据和趋势,大数据分析可以帮助制定预测模型,从而对未来事件进行预测和预测分析。
这对于企业的决策制定和市场预测非常重要。
2. 提供个性化推荐:通过分析用户的历史数据,大数据分析可以了解用户的偏好和兴趣,并提供个性化的推荐和服务。
这在电子商务和社交媒体平台中得到了广泛应用。
3. 改善产品质量和生产效率:通过分析大量的生产数据和质量控制数据,大数据分析可以帮助企业发现生产过程中存在的问题,并提出改进措施,以提高产品质量和生产效率。
4. 检测欺诈和风险:大数据分析可以通过建立模型来检测欺诈行为和风险因素。
例如,信用卡公司可以使用大数据分析来检测信用卡盗刷行为;保险公司可以使用大数据分析来评估保险索赔的风险。
二、数据挖掘在统计学中的应用数据挖掘是指从大量数据中提取隐含信息和知识的过程。
在统计学中,数据挖掘可以帮助发现数据背后的模式和规律,从而为决策制定和问题解决提供支持。
以下是数据挖掘在统计学中的一些应用:1. 聚类分析:通过对大量数据进行聚类,数据挖掘可以将相似的对象归类在一起。
这对于市场细分和客户分群非常有用,可以帮助企业更好地理解其目标消费群体。
2. 关联规则挖掘:数据挖掘可以帮助发现数据集中的关联规则。
例如,在超市购物数据中,数据挖掘可以发现购买某种商品的人更有可能购买其他种类的商品,从而帮助超市进行商品搭配和促销策略。
3. 预测建模:数据挖掘可以通过建立数学模型来预测未来事件的发生概率。
数据挖掘与统计学方法的比较分析

数据挖掘与统计学方法的比较分析在当今大数据时代,数据挖掘和统计学方法成为了从庞大数据中提取有用信息的重要手段。
数据挖掘(Data Mining)是通过从大量数据中发现潜在模式、关联性和规律来获得有价值的知识的过程。
而统计学是通过对数据进行收集、分析和解释来揭示数据背后的规律和趋势。
本文将对数据挖掘和统计学方法进行比较分析,并探讨它们各自的优势和适用场景。
一、数据挖掘方法数据挖掘方法基于大数据的特点,旨在从数据中提取隐藏的模式和知识。
数据挖掘方法使用了多种算法和技术:1.聚类分析:聚类分析是将数据根据相似性进行分类的方法。
它可以帮助我们找到数据集中的不同群组,并揭示数据之间的相似性和差异性。
2.分类模型:分类模型是通过已知标签的数据样本来预测新数据的分类。
它可以帮助我们做出预测和分类,并为未来的决策提供参考。
3.关联规则:关联规则是发现数据中的相关性和依赖性的方法。
它可以帮助我们找到数据中的隐藏关系,从而进行交叉销售、市场调研等应用。
二、统计学方法统计学方法是一种收集、处理、分析和解释数据的科学方法。
统计学方法侧重于对数据的描述和解释,通过运用各种统计技术来揭示数据的潜在模式和规律:1.描述统计:描述统计是对数据进行总结和描述的方法。
它通过计算平均值、中位数、标准差等指标来揭示数据的分布和趋势。
2.推断统计:推断统计是通过对样本数据进行统计分析来推断总体特征的方法。
它通过假设检验、置信区间等技术来做出总体特征的估计和推断。
3.回归分析:回归分析是研究变量之间关系的方法。
它可以帮助我们了解变量之间的因果关系,并进行预测和建模。
三、数据挖掘与统计学方法的比较数据挖掘方法和统计学方法有许多相似之处,也有一些不同之处:1.数据需求:数据挖掘方法通常需要大规模的数据集来获得准确的模式和规律,而统计学方法可以使用小样本数据来进行推断和分析。
2.数据处理:数据挖掘方法侧重于数据的清洗、转换和预处理,以便生成可供模型训练的数据集,而统计学方法则更加注重数据的描述和解释。
统计学与数据挖掘_中国人民大学统计学系数据挖掘中心

统计学与数据挖掘中国人民大学统计学系数据挖掘中心*(中国人民大学统计学系,北京100872)工业界的广泛关注。
统计学是搜集、展示、分析及解释数据的科学。
统计学不是方法的集合,而是处理数据的科学。
数据挖掘的大部分核心功能的实现都以计量和统计分析方法作为支撑。
这些核心功能包括:聚类、估计、预测、关联分组以及分类等。
统计学、数据库和人工智能共同构成数据挖掘技术的三大支柱。
许多成熟的统计方法构成了数据挖掘的核心内容。
比如:回归分析(多元回归、自回归、Logistic回归)、判别分析(Bayes判别、非参数判别、Fisher判别)、聚类分析(系统聚类、动态聚类)、探索性数据分析(Exploratory DataAnalysis,简称EDA)、列联分析等统计方法,一直在数据挖掘领域发挥着巨大的作用。
与此同时,从数据挖掘要处理的海量数据和数据的复杂程度来看,基于总体假定进行推断和检验的传统统计方法,已显露出很大的局限性。
统计能否继续作为数据挖掘的有力支撑,数据挖掘将为统计学提供怎样的发展机遇,是我们最关心的问题。
本文中,我们将以统计学最近40年的发展走势作为论述的起点,逐步对统计方法在数据挖掘算法设计、开发过程中的应用情况,进行全面、系统的考察与分析,进而提出统计学和数据挖掘协同发展的广阔前景。
二、统计学近40年的走势20世纪60年代是稳健统计盛行的时代。
稳健统计开创性地解决了与理论分布假定有偏差的数据分析问题。
其成果主要包括回归系数的敏感性分析;对异常值(Outliers)、高杠杆点(Leverage values)以及其他一些对少量污染异常敏感的回归诊断;M -估计量(M -estimator)等稳健估计量。
稳健统计标志着基于正态假定的理论框架正在打破,打破框架的源动力来自于客观世界里真实的、具有复杂结构的数据。
20世纪70年代早期, John Tukey提出探索性数据分析(EDA),他通过箱线图等简单方法,指出了统计建模应该结合数据真实分布情况。
统计学中的数据挖掘

统计学中的数据挖掘统计学是一门研究收集、整理、分析和解释数据的学科,而数据挖掘则是一种通过应用统计学和机器学习技术来发现数据中隐藏模式和关系的方法。
本文将深入探讨统计学中的数据挖掘技术以及其在实际应用中的重要性。
第一部分:数据挖掘的介绍数据挖掘是利用统计学和机器学习技术来发现大规模数据中的实用模式和知识的过程。
在日常生活和商业运营中,数据挖掘已经成为一种重要的工具,可以帮助人们更好地理解数据并作出有针对性的决策。
数据挖掘技术可以帮助企业探索市场需求、预测销售趋势、识别客户行为模式等。
第二部分:统计学在数据挖掘中的应用统计学是数据挖掘的核心理论基础之一,它提供了一系列的方法和模型来处理不同类型的数据。
在数据挖掘过程中,统计学可以帮助我们进行数据的前处理、特征选择和模型评估等关键步骤。
常见的统计学方法包括回归分析、聚类分析、决策树等。
第三部分:机器学习在数据挖掘中的应用机器学习是数据挖掘的另一个重要组成部分,它使用数学和统计模型来训练计算机系统从大量数据中学习和改进。
通过机器学习算法,我们可以根据历史数据来预测未来的趋势,或者根据已知的特征来分类新的数据。
机器学习算法包括支持向量机、随机森林、神经网络等。
第四部分:数据挖掘应用案例数据挖掘在各个领域都有广泛的应用。
以下是几个典型的应用案例:1. 零售业:通过数据挖掘技术,零售商可以根据客户的购买历史和行为模式来预测产品需求,并制定相应的促销策略。
2. 医疗保健:医疗机构可以利用数据挖掘来分析患者的病历数据,以识别潜在风险因素和制定个性化治疗方案。
3. 金融业:银行和金融机构可以使用数据挖掘技术来预测市场波动,识别欺诈行为,并制定风险管理策略。
4. 社交媒体:社交媒体平台可以通过分析用户的行为数据来推荐相关内容,提高用户体验。
第五部分:数据挖掘的挑战与未来发展尽管数据挖掘在各个领域都有着广泛的应用,但是仍然存在一些挑战。
其中之一是数据的质量和完整性。
另外,数据挖掘技术在隐私保护方面也面临着一些困境。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学和数据挖掘:交叉学科摘要:统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。
本文讨论了两门学科的性质,重点论述它们的异同。
关键词:统计学知识发现1.简介统计学和数据挖掘有着共同的目标:发现数据中的结构。
事实上,由于它们的目标相似,一些人(尤其是统计学家认为数据挖掘是统计学的分支。
这是一个不切合实际的看法。
因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
统计学和数据挖掘研究目标的重迭自然导致了迷惑。
事实上,有时候还导致了反感。
统计学有着正统的理论基础(尤其是经过本世纪的发展,而现在又出现了一个新的学科,有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。
这必然会引起关注。
更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。
把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实”,以及找出枯燥的大量数据背后的有意义的信息。
当然,统计学的现代的含义已经有很大不同的事实。
而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用。
本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。
首先,我们注意到“数据挖掘”对统计学家来说并不陌生。
例如,Everitt定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的”。
统计学家因而会忽略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。
尽管如此,事实上大量的数据可能包含不可预测的但很有价值的结构。
而这恰恰引起了注意,也是当前数据挖掘的任务。
2.统计学的性质试图为统计学下一个太宽泛的定义是没有意义的。
尽管可能做到,但会引来很多异议。
相反,我要关注统计学不同于数据挖掘的特性。
差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种趋势是越来越精确。
当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。
但是如果过度的话则是有害的。
这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的(参见【15】,【9】,【14】,【2】,【3】尽管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支,但它同其它学科还有紧密的联系。
数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验。
这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明。
统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。
数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度。
这并不意味着数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。
正是统计文献显示了(或夸大了统计的数学精确性。
同时还显示了其对推理的侧重。
尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。
当然这也常常是数据挖掘所关注的。
下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。
这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。
然而,数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。
在这种情形下,推断就没有价值了(例如,年度业务的平均值,因为观测到的值也就是估计参数。
这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于0,则会从模型中剔除掉,但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。
在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。
事实是,常常所关注的是模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。
例如,在寻找规则时常常会利用吻合度的单纯特性(例如,应用分支定理。
但当我们应用概率陈述时则不会得到这些特性。
统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型”。
或许“模型”这个术语更多的含义是变化。
一方面,统计学模型是基于分析变量间的联系,但另一方面这些模型关于数据的总体描述确实没有道理的。
关于信用卡业务的回归模型可能会把收入作为一个独立的变量,因为一般认为高收入会导致大的业务。
这可能是一个理论模型(尽管基于一个不牢靠的理论。
与此相反,只需在一些可能具有解释意义的变量基础上进行逐步的搜索,从而获得一个有很大预测价值的模型,尽管不能作出合理的解释。
(通过数据挖掘去发现一个模型的时候,常常关注的就是后者。
还有其它方法可以区分统计模型,但在这里我将不作探讨。
对此可参见【10】。
这里我想关注的是,现代统计学是以模型为主的。
而计算,模型选择条件是次要的,只是如何建立一个好的模型。
但在数据挖掘中,却不完全是如此。
在数据挖掘中,准则起了核心的作用。
(当然在统计学中有一些以准则为中心的独立的特例。
Gifi的关于学校的非线性多变量分析就是其中之一。
例如,Gifi说,在本书中我们持这样的观点,给定一些最常用的MV A(多变量分析问题,既可以从模型出发也可以技术出发。
正如我们已经在1.1节所看到的基于模型的经典的多变量统计分析,……然而,在很多情形下,模型的选择并不都是显而易见的,选择一个合适的模型是不可能的,最合适的计算方法也是不可行的。
在这种情形下,我们从另外一个角度出发,应用设计的一系列技术来回答MV A问题,暂不考虑模型和最优判别的选择。
相对于统计学而言,准则在数据挖掘中起着更为核心的作用并不奇怪,数据挖掘所继承的学科如计算机科学及相关学科也是如此。
数据集的规模常常意味着传统的统计学准则不适合数据挖掘问题,不得不重新设计。
部分地,当数据点被逐一应用以更新估计量,适应性和连续性的准则常常是必须的。
尽管一些统计学的准则已经得到发展,但更多的应用是机器学习。
(正如“学习”所示的那样很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。
这说明数据挖掘过程本质上是实验性的。
这和确定性的分析是不同的。
(实际上,一个人是不能完全确定一个理论的,只能提供证据和不确定的证据。
确定性分析着眼于最适合的模型-建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。
很多,或许是大部分统计分析提出的是确定性的分析。
然而,实验性的数据分析对于统计学并不是新生事务,或许这是统计学家应该考虑作为统计学的另一个基石,而这已经是数据挖掘的基石。
所有这些都是正确的,但事实上,数据挖掘所遇到的数据集按统计标准来看都是巨大的。
在这种情况下,统计工具可能会失效:百万个偶然因素可能就会使其失效。
(【11】中包含例子如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的问题之前,如何很好的搜集数据,例如实验设计和调查设计。
数据挖掘本质上假想数据已经被搜集好,关注的只是如何发现其中的秘密。
3.数据挖掘的性质由于统计学基础的建立在计算机的发明和发展之前,所以常用的统计学工具包含很多可以手工实现的方法。
因此,对于很多统计学家来说,1000个数据就已经是很大的了。
但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或A T&T每天200,000,000个长途呼叫来说相差太远了。
很明显,面对这么多的数据,则需要设计不同于那些“原则上可以用手工实现”的方法。
这意味这计算机(正是计算机使得大数据可能实现对于数据的分析和处理是关键的。
分析者直接处理数据将变得不可行。
相反,计算机在分析者和数据之间起到了必要的过滤的作用。
这也是数据挖掘特别注重准则的另一原因。
尽管有必要,把分析者和数据分离开很明显导致了一些关联任务。
这里就有一个真正的危险:非预期的模式可能会误导分析者,这一点我下面会讨论。
我不认为在现代统计中计算机不是一个重要的工具。
它们确实是,并不是因为数据的规模。
对数据的精确分析方法如bootstrap方法、随机测试,迭代估计方法以及比较适合的复杂的模型正是有了计算机才是可能的。
计算机已经使得传统统计模型的视野大大的扩展了,还促进了新工具的飞速发展。
下面来关注一下歪曲数据的非预期的模式出现的可能性。
这和数据质量相关。
所有数据分析的结论依赖于数据质量。
GIGO的意思是垃圾进,垃圾出,它的引用到处可见。
一个数据分析者,无论他多聪明,也不可能从垃圾中发现宝石。
对于大的数据集,尤其是要发现精细的小型或偏离常规的模型的时候,这个问题尤其突出。
当一个人在寻找百万分之一的模型的时候,第二个小数位的偏离就会起作用。
一个经验丰富的人对于此类最常见的问题会比较警觉,但出错的可能性太多了。
此类问题可能在两个层次上产生。
第一个是微观层次,即个人记录。
例如,特殊的属性可能丢失或输错了。
我知道一个案例,由于挖掘者不知道,丢失的数据被记录为99而作为真实的数据处理。
第二个是宏观层次,整个数据集被一些选择机制所歪曲。
交通事故为此提供了一个好的示例。
越严重的、致命的事故,其记录越精确,但小的或没有伤害的事故的记录却没有那么精确。
事实上,很高比例的数据根本没有记录。
这就造成了一个歪曲的映象-可能会导致错误的结论。
统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。
例如,银行事务每天都会发生,没有人能等三个月得到一个可能的欺诈的分析。
类似的问题发生在总体随时间变化的情形。
我的研究组有明确的例子显示银行债务的申请随时间、竞争环境、经济波动而变化。
至此,我们已经论述了数据分析的问题,说明了数据挖掘和统计学的差异,尽管有一定的重迭。
但是,数据挖掘者也不可持完全非统计的观点。
首先来看一个例子:获得数据的问题。
统计学家往往把数据看成一个按变量交叉分类的平面表,存储于计算机等待分析。
如果数据量较小,可以读到内存,但在许多数据挖掘问题中这是不可能的。
更糟糕的是,大量的数据常常分布在不同的计算机上。
或许极端的是,数据分布在全球互联网上。
此类问题使得获得一个简单的样本不大可能。
(先不管分析“整个数据集”的可能性,如果数据是不断变化的这一概念可能是不存在的,例如电话呼叫当描述数据挖掘技术的时候,我发现依据以建立模型还是模式发现为目的可以很方便的区分两类常见的工具。
我已经提到了模型概念在统计学中的核心作用。
在建立模型的时候,尽量要概括所有的数据,以及识别、描述分布的形状。
这样的“全”模型的例子如对一系列数据的聚类分析,回归预测模型,以及基于树的分类法则。
相反,在模式发现中,则是尽量识别小的(但不一定不重要偏差,发现行为的异常模式。
例如EEG轨迹中的零星波形、信用卡使用中的异常消费模式,以及不同于其它特征的对象。