统计学和数据挖掘区别
统计分析与数据挖掘

统计分析与数据挖掘数据挖掘是一项新兴的技术,它借助统计分析技术从数据中挖掘出有意义的信息和知识。
随着数据的日益增多,数据挖掘在商业、金融、医疗、安全、社交网络等多个领域得到了广泛应用,也成为了企业和组织中重要的策略决策工具之一。
一、统计分析和数据挖掘的关系统计分析是数据挖掘的基础,它提供了数据描述和推断的方法。
因此,在进行数据挖掘之前,我们需要对数据进行统计分析,了解数据的基本特征和规律。
比如,我们可以通过描述统计方法(如均值、标准差、频率、比例)和推断统计方法(如假设检验、方差分析、回归分析、卡方检验)对数据进行分析和解释。
这些统计分析技术不仅能够帮助我们发现数据中的异常值和缺失值,以及数据的相关性和分布规律,还能帮助我们预测未来的趋势和结果。
但是,统计分析只是数据挖掘的一个环节,它只能回答一些已知的问题,而不能挖掘出未知的信息和知识。
因此,我们需要借助数据挖掘中的机器学习、聚类、分类、预测、关联规则、文本挖掘等技术来发现数据中的隐藏规律和知识。
这些技术不仅能够帮助我们发现数据中的重要特征和潜在关系,还能帮助我们进行数据可视化和决策支持。
二、统计分析和数据挖掘的应用1. 商业决策数据挖掘在商业决策中得到了广泛应用。
比如,企业可以借助数据挖掘技术,分析客户的消费行为、产品趋势、市场竞争等,从而制定更好的营销策略和销售方案。
2. 医疗健康数据挖掘在医疗健康领域也有着重要作用。
医疗机构可以通过数据挖掘技术,分析大量的医疗记录,发现潜在的诊断规律和治疗效果,提高医疗服务质量和效率。
3. 社交网络数据挖掘在社交网络领域也得到了广泛应用。
社交网络中的海量数据可以帮助我们分析用户的兴趣爱好、行为模式、人际关系等,从而更好地进行社交网络管理和营销。
三、数据挖掘的局限性和应对策略虽然数据挖掘技术在许多领域中获得了成功,但其本身也存在一定的局限性。
比如,数据质量可能存在问题,样本可能不足,模型可能不够精确等,这些都会影响到数据挖掘的结果和应用。
统计分析和数据挖掘的技术和应用

统计分析和数据挖掘的技术和应用随着互联网的迅速发展,数据量也在不断地膨胀。
然而,纯靠人工去处理这些庞大的数据量已经显得不太现实,因此,统计分析和数据挖掘这两项技术应运而生。
统计分析能够提供完整和准确的数据,而数据挖掘则可以帮助人们在这些数据中挖掘出有用的信息。
这两项技术的应用不仅在商业领域非常广泛,还能够在医疗、金融等行业中发挥重要作用。
下面我们将详细探讨这两项技术及其应用。
一、统计分析统计分析是一种利用统计学方法来推论数据的技术。
它可以通过描述性统计和推论统计来对数据进行分析。
描述性统计是对数据进行简单的总结和分类,如平均值、标准偏差、中位数等等。
通过推论统计,我们可以利用已知数据推断出未知数据之间的关系。
推论统计包括假设检验、方差分析、回归分析等方法。
统计分析在商业领域中有着广泛的应用。
它可以帮助企业了解销售情况,分析市场需求,预测未来趋势,以及评估竞争对手的实力。
在评估风险方面,统计分析也可以为投资者提供有用的信息。
银行、信用机构等金融机构也广泛地使用统计分析技术,以确定借款人的信用等级。
此外,医疗领域也可以通过统计分析技术对疾病进行风险评估和诊断。
二、数据挖掘数据挖掘是将大量数据中的模式和关系挖掘出来的过程。
它通过使用复杂的算法和数据分析技术来识别有价值的数据。
数据挖掘包括分类、聚类、异常检测和关联规则挖掘等多种技术。
数据挖掘在商业领域也有着广泛的应用。
例如,企业可以使用数据挖掘技术来优化客户服务,根据客户的购买历史、偏好和需求,提供个性化的推荐服务。
医疗行业也可以利用数据挖掘技术来识别患者的健康风险和疾病风险。
在金融领域,数据挖掘技术可以用来制定合适的信用评级模型,以及监测金融市场变化。
三、统计分析和数据挖掘的应用实例1. 互联网广告在互联网广告领域,统计分析和数据挖掘技术被广泛应用。
通过对用户的搜索行为和浏览历史进行分析,广告公司可以更好地定位用户需求,从而提供更加精准的广告服务。
2. 零售业在零售业中,数据挖掘技术可以用来分析顾客购物行为和偏好,提前预测节假日和促销活动的效果,并优化产品组合。
试论统计学与数据挖掘

的。其次, 处理数据就是对数据进行加工使之满足数据挖掘流程的要 是统计学与数据挖掘存在 的不 同之处。 而数据挖掘主要是通过计算机 对众多不清晰的数据进行筛选 、 处理和归类 , 每一 求, 通常的做法是对数据进行处理 , 填充不完善 的数据 , 一旦出现处理 来进行复杂的操作 , 不一致的现象, 就进行转换 , 将数据简单化, 以免对数据挖掘效果产生 环节都离不开计算机的帮助。 只有通过这些实际操作才能得出具有科 负面影响。分析数据这个流程至关重要 , 不但要对获得到的数据进行 学性、 普遍性的结沦。 向易于理解的模式转变, 还要提取 出具有应用价值的数据 , 这个模 式 4 结 论
文化教 育
民营 科技2 0 1 3 年第2 期
试论统计学 与数据挖掘
毛 青 ( 海南师范大学数 学与统计 学院 , 海南 海 口 5 7 0 1 0 0 ) 摘 要: 随着社会 的不断进 步, 统计学与数据挖掘 受到 了人们 的关注, 这种技 术主要 应用现代 管理数据存储 方法, 其 中的数 据挖掘便是从 众多随机 的、 不清晰的数据之 中寻求知识与信息的过程 , 其 中便 应用到统计 学
的理论基础 , 两者之间存在 着紧密的关联。统计学理论基础 为数 据挖掘 的发展起到 了推动 的作 用 , 与此 同时数据挖掘给统 计学带来的 新 的研 究领域 。现将对统计学与数据挖掘展 开详 细的论述 。 关键词 : 统计 学理论 ; 数 据挖掘 ; 数据分析 1 统计学的含义与理论基础 用问题 , 比如建立网络系统 , 通过逻辑 回归等方法试图解决 目前问题。 1 . 1 统计学的含义。 统计学是人们众所周知 的一门学科 , 所 以本篇论 2 . 3 数据挖掘的应用。随着数据挖掘近些年来的不断发展 , 所处理 的
数据分析与数据挖掘的区别与联系

数据分析与数据挖掘的区别与联系随着信息时代的到来,数据的产生与累积不断增长,如何从海量的数据中获取有用的信息,已经成为各行各业所需要面对的问题。
在这个过程中,数据分析和数据挖掘逐渐成为最常见的手段。
本文将从概念、对象、方法、应用等方面,来探讨数据分析和数据挖掘的区别与联系。
一、概念数据分析和数据挖掘都是从原始数据中提取出有用信息的过程,但是它们的概念有所不同。
数据分析是指根据事先设定的数据分析模型,对数据进行统计、分类、预测、评估等分析处理的过程。
而数据挖掘则是指对大数据进行探索性分析、模式识别、机器学习等深层次的数据分析过程的总称。
二、对象数据分析和数据挖掘的对象也不同。
数据分析主要处理结构化数据,如表格、数据字典等,其数据处理模型也比较成熟,通常采用传统的描述性统计、回归分析、聚类分析等方法。
而数据挖掘则主要处理非结构化数据,如文本、图片、音频、视频等,其数据类型复杂、数量庞大、多源异构、可变性高,因此采用的技术手段较为灵活和自适应。
三、方法数据分析和数据挖掘采用的方法也大不相同。
数据分析的方法主要包括:统计学方法、回归分析、聚类分析、因子分析、决策树、人工神经网络等。
而数据挖掘则采用较为复杂的技术手段,包括:关联规则挖掘、分类算法、聚类算法、异常检测、时间序列分析、深度学习等。
四、应用这里列举一些常见的数据分析和数据挖掘应用场景来帮助读者更好地理解它们。
数据分析主要应用于商业智能、互联网广告、金融风控、医疗保险、能源管理等领域,可以帮助企业制定决策、优化运营、提高营销效率、降低风险。
而数据挖掘则广泛应用于搜索引擎、人工智能、自然语言处理、图像识别、智能推荐等领域,可以实现计算机对人工智能的感知、认知、学习和理解。
五、结论从上面所述的几个方面来看,数据分析和数据挖掘确实有一些区别。
但是二者也存在着联系,数据挖掘可以被看成是数据分析的一种加强版,其方法和技术适用于更广泛的数据类型和应用场景,也可以为数据分析提供更深入、更细致、更准确的支持。
数据挖掘与统计方法

角 度 看 , 据 挖 掘 就 是 应 用 一 系 列 技 术 从 大 型数 据 库 或 数 据 仓 库 的 数 据 中 提 取 人 们 感 兴 趣 的信 息 和 知 识 , 些 知 识或 数 这
信 息是 隐含 的 、 知 的 、 在 有 用 的 , 提取 的知 识 表 示 为概 念 、 则 、 未 潜 所 规 规律 和模 式 等 形式 。 数 据 挖 掘 作 为 知 识 发 现 过 程 的 一个 特 定 步 骤 , 一 系 列技 术 及 应用 , 者 说 是 对大 容 量 数 据 及 数 据 间 关 系 进 行 考 察 和 建 模 的 是 或 方法 集 。它 的 目标 是 将 大 容 量 数据 转 化 为 有 用 的 知识 和 信 息 。
( E s C i a ntueo c n l y F z o 4 0 0 C i ; . o g i H g f n h n iesy J j n 3 0 6 C ia 1 at hn st t f h oo , u h u3 4 0 , hn 2G n qn Co e e c a g . I i Te g a g o Na Unv r t,i i g3 0 4 , h ) i ua n
1数 据 挖 掘 综 述
现 今 世 界上 信 息 总 量 不 断增 加 , 迫切 需 要 有 效 的信 息 分 析 工具 , 它们 能 发 现 大 量数 据 间隐 藏 的 依赖 关 系, 从 大量 数 据 中抽 取 有 能 用 的信 息 或 知识 。数 据 挖 掘就 是 为 解 决 这 一要 求 而 出现 的一 种新 型 数 据分 析处 理 技 术 。
l SN 1 0 — 0 4 S 0 9 3 4
E m i jl ec . tn - al s@ cc ec : t n.
统计学方法有哪些

统计学方法有哪些统计学是一门研究数据收集、分析、解释和呈现的学科,它在各个领域都有着广泛的应用。
统计学方法可以帮助我们更好地理解数据,发现数据之间的关系,从而做出更准确的推断和预测。
下面,我们将介绍一些常见的统计学方法。
首先,最基本的统计学方法之一是描述统计。
描述统计是通过对数据进行总结和描述,来展现数据的特征和规律。
常见的描述统计方法包括平均数、中位数、众数、标准差、方差等。
这些方法可以帮助我们了解数据的分布情况、集中趋势和离散程度。
其次,推论统计是统计学中的另一个重要分支。
推论统计是通过从样本数据中得出对总体的推断,从而进行预测和决策。
常见的推论统计方法包括假设检验、置信区间估计、回归分析等。
这些方法可以帮助我们对总体特征进行推断,并进行相应的决策。
另外,数据挖掘是近年来兴起的统计学方法之一。
数据挖掘是指从大量数据中发现潜在的、先前未知的信息、关系和模式的过程。
常见的数据挖掘方法包括聚类分析、关联规则挖掘、分类分析等。
这些方法可以帮助我们发现数据中的隐藏规律,从而进行更深入的分析和预测。
此外,时间序列分析也是一种常见的统计学方法。
时间序列分析是指对一系列按时间顺序排列的数据进行分析和预测的方法。
常见的时间序列分析方法包括趋势分析、季节性分析、周期性分析等。
这些方法可以帮助我们了解数据随时间变化的规律,从而进行未来的预测和规划。
最后,实证研究方法也是统计学中的重要内容之一。
实证研究方法是指通过收集实际数据来验证理论假设或者检验研究问题的方法。
常见的实证研究方法包括实验研究、调查研究、案例研究等。
这些方法可以帮助我们验证理论的有效性,从而得出科学的结论。
总之,统计学方法在各个领域都有着广泛的应用,它可以帮助我们更好地理解数据,发现数据之间的关系,从而做出更准确的推断和预测。
以上介绍的方法只是统计学中的一部分,希望能够对大家有所帮助。
统计学中的大数据分析和数据挖掘
统计学中的大数据分析和数据挖掘统计学是一门应用科学,旨在通过收集、分析和解释大量数据,从中获取有关现象和变量之间关系的信息。
随着信息和通信技术的快速发展,大数据分析和数据挖掘成为了统计学的重要分支。
本文将讨论大数据分析和数据挖掘在统计学中的应用、方法以及对于决策制定的意义。
一、大数据分析在统计学中的应用大数据分析是指对海量数据进行收集、处理、分析和解释的过程,以发现隐藏在数据中的规律和模式。
在统计学中,大数据分析广泛应用于以下几个方面:1. 帮助预测和预测分析:通过分析历史数据和趋势,大数据分析可以帮助制定预测模型,从而对未来事件进行预测和预测分析。
这对于企业的决策制定和市场预测非常重要。
2. 提供个性化推荐:通过分析用户的历史数据,大数据分析可以了解用户的偏好和兴趣,并提供个性化的推荐和服务。
这在电子商务和社交媒体平台中得到了广泛应用。
3. 改善产品质量和生产效率:通过分析大量的生产数据和质量控制数据,大数据分析可以帮助企业发现生产过程中存在的问题,并提出改进措施,以提高产品质量和生产效率。
4. 检测欺诈和风险:大数据分析可以通过建立模型来检测欺诈行为和风险因素。
例如,信用卡公司可以使用大数据分析来检测信用卡盗刷行为;保险公司可以使用大数据分析来评估保险索赔的风险。
二、数据挖掘在统计学中的应用数据挖掘是指从大量数据中提取隐含信息和知识的过程。
在统计学中,数据挖掘可以帮助发现数据背后的模式和规律,从而为决策制定和问题解决提供支持。
以下是数据挖掘在统计学中的一些应用:1. 聚类分析:通过对大量数据进行聚类,数据挖掘可以将相似的对象归类在一起。
这对于市场细分和客户分群非常有用,可以帮助企业更好地理解其目标消费群体。
2. 关联规则挖掘:数据挖掘可以帮助发现数据集中的关联规则。
例如,在超市购物数据中,数据挖掘可以发现购买某种商品的人更有可能购买其他种类的商品,从而帮助超市进行商品搭配和促销策略。
3. 预测建模:数据挖掘可以通过建立数学模型来预测未来事件的发生概率。
数据分析的统计分析与数据挖掘
数据分析的统计分析与数据挖掘在当今数字化的时代,数据已经成为了一种极其宝贵的资源。
企业和组织通过收集、整理和分析大量的数据,以获取有价值的信息,从而做出更明智的决策。
在数据分析领域,统计分析和数据挖掘是两个重要的方法,它们各自有着独特的特点和应用场景。
统计分析是一种经典的数据分析方法,它基于概率论和数理统计的理论,通过对数据的描述、概括和推断,来揭示数据中的规律和关系。
统计分析通常包括数据的收集、整理、描述性统计、假设检验、方差分析、回归分析等内容。
描述性统计是统计分析的基础,它通过计算均值、中位数、众数、标准差等指标,来概括数据的集中趋势和离散程度。
例如,我们想了解某个班级学生的数学成绩情况,通过计算平均成绩可以知道整体的水平,而标准差则能反映成绩的分散程度。
假设检验则是用于判断某个关于总体的假设是否成立。
比如,我们假设一种新的教学方法能够提高学生的成绩,通过收集数据并进行假设检验,可以验证这个假设是否有统计学上的显著差异。
回归分析用于研究变量之间的线性或非线性关系。
例如,通过分析房价和房屋面积、地理位置等因素之间的关系,建立回归模型,从而预测房价。
数据挖掘则是一种相对较新的技术,它侧重于从大量的数据中自动发现潜在的模式、趋势和关系。
数据挖掘的方法包括分类、聚类、关联规则挖掘、预测等。
分类算法可以将数据分为不同的类别。
比如,在信用评估中,根据客户的各种信息,将其分为信用良好和信用不良两类。
常见的分类算法有决策树、朴素贝叶斯、支持向量机等。
聚类是将相似的数据点归为一组。
例如,将客户按照消费行为聚类,以便企业针对不同的客户群体制定营销策略。
关联规则挖掘用于发现数据中不同项之间的关联关系。
比如,在超市购物数据中,发现购买面包的顾客往往也会购买牛奶。
预测则是根据历史数据对未来的情况进行估计。
比如,预测股票价格的走势。
统计分析和数据挖掘虽然有所不同,但它们并不是相互排斥的,而是相互补充的。
统计分析更注重于对数据的理论解释和验证,强调数据的随机性和不确定性。
数据仓库与数据挖掘教程(第2版)陈文伟版课后习题答案(非常全)
第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
数据挖掘应用于人口统计学中
数据挖掘应用于人口统计学中随着科技的快速发展和互联网的普及,数据已成为人类社会中不可或缺的部分。
而数据挖掘技术则是快速提取和分析大量数据的一种有效工具,被广泛应用于人口统计学领域中。
在人口统计学中,数据挖掘技术可以帮助我们了解人口结构、变化趋势以及不同人群的特征,为政府和企业的决策提供有力支持。
以下将从不同的角度来探讨数据挖掘在人口统计学中的应用。
一、人口结构分析人口结构是指某一地区或某一国家的不同年龄、性别、族群、职业等因素构成的比例。
人口结构分析可以帮助政府和企业了解人口分布情况,制定合理的政策和销售策略。
数据挖掘技术可以对已有的大量人口数据进行处理,提取其中的关键信息。
例如,可以通过对不同年龄段的人口数量进行比较,了解某一地区不同年龄段的人口占比,从而为政策的制定提供数据支持。
又如,可以通过对不同职业人群的数量进行分析,帮助企业了解不同职业人群的购买力和消费习惯,从而为产品的推广和销售提供指导。
二、人口变化趋势分析人口变化趋势分析是指通过对历史数据进行统计和分析,预测未来人口发展趋势。
这种数据分析可以帮助政府和企业规划未来的发展方向和战略。
数据挖掘技术可以利用历史数据进行模型预测,从而预测未来人口变化趋势。
例如,可以通过对某一地区的人口数量进行分析,了解该地区的人口增长率,从而预测未来该地区的人口数量。
又如,可以通过对不同年龄段的人口数量变化进行分析,预测未来不同年龄段人口的占比,从而帮助政府和企业规划未来的公共服务和消费市场。
三、人口特征分析人口特征分析是指通过对不同人群的性别、年龄、教育程度、收入等因素进行分析,了解他们的行为特点和消费习惯。
这种数据分析可以帮助企业精准定位市场并开展针对性营销活动。
数据挖掘技术可以从大量数据中提取不同人群的特点。
例如,可以通过对某一城市的住房租赁价格进行分析,了解年轻人租房的情况,以及不同年龄段、不同收入的人群在租房方面的消费习惯。
又如,可以通过对某一地区的网络购物数据进行分析,了解消费者的购买行为和消费习惯,从而帮助企业制定精准的营销计划。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学和数据挖掘区别数据分析微信公众号datadw——关注你想了解的,分享你需要的。
1.简介统计学和数据挖掘有着共同的目标:发现数据中的结构。
事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。
这是一个不切合实际的看法。
因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
统计学和数据挖掘研究目标的重迭自然导致了迷惑。
事实上,有时候还导致了反感。
统计学有着正统的理论基础(尤其是经过本世纪的发展),而现在又出现了一个新的学科,有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。
这必然会引起关注。
更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。
把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实”,以及找出枯燥的大量数据背后的有意义的信息。
当然,统计学的现代的含义已经有很大不同的事实。
而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用)。
本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。
首先,我们注意到“数据挖掘”对统计学家来说并不陌生。
例如,Everitt定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的”。
统计学家因而会忽略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。
尽管如此,事实上大量的数据可能包含不可预测的但很有价值的结构。
而这恰恰引起了注意,也是当前数据挖掘的任务。
2.统计学的性质试图为统计学下一个太宽泛的定义是没有意义的。
尽管可能做到,但会引来很多异议。
相反,我要关注统计学不同于数据挖掘的特性。
差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种趋势是越来越精确。
当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。
但是如果过度的话则是有害的。
这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的。
尽管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。
数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验。
这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。
统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。
数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度。
这并不意味着数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。
正是统计文献显示了(或夸大了)统计的数学精确性。
同时还显示了其对推理的侧重。
尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。
当然这也常常是数据挖掘所关注的。
下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。
这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。
然而,数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。
在这种情形下,推断就没有价值了(例如,年度业务的平均值),因为观测到的值也就是估计参数。
这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于0,则会从模型中剔除掉),但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。
在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。
事实是,常常所关注的是模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。
例如,在寻找规则时常常会利用吻合度的单纯特性(例如,应用分支定理)。
但当我们应用概率陈述时则不会得到这些特性。
统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型”。
或许“模型”这个术语更多的含义是变化。
一方面,统计学模型是基于分析变量间的联系,但另一方面这些模型关于数据的总体描述确实没有道理的。
关于信用卡业务的回归模型可能会把收入作为一个独立的变量,因为一般认为高收入会导致大的业务。
这可能是一个理论模型(尽管基于一个不牢靠的理论)。
与此相反,只需在一些可能具有解释意义的变量基础上进行逐步的搜索,从而获得一个有很大预测价值的模型,尽管不能作出合理的解释。
(通过数据挖掘去发现一个模型的时候,常常关注的就是后者)。
还有其它方法可以区分统计模型,但在这里我将不作探讨。
这里我想关注的是,现代统计学是以模型为主的。
而计算,模型选择条件是次要的,只是如何建立一个好的模型。
但在数据挖掘中,却不完全是如此。
在数据挖掘中,准则起了核心的作用。
(当然在统计学中有一些以准则为中心的独立的特例。
Gifi的关于学校的非线性多变量分析就是其中之一。
例如,Gifi说,给定一些最常用的MVA (多变量分析)问题,既可以从模型出发也可以技术出发。
正如我们已经在1.1节所看到的基于模型的经典的多变量统计分析,……然而,在很多情形下,模型的选择并不都是显而易见的,选择一个合适的模型是不可能的,最合适的计算方法也是不可行的。
在这种情形下,我们从另外一个角度出发,应用设计的一系列技术来回答MVA问题,暂不考虑模型和最优判别的选择。
相对于统计学而言,准则在数据挖掘中起着更为核心的作用并不奇怪,数据挖掘所继承的学科如计算机科学及相关学科也是如此。
数据集的规模常常意味着传统的统计学准则不适合数据挖掘问题,不得不重新设计。
部分地,当数据点被逐一应用以更新估计量,适应性和连续性的准则常常是必须的。
尽管一些统计学的准则已经得到发展,但更多的应用是机器学习。
(正如“学习”所示的那样)很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。
这说明数据挖掘过程本质上是实验性的。
这和确定性的分析是不同的。
(实际上,一个人是不能完全确定一个理论的,只能提供证据和不确定的证据。
)确定性分析着眼于最适合的模型-建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。
很多,或许是大部分统计分析提出的是确定性的分析。
然而,实验性的数据分析对于统计学并不是新生事务,或许这是统计学家应该考虑作为统计学的另一个基石,而这已经是数据挖掘的基石。
所有这些都是正确的,但事实上,数据挖掘所遇到的数据集按统计标准来看都是巨大的。
在这种情况下,统计工具可能会失效:百万个偶然因素可能就会使其失效。
如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的问题之前,如何很好的搜集数据,例如实验设计和调查设计。
数据挖掘本质上假想数据已经被搜集好,关注的只是如何发现其中的秘密。
3.数据挖掘的性质由于统计学基础的建立在计算机的发明和发展之前,所以常用的统计学工具包含很多可以手工实现的方法。
因此,对于很多统计学家来说,1000个数据就已经是很大的了。
但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或AT&T每天200,000,000个长途呼叫来说相差太远了。
很明显,面对这么多的数据,则需要设计不同于那些“原则上可以用手工实现”的方法。
这意味这计算机(正是计算机使得大数据可能实现)对于数据的分析和处理是关键的。
分析者直接处理数据将变得不可行。
相反,计算机在分析者和数据之间起到了必要的过滤的作用。
这也是数据挖掘特别注重准则的另一原因。
尽管有必要,把分析者和数据分离开很明显导致了一些关联任务。
这里就有一个真正的危险:非预期的模式可能会误导分析者,这一点我下面会讨论。
我不认为在现代统计中计算机不是一个重要的工具。
它们确实是,并不是因为数据的规模。
对数据的精确分析方法如bootstrap方法、随机测试,迭代估计方法以及比较适合的复杂的模型正是有了计算机才是可能的。
计算机已经使得传统统计模型的视野大大的扩展了,还促进了新工具的飞速发展。
下面来关注一下歪曲数据的非预期的模式出现的可能性。
这和数据质量相关。
所有数据分析的结论依赖于数据质量。
GIGO的意思是垃圾进,垃圾出,它的引用到处可见。
一个数据分析者,无论他多聪明,也不可能从垃圾中发现宝石。
对于大的数据集,尤其是要发现精细的小型或偏离常规的模型的时候,这个问题尤其突出。
当一个人在寻找百万分之一的模型的时候,第二个小数位的偏离就会起作用。
一个经验丰富的人对于此类最常见的问题会比较警觉,但出错的可能性太多了。
此类问题可能在两个层次上产生。
第一个是微观层次,即个人记录。
例如,特殊的属性可能丢失或输错了。
我知道一个案例,由于挖掘者不知道,丢失的数据被记录为99而作为真实的数据处理。
第二个是宏观层次,整个数据集被一些选择机制所歪曲。
交通事故为此提供了一个好的示例。
越严重的、致命的事故,其记录越精确,但小的或没有伤害的事故的记录却没有那么精确。
事实上,很高比例的数据根本没有记录。
这就造成了一个歪曲的映象-可能会导致错误的结论。
统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。
例如,银行事务每天都会发生,没有人能等三个月得到一个可能的欺诈的分析。
类似的问题发生在总体随时间变化的情形。
我的研究组有明确的例子显示银行债务的申请随时间、竞争环境、经济波动而变化。
至此,我们已经论述了数据分析的问题,说明了数据挖掘和统计学的差异,尽管有一定的重迭。
但是,数据挖掘者也不可持完全非统计的观点。
首先来看一个例子:获得数据的问题。
统计学家往往把数据看成一个按变量交叉分类的平面表,存储于计算机等待分析。
如果数据量较小,可以读到内存,但在许多数据挖掘问题中这是不可能的。
更糟糕的是,大量的数据常常分布在不同的计算机上。
或许极端的是,数据分布在全球互联网上。
此类问题使得获得一个简单的样本不大可能。
(先不管分析“整个数据集”的可能性,如果数据是不断变化的这一概念可能是不存在的,例如电话呼叫)当描述数据挖掘技术的时候,我发现依据以建立模型还是模式发现为目的可以很方便的区分两类常见的工具。
我已经提到了模型概念在统计学中的核心作用。
在建立模型的时候,尽量要概括所有的数据,以及识别、描述分布的形状。
这样的“全”模型的例子如对一系列数据的聚类分析,回归预测模型,以及基于树的分类法则。
相反,在模式发现中,则是尽量识别小的(但不一定不重要)偏差,发现行为的异常模式。
例如EEG轨迹中的零星波形、信用卡使用中的异常消费模式,以及不同于其它特征的对象。
很多时候,这第二种实验是数据挖掘的本质-试图发现渣滓中的金块。
然而,第一类实验也是重要的。
当关注的是全局模型的建立的话,样本是可取的(可以基于一个十万大小的样本发现重要的特性,这和基于一个千万大小的样本是等效的,尽管这部分的取决于我们想法的模型的特征。