互联网-数据挖掘基本概念
数据挖掘导论

数据挖掘导论数据挖掘是一种通过从大量数据中发现模式、关联和趋势来提取实用信息的过程。
它涉及使用计算机技术和统计学方法来分析和解释数据,以便从中获取有关未来趋势和行为的洞察力。
在本文中,我们将介绍数据挖掘的基本概念、技术和应用。
1. 数据挖掘的基本概念数据挖掘是从大量数据中提取实用信息的过程。
它主要包括以下几个方面的内容:1.1 数据预处理数据预处理是数据挖掘的第一步,它涉及数据清洗、数据集成、数据变换和数据规约。
数据清洗是指处理数据中的噪声和缺失值,以确保数据的质量。
数据集成是将来自不同数据源的数据合并到一个统一的数据集中。
数据变换是将数据转换为适合进行挖掘的形式,例如将数据编码为数值型。
数据规约是通过减少数据集的大小来提高挖掘效率。
1.2 数据挖掘技术数据挖掘技术包括分类、聚类、关联规则挖掘和异常检测等。
分类是将数据分为不同的类别,例如将客户分为高价值和低价值客户。
聚类是将数据分为相似的组,例如将顾客分为不同的市场细分。
关联规则挖掘是发现数据中的相关关系,例如购买某种商品的人也会购买另一种商品。
异常检测是发现数据中的异常值,例如检测信用卡欺诈行为。
1.3 模型评估和选择在数据挖掘过程中,需要评估和选择不同的模型来解释数据。
常用的评估指标包括准确率、召回率和F1值等。
准确率是指分类模型预测正确的样本比例,召回率是指分类模型正确预测为正类的样本比例,F1值是准确率和召回率的调和平均值。
2. 数据挖掘的应用领域数据挖掘在各个领域都有广泛的应用,以下是一些常见的应用领域:2.1 金融领域在金融领域,数据挖掘可以用于信用评分、风险管理和欺诈检测等。
通过分析客户的历史交易数据和个人信息,可以预测客户的信用风险,并为银行和金融机构提供决策支持。
2.2 零售领域在零售领域,数据挖掘可以用于市场细分、商品推荐和销售预测等。
通过分析顾客的购买历史和偏好,可以将顾客分为不同的市场细分,并向他们推荐适合的商品。
同时,数据挖掘还可以预测销售量,匡助零售商合理安排库存和采购计划。
数据挖掘的基本概念与方法

数据挖掘的基本概念与方法数据挖掘是一种从大量数据中发现模式、提取知识的过程。
随着信息技术的飞速发展,各行各业都积累了海量的数据资源,但如何从中发现有用的信息成为了一项重要任务。
数据挖掘通过运用统计学、机器学习和数据库技术等手段,帮助人们从数据中挖掘出有用的信息并为决策提供参考。
数据挖掘的基本概念1. 数据源:数据挖掘的第一步是确定数据源。
数据可以来自于各种渠道,如企业的数据库、互联网上的数据、传感器采集的数据等。
2. 数据清洗:数据清洗是为了提高数据质量,包括删除重复数据、处理缺失值、处理异常值等。
清洗后的数据更有利于挖掘有用的信息。
3. 特征选择:在数据挖掘过程中,特征选择是非常重要的一步。
通过选择和提取与挖掘目标相关的特征,可以减少维度灾难,提高模型的准确性和效率。
4. 模型构建:在选择好特征后,需要构建合适的模型来完成挖掘任务。
常用的模型有分类模型、聚类模型、关联规则模型等。
5. 模型评估:模型评估是检验模型质量的重要步骤,可以通过交叉验证、混淆矩阵等方法进行评估。
评估结果可以帮助我们进一步优化模型。
数据挖掘的基本方法1. 关联规则挖掘:通过挖掘数据中的项集之间的关联关系,找到频繁项集和关联规则。
例如,在超市购物数据中,可以发现“尿布”和“啤酒”之间存在关联,进而为超市的陈设和促销策略提供一定的依据。
2. 分类:通过训练分类器,将新的数据样本分到已知类别中。
分类可以应用于很多领域,如医学诊断、垃圾邮件过滤等。
3. 聚类:聚类是将数据划分成若干互不重叠的类别,类别内的数据相似度较高,类别间的数据相似度较低。
聚类可以用于市场细分、推荐系统等。
4. 预测:基于现有的数据模型,对未知数据进行预测。
预测可以帮助机构制定未来发展策略,如金融行业的违约预测等。
5. 异常检测:通过对数据进行异常值的判断和识别,找出潜在的异常行为。
异常检测可以应用于网络安全、诈骗检测等。
总结:数据挖掘作为一项重要的技术手段,已经广泛应用于各行各业。
数据挖掘基础

数据挖掘基础一、数据挖掘的概念和基本流程数据挖掘是指从大量数据中提取出有价值的信息和知识的过程,是一种自动化的发现模式和规律的方法。
其基本流程包括:数据预处理、特征选择、建立模型、模型评估和应用。
二、数据预处理1. 数据清洗:去除重复值、缺失值和异常值等。
2. 数据集成:将多个数据源中的数据合并成一个整体。
3. 数据变换:对原始数据进行转换,如归一化、离散化等。
4. 数据规约:对原始数据进行压缩,如抽样等。
三、特征选择特征选择是指从原始特征中选取一部分对分类或回归有用的特征。
其目的是减少维度,提高模型效率和精度。
四、建立模型建立模型是指根据已选取的特征,使用各种算法构建分类或回归模型。
常用算法包括决策树、神经网络、支持向量机等。
五、模型评估模型评估是指通过交叉验证等方法对建立好的模型进行评估,以确定其预测效果是否良好。
六、应用应用是指将建立好的模型应用到实际问题中,进行预测和决策。
七、数据挖掘的应用领域1. 金融:如信用评估、风险管理等。
2. 医疗:如疾病预测、药物研发等。
3. 零售业:如销售预测、客户细分等。
4. 航空航天:如飞机维修优化、航班调度等。
5. 电信业:如用户行为分析、网络优化等。
八、数据挖掘的常用算法1. 决策树算法:通过对数据进行分类和回归,构建决策树模型,可用于分类和预测。
2. 神经网络算法:通过模拟人类神经系统,构建神经网络模型,可用于分类和预测。
3. 支持向量机算法:通过寻找最大间隔超平面,构建支持向量机模型,可用于分类和回归。
4. 聚类算法:将数据分成若干个类别,常见的聚类算法包括K-Means 和层次聚类等。
5. 关联规则挖掘算法:通过寻找频繁项集和关联规则,发现数据中隐藏的关联关系。
九、数据挖掘的发展趋势1. 大数据时代:随着数据量的增加,数据挖掘将更加重要。
2. 人工智能:机器学习和深度学习等技术将广泛应用于数据挖掘中。
3. 可视化分析:通过可视化技术,更好地呈现和理解数据。
数据挖掘基础 数据挖掘概念ppt课件

层次聚类树树状图
A
B
C
D
E
1.1 数据挖掘概述
1.1.2 数据挖掘常用算法概述
第一章 数据挖掘概念
在面对海量数据时,需要使用一定的算法,才能从中挖掘出有用的信息,下面介绍数 据挖掘中常用的算法。
1. 分类算法 (1) 决策树算法 决策树算法是一种典型的分类算法,首先利用已知分类的数据构造决策树,然后利用 测试数据集对决策树进行剪枝,每个决策树的叶子都是一种分类,最后利用形成的 决策树对数据进行分类。决策树的典型算法有ID3,C4.5,CART等。
1.1 数据挖掘概述
1.1.3 数据挖掘常用工具概述
第一章 数据挖掘概念
2. Clementine(SPSS) 软件 Clementine是SPSS所发行的一种资料探勘工具,集成了分类、聚类和关联规则
等算法,Clementine提供了可视化工具,方便用户操作。其通过一系列节点来执行 挖掘过程,这一过程被称作一个数据流,数据流上面的节点代表了要执行的操作。 Clementine的资料可视化能力包含散布图、平面图及Web分析。
1.1 数据挖掘概述
第一章 数据挖掘概念
1.1.3 数据挖掘常用工具概述
1. Weka软件
Weka(Waikato Environment for Knowledge Analysis)的全名是怀卡托智能 分析环境,是一款免费与非商业化的数据挖掘软件,基于Java环境下开源的机器学 习与数据挖掘软件。Weka的源代码可在其官方网站下载。它集成了大量数据挖掘算 法,包括数据预处理、分类、聚类、关联分析等。用户既可以使用可视化界面进行 操作,也可以使用Weka提供的接口,实现自己的数据挖掘算法。图形用户界面包括 Weka Knowledge Flow Environment和Weka Explorer。用户也可以使用Java语 言调用Weka提供的类库实现数据挖掘算法,这些类库存在于weka.jar中。
理解数据挖掘的基本概念与方法

理解数据挖掘的基本概念与方法数据挖掘是一种从大量数据中自动探索和提取有用信息的技术。
随着计算机科学和数学领域的快速发展,数据挖掘已成为当今最受欢迎和流行的技术之一。
本文将探讨数据挖掘的基本概念和方法,以及它对现代社会和商业的影响。
一、数据挖掘的基本概念数据挖掘是一种从大量数据中提取有用信息的技术。
数据挖掘的目的是利用统计学、人工智能、机器学习、数据库和数据可视化等技术,探索大量数据中存在的隐藏模式和关系。
数据挖掘可以帮助人们预测未来事件,发现商业机会和优化业务流程。
数据挖掘的核心是提取数据的知识价值,为商业决策提供必要的支持。
数据挖掘的基本流程包括数据采集、数据预处理、特征选择、特征提取、数据建模和模型评估。
在数据采集的过程中,数据挖掘技术需要收集大量的数据,以便对数据进行后续处理。
数据预处理是数据挖掘的第一步,主要是对数据进行清洗、转换和规范化处理。
特征选择是确定哪些数据特征对于模型的构建是重要的。
特征提取是将原始数据转换为可用于建模的新特征。
数据建模是将转换后的数据送入模型中进行建模。
模型评估是对模型性能进行测试和评估。
二、数据挖掘的基本方法1.关联规则挖掘关联规则挖掘是数据挖掘中的一种方法,它是通过发现数据项之间的相关性来提取知识。
关联规则是指两种或更多种数据项之间的关系,如“A和B”或“C和D”。
该方法可以帮助人们了解哪些商品或服务经常一起购买,从而促进相关业务的发展。
2.聚类分析聚类分析是一种无监督学习方法,它基于数据项之间的相似性将数据项分为不同的类。
该方法适用于研究人们之间的行为、社交网络、疾病预测和市场营销等方面。
3.分类和回归分析分类和回归分析是一种监督学习方法,它基于已知的标签或输出值来预测新输入数据的标签或输出值。
该方法主要用于疾病诊断、图像识别、天气预测和股票市场预测。
4.决策树决策树是一种计算机科学和数学领域的基本算法,它是一种可视化的数据结构,用于表示基于特征集的决策规则。
数据挖掘导论

数据挖掘导论数据挖掘是一种通过分析大量数据来发现隐藏在其中模式、关联和趋势的过程。
它结合了统计学、机器学习和数据库技术,旨在从大数据集合中提取有价值的信息。
在本文中,我们将介绍数据挖掘的基本概念、方法和应用,并探讨其在不同领域的应用。
一、数据挖掘的基本概念1.1 数据挖掘的定义数据挖掘是指从大量数据中发现、提取、分析和解释潜在的、有价值的模式、关联和趋势的过程。
它可以帮助人们发现隐藏在数据中的规律,从而做出更准确的预测和决策。
1.2 数据挖掘的过程数据挖掘的过程通常包括以下几个步骤:(1)问题定义:明确挖掘的目标和需求。
(2)数据采集:收集和获取相关数据。
(3)数据预处理:清洗、集成、转换和规范化数据。
(4)特征选择:从原始数据中选择最具代表性的特征。
(5)模型构建:选择合适的模型和算法进行建模。
(6)模型评估:评估模型的性能和准确度。
(7)模型优化:对模型进行调优和改进。
(8)模型应用:将模型应用于实际问题中,得出有价值的结论。
1.3 数据挖掘的方法数据挖掘的方法包括:(1)分类:将数据分为不同的类别或标签。
(2)聚类:将数据分为相似的组别。
(3)关联规则挖掘:发现数据中的关联关系。
(4)预测:根据已有数据预测未来的趋势和结果。
(5)异常检测:发现数据中的异常或离群值。
二、数据挖掘的应用2.1 金融领域数据挖掘在金融领域的应用非常广泛。
它可以帮助银行和金融机构进行信用评估、风险管理和欺诈检测。
通过分析客户的历史交易数据和个人信息,可以预测客户的信用风险,并及时采取相应的措施。
2.2 零售业数据挖掘在零售业中的应用也非常重要。
通过分析顾客的购买历史和行为模式,可以进行个性化推荐和定价策略。
此外,数据挖掘还可以帮助零售商预测销售趋势,优化库存管理和供应链。
2.3 健康医疗数据挖掘在健康医疗领域的应用越来越多。
通过分析患者的病历数据和基因组数据,可以预测疾病的风险和治疗效果。
此外,数据挖掘还可以帮助医院进行资源调配和病例分析。
数据挖掘简介与基本概念

数据挖掘简介与基本概念随着科技的发展和互联网的普及,我们生活在一个数据爆炸的时代。
海量的数据被不断产生和积累,如何从这些数据中提取有价值的信息成为了一个重要的课题。
而数据挖掘作为一种重要的数据分析技术,应运而生。
本文将介绍数据挖掘的基本概念和应用。
一、什么是数据挖掘?数据挖掘是一门通过自动或半自动的方式,从大规模数据集中发现模式、关联、规律和趋势的过程。
它是一种将统计学、机器学习和数据库技术相结合的跨学科领域。
数据挖掘的目标是通过对数据进行分析和建模,发现隐藏在数据中的知识和信息,以支持决策和预测。
二、数据挖掘的基本概念1. 数据预处理数据预处理是数据挖掘的第一步,它包括数据清洗、数据集成、数据转换和数据规约等过程。
数据清洗是指对数据中的噪声、异常值和缺失值进行处理,以保证数据的质量和完整性。
数据集成是将多个数据源中的数据合并成一个一致的数据集。
数据转换是将数据从一个形式转换为另一个形式,以适应数据挖掘算法的需求。
数据规约是通过选择、抽样或聚集等方法,减少数据集的规模,降低计算复杂度。
2. 数据挖掘算法数据挖掘算法是实现数据挖掘目标的关键。
常见的数据挖掘算法包括分类算法、聚类算法、关联规则挖掘算法和异常检测算法等。
分类算法用于将数据集中的样本划分为不同的类别,如决策树、朴素贝叶斯和支持向量机等。
聚类算法将数据集中的样本划分为不同的簇,如K均值和层次聚类等。
关联规则挖掘算法用于发现数据集中的项集之间的关联关系,如Apriori算法和FP-growth算法等。
异常检测算法用于发现数据集中的异常样本,如LOF算法和孤立森林算法等。
3. 模型评估与选择模型评估与选择是数据挖掘的重要环节。
它通过使用一些评估指标,如准确率、召回率和F1值等,对挖掘模型的性能进行评估。
同时,还需要考虑模型的复杂度、可解释性和适应性等因素,选择最合适的模型。
三、数据挖掘的应用数据挖掘在各个领域都有广泛的应用。
以下是几个典型的应用领域:1. 金融领域数据挖掘在金融领域中被广泛应用于信用评估、风险管理和欺诈检测等方面。
数据挖掘的基本概念与应用领域

数据挖掘的基本概念与应用领域数据挖掘是指从大量的数据中自动发现有用的模式和知识的一种技术。
它是计算机科学、统计学和人工智能的交叉学科,通过使用统计学、机器学习和信息检索等方法,从数据中提取出隐藏的模式和关系,用于预测和决策支持。
数据挖掘的应用领域广泛,包括商业、医疗、金融、社交媒体等,它在各行各业中发挥着重要的作用。
首先,数据挖掘在商业领域具有广泛的应用。
商业领域中涉及大量的交易数据、用户行为数据等,通过数据挖掘可以挖掘出消费者的购买偏好、营销活动的效果等。
例如,通过分析用户的购买历史,可以推荐相关的产品,提高销售额;通过分析用户的浏览行为,可以个性化推送广告,提高点击率。
数据挖掘可以帮助企业发现隐藏在数据背后的商机,优化决策和业务流程,提高市场竞争力。
其次,数据挖掘在医疗领域也发挥着重要的作用。
医疗领域中积累了大量的病历数据、医疗影像数据等,通过数据挖掘可以帮助医生提高诊断效果和治疗效果。
例如,通过对患者病历的挖掘,可以发现患某种疾病的患者的共同特征,从而更准确地判断新患者是否患有该疾病;通过对医疗影像数据的挖掘,可以辅助医生检测病变和评估病情。
数据挖掘可以帮助医疗机构提高诊断准确性、减少误诊和漏诊,提高医疗水平。
此外,数据挖掘在金融领域的应用也非常广泛。
金融领域中涉及大量的交易数据、市场数据等,通过数据挖掘可以挖掘出市场趋势、风险模型等。
例如,通过分析股票市场的历史数据,可以预测股价的涨跌趋势,为投资者提供决策参考;通过分析借贷行为的数据,可以构建风险模型,帮助金融机构评估借款人的信用风险。
数据挖掘可以帮助金融机构更好地管理风险、提高投资回报率。
最后,数据挖掘在社交媒体领域也有着广泛的应用。
随着社交媒体的普及,用户在社交媒体上产生了大量的文本、图片等数据,通过数据挖掘可以挖掘出用户的兴趣、情感等。
例如,通过分析用户在社交媒体上的言论,可以了解用户的兴趣爱好,为用户个性化推荐内容;通过分析用户的情感表达,可以判断用户对某个产品或事件的态度,帮助企业进行舆情监测。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【最新资料,Word版,可自由编辑!】科中的不同理解。
接着介绍邦弗朗尼原理(Bonferroni’sprinciple),该原理实际上对数据挖掘的过度使用提出了警告。
本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数据挖掘中的某些重要概念。
这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e的恒等式等。
最后,简要介绍了后续章节所要涉及的主题。
1.1数据挖掘的定义最广为接受的定义是,数据挖掘(datamining)是数据“模型”的发现过程。
而“模型”却可以有多种含义。
下面介绍在建模方面最重要的几个方向。
1.1.1统计建模最早使用“datamining”术语的人是统计学家。
术语“datamining”或者“datadredging”最初是贬义词,意指试图抽取出数据本身不支持的信息的过程。
1.2节给出了这种挖掘情况下可能犯的几类错误。
当然,现在术语“datamining”的意义已经是正面的了。
目前,统计学家认为数据挖掘就是统计模型(statisticalmodel)的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。
例1.1假定现有的数据是一系列数字。
这种数据相对于常用的挖掘数据而言显得过于简单,但这只是为了说明问题而采用的例子。
统计学家可能会判定这些数字来自一个高斯分布(即正态分布),并利用公式来计算该分布最有可能的参数值。
该高斯分布的均值和标准差能够完整地刻画整个分布,因而成为上述数据的一个模型。
1.1.2机器学习有些人将数据挖掘看成是机器学习的同义词。
毫无疑问,一些数据挖掘方法中适当使用了机器学习算法。
机器学习的实践者将数据当成训练集来训练某类算法,比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。
某些场景下上述的数据利用方式是合理的。
机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。
比如,我们并不清楚到底是影片的什么因素导致某些观众喜欢或者厌恶该影片。
因此,在Netflix竞赛要求设计一个算法来预测观众对影片的评分时,基于已有评分样本的机器学习算法获得了巨大成功。
在9.4节中,我们将讨论此类算法的一个简单形式。
另一方面,当挖掘的目标能够更直接地描述时,机器学习方法并不成功。
一个有趣的例子是,WhizBang!实验室1曾试图使用机器学习方法在Web上定位人们的简历。
但是不管使用什么机器学习算法,最后的效果都比不过人工设计的直接通过典型关键词和短语来查找简历的算法。
由于看过或者写过简历的人都对简历包含哪些内容非常清楚,Web页面是否包含简历毫无秘密可言。
因此,使用机器学习方法相对于直接设计的简历发现算法而言并无任何优势。
1.1.3建模的计算方法近年来,计算机科学家已将数据挖掘看成一个算法问题。
这种情况下,数据模型仅仅就是复杂查询的答案。
例如,给定例1.1中的一系列数字,我们可以计算它们的均值和标准差。
需要注意的是,这样计算出的参数可能并不是这组数据的最佳高斯分布拟合参数,尽管在数据集规模很大时两者非常接近。
数据建模有很多不同的方法。
前面我们已经提到,数据可以通过其生成所可能遵从的统计过程构建来建模。
而其他的大部分数据建模方法可以描述为下列两种做法之一:(1)对数据进行简洁的近似汇总描述;(2)从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。
在接下来的内容中,我们将探究上述两种做法。
1.1.4数据汇总一种最有趣的数据汇总形式是PageRank,它也是使谷歌成功的关键算法之一,我们将在第5章对它进行详细介绍。
在这种形式的Web挖掘当中,Web的整个复杂结构可由每个页面所对应的一个数字归纳而成。
这种数字就是网页的PageRank值,即一个Web结构上的随机游走者在任意给定时刻处于该页的概率(这是极其简化的一种说法)。
PageRank的一个非常好的特性就是它能够很好地反映网页的重要性,即典型用户在搜索时期望返回某个页面的程度。
另一种重要的数据汇总形式是聚类,第7章将予以介绍。
在聚类中,数据被看成是多维空间下的点,空间中相互邻近的点将被赋予相同的类别。
这些类别本身也会被概括表示,比如通过类别质心及类别中的点到质心的平均距离来描述。
这些类别的概括信息综合在一起形成了全体数据集合的数据汇总结果。
例1.2一个利用聚类来解决问题的着名实例发生在很久以前的伦敦,在整个问题的解决中并没有使用计算机2。
内科医生JohnSnow在处理霍乱爆发时在城市地图上标出了病例的发生地点。
图1-1给出了该图的一个小片段,展示了病例的传播情况。
图1-1 在伦敦市地图上标出的霍乱病例的传播情况示意图1 该初创实验室试图使用机器学习方法来进行大规模数据挖掘,并且雇用了大批机器学习高手来实现这一点。
遗憾的是,该实验室并没有能够生存下来。
图中显示,病例聚集在某些交叉路口。
这些路口的水井已经被污染,离这些水井最近的居民染上了疾病,而清洁的水井附近的居民则没有染病。
如果没对这些数据进行聚类,霍乱的病因就难以揭开。
1.1.5特征抽取典型的基于特征的模型会从数据中寻找某个现象的最极端样例,并使用这些样例来表示数据。
熟悉机器学习的一个分支——贝叶斯网络(并不在本书的讨论范围内)的读者应该会知道,在贝叶斯网络中,可以利用寻找对象间的最强统计依赖来表示所有统计关联,从而表示出对象之间的复杂关系。
我们将要介绍大规模数据集下的一些重要的特征抽取类型,它们包括以下两种。
(1)频繁项集(frequentitemset)该模型适用于多个小规模项集组成的数据,就像我们将在第6章讨论的购物篮问题(market-basketproblem)一样。
我们寻找那些在很多购物篮中同时出现的小规模项集,这些频繁项集就是我们要找的刻画数据的特征。
这种挖掘的原始应用的的确确发生在真实的购物篮场景下:在商店或者超市收银台结账的时候确实会发现某些物品会被顾客同时购买,例如汉堡包和番茄酱,这些物品就组成所谓的项集。
(2)相似项(similaritem)很多时候,数据往往看上去相当于一系列集合,我们的目标是寻找那些共同元素比例较高的集合对。
一个例子是将在线商店(如Amazon)的顾客看成是其已购买的商品的集合。
为了使Amazon能够向某顾客推荐他可能感兴趣的其他商品,Amazon可以寻找与该顾客相似的顾客群,并把他们当中大部分人购买过的商品也推荐给他。
该过程称为协同过滤(collaborativefiltering)。
如果顾客的兴趣都很单一,即他们只购买某一类的商品,那么将顾客聚类的方法可能会起作用。
然而,由于顾客大都对许多不同的商品感兴趣,因此对每个顾客而言,寻找兴趣相似的那部分顾客并根据这些关联对数据进行表示的做法会更有用。
我们将在第3章讨论相似性。
1.2数据挖掘的统计限制一类常见的数据挖掘问题涉及在大量数据中发现隐藏的异常事件。
本节主要讨论这个问题,并介绍对数据挖掘的过度使用进行警告的邦弗朗尼原理。
1.2.1整体情报预警2002年,美国布什政府提出了一项针对所有可获得的数据进行挖掘的计划,目的用于追踪恐怖活动,这些数据包括信用卡收据、酒店记录、旅行数据以及许多其他类型的情报。
该计划被称为整体情报预警(TotalInformationAwareness,TIA)。
TIA计划无疑在隐私倡导者当中受到了极大关注,虽然最终它并没有被国会通过,但其实我们并不清楚这种计划是否已被冠以其他名称而得以真正实施。
隐私和安全的折中困难姑且不在本书的讨论目的之列,然而,TIA或类似系统若想进一步发展,在其可行性和所依赖假设的现实性方面还需做更多的技术改进。
很多人关心的是,如果浏览了这么多数据,并且想从这些数据当中发现疑似的恐怖行为,那么难道最终就不会找出很多无辜的行为?乃至虽然非法但不是恐怖行为的行为?这些发现会导致警察的登门造访甚至更糟的情形。
答案取决于所定义行为的严密程度。
统计学家已经发现了该问题的各种伪装形式,并且提出了一个理论。
该理论将在下一节介绍。
1.2.2邦弗朗尼原理假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件。
即使数据完全随机,也可以期望该类型事件会发生。
随着数据规模的增长,这类事件出现的数目也随之上升。
任何随机数据往往都会有一些不同寻常的特征,这些特征看上去虽然很重要,但是实际上并不重要,除此之外,别无他由,从这个意义上说,这些事件的出现纯属“臆造”。
统计学上有一个称为邦弗朗尼校正(Bonferronicorrection)的定理,该定理给出一个在统计上可行的方法来避免在搜索数据时出现的大部分“臆造”正响应。
这里并不打算介绍定理的统计细节,只给出一个非正式的称为邦弗朗尼原理的版本,该原理可以帮助我们避免将随机出现看成真正出现。
在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。
如果该结果显着高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。
上述观察现象是邦弗朗尼原理的非正式阐述。
以寻找恐怖分子为例,可以预期在任何时候都几乎没有恐怖分子在活动。
按照邦弗朗尼原理,只需要寻找那些几乎不可能出现在随机数据中的罕见事件来发现恐怖分子即可。
下一节将给出一个扩展的例子。
1.2.3邦弗朗尼原理的一个例子假设我们确信在某个地方有一群恶人,目标是把他们揪出来。
再假定我们有理由相信,这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。
为限定问题的规模,我们再给出如下假设:(1)恶人数目可能有10亿;(2)每个人每100天当中会有一天去宾馆;(3)一个宾馆最多容纳100个人。
因此,100000个宾馆已足够容纳10亿人中的1%在某个给定的日子入住宾馆;(4)我们将对1000天的宾馆入住记录进行核查。
为了在上述数据中发现恶人的踪迹,我们可以找出那些在两个不同日子入住同一宾馆的人。
但是假设并没有恶人,也就是说,给定某一天,对每个人来说,他们都是随机地确定是否去宾馆(概率为0.01),然后又是随机地从105个宾馆中选择一个。
从上述数据中,我们能否推断出某两个人可能是恶人?接下来我们做个简单的近似计算。
给定某天,任意两个人都决定去宾馆的概率为0.0001,而他们入住同一宾馆的概率应该在0.0001基础上除以105(宾馆的数量)。
因此,在给定某天的情况下,两个人同时入住同一宾馆的概率是10 9。
而在任意给定的不同的两个日子,两人入住同一宾馆的概率就是10?9的平方,即10?18。
需要指出的是,上述推理中只需要两人两次中每次住的宾馆相同即可,并不需要两次都是同一家宾馆3。
基于上述计算,我们必须要考虑到底事件出现多少次才意味着作恶事件的发生。
上例中,“事件”的含义是指“两个人在两天中的每一天入住相同宾馆”。