互联网数据挖掘基本概念

合集下载

数据挖掘导论

数据挖掘导论数据挖掘是一种通过从大量数据中发现模式、关联和趋势来提取实用信息的过程。

它涉及使用计算机技术和统计学方法来分析和解释数据，以便从中获取有关未来趋势和行为的洞察力。

在本文中，我们将介绍数据挖掘的基本概念、技术和应用。

1. 数据挖掘的基本概念数据挖掘是从大量数据中提取实用信息的过程。

它主要包括以下几个方面的内容：1.1 数据预处理数据预处理是数据挖掘的第一步，它涉及数据清洗、数据集成、数据变换和数据规约。

数据清洗是指处理数据中的噪声和缺失值，以确保数据的质量。

数据集成是将来自不同数据源的数据合并到一个统一的数据集中。

数据变换是将数据转换为适合进行挖掘的形式，例如将数据编码为数值型。

数据规约是通过减少数据集的大小来提高挖掘效率。

1.2 数据挖掘技术数据挖掘技术包括分类、聚类、关联规则挖掘和异常检测等。

分类是将数据分为不同的类别，例如将客户分为高价值和低价值客户。

聚类是将数据分为相似的组，例如将顾客分为不同的市场细分。

关联规则挖掘是发现数据中的相关关系，例如购买某种商品的人也会购买另一种商品。

异常检测是发现数据中的异常值，例如检测信用卡欺诈行为。

1.3 模型评估和选择在数据挖掘过程中，需要评估和选择不同的模型来解释数据。

常用的评估指标包括准确率、召回率和F1值等。

准确率是指分类模型预测正确的样本比例，召回率是指分类模型正确预测为正类的样本比例，F1值是准确率和召回率的调和平均值。

2. 数据挖掘的应用领域数据挖掘在各个领域都有广泛的应用，以下是一些常见的应用领域：2.1 金融领域在金融领域，数据挖掘可以用于信用评分、风险管理和欺诈检测等。

通过分析客户的历史交易数据和个人信息，可以预测客户的信用风险，并为银行和金融机构提供决策支持。

2.2 零售领域在零售领域，数据挖掘可以用于市场细分、商品推荐和销售预测等。

通过分析顾客的购买历史和偏好，可以将顾客分为不同的市场细分，并向他们推荐适合的商品。

同时，数据挖掘还可以预测销售量，匡助零售商合理安排库存和采购计划。

数据挖掘的基本概念与方法

数据挖掘的基本概念与方法数据挖掘是一种从大量数据中发现模式、提取知识的过程。

随着信息技术的飞速发展，各行各业都积累了海量的数据资源，但如何从中发现有用的信息成为了一项重要任务。

数据挖掘通过运用统计学、机器学习和数据库技术等手段，帮助人们从数据中挖掘出有用的信息并为决策提供参考。

数据挖掘的基本概念1. 数据源：数据挖掘的第一步是确定数据源。

数据可以来自于各种渠道，如企业的数据库、互联网上的数据、传感器采集的数据等。

2. 数据清洗：数据清洗是为了提高数据质量，包括删除重复数据、处理缺失值、处理异常值等。

清洗后的数据更有利于挖掘有用的信息。

3. 特征选择：在数据挖掘过程中，特征选择是非常重要的一步。

通过选择和提取与挖掘目标相关的特征，可以减少维度灾难，提高模型的准确性和效率。

4. 模型构建：在选择好特征后，需要构建合适的模型来完成挖掘任务。

常用的模型有分类模型、聚类模型、关联规则模型等。

5. 模型评估：模型评估是检验模型质量的重要步骤，可以通过交叉验证、混淆矩阵等方法进行评估。

评估结果可以帮助我们进一步优化模型。

数据挖掘的基本方法1. 关联规则挖掘：通过挖掘数据中的项集之间的关联关系，找到频繁项集和关联规则。

例如，在超市购物数据中，可以发现“尿布”和“啤酒”之间存在关联，进而为超市的陈设和促销策略提供一定的依据。

2. 分类：通过训练分类器，将新的数据样本分到已知类别中。

分类可以应用于很多领域，如医学诊断、垃圾邮件过滤等。

3. 聚类：聚类是将数据划分成若干互不重叠的类别，类别内的数据相似度较高，类别间的数据相似度较低。

聚类可以用于市场细分、推荐系统等。

4. 预测：基于现有的数据模型，对未知数据进行预测。

预测可以帮助机构制定未来发展策略，如金融行业的违约预测等。

5. 异常检测：通过对数据进行异常值的判断和识别，找出潜在的异常行为。

异常检测可以应用于网络安全、诈骗检测等。

总结：数据挖掘作为一项重要的技术手段，已经广泛应用于各行各业。

理解数据挖掘的基本概念与方法

理解数据挖掘的基本概念与方法数据挖掘是一种从大量数据中自动探索和提取有用信息的技术。

随着计算机科学和数学领域的快速发展，数据挖掘已成为当今最受欢迎和流行的技术之一。

本文将探讨数据挖掘的基本概念和方法，以及它对现代社会和商业的影响。

一、数据挖掘的基本概念数据挖掘是一种从大量数据中提取有用信息的技术。

数据挖掘的目的是利用统计学、人工智能、机器学习、数据库和数据可视化等技术，探索大量数据中存在的隐藏模式和关系。

数据挖掘可以帮助人们预测未来事件，发现商业机会和优化业务流程。

数据挖掘的核心是提取数据的知识价值，为商业决策提供必要的支持。

数据挖掘的基本流程包括数据采集、数据预处理、特征选择、特征提取、数据建模和模型评估。

在数据采集的过程中，数据挖掘技术需要收集大量的数据，以便对数据进行后续处理。

数据预处理是数据挖掘的第一步，主要是对数据进行清洗、转换和规范化处理。

特征选择是确定哪些数据特征对于模型的构建是重要的。

特征提取是将原始数据转换为可用于建模的新特征。

数据建模是将转换后的数据送入模型中进行建模。

模型评估是对模型性能进行测试和评估。

二、数据挖掘的基本方法1.关联规则挖掘关联规则挖掘是数据挖掘中的一种方法，它是通过发现数据项之间的相关性来提取知识。

关联规则是指两种或更多种数据项之间的关系，如“A和B”或“C和D”。

该方法可以帮助人们了解哪些商品或服务经常一起购买，从而促进相关业务的发展。

2.聚类分析聚类分析是一种无监督学习方法，它基于数据项之间的相似性将数据项分为不同的类。

该方法适用于研究人们之间的行为、社交网络、疾病预测和市场营销等方面。

3.分类和回归分析分类和回归分析是一种监督学习方法，它基于已知的标签或输出值来预测新输入数据的标签或输出值。

该方法主要用于疾病诊断、图像识别、天气预测和股票市场预测。

4.决策树决策树是一种计算机科学和数学领域的基本算法，它是一种可视化的数据结构，用于表示基于特征集的决策规则。

数据挖掘技术及应用研究

数据挖掘技术及应用研究一、引言数据挖掘技术是指从大量数据中提取出有价值的信息，并利用这些信息进行决策、规划等活动的技术。

它涉及多个学科领域，如数据管理、统计学、机器学习等。

随着信息技术的迅速发展，数据挖掘技术在各行各业得到了广泛的应用。

本文将重点介绍数据挖掘技术的基本概念、主要方法和应用领域。

二、数据挖掘技术的基本概念1. 定义数据挖掘技术是指从大量数据中自动发现隐藏在其中的有价值的信息和知识的一种机器学习技术。

2. 特点数据挖掘技术主要具有以下特点：（1）可处理大规模数据；（2）能够自动发现数据中的关联性和趋势；（3）可以处理复杂的数据类型和结构，例如文本、图像等；（4）能自动学习人类难以发现的知识和模式。

三、数据挖掘技术的主要方法1. 关联规则挖掘关联规则挖掘是指从数据集中发现不同数据项之间的关系。

例如，超市销售数据中发现“啤酒”和“尿布”之间存在关联性，即购买尿布的顾客很有可能同时购买啤酒。

关联规则挖掘主要采用Apriori算法。

2. 分类和聚类分类是指将数据对象划分到不同的预定义类别中。

例如，将客户划分为“高消费”、“中等消费”、“低消费”等。

聚类是指将数据对象划分到若干个不同的组中，具有相似特征的对象被划分到同一组中。

3. 决策树和神经网络决策树和神经网络是两种常用的数据挖掘技术。

决策树是一种树形结构，用于对数据集进行分类或预测。

神经网络是一种模拟人脑构造的模型，能够学习从输入到输出的映射关系。

两种方法都需要大量的数据和计算资源。

四、数据挖掘技术的应用领域1. 金融行业数据挖掘技术在金融业中广泛应用。

例如，银行可以利用数据挖掘技术对客户进行分类，识别高风险客户；保险公司可以通过挖掘历史数据，预测赔付金额和风险等级。

2. 零售业数据挖掘技术可以帮助零售企业更好地了解客户需求和购买习惯，以便实施精准营销和促销策略。

例如，超市可以通过分析销售数据，预测客户对某种新产品的需求程度。

3. 医疗行业数据挖掘技术在医疗行业的应用非常广泛。

数据挖掘简介与基本概念

数据挖掘简介与基本概念随着科技的发展和互联网的普及，我们生活在一个数据爆炸的时代。

海量的数据被不断产生和积累，如何从这些数据中提取有价值的信息成为了一个重要的课题。

而数据挖掘作为一种重要的数据分析技术，应运而生。

本文将介绍数据挖掘的基本概念和应用。

一、什么是数据挖掘？数据挖掘是一门通过自动或半自动的方式，从大规模数据集中发现模式、关联、规律和趋势的过程。

它是一种将统计学、机器学习和数据库技术相结合的跨学科领域。

数据挖掘的目标是通过对数据进行分析和建模，发现隐藏在数据中的知识和信息，以支持决策和预测。

二、数据挖掘的基本概念1. 数据预处理数据预处理是数据挖掘的第一步，它包括数据清洗、数据集成、数据转换和数据规约等过程。

数据清洗是指对数据中的噪声、异常值和缺失值进行处理，以保证数据的质量和完整性。

数据集成是将多个数据源中的数据合并成一个一致的数据集。

数据转换是将数据从一个形式转换为另一个形式，以适应数据挖掘算法的需求。

数据规约是通过选择、抽样或聚集等方法，减少数据集的规模，降低计算复杂度。

2. 数据挖掘算法数据挖掘算法是实现数据挖掘目标的关键。

常见的数据挖掘算法包括分类算法、聚类算法、关联规则挖掘算法和异常检测算法等。

分类算法用于将数据集中的样本划分为不同的类别，如决策树、朴素贝叶斯和支持向量机等。

聚类算法将数据集中的样本划分为不同的簇，如K均值和层次聚类等。

关联规则挖掘算法用于发现数据集中的项集之间的关联关系，如Apriori算法和FP-growth算法等。

异常检测算法用于发现数据集中的异常样本，如LOF算法和孤立森林算法等。

3. 模型评估与选择模型评估与选择是数据挖掘的重要环节。

它通过使用一些评估指标，如准确率、召回率和F1值等，对挖掘模型的性能进行评估。

同时，还需要考虑模型的复杂度、可解释性和适应性等因素，选择最合适的模型。

三、数据挖掘的应用数据挖掘在各个领域都有广泛的应用。

以下是几个典型的应用领域：1. 金融领域数据挖掘在金融领域中被广泛应用于信用评估、风险管理和欺诈检测等方面。

数据挖掘技术的应用与发展

数据挖掘技术的应用与发展近年来，随着信息技术的快速发展，数据的存储、处理和分析的能力得到了极大的提升，从而进一步推动了数据挖掘技术的应用与发展。

数据挖掘技术是一个可以从大量数据中自动提取与发现潜在知识的过程，通过自动化地发掘数据内在的模式和规律，从而为生产、管理和科学研究提供了更有效的方法和手段。

一、数据挖掘技术的基本概念和分类数据挖掘技术的基本概念包括：数据预处理、数据挖掘算法、模型的评价和结果可视化等。

其中，数据预处理是指在数据挖掘过程中对数据集进行转换、清洗、集成和规约等处理操作，以便能够更好地分析和挖掘数据。

数据挖掘算法一般可分为分类、聚类、关联和预测等几类，这些算法可以用来解决不同类型的问题。

模型评价是指对数据挖掘算法得到的模型的准确性、稳定性和可扩展性等方面进行评估。

结果可视化是指将数据挖掘得到的结果以图表、图形和文字等形式展示出来，以便人们更好地理解和利用这些结果。

二、数据挖掘技术的应用领域数据挖掘技术的应用领域非常广泛，下面分几个方面进行详细阐述。

（一）商业与金融在商业与金融领域中，数据挖掘技术可以用于市场预测、消费者行为分析、信用风险评估、股票市场预测和保险行业等方面。

例如，通过对大量的市场数据进行分析，商业人员可以更好地了解市场需求和消费者行为，从而制定更准确的销售策略和营销方案。

同样，金融机构可以利用数据挖掘技术对大量的财务数据进行分析和挖掘，从而更好地评估风险和收益，并制定更有效的金融产品和服务。

（二）医疗和生物领域在医疗和生物领域中，数据挖掘技术可以用于基因序列分析、疾病预测和治疗、药物发现和疾病监测等方面。

例如，在对癌症的治疗方面，数据挖掘技术可以用来分析不同的治疗方案的效果，从而制定更有效的治疗计划和康复方案。

（三）政府与公共服务在政府与公共服务领域中，数据挖掘技术可以用于公共安全、社会福利、交通管理、环境保护等方面。

例如，在公共安全领域中，警方可以利用数据挖掘技术对犯罪数据进行分析和挖掘，从而更好地预测犯罪行为和制定更有效的预防措施。

数据挖掘基本概念

数据挖掘基本概念数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘对象1.数据的类型可以是结构化的、半结构化的，甚至是异构型的。

发现知识的方法可以是数学的、非数学的，也可以是归纳的。

最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

2.数据挖掘的对象可以是任何类型的数据源。

可以是关系数据库，此类包含结构化数据的数据源；也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据，此类包含半结构化数据甚至异构性数据的数据源。

3.发现知识的方法可以是数字的、非数字的，也可以是归纳的。

最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

数据挖掘步骤在实施数据挖掘之前，先制定采取什么样的步骤，每一步都做什么，达到什么样的目标是必要的，有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。

很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型，来指导他们的用户一步步地进行数据挖掘工作。

比如，SPSS公司的5A和SAS公司的SEMMA。

数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。

下面让我们来具体看一下每个步骤的具体内容：(1)定义问题。

在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。

必须要对目标有一个清晰明确的定义，即决定到底想干什么。

比如，想提高电子信箱的利用率时，想做的可能是“提高用户使用率”，也可能是“提高一次用户使用的价值”，要解决这两个问题而建立的模型几乎是完全不同的，必须做出决定。

(2)建立数据挖掘库。

建立数据挖掘库包括以下几个步骤：数据收集，数据描述，选择，数据质量评估和数据清理，合并与整合，构建元数据，加载数据挖掘库，维护数据挖掘库。

数据挖掘的基本概念与应用领域

数据挖掘的基本概念与应用领域数据挖掘是指从大量的数据中自动发现有用的模式和知识的一种技术。

它是计算机科学、统计学和人工智能的交叉学科，通过使用统计学、机器学习和信息检索等方法，从数据中提取出隐藏的模式和关系，用于预测和决策支持。

数据挖掘的应用领域广泛，包括商业、医疗、金融、社交媒体等，它在各行各业中发挥着重要的作用。

首先，数据挖掘在商业领域具有广泛的应用。

商业领域中涉及大量的交易数据、用户行为数据等，通过数据挖掘可以挖掘出消费者的购买偏好、营销活动的效果等。

例如，通过分析用户的购买历史，可以推荐相关的产品，提高销售额；通过分析用户的浏览行为，可以个性化推送广告，提高点击率。

数据挖掘可以帮助企业发现隐藏在数据背后的商机，优化决策和业务流程，提高市场竞争力。

其次，数据挖掘在医疗领域也发挥着重要的作用。

医疗领域中积累了大量的病历数据、医疗影像数据等，通过数据挖掘可以帮助医生提高诊断效果和治疗效果。

例如，通过对患者病历的挖掘，可以发现患某种疾病的患者的共同特征，从而更准确地判断新患者是否患有该疾病；通过对医疗影像数据的挖掘，可以辅助医生检测病变和评估病情。

数据挖掘可以帮助医疗机构提高诊断准确性、减少误诊和漏诊，提高医疗水平。

此外，数据挖掘在金融领域的应用也非常广泛。

金融领域中涉及大量的交易数据、市场数据等，通过数据挖掘可以挖掘出市场趋势、风险模型等。

例如，通过分析股票市场的历史数据，可以预测股价的涨跌趋势，为投资者提供决策参考；通过分析借贷行为的数据，可以构建风险模型，帮助金融机构评估借款人的信用风险。

数据挖掘可以帮助金融机构更好地管理风险、提高投资回报率。

最后，数据挖掘在社交媒体领域也有着广泛的应用。

随着社交媒体的普及，用户在社交媒体上产生了大量的文本、图片等数据，通过数据挖掘可以挖掘出用户的兴趣、情感等。

例如，通过分析用户在社交媒体上的言论，可以了解用户的兴趣爱好，为用户个性化推荐内容；通过分析用户的情感表达，可以判断用户对某个产品或事件的态度，帮助企业进行舆情监测。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【最新资料,Word版，可自由编辑！】介绍邦弗朗尼原理（Bonferroni’sprinciple），该原理实际上对数据挖掘的过度使用提出了警告。

本章还概述了一些非常有用的思想，它们未必都属于数据挖掘的范畴，但是却有利于理解数据挖掘中的某些重要概念。

这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e 的恒等式等。

最后，简要介绍了后续章节所要涉及的主题。

1.1数据挖掘的定义最广为接受的定义是，数据挖掘（datamining）是数据“模型”的发现过程。

而“模型”却可以有多种含义。

下面介绍在建模方面最重要的几个方向。

1.1.1统计建模最早使用“datamining”术语的人是统计学家。

术语“datamining”或者“datadredging”最初是贬义词，意指试图抽取出数据本身不支持的信息的过程。

1.2节给出了这种挖掘情况下可能犯的几类错误。

当然，现在术语“datamining”的意义已经是正面的了。

目前，统计学家认为数据挖掘就是统计模型（statisticalmodel）的构建过程，而这个统计模型指的就是可见数据所遵从的总体分布。

例1.1假定现有的数据是一系列数字。

这种数据相对于常用的挖掘数据而言显得过于简单，但这只是为了说明问题而采用的例子。

统计学家可能会判定这些数字来自一个高斯分布（即正态分布），并利用公式来计算该分布最有可能的参数值。

该高斯分布的均值和标准差能够完整地刻画整个分布，因而成为上述数据的一个模型。

1.1.2机器学习有些人将数据挖掘看成是机器学习的同义词。

毫无疑问，一些数据挖掘方法中适当使用了机器学习算法。

机器学习的实践者将数据当成训练集来训练某类算法，比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。

某些场景下上述的数据利用方式是合理的。

机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。

比如，我们并不清楚到底是影片的什么因素导致某些观众喜欢或者厌恶该影片。

因此，在Netflix竞赛要求设计一个算法来预测观众对影片的评分时，基于已有评分样本的机器学习算法获得了巨大成功。

在9.4节中，我们将讨论此类算法的一个简单形式。

另一方面，当挖掘的目标能够更直接地描述时，机器学习方法并不成功。

一个有趣的例子是，WhizBang!实验室1曾试图使用机器学习方法在Web上定位人们的简历。

但是不管使用什么机器学习算法，最后的效果都比不过人工设计的直接通过典型关键词和短语来查找简历的算法。

由于看过或者写过简历的人都对简历包含哪些内容非常清楚，Web页面是否包含简历毫无秘密可言。

因此，使用机器学习方法相对于直接设计的简历发现算法而言并无任何优势。

1.1.3建模的计算方法1 该初创实验室试图使用机器学习方法来进行大规模数据挖掘，并且雇用了大批机器学习高手来实现这一点。

遗憾的是，该实验室并没有能够生存下来。

近年来，计算机科学家已将数据挖掘看成一个算法问题。

这种情况下，数据模型仅仅就是复杂查询的答案。

例如，给定例1.1中的一系列数字，我们可以计算它们的均值和标准差。

需要注意的是，这样计算出的参数可能并不是这组数据的最佳高斯分布拟合参数，尽管在数据集规模很大时两者非常接近。

数据建模有很多不同的方法。

前面我们已经提到，数据可以通过其生成所可能遵从的统计过程构建来建模。

而其他的大部分数据建模方法可以描述为下列两种做法之一：(1)对数据进行简洁的近似汇总描述；(2)从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。

在接下来的内容中，我们将探究上述两种做法。

1.1.4数据汇总一种最有趣的数据汇总形式是PageRank，它也是使谷歌成功的关键算法之一，我们将在第5章对它进行详细介绍。

在这种形式的Web挖掘当中，Web的整个复杂结构可由每个页面所对应的一个数字归纳而成。

这种数字就是网页的PageRank值，即一个Web结构上的随机游走者在任意给定时刻处于该页的概率（这是极其简化的一种说法）。

PageRank的一个非常好的特性就是它能够很好地反映网页的重要性，即典型用户在搜索时期望返回某个页面的程度。

另一种重要的数据汇总形式是聚类，第7章将予以介绍。

在聚类中，数据被看成是多维空间下的点，空间中相互邻近的点将被赋予相同的类别。

这些类别本身也会被概括表示，比如通过类别质心及类别中的点到质心的平均距离来描述。

这些类别的概括信息综合在一起形成了全体数据集合的数据汇总结果。

例1.2一个利用聚类来解决问题的着名实例发生在很久以前的伦敦，在整个问题的解决中并没有使用计算机2。

内科医生JohnSnow在处理霍乱爆发时在城市地图上标出了病例的发生地点。

图1-1给出了该图的一个小片段，展示了病例的传播情况。

图1-1在伦敦市地图上标出的霍乱病例的传播情况示意图图中显示，病例聚集在某些交叉路口。

这些路口的水井已经被污染，离这些水井最近的居民染上了疾病，而清洁的水井附近的居民则没有染病。

如果没对这些数据进行聚类，霍乱的病因就难以揭开。

1.1.5特征抽取典型的基于特征的模型会从数据中寻找某个现象的最极端样例，并使用这些样例来表示数据。

熟悉机器学习的一个分支——贝叶斯网络（并不在本书的讨论范围内）的读者应该会知道，在贝叶斯网络中，可以利用寻找对象间的最强统计依赖来表示所有统计关联，从而表示出对象之间的复杂关系。

我们将要介绍大规模数据集下的一些重要的特征抽取类型，它们包括以下两种。

(1)频繁项集（frequentitemset）该模型适用于多个小规模项集组成的数据，就像我们将在第6章讨论的购物篮问题（market-basketproblem）一样。

我们寻找那些在很多购物篮中同时出现的小规模项集，这些频繁项集就是我们要找的刻画数据的特征。

这种挖掘的原始应用的的确确发生在真实的购物篮场景下：在商店或者超市收银台结账的时候确实会发现某些物品会被顾客同时购买，例如汉堡包和番茄酱，这些物品就组成所谓的项集。

(2)相似项（similaritem）很多时候，数据往往看上去相当于一系列集合，我们的目标是寻找那些共同元素比例较高的集合对。

一个例子是将在线商店（如Amazon）的顾客看成是其已购买的商品的集合。

为了使Amazon能够向某顾客推荐他可能感兴趣的其他商品，Amazon可以寻找与该顾客相似的顾客群，并把他们当中大部分人购买过的商品也推荐给他。

该过程称为协同过滤（collaborativefiltering）。

如果顾客的兴趣都很单一，即他们只购买某一类的商品，那么将顾客聚类的方法可能会起作用。

然而，由于顾客大都对许多不同的商品感兴趣，因此对每个顾客而言，寻找兴趣相似的那部分顾客并根据这些关联对数据进行表示的做法会更有用。

我们将在第3章讨论相似性。

1.2数据挖掘的统计限制一类常见的数据挖掘问题涉及在大量数据中发现隐藏的异常事件。

本节主要讨论这个问题，并介绍对数据挖掘的过度使用进行警告的邦弗朗尼原理。

1.2.1 整体情报预警2002年，美国布什政府提出了一项针对所有可获得的数据进行挖掘的计划，目的用于追踪恐怖活动，这些数据包括信用卡收据、酒店记录、旅行数据以及许多其他类型的情报。

该计划被称为整体情报预警（TotalInformationAwareness ，TIA ）。

TIA 计划无疑在隐私倡导者当中受到了极大关注，虽然最终它并没有被国会通过，但其实我们并不清楚这种计划是否已被冠以其他名称而得以真正实施。

隐私和安全的折中困难姑且不在本书的讨论目的之列，然而，TIA 或类似系统若想进一步发展，在其可行性和所依赖假设的现实性方面还需做更多的技术改进。

很多人关心的是，如果浏览了这么多数据，并且想从这些数据当中发现疑似的恐怖行为，那么难道最终就不会找出很多无辜的行为？乃至虽然非法但不是恐怖行为的行为？这些发现会导致警察的登门造访甚至更糟的情形。

答案取决于所定义行为的严密程度。

统计学家已经发现了该问题的各种伪装形式，并且提出了一个理论。

该理论将在下一节介绍。

1.2.2 邦弗朗尼原理假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件。

即使数据完全随机，也可以期望该类型事件会发生。

随着数据规模的增长，这类事件出现的数目也随之上升。

任何随机数据往往都会有一些不同寻常的特征，这些特征看上去虽然很重要，但是实际上并不重要，除此之外，别无他由，从这个意义上说，这些事件的出现纯属“臆造”。

统计学上有一个称为邦弗朗尼校正（Bonferronicorrection ）的定理，该定理给出一个在统计上可行的方法来避免在搜索数据时出现的大部分“臆造”正响应。

这里并不打算介绍定理的统计细节，只给出一个非正式的称为邦弗朗尼原理的版本，该原理可以帮助我们避免将随机出现看成真正出现。

在数据随机性假设的基础上，可以计算所寻找事件出现次数的期望值。

如果该结果显着高于你所希望找到的真正实例的数目，那么可以预期，寻找到的几乎任何事物都是臆造的，也就是说，它们是在统计上出现的假象，而不是你所寻找事件的凭证。

上述观察现象是邦弗朗尼原理的非正式阐述。

以寻找恐怖分子为例，可以预期在任何时候都几乎没有恐怖分子在活动。

按照邦弗朗尼原理，只需要寻找那些几乎不可能出现在随机数据中的罕见事件来发现恐怖分子即可。

下一节将给出一个扩展的例子。

1.2.3 邦弗朗尼原理的一个例子假设我们确信在某个地方有一群恶人，目标是把他们揪出来。

再假定我们有理由相信，这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。

为限定问题的规模，我们再给出如下假设：(1)恶人数目可能有10亿；(2)每个人每100天当中会有一天去宾馆；(3)一个宾馆最多容纳100个人。

因此，100000个宾馆已足够容纳10亿人中的1%在某个给定的日子入住宾馆；(4)我们将对1000天的宾馆入住记录进行核查。

为了在上述数据中发现恶人的踪迹，我们可以找出那些在两个不同日子入住同一宾馆的人。

但是假设并没有恶人，也就是说，给定某一天，对每个人来说，他们都是随机地确定是否去宾馆（概率为0.01），然后又是随机地从105个宾馆中选择一个。

从上述数据中，我们能否推断出某两个人可能是恶人？接下来我们做个简单的近似计算。

给定某天，任意两个人都决定去宾馆的概率为0.0001，而他们入住同一宾馆的概率应该在0.0001基础上除以105（宾馆的数量）。

因此，在给定某天的情况下，两个人同时入住同一宾馆的概率是10?9。

而在任意给定的不同的两个日子，两人入住同一宾馆的概率就是10?9的平方，即10?18。

需要指出的是，上述推理中只需要两人两次中每次住的宾馆相同即可，并不需要两次都是同一家宾馆3。

基于上述计算，我们必须要考虑到底事件出现多少次才意味着作恶事件的发生。

上例中，“事件”的含义是指“两个人在两天中的每一天入住相同宾馆”。