数据挖掘

合集下载

什么是“数据挖掘”

什么是“数据挖掘”
数据挖掘是一种计算机技术，通过使用统计学、人工智能和机
器研究等方法，从大量的数据中提取出有价值的信息和知识。

它可
以帮助人们更好地理解数据，发现数据之间的内在关系和模式，从
而为决策和问题解决提供支持。

数据挖掘的目标是通过自动化的技术，从数据中提取出有用的
信息。

这些信息有助于预测未来事件、优化业务流程、发现隐藏的
模式和关联等。

数据挖掘可以应用于各个领域，如市场营销、金融、医疗、社交网络等。

数据挖掘的过程一般包括以下步骤：
1. 数据收集：收集需要分析的数据，可以是结构化的数据（如
数据库中的数据），也可以是非结构化的数据（如文本、图像等）。

2. 数据预处理：清洗和转换数据，去除噪音、处理缺失值和异
常值等。

3. 特征选择：选择对挖掘任务有意义的特征，减少数据维度。

4. 数据挖掘：使用合适的算法和技术，探索数据中的模式、趋势和关联。

5. 模型评估：评估挖掘结果的准确性和可靠性。

6. 知识表示：将挖掘得到的知识和信息呈现给用户，并提供可解释性和可视化的方式。

数据挖掘常用的技术和算法包括聚类分析、分类分析、关联规则挖掘、时序分析和预测等。

这些技术和算法可以根据不同的需求和挖掘目标进行选择和组合。

总之，数据挖掘是一种强大的技术，可以从数据中发现潜在的价值和知识。

它在各个领域的应用不断增加，对提升决策和解决问题起到了重要的作用。

什么叫数据挖掘_数据挖掘技术解析

什么叫数据挖掘_数据挖掘技术解析数据挖掘（data mining）是指从大量的资料中自动搜索隐藏于其中的有着特殊关联性的信息的过程。

在全世界的计算机存储中，存在未使用的海量数据并且它们还在快速增长，这些数据就像待挖掘的金矿，而进行数据分析的科学家、工程师、分析员的数量变化一直相对较小，这种差距称为数据挖掘产生的主要原因。

数据挖掘是一个多学科交叉领域，涉及神经网络、遗传算法、回归、统计分析、机器学习、聚类分析、特异群分析等，开发挖掘大型海量和多维数据集的算法和系统，开发合适的隐私和安全模式，提高数据系统的使用简便性。

数据挖掘与传统意义上的统计学不同。

统计学推断是假设驱动的，即形成假设并在数据基础上验证他；数据挖掘是数据驱动的，即自动地从数据中提取模式和假设。

数据挖掘的目标是提取可以容易转换成逻辑规则或可视化表示的定性模型，与传统的统计学相比，更加以人为本。

数据挖掘技术简述数据挖掘的技术有很多种，按照不同的分类有不同的分类法。

下面着重讨论一下数据挖掘中常用的一些技术：统计技术，关联规则，基于历史的分析，遗传算法，聚集检测，连接分析，决策树，神经网络，粗糙集，模糊集，回归分析，差别分析，概念描述等十三种常用的数据挖掘的技术。

1、统计技术数据挖掘涉及的科学领域和技术很多，如统计技术。

统计技术对数据集进行挖掘的主要思想是：统计的方法对给定的数据集合假设了一个分布或者概率模型（例如一个正态分布）然后根据模型采用相应的方法来进行挖掘。

2、关联规则数据关联是数据库中存在的一类重要的可被发现的知识。

若两个或多个变量的取值之I司存在某种规律性，就称为关联。

关联可分为简单关联、时序关联、因果关联。

关联分析的目的是找出数据库中隐藏的关联网。

有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

3、基于历史的MBR（Memory-based Reasoning）分析先根据经验知识寻找相似的情况，。

数据挖掘的方法有哪些

数据挖掘的方法有哪些
数据挖掘的方法主要包括以下几种：
1.分类：用于将数据分为不同的类别或标签，包括决策树、逻辑回归、支持向量机等。

2.聚类：将数据分为不同的组或簇，根据数据的相似性进行分组，包括k均值聚类、层次聚类等。

3.关联规则：寻找数据中的相关联关系，包括频繁模式挖掘、关联规则挖掘等。

4.异常检测：寻找数据中与正常模式不符的异常值，包括离群点检测、异常检测等。

5.预测建模：利用历史数据进行模型建立，用于预测未来事件的可能性，包括回归模型、时间序列分析等。

6.文本挖掘：从非结构化文本数据中提取有用信息，如情感分析、主题建模等。

7.图像和视觉数据挖掘：从图像和视频数据中提取特征和模式，用于图像处理、目标识别等。

8.Web挖掘：从互联网上的大量数据中发现有价值的信息，包括网页内容挖掘、链接分析等。

9.时间序列分析：研究时间维度上数据的相关性和趋势，包括ARIMA模型、周期性分析等。

10.集成学习：通过结合多个单一模型获得更好的预测性能，如随机森林、Adaboost等。

这些方法常常结合使用，根据具体问题和数据来选择合适的方法。

数据挖掘的概念与技术介绍

数据挖掘的概念与技术介绍数据挖掘的概念与技术介绍数据挖掘是指从大量的数据中发现隐藏在其中的有价值的信息、模式和规律的过程。

随着互联网时代的到来，越来越多的数据被收集和存储，数据挖掘成为了从这些海量数据中获取洞察和知识的重要工具。

本文将围绕数据挖掘的概念和技术展开讨论，帮助读者深入理解数据挖掘的核心要素和方法。

一、数据挖掘的概念1.1 数据挖掘的定义数据挖掘是一种通过自动或半自动的方式，从大量的数据中发现有用的信息、模式和规律的过程。

通过应用统计学、机器学习和人工智能等技术，数据挖掘可以帮助人们从数据中进行预测、分析和决策。

1.2 数据挖掘的目标数据挖掘的主要目标是从数据中发现隐藏的模式和规律，并将这些知识应用于实际问题的解决。

数据挖掘可以帮助企业提高市场营销的效果、改进产品设计、优化生产过程等。

数据挖掘也被广泛应用于科学研究、金融风险分析、医学诊断等领域。

1.3 数据挖掘的流程数据挖掘的流程通常包括数据收集、数据预处理、模型构建、模型评估和模型应用等步骤。

其中，数据预处理是数据挖掘流程中非常重要的一环，它包括数据清洗、数据集成、数据变换和数据规约等子任务。

二、数据挖掘的技术2.1 关联规则挖掘关联规则挖掘是数据挖掘的一个重要技术，它用于发现数据集中的项之间的关联关系。

通过挖掘关联规则，可以发现数据中隐藏的有用信息，如购物篮分析中的“啤酒和尿布”现象。

2.2 分类与回归分类与回归是数据挖掘中常用的技术，它们用于对数据进行分类或预测。

分类是指根据已有的样本数据，建立分类模型，然后将新的数据实例分到不同的类别中。

回归则是根据数据的特征和已知的输出值，建立回归模型，然后预测新的数据实例的输出值。

2.3 聚类分析聚类分析是一种将数据分成不同的类别或簇的技术。

通过发现数据之间的相似性，聚类可以帮助人们理解数据的内在结构和特点。

聚类分析在市场细分、社交网络分析等领域具有广泛的应用。

2.4 异常检测异常检测是指从数据中识别出与大多数数据显著不同的样本或模式。

数据挖掘的具体步骤

数据挖掘的具体步骤数据挖掘就像是一场寻宝之旅呢。

第一步呀，得先确定目标。

就好比你要去找宝藏，你得先知道自己想找啥样的宝藏，是金银珠宝呢，还是神秘的古老文物。

在数据挖掘里，就是要明确业务问题，比如说想知道顾客为啥不买某产品啦，或者是怎么提高店铺的销售额之类的。

这是很重要的起点哦。

接着就是收集数据啦。

这就像你开始到处搜集可能藏着宝藏的线索。

数据来源可多啦，可以是公司内部的数据库，像顾客的购买记录、注册信息啥的，也可能是从外面收集来的，像市场调查的数据。

这时候要注意数据的质量，要是数据都是错的或者不全，那后面就麻烦啦。

收集完数据，就要对数据进行预处理。

这就像是整理你那些乱乱的寻宝线索。

有些数据可能有错误，要修正；有些数据可能格式不对，得调整；还有些数据可能是重复的，要去掉。

这一步可不能偷懒，不然数据乱乱的，根本没法好好挖掘。

然后就到了数据挖掘算法选择的环节。

这就像是选择寻宝的工具。

有好多算法呢，像决策树算法就像一个聪明的小向导，能帮你分析数据的走向；聚类算法就像把东西分类的小能手，能把相似的数据归到一起。

要根据你的目标和数据的特点来选择合适的算法哦。

再之后就是用选好的算法进行数据挖掘啦。

这个过程就像是拿着工具开始真正的寻宝。

算法会在数据里找规律，找关系，就像在一堆沙子里找金子一样。

最后呢，要对挖掘出来的结果进行评估和解释。

比如说你找到的这个“宝藏”到底有没有用呀？能不能解决你最开始的问题呢？如果发现结果不太理想，可能还得回头重新调整前面的步骤。

数据挖掘就是这么个有趣又有点复杂的过程啦。

数据挖掘的概念

数据挖掘的概念1 数据挖掘数据挖掘（Data Mining，简称DM），是指从⼤量的数据中，挖掘出未知的且有价值的信息和知识的过程2 机器学习与数据挖掘与数据挖掘类似的有⼀个术语叫做”机器学习“，这两个术语在本质上的区别不⼤，如果在书店分别购买两本讲数据挖掘和机器学习的书籍，书中⼤部分内容都是互相重复的。

具体来说，⼩的区别如下：机器学习这个词应该更侧重于技术⽅⾯和各种算法，⼀般提到机器学习就会想到语⾳识别，图像视频识别，机器翻译，⽆⼈驾驶等等各种其他的模式识别，甚⾄于⾕歌⼤脑等AI，这些东西的⼀个共同点就是极其复杂的算法，所以说机器学习的核⼼就是各种精妙的算法。

数据挖掘则更偏向于“数据”⽽⾮算法，⽽且包括了很多数据的前期处理，⽤爬⾍爬取数据，然后做数据的清洗，数据的整合，数据有效性检测，数据可视化（画图）等等，最后才是⽤⼀些统计的或者机器学习的算法来抽取某些有⽤的“知识”。

前期数据处理的⼯作⽐较多。

所以，数据挖掘的范畴要更⼴泛⼀些。

3 数据挖掘所覆盖的学科数据挖掘是⼀门交叉学科，覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学习、市场营销、数据可视化等领域的理论和实践成果4 数据挖掘的误区算法⾄上论：数据挖据是某些对⼤量数据操作的算法，这些算法能够⾃动地发现新的知识。

技术⾄上论：数据挖据需要⾮常⾼深的分析技能，需要精通⾼深的数据挖掘算法，需要熟练程序开发设计这两种认知都是有问题的，实际上，数据挖掘是⼈们处理商业问题的某些⽅法，通过适量的数据挖掘来获得有价值的结果，最好的数据挖掘⼯程师往往是那些熟悉和理解业务的⼈。

5 数据挖掘能解决什么问题商业上的问题多种多样，例如：“如何能降低⽤户流失率？”“某个⽤户是否会响应本次营销活动？“"如何细分现有⽬标市场？"“如何制定交叉销售策略以提升销售额？”“如何预测未来销量？”从数据挖掘的⾓度看，都可以转换为五类问题：分类，聚类，回归，关联和推荐。

数据挖掘ppt课件

情感分析：情感词典构建、情感倾向判断等
情感词典构建
收集和整理表达情感的词汇，构建情感词典，为情感分析提供基础数据。
情感倾向判断
利用情感词典和文本表示模型，判断文本的情感倾向，如积极、消极或中立。
深度学习方法
如循环神经网络（RNN）、长短期记忆网络（LSTM）等，用于捕捉文本中的时序信息和情感上下文。
通过准确率、灵敏度、特异度等指标评估模型性能，将模型应用于实际医疗场景中，提高医生诊断效率和准确性。
疾病预测与辅助诊断模型构建
利用机器学习、深度学习等技术构建疾病预测和辅助诊断模型，如决策树、神经网络、卷积神经网络等。
谢谢您的聆听
THANKS
模型评估与优化
通过准确率、召回率、F1值等指标评估模型性能，采用交叉验证、网格搜索等方法优化模
型参数。
金融欺诈检测模型构建与优化
金融欺诈类型及特点
信用卡欺诈、贷款欺诈、洗钱等。
数据来源与处理
交易数据、用户行为数据、第三方数据等，进行数据清洗、特征工程等处理。
欺诈检测模型构建
利用有监督学习、无监督学习等技术构建欺诈检测模型，如支持向量机、随机森林、聚类等。
数据挖掘ppt课件
CONTENTS
• 数据挖掘概述 • 数据预处理技术 • 关联规则挖掘方法 • 分类与预测方法 • 聚类分析方法 • 时间序列分析方法 • 文本挖掘技术 • 数据挖掘在实际问题中应用案
01
数据挖掘概述
定义与发展历程
定义
数据挖掘是从大量数据中提取出有用信息和知识的过程。
发展历程
应用
FP-Growth算法适用于大型数据集和复杂关联规则的挖掘，如电商网站的推荐系统、网络安全领域的入侵检测等。

数据挖掘方法

数据挖掘方法数据挖掘是一种通过从大量数据中发现模式和关联规律来提取有用信息的技术。

数据挖掘方法通过使用各种算法和技术，可以帮助我们在海量的数据集中找到隐藏的知识和洞察力，以支持业务决策和问题解决。

本文将介绍几种常用的数据挖掘方法。

一、关联规则挖掘关联规则挖掘是一种常用的数据挖掘方法，它用于发现数据集中的关联关系。

关联规则挖掘可以帮助我们找到数据中的相关性，并从中发现隐藏的知识。

在关联规则挖掘中，我们首先需要定义一个支持度和置信度的阈值，然后使用Apriori算法或FP-Growth算法等来发现频繁项集和关联规则。

二、分类和预测分类和预测是数据挖掘中的另一种常见方法。

它用于根据已经标记好的数据集来预测未知数据的类别或属性。

常见的分类和预测算法包括决策树、朴素贝叶斯、支持向量机等。

这些算法可以根据已知的特征和标签来构建模型，并将未知数据映射到特定的类别或属性。

三、聚类分析聚类分析是一种将数据集中的对象按照其相似性进行分组的方法。

聚类分析可以帮助我们在没有先验信息的情况下对数据进行探索性分析。

常见的聚类算法包括K均值、层次聚类和密度聚类等。

这些算法可以根据数据之间的相似性将其划分成不同的簇。

四、异常检测异常检测是数据挖掘中的另一个重要方法。

它用于识别数据集中的异常或离群值。

异常检测可以帮助我们发现潜在的问题或异常情况，并采取相应的措施。

常见的异常检测算法包括基于统计学的方法、基于距离的方法和基于聚类的方法等。

五、序列模式挖掘序列模式挖掘是一种挖掘序列数据中频繁模式或关联规则的方法。

序列数据包含了一系列按照时间顺序排列的事件或项。

序列模式挖掘可以帮助我们发现序列数据中的规律和趋势，以支持业务决策和行为分析。

常见的序列模式挖掘算法包括GSP算法和PrefixSpan算法等。

六、回归分析回归分析是一种用于建立和分析变量之间关系的方法。

它可以帮助我们预测一个或多个连续变量的值。

常见的回归分析算法包括线性回归、多项式回归和逻辑回归等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数据挖掘》总复习题1．数据挖掘系统可以根据什么标准进行分类？答：根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类2．知识发现过程包括哪些步骤？答：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3．什么是概念分层？答：一个映射序列，将低层概念映射到更一般的较高层概念。

4．多维数据模型上的OLAP 操作包括哪些？答：上卷、下钻、切片和切块、转轴/ 旋转、其他OLAP操作5．OLAP 服务器类型有哪几种？答：关系OLAP 服务器(ROLAP)、多维OLAP 服务器(MOLAP)、混合OLAP 服务器(HOLAP)、特殊的SQL 服务器6．数据预处理技术包括哪些？答：聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。

7．什么是数据清理？答：填写缺失的值，平滑噪声数据，识别、删除离群点，解决不一致性8．什么是数据集成？答：集成多个数据库、数据立方体或文件9．什么是数据归约？答：得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果10．数据清理的内容包括哪些？答：缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原OLAP——on-line analytical processing DM——data mining KDD——knowledge discovery in databases OLTP——on-line transaction processing DBMS——database management system DWT——discrete wavelet transform （DMQL）－－Data Mining Query Language 12．什么是数据挖掘？答：简单地说，数据挖掘是从大量数据中提取或挖掘知识。

具体地说，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

13．什么是关联规则？答：（关联规则是形如X→Y的蕴涵式，其中且，X和Y分别称为关联规则的先导和后继。

）假设I是项的集合。

给定一个交易数据库，其中每个事务(Transaction)t是I 的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。

关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率。

关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。

这些阈值是根据挖掘需要人为设定。

（关联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。

）14．什么是可信度？什么是支持度？答：15. 什么是概念描述？什么是特征化？什么是属性相关分析？答：概念描述：用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。

特征化：是目标类数据的一般特性或特征的汇总。

属性相关分析：可能需要在分类和预测之前进行，它试图识别对于分类或预测过程无用的属性。

这些属性应当排除。

16．什么是数据仓库？其主要特征是什么？答：数据仓库是一个提供决策支持功能的数据库，它与组织机构的操作数据库分别维护。

它允许将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。

特征：面向主题、数据集成、随时间而变化、数据不易丢失（数据不易丢失是最明显特征）17．什么是数据集市？答：数据集市包含企业范围数据的一个子集，对于特定的用户群是有用的。

其范围限于选定的主题。

(是完整的数据仓库的一个逻辑子集，而数据仓库正是由所有的数据集市有机组合而成的) 18．数据库中的知识发现过程由哪几个步骤组成？答：数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示19．典型的数据挖掘系统有哪几个主要成分？答：数据库、数据仓库、万维网或其他信息库；数据库或数据仓库服务器；知识库；数据挖掘引擎；模式评估模块；用户界面20．从软件工程的观点来看，数据仓库的设计和构造包含哪些步骤？答：规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。

21．在数据挖掘系统中，为什么数据清理十分重要？答：脏数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。

22．脏数据形成的原因有哪些？答：滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23．数据清理时，对空缺值有哪些处理方法？答：忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值24．什么是数据变换？包括哪些内容？答：将数据转换或统一成适合于挖掘的形式。

包括：光滑、聚集、数据泛化、规范化、属性构造25．数据归约的策略包括哪些？答：数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生26．提高数据挖掘算法效率有哪几种思路？答：减少对数据的扫描次数；缩小产生的候选项集；改进对候选项集的支持度计算方法27．假定属性income的最小值与最大值分别为12000和980到区间[0.0，1.0]，根据min-max 规范化，income的值73600将变为＿3631/551＿。

28．假定属性income的平均值和标准差分别为54000和16000，使用Z-score 规范化，值73600被转换为＿1.225＿一、选择题1．数据挖掘技术包括三个主要的部分（C ）A)数据、模型、技术B)算法、技术、领域知识C)数据、建模能力、算法与技术D)建模能力、算法与技术、领域知识2．在ID3 算法中信息增益是指（D ）A)信息的溢出程度B)信息的增加效益C)熵增加的程度最大D)熵减少的程度最大3. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A)关联规则发现B)聚类C)分类D)自然语言处理4. 什么是KDD? (A)A)数据挖掘与知识发现B)领域知识发现C)文档知识发现D)动态知识发现5. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A) 探索性数据分析B) 建模描述C) 预测建模D)寻找模式和规则 6. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A) 根据内容检索B) 建模描述C) 预测建模D) 寻找模式和规则7. 数据仓库是随着时间变化的,下面的描述不正确的是(C)A) 数据仓库随时间的变化不断增加新的数据内容; B) 捕捉到的新数据会覆盖原来的快照;C) 数据仓库随事件变化不断删去旧的数据内容; D) 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.8. 关于基本数据的元数据是指: (D)A) 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B) 基本元数据包括与企业相关的管理方面的数据和信息;C) 基本元数据包括日志文件和简历执行处理的时序调度信息;D) 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.9. 下面关于数据粒度的描述不正确的是: (C)A) 粒度是指数据仓库小数据单元的详细程度和级别;B) 数据越详细,粒度就越小,级别也就越高;C) 数据综合度越高,粒度也就越大,级别也就越高;D) 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.10. 有关数据仓库的开发特点,不正确的描述是: (A)A) 数据仓库开发要从数据出发;B) 数据仓库使用的需求在开发出去就要明确;C) 数据仓库的开发是一个不断循环的过程,是启发式的开发;D) 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式11. 在有关数据仓库测试,下列说法不正确的是: (D)A) 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B) 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C) 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D) 在测试之前没必要制定详细的测试计划.12. OLAP 技术的核心是: (D)A) 在线性; B) 对用户的快速响应; C) 互操作性. D) 多维分析;13. 关于OLAP 的特性,下面正确的是: (D)(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A) (1) (2) (3) B) (2) (3) (4) C) (1) (2) (3) (4) D) (1) (2) (3) (4) (5)14. 关于OLAP 和OLTP 的区别描述,不正确的是: (C)A) OLAP 主要是关于如何理解聚集的大量不同的数据.它与OTAP 应用程序不同.B) 与OLAP 应用程序不同,OLTP 应用程序包含大量相对简单的事务.C) OLAP 的特点在于事务量大,但事务内容比较简单且重复率高.D) OLAP 是以数据仓库为基础的,但其最终数据来源与OLTP 一样均来自底层的数据库系统, 两者面对的用户是相同的.15. 关于OLAP 和OLTP 的说法,下列不正确的是: (A)A) OLAP 事务量大,但事务内容比较简单且重复率高.B) OLAP 的最终数据来源与OLTP 不一样.C) OLTP 面对的是决策人员和高层管理人员.D) OLTP 以应用为核心,是应用驱动的.16. 决策树中不包含一下哪种结点, (C)A)根结点(root node) B)内部结点(internal node)C)外部结点(external node) D)叶结点(leaf node)1.数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

(对)2.数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。

（对）3. 图挖掘技术在社会网络分析中扮演了重要的角色。

（对）3.模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；模型则对变量变化空间的一个有限区域做出描述。

（错）4.寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。

（错）5.离群点可以是合法的数据对象或者值。

（对）6.离散属性总是具有有限个值。

（错）7.噪声和伪像是数据错误这一相同表述的两种叫法。

（错）8.用于分类的离散化方法之间的根本区别在于是否使用类信息。