数据挖掘概念复习

合集下载

数据挖掘知识点期末总结

数据挖掘知识点期末总结数据挖掘是一门涉及数据分析、机器学习、统计学和数据库技术的跨学科领域。

它利用各种算法和技术，从大规模数据集中提取模式和知识，以帮助人们做出更好的决策。

在信息时代，数据成为了我们生活和工作中的重要资源，而数据挖掘技术的发展，使得我们能够更好地利用这些数据。

在本文中，我们将回顾数据挖掘的基本概念、技术和应用，并对其未来发展进行展望。

一、数据挖掘的基本概念1. 数据挖掘的定义数据挖掘是指通过建立模型、使用算法，自动地发现数据中的模式、规律和知识的过程。

数据挖掘的目的是从大规模数据中提取有用的信息，以帮助人们做出决策、发现隐藏的信息和规律。

2. 数据挖掘的过程数据挖掘的过程通常包括数据清洗、特征选择、模型构建、模型评估和模型应用等步骤。

数据清洗主要是清理数据中的异常值和缺失值，特征选择是从大量特征中选择出最重要的特征，模型构建是利用算法建立模型，模型评估是评估模型的表现，模型应用是将模型应用到实际情况中进行预测。

二、数据挖掘的技术1. 分类算法分类算法是数据挖掘中常用的一种算法，它通过对训练数据进行学习，构建一个分类模型，用来预测数据的类别。

常见的分类算法包括决策树、支持向量机、朴素贝叶斯和神经网络等。

2. 聚类算法聚类算法是将数据集中的对象分成多个组，使得组内的对象之间相似度较高，组间的相似度较低。

聚类算法可以用来发现数据中的潜在结构，帮助我们理解数据的内在特点。

常见的聚类算法包括K均值、层次聚类和DBSCAN等。

3. 关联规则挖掘关联规则挖掘是用来发现数据中项之间的相关性和规律的技术。

通过关联规则挖掘，我们可以找到数据中多个项之间的潜在关系，从而帮助企业做出更好的决策。

常见的关联规则挖掘算法包括Apriori和FP-growth等。

4. 时间序列分析时间序列分析是一种用来处理时间序列数据的技术，它可以识别出数据中的趋势、周期和季节性，并用来预测未来的值。

时间序列分析在金融、气象和交通等领域有着广泛的应用。

数据挖掘复习资料

第1章数据挖掘概述 (1)第2章数据采集集成与预处理技术 (3)第3章多维数据分析与组织 (7)第4章预测模型研究与应用 (9)第5章关联规则模型及应用 (12)第6章聚类分析方法与应用 (13)第7章粗糙集方法与应用 (14)第八章 (15)第九章 (16)第十章 (16)第十一章 (17)第1章数据挖掘概述数据仓库（Data Warehouse, DW）属于一种高层管理的新型数据库技术。

数据仓库通常是一个面向主题的、集成的、相对稳定的、反映历史变化的数据的集合，用以支持经营管理中的决策制定过程。

1.1.2 数据挖掘的定义与解释数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1.2 数据仓库系统的相关技术数据仓库系统中主要包括：数据仓库、数据挖掘、联机分析处理、KDD和相关的数据集成、数据标准化、数据仓库建模技术、数据挖掘技术与方法、数据集市、可视化技术、自然语言解释、人机交互、知识发现与知识推理、网络集成技术等研究内容。

1.4.2 数据挖掘的相关技术与工具数据挖掘的相关技术预测技术人工智能技术关联规则技术决策树技术聚类分析技术统计分析方法粗糙集技术知识获取、知识表示、知识推理和知识搜索技术进化计算技术决策与控制理论灰色系统技术可视化技术模糊逻辑技术并行计算技术和海量存储1.4.3 数据挖掘应用及发展针对特定领域的应用，人们开发了许多专用的数据挖掘工具，包括天文学、生物医学、医疗保健、DNA分析、银行、金融、零售业和电信业等。

评价数据挖掘工具的标准产生模式种类的数量解决复杂问题的能力扩展性和与其他产品的接口并行计算数据存取能力数据处理能力模型算法多样性和完备性自动建模能力易操作性和可视化技术第2章数据采集集成与预处理技术2.1 数据采集的对象1.时序数据所谓时间序列类型数据就是按照时间先后顺序排列各个观测记录的数据集。

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策.2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘：文本数据挖掘（Text Mining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP：又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息（维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

定义2：OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

)7、概念描述：就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么?（1）区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

数据挖掘复习资料

1、数据挖掘定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取出隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。

2、数据仓库定义：数据仓库是面向主题的、集成的、不可更新却又随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。

3、数据仓库与数据挖掘的关系：1）数据仓库系统的数据可以作为数据挖掘的数据源。

2）数据挖掘的数据源不一定必须是数据仓库系统4、数据挖掘的功能：概念描述，关联分析，分类与预测，聚类分析，趋势分析，孤立点分析，偏差分析。

5、数据挖掘的过程：P10图1-26、数据仓库的基本特征：1）数据仓库的数据是面向主题的；2）数据仓库的数据是集成的；3）数据仓库的数据时不可更新的；4）数据仓库的数据时随时间不断变化的。

7、主题的概念：主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象。

面向主题的组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。

8、对数据仓库基本特征的理解：数据仓库是面向主题的，面向主题性表示数据仓库中数据组织的基本原则，数据仓库中所有的数据都是围绕某一主题组织、展开的。

数据仓库的数据是集成的，数据仓库的数据时从原有的分散的数据库、数据文件和数据段中抽取来的，数据来源可能既有内部数据又有外部数据，因此，在数据进入数据仓库之前，必然要经过转换、统一和综合。

这一步是数据仓库建设中最关键最复杂的一步，要进行统一数据源，综合和计算两步，统一数据源包括命名规则，编码，数据特征，度量单位的统一。

数据仓库是不可更新的，数据仓库的数据主要提供企业决策分析之用，不是用来进行日常操作的，一般只保存过去的数据，而且不是随着数据源的变化实时更新，数据仓库中的数据一般不再修改。

9、数据仓库数据分为四个级别：早期细节级，当前细节级，轻度综合级和高度综合级。

数据挖掘复习要点

数据挖掘复习要点数据挖掘1.数据挖掘：从⼤量的、不完全的、有噪声的、模糊的、随机的实际应⽤数据中，提取隐含在其中的、⼈们事先不知道的，但⼜是潜在有⽤的信息和知识的过程。

（商业定义）按企业即定业务⽬标，对⼤量的企业数据进⾏探索和分析，揭⽰隐藏的、未知的或已知的规律，并进⼀步将其模型化的先进的有效⽅法。

2.数据挖掘的功能：描述和预测。

描述：刻画了数据库数据的⼀般特性；预测：在当前数据上进⾏分析，以此进⾏推断。

1)概念描述：通过对某类对象关联数据的汇总、分析和⽐较，对此类对象的内涵进⾏描述，并概括这类对象的有关特征。

2)多层次概念描述：将低层次概念集映射到⾼层次概念集的⽅法。

3)关联分析：⽬的是找出数据库中隐藏的关联⽹。

4)聚类：将物理或抽象对象的集合分组成为由类似的对象组成的多个类的⽅法。

5)分类：从数据库对象中发现共性，并将数据对象分成不同类别的⼀个过程。

6)偏差检测：偏差检测的基本⽅法是寻找观测结果与参照值之间有意义的差别。

7)孤⽴点分析：对于数据的⼀般⾏为或模型不⼀致的数据进⾏分析。

8)⾃动预测趋势和⾏为：针对具有时序属性的数据或者是序列项⽬的数据。

9)时序演变分析：寻找事件或对象⾏为随事件变化的规律或趋势，并以此来建⽴模型。

10)信息摘要：⼀种⾃动编制⽂摘的技术，即利⽤计算机将⼀篇⽂章浓缩成⼀篇短⽂的过程。

11)信息抽取：根据⼀个事先定义好的、描述所需信息规格的模板，从⾮结构化的⽂本中抽取相关信息的过程。

12)元数据挖掘，对元数据进⾏挖掘。

3.数据挖的掘步骤：1)确定业务对象；2)数据准备c)数据的转换a)数据的选择b)数据的预处理3)数据挖掘，对所得到的经过转换的数据进⾏挖掘。

4)结果分析，解释并评估结果；5)知识的同化，将分析所得到的知识集成到业务信息系统的组织结构中去。

4.数据挖掘的⼈员：1)业务分析⼈员，要求精通业务，能够解释业务对象，并根据各业务对象确定⽤于数据定义和挖掘算法的业务需要；2)数据分析⼈员，精通数据分析技术，并对统计学有较熟练的掌握，有能⼒把业务需求转化为数据挖掘的各步操作选择合适的技术；3)数据管理⼈员，精通数据管理技术，并从数据库仓库中收集数据。

数据挖掘期末复习整理

50.监督学习（185）：分类器的学习在被告知每个训练元组属于哪个类的“监督”下进行。
51.无监督学习（185）：又称为“聚类”，每个训练元组的类标号是未知的，并且要学习的类的个数或集合也可能事先不知道。
52.如何评价学习算法（187）：从以下几个方面评价：准确率、速度、鲁棒性、可升缩性、可解释性。
2.决策树（P189）:信息增益（192）例6-1；增益率（184）例6-2；
3.贝叶斯分类（P200）;贝叶斯定理（201）；朴素贝叶斯分类（202）；例6-4 P203
四．综合
1.数据挖掘产生的背景
答：随着信息科技的进步以及电子化时代的到来，人们以更快捷、更容易、更廉价的方式获取和存储数据，使得数据及信息量以指数方式增长。据粗略估计，一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数量以TB来计算。人们搜集的数据越来越多，剧增的数据背后隐藏着许多重要的信息，人们希望对其进行更高层次的分析，以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能，但无法发现数据背后隐藏的知识手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”，并且开始考虑：如何才能不被信息淹没？如何从中及时发现有用的知识、提高信息利用率？如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息？这给我们带来了另一些头疼的问题：
结果=（1-0.5）*6+0.5*7=6.5
25.五数概况（35）：由中位数，四分位数Q1和Q3,最小和最大观·测值组成，按一下序列写为：Minimun,Q1,Median,Q3,Maximum.
26.方差、标准差（35）：
N个观测值x1,x2………Xn的方差是：

数据挖掘复习总结

一、数据挖掘的概念：（商业及学术方面）定义：a.技术定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们实现不知道的、但又是潜在的有用的信息和知识的过程。

与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。

这个定义包括以下几层含义：1.数据源必须是真实的、大量的2.发现的是用户感兴趣的知识3.发现的知识是可接受的、可理解的、可运用的4.发现的知识并不要求发放之四海皆准，仅要求支持特定的业务问题。

商业定义：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关建化数据。

简而言之，数据挖掘其实就一类深层次的数据分析方法二、数据挖掘的模式模式：数据特征化：目标类数据的一般特征或特性的汇总。

通常用户指定类的数据通过数据库查询收集。

模式类型：a.概念/类描述：特征和区分数据可以与类或概念相关联。

b.关联分析关联分析发现关联规则，这些规则展示属性-值频繁地在给定数据集中一起出现的条件。

关联分析广泛用于购物篮或事务数据分析。

c.分类与预测分类是这样的过程，它找描述或识别数据类或概念的模型(或函数)，以便能够使用模型预测类标号未知的对象。

导出模型是基于对训练数据集（即，其类标号已知的数据对象）的分析。

d.聚类分析“何为聚类分析？”与分类和预测不同，聚类分析数据对象，而不考虑已知的类标号。

e.局外者分析在一些应用中（如，欺骗检测），罕见的事件可能比正规出现的那些更有趣。

局外者数据分析称作局外者挖掘。

局外者可以使用统计试验检测。

f．演变分析数据演变分析描述行为随时间变化的对象的规律或趋势，并对其建模。

三、OLAP技术，多维数据模型，数据立方体概念，构建星型数据库模型OLAP技术（联机分析处理）：可以用不同的格式组织和提供数据，以满足不同用户的各种需求。

特点：面向市场的，用于知识工人的数据分析、管理大量历史数据，提供汇总和聚集机制，并在不同的粒度级别上存储和管理信息、通常采用星形或者雪花模型以及面向主题的数据库设计尝尝跨越数据库模式的多个版本，还可以处理来自不同组织的信息，由多个数据存储集成的信息、访问大部分是只读操作、多位数据模型：这种模型将数据看成数据立方体形式数据立方体：允许从多维对数据建模和观察，它由维和事实定义，维是关于一个组织想要保存记录的透视图或实体，事实是数值度量的。

数据挖掘复习题

数据挖掘复习题数据挖掘复习题数据挖掘是一门涉及从大量数据中提取有用信息的学科。

在当今信息爆炸的时代，数据挖掘的重要性日益凸显。

为了更好地理解和应用数据挖掘的知识，我们需要进行复习和巩固。

下面将介绍一些常见的数据挖掘复习题，帮助大家回顾相关概念和技术。

一、数据预处理数据预处理是数据挖掘中非常重要的一步，它包括数据清洗、数据集成、数据转换和数据规约。

请简要介绍一下这四个步骤的含义和作用。

数据清洗是指对数据集中的缺失值、异常值和噪声进行处理，以提高数据质量。

数据集成是将多个数据源中的数据进行合并，消除冗余和重复。

数据转换是对数据进行归一化、标准化等处理，以便于后续的分析和挖掘。

数据规约是通过抽样、特征选择等方法减少数据集的规模，提高挖掘效率。

二、分类与预测分类与预测是数据挖掘中的常见任务之一。

请简要介绍一下分类和预测的概念，并举例说明它们在实际应用中的意义。

分类是指根据已有的样本数据，将新的数据实例划分到已知类别中的一种方法。

预测是根据已有的数据模型，对未来的数据进行推断和预测。

例如，在电子商务中，我们可以根据用户的购买历史和行为特征，将用户划分为潜在的高价值客户和普通客户，以便于制定个性化的营销策略。

三、关联规则挖掘关联规则挖掘是发现数据集中项之间的相关性和关联性的一种方法。

请简要介绍一下关联规则挖掘的过程，并说明它在市场篮子分析中的应用。

关联规则挖掘的过程包括生成候选项集、计算项集的支持度和置信度，筛选出具有足够支持度和置信度的关联规则。

在市场篮子分析中，我们可以通过关联规则挖掘来发现顾客购买商品的关联规律，从而进行交叉销售和精准推荐。

四、聚类分析聚类分析是将相似的数据对象分组到同一类别中的一种方法。

请简要介绍一下聚类分析的过程，并说明它在客户细分和社交网络分析中的应用。

聚类分析的过程包括选择合适的距离度量和聚类算法，计算数据对象之间的相似度，将相似的对象分组到同一类别中。

在客户细分中，我们可以通过聚类分析将顾客划分为不同的群体，以便于制定个性化的营销策略。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘：是从大量数据中发现有趣（非平凡的、隐含的、先前未知、潜在有用）模式，这些数据可以存放在数据库，数据仓库或其他信息存储中。

挖掘流程：(1)学习应用域（2）目标数据创建集（3）数据清洗和预处理（4）数据规约和转换（5）选择数据挖掘函数（总结、分类、回归、关联、分类）（6）选择挖掘算法（7）找寻兴趣度模式（8）模式评估和知识展示（9）使用挖掘的知识概念/类描述：一种数据泛化形式，用汇总的、简洁的和精确的方法描述各个类和概念，通过（1）数据特征化：目标类数据的一般特性或特征的汇总；（2）数据区分：将目标类数据的一般特性与一个或多个可比较类进行比较；（3）数据特征化和比较来得到。

关联分析：发现关联规则，这些规则展示属性-值频繁地在给定数据集中一起出现的条件，通常要满足最小支持度阈值和最小置信度阈值。

分类：找出能够描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象类，导出的模型是基于训练集的分析。

导出模型的算法：决策树、神经网络、贝叶斯、（遗传、粗糙集、模糊集）。

预测：建立连续值函数模型，预测空缺的或不知道的数值数据集。

孤立点：与数据的一般行为或模型不一致的数据对象。

聚类：分析数据对象，而不考虑已知的类标记。

训练数据中不提供类标记，对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组，从而产生类标号。

第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程。

从一个或多个数据源收集信息，存放在一个一致的模式下，并且通常驻留在单个站点。

数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。

面向主题：排除无用数据，提供特定主题的简明视图。

集成的：多个异构数据源。

时变的：从历史角度提供信息，隐含时间信息。

非易失的：和操作数据的分离，只提供初始装入和访问。

联机事务处理OLTP：主要任务是执行联机事务和查询处理。

联系分析处理OLAP：数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。

这种系统可以用不同的格式和组织提供数据。

OLAP是一种分析技术，具有汇总、合并和聚集功能，以及从不同的角度观察信息的能力。

多维数据模型:多维数据模型将数据看作数据立方体，允许从多个维度对数据建模和观察。

包含维表和事实表。

最流行的数据仓库数据模型是多维数据模型，这种模型可以是星形模式（事实表在中间，连接到多个维表）、雪花模式（星型的变种，某些维表规范化，分解到附加维表，以减少冗余）、事实星座模式（多个事实表共享维表）。

数据立方体：允许从多维对数据建模和观察。

它由维和事实定义。

维：关于一个组织想要保存记录的透视图和实体，每个维都有一个表与之相关联，成为维表。

事实表：包括事实的名称和度量，以及每个相关维表的码。

方体Cuboid：每个数据立方体。

基本方体Base Cuboid：存放最底层汇总。

顶点方体Apex Cuboid：最高层汇总，all。

数据立方体D a ta Cube：给定维的集合，可以对维的每个可能子集产生一个方体。

结果成为方体的格。

多维数据立方体：提供数据的多维视图，并允许预计算和快速访问汇总数据。

度量：数值函数，通过对给定点的各维-值对聚集数据，计算该点的度量值。

概念分层：映射序列，将底层概念映射到更一般的较高层概念。

OLAP操作:上卷：上卷操作通过一个维的概念分层向上攀升或者通过维规约，在数据立方体上进行聚集。

下钻：下钻是上卷的逆操作，它由不太详细的数据到更详细的数据。

切片和切块：切片对一个维进行选择。

切块对两个以上维进行选择，定义子立方体。

转轴：可视化操作，转动视角。

钻过：跨越多个事实表。

钻透：钻到后端关系表。

数据仓库模型的不同类型：1、企业仓库：收集了关于跨部门的整个组织主题的所有信息，跨越整个组织，因此是企业范围的。

2、数据集市：是企业仓库的一个部门子集，它针对选定的主题，对于特定的用户是有用的，因此是部门范围的，其数据通常是汇总的。

3、虚拟仓库：虚拟仓库是操作数据库上视图的集合，易于建立，但需要操作数据库服务器具有剩余能力。

数据仓库的三层结构：1、仓库数据服务器：使用后端工具（抽取、清晰、转换、装载、刷新）和实用程序由操作数据库和其他外部数据源提取数据，进行数据清理和变换并放入仓库底层2、OLAP服务器：直接实现对多维数据的操作,直接为商务用户提供来自数据仓库或数据集市的多维数据。

ROLAP:多维数据操作映射到标准关系操作。

MOLAP：多维数据视图映射到数组中.HOLAP:结合，历史数据ROLAP,频繁访问数据放到MOLAP.3、前端客户层：包括查询和报表工具、分析工具或数据挖掘工具。

数据仓库的设计：1、分析建立企业模型并映射到数据仓库概念模型；2、逻辑模型的设计3、物理模型的设计OLAP建模：维表设计（维的变化，维表的共享，层次信息和分类信息的位置）、事实表设计（事实表的特性，通用数据和专用数据事实表）逻辑模型设计：1、系统数据量估算；2、数据粒度的选择；3、数据的分割（到各自的物理单元单独处理）4、表的合理划分（字段的更新频率和访问频率不一样——稳定性）5、删除纯操作数据（“收款人”），增加导出字段（“销售总量”）元数据：描述数据的数据，定义数据仓库对象的数据。

包括数据仓库的结构、操作元数据（数据血统、流通，监控信息）、用于汇总的算法、从操作环境到数据仓库的映射；关于系统性能的数据、商务元数据。

部分物化：选择性预计算各种方体子集或子立方体。

冰山立方体：是一个数据立方体，只存放聚集值大于某个最小支持度阈值的立方体单元。

数据立方体计算中多路数组聚集，多路计算 BUC ：bottom-up computation自底向上构造，一种计算稀疏冰山立方体的算法。

数据立方体允许以多维数据建模和观察，它由维和事实定义。

维是关于一个组织想要记录的透视或实体，事实是数值度量的。

物理模型的设计：1.确定数据的存储结构（并行RAID ）2.索引策略（位图索引、连接索引）3.数据存储策略与性能优化（多路聚集优化、表的归并、分割表的存放、按列存储、存储分配优化）4.数据装载接口5.并行优化设计位图索引：在给定属性的位图索引中，属性的每一个值v 都有一个位向量，长度为记录的总数，如果数据表中给定行上该属性的值为v, 则在位图索引的对应行上标注该值的位为1，其余为0.，不适用于基数很大的属性。

连接索引：传统的索引将给定列上的值映射到具有该值的行的列表上，连接索引登记来自关系数据库的两个关系的可连接行，对于维护来自可连接的关系的外码和与之匹配的主码的联系特别有用（事实表——维表）。

N 维，且每个维有Li 概念封层，可得到的立方体有多路数组聚集：是数据立方体的高效计算方式。

使用多维数组作为基本数据结构，自底向上的、共享地计算完全数据立方体。

使用数组直接寻址的典型MOLAP 。

方法：最大维在形成单块的平面上。

最小为在形成单面的平面上，每个平面必须被排序，并按大小递增的顺序被计算。

数据预处理数据预处理：不完整的、含噪音的、不一致的1、数据清洗（缺失值（缺少属性值或某些感兴趣的属性，或仅包含聚集数据）、噪声（错误或存在偏离期望的离群值）、非一致）、2、数据集成（模式集成（识别实体）、发现冗余（相关分析检测）、数据值冲突检测和处理（不同数据源属性值不同））、3、数据变换（光滑（去掉噪声）、聚集（数据汇总）、泛化（概念分层，高层替换低层）、规范化（按比例缩放）、属性构造）4、数据规约（数据立方体聚集、维度规约(属性子集选择)、数值规约、离散化和概念分层产生）、5、数据离散化（数值数据：分箱、直方图、聚类、基于熵的离散化、基于直观划分离散化3-4-5规则（区间的最高有效位的取值个数）；分类数据：用户或专家在模式级显示说明属性偏序、通过显示数据分组说明分层结构的一部分、说明属性集但不说明偏序（层次高，属性值个数越少）、只说明部分属性集（嵌入数据语义，是语义相关的属性集捆绑在一起））。

噪声：被测量的变量的随机误差或方差。

噪音数据处理：分箱（按箱平均值平滑、按箱中值平滑、按箱边界平滑）、回归、聚类。

规范化：最小-最大规范化；Z-score 规范化；小数定标规范化数据规约技术：得到数据集的规约显示，小得多，但保持原数据的完整性。

挖掘更有效。

属性子集选择：检测并删除不相关、弱相关或冗余的属性和维维规约：使用编码机制减小数据集的规模,如压缩。

)11(+∏==ni i L T数值规约：用替代的、较小的数据表示替换或估计数据，如参数模型or非参方法（聚类、抽样、直方图（Equi-depth、equi-width、v-optimal（最小方差）、maxdiff（考虑每对相邻的之间的差，桶的边界具有<桶数-1 >的最大对））。

概念分层：对一个属性递归地进行离散化，产生属性值的分层或多分辨率划分。

属性的原始数据用更高层或离散化的值替换。

离散化：用少数区间标记替换连续属性的数值，从而减少和简化原来的数据。

特征化和区分：描述性数据挖掘：以简洁概要的方式描述概念或数据集，并提供数据的有趣的一般性质。

预测性数据挖掘：分析数据，建立一个或一组连续值函数模型，预测不知道的数值数据值。

概念描述包括特征化和区分。

特征化：提供给定数据汇集的简洁汇总。

区分：提供两个或多个数据集的比较描述。

OLAP VS 概念描述：处理类型、自动化方面比较各自优缺点。

Concept description:◆can handle complex data types of the attributes and their aggregations◆ a more automated processOLAP:◆restricted to a small number of dimension and measure types◆user-controlled process决策树：一种类似于流程图的树结构，其中每个结点代表在一个属性值上的测试，每个分支代表测试的一个输出，而树叶代表类或类分布。

数据泛化：将数据库中的大量任务相关数据从低概念层提升到更高概念层的过程。

数据泛化途径：1、数据立方体（OLAP途径）2、面向属性的归纳面向属性的归纳：1、使用数据库查询收集任务相关的数据；2、考察相关任务集中的各个属性并进行泛化：通过属性删除（两种情况）或者属性泛化3、通过合并相等的广义元组（每个广义元组代表一个规则析取）并累计对应的计数值进行聚集面向属性归纳方法产生的泛化描述表现形式：广义关系（表）、交叉表、图、量化特征规则。

属性泛化控制：属性泛化阈值控制（对所有的属性设置一个泛化阈值，或者对每个属性设置一个阈值。

如果属性的不同值个数大于属性泛化阈值，则应当进行进一步的属性删除或属性泛化）广义关系阈值控制：为广义关系设置一个阈值。