数据挖掘复习知识点整理

合集下载

数据挖掘-知识点

数据挖掘-知识点

1、数据库与数据仓库的对比数据库 数据仓库面向应用 面向主题数据是详细的 数据是综合和历史的保持当前数据 保存过去和现在的数据数据是可更新的 数据不更新对数据的操作是重复的 对数据的操作是启发式的操作需求是事先可知的 操作需求是临时决定的一个操作存取一个记录 一个操作存取一个集合数据非冗余 数据时常冗余操作比较频繁 操作相对不频繁查询基本是原始数据 查询基本是经过加工的数据事务处理需要的是当前数据 决策分析需要过去和现在的数据很少有复杂的计算 有很多复杂的计算支持事务处理 支持决策分析2、OLTP与OLAP,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁联机事物处理(On Line Transaction Processing的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。

OLTP OLAP数据库数据 数据仓库数据细节性数据 综合性数据当前数据 历史数据经常更新 不更新,但周期刷新对响应时间要求高 响应时间合理用户数量大用户数量相对较小面向操作人员,支持日常操作 面向决策人员,支持决策需要面向应用,事务驱动面向分析,分析驱动3、数据字典和元数据:数据字典:是数据库中各类数据描述的集合,它在数据库设计中具有很重要的地位。

由:数据项;数据结构;数据流;数据存储;处理过程5部分组成。

元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。

数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据 :(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据4、数据从数据库到知识的流程:DB-->DW-->OLAP-->DM-->KDD-->DSS-->AI5、数据挖掘的含义:知识发现(KDD):从数据中发现有用知识的整个过程。

数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典单选1、下列选项哪个描述的是“训练样本”(B)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断2、下列选项哪个描述的是“分类”(C)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断3、列哪个选项描述的不是“聚类”(C)A、搜索引擎返回的文档中,将相似的文档聚合成一类B、电子商务网站数据中,购物历史相似的用户自动聚合成一组C、电子商务网站数据中,分析出用户常常一起购买的商品,组合到一起促销D、在电子病历数据中,将体检指标相似的样本自动聚合成一组4、在MATLAB语言中,以下说法中错误的是A、MATLAB中默认的数据类型是doubleB、3<5的运算结果是logical类型C、变量Abc和abc是代表两个相同的变量D、灰度图的图像矩阵中的数据是uint8类型5、数据对象的别名不包括(D)A、记录B、样本C、向量D、特征6、属性的别名不包括(B)A、特征B、样本C、字段D、维7、下列说法不正确的是(C)A、测量标度是将数值或符号与对象的属性相关联的规则B、属性的性质不必与用来度量它的值的性质完全相同C、即使在不同的应用问题中,同一个物理量也必然使用同一种类型的属性来描述D、属性类型可以划分为:标称、序数、区间、比率这四种8、某办公自动化系统中,采用出生年份表示雇员的年龄,这是什么类型属性(C)A、标称B、序数C、区间D、比率9、某学籍管理系统中,采用百分制表示学生分数,这是什么类型属性(D)A、标称B、序数C、区间D、比率10、描述一个数据集的属性主要不包括(A)A、置信度B、维度C、分辨率D、稀疏性11、下列说法中错误的是(D)A、噪声是测量误差的随机部分B、数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。

数据挖掘考试题库完整

数据挖掘考试题库完整

一、名词解释1. 数据仓库:是一种新的数据处理体系结构 .是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化 (不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。

2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。

3. OLAP:OLAP 是在OLTP 的基础上发展起来的.以数据仓库为基础的数据分析处理 .是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作 .侧重对分析人员和高层管理人员的决策支持。

4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度影响存放在数据仓库中的数据量的大小 .同时影响数据仓库所能回答查询问题的细节程度。

5. 数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如 0-1) 以提高数据挖掘效率的方法。

规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。

6. 关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。

如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。

7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

8. OLTP:OLTP 为联机事务处理的缩写.OLAP 是联机分析处理的缩写。

前者是以数据库为基础的.面对的是操作人员和低层管理人员 .对基本数据进行查询和增、删、改等处理。

9. ROLAP:是基于关系数据库存储方式的 .在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。

10. MOLAP:是基于类似于“超立方”块的OLAP 存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构 .通过直接偏移计算进行存取。

11. 数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要 .并且能够得到和原始数据相同的分析结果。

知识点归纳 数据挖掘中的聚类分析与分类算法

知识点归纳 数据挖掘中的聚类分析与分类算法

知识点归纳数据挖掘中的聚类分析与分类算法数据挖掘中的聚类分析与分类算法数据挖掘是指从大量数据中自动发现有用的模式、关系或规律的过程。

在数据挖掘过程中,聚类分析和分类算法是两个常用且重要的技术。

本文将对这两个知识点进行归纳总结。

一、聚类分析聚类分析是将一组无标签的数据对象进行分组或聚类的数据挖掘技术。

其目标是通过对象之间的相似性将它们划分为若干个簇,使得同一簇内的对象相似度高,不同簇之间的相似度低。

聚类分析广泛应用于市场分割、社交网络分析、图像处理等领域。

常用的聚类算法有以下几种:1. K-means算法:K-means是一种基于距离度量的聚类算法。

它通过逐步迭代,将数据集分为K个簇,使得每个数据对象与本簇内的其他对象的相似度最高。

2. 层次聚类算法:层次聚类算法是一种通过计算不同类别之间的相似性,并逐步合并相似度高的类别的方式进行数据聚类的方法。

Hierarchical Agglomerative Clustering(HAC)是层次聚类的一种常见算法。

3. 密度聚类算法:密度聚类算法是一种通过计算对象的密度来确定簇的方法,常见的算法有DBSCAN和OPTICS算法。

这类算法可以有效地发现具有不同密度分布的聚类。

二、分类算法分类算法是将带有标签的数据集按照类别或标签进行划分的数据挖掘技术。

通过学习已有数据集的特征和类别标签,分类算法能够对新的未标记数据进行分类预测。

分类算法广泛应用于垃圾邮件过滤、文本分类、风险评估等领域。

常用的分类算法有以下几种:1. 决策树算法:决策树算法是一种基于树形结构的分类算法。

它通过对数据集进行递归分割,使得每个子节点具有最佳的纯度或信息增益,从而实现对数据的分类。

2. 朴素贝叶斯算法:朴素贝叶斯算法是一种基于条件概率的分类算法。

它假设特征之间相互独立,并通过计算条件概率来进行分类预测。

3. 支持向量机算法:支持向量机算法是一种通过寻找最优分割超平面将数据划分为不同类别的算法。

数据挖掘导论知识点总结

数据挖掘导论知识点总结

数据挖掘导论知识点总结数据挖掘是一门综合性的学科,它涵盖了大量的知识点和技术。

在本文中,我将对数据挖掘的导论知识点进行总结,包括数据挖掘的定义、历史、主要任务、技术和应用等方面。

一、数据挖掘的定义数据挖掘是从大量的数据中发掘出有价值的信息和知识的过程。

它是一种将数据转换为有意义的模式和规律的过程,从而帮助人们进行决策和预测的技术。

数据挖掘能够帮助我们从海量的数据中找到潜在的关联、规律和趋势,从而为决策者提供更准确和具有实际意义的信息。

二、数据挖掘的历史数据挖掘的概念最早可追溯到20世纪60年代,当时统计学家和计算机科学家开始尝试使用计算机技术来处理和分析大量的数据。

随着计算机硬件和软件技术的不断发展,数据挖掘逐渐成为一门独立的学科,并得到了广泛应用。

三、数据挖掘的主要任务数据挖掘的主要任务包括分类、聚类、关联规则挖掘、异常检测和预测等。

分类是将数据划分为多个类别的过程,其目的是帮助我们将数据进行分组和识别。

聚类是将数据划分为多个簇的过程,其目的是发现数据中的潜在模式和规律。

关联规则挖掘是发现数据中的关联规则和频繁项集的过程,其目的是发现数据中的潜在关联和趋势。

异常检测是发现数据中的异常值和异常模式的过程,其目的是发现数据中的异常现象。

预测是使用数据挖掘技术对未来进行预测的过程,其目的是帮助我们做出更准确的决策。

四、数据挖掘的技术数据挖掘的技术包括统计分析、机器学习、人工智能、数据库技术和数据可视化等。

统计分析是数据挖掘的基础技术,它包括描述统计、推断统计和假设检验等方法。

机器学习是一种使用算法和模型来识别数据模式和规律的技术,常见的机器学习算法包括决策树、神经网络、支持向量机和朴素贝叶斯等。

人工智能是数据挖掘的前沿技术,它包括自然语言处理、图像识别和智能决策等方面。

数据库技术是数据挖掘的技术基础,包括数据存储、数据检索和数据管理等技术。

数据可视化是数据挖掘的重要技术,它能够帮助我们将数据呈现为可视化的图表和图形,从而更直观地理解数据。

数据挖掘知识点归纳

数据挖掘知识点归纳

知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。

2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。

3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息,是汇总的。

5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。

知识点二可以挖掘什么数据1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳,以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。

面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。

形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。

结果描述可以用广义关系或者规则(也叫特征规则)提供。

9.用规则表示的区分描述叫做区分规则。

10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。

四川省考研计算机应用技术复习资料数据挖掘与大数据分析知识点梳理

四川省考研计算机应用技术复习资料数据挖掘与大数据分析知识点梳理

四川省考研计算机应用技术复习资料数据挖掘与大数据分析知识点梳理数据挖掘和大数据分析是计算机应用技术领域中的关键概念和技术。

随着大数据时代的到来,对数据的分析和挖掘能力成为企业和组织赖以生存和发展的重要利器。

本文将对四川省考研计算机应用技术复习资料中的数据挖掘与大数据分析知识点进行梳理,以帮助考生进行系统的复习和准备。

一、数据挖掘介绍数据挖掘是从大规模的数据集中发现隐藏的模式、关联和知识的过程。

它是将统计学、机器学习、数据库技术和人工智能相结合的跨学科领域。

数据挖掘的技术包括分类、聚类、关联规则挖掘、异常检测等。

1.1 数据挖掘的应用领域数据挖掘技术在多个领域有着广泛的应用。

例如,电子商务领域可以利用数据挖掘技术进行用户行为分析、个性化推荐等;金融领域可以通过数据挖掘技术进行信用评估、风险预测等;医疗领域可以利用数据挖掘技术进行疾病诊断、药物研发等。

1.2 数据挖掘的基本流程数据挖掘的基本流程包括问题定义、数据预处理、特征选择与数据变换、模型构建与评估等阶段。

每个阶段都有相应的技术和方法。

二、大数据分析介绍大数据分析是通过对大规模的数据进行分析,从中获取价值和洞察。

大数据分析是为了解决传统数据处理工具和方法无法适应大规模数据处理的需求而提出的。

2.1 大数据分析的关键技术大数据分析依赖于多种关键技术。

其中,数据存储技术包括分布式文件系统和NoSQL数据库;数据处理技术包括分布式计算和并行处理;数据分析技术包括数据挖掘、机器学习和深度学习等。

2.2 大数据分析的挑战和应用大数据分析面临着数据量大、处理速度快、模型复杂等挑战。

然而,大数据分析也具有广泛的应用前景。

如智能交通、智能城市、智能制造等领域都离不开大数据的支持和分析。

三、数据挖掘与大数据分析的关系数据挖掘和大数据分析是紧密相关的。

数据挖掘是从大数据中发现知识和模式的过程,而大数据分析侧重于对大数据进行统计和分析,并从中获得信息和洞察。

两者相辅相成,共同为实际应用提供支持。

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支,它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。

对于学习者来说,掌握这两个领域的知识至关重要。

以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。

一、数据挖掘概述数据挖掘,简单来说,就是从大量的数据中提取出有用的信息和知识的过程。

它不仅仅是数据的收集和存储,更重要的是通过一系列的技术和方法,对数据进行深入分析和挖掘,以发现潜在的规律和趋势。

数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。

在数据分类中,我们根据已知的类别标签,将新的数据划分到相应的类别中。

聚类则是将数据按照相似性进行分组,而无需事先知道类别信息。

关联规则挖掘用于发现数据中不同属性之间的关联关系,例如购买了商品 A 的顾客往往也会购买商品 B。

异常检测则是识别出与大多数数据不同的异常值。

数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。

在数据准备阶段,需要对原始数据进行清理、转换和集成,以确保数据的质量和一致性。

数据探索阶段则通过可视化和统计分析等方法,对数据的特征和分布有一个初步的了解。

模型建立阶段选择合适的算法和模型,并使用训练数据进行训练。

模型评估通过使用测试数据来评估模型的性能,如准确率、召回率、F1 值等。

最后,将性能良好的模型部署到实际应用中。

二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。

它可以分为监督学习、无监督学习和强化学习三大类。

监督学习是在有标记的数据集上进行学习,常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。

线性回归用于预测连续值,逻辑回归用于分类问题,决策树可以生成易于理解的规则,支持向量机在处理高维数据和非线性问题上有较好的表现。

无监督学习是在无标记的数据集中寻找模式和结构,例如聚类算法(如 KMeans 聚类、层次聚类)和主成分分析(PCA)等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘:是从大量数据中发现有趣(非平庸的、隐含的、先前未知、潜在实用)模式,这些数据可以存放在数据库,数据仓库或者其他信息存储中。

挖掘流程:(1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类) (6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过 (1) 数据特征化:目标类数据的普通特性或者特征的汇总; (2) 数据区分:将目标类数据的普通特性与一个或者多个可比较类进行比较; (3)数据特征化和比较来得到。

关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起浮现的条件,通常要满足最小支持度阈值和最小置信度阈值。

分类:找出能够描述和区分数据类或者概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。

导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、含糊集)。

预测:建立连续值函数模型,预测空缺的或者不知道的数值数据集。

孤立点:与数据的普通行为或者模型不一致的数据对象。

聚类:分析数据对象,而不考虑已知的类标记。

训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或者分组,从而产生类标号。

第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。

从一个或者多个数据源采集信息,存放在一个一致的模式下,并且通常驻留在单个站点。

数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。

面向主题:排除无用数据,提供特定主题的简明视图。

集成的:多个异构数据源。

时变的:从历史角度提供信息,隐含时间信息。

非易失的:和操作数据的分离,只提供初始装入和访问。

联机事务处理OLTP:主要任务是执行联机事务和查询处理。

联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或者‘知识工人’提供服务。

这种系统可以用不同的格式和组织提供数据。

OLAP 是一种分析技术,具有汇总、合并和会萃功能,以及从不同的角度观察信息的能力。

特征特征面向用户功能DB 数据访问OLTP 操作处理事务DBA,办事员日常操作基于ER 当前最新读/写OLAP 信息处理分析知识工人决策支持星型,雪花时间跨度读特征汇总用户操作访问记录优先DB 规模度量OLTP 原始,详细数千主码索引数十个高性能可用100mb-gb事务OLAP 汇总,统一数百大量扫描数百万高灵便100gb-tb 查询多维数据模型:多维数据模型将数据看做数据立方体,允许从多个维度对数据建模和观察。

包含维表和事实表。

最流行的数据仓库数据模型是多维数据模型,这种模型可以是星形模式 (事实表在中间,连接到多个维表) 、雪花模式(星型的变种,某些维表规范化,分解到附加维表,以减少冗余)、事实星座模式(多个事实表共享维表)。

数据立方体:允许从多维对数据建模和观察。

它由维和事实定义。

维:关于一个组织想要保存记录的透视图和实体,每一个维都有一个表与之相关联,成为维表。

事实表:包括事实的名称和度量,以及每一个相关维表的码。

方体Cuboid:每一个数据立方体。

基本方体Base Cuboid:存放最底层汇总。

顶点方体Apex Cuboid :最高层汇总,all 。

数据立方体Data Cube:给定维的集合,可以对维的每一个可能子集产生一个方体。

结果成为方体的格。

多维数据立方体:提供数据的多维视图,并允许估计算和快速访问汇总数据。

度量:数值函数,通过对给定点的各维-值对会萃数据,计算该点的度量值。

概念分层:映射序列,将底层概念映射到更普通的较高层概念。

OLAP 操作:上卷:上卷操作通过一个维的概念分层向上攀升或者通过维规约,在数据立方体上进行会萃。

下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。

切片和切块:切片对一个维进行选择。

切块对两个以上维进行选择,定义子立方体。

转轴:可视化操作,转动视角。

钻过:跨越多个事实表。

钻透:钻到后端关系表。

数据仓库模型的不同类型:1、企业仓库:采集了关于跨部门的整个组织主题的所有信息,跨越整个组织,因此是企业范围的。

2、数据集市:是企业仓库的一个部门子集,它针对选定的主题,对于特定的用户是实用的,因此是部门范围的,其数据通常是汇总的。

3、虚拟仓库:虚拟仓库是操作数据库上视图的集合,易于建立,但需要操作数据库服务器具有剩余能力。

数据仓库的三层结构:1 、仓库数据服务器:使用后端工具(抽取、清晰、转换、装载、刷新) 和实用程序由操作数据库和其他外部数据源提取数据,进行数据清理和变换并放入仓库底层2、OLAP 服务器:直接实现对多维数据的操作,直接为商务用户提供来自数据仓库或者数据集市的多维数据。

ROLAP:多维数据操作映射到标准关系操作。

MOLAP:多维数据视图映射到数组中.HOLAP:结合,历史数据ROLAP,频繁访问数据放到MOLAP.3 、前端客户层:包括查询和报表工具、分析工具或者数据挖掘工具。

数据仓库的设计:1 、分析建立企业模型并映射到数据仓库概念模型;2、逻辑模型的设计3、物理模型的设计OLAP 建模:维表设计 (维的变化,维表的共享,层次信息和分类信息的位置)、事实表设计 (事实表的特性,通用数据和专用数据事实表)逻辑模型设计:1 、系统数据量估算;2 、数据粒度的选择;3 、数据的分割(到各自的物理单元单独处理)4 、表的合理划分 (字段的更新频率和访问频率不一样——稳定性)5 、删除纯操作数据(“收款人”),增加导出字段(“销售总量”)元数据:描述数据的数据,定义数据仓库对象的数据。

包括数据仓库的结构、操作元数据 (数据血统、流通,监控信息)、用于汇总的算法、从操作环境到数据仓库的映射;关于系统性能的数据、商务元数据。

部份物化:选择性估计算各种方体子集或者子立方体。

冰山立方体: 是一个数据立方体,只存放会萃值大于某个最小支持度阈值的立方体单元。

数据立方体计算中多路数组会萃,多路计算BUC :bottom-up computation自底向上构造,一种计算稀疏冰山立方体的算法。

数据立方体允许以多维数据建模和观察,它由维和事实定义。

维是关于一个组织想要记录的透视或者实体,事实是数值度量的。

物理模型的设计:1.确定数据的存储结构(并行RAID )2.索引策略(位图索引、连接索引)3.数据存储策略与性能优化(多路会萃优化、表的归并、分割表的存放、按列存储、存储分配优 化)4.数据装载接口5.并行优化设计位图索引: 在给定属性的位图索引中,属性的每一个值 v 都有一个位向量,长度为记录的总数, 如果数据表中给定行上该属性的值为 v, 则在位图索引的对应行上标注该值的位为 1,其余为 0., 不合用于基数很大的属性。

连接索引: 传统的索引将给定列上的值映射到具有该值的行的列表上, 连接索引登记来自关系数 据库的两个关系的可连接行, 对于维护来自可连接的关系的外码和之匹配的主码的联系特殊有 N 用事,且实每表个—维—有维L i 表)概。

念封层,可得到的立方体有 T = i 1(L i +1) 多路数组会萃: 是数据立方体的高效计算方式。

使用多维数组作为基本数据结构,自底向上的、 共享地计算彻底数据立方体。

使用数组直接寻址的典型 MOLAP 。

方法:最大维在形成单块的平面上。

最小为在形成单面的平面上, 每一个平面必须被排序,并按大 小递增的顺序被计算。

数据预处理数据预处理: 不完整的、 含噪音的、不一致的1 、数据清洗 (缺失值(缺少属性值或者某些感兴趣的属性,或者仅包含会萃数据)、噪声 (错误或者存在偏离期望的离群值)、非一致)、2、数据集成 (模式集成 (识别实体)、发现冗余(相关分析检测)、数据值冲突检测和处理 (不同数据源属性值不同))、3、数据变换 (光滑 (去掉噪声)、会萃(数据汇总)、泛化(概念分层,高层替换低层)、 规范化(按比例缩放)、属性构造)4、数据规约 (数据立方体会萃、维度规约(属性子集选择)、数值规约、离散化和概念分层 产生)、5、数据离散化 (数值数据: 分箱、直方图、聚类、基于熵的离散化、 基于直观划分离散化 3-4-5 规则(区间的最高有效位的取值个数);分类数据: 用户或者专家在模式级显示说明属性偏序、通过显示数据分组说明分层结构的一部份、 说明属性集但不说明偏序 (层次高,属性值个数越少)、只说明部份属性集(嵌入数据语义,是 语义相关的属性集捆绑在一起))。

噪声:被测量的变量的随机误差或者方差。

噪音数据处理: 分箱 (按箱平均值平滑、按箱中值平滑、按箱边界平滑)、回归、聚类。

规范化: 最小-最大规范化;Z-score 规范化;小数定标规范化数据规约技术:得到数据集的规约显示,小得多, 但保持原数据的完整性。

挖掘更有效。

属性子集选择:检测并删除不相关、 弱相关或者冗余的属性和维维规约:使用编码机制减小数据集的规模,如压缩。

数值规约:用替代的、较小的数据表示替换或者估计数据,如参数模型or 非参方法(聚类、抽样、直方图(Equi-depth 、equi-width 、v-optimal (最小方差)、maxdiff (考虑每对相邻的之间的差,桶的边界具有<桶数-1 >的最大对))。

概念分层:对一个属性递归地进行离散化,产生属性值的分层或者多分辨率划分。

属性的原始数据用更高层或者离散化的值替换。

离散化:用少数区间标记替换连续属性的数值,从而减少和简化原来的数据。

特征化和区分:描述性数据挖掘:以简洁概要的方式描述概念或者数据集,并提供数据的有趣的普通性质。

预测性数据挖掘:分析数据,建立一个或者一组连续值函数模型,预测不知道的数值数据值。

概念描述包括特征化和区分。

特征化:提供给定数据汇集的简洁汇总。

区分:提供两个或者多个数据集的比较描述。

OLAP VS 概念描述:处理类型、自动化方面比较各自优缺点。

Concept description:令can handle complex data types of the attributes and their aggregations令 a more automated processOLAP:令restricted to a small number of dimension and measure types令user-controlled process决策树:一种类似于流程图的树结构,其中每一个结点代表在一个属性值上的测试,每一个分支代表测试的一个输出,而树叶代表类或者类分布。

数据泛化:将数据库中的大量任务相关数据从低概念层提升到更高概念层的过程。

相关文档
最新文档