数据挖掘期末复习整理
数据挖掘复习知识点整理超详细

数据挖掘复习知识点整理超详细必考知识点:信息增益算法/ ID3决策树(计算) (详细见教材)使⽤朴素贝叶斯分类预测类标号(计算)FP-TREE(问答) (详细见教材)数据仓库的设计(详见第⼆章)(问答) (见PPT)数值规约Equi-depth、equi-width、v-optimal、maxdiff(问答) (详细见教材)BUC (这个也要考,但不记得怎么考的了)后向传播神经⽹络(名词解释)K-平均,K-中⼼点,DBSCAN解析特征化(这个也要考)总论数据挖掘:是从⼤量数据中发现有趣(⾮平凡的、隐含的、先前未知、潜在有⽤)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。
挖掘流程:(1)学习应⽤域(2)⽬标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)(6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展⽰(9)使⽤挖掘的知识概念/类描述:⼀种数据泛化形式,⽤汇总的、简洁的和精确的⽅法描述各个类和概念,通过(1)数据特征化:⽬标类数据的⼀般特性或特征的汇总;(2)数据区分:将⽬标类数据的⼀般特性与⼀个或多个可⽐较类进⾏⽐较;(3)数据特征化和⽐较来得到。
关联分析:发现关联规则,这些规则展⽰属性-值频繁地在给定数据集中⼀起出现的条件,通常要满⾜最⼩⽀持度阈值和最⼩置信度阈值。
分类:找出能够描述和区分数据类或概念的模型,以便能够使⽤模型预测类标号未知的对象类,导出的模型是基于训练集的分析。
导出模型的算法:决策树、神经⽹络、贝叶斯、(遗传、粗糙集、模糊集)。
预测:建⽴连续值函数模型,预测空缺的或不知道的数值数据集。
孤⽴点:与数据的⼀般⾏为或模型不⼀致的数据对象。
聚类:分析数据对象,⽽不考虑已知的类标记。
训练数据中不提供类标记,对象根据最⼤化类内的相似性和最⼩化类间的原则进⾏聚类或分组,从⽽产⽣类标号。
第⼆章数据仓库数据仓库是⼀个⾯向主题的、集成的、时变的、⾮易失的数据集合,⽀持管理部门的决策过程。
数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策.2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。
在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
定义1:OLAP是针对特定问题的联机数据访问和分析。
通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。
定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
)7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。
信息熵也称信源熵、平均自信息量。
二、简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。
数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。
数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP 实现。
OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
&操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented )、集成的(Integrate )、相对稳定的(Non-Volatile )、反映历史变化(Time Variant )的数据集合,通常用于辅助决策支持。
数据挖掘期末笔记总结

数据挖掘期末笔记总结数据挖掘是一门研究如何通过大规模数据进行知识发现和模型构建的学科。
它是人工智能、机器学习和数据库技术的交叉学科,涉及数据预处理、特征选择、模型建立和模型评估等方面。
数据挖掘的任务包括分类、聚类、关联规则挖掘、异常检测和时序预测等。
本次期末笔记总结将从数据预处理、特征选择、聚类、分类和模型评估等方面进行概括。
1. 数据预处理数据预处理是数据挖掘的第一步,目的是将原始数据转化为适合进行挖掘的数据。
数据预处理包括数据清洗、数据集成、数据转换和数据规约。
数据清洗主要是处理缺失值、噪声和异常值;数据集成是将多个数据源合并成一个一致的数据集;数据转换是将数据转化为适合挖掘算法的形式;数据规约是简化数据,提高计算效率。
2. 特征选择特征选择是从所有可能的特征中选择出有用的特征,用于构建模型或进行数据分析。
特征选择的方法包括过滤法、包裹法和嵌入法。
过滤法是通过计算特征与目标变量之间的相关性来选择特征;包裹法是通过构建模型来评估特征的重要性;嵌入法是将特征选择嵌入到模型训练过程中,根据特征的权重来选择特征。
3. 聚类聚类是将相似的数据对象分组到同一个簇中的过程。
聚类可以用于数据的探索性分析、异常检测和市场细分等任务。
常用的聚类算法包括K均值聚类、层次聚类和密度聚类。
K均值聚类是一种基于距离度量的聚类算法,将数据点划分到K个簇中,使得每个数据点到所属簇的质心的距离最小化;层次聚类是一种通过不断地合并和拆分簇来构建聚类层次结构的算法;密度聚类是一种通过计算数据点的密度来进行聚类的算法。
4. 分类分类是基于已有的类别标签训练模型,然后预测新样本的类别标签。
分类是监督学习的一种形式,常用的分类算法包括决策树、朴素贝叶斯、支持向量机和神经网络。
决策树通过将数据集划分为不同的子集来构建一个预测模型;朴素贝叶斯通过计算事件发生的先验概率和条件概率来进行分类;支持向量机通过寻找一个超平面来将不同类别的数据分隔开;神经网络通过多个神经元的连接和激活函数的计算来进行分类。
【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典单选1、下列选项哪个描述的是“训练样本”(B)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断2、下列选项哪个描述的是“分类”(C)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断3、列哪个选项描述的不是“聚类”(C)A、搜索引擎返回的文档中,将相似的文档聚合成一类B、电子商务网站数据中,购物历史相似的用户自动聚合成一组C、电子商务网站数据中,分析出用户常常一起购买的商品,组合到一起促销D、在电子病历数据中,将体检指标相似的样本自动聚合成一组4、在MATLAB语言中,以下说法中错误的是A、MATLAB中默认的数据类型是doubleB、3<5的运算结果是logical类型C、变量Abc和abc是代表两个相同的变量D、灰度图的图像矩阵中的数据是uint8类型5、数据对象的别名不包括(D)A、记录B、样本C、向量D、特征6、属性的别名不包括(B)A、特征B、样本C、字段D、维7、下列说法不正确的是(C)A、测量标度是将数值或符号与对象的属性相关联的规则B、属性的性质不必与用来度量它的值的性质完全相同C、即使在不同的应用问题中,同一个物理量也必然使用同一种类型的属性来描述D、属性类型可以划分为:标称、序数、区间、比率这四种8、某办公自动化系统中,采用出生年份表示雇员的年龄,这是什么类型属性(C)A、标称B、序数C、区间D、比率9、某学籍管理系统中,采用百分制表示学生分数,这是什么类型属性(D)A、标称B、序数C、区间D、比率10、描述一个数据集的属性主要不包括(A)A、置信度B、维度C、分辨率D、稀疏性11、下列说法中错误的是(D)A、噪声是测量误差的随机部分B、数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。
数据挖掘复习要点

数据挖掘复习要点数据挖掘1.数据挖掘:从⼤量的、不完全的、有噪声的、模糊的、随机的实际应⽤数据中,提取隐含在其中的、⼈们事先不知道的,但⼜是潜在有⽤的信息和知识的过程。
(商业定义)按企业即定业务⽬标,对⼤量的企业数据进⾏探索和分析,揭⽰隐藏的、未知的或已知的规律,并进⼀步将其模型化的先进的有效⽅法。
2.数据挖掘的功能:描述和预测。
描述:刻画了数据库数据的⼀般特性;预测:在当前数据上进⾏分析,以此进⾏推断。
1)概念描述:通过对某类对象关联数据的汇总、分析和⽐较,对此类对象的内涵进⾏描述,并概括这类对象的有关特征。
2)多层次概念描述:将低层次概念集映射到⾼层次概念集的⽅法。
3)关联分析:⽬的是找出数据库中隐藏的关联⽹。
4)聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的⽅法。
5)分类:从数据库对象中发现共性,并将数据对象分成不同类别的⼀个过程。
6)偏差检测:偏差检测的基本⽅法是寻找观测结果与参照值之间有意义的差别。
7)孤⽴点分析:对于数据的⼀般⾏为或模型不⼀致的数据进⾏分析。
8)⾃动预测趋势和⾏为:针对具有时序属性的数据或者是序列项⽬的数据。
9)时序演变分析:寻找事件或对象⾏为随事件变化的规律或趋势,并以此来建⽴模型。
10)信息摘要:⼀种⾃动编制⽂摘的技术,即利⽤计算机将⼀篇⽂章浓缩成⼀篇短⽂的过程。
11)信息抽取:根据⼀个事先定义好的、描述所需信息规格的模板,从⾮结构化的⽂本中抽取相关信息的过程。
12)元数据挖掘,对元数据进⾏挖掘。
3.数据挖的掘步骤:1)确定业务对象;2)数据准备c)数据的转换a)数据的选择b)数据的预处理3)数据挖掘,对所得到的经过转换的数据进⾏挖掘。
4)结果分析,解释并评估结果;5)知识的同化,将分析所得到的知识集成到业务信息系统的组织结构中去。
4.数据挖掘的⼈员:1)业务分析⼈员,要求精通业务,能够解释业务对象,并根据各业务对象确定⽤于数据定义和挖掘算法的业务需要;2)数据分析⼈员,精通数据分析技术,并对统计学有较熟练的掌握,有能⼒把业务需求转化为数据挖掘的各步操作选择合适的技术;3)数据管理⼈员,精通数据管理技术,并从数据库仓库中收集数据。
数据挖掘课程复习提纲(4 0)资料

数据挖掘课程复习提纲(4+0)有关考试题型:一、选择题(每题2 分,共16 分)二、判断题(每题1 分,共10 分)三、填空题(每空1 分,共19 分)四、简答题(每题5 分,共15 分)五、计算题(每题10 分,共40 分)基本要求:掌握数据预处理、分类、聚类、关联分析、离群点检测的基本方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。
算法重点掌握k-means、一趟聚类、Appriori 及基于密度的离群点检测方法;掌握决策树分类(C4.5、CART)、KNN分类的基本思想,基于聚类的离群点检测方法的思想。
第一章绪论1 数据挖掘的定义技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。
商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
2 数据挖掘的任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。
描述任务:寻找概括数据中潜在联系的模式,如关联分析、聚类分析、序列模式挖掘。
●聚类(Clustering)分析“物以类聚,人以群分”。
聚类分析技术试图找出数据集中数据的共性和差异,并将具有共性的对象聚合在相应的簇中。
聚类分析可以帮助判断哪些组合更有意义,聚类分析已广泛应用于客户细分、定向营销、信息检索等领域。
●分类(Classification)分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,或建立分析模型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其它记录进行分类。
分类分析已广泛应用于用户行为分析(受众分析)、风险分析、生物科学等领域。
聚类与分类的区别聚类问题是无指导的:没有预先定义的类。
分类问题是有指导的:预先定义有类。
●关联(Association)分析关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出现的模式知识(又称为关联规则)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7. ex 3.7 8. ex 3.12 9. ex 3.13 10. ex 5.3 11. ex 5.5 12. ex 5.10(a) 13. ex 5.13 14. ex 5.14 3. 经典算法 1. Aprior算法(P151):直接;剪枝 例5-3 2. 决策树(P189):信息增益(192)例6-1;增益率(184)例6-
22. 加权算术平均(33):;在集合中每个值xi与一个权值wi相关
联,权值反应对应值的显著性、重要性或出现频率。 23. 中位数(33):设给定的N个不同值得数据集按数值序排
序。如果N是奇数,则中位数是有序集的中位数;否则,中 位数是中间两个值得平均值。 24. 众数、中列数、百分位数(34): 众数:另外一个中心趋势量,集合中出现频率最高的数。 中列数:数据集的最大和最小值的平均值。
联规则。多层关联规则设计不同抽象层中的概念。
(2) 涉及两个或多个维或谓词的关联规则称为多维关联规 则。
44. 从决策树提取规则(208): 45. 后向传播分类(212-217): 46. K最近邻居分类(226): 47. 遗传算法(228): 48. 预测(231): 最小二乘法:P231-P233(例6-11;作业:6.14(P246));线性回归 (P231-P233); 49. 提升度(169):例5-9,例5-10 提升度(lift):项集A的出现独立于项集B的出现,如果;否则作 为事件项集A和B是依赖的和相关的。 A和B出现之间的提升度(等价于P(B|A)/P(B)或 conf(A=>B)/sup(B));若lift(A,B)值小于1,则A的出现和B的出现 是负相关的。如果结果大于1,则A和B是正相关的,意味着一个 的出现蕴含另一个的出现。如果结果等于1,则A和B 是独立的, 它们之间无相关性。
(1) 确定哪些操作应当在可利用的方体上执行 (2) 确定相关操作应当在使用哪些物化的方体 40. 购物篮分析(146):购物篮分析是频繁项集挖掘的一个典型 的例子,该过程通过发现顾客放入“购物篮”中的不同商品之 间的关联,分析顾客的购物习惯。 41. 关联规则挖掘的步骤(148): (1) 找出所有的频繁项集:根据定义,这些项集的每一个
百分位数:在数值序下,数据集合的第K个百分位数是具有如下性 质的值xl:百分之K的数据项位于或低于xl. 百分位数的求法:特点:数组按低到高,即从小到大。
Eg,实际步骤: 1. 排序(升) 2. 求(n-1)*k%; 整数部分i;小数部分j; 3. 最终结果=(1-j)*(1+i)th+j*(i+2)th.(th表示序列中第几个 数)
如题: 求1 3 4 5 6 7 8 9 19 29 39 49 59 69 80的30%百分位数。 解:(16-1)*0.3=4.5;得出整数部分为4,小数部分为0.5; 结果=(1-0.5)*6+0.5*7=6.5 25. 五数概况(35):由中位数,四分位数Q1和Q3,最小和最大
观·测值组成,按一下序列写为: Minimun,Q1,Median,Q3,Maximum. 26. 方差、标准差(35): N个观测值x1,x2………Xn的方差是: 其中,x是观测值的均值,观测值的方差是标准差得平方根。 27. 直方图(36):频率直方图,是一种概括给定属性分布的图 形方法。属性A的直方图是将A的数据分布划分成不相交的子 集或桶。通常,每个桶的宽度是一致的。每个桶用一个矩形
概念的模型(或函数),以便能够使用模型预测类标号未知 的对象类。导出模型是基于对训练数据集(即类标号已知的 数据对象)的分析。 17. 预测(15):建立连续值函数模型。它用来预测空缺的或不 知道的数值数据值,而不是类标号。 18. 决策树(16):是一种类似于流程图的树结构,其中每个节 点代表在一个属性值上的测试,每个分枝代表测试的一个输 出,而树叶代表类或类分布。 19. 聚类分析(17):聚类分析数据不考虑已知的类标号,对象 根据最大化类内部的相似性、最小化类之间的相似性的原则 进行聚类或分组。 20. 离群点(17):数据库中可能包含一些数据对象,它们与数 据的一般行为或模型不一致。 21. 均值(33): 设x1,x2,…..xn是n个值或观测的集合。该值集的均值是:
50. 监督学习(185):分类器的学习在被告知每个训练元组属于 哪个类的“监督”下进行。
51. 无监督学习(185):又称为“聚类”,每个训练元组的类标号 是未知的,并且要学习的类的个数或集合也可能事先不知
道。
52. 如何评价学习算法(187): 从以下几个方面评价:准确 率、速度、鲁棒性、可升缩性、可解释性。
10. 时间数据库(11):通常存放包含时间相关属性的关系数据 库。
11. 空间数据库(11):包含设计空间的信息。 12. 多媒体数据库(12):存放图像、音频和视频数据。 13. 异构数据库(12):由一组互连的、自治的成员数据库组
成。这些成员数据库相互通信,以便交换信息和回答查询。 14. 频繁模式(15):是指在数据中频繁出现的模式。存在多种
出现的频繁性至少与预定义的最小支持计数min_sup 一样; (2) 由频繁项集产生强关联规则:这些规则必须满足最小 支持度和最小置信度。 42. 如何由频繁项集产生关联规则(154-155): (1) 对于每个频繁项集L,产生L的所有非空子集。
(2) 对于L的每个非空子集s,如果>=min_conf,则输出规则: “S=>(L-S)”,min_conf是最小置信度阀值。 43. 多层关联规则、多维关联规则(163): (1) 在多个抽象层上挖掘数据产生的关联规则称为多层关
以通过x2(卡方)检验发现。 设A有C个不同值a1,a2……………..ac;B有r个不同值b1,b2……………..br。A 和B描述的数据元组可以用一个相依表显示,其中A的C个值构成 列,B的r个值构成行。令(Ai,Bi)表示属性A取值ai、属性B取值 bi的事件,即(A=ai,B=bi).每个可能的(Ai,Bi)联合时间都在表 中有自己的单元(位置)。其中,oij是联合事件(Ai,Bi)的观测 频度(实际计数),而eij是(Ai,Bi)的期望频度。可以用如下公 式计算 eij=(N是数据元组的个数,count(A=ai)是A具有值ai的元组个 数,count(B=ai)是B具有值bj的元组个数) 注意:对值贡献最大的单元是其实际计数与期望计数很不相同的 单元。 另:统计检验假设A和B是独立的,检验基于显著水平,具有(r1)*(C-1)自由度。如果可以拒绝该假设,则我们说A和B是统计相 关的或关联的。 概念分层(47):属性的原始数据值用区间值或较高层的概念替 换。 32. 直方图的等宽、等屏(53): 等宽:在等宽直方图中,每个桶的宽度区间是一致的。 等屏(或等深):在等屏直方图中,创建桶,使得每个桶的频率 粗略地为常数(即每个桶大致包含相同个数的邻近数据样本)。 33. 如何产生概念分层(60-61): 可以运用启发式规则分层:即一个属性的不同值个数越少,它在 所产生的概念分层结构中所处的层次越高。注意的是这种启发式 规则并非完美。 34. 数据立方(70)(基本立方、顶点立方): 数据立方体允许从多维对数据建模和观察。它由维和事实定义, 一般,维是关于一个组织想要保存记录的透视图或实体;事实是 数值多辆的。 存放最低层汇总的方体称作基本方体;存放最高层的汇总,称作 顶点方体。 35. 数据仓库的流行模型(73):最流行的数据仓库数据模型是
30. 相关系数(43):又称皮尔逊积矩系数 其中N是元组的个数,ai和bi分别是元组i中A和B的值,和分别是A 和B的均值,和分别是A和B的标准差,是A和B叉积的和(即:对 于每个元组,A的值乘以该元组B的值). -1<=rA,B<=+1 注意:相关并不意味着因果关系。
31. 卡方(44):练习 例2-1 卡方:对于分类(离散)数据,两个属性A和B之间的相关联系可
多维模型。这种模型可以以星形模式、雪花形模式或事实星 座形模式形式存在。 星形模式:最常见的模型范例是行形模式,其中数据库包括(1)
ቤተ መጻሕፍቲ ባይዱ
一个大的包含大批数据并且不含冗余的中心表(事实表);(2) 一组小的附属表(维表),每维一个。 雪花模式:雪花形模式是星形模式的变种,其中默写维表是规范 化的,因而把数据进一步分解到附加的表中。 事实星座形:复杂的应用可能需要多个事实表共享维表,该模式 可以看作是星形模式的汇集。 36. OLAP操作(73)图3-10 P80: 上卷:通过沿一个维的概念分层向上攀升或者通过维归约,对数 据立方体进行聚集。 下卷:上卷的逆操作。 切片和切块:切片操作对给定立方体的一个维进行选择,导致一 个子立方体。 转轴(旋转):是一种可视化操作,它转动数据的视角,提供数 据的替代表示。 其他操作:钻过,钻透。 37. 数据立方的计算(88-90): 38. 不/完全/部分物化(89-90) 不物化:不预计算任何“非基本”方体。这导致回答查询是计算昂 贵的多维聚集。 完全物化:预计算所有方体。计算的方体格是完整立方体。 部分物化:有选择地计算整个可能的方体集中一个适当的子集。 39. OLAP查询处理(92): 查询处理的步骤:
类型的频繁模式,包括项集、子序列和子结构。
15. Support/Confidenct(15): 置信度又称为规则的正确率,是指在前提出现的情况
下,后件出现的概率 支持度又称为规则的覆盖率,是指包含规则出现的属性值的
交易占所有交易的百分比 16. 分类(15):分类是一个过程,它找出描述和区分数据类或
数据仓库是一个从多个数据源收集的信息储存库,存放在一个一 致的模式下,并且通常驻留在某个站点;是一个面向主题的、集 成的、时变的和非易失的数据集合,可以对数据进行清理和集成 等操作,支持管理部门的决策过程。
6. 多维数据立方体(8):作为数据仓库的一种实际物理结构 (另外一种是关系数据库),提供数据的多维视图,并允许 计算和快速访问汇总数据。