数据挖掘考试重点
数据挖掘复习知识点整理超详细

数据挖掘复习知识点整理超详细必考知识点:信息增益算法/ ID3决策树(计算) (详细见教材)使⽤朴素贝叶斯分类预测类标号(计算)FP-TREE(问答) (详细见教材)数据仓库的设计(详见第⼆章)(问答) (见PPT)数值规约Equi-depth、equi-width、v-optimal、maxdiff(问答) (详细见教材)BUC (这个也要考,但不记得怎么考的了)后向传播神经⽹络(名词解释)K-平均,K-中⼼点,DBSCAN解析特征化(这个也要考)总论数据挖掘:是从⼤量数据中发现有趣(⾮平凡的、隐含的、先前未知、潜在有⽤)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。
挖掘流程:(1)学习应⽤域(2)⽬标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)(6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展⽰(9)使⽤挖掘的知识概念/类描述:⼀种数据泛化形式,⽤汇总的、简洁的和精确的⽅法描述各个类和概念,通过(1)数据特征化:⽬标类数据的⼀般特性或特征的汇总;(2)数据区分:将⽬标类数据的⼀般特性与⼀个或多个可⽐较类进⾏⽐较;(3)数据特征化和⽐较来得到。
关联分析:发现关联规则,这些规则展⽰属性-值频繁地在给定数据集中⼀起出现的条件,通常要满⾜最⼩⽀持度阈值和最⼩置信度阈值。
分类:找出能够描述和区分数据类或概念的模型,以便能够使⽤模型预测类标号未知的对象类,导出的模型是基于训练集的分析。
导出模型的算法:决策树、神经⽹络、贝叶斯、(遗传、粗糙集、模糊集)。
预测:建⽴连续值函数模型,预测空缺的或不知道的数值数据集。
孤⽴点:与数据的⼀般⾏为或模型不⼀致的数据对象。
聚类:分析数据对象,⽽不考虑已知的类标记。
训练数据中不提供类标记,对象根据最⼤化类内的相似性和最⼩化类间的原则进⾏聚类或分组,从⽽产⽣类标号。
第⼆章数据仓库数据仓库是⼀个⾯向主题的、集成的、时变的、⾮易失的数据集合,⽀持管理部门的决策过程。
数据挖掘考试重点复习

1.了解商务智能的定义与大数据的四个基本特征;答:商务智能是企业利用数据仓库DW、数据挖掘DM、在线分析处理OLAP、决策支持系统DSS等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析;形成知识或情报;以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称..大数据特征: 4个V2.理解商务智能系统的5层结构商务智能系统结构大致分为五层:①数据源层:也可称作操作型数据层;是整个数据仓库的基础;提供了整个系统最原始的数据②数据获取层:也可称作数据转换层;主要是把数据源层的数据通过ETCL过程转换到数据仓库中③数据存取层:该层是按主题进行分析和对相关的数据进行挖掘的数据源;包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库④数据分析服务层:该层是数据存储和前端分析工具的桥梁⑤前端展现层:用户界面3.理解操作型与分析型系统分离的必要性以及他们的特征4.理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦;在数据挖掘处理时;它会耗费很多的处理时间和内存容量..数据的高维度还使得数据间的关系也不容易察觉;增加了数据的无关属性和噪音点..5.掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境..数据仓库研究和解决从数据库中获取信息的问题..数据仓库是为支持管理决策建立的;面向主题的、集成的、随时间变化的、相对稳定的数据集合..滔注:我觉得写括号里的会好一点四方面特征:①面向主题:主题是指用户使用数据仓库进行决策时所关心的重点忙面..②集成性:在数据进入数据仓库之前;要进过统一于综合;将多个异源数据集成在一起..这一步是数据仓库建设中最关键、最复杂的一步..③时变性:数据仓库随时间变化不断增加新的数据..④相对稳定性:数据仓库反映的是历史的内容;而不是联机数据;主要供企业决策分析之用..6.掌握数据挖掘的定义并描述其主要特征数据挖掘定义从大量的、不完全的、有噪声的、模糊的、随机的数据中;提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程..数据挖掘是从大量数据中寻找其规律的技术..主要步骤1数据准备:从各种数据源中选取和集成用于数据挖掘的数据;2规律寻找:用某种方法将数据中的规律找出来;3规律表示:用尽可能符合用户习惯的方式将找出的规律表示出来..7.掌握Minkowski距离;并熟练计算l1;l2;l无穷normL1norm当r=1;城市街区也称曼哈顿、出租车、L1范数距离;L2norm当r=2;欧几里得距离;L∞norm当r=∞;上确界距离;这是对象属性之间的最大距离..8.理解Hunt’s算法的基本过程通过将训练记录相继划分成较纯的子集;以递归方式建立决策树..设Dt是与节点t相关联的训练记录集;而Y={ y1;y2;…;y c}是类标号;Hunt算法的递归定义如下:1如果Dt中所有记录都属于同一个类yt;则t是叶节点;用yt标记..2如果Dt中包含属于多个类的记录;则选择一个属性测试条件;将记录划分成较小的子集..对于测试条件的每个输出;创建一个子女节点;并根据测试结果将Dt中的记录分布到子女节点中..然后;对于每个子女节点;递归地调用该算法..9.掌握吉尼系数、熵的定义;会计算其最大值与最小值;理解信息增益在构造决策树时的意义基尼系数、熵是度量不纯度的方法GINI系数和熵都是越小;代表所分的节点属性越纯;最小可取到0;表示这个节点中只有一个类..当一个节点中有n个父节点;而且能分出n个子节点;GINI系数取到最n 滔注:那个2是角标;不是log2n 大值;为1-1/n. 熵也取到最大值 log2基尼值的性质:越大越不纯;越小越纯;0最纯;1-1/n最不纯..b.子节点基尼值c.最大值、最小值最小值表示最纯;最大值表示最不纯熵在信息领域熵被用来衡量一个随机变量出现的期望值..熵是对信息的不确定性的度量..熵越低;意味着传输的信息越少..熵的性质:熵是衡量节点一致性的函数..熵大于等于0;当且仅当p1=p2=……pn时;熵最大;纯的节点熵是0.信息增益当选择熵作为公式的不纯性度量时;熵的差就是所谓的信息增益..信息增益描述了当使用Q进行编码时;再使用P进行编码的差异..通常P代表样本或观察值的分布;也有可能是精确计算的理论分布..Q 代表一种理论;模型;描述或者对P的近似..当纯度高达1时即只有一种数据类型;熵最小;为0;当其中的各类数据均匀分布时;熵最大;为-log2pj|t..10.理解了解最邻近分类的基本思想;邻近分类的前提条件与分类过程近邻分类法是基于类比学习;即通过将给定的检验元组与和它相似的训练元组进行比较来学习..训练元组用n个属性描述..每个元祖代表n维空间的一个点..这样;所有的训练元组都存放在n维模式空间中..当给定一个未知元组时;近邻分类法搜索模式空间;找出最接近未知元组的k个训练元组..这k个训练元组是未知元组的k个“最近邻”..一句话概述:点x的k-最近邻分类就是离点x的欧式距离最近的k个点的集合..三个前提条件:训练集存在内存中;给定距离度量指标;给定K值分类过程:1 计算未知点与其他训练集的距离2找到K个最邻近的邻近组3用邻近组的分类标签来决定未知点所在组的标签..11.了解分类中的过拟合及产生的原因过度拟合数据当决策树变大时;测试误差会越来越小;而训练误差会越来越大;测试集产生的决策树与实际会不符..产生的原因(1)噪声导致的过分拟合(2)决策树的复杂程度超过了需要的程度;会产生过度拟合(3)训练误差的减小已经对结果没有更多意义但却依然在计算;会产生过度拟合(4)没有更多的属性来减小样本误差;会产生过度拟合12.理解关联规则及支持与置信度的定义;并熟练计算支持度与置信度关联规则关联规则是形如X→Y的蕴涵式;其中;X和Y都是事务数据集..关联规则的强度可以用它的支持度和置信度度量..支持度Support事务数据库中既包含X又包含Y某个项集的事务占事务总数的比例;置信度Confidence在所有包含X的事务中包含Y的事务所占比例.. 13.理解Apriori性质及其意义Apriori如果一个项集是频繁的;那么它的所有子集都是频繁的..相反;如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..意义利用该性质;通过减少搜索空间;来提高频繁项集逐层产生的效率..14.理解FP-Growth算法克服了Apriori算法的那些不足1.减少了扫描数据库的次数;只用扫描两次2.候选项变少;不会产生那么大的候选项集15.给定一个交易数据库与支持度阈值;能熟练运用Apriori算法与FP-Growth算法挖掘频繁项集Apriori算法计算频繁项集步骤1、第一次扫描;列出一项集;并计数..2、去除低于阈值的项集;组合出二项集;扫描计数..3、重复步骤2;依次组合出N项集;直至项集计数小于阈值;结束..注意Apriori定义:如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..所以在组合项集时一定要注意;新组合出的项集不应包含已经被“淘汰”的项集..FP-Growth算法计算频繁项集步骤一、扫描一次数据集;确定每个项的支持度计数..丢弃非频繁项;将频繁项按照支持度的递减排序;生成频繁项集头表..注意事项:1、降序排列..2、MinSup的存在步骤二、第二次扫描投影;按照{f;c;a;b;m;p}的顺序逐条对应写出剔除非频繁项后的频繁集;注意:{f;c;a;b;m;p}的顺序确定后就不在变动;这在下面的步骤中起关键作用步骤三、并开始构建FP树..按照事务ID号的顺序;将处理好的频繁项集映射创建FP树;并在对应节点计数..步骤四、构建每个对象的条件模式基;建议从频率低的节点开始..注意:不要忘了f对应的{}..步骤五、列出下表;对照MinSup剔除低于阈值的项..步骤六、针对每一项建立条件FP树..下面用m项作例子;如下..步骤七、找出频繁项集..16.理解关联规则产生时所采取的优化策略老师说直接距离就可以比如;L = {A;B;C;D}:cABC→ D≥ cAB→ CD ≥ cA→ BCD为什么分子不变;都是ABCD;分母越来越大17.理解K-means算法的内容并讨论该算法之不足K-means K均值算法流程1、随机选择K个对象;每个对象代表一个簇的初始均值或中心2、对剩余的每个对象;根据它与簇均值的距离;将他指派到最相似的簇..3、计算每个簇的新均值4、回到步骤2;循环;直到准则函数收敛..不足之处1、只有当簇均值有定义的情况下;K-means方法才能够使用..2、用户必须首先给定簇数目3、不适合发现非凸形状的簇;或者大小差别很大的簇..4、对噪声和离群点数据敏感..18.理解凝聚聚类算法的基本过程;并分析算法时间与空间复杂度步骤:1计算距离矩阵2 让每个数据点成为一个群集3;循环开始4; 合并两个距离最近的群集5; 更新距离矩阵6;直到只剩下一个群集时间复杂度:N2倍空间复杂度:N3倍19.理解DBSCAN算法将待聚类的点分为哪几类;分解解释之三类:中心点:中心点领域范围内的点的个数≥临界值MinPts边界点:边界点领域范围内的点个数小于临界值;但是它在中心点邻域范围的边界上..噪音点:既不是中心点又不是边界点的点..噪音点领域范围内的点个数小于临界点..20.理解DBSCAN算法的思想及它克服了K-means算法的哪些不足基于密度的聚类只要一个区域中的点的密度大于某个域值;就把它加到与之相近的聚类中去..克服基于距离的算法只能发现“类圆形”的聚类的缺点;可发现任意形状的聚类;且对噪声不敏感..但是;其计算密度短语的计算复杂度大;需要建立空间索引来降低计算量;且对数据维数的伸缩性较差..DBSCAN Density-Based Spatial Clustering of Applications with Noise具有噪声的基于密度的聚类应用..算法步骤1、通过检查数据集中每个对象的ε-邻域可以理解为半径来寻找聚类2、如果一个点P的ε-邻域包含多于MinPts最少包含点数个对象;则创建一个P作为核心对象的新簇..3、反复地寻找从这个核心对象直接密度可达的对象;这个过程可能涉及一些密度可达簇的合并..4、当没有新的点可以被添加到任何簇时;过程结束..评价1、适合发现任意形状的簇..2、易于发现噪声..3、无需设置K 值..4、需要输入ε、MinPts..对照着14题理解两种算法21.理解SSE指标对聚类的意义..SSE即Sum of Squared Error ;错误的平方和..意义1、SSE可以很好的用于比较两个聚类或两个簇..2、也可以用于估计簇的数目..观察增加K即簇的数目即可降低SSE..。
数据挖掘 机器学习 考试简答题

1.何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘;(3分)数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等(3分)2.列举4种监督式学习算法?答:K-近邻算法(k-Nearest Neighbors)(1分)线性回归(Linear Regression)(1分)逻辑回归(Logistic Regression)(1分)支持向量机(1分)(备注:列出任意4种即可得分)3.过拟合问题产生的原因有哪些以及解决过拟合的办法有哪些?答:产生的原因:(1)使用的模型比较复杂,学习能力过强。
(1分)(2)有噪声存在(1分)(3)数据量有限(1分)解决过拟合的办法:(1)提前终止(当验证集上的效果变差的时候)(1分)(2)数据集扩增(1分)(3)寻找最优参数(1分)4.支持向量机有哪些优缺点?答:优势:(1)在高维空间非常高效(1分)(2)即使在数据维度比样本大的情况下仍然有效(1分)(3)在决策函数中使用训练集的子集,因此它也是高效利用内存的(1分) 缺点:(1)如果特征数量比样本数量大得多,在选择核函数时要避免过拟合(1分) (2)支持向量机通过寻找支持向量找到最优分割平面,是典型的二分类问题,因此无法解决多分类问题。
(1分)(3)不直接提供概率估计(1分)5、数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?监督学习和无监督学习的定义是什么?分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。
答:1.监督学习对应预测,无监督学习对应描述2.监督学习:从标记的训练数据来推断一个功能的机器学习任务无监督学习:根据类别未知(没有标记)的训练样本解决模式识别中的各种问题。
3.监督学习举例:分类算法,利用分类算法进行垃圾电子邮件的分类。
数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策.2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。
在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
定义1:OLAP是针对特定问题的联机数据访问和分析。
通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。
定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
)7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。
信息熵也称信源熵、平均自信息量。
二、简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。
数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。
数据挖掘复习资料

1、数据挖掘定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。
2、数据仓库定义:数据仓库是面向主题的、集成的、不可更新却又随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。
3、数据仓库与数据挖掘的关系:1)数据仓库系统的数据可以作为数据挖掘的数据源。
2)数据挖掘的数据源不一定必须是数据仓库系统4、数据挖掘的功能:概念描述,关联分析,分类与预测,聚类分析,趋势分析,孤立点分析,偏差分析。
5、数据挖掘的过程:P10图1-26、数据仓库的基本特征:1)数据仓库的数据是面向主题的;2)数据仓库的数据是集成的;3)数据仓库的数据时不可更新的;4)数据仓库的数据时随时间不断变化的。
7、主题的概念:主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象。
面向主题的组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。
8、对数据仓库基本特征的理解:数据仓库是面向主题的,面向主题性表示数据仓库中数据组织的基本原则,数据仓库中所有的数据都是围绕某一主题组织、展开的。
数据仓库的数据是集成的,数据仓库的数据时从原有的分散的数据库、数据文件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据,因此,在数据进入数据仓库之前,必然要经过转换、统一和综合。
这一步是数据仓库建设中最关键最复杂的一步,要进行统一数据源,综合和计算两步,统一数据源包括命名规则,编码,数据特征,度量单位的统一。
数据仓库是不可更新的,数据仓库的数据主要提供企业决策分析之用,不是用来进行日常操作的,一般只保存过去的数据,而且不是随着数据源的变化实时更新,数据仓库中的数据一般不再修改。
9、数据仓库数据分为四个级别:早期细节级,当前细节级,轻度综合级和高度综合级。
数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
数据挖掘考试题库完整

一、名词解释1. 数据仓库:是一种新的数据处理体系结构 .是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化 (不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。
2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
3. OLAP:OLAP 是在OLTP 的基础上发展起来的.以数据仓库为基础的数据分析处理 .是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作 .侧重对分析人员和高层管理人员的决策支持。
4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小 .同时影响数据仓库所能回答查询问题的细节程度。
5. 数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如 0-1) 以提高数据挖掘效率的方法。
规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。
6. 关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。
如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。
7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
8. OLTP:OLTP 为联机事务处理的缩写.OLAP 是联机分析处理的缩写。
前者是以数据库为基础的.面对的是操作人员和低层管理人员 .对基本数据进行查询和增、删、改等处理。
9. ROLAP:是基于关系数据库存储方式的 .在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。
10. MOLAP:是基于类似于“超立方”块的OLAP 存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构 .通过直接偏移计算进行存取。
11. 数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要 .并且能够得到和原始数据相同的分析结果。
数据挖掘复习要点

数据挖掘复习要点数据挖掘1.数据挖掘:从⼤量的、不完全的、有噪声的、模糊的、随机的实际应⽤数据中,提取隐含在其中的、⼈们事先不知道的,但⼜是潜在有⽤的信息和知识的过程。
(商业定义)按企业即定业务⽬标,对⼤量的企业数据进⾏探索和分析,揭⽰隐藏的、未知的或已知的规律,并进⼀步将其模型化的先进的有效⽅法。
2.数据挖掘的功能:描述和预测。
描述:刻画了数据库数据的⼀般特性;预测:在当前数据上进⾏分析,以此进⾏推断。
1)概念描述:通过对某类对象关联数据的汇总、分析和⽐较,对此类对象的内涵进⾏描述,并概括这类对象的有关特征。
2)多层次概念描述:将低层次概念集映射到⾼层次概念集的⽅法。
3)关联分析:⽬的是找出数据库中隐藏的关联⽹。
4)聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的⽅法。
5)分类:从数据库对象中发现共性,并将数据对象分成不同类别的⼀个过程。
6)偏差检测:偏差检测的基本⽅法是寻找观测结果与参照值之间有意义的差别。
7)孤⽴点分析:对于数据的⼀般⾏为或模型不⼀致的数据进⾏分析。
8)⾃动预测趋势和⾏为:针对具有时序属性的数据或者是序列项⽬的数据。
9)时序演变分析:寻找事件或对象⾏为随事件变化的规律或趋势,并以此来建⽴模型。
10)信息摘要:⼀种⾃动编制⽂摘的技术,即利⽤计算机将⼀篇⽂章浓缩成⼀篇短⽂的过程。
11)信息抽取:根据⼀个事先定义好的、描述所需信息规格的模板,从⾮结构化的⽂本中抽取相关信息的过程。
12)元数据挖掘,对元数据进⾏挖掘。
3.数据挖的掘步骤:1)确定业务对象;2)数据准备c)数据的转换a)数据的选择b)数据的预处理3)数据挖掘,对所得到的经过转换的数据进⾏挖掘。
4)结果分析,解释并评估结果;5)知识的同化,将分析所得到的知识集成到业务信息系统的组织结构中去。
4.数据挖掘的⼈员:1)业务分析⼈员,要求精通业务,能够解释业务对象,并根据各业务对象确定⽤于数据定义和挖掘算法的业务需要;2)数据分析⼈员,精通数据分析技术,并对统计学有较熟练的掌握,有能⼒把业务需求转化为数据挖掘的各步操作选择合适的技术;3)数据管理⼈员,精通数据管理技术,并从数据库仓库中收集数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
术语解释
1、数据挖掘是在大型数据存储库中,自动地发现有用信息的过程
2、分类挖掘:
给定一个记录的集合(训练集),每个记录包含一组属性,一个属性是类,找到一个类的属性与其他属性的值的函数模型。
目的:以前看不到的记录应尽可能准确地分配一个类。
通常情况下,给定的数据集分为训练集和测试集,训练集用于构建模型和测试集用于检验模型的准确性。
3、聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。
其目标是,
组内的对象之间是相似的(相关的),而不同的组中的对象是不同的(不相关的)。
组内的相似性(同质性)越大,组间差别越大,聚类就越好。
4、关联规则分析用来发现描述数据库中强关联特征的模式。
给定事物的集合T,找出支持
度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minonf 是对应的支持度和置信度阈值。
5、异常检测的任务是识别其特征明显不同于其他数据的观测值。
6、预测性任务
目标是根据其他属性的值,预测特定属性的值。
7、描述任务
目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。
本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。
8、事物数据是一种特殊类型的记录数据,其中每一个记录(事物)涉及一个项的集合。
9、时序数据可以看做记录数据的扩充,其中每个记录包含一个与之相关联的时间。
10、序列数据是一个数据集合,他是个体项的序列,如词或字母的序列,有序序列中有位置。
11、离散化问题就是决定选择多少个分割点和确定分割点位置的问题。
非监督离散化用于分离的离散化方法之间的根本区别在于是否使用类信息。
如果我们用不同组的不同对象被指派到相同分类值的程度来度量离散化技术的性
能,则K均值性能较好,其次是等频率,最后是等宽。
监督离散化基于熵的方法是目前最有前途的离散化方法之一。
区间的熵是区间纯度的度量,熵越小越好。
12、两个对象之间的相似度是这两个对象相似程度的数值度量。
13、相异度是这两个对象差异程度的数值度量。
14、离群点是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或
是相对于该属性的典型值不寻常的属性值。
简答题范围
1、数据库中知识发现过程
2、标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象,等于或不
等于。
例子:邮政编码、雇员ID号、眼球颜色、性别。
操作:众数、熵、列联相关、x2检测
序数属性的值提供足够的信息确定对象的序,大于或小于。
例子:矿石硬度、{好,较好,最好}、成绩、街道号码。
操作:中值、百分数、秩相关、游程检验】符号检验
相同点:统称分类的或定性的
不同点:有序跟无序??
3、处理遗漏值
删除数据对象或属性如果一个数据集只有少量的对象具有遗漏值,则忽略它们可能是合算的,一种相关的策略是删除具有遗漏值的属性。
估计遗漏值如果属性是连续的,则可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近的邻中常出现的属性值。
在分析时忽略遗漏值对于某属性,两个对象之一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。
4、决策树是一种由结点和有向边组成的层次结构。
包含3种结点:根节点,内部结点,叶
节点。
在决策树中,每个叶节点都赋予一个类标号,非终结点包含属性测试条件,用以分开具有不同特性的记录。
举例:例如在根节点处,使用体温这个属性把冷血脊椎动物和恒温脊椎动物区别开来。
因为所有的冷血脊椎东区都是非哺乳动物,所以用一个类称号为非哺乳动物的叶节点作为根节点的右子女。
如果脊椎动物是恒温的,则接下来用胎生这个属性来区分哺乳动物与其他恒温动物(主要是鸟类)。
5、混淆矩阵
又称“分类矩阵”,是用来显示评估分类模型的性能时其正确和错误预测的检验记录计数的一种可视化矩阵图。
可以得到准确率和错误率,以此检验模型的可信度,用以评估模型。
6、帮助减少频繁项集的产生时需要探查的候选项集个数。
7、支持度:给定数据集的频繁程度;
置信度:确定Y在包含X的事务中出现的频繁程度。
支持度通常用来删去那些不令人感兴趣的规则,可以用于关联规则的有效发现;置信度则通过规则进行推理的可靠性。
8、模糊聚类
当有数据集中的对象不能划分为明显分离的簇的时候,对每一个对象和簇赋予一个权值,指明该对象属于该簇的程度。
9、问题:K均值并不适合所有的数据类型,他不能处理非球形簇、不同尺寸和不同密度的
簇,尽管指定足够大的簇个数时他通常发现纯子簇。
对包含离群点的数据进行聚类时,K 均值也有问题。
最后,K均值仅限于具有中心(质心)概念的数据。
10、异常检测的一般方法:
①基于模型的技术:建立模型之后,异常是同那些模型不能完美拟合的对象;②基于邻
近度的技术:在对象之间定义邻近度量,异常是远离大部分对象的对象,也是距离上远离的点;③基于密度的技术:对象的密度估计可以相对的直接计算,低密度区域中的对象相对远离每一个近邻的点,可能看作异常。
大题?
1、基尼公式1-概率平方和
选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。
不纯的程度越低类分布
就越倾斜
2、先验原理:如果一个项集是频繁的,则它的所有子集也一定是频繁的。
相反,如果一个
项集是非频繁的,则它所有的超集也一定是非频繁的。
频繁项集的产生:其目标是发现满足最小支持度阈值的所有项集
规则的产生:从上一步发现的频繁项集中提取所有高置信度的规则,可能规则总数为3d-2d+1+1
3、基本K均值算法:
选择K个点作为初始质心
Repeat
将每个点指派到最近的质心,形成K个簇
重新计算每个簇的质心
Until 质心不再发生变化
机械设备铁谱检测技术中的应用
在人类资源管理中的应用
在商业银行客户分类中的应用
二分K均值算法:
初始化簇表,使之包含由所有的点组成的簇
Repeat
从簇中取出一个簇{对选定的簇进行多次二分“试验”}
For i=1 to 试验次数do
使用基本K均值,二分选定的簇
End for
从二分试验中选则具有最小总SSE的两个簇
将这两个簇添加到簇表中
Until 簇表中包含K个簇。