数据挖掘离线作业

合集下载

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案
(a)为该数据仓库画出雪花形模式图。
(b)(b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
(c)如果每维有5层(包括all),如“student<major<status<university<all”, 该立方体包含多少方体?
合,因为它是松散耦合和 紧密耦合的折中。
第2章数据预处理
2.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。
年龄
频率
1~5
200
5~15
450
15~20
300
20~50
1500
50~80
700
80~110
44
计算数据的近似中位数值。
2.4假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)画出一个等宽为10的等宽直方图;
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。
解答:
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层
抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。 元组:
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
�步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
�步骤2:将数据划分到大小为3的等频箱中。

数据挖掘的功能及应用作业

数据挖掘的功能及应用作业

数据挖掘的其他基本功能介绍一、关联规则挖掘关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。

关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。

1、 基本概念设},,,{21m i i i I =是项组合的记录,D 为项组合的一个集合。

如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合D 。

我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如A 游泳衣,B 太阳镜,B A ⇒,但是A B ⇒得不到足够支持。

在规则挖掘中涉及到两个重要的指标:① 支持度 支持度n B A n B A )()(⇒=⇒,显然,只有支持度较大的规则才是较有价值的规则。

② 置信度 置信度)()()(A n B A n B A ⇒=⇒,显然只有置信度比较高的规则才是比较可靠的规则。

因此,只有支持度与置信度均较大的规则才是比较有价值的规则。

③ 一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。

关联规则挖掘实际上真正体现了数据中的知识发现。

如果一个规则满足最小支持度,则称这个规则是一个频繁规则;如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。

关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。

在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。

关联规则挖掘可以使我们得到一些原来我们所不知道的知识。

应用的例子:* 日本超市对交易数据库进行关联规则挖掘,发现规则:尿片→啤酒,重新安排啤酒柜台位置,销量上升75%。

* 英国超市的例子:大额消费者与某种乳酪。

那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?关联规则挖掘通常比较适用与记录中的指标取离散值的情况,如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。

数据挖掘期末考试题库

数据挖掘期末考试题库

数据挖掘期末考试题库
进行数据挖掘期末考试前,老师通常会准备一份题库,供学生参考复习。

这个题库包含了一系列的问题,涵盖了数据挖掘的各个方面。

以下是一个示例的数据挖掘期末考试题库,供同学们参考:
1. 什么是数据挖掘?数据挖掘的主要目标是什么?
2. 请简要介绍数据挖掘的主要过程。

3. 数据挖掘中常用的数据预处理方法有哪些?请分别进行介绍。

4. 数据挖掘中常用的特征选择方法有哪些?请分别进行介绍。

5. 数据挖掘中常用的分类算法有哪些?请分别进行介绍。

6. 数据挖掘中常用的聚类算法有哪些?请分别进行介绍。

7. 数据挖掘中常用的关联规则挖掘算法有哪些?请分别进行介绍。

8. 什么是异常检测?数据挖掘中常用的异常检测方法有哪些?请分别进行介绍。

9. 数据挖掘中的交叉验证是什么?请简要说明。

10. 数据挖掘中如何评估分类算法的性能?请简要说明评估指标。

11. 数据挖掘中如何评估聚类算法的性能?请简要说明评估指标。

12. 数据挖掘中如何评估关联规则挖掘算法的性能?请简要说明评估指标。

13. 数据挖掘在实际应用中的案例有哪些?请分别进行介绍。

14. 在数据挖掘过程中,如何选择适当的算法和技术?请简要说明。

15. 数据挖掘存在哪些挑战和限制?请分别进行介绍。

以上题目是一个简要的示例,涵盖了数据挖掘的基本概念、主要过程、常用方法和评估指标等方面。

同学们可以根据这些问题来进行复
习和准备,加深对数据挖掘的理解和掌握。

希望以上题库对同学们的期末考试有所帮助。

祝大家考试顺利!。

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)是一本经典的数据挖掘教材,已经推出了第3版。

本文将为大家整理并提供第3版课后习题的答案,希望对大家学习数据挖掘有所帮助。

答案第1章绪论习题1.1数据挖掘的基本步骤包括:1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括:1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤:1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括:1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括:1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括:1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步,直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括:1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂,学习到了训练集的噪声和随机变化,导致泛化能力不足。

对于过拟合的处理方法包括:1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案,希望能够给大家的学习带来帮助。

如果大家还有其他问题,可以在评论区留言,或者在相关论坛等平台提出。

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。

特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。

关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。

个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。

形成的每⼀簇可以被看作⼀个对象类。

数据挖掘练习题附答案

数据挖掘练习题附答案

数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离2. 简述朴素贝叶斯分类的基本思想。

答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。

1)设x={a!,a",…,a#}为一个待分类项,a为x的特征属性;2)有类别集合C={y!,y",…,y$}3) 计算p(y!|x),p(y"|x),… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)},则x∈y%3. 在做数据清洗时,如何处理缺失值?答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值填充、平均值填充、使用最可能的值填充;3)不处理。

4. 简述K-means算法的基本步骤。

答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;3)计算各簇中对象的平均值,然后选择簇中心(离平均值“最近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。

5. 在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?答:支持度support(x->y)=p(x,y),表示项集中同时含有x和y的概率。

置信度confidence(x->y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联结果y发生的概率,即含有x的项集中,同时含有y的可能性。

二、计算题1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。

《数据挖掘》课程大作业

《数据挖掘》课程大作业网络教育学院《数据挖掘》课程大作业题目:姓名:报名编号:学习中心:层次:专升本专业:计算机科学与技术第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。

数据挖掘是一门重要的专业课。

数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。

数据挖掘就是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。

作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统计等多方面的技术。

要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。

随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。

数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。

所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统所需的数据,供决策支持或数据分析使用。

数据挖掘的研究领域非常广泛,主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。

主要是可以做以下几件事:分类、估计、预测、关联分析、聚类分析、描述和可视化、复杂数据类型挖掘。

第二大题:完成下面一项大作业题目。

2019秋《数据挖掘》课程大作业题目一:Knn算法原理以及python实现要求:文档用使用word撰写即可。

主要内容必须包括:(1)算法介绍。

(2)算法流程。

(3)python实现算法以及预测。

(4)整个word文件名为 [姓名奥鹏卡号学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )答:一、knn算法介绍1. 介绍邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。

数据挖掘导论习题答案(中文版)

介绍数据挖掘教师的解决方案手册陈甘美华Pang-NingMichael教授Vipin Kumar版权所有2006年Pearson Addison-Wesley。

保留所有权利。

内容。

1 Introduction 52 Data 53 Exploring Data 194 Classification: Basic Concepts, Decision Trees, and Model24 Evaluation 245 Classification: Alternative Techniques 446 Association Analysis: Basic Concepts and Algorithms 717 Association Analysis: Advanced Concepts 958 Cluster Analysis: Basic Concepts and Algorithms 1259 Cluster Analysis: Additional Issues and Algorithms 14510 Anomaly Detection 153三1介绍1.讨论是否执行下列每项活动的是一种数据miningtask。

(a)把客户的公司根据他们的性别。

否。

这是一种简单的数据库查询。

(b)把客户的公司根据他们的盈利能力。

第这是一种会计计算、应用程序的门限值。

然而,预测盈利的一种新的客户将数据挖掘。

(c)计算的总销售公司。

否。

这又是简单的会计工作。

(d)排序的学生数据库基于学生的身份证号码。

第再次,这是一种简单的数据库查询。

(e)预测结果丢(公平)的一对骰子。

否。

既然死是公正的,这是一种概率的计算。

如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。

然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。

(f)预测未来股价的公司使用。

22春“行政管理”专业《电子政务》离线作业-满分答案9

22春“行政管理”专业《电子政务》离线作业-满分答案1. 政府门户网站对工资的最佳服务模式是永远在线的“自助式”服务和网上办公服务。

( )A.正确B.错误参考答案:B2. 决策支持系统是从数据库中找出必要的数据,并利用数学模型的功能,为用户生成所需信息的系统。

管理信息系统是在决策支持系统基础上发展起来的。

( )A.错误B.正确参考答案:A3. 电子商务关税避免公平原则悖论,一种比较好的方法是( )。

A.发展优先,兼顾公平B.公平优先,兼顾发展C.公平发展,优先交流D.加强交流,公平优先参考答案:A4. 下列不属于电子政务绩效评估的是( )。

A.政治效益B.经济效益C.文化效益D.社会效益参考答案:C5. 有关电子政务和电子商务的关系下列哪些说法正确的有?( )A.两者的支撑体系是“同构”的B.两者的根本目的是一致的C.电子政务不需要信息技术就可以实现D.两者的主体是相同的参考答案:AB6. 关于电子政务工程立项及可行性研究阶段的描述错误的是:( )。

A.立项及可行性研究阶段在电子政务系统建设的整个生命周期中属于中期阶段B.电子政务项目的业主方须向相应的政府管理部门提交立项申请报告及可行性研究报告C.待相应部门批准及项目资金到位后,开展下一阶段的项目招投标工作D.以上都不对参考答案:A7. 防火墙是能够防病毒的。

( )A.错误B.正确参考答案:A8. 电子签名法明确了电子认证机构的法律地位及认证程序。

( )A.正确B.错误参考答案:A9. 我国国家层面的电子政务管理机构有( )。

A.联邦政府信息化管理处B.信息化推进司C.电子政务处室D.高技术产业司参考答案:BCD10. 业务流程改进逐渐地实现流程改造,能够取得较快的效果,并且风险较低。

( )A.错误B.正确参考答案:B11. 政府信息资源管理的目标是( )。

A.实现“电子政府”B.为政府决策提供支持C.传递政治、军事、科技、经济和文化思想实现政府职能D.降低政府的透明度参考答案:ABC12. 外包根据购买物性质的不同可分为( )。

浙大远程教育在线数据挖掘作业答案

浙⼤远程教育在线数据挖掘作业答案您的本次作业分数为:100分单选题1.下列⼏种数据挖掘功能中,()被⼴泛的⽤于购物篮分析。

? A 关联分析B 分类和预测C 聚类分析D 演变分析单选题2.以下哪个指标不是表⽰对象间的相似度和相异度?A Euclidean距离B Manhattan距离C Eula距离D Minkowski距离单选题3.进⾏数据规范化的⽬的是()。

A 去掉数据中的噪声B 对数据进⾏汇总和聚集C 使⽤概念分层,⽤⾼层次概念替换低层次“原始”数据D 将属性按⽐例缩放,使之落⼊⼀个⼩的特定区间单选题4.下⾯哪种数据预处理技术可以⽤来平滑数据,消除数据噪声?? A 数据清理B 数据集成C 数据变换D 数据归约单选题5.下⾯的数据挖掘的任务中,()将决定所使⽤的数据挖掘功能。

? A 选择任务相关的数据B 选择要挖掘的知识类型C 模式的兴趣度度量D 模式的可视化表⽰单选题6.下列⼏种数据挖掘功能中,()被⼴泛的⽤于购物篮分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析单选题7.哪种数据变换的⽅法将数据沿概念分层向上汇总?A 平滑B 聚集C 数据概化D 规范化单选题8.下列哪种可视化⽅法可⽤于发现多维数据中属性之间的两两相关性?A 空间填充曲线B 散点图矩阵C 平⾏坐标D 圆⼸分割单选题9.下列⼏种数据挖掘功能中,()被⼴泛的应⽤于股票价格⾛势分析。

? A 关联分析B 分类和预测C 聚类分析D 演变分析单选题10.存放最低层汇总的⽅体称为()。

A 顶点⽅体B ⽅体的格C 基本⽅体D 维单选题11.规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是⼀个()。

A 单维关联规则B 多维关联规则C 混合维关联规则D 不是⼀个关联规则单选题12.置信度(confidence)是衡量兴趣度度量()的指标。

? A 简洁性B 确定性C 实⽤性D 新颖性单选题13.⽀持度(support)是衡量兴趣度度量()的指标。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浙江大学远程教育学院《数据挖掘》课程作业姓名:学号:年级:学习中心:—————————————————————————————第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据交换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:1、数据库、数据仓库或其他信息库,2、数据库或数据仓库服务器,3、知识库,4、数据挖掘引擎,5、模式评估魔磕,6图形用户界面。

(3)Web挖掘包括哪些步骤?答:数据清理:(这个可能要占用过程60%的工作量)、数据集成、将数据存入数据仓库、建立数据立方体、选择用来进行数据挖掘的数据、数据挖掘(选择适当的算法来找到感兴趣的模式)、展现挖掘结果、将模式或者知识应用或者存入知识库。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。

其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象——关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。

一、填空题(1)两个文档向量d1和d2的值为:d1= (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),则它们的余弦相似度为:5/13(2)数据离散度的常用度量包括极差、分位、百分位数、四分位数极差和标准差(3)一种常用的确定离群点的简单方法是:出落在至少高于第三个四份位数或低于第一个四分位数1.5xIQR处的值。

二、单选题(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:(C)A、中位数=平均值=众数; B中位数>平均值>众数;C、平均值>中位数>众数; D;众数>中位数>平均值(2)下面的散点图显示哪种属性相关性?(C)A不相关;B正相关;C负相关;D先正相关然后负相关;三、简答题(1)什么是基于像素的可视化技术?它有什么缺点?答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。

记录的m个维值映射到这些窗口对应位置上的m个像素。

像素的颜色反映对应的值。

基于像素的可视化技术的缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。

(2)对称的和不对称的二元属性有什么区别?答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。

对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。

一、填空题(1)进行数据预处理时所使用的主要方法包括:数据清理、数据变换、数据集成和数据规约(2)数据概化是指:沿概念分层向上概化(3)数据压缩可分为:有损压缩和无损压缩两种类型。

(4)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归和对数线性模型二、简答题(1)常用的数值属性概念分层的方法有哪些?答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。

(2)请描述主成份分析(PCA)算法步骤答:主成份分析步骤为:a、规范化输入的数据:所有属性落在相同的区间内;b、计算k个标准正交向量,即主成分;c、每个输入数据的向量都是这k个主成分向量的线性组合;d、主成分按照重要程度降序排序。

(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法。

答:处理空缺值的方法有:1) 忽略元组。

当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。

2) 人工填写空缺值。

这种方法工作量大,可行性低3) 使用一个全局变量填充空缺值:比如使用unknown或-∞4) 使用属性的平均值填充空缺值5) 使用与给定元组属同一类的所有样本的平均值6) 使用最可能的值填充空缺值。

如使用像Bayesian公式或判定树这样的基于推断的方法。

(4)常见的数据归约策略包括哪些?答:数据归约策略包括:1)数据立方体聚集2维归约3数据压缩4数值归约5离散化和概念分层产生。

第六—七章挖掘频繁模式、关联和相关一、填空题(1)关联规则挖掘中,两个主要的兴趣度度量是:支持度和置信度(2)Aprior算法包括连接和剪枝两个基本步骤(3)项集的频率是指包含项集的事务数(4)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁项集产生强关联规则(5)根据规则中所处理的值类型,关联规则可分为:布尔关联规则和量化关联规则(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的(7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集二、简答题(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。

答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。

缺点:最小支持度值设置困难:太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。

(2)如何提高Apriori算法的有效性?有哪些常见方法?答:可以使用以下几个思路提升Apriori算法有效性:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法。

常见方法包括:a、基于hash表的项集计数;b、事务压缩(压缩进一步迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘);e、动态项集计数。

第八章分类一、填空题(1)数据分类模型的常用表示形式包括分类规则、决策树和数据公式等。

(2)朴素贝叶斯分类是基于类条件独立假设。

二、简答题(1)在判定树归纳中,为什么树剪枝是有用的?答:决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝可以识别并剪去这种分枝,以提高对未知数据分类的准确性。

(2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。

答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。

朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。

他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用中缺乏准确性,因为变量之间经常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性。

(3)分类方法的常用评估度量都有哪些?答:精度(Precision):标记为正类的元组实际为正类所占的百分比召回率:正元组标记为正的百分比F 度量:精度和召回率的调和评估指标准确率(accuracy),识别率:测试数据中被正确分类的元组所占的百分比;灵敏度(Sensitivity ):真正例(识别)率特效性(Specificity ):真负例率(4)简述数据分类的两步过程。

答:第一步,建立模型:建立描述预先定义的数据类或概念集的分类器;第二步,在独立测试集上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。

三、算法题(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益对age<18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323对age>23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155。

<18 18…23 >23答:判定树buys_PCGame如下所示:第十章聚类分析一、填空题(1)在数据挖掘中,常用的聚类算法包括:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。

(2)聚类分析常作为一个独立的工具来获得数据分布的情况(3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征:高类内相似度和低类间相似度(4)许多基于内存的聚类算法所常用的两种数据结构是数据矩阵和相似度矩阵(5)基于网格的聚类方法的优点是:处理速度快二、简答题(1)简述基于划分的聚类方法。

划分的准则是什么?答:基于划分的聚类方法:给定一个n个对象或元组的数据库,一个划分方法构建数据的k 个划分,每个划分表示一个簇,并且k<=n。

划分方法要求每个组至少包含一个对象并且每个对象属于且仅属于一个组。

聚类目标可以是最优化某种度量,比如最小化数据点与类中心的距离平方和等。

划分准则是同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的原理或不同。

(2)列举离群点挖掘的常见应用。

答:离群点检测的应用很多,列举一些如下:a、欺诈检测;b、网络入侵;c、故障诊断;d、可疑金融交易监控。

第四章数据仓库和OLAP技术一、填空题(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式和事实星座模式(2)给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化(3)著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:面向主题、数据集成、随时间变化和数据不易丢失(4)在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。

(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、代数的和整体的(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图(7)OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和合OLAP服务器(HOLAP)(8)求和函数sum()是一个分布的的函数。

相关文档
最新文档