数据挖掘作业

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作业作为平时成绩(占20%)的衡量标准:一共有24道题,希望大家认真做,不收打印版!

1.什么是数据挖掘?在你的回答中,针对以下问题:

(a)它又是一种广告宣传吗?

(b)它是一种从数据库、统计学和机器学习发展的技术的简单转换吗?

(c) 解释数据库技术发展如何导致数据挖掘。

(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。

2.数据仓库和数据库有何不同?有哪些相似之处?

3.简述以下高级数据库系统和应用:对象——关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。

4.定义下列数据挖掘功能:特征化,区分、关联和相关分析、分类、预测、聚类和演变分析。

5.区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处。

6.解释为什么概念分层在数据挖掘中是有用的。

7.描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。你认为哪种方法最流行,为什么?

8.试描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。

9.与挖掘少量数据相比,挖掘海量数据的主要挑战是什么?

10.数据的质量可以用精确性、完整性和一致性来评估。提出数据质量的两种其他尺度。

11.假设给定的数据集的值已经分组为区间。区间和对应的频率如下:

年龄频率年龄频率

1~5 200 5~15 450

15~20 300 20~50 1500

50~80 700 80~110 44

计算数据的近似中位数值。

12.假定用于分析的数据包含属性age。数据元组的age值以递增序为:

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46, 52,70

(a)该数据的均值是什么?中位数是什么?

(b) 该数据的众数是什么?讨论数据的峰。

(c) 数据的中列数是什么?

(d)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)。

(e)给出数据的五数概括。

13. 假设12个销售价格记录组已经排序如下:

5,10,11,13,15,35,50,55,72,92,204,215

使用如下每种方法将它们划分为三个箱。

(a)等频划分

(b) 等宽划分

(c)聚类划分

14.简述比较以下概念,可以用例子解释你的观点。

(a)雪花形模式、事实星座形、星形网查询模型

(b) 数据清理、数据变换、刷新

(c) 企业数据仓库、数据集市、虚拟仓库

15.假定数据仓库包含三维:time ,doctor 和patient ;和两个度量:count 和charge ;其中,charge 是医生对病人一次诊治的收费。 (a )列举三种流行的数据仓库建模模式。

(b) 使用(a )列举的模式之一,画出上面的数据仓库模式图。

(c) 由基本方体[day ,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP 操作?

(d )为得到同样的结果,写一个SQL 查询。假定数据存放的模式为 Fee(day,month,year,doctor,hospital,patient,count,charge)

16. 3种主要的数据仓库应用:信息处理、分析处理和数据挖掘的区别是什么?讨论OLAP 挖掘的动机。

17.假定10维基本方体只包含3个基本单元:(1)(a1,d2,d3,d4,…,d9,d10),

(2)(d1,b2,d3,d4,…d9,d10)和(3) (d1,d2,c3,d4,…,d9,d10),其中a1≠d1,b2≠d2并且c3≠d3.该立方体度量是count.

(a )完全数据立方体中包含多少个非空方体? (b) 完全数据立方体中包含多少个非空聚集单元? (c) 如果冰山立方体的条件是“coun t ≥2”,冰山立方体包含多少个非空聚集单元?

18.设模糊集543217.09.08.06.01.0x x x x x A ++++=

,模糊集B=5

43211

.02.05.07.09.0x x x x x ++++,求B A ⋃,B A ⋂,A 及B 。

19.“年老”集O 与“年青”集Y 的隶属函数图像如图(1)所示,试求出模糊

集O 与模糊集Y

的交集、并集,并用隶属函数的形式表示其交、并集。

20.已知如下模糊关系⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=2.04.03.015.01.0R ,S=⎥⎥

⎥⎦

⎢⎢⎢⎣⎡4.001.01.04.03.0,其中λ=0.3,τ=0.5,求对其模糊关系施行如下运算的值:

S R ⋃,τλR R S R ,,⋂。若有⎥⎥

⎥⎥⎦

⎢⎢

⎢⎣⎡=9.08

.01.02.006.04.05

.014.07

.03.0R ,S=⎥⎥⎥⎦

⎢⎢⎢⎣⎡6.001.03.07.05.0,求S R 的值。

21.设有5个环境单元,每个环境的污染数据按空气、水分、土壤、作物排序如下:1x (5,5,3,2) ,

2x (2,3,4,5) , 3x (5,5,3,2) ,

4x (1,5,3,1) , 5x (2,4,5,1),请选择合适的聚类方法对其分析,并以其聚类方法得出相应分类结果,并说明选择此方法进行聚类的原因。

22、令论域U={1x ,2x ,3x ,4x ,5x },模糊集5

43213

.02.017.09.0x x x x x A +

+++=

, 求9.05.03.0,,A A A 和)(A Card 。

23、设身高的论域为U={140,150,160,170,180},单位为厘米,设体重的论域为

{40,50,60,70,80},单位为千克,那么常规表示人的身高与体重之间的模糊关系怎样建立?其模糊关系相应的模糊矩阵是?

24、给定论域U={1x ,2x ,3x ,4x ,5x },假设对象间的模糊相似关系为

⎥⎥⎥

⎥⎥

⎥⎦

⎢⎢⎢⎢⎢⎢⎣⎡=16.05.04.05

.06.015.04.05.05.05.014.08

.04.04.04.014.05.05.08.04.01R ,请根据如下图所示的λ的值对论域U 进行相应的分类。

相关文档
最新文档