数据挖掘复习题纲

一、

1。2 数据仓库与数据库有何不同?它们有哪些相似之处?

简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计.

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID.

单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据.比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。

显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据.这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库"。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H。Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。

“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。

“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息.数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性.决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。

“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的.

数据仓库的出现,并不是要取代数据库.目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。

补充一下,数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大.为了更好地为前端应用服务,数据仓库必须有如下几点优点,否则是失败的数据仓库方案.

1.效率足够高。客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计

不好的数据仓库经常会出问题,延迟1—3日才能给出数据,显然不行的。

2.数据质量.客户要看各种信息,肯定要准确的数据,但由于数据仓库流程至少分为3步,2次ETL,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。

3.扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3—5年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了.

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离君点分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。

特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

。。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,

而具有低GPA 的学生的65%不是.

。. 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:

major(X, “computing science”)⇒ owns(X,“personal computer”)

[support=12%, confidence=98%]

其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

。. 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。

。。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。

。。数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析

二、

2。2假设所分析的数据包括属性age,它在数据元组中的值(以递増)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70

A)该数据的均值是多少?中位数是什么?

B)该数据的众数是什么?讨论数据的模态(即二模,三模等).

C)该数据的中列数是多少

D)你能(粗略地)找出该据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?

E)给出该数据的五数概括。

F)绘制出该数据的盒图。

G)分位数-—分位数图与分位数图有何不同?

解答:

(a) 该数据的均值是什么?中位数是什么?

(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。

这个数集的众数有两个:25 和35,发生在同样最高的频率处,因此是双峰

众数。

(c)数据的中列数是什么?

数据的中列数是最大术和最小是的均值。即:midrange=(70+13)/2=41.5。

(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)

吗?

数据集的第一个四分位数应发生在25%处,即在(N+1)/4=7 处.所以:Q1=20.

而第三个四分位数应发生在75%处,即在3×(N+1)/4=21 处。所以:Q3=35

(e) 给出数据的五数概括.

一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个

四分位数、和最大值构成。它给出了分布形状良好的汇总,并且这些数据是:13、

20、25、35、70。

(f) 画出数据的盒图。

略。

(g) 分位数-分位数图与分位数图的不同之处是什么?

分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变

量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的

值(纵轴)相对于它们的分位数(横轴)被描绘出来。

但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一

单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照

两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在

该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值

的分布高。反之,对落在该线以下的点则低.

2。3设给定的数据集已经分组到区间。这些区间和对应频率如下所示:

Age frequency

1—5 200

6-15 450

16-20 300

21—50 1500

51-80 700

80—110 44

计算该数据的近似中位数.

2.4假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:

Age 23 23 27 27 39 41 47 49 50

Fat 9。5 26.5 7。8 17。8 31。4 25.9 27。4 27。2 31。2

Age 52 54 54 56 57 58 58 60 61

Fat 34.6 42.5 28.8 33.4 30。2 34.1 32.9 41。2

35.7

A)计算age和%fat的均值,中位数和标准差.

B)绘制age和%fat的盒图。

C)绘制基于这两个变量的散点图和q—q图。

3.3在习题2.2中,age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。

A)使用蒌3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对缎带定数据的效果.

B)如何确定该数据中的离群点?

C)还有什么其他方法来光滑数据?

(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。

评述对于给定的数据,该技术的效果.

用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤:

步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)

步骤2:将数据划分到大小为3 的等频箱中。

箱1:13,15,16 箱2:16,19,20 箱3:20,21,22

箱4:22,25,25 箱5:25,25,30 箱6:33,33,35

箱7:35,35,35 箱8:36,40,45 箱9:46,52,70

步骤3:计算每个等频箱的算数均值.

步骤4:用各箱计算出的算数均值替换每箱中的每个值。

箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21

箱4:24,24,24 箱5:80/3,80/3,80/3 箱6:101/3,101/3,101/3

箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56

(b)如何确定数据中的离群点?

聚类的方法可用来将相似的点分成组或“簇”,并检测离群点.落到簇的集

外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机

用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工

轻松的检验,而不必检查整个数据集.

(c)对于数据光滑,还有哪些其他方法?

其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界

光滑.作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围

均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过

线性或多线性回归.分类技术也能被用来对概念分层,这是通过将低级概念上卷

到高级概念来光滑数据。

3.5如下规范化方法的值域是什么?

A)最小-最大规范化

B)Z分数规范化.

C)Z分数规范化,使用均值绝对念头而不是标准差。

D)小数定标规范化。

(a) min—max 规范化。

值域是[new_min, new_max].

(b) z—score 规范化。

值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能

的数据集的值域是(-∞,+∞).

(c)小数定标规范化.

值域是(-1。0,1.0)。

3。6使用如下方法规范化如下数据组:200,300,400,600,1000

(a)min=0,max=1,最小—最大规范化。

(b)Z分数规范化。

(c)Z分数规范化,使用均值绝对偏差而不是标准差。

(d)小数定标规范化.

(a) min—max 规范化。

值域是[new_min, new_max]。

(b) z—score 规范化。

值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能

的数据集的值域是(-∞,+∞)。

(c) 小数定标规范化。

值域是(-1.0,1。0)。

4。1试述对于多个异构信息源的集成,为什么许多公司更愿意使用更新驱动的方法(构造和使用数据仓库),而不是查询驱动的方法(使用包装程序和集成程序)。描述一些查询驱动方法比更新驱动方法更可取的情况.

答: 因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理, 并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中, 进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询.

4。2简略比较以下概念,可以用例子解释你的观点。

(a)雪花模式、事实星座、星网查询模型.

(b)数据清理、数据变换、刷新。

(c)发现驱动的立方体、多特征冷言冷语腐朽、虚拟仓库

(a)雪花形模式、事实星座形、星形网查询模型。答:雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。

(b)数据清理、数据变换、刷新答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。

4。5假定数据仓库包含4个维-—date,spectator,location,game,2个度量——count和charge,其中charge 是观众在给定的日期观看节目的费用。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图

(b)由基本方体【date,spectator,location,game】开始,为列出2010年学生观众在GM_place的总付费,应当执行哪些OLAP操作?

(c)对于数据仓库,位图是有用的。以该数据立方体为例,简略讨论使用位图索引结构的优点和问题。

6。3 Apriori算法使用子集支持度性质的先验知识.

(a)证明频繁项集的所有非空子集一定也是频繁的。

(b)证明项集s的任意非空子集s’的支持度至少与s的支持度一样大。

(c)给定频繁项集l和l的子集s,证明规则“s=〉l(s’)”的置信度不可能大于“s=>l(s)”的置信度。其中,s’是s的子集

(d)Apriori算法的一种变形将事务数据库D中的事务划分成n个不重叠的分区。证明在D中频繁的项集至少在D的一个分区中是频繁的。

1.证明频繁集的所有非空子集必须也是频繁的。

证明:根据定义,如果项集I不满足最小支持度阈值min_sup,则I不是频繁的,即

supmin_)(IP如果A想添加到I,则结果项集不可能不更频繁出现。因此,也不是频繁

的,即矛盾。

2。同理可证。

3

6。6数据库有5个事务.设min_sup=6—%,min_conf=80%。

TID 购买的商品

T100 {M,O,N,K,E,Y}

T200 {D,O,N,K,E,Y}

T300 {M,A,K,E}

T400 {M,U,C,K,Y}

T500 {C,O,O,K,I,E}

(a)分别使用Apriori算法和FP-growth算法找出频繁项集。比较两种挖掘过程的有效性.

(b)列举所有与下面元规则匹配的强关联规则(缎带出支持度s和置信度c),其中,X是代表太阳穴的变量,item,是表示项的变量(如“A",“B ”等):

≯x∈transaction,buys(X,item1)∧buys(X,item2)=〉buys(X,itm3)[s,c]

6.8数据库有4个事务。设min_sup=60%,min_conf=80%.

Cust_ID TID 购买的商品(以brand—item_category形式)

01 T100 {King’s-Carb,Sunset—Milk, Dairyland—Cheese,best-Bread}

02 T200 {Best—Cheese, Dairyland—Milk, Goldenfarm—Apple,Tasty—Pie,Wonder—Bread}01 T300 {Westcoast—Apple,Dairyland—Milk,Wonder—Bread,Tasty-Pie}

03 T400 {Wonder—Bread,Sunset—Milk,Dairyland—Cheese}

(a)在item_category粒度(例如,item,所可能已经”milk”),对于下面的规则模板

≯x∈transaction,buys(X,item1)∧buys(X,item2)=〉buys(X,item3)[s,c]

列出最大k的频繁k项集和包含最大k的频繁k諅的所有强关联规则(包括它们的支持度s和置信度c)。

(b)在brand—item_category粒度(例如,item i可以是Sunset—Milk),对于下面的规则模板

≯x∈customer,buys(X,item1)∧buys(X,item2)=〉buys(X,item3)

列出最大k的频繁k项集(但不输出任何规则)

7.3量化关联规则可能提示数据集中的异常行为,其中“异常”可以根据统计学理论定义。例如,7.2。3节表明关联规则

Sex=female∧meanwage=7,90 $/h(overallmeanwage=9。02 $/h)

暗示一个异常模式.该规则说明,女性的平均工资每小时只有7。90美元,显著地于每小时9.02美元的总体平均工资。讨论如何在具有量化属性的大型数据集中系统而有效地发现这种量化规则.

8。1简述决策树分类的主要步骤。

8.7下表由雇员数据库的训练数据组成。数据已泛化。例如,age“31。..35”表示年龄在31-35之间。对于给定的行,count表department、status、age和salary在该行上具有给定值的元组数。

Department status age salary count

Sales senior 31—35 46k-50k 30

Sales junior 26—30 26-30k 40

Sales junior 31-35 31-35k 40

Systems junior 21-25 46—50k 20

Systems senior 31-35 66—70k 5

Systems junior 26—30 46—50k 3

Systems senior 41-45 66—70k 3

Marketing senior 36—40 46—50k 10

Marketing junior 31-35 41-45k 4

Secretary senior 46-50 36-40k 4

Secretary junior 26—30 26-30k 6

(a)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count?

(b)使用修改过的算法,构造绷带定数据的决策树

(c)给定一个数据元组,它的属性department、age和salary的值分别为“system”“26…30”和“46…60”.该元级status的相互贝叶斯分类是什么?

解一:设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:

P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;

P(26—30|junior)=(40+3+6)/113=49/113;

P(46K—50K|junior)=(20+3)/113=23/113;

∵ X=(department=system,age=26…30,salary=46K…50K);

∴ P(X|junior)=P(systems|junior)P(26—30|junior)P(46K—50K|junior)

=23×49×23/1133=25921/1442897=0.01796;

P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;

P(26-30|senior)=(0)/53=0;

P(46K—50K|senior)=(30+10)/52=40/52;

∵ X=(department=system,age=26…30,salary=46K…50K);

∴ P(X|senior)=P(systems|senior)P(26—30|senior)P(46K—50K|senior)=0;

∵ P(junior)=113/165=0。68;

∵ P(senior)=52/165=0.32;

∴ P(X|junior)P(junior)=0。01796×0。68=0。0122128〉0=0=P(X|senior)P(senior);

所以:朴素贝叶斯分类器将X 分到junior 类.

解二:设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。

所以已知:X=(department=system,age=26…30,salary=46K…50K),元组总数

为:30+40+40+20+5+3+3+10+4+4+6=165。

先验概率:

当status=senior 时,元组总数为:30+5+3+10+4=52,P(senior)=52/165=0。32;

当status=junior 时,元组总数为: 40+40+20+3+4+6=113 ,

P(junior)=113/165=0.68;

因为status=senior 状态没有对应的age=26…30 区间,所以:P(X|senior)=0;

因为status=junior 状态对应的partment=systems、age=26…30 区间的总元组

数为:3,所以:P(X|junior)=3/113;

因为:P(X|junior)P(junior)=3/113×113/165=0。018〉0=P(X|senior)P(senior);

数据挖掘复习题纲所以:朴素贝叶斯分类器将X 分到junior 类.

(d)为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。

(e)使用上面得到的多层前馈神经网络,给定训练实例(sales,senior,31…

35,46K…50K),给出后向传播算法一次迭代后的权重值.指出你使用的

初始权重和偏倚以及学习率。

10.2假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个簇.

A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)

距离函数是欧氏距离.假设初始我们选择A1,B1和C1分别为每个入籍的中心,用k—均值算法给出:

(a)在第一轮执行后的3 个入籍中心。

(b)最后的3个簇

《数据挖掘》复习

《数据挖掘》复习 一、题型 1、判断题15分 2、单选题15分 3、简单题15分 4、综合题20分 5、计算题35分(C5.0算法、感知机算法、Apriori算法,见练习题) 二、考试大纲 三、实验/作业评讲 在教学过程的各个环节,从学生的出勤、日常表现、作业、测试、项目完成情况及完成质量、TOPCARES能力目标的实现情况等方面,对学生进行全方位的考核。 说明: 四、知识点梳理,重点教学内容串讲 名词解释 数据挖掘(P6)、算法(P10)、MODELER中的节点(P13)、MODELER中的数据流(P14)、MODELER中的超节点(P18)、决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)、知识发现KDD(P6) 主要概念 DW产生的基础(P3) DW的基本过程包括(P6) DW能做什么(P7) DW得到的知识形式(P8) DW的算法分类(P10) MODELER的主窗口由哪几部分组成(P13) MODELER中数据流中的节点主要可实现哪些功能(P15)

MODELER中数据流的操作主要包括哪几步(P15) MODELER中节点工具箱含由八大选项卡组织(P15) MODELER中通常数据挖掘的基本思路包括哪些过程(P19) MODELER中从数据挖掘角度看变量有哪7大类型(P26), 通过TYPE节点可以说明变量什么内容(P42) 什么是“有指导学习”(P12、P104)?举例说明; 决策树算法的核心问题有哪些(P106)? 什么是信息熵(P57、P109)?(信息熵是连续型变量分箱MDLP算法和决策树C5.0算法的核心) 人工神经网络中主要有哪些网络种类(P156) 神经网络中处理单元的内部结构图(P158) 什么是感知机模型(P162) 什么是B-P反向传播网络模型,由什么特点(P164) Apriority关联分析算法主要包括哪两大部分技术(P213)(产生频繁集、依据频繁集产生关联规则) 决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)等数据挖掘方法主要用来解决什么问题(分类、预测、关联等) 3、算法 决策树C5.0算法、人工神经网络B-P感知机算法、关联分析Apriori算法 五、典型例题分析 (一)判断题,在每题后面正确打勾,错误打叉 有高质的原始数据,才可能有高质量的数据挖掘结果。(√) 高质量数据是数据分析的前提和分析结论可靠性的保障。(√) MODELER中数据质量的探索主要包括数据缺失、数据离群点和极端值等几方面。(√) 数据挖掘的结果都是正确的。(*) MODELER中数据挖掘的数据通常以变量为列、样本为行的二维表形式组织。(√) 变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正,同时指出各个变量在未来建模中的角色。(√) 变量说明应通过Field Ops选项卡中的类型(Type)节点实现。(√) 样本浓缩是通过Record Ops卡中的浓缩(Distinct)节点实现。(√) 样本浓缩是通过Record Ops卡中的汇总(Aggregate)节点实现。(*) 数据的重新组织是通过Field Ops选项卡中的类型(Type)节点实现。(*)

数据挖掘概念与技术第三版部分复习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。

数据挖掘考试题目——关联分析教学提纲

数据挖掘考试题目——关联分析

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。

数据挖掘复习题和答案

考虑表中二元分类问題的训练样木集 表 4 - 8练习3的数据集 1. 整个训练样本集关于类属性的嫡是多少 2. 关于这些训练集中al, a2的信息增益是多少 3. 对于连续属性a3,计算所有可能的划分的信息增益。 4. 根据信息增益,al, a2, a3哪个是罠佳划分 5. * 6. 根据分类错误率,al, a2哪具最佳 7. 根掩ini 指标,al, a2哪个最佳 答1 • EXamPIeS for COmPUting EntrOPy EntrOPy =- 0 IOg 0-I10gl=-0-0=0 (5/6) P(C2) = 5/6 EntrOPy = - (1/6) Iog 2 (1/6)- Iog 2 (5/6) = 0. 65 P(CI)=

-4/9 log (4/9) - 5/9 log(5/9)二・ 答2: SP1itting BaSecI On INFO.・・ • InfOrmatiOn Gain: GAIN . . - En trOPy (P) --En tropy (I) Parent Node, P is SPIit into k PartrtiOns; ni is number Of records in PartitiOn i 一 MeaSUreS RedUCtiOn in EntrOPy achieved because Of the SPIit • ChOOSe the SPlit that achieves most reduction (maximizes GAIN) 一 USed in ID3 and C4.5 一 DiSadVantage: TendS to Prefer SPlitS that result in large nUmber Of Partiti0ns, each being Small but PUre ・ (估计不考) P(C2) = 4/6 EntrOPy = 一(2/6) log? (2/6)- (4/6) Iog 2 (4/6) = 0.92 P(C1)= P(+) 二 4/9 and P( -) = 5/9

12《数据仓库与数据挖掘》复习题.

《数据仓库与数据挖掘》复习大纲考试时间与地点: 课程名称任课 老师 班级人数 考试合班 数 考试 周数 周几第几节考试地点 数据仓库与数据挖掘吴静12信技 1-2 54 2 11 5 3-4 L1208 考试题型:一、单项选择题(10×2分=20分 二、判断题(10×2分=20分 三、简答题(5×6分=30分 四、分析计算题(3×10分=30分 考试范围: 第一讲数据挖掘概述 考点:

1、数据挖掘、知识发现(KDD基本概念; 2、数据挖掘的过程; 3、数据挖掘过技术的三个主要部分。 复习参考题: 一、填空题 (1数据库中的知识挖掘(KDD包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。 (2数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。 (3当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。 (4在万维网(WWW上应用的数据挖掘技术常被称为:WEB挖掘。 (5孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。 二、单选题 (1数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:B A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 (2孤立点挖掘适用于下列哪种场合?D

A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测 (3下列几种数据挖掘功能中,( D 被广泛的应用于股票价格走势分析。 A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析 (4下面的数据挖掘的任务中,( B 将决定所使用的数据挖掘功能。 A、选择任务相关的数据 B、选择要挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5下列几种数据挖掘功能中,(A 被广泛的用于购物篮分析。 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析

数据挖掘复习题纲

一、 1。2 数据仓库与数据库有何不同?它们有哪些相似之处? 简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计. 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID. 单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据.比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据.这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库"。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H。Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。 “与时间相关”:数据库保存信息的时候,并不强调一定有时间信息.数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性.决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。 “不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的. 数据仓库的出现,并不是要取代数据库.目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 补充一下,数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大.为了更好地为前端应用服务,数据仓库必须有如下几点优点,否则是失败的数据仓库方案. 1.效率足够高。客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计

数据挖掘复习题

1.1讨论下列每项活动是否是数据挖掘任务: (1)根据性别划分公司的顾客。 (2)根据可赢利性划分公司的顾客。 (3)计算公司的总销售额。 (4)按学生的标识号对学生数据库排序。 (5)预测掷一对骰子的结果。 (6)使用历史记录预测某公司未来的股票价格 (7)监视病人心率的异常变化。 (8)监视地震活动的地震波。(9)提取声波的频 率。 答:(1) 不是,这属于简单的数据库查询。 (2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。 (3) 不是,还是简单的会计计算。 (4) 不是,这是简单的数据库查询。 (5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据 历史数据预测结果则更类似于数据挖掘任务。 (6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。可以使 用回归来建模,或使用时间序列分析。 (7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域 的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。 (8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据 挖掘领域的分类。 (9) 不是,属于信号处理。 1.2假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明, 数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检 测等技术为企业服务。 答: ( 1)使用聚类发现互联网中的不同群体,用于网络社区发现; ( 2)使用分类对客户进行等级划分,从而实施不同的服务; ( 3)使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广外” 的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜索“信 息学院”。 ( 4)使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息的攻击。 2.12区分噪声和离群值。一定要考虑以下的问题。 (a)噪声曾经有趣的或可取的吗?离群值吗?不,根据定义。是的。(参见第十章)。 (b)噪声对象可以例外吗?是的。随机数据的失真通常负责离群值。 (c)是噪声对象总是异常值吗?不。随机变形会导致一个对象或值一样正常的一个。 (d)异常值总是噪声对象?不。通常离群值仅仅代表一个类的对象是不同的从正常的对象。 (e)噪音可以典型值为一个不寻常的人,反之亦然?是的。 2.14以下属性的测量一群亚洲的大象:体重、身高、象牙长度、躯干长度,和耳朵区域。根据这些测量,什么样的相似性度量从2.4节你会使用比较这些大象或一组?证明你的答案和

数据挖掘教学大纲

数据挖掘教学大纲 一、引言 1.1 数据挖掘的定义和概述 1.2 数据挖掘的应用领域 1.3 数据挖掘的基本步骤和流程 二、数据预处理 2.1 数据清洗 2.1.1 缺失值处理 2.1.2 异常值处理 2.1.3 重复值处理 2.2 数据集成 2.2.1 数据集成技术 2.2.2 数据冗余处理 2.3 数据变换 2.3.1 数据规范化 2.3.2 数据离散化 2.3.3 数据平滑和数据聚集 2.4 数据规约 2.4.1 属性选择

2.4.2 数据压缩 三、数据挖掘技术 3.1 关联规则挖掘 3.1.1 关联规则的定义和基本概念 3.1.2 关联规则挖掘算法 3.1.3 关联规则的评估和应用 3.2 分类与预测 3.2.1 分类与预测的定义和基本概念 3.2.2 分类与预测算法 3.2.3 分类与预测的评估和应用 3.3 聚类分析 3.3.1 聚类分析的定义和基本概念 3.3.2 聚类分析算法 3.3.3 聚类分析的评估和应用 3.4 异常检测 3.4.1 异常检测的定义和基本概念 3.4.2 异常检测算法 3.4.3 异常检测的评估和应用 四、数据挖掘工具和平台

4.1 常用的数据挖掘工具介绍 4.1.1 WEKA 4.1.2 RapidMiner 4.1.3 Python中的数据挖掘库 4.2 数据挖掘平台的选择和使用 4.2.1 平台的功能和特点 4.2.2 平台的比较和评估 五、数据挖掘应用案例分析 5.1 电商行业的用户购买行为分析 5.2 社交媒体数据的情感分析 5.3 医疗领域的疾病诊断和预测 5.4 金融行业的信用评估和风险管理 六、数据挖掘的伦理和隐私问题 6.1 数据挖掘的伦理问题 6.2 数据挖掘的隐私保护措施 6.3 数据挖掘的法律法规和政策要求 七、数据挖掘的发展趋势 7.1 深度学习在数据挖掘中的应用 7.2 大数据时代下的数据挖掘

数据挖掘考试复习资料

数据挖掘考试复习资料 一、名词解释 1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合, 用来支持管理决策。 2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被 称为聚类 3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先 前未知的和可能有用的模式或知识 4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构 进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。 5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的 信息和知识的计算机处理技术 6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从 多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 定义1:OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。 定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。) 7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特 征。特征化:提供给定数据汇集的简洁汇总 比较:提供两个或多个数据汇集的比较描述 8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值。它代表 了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。信息熵也称信源熵、平均自信息量。

广工数据挖掘复习要点

第一章绪论 1.数据挖掘要解决的问题:面对高维,复杂,异构的海量数据,如何集中获取有用的信息和知识。 2。数据挖掘定义: ·技术层面上:数据挖掘就是从大量数据提取有用信息的过程; ·商业层面上:数据挖掘就是对大量业务数据进行抽取,转换和分析以及建模处理,从中提取辅助商业决策的关键性数据。 3。数据挖掘的特征:先前未知,有效和实用。 4.数据挖掘对象:·关系数据库(借助集合代数等概念和方法来处理数据库中的数据)·数据仓库(数据集合,用于支持管理决策)·事务数据库(每个记录代表一个事务)·空间数据库·事态数据库和时间序列数据库·流数据·多媒体数据库·文本数据库·万维数据库 5.数据挖掘任务:分类分析(按照某种规则),聚类分析(具有共性),回归分析,关联分析(具有关联规则),离群点检测(发现与众不同的数据),演化分析(随时间变化的数据对象的趋势),序列模式挖掘(分析前后序列模式) 6。数据挖掘过程:数据清洗,数据集成(考虑数据一致性和冗余),数据选择,数据转换,数据挖掘,模式评估,知识表示。 例题: 1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种. 答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同, 可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据 信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析. ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等. ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 1.5定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测.使用你熟悉的生 活中的数据,给出每种数据挖掘功能的例子。 答:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现 的关联规则为:major(X, “computing science")⇒owns(X,“personal computer”) [support=12%,confidence=98%]其中,X 是一个表示学生的变量.该规则指出主修计

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料 一、单项选择题 1. 数据挖掘技术包括三个主要的部份 ( C ) A.数据、模型、技术 C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识 D.建模能力、算法与技术、领域知识) A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B.基本元数据包括与企业相关的管理方面的数据和信息; C.基本元数据包括日志文件和简历执行处理的时序调度信息; D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。 3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A) A.OLAP 事务量大,但事务内容比较简单且重复率高 B.OLAP 的最终数据来源与 OLTP 不一样 C.OLTP 面对的是决策人员和高层管理人员 D.OLTP 以应用为核心,是应用驱动的 4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5.下面哪种不属于数据预处理的方法? ( D ) A.变量代换 B.离散化 C. 会萃 D. 估计遗漏值 6. 在 ID3 算法中信息增益是指( A.信息的溢出程度 C.熵增加的程度最大D ) B.信息的增加效益 D.熵减少的程度最大 7. 以下哪个算法是基于规则的分类器 ( A ) A. C4.5 B. KNN C. Bayes D. ANN 8. 以下哪项关于决策树的说法是错误的( C ) A.冗余属性不会对决策树的准确率造成不利的影响 B.子树可能在决策树中重复多次 C.决策树算法对于噪声的干扰非常敏感 D.寻觅最佳决策树是 NP 彻底问题 9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A ) A. 0.25 B. 0.375 D. 0.5 10. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D ) A.有放回的简单随机抽样 B.无放回的简单随机抽样 C.分层抽样 D.渐进抽样 11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)

数据仓库与数据挖掘复习题

2014-2015-1数据仓库与数据挖掘 期末考试题型 一、单项选择题每小题2分,共20分 二、填空题每空1分,共20分 三、简答题每题6分,共30分 四、析题与计算题共30分 请同学们在考试时不要将复习资料带入考场 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题 A A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准 A a警察抓小偷,描述警察抓的人中有多少个是小偷的标准; b描述有多少比例的小偷给警察抓了的标准; A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务C A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其

他标签的数据相分离 B A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD A A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务A A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务 B A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务 C A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务 A A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法 D

数据挖掘期末考试

数据挖掘期末考试 1理解概念 1.1数据挖掘1.2关联规那么1.3数据预处理1.4置信度1.5聚类1.6KNN1.7SVM 2分类器设计的三个经过 3分类时常将样本如何划分 4评估分类器性能的常用指标 5数据挖掘常用技术有哪些 6数据预处理的主要方法 7决策树分类算法步骤 8OLAP技术多维分析经过的多维分析操作有哪些 9数据可视化的分类方法有哪些 10数据规约的策略有哪些 11数据光滑的分箱方法有哪些 12数据挖掘的主要功能包括那几个方面

13基于密度的分类方法有哪些 后面是问答 14什么是决策树 15怎样利用决策树进展分类 16分类知识的发现方法有哪些 17分类规那么的挖掘方法有哪些以及上面的答案一样 18分类经过通常包括哪两个阶段 19回归以及分类的区别 20什么是聚类 21聚类以及分类有以及异同 22聚类的挖掘方法有啥 23按聚类分析方法的主要思路可将聚类分析方法分为哪几种类型 24什么是数据标准化 25数据标准化的方法有哪些

以下几种算法认真看 2626.1ID3决策树算法26.2Aprior算法26.3k_means算法26.4NaïveBayes算法 1.1从大型数据集可能是不完全的有噪声的不确定的各种存储形式的中挖掘隐含在其中的且事先不知道的对决策有用 的知识的经过。广义 从特定形式的数据集中提炼知识的经过狭义 1.2从给定的数据集中发现频繁出现的工程集形式知识即x-y 的蕴涵式。其中xy分别称为先导以及后继。 1.3数据预处理用各种方法对数据进展变换、加工以便它适用于存储、管理及进一步分析以及应用。主要内容包括数据清理、数据集成、数据规约、数据变换。 1.4置信度包含I1以及I2的事务数与包含I1的事务数之比。 1.41支持度包含I1的事务在数据集D上所占的比例。 1.5聚类通过最大化类内相似性最小化类间相似性的方法将数据分为簇以及组来分析数据对象。 1.6KNNp68下面计算每个训练数据到待分类元组的间隔取以及待分类元组间隔最近的k个训练数据k个数据中哪个类别

数据挖掘复习大纲

名词解释:英文缩写 1.过度拟合(overfitting),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。 2.人工神经网络( Artificial Neural Networks,简写为ANN),是一种人脑的抽象计算模型,是一种模拟人脑思维的计算机建模方式. 3.数据仓库(Data Warehouse,可简写为DW或DWH),是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。 简答题 1、 KDD是一个多步骤的处理过程,它一般包含哪些基本阶段?简述各阶段的主要功能。 KDD 是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。 主要功能 1: (1)问题定义阶段的功能:和领域专家以及最终用户紧密协作,一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘目标等要求;另一方面通过对各种学习算法的对比而确定可用的学习算法。 (2)数据抽取阶段的功能:选取相应的源数据库,并根据要求从数据库中提取相关的数据。 (3)数据预处理阶段的功能:对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性。 (4)数据挖掘阶段的功能:运用选定的数据挖掘算法,从数据中提取出用户所需要的知识。(5)模式评价阶段的功能:将 KDD 系统发现的知识以用户能了解的方式呈现,并且根据需要进行知识的评价。如果发现知识和用户挖掘的目标不一致,则重复以上阶段以最终获得可用知识。 主要功能 2: (1)问题定义:在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD 工程中. (2)数据预处理: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在的错误以及缺失信息 (3)数据抽取:转换数据为数据挖掘工具所需的格式。这一步可以使得结果更加理想化。 (4)数据挖掘: 应用数据挖掘工具. (5)模式评估:了解以及评估数据挖掘结果. 2、数据挖掘的六种常用算法和技术分别是什么? 算法: 1。决策树算法 2。聚类分析算法 3。Naive Bayes 算法 4.关联规则算法 5。

完整版数据挖掘计算题参考答案

数据仓库与数据挖掘复习题 1.假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为 3个类: X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选 择欧 几里德距离.假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中央,请 用K_means 算法来计算: (1)在第一次循环执行后的3个聚类中央; 答:第 一次迭中央点1: X1(2, 10), 2: X4(5, 8), X7(1, 2) 答案:在第一次循环执行后的3个聚类中央: 1: X1(2, 10) 2: X3, X4, X5, X6, X8 (6, 6) 3: X2, X7 (1.5, 3.5) (2)经过两次循环后 ,最后的3个族分别是什么? 第二次迭代: 答案:1: X1, X8 (3.5, 9.5) 2: X3, X4, X5, X6 (6.5, 5.25) 3: X2, X7(1.5, 3.5) 2.数据库有 4个事务.设 min_sup=60%,min_conf=80%. a 使用Apriori 算法找出频繁项集,并写出具体过程 (a)Apriori 算法:

{K}1{A}4{A,B}4{A,B,D) 3 {A}4{B}4{A,D}3 {B}4{D}3{B,D}3 {D}3 {€}—2- {E}—2- 频繁项集为3项集{A,B,D}:3 b.列出所有的强关联规那么,使它们与下面的元规那么匹配,其中, X是代表顾客的变量,item i是表示项的变量(例如,“A〞、“B〞等): Vx=transac,tior( b,uys)X item , buy)sX item, 3b) i[s y(s| X item 答:所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D} A A B=>D conf=3/4=75% A A D=> B conf=3/3=100% V BAD=>A conf=3/3=100%V 因此,满足条件的强关联规那么有: AAD=>B{supp=75%,conf=100%} BAD=>A{supp=75%,conf=100%} Sky 答: C1 : Enjoysport=yes=3 C2 : Enjoysport=no=1 I(yes,no)=-3/4log 2 3/4-1/4log 2 1/4=0.811 Gain(sky)=0.811 习题: 1.以汽车保险为例:假定练习数据库具有两个属性:年龄和汽车类型. 年龄序数属性 汽车类型一一分类属性 -L:低〔风险〕,H:高〔风险〕

2021年西南财经大学817-数据挖掘综合-考试大纲

西南财经大学招收硕士生考试说明及考试大纲 适用专业:大数据管理 考试科目:《数据挖掘综合》 第一部分:考试内容及要求 一. 数据挖掘概述 考试内容 数拯挖掘的概念知识发现过程数据挖掘数据类型数据挖掘功能和模式数据挖掘可利用的技术数据挖掘应用数据挖掘的主要问题 考试要求 1.了解数据库系统技术的演变过程:理解数据挖掘的概念;掌握知识发现过程的7个步骤。 2.掌握数据挖掘的数据类型;掌握数据挖掘功能和模式:理解数据挖掘与统计学、机器学习的 联系和区别;了解数据挖掘的应用领域:了解数据挖掘的主要问题。 二. 数据预处理 考试内容 数据属性数据基本描述统计数据预处理概述数据质量数据预处理的主要步骤数拯淸理数据集成数据变换数据规约数据离散化 考试要求 1.了解数据对象与属性类型。 2.理解数拯的基本统汁描述,掌握均值、中位数、众数、极差、四分位数、方差、标准差和四分位数极差的概念和计算方法:了解数据基本统汁描述的图形显示:了解度量数据的相似性和相异性。 3.了解进行数据预处理的原因及其重要性:了解数拯质量涉及的因素;掌握数据预处理的主要步骤。 4.了解数据淸理的概念:了解处理数据缺失值的方法:了解处理噪音数据的方法。 5.理解数据集成的概念:掌握冗余和相关性分析的方法(力‘检验,Pearson积矩系数)。 6.了解数据变换的策略;掌握数据规范化的计算方法(最小-最大规范化、z分数规范化、按小数宦标规范化)。 7.理解数拯归约的概念:了解数据归约的策略:了解线性回归、对数线性模型、直方图、聚类、抽样等数据归约方法。 8.理解数据离散化和概念分层的概念;了解数据离散化的方法(分箱、直方图分析、聚类分析、相关分析)。 三. 数据仓库和联机分析处理

数据挖掘考试提纲

第一章 1、数据挖掘的概念。P3 数据挖掘是从大量数据中提取或“挖掘”知识。 数据挖掘是个过程,目的是知识发现。 数据挖掘的过程: 1数据预处理:®数据清理(消除重复的、不完全的、违反语义约束的数据), ②数据集成(多种数据源可以组合在一起),③数据选择(从数据库中检索与 分析任务相关的数据),⑷数据变换(数据变换或统一成适合挖掘的形式,如 通过汇总或聚集操作)。 2数据挖掘(使用智能方法提取数据模式) 3 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式) 4知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 2、数据挖掘有哪些模式。P3 数据挖掘的模式:1 分类模式,2回归模式,3时间序列模式,4聚类模式,5关联规则模式,6 序列模式。 3、什么是有意义的模式。 1)它易于理解。2)在某种必然程度上,对于新的或检验数据是有效的。3)是潜在有用的。4)是新颖的。如果一个模式符合用户确信的某种假设,它也是有趣的。有趣的模式就是知识。 4、数据挖掘中能否挖掘出所有模式。 数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。 第二个问题——“数据挖掘系统能够产生所有有趣的模式吗?”——涉及数据挖掘算法的完全性。第三个问题——“数据挖掘系统能够仅产生有趣的模式吗”?—是数据挖掘的优化问题。

5、数据挖掘的步骤(4),以及每一步骤的作用。P4 图1* 数撼挖掘视为知识发现过稈的一个步驟 6数据挖掘与知识发现有什么关系。 有趣的数据挖掘模式代表知识。如果一个模式符合用户确信的某种假设, 它也是有趣的。有趣的模式就是知识。 7、数据挖掘的对象(11)。P6-13 1)数据存储库包括:关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。 2)高级数据库系统包括对象一关系数据库和面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。 8、数据挖掘的功能(6)。P14-18 功能:1概念/类描述:特征化和区分;2挖掘频繁模式,关联和相关;3分类 和预测;4聚类分析;

数据挖掘习题题

数据挖掘复习题 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题 A A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准 A a警察抓小偷,描述警察抓的人中有多少个是小偷的标准; b描述有多少比例的小偷给警察抓了的标准; A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务 C A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离 B A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD A A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务 A A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务 B A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务 C A. 根据内容检索 B. 建模描述

C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务A A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法 D A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱;等频等深划分时,15在第几个箱子内 B A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时宽度为50,15又在哪个箱子里 A A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型:D A 标称 B 序数 C 区间D相异 15. 在上题中,属于定量的属性类型是:C A 标称 B 序数C区间 D 相异 16. 只有非零值才重要的二元属性被称作:C A 计数属性 B 离散属性C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法: D A嵌入 B 过滤 C 包装 D 抽样 18.下面不属于创建新属性的相关方法的是:B A特征提取B特征修改C映射数据到新的空间D特征构造 19. 考虑值集{1、2、3、4、5、90},其截断均值p=20%是 C A 2 B 3 C D 5 20. 下面哪个属于映射数据到新的空间的方法 A A 傅立叶变换B特征加权 C 渐进抽样D维归约 21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:B A 1比特 B 比特 C 比特 D 比特 22. 假设属性income的最大最小值分别是12000元和98000元;利用最大最小规范化的方法将属性的值映射到0至1的范围内;对属性income的73600元将被转化为:D A B 1.224 C D 23.假定用于分析的数据包含属性age;数据元组中age的值如下按递增序:13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3;第二个箱子值为:A

相关文档
最新文档