数据挖掘复习题和答案

考虑表中二元分类问題的训练样木集

4 - 8练习3的数据集

1. 整个训练样本集关于类属性的嫡是多少

2. 关于这些训练集中al, a2的信息增益是多少

3. 对于连续属性a3,计算所有可能的划分的信息增益。

4. 根据信息增益,al, a2, a3哪个是罠佳划分

5. *

6. 根据分类错误率,al, a2哪具最佳

7.

根掩ini 指标,al, a2哪个最佳

答1 •

EXamPIeS for COmPUting EntrOPy

EntrOPy =- 0 IOg 0-I10gl=-0-0=0

(5/6)

P(C2) = 5/6

EntrOPy = - (1/6) Iog 2 (1/6)- Iog 2 (5/6) = 0. 65

P(CI)=

-4/9 log (4/9) - 5/9 log(5/9)二・

答2:

SP1itting BaSecI On INFO.・・

• InfOrmatiOn Gain:

GAIN . . - En trOPy (P) --En tropy (I)

Parent Node, P is SPIit into k PartrtiOns; ni is number Of records in PartitiOn i

一 MeaSUreS RedUCtiOn in EntrOPy achieved because Of

the SPIit • ChOOSe the SPlit that achieves most reduction (maximizes GAIN) 一 USed in ID3 and C4.5

一 DiSadVantage: TendS to Prefer SPlitS that result in large nUmber Of Partiti0ns, each being Small but PUre ・

(估计不考)

P(C2) = 4/6

EntrOPy = 一(2/6) log? (2/6)- (4/6) Iog 2 (4/6) = 0.92

P(C1)=

P(+)

二 4/9 and P( -) = 5/9

FQr attribute Q i 5 the COrreSPOllding CoulltS and PrObabilitieS are:

5

十 ■

T 3 1 F

1

4

The entropy for a y is

TherefoTe r the information gain for A x is 0. 9911 — 0.7GIG 二 0. 2294.

FOr attribute Q2, the COrreSPOnding COlnltS and Probabilities are:

d*2

+

T

2 3

F

2

2

Tile entropy for Q 2 is

計一 (2/5) lDg 2 (2/5) - (3/5)lDg 2 (3/5)

+

-(2/4) log : (2/4)-(2/4) log : (2/4) = 0. 9839.

TIIerefbre £ the information gain for is 0,9911 —b 0.9839 二 0,0072,

答3:

-(3/4)lDg2(3/4)-(l/4) log :

-(l/5)lDg2(l/5) 一 (4/5) lag :

COntinUOUS Attributes: COmPUting Gini Index...

FOr efficient COmPUtation: for each attribute, 一SOrtthe attribute On ValUeS

一Linearly SCan these values, each time UPdating the COUnt matrix and COmPUting gini index

一ChOOSe the SP1it POSitiOn that has the IeaSt gini index

一5/6 二 1/6

FOr attr ibute a : error rate = 2/9. FOr attr ibute a : error rate = 4/9.

Therefore, according to error rate, produces the best SPI it.

a -3 ClaSS label SPlIt Point EntrOPy InfO GaLirl

1. 0 I-

2.0 0. 8484 0. 1427

3. 0 一 3.5 0. 9885 0. 0026

4. 0

+

4.5 0. 918i 0. 0728 El io g

55 0. 9839 0. 0072 6. 0 —・ 6. 5 0. 9728 0.0183 7.0 7. 0

+

7. 5

0. 888&

0.1022

EXamPIeS for COmPUting ErrOr

Cl O C2

6

P(C1) = 0/6 = 0

P(C2) = 6/6

Errors 1 一

max (0, 1) = 1 - 1

Cl 1 C2 5

P(C1) = 1/6 P(C2) = 5/6

Error = 1 — max (1/6, 5/6) = 1

Cl 2 C2

4

P(C1) = 2/6 P(C2) = 4/6

Error = 1 — max (2/6, 4/6) = 1

ErrOr(J^ I- max P(J \ t)

答6:

-4/6 = 1/3

答 4: ACCOrding to information gain, "produces the best SPI it ・ 答 5:

Binary Attributes: COmPUting G1NI IndeX

• SPIitS into two PartitiOnS • EffeCt Of Weighing Partitions:

Gini (NI)

=1 _(5/7)2 _(2/7)2 =0・ 408 Gini (N2)

=1 - (1/5)2-(4/5)2 =0. 32

I"Tan t Steinbach KUmar

IntrOdUVfcnto Data

Minina

For attribute a u the gini index is

A s 1 一 (3/4)2 — (1/4)2 +-1一 aj J

FOr attribute «2・ the gini index is

R 4 r

;1-(2/5)-(3/5)2 + c 1 - (2/4)2 _ (2/4)2 = o. 488&.

SinCe the gini index for a f is smaller, it PrOduCeS the bet ter split.

考虑如下二元分类问题的数据集

一 Larger 2nd PUrer PartitiOnS are SOUght for

.

Pare nt

Cl

m

i

r*J

TT J

=0«00

NI N2

CI 5 1 C2

2

4

Gini=0. 333

Gini (Children) 二 7/12*0. 408 + 5/12*0. 32 =0. 371

4/18/2004

34

(1/5)2 _ (4/5)2 =

o-a444.

3二元分类问题不纯性度量之间的比较1.计算信息增益,决罠树归纳算法会选用哪个属性

ThG COntingenCy tables aft.er SPIitting On attributes A and B arc:

The OVerall entropy before SPIitting is:

Eorig 二—0.4 log 0.4 — O.Glog 0. C 二 0. 9710

The information gain after SPIitting On A is :

EJ 二-IlOgf-IIogl 二 0=2

3. 3

()1

0 - n

—IOg m m Sg _ 0

A 二 Eg - 7/WE,=T -3/ lOV^F 二 0. 2813 I

The information gain after SPIitting Orl B is:

3

3 II

EB 二T 二-T 1° g T — T 1° g[ = 0-8113 J 5 EP=F = ----- IOg ——————log —二 0. 6500

Z\ = E^g - 4/ 10Eg - 6/10EBJ = (),2565

Therefbre ・ attribute A Will bo ChoSCTI to SPlit the node.

2. 计算gini 指标,决策树归纳会用哪个属性

The OVerall gini before SPlitting is:

Gon : ~ 1 - 0. 4~ - 0. 6"二 0. 48

Th€? gain in gini after SPIitting On A is:

GB 二T 二 I-Q):-Q)2 二0.3750 6〃 二】二(I) 〃(I) 〃2778

4 二 G“ig — 4/10GB==T — 6/10GBJ = 0. 1633

Therefore, attribute B Will be ChOSeII to SPIit t ・he node ・

这个答案没问题

The gain

A=T A=F

4 0 3

3

B=T B=F

3 1 1

5

EA=P =

3.

从图4T3可以看出炳和gini 指标在[0」都是单调递增,而[门之间单调递减。有没有可能信息增益和gini 指标增益支持 不同的属性解释你的理由

YeS- even though these measures have Simi Iar range and mon0t0r)0US %

behavior, their respective gains, A, WhiCh are SCaled differences Of the measures, do not necessarily behave in the Same way, as il IUStrated by the results in PartS (a) and (b) •

贝叶斯分类

EXamPIe Of NaYVe BayeS ClaSS 辻ier

GiVen a TeSt Record:

X 二(Refund 二 No, Married ・ InCOme 二 120K)

naive BayeS Classifier:

P(RefUnd 二YeSINO) = 3/7

・ P(XlCldSS 二NO)二 P(Refund 二NOlClaSS 二NO)

P(RefUnd 二NOINO) = 4/7 X P(MamedI CIaSS=NO)

P(RefUnd 二YeSlYeS) = 0 X P(Income 二 120K | ClaSS 二NO)

P(RefUnd 二NOlYeS) = 1

二 4>7 X 4/7 x 0.0072 二

P(Marttai Slalie SingelNO)二 2 〃 P(Marital Staig DiV0rCeClN0)=V7

0. 0024 P (Marital Slatle MafriedINO)= 4/7 P (Marital Statle sing€ YeS) = 2/7

・ P(XICIaSS=YeS) = P(RefUnd 二NOI ClaSS 二YeS)

P (Marital StatU5 DiVorCeCIYeS)= 1/7 X P(Marrledl ClaSS 二YeS)

P(MantaI SlalUS ManlealYeS) = 0 X P(InC0me=120K I ClaSS 二YeS)

FOrtaXaDle I rxome

IfClaSS=NO SamPIe mean= i i o SamPle

=1 x 0 X 1.2x W 9二 0 Varlance=2975 SinCe P(XINO)P(NO) > P(XIYeS)P(YeS) IT ClaSS=Yes* SamPIe mean= 90 SamPIe

Therefore P(N01X) > P(YeSIX)

varlance=25

—A CT nr* — XTrv

«Tan ,SteinDach. KUmaf

InUOdUCtiOnlO Data MininQ 4/ ia^2004 66

7.考虑三540中的数据集。

匀慝7茁数抿建

(a)估计条件概率 P(Aj+), P (B | +), P (Q+), P (A 卜),P(EH)和 P(CIT

lb)根据(a)中的条件概率,使用朴素贝叶斯方法预测测试样本(A = 0, 0 =1, C = 0)的类标号。 (C)便用m 佔

计方法(p=l / 2且加二4)估计条件概率。 @)同©),使用(C)中的条件概率。

@)比较估计概率的两种方法。哪一种更好?为什么?

1. PU = 1 /-) = 2/5 二,P(B 二 1 /-)二 2/5 二,

P ( + \ A 二(K Z?二 1、C = 0)

_ P(A 二 0, 5 = LC = 0 | +) X F(+)二 P( A = Z? = 1,C = 0) _ P(A = ()1 + )F(B 二 1 | +)P(C = 0 | + ) X P(+) K

~

二 ().4 X 0.2 X ().6 X 0.5 / /<

= ().024/K •

P(-\ A = 0. B = 1. C = P(A = 0m= 1,C £ = () I -) X r(-)

P(A 二 0.Z?二 LC 二 0)

_ P(A = Q \ X ^65 = 1 | -) X P(C= Q -) X F ㈠

K

二 0/7V

2.

The ClaSS IaI)Cl ShOUId be *+\

3. P(A = 0/+) = (2 + 2)/(5 + 4) = 4/9, PM 二 0/-)= (3+2) / (5 + 4) = 5/9,

P(B = 1 /+) = (1 + 2)/(5 + 4) = 3/9,

P(C P(B P1B P{A

尸© 0/ 一)= 3/5 二.

Lot P(A = Or Z? 1/-) = 1, P^A 0/-) = 3/5 =, 1/+) = 1/6 =, 0/ 弓)二 2/5 二,

=1, c r = 0)

K.

=0/-) = 3/5 =,

P(C 二 0/-) = 0; P (A = 1/+) = 3/5 =, P(C= 1 升)=2/5 =, P(B 二 0A) = 4/5 二,

P{B = 1/-) = (2+2) /(5 + 4) = 4/9,

P(C = 0/+) = (3 + 2)/(5 + 4) = 5/9,

P(C= 0/-) = (0+2) /(5 + 4) = 2/9.

4.Let P(A = 0, 5= 1, C=0) = K

P(+ I 4 = OR = LC = 0)

_ P(4 = (35 P = I5C = 0 | 4-) X P(4-)

= n(q = o, ZJ = I, o = 0)

_ P(A 二U I +)〃(B 二 1 I +) P(C 二U I +> :X P(+) K (d/Q) X (3/9) X (5/9) X (15

二K

=0. 0412/K

P(- I A = 0" = 1,C = U)

_ P(A =0:〃二IC = 01—) 乂P(-)

二P(A = O,D = 1, C = 0)

0 I -) X P(_)

P(A = U | -) X P(B = 1|-) X P(C

二K

(5/9) X (4/9) X (2/Q) x 0. 5

二K

=0. 0274 / / <

The ClaSS label SholLld be "+\ 5当的条件概率之一是零,則估计为使用m-估计概率的方法的条件概率是史好的,因为我们不希望整个表达式变为零。

&考虑表,11中的数据集。

«5-11习题8的数据集

(a)估计条件概率P(A = 11+), P(B=II+), P(C=I1+), P(A = II-), P(B= 1 卜)和P(C = IU

(b)根据(a)中的条件槪率,使用朴素贝叶斯方法预测测试样本3二l,B=l,C~i)的类标号。

(C)比较P(A = I), P(A 1, B= 1)«陈述A、〃之间的关系。

(d)对P(A = 1), P(B =0)和戶% = UB =0)重复(C)的分析。

(e)比较P(A=: 1, H11 类二 + )与P(A=I1 类二 + )和P(B 二II 类 *)。给定类 + , ^A> B

件独立吗?

1.P{A = 1/+) = , p血二 1 /+)二,pQ 二 1 /+)二,P{A -

1/-) = , P(B=I/-)= , and P(C= 1/-) =

2.

Let R : (. A= t £ B - C=I) be the test record. TO determine its

class, v/e need to COmPUte PalR) and P{ - IR) - USing BayeS theorem, P"IR) = PIR1HPW /P(R) and P(- IR) =P(RlmPe •

SinCe P(+) = P (-) = and P(R is COnStant, R Can be ClaSSi.fied by

COmParing PalR) and P{ - IR) •

FOr this question,

PIRiH =PU=I /+) XP(B = \ /+) XP(C= \ 2 =

PIR1- ) = P(彳二 1 /-)XP(B= \ 卜)XP(C二 H~) =

SinCe P(Rim is larger, the record i S assigned to (+) class・ 3・

P(A =1)=, P(B =1)= and P{A =I"=I) = P(A)X

P{ff)= • Therefore, A and B are independent・

4.

P{A = 1) = £ P(B = 0 = , and = 1,F = 0) = PIA =1) \ P(B = 0)= - A and B are Sti I I independent.

5.

COmPare P{A二Ij 二I /+) = against P(A二 1 /+) = and

P(B二HClaSS = +)= • SinCe the PrOdUCt between P(A二 1 /+) and P(A二 1 /-)are not the Same as P(A - 1, 5=1 / -r), A

and B are

not COnditiOnally independer T t given the ClaSS •

三•使用下表中的相似皮矩阵进行单琏和全链展次聚类。绘制树状况显示结果,树状图应该淸楚地显示合并的次序。

Table 8.1. Similanty matrix for EXerCiSe 16.

08

C(C ——> bd=

仆}) = 7=0.8

012

二 25%

2.考虑表6>22中显示的数据集。

表6吆2购物篮事务的例子

(a) 将每个事务ID 视为一个购物篮,计算项集{e }・{b ・d }和{b-de }的支持虔。

(b) 使用(町的计算结果,计算关联规则{b,d } - {e 丿和何一&刃的置信度。置信度是对称的

度量吗?

(C)将每个顾客ID 作为一个购物篮,重复(a)。应当将每个项看作一个二元变量(如果一

个顼在顾客的购买事务中至少出现了一次,则为h 杏则,为0)。

9)便用(C)的计算结果,计算关联规则2,N } f 何和何一 {方,刃的置信度。

(e)假定印和G 是将每个事务ID 作为一个购物篮时关联规则r 的支持度和宣信度,而也和C? 是

将每个顾客ID 作为一个购物篮肘关联规则:r 的支持度和置信度。讨论S1和$2或G 和Q 之间是否存在某种关系?

s({e}) =

就{〃})二

坯({6, d, e}) = Ns confidence is not a SyTnmetriC measure ・

c(bd -> C)

s (r/})

二 i

00 1

2

1 2

1

■ O

O

s({b, d, E})

T =0.8 •>

=100%

c (bd—> e)

c (e —> bd)

There are no apparent relatiOnShiPS between s, s, Cs and

6.考虑表6吆3中显示的购物篮事务。

表6 • 23购物篮事务

(a)从这些数据中,能够提取出的关联规则的最大数量是多少(包括零支持度的规则)?

(b)能够提取的频繁项集的最大长度是多少(假定最小支持度>0) ?

(C)写出从该数据集中能够提取的3濒集的最大数量的表达式。

(d)找出一个具有最大支持度的项集(长度为2或更大)。

(e)找出一对项a和力,使得规则{a]~[b}和{6} f { a }具有相同的置信度。

(a)What is the IllaXimllm n i n nber Of association rules that Can be ct T acted from this (lata (including rules that have ZCrQ support)?

Answer: There are SiX items in the (lata set. Therefore the total number Of rules is G02・

(b)What is the maximum SiZe Of frequent itomsots that. Can be extracted (assuming min sup >0)?

Answer: BeCallSe the IolIgeSt transart ion ContainS 4 items, the i naxi- Ilnlln SiZe Of frequent itemset is 4.

• C :, WrLte an expression for the maximum IlILmber Of SiZe-3 itemsets that Cail be derived from this data set. Answer:(;)二20.

(d)FiTld An itemsot (Of SiZ€ 2 0T IaTgOr) that has the IargeSt support- Answer: {Bread・ Butter}・

(e)Find a Pair Of items, « and b・ SUCh that the rules {a} —— {6} a i i d {b} ~> {a} have the Salne COlIfidCnCe

Answer: (BeCrj COOkieS) Or (Bread, Butter).

& A"3J算法使用产生-计数的策略找出频繁项集。通过合并一对大小为&的频緊项集得到一个大小为炽4的候选项集(称作猴选产生步骤)。在候选项集剪枝步骤中,如果一个候选项集的任何一个子集是不频繁的,则该候选项集将被丢弃。假定将他”如/算法用于表6・24所示数据集,最小支持度为30%,即任何一个顼集在少于3个事务中出现就被认为是非频繁的。

表& 24购物篮事务的例子

(a)画出表示表6-24所示数据集的项集格。用下面的字母标记格中每个结点。

•N:如果该项集被伽算法认为不是候选项集。一个项案不是候选项集有两种可能的原因:它没有在候选项集产生步骤产生,或它在候选项集产生步骤产生,但是由于它的一个子

集是非频緊的而在候选项集剪枝步骤被丢掉。

•F:如果该候选项集被APrfOrf算法认为是频購的。

•It如果经过支持度计数后,该候选项集被发现是非频繁的。

(6)频繁项集的百分比是多少?(考虑格中所有的项樂)

数据挖掘复习题

1.1讨论下列每项活动是否是数据挖掘任务: (1)根据性别划分公司的顾客。 (2)根据可赢利性划分公司的顾客。 (3)计算公司的总销售额。 (4)按学生的标识号对学生数据库排序。 (5)预测掷一对骰子的结果。 (6)使用历史记录预测某公司未来的股票价格 (7)监视病人心率的异常变化。 (8)监视地震活动的地震波。(9)提取声波的频 率。 答:(1) 不是,这属于简单的数据库查询。 (2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。 (3) 不是,还是简单的会计计算。 (4) 不是,这是简单的数据库查询。 (5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据 历史数据预测结果则更类似于数据挖掘任务。 (6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。可以使 用回归来建模,或使用时间序列分析。 (7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域 的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。 (8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据 挖掘领域的分类。 (9) 不是,属于信号处理。 1.2假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明, 数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检 测等技术为企业服务。 答: ( 1)使用聚类发现互联网中的不同群体,用于网络社区发现; ( 2)使用分类对客户进行等级划分,从而实施不同的服务; ( 3)使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广外” 的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜索“信 息学院”。 ( 4)使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息的攻击。 2.12区分噪声和离群值。一定要考虑以下的问题。 (a)噪声曾经有趣的或可取的吗?离群值吗?不,根据定义。是的。(参见第十章)。 (b)噪声对象可以例外吗?是的。随机数据的失真通常负责离群值。 (c)是噪声对象总是异常值吗?不。随机变形会导致一个对象或值一样正常的一个。 (d)异常值总是噪声对象?不。通常离群值仅仅代表一个类的对象是不同的从正常的对象。 (e)噪音可以典型值为一个不寻常的人,反之亦然?是的。 2.14以下属性的测量一群亚洲的大象:体重、身高、象牙长度、躯干长度,和耳朵区域。根据这些测量,什么样的相似性度量从2.4节你会使用比较这些大象或一组?证明你的答案和

数据挖掘导论期末试题及答案

数据挖掘导论期末试题及答案第一部分:试题 问答题 1. 数据挖掘的定义是什么? 2. 数据挖掘的过程包括哪些步骤? 3. 请简要解释数据预处理的步骤。 4. 请列举常用的数据挖掘算法。 5. 请解释聚类分析和分类分析的区别。 6. 什么是关联规则挖掘?请给出一个例子。 7. 在数据挖掘过程中,如何评估模型的性能? 8. 什么是过拟合?如何避免过拟合? 9. 数据挖掘有哪些应用领域? 10. 请简要介绍数据挖掘中的隐私保护技术。 编程题 1. 给定一个包含n个整数的列表,请编写Python代码来计算列表中所有数的平均值。 2. 使用Python编写一个函数,接受两个参数n和m,返回一个列表,其中包含从n到m之间所有偶数的平方。

3. 在Python中,定义函数calcBMI(height, weight),接受一个人的身高(单位:米)和体重(单位:千克),计算并返回该人的BMI指数。 4. 使用Python编写一个函数,接受一个字符串作为参数,返回字符串中每个字符出现的次数。 第二部分:答案 问答题 1. 数据挖掘的定义是从大量的数据中发现先前未知、可理解和实际可用的模式的过程。 2. 数据挖掘的过程包括数据收集、数据预处理、特征选择、算法选择、模型构建、模型评估和模型应用等步骤。 3. 数据预处理的步骤包括数据清洗、数据集成、数据变换和数据规约。 4. 常用的数据挖掘算法包括决策树算法、朴素贝叶斯算法、支持向量机算法、K均值算法和关联规则挖掘算法等。 5. 聚类分析是将数据对象分为不同的组别,而分类分析是根据已有的分类标签对数据对象进行分类。 6. 关联规则挖掘是在大规模数据集中寻找项目之间的有趣关系的过程。例如,购买尿布的人也倾向于购买婴儿食品。

数据挖掘题目及答案

一、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么? 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 特点: 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。 2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3、相对稳定的 数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4、反映历史变化 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可用的信息 二、 数据库有4笔交易。设minsup=60%,minconf=80%。 TID DATE ITEMS_BOUGHT T100 3/5/2009 {A, C, S, L} T200 3/5/2009 {D, A, C, E, B} T300 4/5/2010 {A, B, C} T400 4/5/2010 {C, A, B, E} 使用Apriori算法找出频繁项集,列出所有关联规则。 解:已知最小支持度为60%,最小置信度为80% 1)第一步,对事务数据库进行一次扫描,计算出D中所包含的每个项目出现的次数,生成候选1-项集的集合C1。

《数据挖掘方法》期末考试试卷附答案

《数据挖掘方法》期末考试试卷附答案数据挖掘方法期末考试试卷 一、选择题(每题5分,共25分) 1. 数据挖掘的目的是从大量数据中发现有价值的模式和知识。以下哪项不是数据挖掘的主要任务? A. 分类 B. 聚类 C. 预测 D. 图像识别 答案:D 2. 决策树是一种常见的分类算法,它在哪个阶段进行剪枝? A. 生成阶段 B. 修剪阶段 C. 测试阶段 D. 应用阶段

答案:B 3. K-近邻算法中,K值一般取多少比较合适? A. 1 B. 3 C. 5 D. 10 答案:B 4. 在关联规则挖掘中,最小支持度是指? A. 一条规则必须满足的最小条件概率 B. 一条规则必须满足的最小置信度 C. 数据集中满足条件概率的最小值 D. 数据集中满足条件的最小实例数 答案:D 5. 以下哪种技术不属于聚类分析?

A. 层次聚类 B. 基于密度的聚类 C. 基于距离的聚类 D. 基于规则的聚类 答案:D 二、填空题(每题5分,共25分) 1. 在分类算法中,将数据集中的每个实例分配给一个类别的过程称为________。 答案:分类 2. 决策树算法中,用于评估节点纯度的指标有________、 ________和________等。 答案:信息熵、增益、增益率

3. K-均值聚类算法中,簇心的初始值通常通过________算法来确定。 答案:随机初始化 4. 在关联规则挖掘中,________、________和________是三个基本的概念。 答案:项集、频繁项集、关联规则 5. 在基于距离的聚类算法中,常用的距离度量有________、________和________等。 答案:欧氏距离、曼哈顿距离、余弦相似度 三、简答题(每题10分,共30分) 1. 请简要解释什么是决策树,以及它的工作原理。

数据挖掘期末考试试题(含答案)

数据挖掘期末考试试题(含答案) 题目一:数据预处理 题目描述: 给定一个包含缺失值的数据集,采取合适的方法对缺失值进行处理,并解释你的方法选择的原因。 答案: 缺失值在数据分析中是一个常见的问题。我选择使用均值填充的方法来处理缺失值。这种方法将缺失的值用该特征的均值进行代替。 我选择均值填充的原因是因为这种方法简单易用,并且可以保持数据的整体分布特征。均值填充假设缺失值与观察到值的分布相似,因此使用均值填充可以避免引入过多的噪音。 题目二:关联规则挖掘 题目描述: 给定一个购物篮数据集,包含多个商品的组合,使用Apriori 算法挖掘频繁项集和关联规则,并给出相关的评估指标。

答案: Apriori算法是一种常用的关联规则挖掘算法。它通过计算支持度和置信度来挖掘频繁项集和关联规则。 首先,通过扫描数据集,计算每个项集的支持度。然后,根据设定的最小支持度阈值,选取频繁项集作为结果。 接着,根据频繁项集,计算每个规则的置信度。利用最小置信度阈值,筛选出高置信度的关联规则。 评估指标包括支持度、置信度和提升度。支持度衡量一个项集在数据集中出现的频率,置信度衡量规则的可信程度,提升度衡量规则对目标项集出现的增益。 题目三:聚类算法 题目描述: 给定一个数据集,包含多个样本和多个特征,使用K-means算法将样本划分为K个簇,并解释评估聚类性能的指标。

答案: K-means算法是一种常用的聚类算法。它通过迭代的方式将样 本划分为K个簇。 首先,随机选择K个初始聚类中心。然后,对于每个样本,计算其与每个聚类中心的距离,并将其划分到距离最近的簇中。 接着,更新每个簇的聚类中心,计算新的聚类中心位置。重复 以上步骤,直到聚类中心不再发生变化或达到预定的迭代次数。 评估聚类性能的指标包括簇内平方和(SSE)和轮廓系数。簇 内平方和衡量样本与其所属簇的距离之和,SSE越小表示聚类效果 越好。轮廓系数衡量样本与其所属簇以及其他簇之间的距离,值介 于-1到1之间,越接近1表示聚类效果越好。 以上是关于数据挖掘期末考试试题的答案。希望对您有所帮助!

数据挖掘及应用考试试题及答案

数据挖掘及应用考试试题及答案第一部分:选择题(每题4分,共40分) 1.数据挖掘的定义是以下哪一个选项? A)从大数据中提取有用的信息 B)从数据库中提取有用的信息 C)从互联网中提取有用的信息 D)从文件中提取有用的信息 2.以下哪个是数据挖掘的一个主要任务? A)数据的存储和管理 B)数据的可视化展示 C)模型的建立和评估 D)数据的备份和恢复 3.下列哪个不是数据挖掘的一个常用技术? A)关联规则挖掘 B)分类算法 C)聚类分析 D)数据编码技术

4.以下哪个不属于数据预处理的步骤? A)数据清洗 B)数据集成 C)数据转换 D)模型评估 5.以下哪个是数据挖掘任务中的分类问题? A)预测数值 B)聚类分析 C)异常检测 D)关联规则挖掘 6.以下哪个不属于数据可视化的一种方法? A)散点图 B)柱状图 C)热力图 D)关联规则图 7.在使用决策树算法进行分类任务时,常用的不纯度度量指标是:A)基尼指数

B)信息增益 C)平方误差 D)均方根误差 8.以下哪个算法常用于处理文本数据挖掘任务?A)K-means算法 B)Apriori算法 C)朴素贝叶斯算法 D)决策树算法 9.以下哪种模型适用于处理离散型目标变量?A)线性回归模型 B)逻辑回归模型 C)支持向量机模型 D)贝叶斯网络模型 10.数据挖掘的应用领域包括以下哪些? A)金融风控 B)医疗诊断 C)社交网络分析

D)所有选项都正确 第二部分:填空题(每题4分,共20分) 1.数据挖掘的基础是______和______。 答案:统计学、机器学习 2.数据挖掘的任务包括分类、聚类、预测和______。 答案:关联规则挖掘 3.常用的数据预处理方法包括数据清洗、数据集成和______。 答案:数据转换 4.决策树算法的基本思想是通过选择最佳的______进行分类。 答案:划分属性 5.支持向量机(SVM)算法适用于______问题。 答案:二分类问题 第三部分:简答题(每题10分,共40分) 1.请简述数据挖掘的流程及各个阶段的主要任务。 答:数据挖掘的流程一般包括问题定义、数据收集、数据预处理、模型选择与建立、模型评估与选择、知识应用等阶段。在问题定义阶段,需要明确挖掘的任务和目标。数据收集阶段,收集原始数据以供后续分析使用。数据预处理阶段,对数据进行清洗、集成、转换和规

数据挖掘-题库带答案

数据挖掘-题库带答案 1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡() 答案:正确 2、决策将日益基于数据和分析而作出,而并非基于经验和直觉() 答案:错误 解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”() 答案:错误 解析:2013年被许多国外媒体和专家称为“大数据元年” 4、我国网民数量居世界之首,每天产生的数据量也位于世界前列() 答案:正确 5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。() 答案:错误 ⅛Jf:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。 6、数据整合、处理、校验在目前已经统称为ELO 答案:错误 ⅛Jf:数据整合、处理、校验在H前已经统称为ETL 7、大数据时代的主要特征() A、数据量大 B、类型繁多 C、价值密度低 D、速度快时效高 答案:ABCD 8、下列哪项不是大数据时代的热门技术() A、数据整合 B、数据预处理 C、数据可视化

D、SQL 答案:D 9、()是一种统讣或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。 A、预测 B、分析 C、预测分析 D、分析预测 答案:C 10、大数据发展的前提? 答案: 解伸:硕件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起 11、调研、分析大数据发展的现状与应用领域。? 答案: 解析:略 12、大数据时代的主要特征? 答案: 解析:数据量大(VOIUme) 笫一个特征是数据量大。大数据的起始计量单位至少是P(IOOO个T)、E(IOO 万个T)或Z(Io亿个T)。 类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提岀了更高的要求。 价值密度低(VaIUe) 笫三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 速度快、时效高(VeIOC辻y) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。 13、列举大数据时代的主要技术? 答案: 解谆:预测分析:预测分析是一种统讣或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。随着现在硬件和软件解决方案的成熟,许多公司利用

大数据时代下的数据挖掘试题及答案

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B。数据集成 C.数据变换 D。数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A。关联规则发现 B. 聚类 C. 分类 D。自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准. A。 Precision,Recall B。 Recall,Precision A。 Precision,ROC D。 Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A。频繁模式挖掘 B. 分类和预测 C。数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A。分类 B。聚类 C. 关联分析 D。隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B。建模描述 C. 预测建模 D。寻找模式和规则 7)下面哪种不属于数据预处理的方法?(D) A。变量代换 B.离散化 C。聚集 D.估计遗漏值

8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A。第一个 B。第二个 C.第三个 D。第四个 9)下面哪个不属于数据的属性类型:(D) A。标称 B。序数 C。区间 D。相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法:(D) A。嵌入 B。过滤 C。包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A。特征提取 B.特征修改 C。映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B。特征加权 C.渐进抽样 D。维归约 14)假设属性income的最大最小值分别是12000元和98000元.利用最大最小规范化的方法 将属性的值映射到0至1的范围内.对属性income的73600元将被转化为:(D) A。0.821 B.1.224 C。1。458 D。0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B。二年级 C.三年级 D.四年级 16)下列哪个不是专门用于可视化时间空间数据的技术:(B)

数据挖掘期末考试计算题及答案

题一: 一阶工程集支持度 a 5 b 4 c 2 d 5 e 3 f 4 g 6 一阶频繁集支持度 a 5 b 4 d 5 f 4 g 6 二阶候选集支持度ab 3 ad 4 af 2 ag 5 bd 3

bf 1 bg 3 df 3 dg 4 fg 3 二阶频繁集支持度 ad 4 ag 5 dg 4 三阶候选集支持度 adg 4 三阶频繁集支持度 adg 4 题二 Distance(G,A)2=0.1; Distance(G,B)2=0.03; Distance(G,C)2=0.11 Distance(G,D)2=0.12; Distance(G,E)2=0.16; Distance(G,F)2=0.05 G的三个最近的邻居为B,F,A,因此G的分类为湖泊水 Distance(H,A)2=0.03; Distance(H,B)2=0.18; Distance(H,C)2=0.22

Distance(H,D)2=0.03; Distance(H,E)2=0.21; Distance(H,F)2=0.16 H的三个最近的邻居为A,D,F,因此H的分类为冰川水 题三 首先计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.185 Gain(Na+浓度)=0 Gain(Cl-浓度)=0.32 选择Cl- 计算各属性的信息增益Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.45 Gain(Na+浓度)=0.24 选择Mg+浓度作为节点Cl-浓度 冰川水? 高低 Cl-浓度 冰川水Mg+浓度 高低 高低

计算各属性的信息增益 Gain(Ca+浓度)=0.24 Gain(Na+浓度)=0.91 Cl-浓度 高低 冰川水Mg+浓度 高低 Na+浓度湖泊水 高低 湖泊水冰川水 题四 P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低| 类型=冰川水)*P(冰川水) =P(Ca+浓度=低| 类型=冰川水)* P(Mg+浓度=高| 类型=冰川水)* P(Na+浓度=高| 类型=冰川水)* P(Cl-浓度=低| 类型=冰川水) *P(冰川水) =0.5*0.75*0.5*0.5*0.5=0.0468

数据挖掘与分析考试题库(含答案)

数据挖掘与分析考试题库(含答案)选择题 1. 数据挖掘的主要功能是什么? A. 挖掘数据潜在的信息 B. 对数据进行记录和处理 C. 提高数据存储的效率 D. 对数据进行分类和排序 Answer: A 2. 下列哪种算法不属于聚类算法? A. K-Means B. BP神经网络 C. DBSCAN D. 层次聚类

Answer: B 3. 数据挖掘中使用最多的算法是什么? A. 决策树 B. 关联规则 C. 神经网络 D. 贝叶斯 Answer: A 4. 数据挖掘的预处理不包括下列哪项? A. 数据压缩 B. 数据清洗 C. 数据变换 D. 数据标准化 Answer: A

5. 下列哪项不是数据挖掘的步骤? A. 数据预处理 B. 特征选择 C. 模型评价 D. 问题求解 Answer: D 填空题 1. 数据挖掘的类型有分类、聚类和__________。(回归) 2. 决策树分类的根节点对应的是__________。(最优属性) 3. 聚类算法的优化目标是__________。(最小化) 4. 在SPSS Modeler中可以通过“数据变换”节点进行数据__________。(离散化)

5. 数据挖掘可以发现数据中的__________规律。(潜在) 论述题 1. 请简要介绍数据挖掘的主要任务及其流程。 答:数据挖掘的主要任务是挖掘数据中潜在的信息,包括分类、聚类、关联规则等。其流程通常包括数据预处理、特征选择、模型 构建和模型评价等步骤。其中,数据预处理是数据挖掘的重要步骤,包括数据清洗、数据变换、数据标准化等,主要是为了提高数据的 质量和可用性。特征选择是指选择最具有代表性的特征,以便于数 据的分析和建模,主要是为了降低模型的复杂度和提高模型的精度。模型构建是依据所选的算法来构建数据模型,包括决策树、神经网络、关联规则等。模型评价则是通过对构建的模型进行测试和评价,以便于知道模型的优劣和改进方向。 2. 请论述聚类分析的常用算法及其优缺点。 答:聚类分析的常用算法包括K-Means、层次聚类和 DBSCAN等。其中,K-Means算法是一种经典的聚类算法,其优点

完整版数据挖掘计算题参考答案

数据仓库与数据挖掘复习题 1.假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为 3个类: X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选 择欧 几里德距离.假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中央,请 用K_means 算法来计算: (1)在第一次循环执行后的3个聚类中央; 答:第 一次迭中央点1: X1(2, 10), 2: X4(5, 8), X7(1, 2) 答案:在第一次循环执行后的3个聚类中央: 1: X1(2, 10) 2: X3, X4, X5, X6, X8 (6, 6) 3: X2, X7 (1.5, 3.5) (2)经过两次循环后 ,最后的3个族分别是什么? 第二次迭代: 答案:1: X1, X8 (3.5, 9.5) 2: X3, X4, X5, X6 (6.5, 5.25) 3: X2, X7(1.5, 3.5) 2.数据库有 4个事务.设 min_sup=60%,min_conf=80%. a 使用Apriori 算法找出频繁项集,并写出具体过程 (a)Apriori 算法:

{K}1{A}4{A,B}4{A,B,D) 3 {A}4{B}4{A,D}3 {B}4{D}3{B,D}3 {D}3 {€}—2- {E}—2- 频繁项集为3项集{A,B,D}:3 b.列出所有的强关联规那么,使它们与下面的元规那么匹配,其中, X是代表顾客的变量,item i是表示项的变量(例如,“A〞、“B〞等): Vx=transac,tior( b,uys)X item , buy)sX item, 3b) i[s y(s| X item 答:所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D} A A B=>D conf=3/4=75% A A D=> B conf=3/3=100% V BAD=>A conf=3/3=100%V 因此,满足条件的强关联规那么有: AAD=>B{supp=75%,conf=100%} BAD=>A{supp=75%,conf=100%} Sky 答: C1 : Enjoysport=yes=3 C2 : Enjoysport=no=1 I(yes,no)=-3/4log 2 3/4-1/4log 2 1/4=0.811 Gain(sky)=0.811 习题: 1.以汽车保险为例:假定练习数据库具有两个属性:年龄和汽车类型. 年龄序数属性 汽车类型一一分类属性 -L:低〔风险〕,H:高〔风险〕

2022数据挖掘试题及答案

一、请简述关联规则的基本概念和 Apriori 算法的基本原理(10 分)答: 1.关联规则:设I={i1,i2,…,i n}是项的集合,设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T⊆I。假设事务A、B,A⊆D,B⊆D,关联规则是形如A→B,且A∩B=∅。即有A存在,可判断B也存在。 支持度:P(A∪B),即A和B两个项集在事务集D中同时出现的概率。 置信度:P(B|A),在出现项集A的事务集中,B也出现的概率。 2. Apriori 算法基本原理 Apriori算法的基本原理是用支持度表示关联规则的强度,把具有关联规则的商品看做一个集合。从最小的集合开始,筛选出支持度大于某个值的集合,然后合并集合,再循环,直到找不集合为止。 步骤: 1.先计算1项集的支持度,筛选出频繁1项集。 2.然后排列组合出2项集,计算出2项集的支持度,筛选出频繁2项集。 3.然后通过连接和剪枝计算出3项集,计算出3项集的支持度,筛选出频繁3项集。 4.然后依次类推处理K项集,直到没有频繁集出现。 二、请说明 ROC 在机器学习中的基本作用(20 分)

ROC在机器学习中用于判断分类器的好坏。ROC曲线是根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值(TPR、FPR),分别以它们为横、纵坐标作图。一个好的分类器,ROC曲线应凸向(0,1)点,如下图。说明能找到一个合适的阈值使得预测结果有一个不错的正确率。

三、举例说明过度拟合对数据挖掘结果和模型的影响,讨论避免过度

拟合的三种方法。(20 分) 当所建的模型产生一个较小的训练均方误差但却有一个较大的测试均方误差,就称该数据被过拟合。过拟合使得模型过于复杂,将噪声也学习为特征,使得模型在样本内预测结果很好,在样本外预测很差。 过拟合例子:如下图,黑色实线是原始函数,白色散点是加了噪声之后产生的数据,灰色直线是线性模型拟合的模型(没有过拟合),灰色曲线是过拟合的结果。 避免过拟合的方法: 1.增加数据量:造成过拟合的一大原因是模型复杂程度和数据量不匹配,尝试增大数据量可以降低过拟合。 2.正则化:在模型损失函数中加入惩罚项,例如跟你需要的惩罚强度添加L1或者L2惩罚项,使得部分特征影响强度趋于零,起到简化模型的作用,有助于降低过拟合。 3.使用early stopping:模型训练时迭代次数过高也可能出现过拟合的情况,这时可以使用early stopping,当迭代不再时损失降低时,提前停止模型训练。 4.神经网络中可以使用dropout,随机不激活某些神经元,同样达到简化模型的效果,防止过拟合。 四、决策树和线性回归各自的优点和不足,请结合销售额对电视、广播和纸媒上的广告支出例子的回归输出,指出回归建模中可能出现的问题,这个问题有可能是怎样产生的?给出你认为的解决思路(30 分

机器学习与数据挖掘考试试题及答案

机器学习与数据挖掘考试试题及答案 一、选择题 1. 以下哪种算法常用于分类问题? A. 线性回归 B. 支持向量机 C. 聚类分析 D. 主成分分析 答案:B. 支持向量机 2. 数据集划分为训练集和测试集的目的是什么? A. 增加模型的复杂度 B. 验证模型的性能 C. 加速模型训练过程 D. 提高数据的可视化效果 答案:B. 验证模型的性能 3. 常见的神经网络结构不包括: A. 多层感知器(MLP) B. 卷积神经网络(CNN)

C. 循环神经网络(RNN) D. 支持向量机(SVM) 答案:D. 支持向量机(SVM) 4. 在数据挖掘中,关联规则用来描述: A. 哪些属性是关键属性 B. 哪些实例之间存在相似性 C. 哪些属性之间存在相关性 D. 哪些属性可以被忽略 答案:C. 哪些属性之间存在相关性 5. 在集成学习中,袋装法(Bagging)常用的基分类器是: A. 决策树 B. 朴素贝叶斯 C. K近邻 D. 支持向量机 答案:A. 决策树 二、简答题 1. 请简要解释什么是过拟合(Overfitting),并提供防止过拟合的方法。

过拟合指的是模型在训练集上表现良好,但在测试集或新数据上表 现不佳的现象。过拟合的原因是模型过度学习了训练集的噪声或细节,将其误认为普遍规律。防止过拟合的方法包括: - 增加训练数据量,以使模型接触到更多的样本,减少过拟合的可 能性。 - 使用正则化技术,如L1正则化或L2正则化,对模型参数进行约束,减小参数的影响。 - 采用特征选择或降维方法,去除冗余或不重要的特征,减少模型 在噪声上的过拟合。 - 使用交叉验证技术,将数据集划分为多个训练集和验证集,选择 最优模型,降低过拟合的风险。 2. 请简述决策树算法的基本原理,并说明如何进行特征选择。 决策树算法通过构建一棵树形结构来进行分类或回归。其基本原理 是根据属性的划分规则将样本逐步分到不同的节点,直到达到终止条 件(如叶子节点纯度满足一定要求或树的深度达到一定限制等)。特 征选择是决策树算法中非常重要的一部分,常用的特征选择方法包括:- 信息增益(Information Gain):选择能够获得最大信息增益的属 性作为划分属性。 - 增益率(Gain Ratio):在信息增益的基础上,考虑属性的取值数 目对信息增益的影响,进行归一化处理。

数据挖掘计算题参考答案

数据仓库与数据挖掘复习题 1. 假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类: X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选 择欧几里德距离。假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请 用K_means算法来计算: (1)在第一次循环执行后的3个聚类中心; 答:第一次迭代:中心点1:X1(2,10),2:X4(5,8),X7(1,2) X1 X2 X3 X4 X5 X6 X7 X8 1 0 25 36+36 9+4 25+25 16+36 1+64 4+1 2 9+4 9+9 9+16 0 4+9 1+16 16+36 1+1 3 1+6 4 1+9 53 16+36 4 5 29 0 58 答案:在第一次循环执行后的3个聚类中心: 1:X1(2,10) 2:X3,X4,X5,X6,X8 (6,6) 3:X2,X7 (1.5,3.5) (2)经过两次循环后,最后的3个族分别是什么? d²X1 X2 X3 X4 X5 X6 X7 X8 1 0 25 36+36 9+4 25+25 16+36 1+64 4+1 2 32 17 8 5 2 4 41 1+1 3 5²+6.5²5²+1.5² 6.5²+0.5²3.5²+4.5²5.5²+1.5²4.5²+0.5²0.5²+1.5² 2.5²+5.5²答案:1:X1,X8 (3.5,9.5) 2:X3,X4,X5,X6 (6.5,5.25) 3:X2,X7 (1.5,3.5) TID data Transaction T100 6/6/2007 K,A,D,B T200 6/6/2007 D,A,C,E,B T300 6/7/2007 C,A,B,E T400 6/10/2007 B,A,D a.使用Apriori算法找出频繁项集,并写出具体过程。 答: (a)Apriori算法: {K} 1 {A} 4 {A,B} 4 {A,B,D} 3

数据挖掘计算题参考答案

数据挖掘计算题参考答案 数据仓库与数据挖掘复习题 1. 假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类: X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选 择欧几里德距离。假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请 用K_means算法来计算: (1)在第一次循环执行后的3个聚类中心; 答:第一次迭代:中心点1:X1(2,10),2:X4(5,8),X7(1,2) X1 X2 X3 X4 X5 X6 X7 X8 1 0 25 36+36 9+4 25+25 16+36 1+64 4+1 2 9+4 9+9 9+16 0 4+9 1+16 16+36 1+1 3 1+6 4 1+9 53 16+36 4 5 29 0 58 答案:在第一次循环执行后的3个聚类中心: 1:X1(2,10) 2:X3,X4,X5,X6,X8 (6,6) 3:X2,X7 (1.5,3.5) (2)经过两次循环后,最后的3个族分别是什么? 第二次迭代: d2X1 X2 X3 X4 X5 X6 X7 X8 1 0 25 36+36 9+4 25+25 16+36 1+64 4+1 2 32 17 8 5 2 4 41 1+1 3 52+6.5252+1.52 6.52+0.523.52+4.525.52+1.524.52+0.520.52+1.52 2.52+5.52答

案:1:X1,X8 (3.5,9.5) 2:X3,X4,X5,X6 (6.5,5.25) 3:X2,X7 (1.5,3.5) 2. 数据库有4个事务。设min_sup=60%,min_conf=80%。 TID data Transaction T100 6/6/2007 K,A,D,B T200 6/6/2007 D,A,C,E,B T300 6/7/2007 C,A,B,E T400 6/10/2007 B,A,D a.使用Apriori算法找出频繁项集,并写出具体过程。 答: (a)Apriori算法: {K} 1 {A} 4 {A,B} 4 {A,B,D} 3 {A} 4 {B} 4 {A,D} 3 {B} 4 {D} 3 {B,D} 3 {D} 3 {C} 2 {E} 2 频繁项集为3项集{A,B,D}:3 b.列出所有的强关联规则,使它们与下面的元规则匹配,其中,X 是代表顾客的变量,i item 是表示项的变量(例如,“A ”、“B ”等): 123,(,)(,)(,)x t r a n s a c t i o n b u y s X i t e m b u y s X i t e m b u y s X i t e m ?∈∧? [s,c] 答:所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D} A^B=>D conf=3/4=75% × A^D=>B conf=3/3=100% √ B^D=>A conf=3/3=100% √ 因此,满足条件的强关联规则有: A^D=>B{supp=75%,conf=100%} B^D=>A{supp=75%,conf=100%} 1.给定如下的数据库表: ID Sky AirTemp Humidity Wind Water Forecast Enjoysport 1 Sunny Warm Normal Strong Warm Same Yes 2 Sunny Warm High Strong Warm Same Yes 3 Rainy

数据挖掘概念与技术习题答案-

数据挖掘概念与技术(原书第3版) 第三章课后习题及解答 3.7习题 3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以 上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。提 出数据质量的两个其他尺度。 答: 数据的质量依赖于数据的应用。 准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场 分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需 要一家家拜访的销售而言,有错误地址的数据,质量就很差了。 一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的 质量,但涉及多个数据库时,就会影响。 数据质量的另外三个尺度是时效性,可解释性,可信性。 3.2在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处 理这一问题的方法。 答:对于有缺失值的元组,当前有6种处理的方法: (1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。 (2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。 (3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“ unknown”或-)替换。如果缺失值都用"unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“unknown”。因此,尽管该方法简单,但是并不十分可靠。 (4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。。 (5)使用与给定元组属同一类的所有样本的属性均值或中位数 (6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。 3.3在习题2.2中,属性age包括如下值(以递增序):13, 15, 16, 16, 36,40,45,46,52,70. 19,20,20,21,22,22,25,25,25,25,30, 33,33,35 35, 35,35, (a)使用深度为3的箱,用箱均值光滑以上的数据。说明你的步骤,讨论这种技术对给定数据的效果。 答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:

数据挖掘习题及解答-完美版

Data Mining Take Home Exam 学号: xxxx 姓名: xxx (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值 (3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini指标值 (5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? (3)

=26/160=0.1625 ]*2=8/25+6/35=0.4914 (5) 比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。 2. ( (1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。 (3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。 (2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。 (3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。 3. (20分)以下是多元回归分析的部分R输出结果。 > ls1=lm(y~x1+x2) > anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 10021.2 10021.2 62.038 0.0001007 *** x2 1 4030.9 4030.9 24.954 0.0015735 ** Residuals 7 1130.7 161.5 > ls2<-lm(y~x2+x1) > anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 3363.4 3363.4 20.822 0.002595 ** x1 1 10688.7 10688.7 66.170 8.193e-05 *** Residuals 7 1130.7 161.5 (1)用F检验来检验以下假设(α = 0.05) H0: β1 = 0 H a: β1≠ 0 计算检验统计量;是否拒绝零假设,为什么? (2)用F检验来检验以下假设(α = 0.05) H0: β2 = 0 H a: β2≠ 0 计算检验统计量;是否拒绝零假设,为什么? (3)用F检验来检验以下假设(α = 0.05) H0: β1 = β2 = 0 H a: β1和β2 并不都等于零 计算检验统计量;是否拒绝零假设,为什么? 解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。 (2)同理,在α=0.05的条件下,F=20.822>F(2,7)=4.74,p<0.05,即拒绝原假设,得到不等于0。 (3)F={(10021.2+4030.9)/2}/(1130.7/7)=43.4973>F=(2,7)=4.74,即拒绝原假设,得到和并不都等于0。

相关文档
最新文档