数据挖掘模拟卷答案

合集下载

《数据挖掘》模拟卷

《数据挖掘》模拟卷
答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(3分)
答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:
逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分)
层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分)
(a) 给定节点的所有样本属于同一类;
(b) 没有剩余属性可以用来进一步划分样本,在此情况下,使用多数表决所得的类编号将节点转化为树叶。
(c) 如果某个分枝没有样本,则以其划分前的训练样本的多数类创建一个树叶。
(2)判定树buys_PCGame如下所示:

请根据以上结果绘制出判定树buys_PCGame。(4分)
数据挖掘》模拟卷答案
一、填空题(每格1分,共20分)
1、划分方法、层次方法、基于密度的方法。
2、星型模式、雪花模式和事实星座模式。
3、描述性的数据挖掘和预测性的数据挖掘。
4、不物化、全物化和部分物化。
5、数据库技术、统计学、机器学习。
B、选择(select)
C、切片(slice)
D、转轴(pivot)
9.假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( )

《数据挖掘教学课件》数据挖掘期末考题(答案)

《数据挖掘教学课件》数据挖掘期末考题(答案)

华南理工大学计算机科学与工程学院2012—2013学年度第二学期期末考试《数据仓库与数据挖掘技术》试卷(假的)专业:计算机科学与技术年级:2010 姓名:学号:注意事项:1. 本试卷共四大题,满分100分,考试时间120分钟;2. 所有答案请直接答在试卷上;题号一二三四总分得分一.填空题(每空1分,共20分)1.数据仓库的特征包括_面向主题________、___集成_________、__时变_________和非易失性。

2.数据仓库的三种数据模式包括_星形模式_、__雪花形模式__________、___事实星座形模式________。

3.仓库数据库服务器、_LOAP服务器________、__前端客户__________为数据仓库的多层结构。

4. OLAP技术多维分析过程中,多维分析操作包括 __上卷___、__下钻____、___切片____、__切块__________、__转轴_________等。

5. 知识发现过程的主要步骤有:数据清理、__数据集成__________、__数据选择___、数据交换、_数据挖掘________、___模式评估_________、__知识表示_______。

6. 数据仓库的视图的分类有:自顶向下视图、_数据源视图________、数据仓库视图、_商务视图_________。

二.简答题(每题6分,共42分)1.简述处理空缺值的方法。

1、忽略该记录2、手工填写空缺值3、使用默认值4、使用属性平均值5、使用同类样本平均值6、使用最可能的值2.挖掘的知识类型。

1、概念/类描述:特征化和区分2、挖掘频繁模式、关联和相关3、分类和预测4、聚类分析5、离群点分析6、演变分析3.何为OLTP与OLAP及他们的主要区别。

联机事务处理OLTP (on-line transaction processing);联机分析处理OLAP (on-line analytical processing);OLTP和OLAP的区别:用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据;数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型;视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP 系统主要关注汇总的统一的数据;访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。

数据库数据挖掘与分析考试试卷

数据库数据挖掘与分析考试试卷

数据库数据挖掘与分析考试试卷(答案见尾页)一、选择题1. 数据挖掘的主要目的是什么?A. 提取数据库中的数据B. 分析数据库中的数据以发现隐藏的模式和关联C. 存储和管理数据库中的数据D. 传输数据库中的数据2. 在数据挖掘中,以下哪个过程是用来发现数据项之间的有趣关系和关联的?A. 数据清理B. 数据集成C. 数据转换D. 数据挖掘3. 数据挖掘任务通常不包括以下哪项?A.分类B.聚类C.回归D. 数据库优化4. 关联规则学习是数据挖掘中的一个重要技术,它主要关注什么?A. 发现数据集中不同项之间的因果关系B. 发现数据集中频繁出现的模式和关联C. 建立数据模型以预测未来趋势D. 优化数据库查询性能5. 在聚类分析中,以下哪个选项不是常用的距离度量方法?A. 曼哈顿距离B. 欧氏距离C. 切比雪夫距离D. 余弦相似度6. 数据挖掘中经常使用哪种图表来展示聚类结果?A. 条形图B. 饼图C. 网络图D. 散点图7. 在数据挖掘中,以下哪个算法主要用于发现连续数值型数据中的异常值或离群点?A. K-均值算法B. DBSCANC. 谱聚类算法D. 决策树算法8. 数据挖掘中,以下哪个步骤不是数据预处理的一部分?A. 数据清洗B. 数据集成C. 数据转换D. 数据降维9. 在建立数据挖掘模型时,以下哪个步骤不是特征选择的一部分?A. 特征提取B. 特征选择C. 特征验证D. 特征排序10. 数据挖掘中,以下哪个工具不是常用的数据挖掘工具?A. SQLB. ExcelC. PythonD. R二、问答题2. 什么是SQL语言?请列举几种常见的SQL语句。

3. 什么是数据库的完整性约束?请举例说明。

4. 什么是数据库的设计原则?请列举几个常用的设计原则。

5. 什么是数据库的范式?请简要解释第一范式和第二范式。

6. 什么是数据库索引?请简述索引的作用和分类。

7. 什么是数据库的事务处理?请简述事务的定义和特性。

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。

问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。

A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。

财务数据挖掘考核试卷

财务数据挖掘考核试卷
17. C
18. D
19. D
20. D
二、多选题
1. ABCD
2. ABCD
3. ABC
4. ABC
5. ABCD
6. ABC
7. ABCD
8. ABCD
9. ABCD
10. ABCD
11. ABC
12. ABCD
13. ABC
14. ABCD
15. ABCD
16. ABC
17. ABC
18. ABCD
2.选择财务指标要考虑指标的相关性、可获取性、代表性和适用性。例如,对于评估公司盈利能力,可以选择净利润率、毛利率等指标。
3.时间序列分析在财务预测中的应用是通过历史数据预测未来趋势。优势是能反映时间动态变化,局限性在于假设历史趋势会延续,可能忽略外部因素影响。
4.过拟合是模型在训练数据上表现太好,但在新数据上表现差。产生原因是模型过于复杂或训练数据不足。避免方法包括简化模型、增加数据量、交叉验证和正则化等。
2.以下哪些方法可以用于财务数据的特征选择?()
A.过滤法
B.包装法
C.嵌入法
D.逐步回归法
3.财务数据挖掘中,哪些模型属于机器学习算法?()
A.线性回归
B.决策树
C.神经网络
D.描述性统计分析
4.以下哪些指标可以反映公司的营运能力?()
A.总资产周转率
B.存货周转率
C.应收账款周转率
D.营业利润率
10.在R语言中,用于进行财务数据挖掘的常用包有______和______。
四、判断题(本题共10小题,每题1分,共10分,正确的请在答题括号中画√,错误的画×)
1.在进行财务数据挖掘时,数据量越大,模型的性能一定越好。()

大数据挖掘技术练习(习题卷14)

大数据挖掘技术练习(习题卷14)

大数据挖掘技术练习(习题卷14)第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]人工智能不会()A)听(语音识别、机器翻译),看(图像识别、文字识别)B)说(语音合成、人机对话),思考(人机对弈、定理证明等)C)学习(机器学习、知识表示等),行动(机器人、自动驾驶汽车等)D)表达感情答案:D解析:2.[单选题]以下关于大数据应用说法错误的是( )。

A)大数据起源互联网,目前处于成熟期;B)目前金融、电信、零售、公共服务等领域在积极的探索和应用大数据;C)互联网是大数据的发源地;D)互联网上形成了多种相对成熟的应用模式。

答案:A解析:3.[单选题]协同过滤分析用户兴趣 , 在用户群中找到指定用户的相似 (兴趣)用户, 综合这些用户对 某一信息的评价 , 形成系统对该指定用户对此信息的喜好程度( ),并将这些用户喜欢的项推荐给有相似兴趣的用户。

A)相似B)相同C)推荐D)预测答案:D解析:4.[单选题]马云认为,()是数据时代必须跨过的一个坎A)数据隐私B)数据服务C)数据获取D)数据应用答案:A解析:5.[单选题]研究顾客是否想购买手机与年龄,性别,收入和工作地点的关系可以使用()A)回归方法B)分类方法C)聚类方法D)关联分析答案:B解析:C)mapred-site.xmlD)hadoop-env.sh答案:B解析:7.[单选题]BIRCH是一种( B )。

A)分类器B)聚类算法C)关联分析算法D)特征选择算法答案:B解析:8.[单选题]基于DPI的网站统计分析功能目前暂无法支持的是A)域名按网站聚合B)URL的访问源记录C)域名流量统计D)页面内容爬取答案:D解析:9.[单选题]视频业务端到端问题定界的关键点在于()A)查找KQI对应的相关异常KPI指标B)不同维度的对比定位分析C)进行HTTP错误码分析D)进行接口以上以下分析答案:A解析:10.[单选题]数据仓库是随着时间变化的,下面的描述不正确的是A)数据仓库随时间的变化不断增加新的数据内容;B)捕捉到的新数据会覆盖原来的快照;C)数据仓库随事件变化不断删去旧的数据内容;D)数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.答案:C解析:11.[单选题]联机分析处理包括以下不是基本分析功能的为: ( )A)聚类B)切片C)转轴D)切块答案:A解析:12.[单选题]CRISP-DM是跨行业数据挖掘过程标准,下述哪项工作是 在data preperation阶段完成A)数据收集B)数据清洗13.[单选题]订单表order包含用户信息uid和产品信息pid等属性列,以下语句能够返回至少被订购过三次的Pid是______。

安全网络数据挖掘与隐私保护技术考核试卷

3.在网络数据挖掘中,聚类分析是一种无监督学习的方法。()
4.数据挖掘模型过拟合是指模型在训练集上的表现差,但在测试集上的表现好。()
5.支持向量机(SVM)是一种用于回归分析的算法。()
6.数据仓库中的数据通常是实时的。()
7.加密技术是保护数据隐私的最有效手段之一。()
8.在关联规则学习中,提升度(Lift)是一个衡量规则有趣程度的指标。()
9.在数据挖掘中,______是指将数据集中的记录分配到预定义的类别中。()
10.实现差分隐私的一种技术是通过添加______来保护数据。()
四、判断题(本题共10小题,每题1分,共10分,正确的请在答题括号中画√,错误的画×)
1.数据挖掘的目的之一是从大数据集中发现模式和关联。()
2.数据脱敏是一种在数据挖掘之前对数据进行处理的技术,以保护个人隐私。()
17. ABD
18. ABC
19. ABD
20. ABCD
三、填空题(本题共10小题,每小题2分,共20分,请将正确答案填到题目空白处)
1.在数据挖掘中,用于评估分类模型性能的指标是______。()
2.常用于网络数据挖掘中的文本分类的算法是______。()
3.为了保护隐私,可以在数据发布前对数据进行______处理。()
9.分类
10.噪声
判断题答案:
1. √
2. √
3. √
4. ×
5. ×
6. ×
7. √
8. √
9. ×
10. ×
五、主观题(本题共4小题,每题5分,共20分)
1.请描述数据挖掘中分类和聚类的区别,并给出各自在实际应用中的例子。()
2.简要阐述差分隐私的概念及其在网络数据挖掘中的作用。()

互联网数据挖掘与分析方法考核试卷

A. MapReduce
B. Spark
C. Hive
D. Pig
20.在数据分析中,以下哪个指标用于衡量两个变量之间的线性关系?()
A.相关系数
B.协方差
C.平均值
D.方差
(以下为试卷其他部分的提示,但不包含在本次要求输出范围内)
二、多项选择题(本题共10小题,每小题2分,共20分,在每小题给出的四个选项中,有两个或两个以上选项是符合题目要求的)
D. F1分数
三、填空题(本题共10小题,每小题2分,共20分,请将正确答案填到题目空白处)
41.在数据挖掘中,用于描述数据一般特性的方法是______。
42.在大数据分析中,______是指数据的规模、速度和多样性。
43.互联网数据挖掘中,______是指从大量数据集中发现潜在的、有价值的信息和知识的过程。
62.常用技术包括数据清洗(去除错误数据)、数据集成(合并不同数据源)和数据变换(标准化/归一化数据)。这些技术保证了数据质量,提高了数据挖掘的准确性和效率。
63.关联规则挖掘是从大量数据中发现项目之间的有趣关系。例如,在购物篮分析中,可以找出顾客同时购买的商品组合,帮助商家优化商品布局和促销策略。
64.实时数据流处理需要快速摄取、处理和分析数据。与批处理不同,实时处理强调即时性和连续性,如使用流处理框架(如Spark Streaming)处理数据。批处理通常处理大量历史数据,而实时处理关注最新数据,以快速响应业务需求。
互联网数据挖掘与分析方法考核试卷
考生姓名:__________答题日期:__________得分:__________判卷人:__________
一、单项选择题(本题共20小题,每小题1分,共20分,在每小题给出的四个选项中,只有一项是符合题目要求的)

大数据挖掘技术练习(习题卷6)

大数据挖掘技术练习(习题卷6)第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值()A)聚类B)分类C)预测D)关联答案:C解析:2.[单选题]使用pip工具升级科学计算扩展库numpy的完整命令是()A)pip install --upgrade numpyB)pip list --upgrade numpyC)upgrade numpyD)upg numpy--pip install答案:A解析:3.[单选题]在一个表中有字段“专业”,要查找包含“信息”两个字的记录,正确的表达式是______。

A)LEFT(专业, 2)="信息"B)LIKE "%信息%"C)LIKE "_信息_"D)RIGHT(专业, 2)="信息"答案:B解析:4.[单选题]两台路由器成为OSPF邻居关系的必要条件不包括A)两台路由器的Hello时间一致B)两台路由器的Dead时间一致C)两台路由器的Router ID一致D)两台路由器所属区域一致答案:C解析:5.[单选题]自动化高级分析实验室,实现与统一数据资源库互联,实现数据的自助组表、自助分析功能,满足不同层级、不同水平的用户需求的是( )A)初级分析;B)综合分析C)典型分析D)高级分析答案:D解析:6.[单选题]关于 K 均值和 DBSCAN 的比较,以下说法不正确的是( )。

A)KB)KC)KD)K答案:A解析:7.[单选题]属于定量的属性类型是A)标称B)序数C)区间D)相异答案:C解析:8.[单选题]终端支持的频段,在下列哪个流程中会得以体现A)ATTACHB)DETACHC)切换流程D)呼叫流程答案:A解析:9.[单选题]概念分层图是____图。

A)无向无环B)有向无环C)有向有环D)无向有环答案:B解析:10.[单选题]关于OLAP和OLTP的区别描述,不正确的是:A)OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.答案:C解析:11.[单选题]在FP-GROWTH算法中,已构造FP-Tree如图则项 I3 的条件模式基为A)<(I1,I2:2)>、I2:2、 I1:2B)<(I2,I1:2)>、I2:1、 I1:1C)<(I2,I1:2)>、I2:2、 I1:2D)<(I2,I1:1)>、I2:2、 I1:2答案:C解析:12.[单选题]下面的代码其功能为()>>> x = [range(3*i, 3*i+5) for i in range(2)]>>> x = list(map(list, x))>>> x = list(map(list, zip(*x)))A)首先生成一个随机的列表,然后生成矩阵B)首先生成一个包含列表的列表,然后生成矩阵C)首先生成一个包含列表的列表,然后模拟矩阵转置D)首先排序列表,然后模拟矩阵转置答案:C解析:13.[单选题]下述方法不属于聚类方法的是( )A)K-均值B)K-中心性C)DBSCAN算法D)神经网络答案:D解析:14.[单选题]设有一个回归方程为y=2-2.5x,则变量x增加一个单位时()A)y平均增加2.5个单位B)y平均增加2个单位C)y平均减少2.5个单位D)y平均减少2个单位答案:C解析:15.[单选题]JSON 中的中括号一般来表示( )。

数据挖掘与知识发现技术考核试卷

3.朴素贝叶斯分类器是基于______定理进行分类的。()
4.在数据挖掘中,______是指数据集中的记录没有重复出现。()
5.在大数据分析中,______技术可以处理海量数据的存储和计算问题。()
6.常用于文本分析的______模型可以识别文本中的潜在主题分布。()
7.在数据挖掘中,______是一种无监督学习任务,旨在发现数据中的潜在模式。()
C.潜在狄利克雷分配
D.独立成分分析
17.以下哪些算法可以用于文本分类?()
A.朴素贝叶斯
B.支持向量机
C.决策树
D.聚类算法
18.以下哪些是数据挖掘中的隐私问题?()
A.数据泄露
B.数据隐私保护
C.数据匿名化
D.数据共享
19.以下哪些方法可以用于异常检测?()
A.箱线图
B.密度估计
C.机器学习模型
D.数据分析
8.以下哪个模型不是机器学习模型?()
A.线性回归模型
B.逻辑回归模型
C.决策树模型
D.数据流模型
9.在数据挖掘中,以下哪个概念表示数据之间的相互依赖关系?()
A.相关性
B.独立性
C.因果关系
D.非线性关系
10.以下哪个算法不是基于距离的聚类算法?()
A. K-均值
B.层次聚类
C.密度聚类
10. C
11. B
12. D
13. A
14. C
15. D
16. D
17. D
18. C
19. B
20. D
二、多选题
1. ABCD
2. ABC
3. AB
4. ABC
5. ABC
6. ABC
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据挖掘》模拟卷答案
一、填空题(每格1分,共20分)
1、划分方法、层次方法、基于密度的方法。

2、星型模式、雪花模式和事实星座模式。

3、描述性的数据挖掘和预测性的数据挖掘。

4、不物化、全物化和部分物化。

5、数据库技术、统计学、机器学习。

6、模式分层、集合分组分层、操作导出的分层和基于规则的分层。

7、数据立方体方法(或OLAP)和面向属性的归纳方法。

二、单选题(请选择一个正确答案填入括号内,每题2分,共20分)
1、 C
2、___B_____
3、___D_ ___
4、____C____
5、____C_____
6、_____A___
7、___B_____
8、__B_____
9、___E ____ 10、___C_____
三、多选题(请选择两个或两个以上正确答案填入括号内,每题3分,共15分)
1、___ BD _
2、___ BD __
3、_ABCD_
4、__ABC___
5、_ABCD__
四、简答题(共25分)
1.简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。

(7分)
答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。

聚集通过合并相等的广义元组,并累计他们相应的计数值进行。

这压缩了概化后的数据集合。

结果广义关系可以映射到不同形式,如图表或规则,提供用户。

(3分)
使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;(2分)
使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。

(2分)
2.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。

(6分)
答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:
(1)提高两个系统的性能
操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP 查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询, 多维视图,汇总等OLAP功能提供了优化。

(2)两者有着不同的功能
操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。

(3)两者有着不同的数据
数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

3.对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分)
答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:
逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。

考察每一个节点,不管其父节点是否频繁。

特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分)
层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。

特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分)
层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。

它是上述两个极端策略的折中。

(2分)
4.跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分)
答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:
电子商务提供海量的数据:
“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据;
丰富的记录信息:
良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息;
干净的数据:
从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合;
研究成果容易转化:
在电子商务中,很多知识发现都可以进行直接应用;
投资收益容易衡量:
所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。

五、算法题(共20分)
1、答:
(1)Aprior算法的基本步骤包括:连接与剪枝
(2)
使用Apiori性质由L2产生C3
1 .连接:
C3=L2 L2=
{{A,C},{B,C},{B,E}{C,E} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:
{A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项;{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 不是L2的元素,所以删除这个选项;{B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保留这个选项。

3.这样,剪枝后得到C3={{B,C,E}}
枝后得到C3={{B,C,E}}
2、答:
(1)判定树归纳算法的基本策略如下:
树以代表单个训练样本的节点开始。

如果样本都在同一个类,则该节点成为树叶,并用该类标记。

否则,算法使用成为信息增益的基于熵的度量作为启发信息,选择能够最好的将样本分类的属性。

对测试属性每个已知的值,创建一个分枝,并据此划分样本。

算法使用同样的过程,递归的形成每个划分上的样本判定树。

一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代上。

递归划分步骤仅当下列条件之一成立时停止:
(a)给定节点的所有样本属于同一类;
(b)没有剩余属性可以用来进一步划分样本,在此情况下,使用多数表决所得的类
编号将节点转化为树叶。

(c)如果某个分枝没有样本,则以其划分前的训练样本的多数类创建一个树叶。

(2)判定树buys_PCGame如下所示:。

相关文档
最新文档