数据仓库与数据挖掘期末试题

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

广西财经学院2007——2008学年第一学期《数据仓库与数据挖掘》课程期末考试试卷(A)

一、名词解释(每题4分,共20分)

1、数据仓库

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

2、数据挖掘

数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

3、雪花模型

雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。

4、OLAP

OLAP是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

5、决策树

决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。这种树结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作边。决策树一般都是自上而下的来生成的。

二、简答题(每题6分,共30分)

1、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?

首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。

2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。

ETL工具:Ascential DataStage ,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream

市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 但是使用过的只有SQL SERVER和数据挖掘工具Analysis Services,而且不大熟悉。

3、请谈一下你对元数据管理在数据仓库中的运用的理解。

元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

4、数据挖掘对聚类的数据要求是什么?

(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感(7)高维性(8)基于约束的聚类(9)可解释性和可利用性

5、简述Apriori算法的思想,谈谈该算法的应用领域并举例。

思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。

在商务、金融、保险等领域皆有应用。

在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法

三、翻译分析题(30分)

1、附件有一名为“Data Mining in Electronic Commerce”的电子文档,请同学们翻译其中的一段。每位同学翻译的段号以大家学号的最后两位为准,如10号同学只需翻译正文的第10段,以此类推。

分类则是一个标准的问题,在数据挖掘和在电子商贸的应用-原则下,适当的方法[随机森林,支持向量机(支持向量机),后勤拉索等]有赖于敏锐地在该网

站上,该类型的广告都是可以收集到的资料。在亚马逊商务网站中,该推荐系统已进入先前购买和书籍进行视察。

这是一个更丰富的信息来源,通过可以接入(他们只

知道这个词,有人期待在这次会议上,除非他们有库克-网页)。一些企业获得更多的信息,从数据仓库中,如作为choicepoint公司,这使得他们的专家来建立高度个性化的分类规则。

2、通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)。

随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。

电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。

由于数据挖掘能带来显著的效益,它在电子商务中(特别是业、零售业和电信业)应用也越来越广泛。

在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融政策。更值得一提的是通过对数据的分析还可发现洗黑钱以及其它的犯罪活动。

在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。

电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、机和WEB数据传输以及其它的数据通信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是的大势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用,为公司减少损失。

相关文档
最新文档