数据仓库测验集
数据仓库的测试方法论

数据仓库的测试方法论数据仓库是一个用于存储和管理大量结构化和非结构化数据的系统,它对于组织和分析数据非常重要。
然而,数据仓库的正确性和稳定性对于数据分析的准确性和可靠性至关重要。
因此,对数据仓库进行全面的测试是必不可少的。
本文将介绍数据仓库的测试方法论,以确保数据仓库的质量和可靠性。
一、测试策略数据仓库的测试策略应该包括以下几个方面:1.功能测试:测试数据仓库的基本功能,如数据加载、数据转换、数据清洗、数据查询等。
2.性能测试:测试数据仓库在不同负载下的性能表现,包括数据加载速度、查询响应时间等。
3.可靠性测试:测试数据仓库的稳定性和可靠性,包括数据的完整性和一致性。
4.安全性测试:测试数据仓库的安全性,包括数据的保密性和访问控制。
5.容错性测试:测试数据仓库在出现故障或异常情况下的恢复能力。
6.兼容性测试:测试数据仓库与其他系统的兼容性,如ETL工具、数据可视化工具等。
二、测试环境为了有效地进行数据仓库的测试,需要建立一个合适的测试环境。
测试环境应该包括以下几个方面:1.硬件环境:包括服务器、存储设备等。
2.软件环境:包括操作系统、数据库管理系统、ETL工具等。
3.测试数据:需要准备一些合适的测试数据,以模拟真实的数据情况。
4.测试工具:可以使用一些专业的数据仓库测试工具,如QuerySurge、Talend等。
三、测试用例设计在进行数据仓库测试之前,需要设计一些合适的测试用例,以确保测试的全面性和有效性。
测试用例应该包括以下几个方面:1.数据加载测试:测试数据仓库的数据加载过程,包括数据的抽取、转换和加载。
2.数据查询测试:测试数据仓库的查询功能,包括查询语句的正确性和查询结果的准确性。
3.数据清洗测试:测试数据仓库的数据清洗过程,包括去重、校验、修复等。
4.性能测试:测试数据仓库在不同负载下的性能表现,包括数据加载速度、查询响应时间等。
5.安全性测试:测试数据仓库的安全性,包括数据的保密性和访问控制。
数据仓库-期末考试复习题

数据仓库-期末考试复习题复思考题(重点)一、单项选择题1)一般信息管理中,采用哪种方式的概念模型最多A。
ce模型B.实体-关系模型C.02O模型D.B/S模型(2)在关系表中,下列哪种属性不能承担主列关键字(Key)?A.身份证号B.银行卡号C.加密电文D.企业标识码(3)数据仓库的生命周期中,不包含下列哪个阶段?A.规划分析阶段B.设计实施阶段C.使用维护阶段D.反馈提升阶段(4)多维切片是指:A.在多个维度上观察全员操作B.多个成员的操作片段C.旋转数据集的部分维度D.在线分析或联机分析(5)一般信息管理中,采用哪种方式的分布式物理模型最多A。
ce模型 B.实体-关系模型C.02O模型D.B/S模型(6)在关系表中,下列哪种属性可以成为外键(Key)?A.客户信用程度B.银行卡行号C.加密的身份证号D.实体商户地址(7)数据仓库的生命周期中,不包含下列哪个阶段排在第三阶段?A.规划分析阶段 B.设计实施阶段 C.使用维护阶段D.反馈提升阶段(8)多维报表是指:A.在多个维度上观察全员操作B.分歧维度花式分歧叠加展示C.旋转数据集的部分维度D.在线阐发或联机阐发(9)数据表的多维索引的感化是:A.使数据表更节省存储空间B.加快数据存储速率C.表格花式美观大方C.加快数据查找效率10)de布局中的MAP职能是?A.钻取B.汇聚C.分发D.结晶11)下列哪种客户需求能够直接成为数据堆栈的多维报表?A.客户销售业绩清单B.客户根本名册C.客户关系图表D.客户反馈信息(12)数据堆栈开辟强调哪种主体特征?A.信息安全性B.业务流程C.操作事务性D.数据实时性(13)数据仓库与数据库系统相比,更加提倡:A.空间换时间B.数据范式更严格C.冗余度更小C.更加适用于分布式结构(14)透视表属于OLAP中的哪种能力范畴?A.存储本领B.展示本领C.稳定性本领D.安全性本领(15)OLAP的系统布局分为:A.胖客户端系统和瘦客户端系统B。
数据仓库与数据挖掘考试试题

中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目 数据仓库与数据挖掘 学分 2 年级 2008系 机电动力与信息工程系 专业 计算机一、 填空题(15分)面向主题 、 集成 、 相对稳定 、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。
3.OLAP技术多维分析过程中,多维分析操作包括 切片 、 切块 、 钻取 、 旋转 等。
“ 中心和辐射 〞架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS实际上是一个集成的、 面向主题的 、 可更新的 、当前值的 、 企业级的 、详细的数据库,也叫运营数据存储。
二、 多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括( ACD )A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两局部组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表三、 计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的工程,假定sup min =40%,conf min=40%,使用Apriori 算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大工程集。
(15分)事务工程 事务 工程 T1 T2 T3 面包、果冻、花生酱 面包、花生酱面包、牛奶、花生酱T4 T5 啤酒、面包啤酒、牛奶 解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有工程直接产生1-候选C 1,计算其支持度,取出支持度小于sup min 的项集,形成1-频繁集L 1,如下表所示: 项集C 1 支持度项集L 1 支持度 {面包} {花生酱} {牛奶} 4/53/52/5 {面包} {花生酱} {牛奶} 4/5 3/5 2/5{啤酒} 2/5 {啤酒} 2/5(2)组合连接L 1中的各工程,产生2-候选集C 2,计算其支持度,取出支持度小于sup min 的项集,形成2-频繁集L 2,如下表所示: 项集C 2 支持度 项集L 2 支持度{面包、花生酱} 3/5 {面包、花生酱} 3/5至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
数据仓库面试题

数据仓库面试题一、简介数据仓库是一个用于存储和管理大量数据的系统,被广泛应用于数据分析和决策支持领域。
在数据仓库领域的面试中,涉及到的题目通常围绕数据仓库的架构、设计、模型、ETL流程、性能优化等方面展开。
本文将针对数据仓库面试常见的题目进行一一解答。
二、题目解答1. 请介绍数据仓库的架构。
数据仓库的架构通常包括三层:数据源层、集成层和展示层。
数据源层是指数据仓库的原始数据来源,可以是各种业务系统中的数据库、文件、API等。
集成层负责对数据进行抽取、转换和加载(ETL)的过程,将原始数据转化为适合分析和查询的形式。
展示层是数据仓库最终呈现给用户的部分,一般使用OLAP数据模型,支持多维分析和报表功能。
2. 请介绍数据仓库的设计原则。
数据仓库的设计原则主要包括可理解性、稳定性、高性能和易扩展性。
可理解性要求数据仓库的模型和数据应该能够被用户清晰地理解和操作,遵循一致的命名规范和约定。
稳定性要求数据仓库的结构和数据应该是可靠的,能够保证数据的完整性和准确性。
高性能要求数据仓库在查询和分析时能够快速响应,通常通过索引、分区等技术来实现。
易扩展性要求数据仓库能够方便地扩展和增加新的数据源,以适应业务发展和数据增长的需求。
3. 什么是星型模型和雪花模型?星型模型和雪花模型是常见的数据仓库设计模型。
星型模型以一个中心的事实表(Fact Table)为核心,与多个维度表(Dimension Table)关联。
事实表中包含了事实(例如销售量、金额等)以及用于关联维度表的外键。
维度表包含了与事实表相关的维度(例如时间、产品、地区等),每个维度表都有一个与之关联的主键。
星型模型简单、直观,易于理解和查询。
雪花模型在星型模型的基础上进行了拓展,将维度表进一步规范化,使得维度间可以建立更多层级的关联。
即维度表可以再次分解成更小的维度表。
这样做可以提高数据的一致性和准确性,但同时也增加了模型的复杂性。
4. 请解释OLAP和OLTP的区别。
软件测试中的大数据与数据仓库测试

软件测试中的大数据与数据仓库测试在当今数字化时代,大数据和数据仓库已经成为各行各业的核心要素。
软件测试作为确保软件质量的关键环节之一,在面对大数据和数据仓库的测试时,也需要采取相应的策略和方法。
本文将探讨软件测试中的大数据与数据仓库测试,并介绍一些相关的技术和工具。
1. 大数据测试1.1 数据量的处理大数据测试的一个重要挑战是如何处理海量的数据。
传统的测试方法在处理大数据时可能会遇到性能瓶颈,因此需要采用分布式计算和存储技术,例如Hadoop和Spark。
这些技术可以将数据分割成小块,并在集群中并行处理,提高测试效率和准确性。
1.2 数据质量的验证大数据中的数据质量是一个关键问题。
在进行大数据测试时,需要对数据的准确性、完整性、一致性和及时性进行验证。
测试人员可以使用合适的数据质量工具,例如数据验证和数据清洗工具,来检测和修复数据中的错误和异常。
1.3 多样化的数据类型大数据包含多种数据类型,例如结构化数据、半结构化数据和非结构化数据。
为了确保测试的全面性,测试人员需要针对不同类型的数据进行测试,并选择适当的测试方法。
例如,可以使用数据分析工具和数据挖掘算法,以发现隐藏在非结构化数据中的潜在问题。
2. 数据仓库测试2.1 数据一致性的验证数据仓库通常用于集成和存储多个数据源的数据,因此数据一致性是一个重要的测试目标。
测试人员需要验证数据在不同数据源之间的一致性,以及与源系统之间的一致性。
为了实现数据一致性的验证,可以采用数据比对和数据校验等技术手段。
2.2 查询性能的测试数据仓库的一个主要功能是支持复杂的分析查询。
在测试数据仓库时,需要关注其查询性能。
可以模拟真实场景中的查询请求,并评估查询的响应时间和吞吐量。
同时,还需要注意数据仓库的扩展性和容量,以确保其能够处理未来的数据增长。
2.3 数据转换和清洗的测试在数据仓库建设过程中,数据转换和清洗是一个重要的步骤。
测试人员需要验证数据转换和清洗的准确性,并检查数据是否按照预期的方式转换和清洗。
数据仓库试题

数据仓库试题一、选择题1. 数据仓库是一种用于存储、管理和分析大量数据的系统,其特点是()a) 存储海量数据b) 支持多维分析c) 支持实时查询d) 执行事务处理2. 下列哪项不是数据仓库的核心组件?a) 数据提取和转换(ETL)工具b) 数据集市c) 数据库管理系统d) 数据挖掘工具3. 数据仓库的建设过程中,以下哪项工作应该放在最后进行?a) 数据提取和清洗b) 数据建模c) 数据存储和加载d) 数据分析4. 在数据仓库中,维度模型和事实模型分别用于描述的是()a) 数据之间的关系b) 数据的粒度c) 数据的来源d) 数据的格式5. 下列哪个是数据仓库的主要目标之一?a) 实时交互式数据查询b) 高效的事务处理c) 存储大量数据d) 实现负载均衡二、填空题6. 数据仓库的架构通常包括三层,分别是()、()和()层。
7. 数据仓库的难点之一是数据的(),因为数据来自多个不同的系统和部门。
8. 数据仓库的存储技术包括()和()两种常见的方式。
9. 数据仓库建设过程中,将源数据转换为适合分析的数据称为()。
10. 数据仓库的数据分析可以采用多种方法,其中()分析是一种常见的方法。
三、简答题11. 数据仓库与传统的关系型数据库有何区别?12. 数据仓库的优势是什么?它在实际应用中有哪些场景?13. 数据仓库建设过程中的ETL过程是什么意思?它的作用是什么?14. 数据仓库中,维度模型和事实模型各自是如何描述数据的?15. 请简要说明数据仓库的架构和主要组件。
四、解答题16. 数据仓库的设计和建设步骤有哪些?请结合实际案例进行说明。
17. 请解释数据仓库中的数据清洗操作,并举例说明其重要性。
18. 请描述数据仓库的存储技术中,列式存储和行式存储的特点,并比较它们的优缺点。
五、实操题19. 假设你是某公司的数据分析员,请你根据实际需求,设计一个适合该公司业务的数据仓库架构,并简要说明其关键组件和数据流程。
大数据技术与数据仓储管理考试 选择题 60题

1. 大数据的“3V”模型不包括以下哪个特点?A. 速度B. 多样性C. 价值D. 体积2. 下列哪种技术是用于大数据存储的?A. HadoopB. JavaC. PythonD. C++3. 数据仓库的主要目的是什么?A. 在线交易处理B. 数据分析和决策支持C. 数据备份D. 数据加密4. 下列哪个不是数据仓库的特征?A. 主题导向B. 集成性C. 时变性D. 实时性5. 在数据仓库设计中,星型模式的核心是什么?A. 事实表B. 维度表C. 索引表D. 日志表6. 下列哪个工具常用于大数据分析?A. ExcelB. TableauC. PhotoshopD. AutoCAD7. 数据湖和数据仓库的主要区别是什么?A. 数据湖存储原始数据,数据仓库存储处理过的数据B. 数据湖用于交易处理,数据仓库用于分析C. 数据湖是关系型数据库,数据仓库是非关系型数据库D. 数据湖是开源的,数据仓库是商业的8. 下列哪个是NoSQL数据库的例子?A. MySQLB. OracleC. MongoDBD. SQL Server9. 数据仓库的生命周期不包括以下哪个阶段?A. 规划B. 设计C. 部署D. 维护10. 下列哪个技术用于大数据处理中的数据清洗?A. MapReduceB. SparkC. PigD. Hive11. 数据仓库中的维度表通常包含哪些信息?A. 度量值B. 时间、地点、产品C. 交易记录D. 客户信息12. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的事实数据B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据13. 在数据仓库中,ETL过程不包括以下哪个步骤?A. 抽取B. 转换C. 加载D. 分析14. 下列哪个工具用于大数据的可视化?A. Power BIB. EclipseC. Visual StudioD. IntelliJ IDEA15. 数据仓库的集成性意味着什么?A. 数据仓库中的数据是集成的B. 数据仓库可以集成多个数据源C. 数据仓库中的数据是独立的D. 数据仓库中的数据是分散的16. 下列哪个是大数据处理中的批处理技术?A. StormB. FlinkC. HadoopD. Kafka17. 数据仓库的时变性意味着什么?A. 数据仓库中的数据是静态的B. 数据仓库中的数据是动态的C. 数据仓库中的数据随时间变化D. 数据仓库中的数据是固定的18. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据19. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多20. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据21. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析22. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据23. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多24. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据25. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析26. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据27. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多28. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据29. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析30. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据31. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多32. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据33. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析34. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据35. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多36. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据37. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析38. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据39. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多40. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据41. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析42. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据43. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多44. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据45. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析46. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据47. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多48. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据49. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析50. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据51. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多52. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据53. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析54. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据55. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多56. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据57. 数据仓库的规划阶段包括哪些活动?A. 需求分析B. 数据建模C. 数据加载D. 数据分析58. 下列哪个是数据仓库中的维度表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据59. 在数据仓库中,事实表和维度表的关系是什么?A. 一对一B. 一对多C. 多对一D. 多对多60. 下列哪个是数据仓库中的事实表的特点?A. 包含大量的度量值B. 包含大量的维度数据C. 包含大量的索引数据D. 包含大量的日志数据答案:1. C3. B4. D5. A6. B7. A8. C9. D10. C11. B12. A13. D14. A15. B16. C17. C18. B19. B20. A21. A22. B23. B24. A25. A26. B27. B28. A29. A30. B31. B32. A33. A34. B35. B36. A37. A38. B39. B40. A41. A42. B43. B44. A45. A46. B47. B48. A49. A50. B51. B53. A54. B55. B56. A57. A58. B59. B60. A。
数据仓库项目数据类测试流程

数据仓库项目数据类测试流程1.定义测试目标和测试范围。
确定测试的目标是为了验证数据类在数据仓库项目中的正确性、完整性、可用性和性能等方面,同时确定需要测试的数据类范围。
2.确定测试环境和测试数据。
根据测试目标和测试范围,建立测试环境,并准备测试数据,包括正常数据、异常数据和边界数据等。
3.设计测试用例。
根据数据类的功能和特性,设计相应的测试用例来验证其正确性、完整性和可用性。
测试用例可以包括针对数据类的查询、插入、更新和删除操作进行测试,并要求覆盖边界条件和异常情况。
4.执行测试用例。
按照设计好的测试用例,执行数据类测试,记录测试结果和测试日志。
在执行测试用例的过程中,要保证测试环境的稳定性和准确性。
5.分析测试结果。
根据测试结果,对数据类进行评估和分析,判断其是否满足测试目标和测试需求。
如果测试结果出现异常,需要进行错误分析和故障排除,并进行相应的修复和重测。
6.优化和改进。
根据测试结果和分析,对数据类进行优化和改进。
可能需要对数据模型进行调整,对查询和操作的逻辑进行优化,以提高数据类的性能和可用性。
7.编写测试报告。
根据测试结果和分析,编写数据类测试报告,包括测试目标、测试方法、测试环境、测试数据、测试用例、测试结果和分析、错误分析和故障排除、优化和改进等内容。
8.重复测试。
在进行数据仓库项目的数据类测试时,可能需要多次重复执行上述步骤,以确保数据类的正确性、完整性和可用性。
在每次重复测试之前,应该根据上次测试的结果和分析,进行调整和改进。
9.验收测试。
在数据仓库项目完成之前,进行最后的验收测试,验证数据类是否满足项目需求和用户期望。
如果存在问题或不满足需求,需要进行相应的修复和改进,直到满足验收标准。
总结来说,数据仓库项目的数据类测试流程包括定义测试目标和测试范围、确定测试环境和测试数据、设计测试用例、执行测试用例、分析测试结果、优化和改进、编写测试报告、重复测试和验收测试。
通过这样的测试流程,可以确保数据类在数据仓库项目中的正确性、完整性、可用性和性能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、选择填空.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。
连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。
在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A 分类B 关联C 估值D 预言数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表置信度(confidence)是衡量兴趣度度量( A )的指标。
A、简洁性B、确定性C.、实用性D、新颖性关于OLAP和OLTP的区别描述,不正确的是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表二、判断题1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
(对)2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。
(对)4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。
(错)5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
(错)6. 离群点可以是合法的数据对象或者值。
(对)7. 离散属性总是具有有限个值。
(错)8. 噪声和伪像是数据错误这一相同表述的两种叫法。
(错)9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。
(对)10. 特征提取技术并不依赖于特定的领域。
(错)11. 序列数据没有时间戳。
(对)12. 定量属性可以是整数值或者是连续值。
(对)13. 可视化技术对于分析的数据类型通常不是专用性的。
(错)14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
(对)15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。
(对)16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。
(对)17. 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)19. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错)21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
(错)22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。
23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。
(错24. 如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。
(对)25. 具有较高的支持度的项集具有较高的置信度。
(错)26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
(错)27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。
(对)28. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。
(对)29. Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
(错)30.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对)31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
(错)32. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错)33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
(错)34. 聚类分析可以看作是一种非监督的分类。
(对)35. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。
(错36. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。
(错)37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。
(对)38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
(对)39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。
(对)三、计算题1.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin =40%,confmin=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C 1,计算其支持度,取出支持度小于supmin的项集,形成1-频繁集L1,如下表所示:(2)组合连接L 1中的各项目,产生2-候选集C 2,计算其支持度,取出支持度小于sup min 的项集,形成2-频繁集L 2,如下表所示:至此,所有频繁集都被找到,算法结束,所以,confidence ({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence ({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
2.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means 聚类,设定聚类数为2个,相似度按照欧式距离计算。
(15分)解:(1)从数据集X 中随机地选择k 个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:(2)对于X 中的任意数据样本xm (1<xm<total ),计算它与k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19。
当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。
最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。
(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k 个均值代表点:m1=2.5,m2=12:(4)对于X 中的任意数据样本xm (1<xm<total ),计算它与k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,18.5。
当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。
最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。
(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3,m2=14.5:(6)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=3时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-1,1,7,9,12,18,。
当m2=14.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。
最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14.5为(10,12,15,21)。
至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。
3.K均值算法的过程为:1:选择K个点作为初始质点。