如何测试数据仓库

如何测试数据仓库
如何测试数据仓库

如何测试数据仓库

在数据仓库环境下进行测试时如何处理需求与质量的关系?虽然数据仓库的测试是一个惊奇而神秘的过程,但实际上它与其它测试项目并无多大区别。基本的系统分析和测试过程在这里仍然有效。我们来看一下其中的几个步骤,并研究如何在数据仓库环境中应用。

分析源文件

与其它项目一样,测试数据仓库部署时,通常都会有一份相关的说明文件。虽然这些文件对于创建基本的测试策略非常有用,但经常会缺少一些关于测试开发与执行的详细资料。有时会有一些其它文件解释技术上的细节问题,即从源到目标的转化(source-to-target mappings)说明文件。这些文件详细说明了数据的来源、如何对数据进行操作,以及存储到哪里。如果能拿到这些文件,关于系统设计的文件在设计测试策略时也会变得更加有用。

开发策略和测试计划

分析了各种各样的源文件后,就要开始创建测试策略。我发现从生命周期和质量的角度来看,增量测试是测试数据仓库的最好办法。这从本质上意味着开发团队会从开发过程的早期开始,将各种小组件交付给测试团队。这个办法的主要优点是避免交付让人吃惊的“大块”组件,可以从早期开始检验缺陷,并使调试变得简单。此外,这个方法还有助于在开发与测试周期中建立详细的过程。具体到数据仓库测试,即是对数据获取分段表,然后是增量表、基本的历史表格、BI 视图等的测试。

另一个制定数据仓库测试策略的主要问题是基于分析(analysis-based)的测试方式和基于查询(analysis-based)的测试方式的选择。纯基于分析的方法是让测试分析师通过分析目标数据和相关标准计算出预期结果。基于查询的方法有相同的基本分析步骤,但更进一步,用SQL查询语言编写预期结果。这为将来建立回归测试过程节省了很大精力。如果测试是一次性的,那么用基于分析的方式就足够了,因为通常这种方式较快一些。反之,如果企业对回归测试有持续的需求,那么基于查询的方式会更为合适。

测试的开发与执行

不管在测试执行过程之前还是之后进行测试的开发,要根据上行需求的稳定性和分析过程决定。如果情况变动比较频繁,那么早期进行的测试开发可能大部分都会被废弃。这种场合,实时进行的整合的测试开发和执行过程通常会更有效果。不管怎样,在设计测试开发和执行过程的框架时,参考一下测试分类总是有用的。比如,一些数据仓库的测试分类可能有:

?记录计数(预期与实际对比)

?副本记录

?参考数据有效性

?参照完整性

?错误与异常逻辑

?增量过程与历史过程

?控制栏值与默认值

除这些分类外,还可以参考缺陷分类学,比如Larry Greenfield的分类。

测试执行时,准确的状态报告过程是经常被忽略的一个方面。在确定团队里的其他人明白你的方法的前提下,测试分类和测试进度可以保证他们对测试状态也有一个清楚的概念。有了详细的规划并坚持到底,以及良好的沟通,就能建立一个数据仓库测试过程,帮助项目团队取得满意的成果。

数据仓库与数据挖掘实验指导书王浩畅资料

数据仓库与数据挖掘
实 验 指 导 书
东北石油大学计算机与信息技术系 王浩畅

实验一 Weka 实验环境初探
一、实验名称: Weka 实验环境初探
二、实验目的: 通过一个已有的数据集,在 weka 环境下,测试常用数据挖掘算法,熟悉 Weka
环境。 三、实验要求
1. 熟悉 weka 的应用环境。 2. 了解数据挖掘常用算法。 3. 在 weka 环境下,测试常用数据挖掘算法。 四、实验平台 新西兰怀卡托大学研制的 Weka 系统 五、实验数据 Weka 安装目录下 data 文件夹中的数据集 weather.nominal.arff,weather.arff
六、实验方法和步骤 1、首先,选择数据集 weather.nominal.arff,操作步骤为点击 Explorer,进入主界 面,点击左上角的“Open file...”按钮,选择数据集 weather.nominal.arff 文件, 该文件中存储着表格中的数据,点击区域 2 中的“Edit”可以看到相应的数据:

选择上端的 Associate 选项页,即数据挖掘中的关联规则挖掘选项,此处要 做的是从上述数据集中寻找关联规则。点击后进入如下界面:
2、现在打开 weather.arff,数据集中的类别换成数字。

选择上端的 Associate 选项页,但是在 Associate 选项卡中 Start 按钮为灰色的, 也就是说这个时候无法使用 Apriori 算法进行规则的挖掘,原因在于 Apriori 算法 不能应用于连续型的数值类型。所以现在需要对数值进行离散化,就是类似于将 20-30℃划分为“热”,0-10℃定义为“冷”,这样经过对数值型属性的离散化, 就可以应用 Apriori 算法了。Weka 提供了良好的数据预处理方法。第一步:选 择要预处理的属性 temperrature

如何测试数据仓库

如何测试数据仓库 在数据仓库环境下进行测试时如何处理需求与质量的关系?虽然数据仓库的测试是一个惊奇而神秘的过程,但实际上它与其它测试项目并无多大区别。基本的系统分析和测试过程在这里仍然有效。我们来看一下其中的几个步骤,并研究如何在数据仓库环境中应用。 分析源文件 与其它项目一样,测试数据仓库部署时,通常都会有一份相关的说明文件。虽然这些文件对于创建基本的测试策略非常有用,但经常会缺少一些关于测试开发与执行的详细资料。有时会有一些其它文件解释技术上的细节问题,即从源到目标的转化(source-to-target mappings)说明文件。这些文件详细说明了数据的来源、如何对数据进行操作,以及存储到哪里。如果能拿到这些文件,关于系统设计的文件在设计测试策略时也会变得更加有用。 开发策略和测试计划 分析了各种各样的源文件后,就要开始创建测试策略。我发现从生命周期和质量的角度来看,增量测试是测试数据仓库的最好办法。这从本质上意味着开发团队会从开发过程的早期开始,将各种小组件交付给测试团队。这个办法的主要优点是避免交付让人吃惊的“大块”组件,可以从早期开始检验缺陷,并使调试变得简单。此外,这个方法还有助于在开发与测试周期中建立详细的过程。具体到数据仓库测试,即是对数据获取分段表,然后是增量表、基本的历史表格、BI视图等的测试。 另一个制定数据仓库测试策略的主要问题是基于分析(analysis-based)的测试方式和基于查询(analysis-based)的测试方式的选择。纯基于分析的方法是让测试分析师通过分析目标数据和相关标准计算出预期结果。基于查询的方法有相同的基本分析步骤,但更进一步,用SQL 查询语言编写预期结果。这为将来建立回归测试过程节省了很大精力。如果测试是一次性的,那么用基于分析的方式就足够了,因为通常这种方式较快一些。反之,如果企业对回归测试有持续的需求,那么基于查询的方式会更为合适。

数据仓库测验集

一、选择填空. 数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、 粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。 维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中,直接数据挖掘包括(ACD) A 分类 B 关联 C 估值 D 预言 数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 数据分类的评价准则包括( ABCD ) A 精确度 B 查全率和查准率 C F-Measure D 几何均值 层次聚类方法包括( BC ) A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 贝叶斯网络由两部分组成,分别是( A D ) A 网络结构 B 先验概率 C 后验概率 D 条件概率表 置信度(confidence)是衡量兴趣度度量( A )的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B ) A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD) A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括( ABCD ) A 精确度 B 查全率和查准率 C F-Measure D 几何均值

数据仓库面试题

数据仓库及BI工程师面试题集锦 前言 1、介绍一下项目经验、项目中的角色。 一、数据库 1、Oracle数据库,视图与表的区别?普通视图与物化视图的区别?物化视图的作 用? i.视图与表的区别 1. 1、视图是已经编译好的sql语句。而表不是 2. 视图没有实际的物理记录。而表有。 3. 表是内容,视图是窗口 4. 表只用物理空间而视图不占用物理空间,视图只是逻辑概念的存在, 表可以及时四对它进行修改,但视图只能有创建的语句来修改ii. 物化视图与视图区别 1.物化视图和视图差别非常大,不是几句能说清物化视图是自动刷新或者 手动刷新的,视图不用刷新物化视图也可以直接update,但是不影响b ase table,对视图的update反映到base table上物化视图主要用于 远程数据访问,物化视图中的数据需要占用磁盘空间,视图中不保存数据。 2、Oracle数据库,有哪几类索引,分别有什么特点? a) 1.单列索引与复合索引 一个索引可以由一个或多个列组成,用来创建索引的列被称为“索引列”。 单列索引是基于单列所创建的索引,复合索引是基于两列或者多列所创建的索引。 2.唯一索引与非唯一索引 唯一索引是索引列值不能重复的索引,非唯一索引是索引列可以重复的索引。

无论是唯一索引还是非唯一索引,索引列都允许取NULL值。默认情况下,Oracle 创建的索引是不唯一索引。 3.B树索引 B树索引是按B树算法组织并存放索引数据的,所以B树索引主要依赖其组织并存放索引数据的算法来实现快速检索功能。 4.位图索引 位图索引在多列查询时,可以对两个列上的位图进行AND和OR操作,达到更好的查询效果。 5.函数索引 Oracle中不仅能够直接对表中的列创建索引,还可以对包含列的函数或表达式创建索引,这种索引称为“位图索引”。 3、Union与Union All的区别? a)Union会对查询结果进行排序去重,效率比union all 低,union all只是两个查 询集的合并操作。建议使用Union all,查询出来后再对数据进行去重操作。 4、对游标的理解?游标的分类?使用方法? 游标是映射在结果集中一行数据的位置实体,有了游标,用户就可以访问结果集中的任何一条数据。游标分为静态游标和REF游标,静态游标分为显示游标和隐式游标,显示游标使用步骤是声明游标,打开游标,获取记录,关闭游标。所有的DML语句为隐式游标,可以从游标的属性获得sql语句的信息。REF游标是动态关联结果集的临时对象,使用步骤也是先要进行声明游标,然后打开游标,获取记录,关闭游标。 5、如何查找和删除表中的重复数据?给出方法或SQL。 查询表中重复数据。 Select * from people where id in (Select id from people group by id having count(id)>1); Delete from people where id in(select id from people group by id having count(id)>1) and rowid not in (select min(rowid) from people group by id hacing count(id)>1);

数据仓库项目数据类测试流程

1编写目的................................................ 错误!未定义书签。2角色与职责.............................................. 错误!未定义书签。3过程活动描述............................................ 错误!未定义书签。 单元测试......................................... 错误!未定义书签。 单元测试活动流程图........................... 错误!未定义书签。 单元测试准备................................. 错误!未定义书签。 单元测试计划准备..................... 错误!未定义书签。 目的............................. 错误!未定义书签。 角色和职责....................... 错误!未定义书签。 进入条件......................... 错误!未定义书签。 输入............................. 错误!未定义书签。 任务描述......................... 错误!未定义书签。 输出............................. 错误!未定义书签。 退出条件......................... 错误!未定义书签。 单元测试数据和环境准备............... 错误!未定义书签。 目的............................. 错误!未定义书签。 角色和职责....................... 错误!未定义书签。 进入条件......................... 错误!未定义书签。 输入............................. 错误!未定义书签。 任务描述......................... 错误!未定义书签。 输出............................. 错误!未定义书签。 退出条件......................... 错误!未定义书签。 单元测试..................................... 错误!未定义书签。 目的................................. 错误!未定义书签。 角色和职责........................... 错误!未定义书签。 进入条件............................. 错误!未定义书签。 输入................................. 错误!未定义书签。 任务描述............................. 错误!未定义书签。 测试目标及测试方法................... 错误!未定义书签。 模型脚本单元测试目标及测试方法... 错误!未定义书签。 应用脚本单元测试目标及测试方法... 错误!未定义书签。 输出................................. 错误!未定义书签。 退出条件............................. 错误!未定义书签。 集成测试......................................... 错误!未定义书签。 集成测试活动流程图........................... 错误!未定义书签。 集成测试准备................................. 错误!未定义书签。 集成测试计划和方案准备............... 错误!未定义书签。 目的............................. 错误!未定义书签。 角色和职责....................... 错误!未定义书签。 进入条件......................... 错误!未定义书签。 输入............................. 错误!未定义书签。 任务描述......................... 错误!未定义书签。 输出............................. 错误!未定义书签。 退出条件......................... 错误!未定义书签。

《数据仓库与数据挖掘》复习题

2014-2015-1《数据仓库与数据挖掘》 期末考试题型 一、单项选择题(每小题2分,共20分) 二、填空题(每空1分,共20分) 三、简答题(每题6分,共30分) 四、析题与计算题(共30分) 请同学们在考试时不要将复习资料带入考场!!! 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD?(A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)

大数据仓库项目大数据类测试流程

1编写目的 (3) 2角色与职责 (3) 3过程活动描述 (4) 3.1 单元测试 (4) 3.1.1 单元测试活动流程图 (4) 3.1.2 单元测试准备 (6) 3.1.2.1 单元测试计划准备 (6) 3.1.2.1.1 目的 (6) 3.1.2.1.2 角色和职责 (6) 3.1.2.1.3 进入条件 (6) 3.1.2.1.4 输入 (6) 3.1.2.1.5 任务描述 (6) 3.1.2.1.6 输出 (6) 3.1.2.1.7 退出条件 (7) 3.1.2.2 单元测试数据和环境准备 (7) 3.1.2.2.1 目的 (7) 3.1.2.2.2 角色和职责 (7) 3.1.2.2.3 进入条件 (7) 3.1.2.2.4 输入 (7) 3.1.2.2.5 任务描述 (7) 3.1.2.2.6 输出 (8) 3.1.2.2.7 退出条件 (8) 3.1.3 单元测试 (8) 3.1.3.1 目的 (8) 3.1.3.2 角色和职责 (8) 3.1.3.3 进入条件 (8) 3.1.3.4 输入 (8) 3.1.3.5 任务描述 (9) 3.1.3.6 测试目标及测试方法 (9) 3.1.3.6.1 模型脚本单元测试目标及测试方法 (9) 3.1.3.6.2 应用脚本单元测试目标及测试方法 (11) 3.1.3.7 输出 (11) 3.1.3.8 退出条件 (12) 3.2 集成测试 (13) 3.2.1 集成测试活动流程图 (13) 3.2.2 集成测试准备 (14) 3.2.2.1 集成测试计划和方案准备 (14) 3.2.2.1.1 目的 (14) 3.2.2.1.2 角色和职责 (14) 3.2.2.1.3 进入条件 (14) 3.2.2.1.4 输入 (14) 3.2.2.1.5 任务描述 (14) 3.2.2.1.6 输出 (15) 3.2.2.1.7 退出条件 (15)

数据仓库与数据挖掘复习题完整版

数据仓库与数据挖掘复 习题 Document serial number【NL89WT-NY98YT-NC8CB-NNUUT-NUT108】

2014-2015-1《数据仓库与数据挖掘》 期末考试题型 一、单项选择题(每小题2分,共20分) 二、填空题(每空1分,共20分) 三、简答题(每题6分,共30分) 四、析题与计算题(共30分) 请同学们在考试时不要将复习资料带入考场!!! 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务( A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则

数据仓库与数据挖掘考试习题汇总

第一章 1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理和联机分析处理。 4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。 5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。 6数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。 7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。 8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。 9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。 10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、 以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。第二章 1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。 3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。 4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。 5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。 6维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。 7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。 第三章 1、SQL Server SSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。 2、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。 3、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。

数据仓库模型建设规范1.0

数据仓库模型建设规范 1.概述 数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求、分析、设计、测试等通常的软件生命周期之外,它还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的模型设计异常重要,这也是关系到数据仓库项目成败的关键。 物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基—层层建筑—封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免地要考虑数据库的物理设计。 数据仓库建模的设计目标是模型的稳定性、自适应性和可扩展性。为了做到这一点,必须坚持建模的相对独立性、业界先进性原则。 2.数聚模型架构 在数聚项目实施过程,我们一般将数据仓库系统的数据划分为如下图所示几个层次。

2.1.数据架构图

2.2.架构工作方法规范

2.3.准备层L0 2.3.1.主要数据结构 临时表:从数据源抽取,直接落地到临时表。临时表总是保存这次抽取的数据,不保留历史数据。也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果 是增量抽取的话,就是自从上次修改后的数据。 接口表:从临时表,经过清洗、转换到达接口表。接口表保存历史数据,也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果是增量抽取的话。 接口表里面也是源系统整个表的数据。 转换表:为了进行清洗和转换建立的中间辅助表。 2.3.2.命名规范 临时表:L0_TMP_源系统_具体业务或 L0_TMP_业务主题_具体业务(对单一源)举例:L0_TMP_POS_SALESORDER 接口表:L0_DCI_业务主题_具体业务表 举例:L0_DCI_SALES_SALESORDER 转换表:L0_MAP_具体业务表 举例:L0_MAP_SALES 2.3.3.开发工作 ●开发数据抽取接口,落地TMP区 ●开发数据清洗转换程序,落地DCI区,多源系统进行合并 ●开发数据装载程序,装载到L1层 2.4.原子层L1 2.4.1.主要数据结构 维度表:整个数据仓库一致的维度 代码表:维度属性,非维度代码等。 原子事实表:根据业务主题,形成原子事实表 汇总事实表:根据分析主题,业务主题形成合并或汇总的事实表。

数据仓库建设项目-运作部TA组报表测试验收报告v1.0

数据仓库建设项目-运作部TA组报表 测试报告 测试日期:2013年12月1日至2013年12月19日 测试系统:运作部TA组报表 测试人员:王磊 一、测试情况概述 1.测试概要 运作部TA组报表项目工作已经接近尾声,随着开发工作的进行,业务层测试工作也同时开展。 为了保证项目上线后的准确性,测试涵盖了全部开发过程中涉及到的内容。本期的测试主要针对QDII清算报表,工行机构申赎报表、销售日报-工行分省、销售日报-工行分省、销售日报-工行分网点、销售日报、募集分省-工行、募集分网点-工行、募集情况表、销售募集日报。 2.测试内容概要 测试内容为: QDII清算报表; 工行机构申赎报表; 销售日报-工行分省; 销售日报-工行分网点; 销售日报; 募集分省-工行; 募集分网点-工行;

募集情况表; 销售募集日报。 二、测试环境及工具 系统环境:windows server 2003 网络环境:应用服务器IP:192.168.0.237:9080 数据服务器IP:172.21.100.58 系统前台使用各个版本的IE浏览器进行测试(IE7\IE8) 三、测试功能模块及数据 1.QDII清算报表 该报表是基金资金清算报表,具体查询页面,如下图所示 附图1:QDII清算报表 附图2:QDII清算报表 经过测试,该功能无误。 2.工行机构申赎报表 该报表是工行机构申赎报表。如下图所示:

附图3:工行机构申赎报表 附图4:工行机构申赎报表经过测试,操作方便,符合需求,该功能无误。 3.销售日报-工行分省 该报表是销售日报-工行按省查询。如下图所示: 附图5:销售日报-工行分省

成功实施数据仓库项目的7个步骤

成功实施数据仓库项目的7个步骤 建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。 我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。

如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。 使用一种生命周期管理方法 我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生命周期管理方法(Discover, Design, Develop, Deploy, Day to Day , Defend, Decommission), 昵称“7D法”。 我的“7D”数据库生命周期管理方法讲的是数据库的生命周期管理,而不是相关的软件(应用程序)和硬件的生命周期。图1包括了软硬件轨道,但我不会进一步阐述它们的管理。为了成功实施数据库生命周期的方法,有必要调整和同步数据库生命周期的里程碑、硬件和应用软件。

2011年数据挖掘与数据仓库考试题a

2011年数据挖掘与数据仓库考试题 1.(10分)讨论::下列每项活动是否是数据挖掘任务?简单陈述你的理由。 (a)根据性别划分公司的顾客。 不是。数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技 术服务用来探查大型数据库,发现先前未知的有用模式。还可以预测未来观测结果,例如,预测一位新的顾客是否会在一家百货公司消费100美元以上。但并非所有的 信息发现任务都被视为数据挖掘,数据挖掘与信息检索不同,使用数据库管理系统 查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索 领域的任务,它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结 构,从而有效地组织和检索信息。数据挖掘的任务可分为两大类:预测任务和描述 任务。主要任务有四种:聚类分析,关联分析,异常检测,和预测建模。其目的是 根据其它属性的值,预测特定属性的值,或导出概括数据中潜在联系的模式,主要 是预测某些信息。而根据性别划分公司的顾客,只是一种简单的数据库查询操作, 并没有涉及预测分析。 (b)根据可赢利性划分公司的顾客。 不是。根据可赢利性划分公司的顾客是使用阈值进行的一种统计计算。它仅仅是根 据消费结果统计将原有顾客进行划分,只是一种统计的结果,而没有根据这些结果 的特点预测一个新的顾客的赢利性,这种预测才是数据挖掘。 (c)预测投一对骰子的结果。 不是。因为骰子的六个数值出现的可能性是相同的,这是一种概率计算,如果结果 出现的可能性是不确定的,不相同的,则更像是数据挖掘的任务,但在很早以前利 用数学已经能够很好的解决这个问题了。所以预测投一对骰子的结果不属于数据挖 掘的任务,不带有发现新信息的预测特点。 (d)使用历史记录预测某公司未来的股票价格。 这是数据挖掘的任务。可以通过对历史记录特点的分析来创建一种模型预测未来的 公司的股票价格,这是数据挖掘任务中预测建模的一个例子,预测建模涉及以说明 变量函数的方式为目标变量建立模型,有两类预测建模任务:分类,用于预测离散 的目标变量;回归,用于预测连续的目标变量dmj预测某公司未来的股票价格则 是回归任务,因为价格具有连续值属性。 2.(10分)列举3种数据挖掘功能,对每种举2个实际应用的例子。 (1)支持商务智能应用。借助POS(销售点)数据收集技术,零售商可以在其商店的收银台收集顾客购物的最新数据。零售商可以利用这些信息,加上电子商务网站的日志、电购中心的顾客服务记录等其他的重要商务数据,更好地理解顾客的需求,做出明智的商务决策。数据挖掘技术可以用来支持广泛的商务智能应用,如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。商店可以根据顾客的购物习惯来安排端口的摆放位置,这是日常生活中数据挖掘最常见的一种应用。数据挖掘还能帮助零售商回答一些重要的商务问题,如“谁是最有价值的顾客?”“什么产品可以交叉销售或提升销售?”“公司明年的收入前景如何?”这些是数据挖掘任务中的关联分析。通过商品销售情况,来分析购买商品的顾客特点,根据这些特点重要发掘最可能的消费者,这是关联分析在日常生活中的一种应用。

数据仓库与数据挖掘实验

数据仓库与数据挖掘实验 《数据挖掘》实验指导书 全文结束》》年3月1日 长沙学院信息与计算科学系 前言 随着数据库技术的发展,特别是数据仓库以及Web 等新型数据源的日益普及,形成了数据丰富,知识缺乏的严重局面。针对如何有效地利用这些海量的数据信息的挑战,数据挖掘技术应运而生,并显示出强大的生命力。数据挖掘技术使数据处理技术进入了一个更高级的阶段,是对未来人类产生重大影响的大新兴技术之一。因此加强数据挖掘领域的理论与实践学习也已成为专业学生的必修内容。 本实验指导书通过大量的实例,循序渐进地引导学生做好各章的实验。根据实验教学大纲,我们编排了五个实验,每个实验又分了五部分内容:实验目的、实验内容、实验步骤、实验报告要求、注意事项。在实验之前,由教师对实验作一定的讲解后,让学生明确实验目的,并对实验作好预习工作。在实验中,学生根据实验指导中的内容进行验证与总结,然后再去完成实验步骤中安排的任务。实验完成后,学生按要求完成实验报告。整个教学和实验中,我们强调学生切实培养动手实践能力,掌握数据挖掘的基本方法。

实验一 K-Means聚类算法实现 一、实验目的 通过分析K-Means 聚类算法的聚类原理,利用Vc 编程工具编程实现K-Means 聚类算法,并通过对样本数据的聚类过程,加深对该聚类算法的理解与应用过程。 实验类型:验证计划课间:4学时 二、实验内容 1、分析K-Means 聚类算法; 2、分析距离计算方法; 3、分析聚类的评价准则; 4、编程完成K-Means 聚类算法,并基于相关实验数据实现聚类过程; 三、实验方法 1、K-means 聚类算法原理 K-means聚类算法以k 为参数,把n 个对象分为k 个簇,以使簇内的具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。 算法描述: 输入:簇的数目k 和包含n 个对象的数据库 输出:使平方误差准则最小的k 个簇过程: 任选k 个对象作为初始的簇中心; Repeat for j=1 to n DO

如何测试数据仓库

如何测试数据仓库 在数据仓库环境下进行测试时如何处理需求与质量的关系?虽然数据仓库的测试是一个惊奇而神秘的过程,但实际上它与其它测试项目并无多大区别。基本的系统分析和测试过程在这里仍然有效。我们来看一下其中的几个步骤,并研究如何在数据仓库环境中应用。 分析源文件 与其它项目一样,测试数据仓库部署时,通常都会有一份相关的说明文件。虽然这些文件对于创建基本的测试策略非常有用,但经常会缺少一些关于测试开发与执行的详细资料。有时会有一些其它文件解释技术上的细节问题,即从源到目标的转化(source-to-target mappings)说明文件。这些文件详细说明了数据的来源、如何对数据进行操作,以及存储到哪里。如果能拿到这些文件,关于系统设计的文件在设计测试策略时也会变得更加有用。 开发策略和测试计划 分析了各种各样的源文件后,就要开始创建测试策略。我发现从生命周期和质量的角度来看,增量测试是测试数据仓库的最好办法。这从本质上意味着开发团队会从开发过程的早期开始,将各种小组件交付给测试团队。这个办法的主要优点是避免交付让人吃惊的“大块”组件,可以从早期开始检验缺陷,并使调试变得简单。此外,这个方法还有助于在开发与测试周期中建立详细的过程。具体到数据仓库测试,即是对数据获取分段表,然后是增量表、基本的历史表格、BI 视图等的测试。 另一个制定数据仓库测试策略的主要问题是基于分析(analysis-based)的测试方式和基于查询(analysis-based)的测试方式的选择。纯基于分析的方法是让测试分析师通过分析目标数据和相关标准计算出预期结果。基于查询的方法有相同的基本分析步骤,但更进一步,用SQL查询语言编写预期结果。这为将来建立回归测试过程节省了很大精力。如果测试是一次性的,那么用基于分析的方式就足够了,因为通常这种方式较快一些。反之,如果企业对回归测试有持续的需求,那么基于查询的方式会更为合适。 测试的开发与执行

数据仓库-系统设计说明书

归一大数据平台 数据仓库 系统设计说明书受控不受控

修改变更记录:

目录 1 引言......................................................错误!未定义书签。 文档编制目的......................................错误!未定义书签。 背景..............................................错误!未定义书签。 词汇表............................................错误!未定义书签。 参考资料..........................................错误!未定义书签。 2 总体设计..................................................错误!未定义书签。 软件体系结构......................................错误!未定义书签。 系统运行体系......................................错误!未定义书签。 运行体系图....................................错误!未定义书签。 程序/模块对应表...............................错误!未定义书签。 系统物理结构......................................错误!未定义书签。 技术路线..........................................错误!未定义书签。 3 系统接口设计..............................................错误!未定义书签。 用户接口..........................................错误!未定义书签。 4 子系统/模块设计...........................................错误!未定义书签。 数据仓库..........................................错误!未定义书签。 ODL(操作数据)层设计...........................错误!未定义书签。 BDL(数据仓库)层设计...........................错误!未定义书签。 IDL(宽表)层设计...............................错误!未定义书签。 PDL(应用)层设计...............................错误!未定义书签。 PUB(维度)层设计...............................错误!未定义书签。 数据导出设计..................................错误!未定义书签。 5 数据结构与数据库设计......................................错误!未定义书签。 6 外部存储结构设计..........................................错误!未定义书签。 7 故障处理说明..............................................错误!未定义书签。 8 尚需解决的问题............................................错误!未定义书签。

数据仓库

一、选择题 1、数据仓库是随时间变化的,下面的描述不正确的是: A、数据仓库随时间变化不断增加新的数据内容。 B、捕捉到的新数据会覆盖原来的快照。 C、数据仓库随时间变化不断删去旧的数据内容。 D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合。答案: B 2、关于基本数据的元数据是指: A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。 B、基本元数据包括与企业相关的管理方面的数据和信息。 C、基本元数据包括日志文件和建立执行处理的时序调度信息。 D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息。 答案: A 3、下面有关数据粒度的描述不正确的是: A、粒度是指数据仓库小数据单元的详细程度和级别。 B、数据越详细,粒度就越小,级别也就越高。 C、数据综合度越高,粒度就越大,级别也就越高。 D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。 答案: B 4、有关数据仓库的开发特点,不正确的描述是: A、数据仓库开发要从数据出发。 B、数据仓库使用的需求在开发出去就要明确。 C、数据仓库的开发是一个不断循环的过程,是启发式的开发。 D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据的分析和处理更灵活,且没有固定的模式。 答案: B 5、RAID技术具有容错能力,能够满足对存储能力、性能和可靠性不断提高的要求。其实,实现原理是将数据写入多张磁盘中,如果—张磁盘发生故障,就从其他存放冗余数据的磁盘上访问数据。有关RAID不同级别的描述不正确的是: A、在RAID 0这一级别上,数据记录通过在多组驱动器的扇区上交错地分布着实现,没有奇偶校验,不提供任何冗余。 B、RAID 1称为镜像。在这一级别上,数据被冗余地写入成对的驱动器中,可以独立地从每个驱动器提取该数据。这种方法没有什么缺点,是备份时候经常用到的技术。 C、RAID 3数据记录在成组驱动器上,位交错,只有一个驱动器仍有奇偶校验信息。 D、RAID 5如果采用这一水平的技术,则数据记录在成组的驱动器上扇区交错地存放着,所有驱动器都有奇偶校验信息。 答案: B 6、有关数据仓库测试,下列说法不正确的是: A、在完成数据仓库的实施阶段中,需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统集成测试。 B、当数据仓库的每个单独组件完成后,就需要对它们进行单元测试。 C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。 D、在测试之前没必要制定详细的测试计划。 答案: D

相关主题
相关文档
最新文档