数据仓库-系统设计说明书

合集下载

数据仓库模型的设计

数据仓库模型的设计

数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151:.概念模型设计;.逻辑模型设计;.物理模型设计;下面就从这三个层面分别介绍数据仓库模型的设计。

2.5.1概念模型设计进行概念模型设计所要完成的工作是:<1>界定系统边界<2>确定主要的主题域及其内容概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。

因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。

一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。

概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。

1.界定系统的边界数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:. 要做的决策类型有哪些?. 决策者感兴趣的是什么问题?. 这些问题需要什么样的信息?. 要得到这些信息需要包含原有数据库系统的哪些部分的数据?这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。

因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。

2,确定主要的主题域在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行较明确数据仓库建模技术在电信行业中的应用的描述,描述的内容包括:. 主题域的公共码键;. 主题域之间的联系:. 充分代表主题的属性组。

数据仓库-系统设计说明书

数据仓库-系统设计说明书

数据仓库-系统设计说明书数据仓库-系统设计说明书1、引言1.1 目的本文档旨在详细描述数据仓库系统的设计方案,包括系统的架构、数据模型、数据抽取、转换和加载(ETL)流程、安全性、可用性等方面的内容。

1.2 范围本文档适用于数据仓库系统的设计过程,涵盖了系统的各个方面,以确保系统的正常运行和可扩展性。

2、系统架构2.1 总体架构本节描述数据仓库系统的总体架构,包括各个组件之间的关系和数据流。

2.2 数据仓库层次结构本节详细描述数据仓库系统的层次结构,包括数据仓库、数据集市、数据源等各个层次的定义和关系。

3、数据模型3.1 维度模型本节描述数据仓库系统所采用的维度模型,包括事实表和维度表的定义和关系。

3.2 元数据管理本节描述数据仓库系统中元数据的定义、管理和使用方式,包括元数据的存储、检索和更新机制。

4、数据抽取、转换和加载(ETL)流程4.1 数据抽取本节描述数据仓库系统中数据抽取的方式和流程,包括抽取数据的来源、频率和目标。

4.2 数据转换本节描述数据仓库系统中数据转换的方式和流程,包括数据清洗、数据集成、数据转换和数据加载的过程。

4.3 数据加载本节描述数据仓库系统中数据加载的方式和流程,包括数据加载的频率、目标和验证机制。

5、安全性5.1 用户权限管理本节描述数据仓库系统中用户权限的管理方式和机制,包括用户的注册、认证和授权过程。

5.2 数据访问控制本节描述数据仓库系统中数据访问控制的方式和机制,包括数据的保护、加密和审计功能。

6、可用性6.1 高可用性架构本节描述数据仓库系统中实现高可用性的架构设计,包括负载均衡、冗余备份和自动故障恢复机制。

6.2 容灾备份方案本节描述数据仓库系统中实现容灾备份的方案,包括数据的备份、复制和恢复策略。

7、本文档涉及附件本文档涉及的附件包括数据仓库系统的系统架构图、数据模型图、ETL流程图等相关文档。

8、本文所涉及的法律名词及注释本文所涉及的法律名词及注释包括但不限于《数据保护法》、《网络安全法》等相关法律和条款。

数据仓库概要设计

数据仓库概要设计

数据仓库概要设计数据仓库(Data Warehouse)是指把企业分散在不同数据库中的数据统一整合到一个数据库中进行存储和管理,并对这些数据进行分析和管理的一种数据库应用系统。

数据仓库的建设是企业信息化建设的重要组成部分,是企业对内部外部信息资源进行整合、挖掘和利用最有效的平台之一。

因此,进行数据仓库的概要设计是非常重要的一步。

1.数据仓库概述数据仓库,是一个能够存储大量历史数据的集合体,使得企业能够快速地进行数据分析、查询和决策。

数据仓库通常包括存储、管理和查询技术。

数据仓库的设计是基于自底向上的过程,通过收集各种应用中的数据来建立。

数据仓库的需求分析是设计的第一个步骤,通过需求分析可以把握到数据的来源、数据的主要特征、数据的处理方法、数据的处理效果等。

2.数据仓库的工作过程a.数据的收集数据收集的目的是获取各个分散在企业内部外部的数据源,并把这些数据源整合成数据集。

数据收集包括了跟踪源数据、数据的标准化、数据的清洗、数据的转换等。

b.数据的整合数据整合意味着将不同的数据源集成到一起,通常是通过ETL工具来实现。

ETL(Extract, Transform, Load)工具的主要功能是提取、转换和加载。

c.数据的存储数据仓库的存储方式一般有两种:关系型数据库和非关系型数据库。

d.数据的查询与分析数据仓库的用户可以通过BI工具(Business Intelligence)来进行数据的查询、分析和报表生成。

3.数据仓库的概要设计步骤a.数据仓库设计的第一步是需求分析,需求分析的目的是明确数据仓库的目标、范围和需求。

需求分析应该包括数据仓库的使用者、数据仓库所需数据的类型、数据的来源、数据的质量要求等。

b.数据仓库的概念设计是在需求分析的基础上,开始进行数据仓库的抽象模型的设计。

概念设计包括了数据仓库的模型设计、元数据的设计等。

c.数据仓库的逻辑设计是在概念设计的基础上,开始进行数据仓库的逻辑结构的设计。

数据仓库的设计和构建

数据仓库的设计和构建

数据仓库的设计和构建数据仓库(Data Warehouse)是指将组织机构内部各种分散的、异构的数据整合起来,形成一个共享的、一致的、易于查询和分析的数据环境。

数据仓库的设计和构建是数据管理和分析的重要环节。

本文将结合实践经验,介绍数据仓库的设计与构建过程。

一、需求分析数据仓库的设计与构建首先需要进行需求分析。

在需求分析阶段,我们需要明确以下几个问题:1. 数据来源:确定数据仓库所需要的数据来源,包括内部系统和外部数据源。

2. 数据维度:确定数据仓库中需要关注的维度,如时间、地理位置、产品等。

3. 数据粒度:确定数据仓库中的数据粒度,即需要对数据进行何种程度的聚合。

4. 数据可用性:确定数据仓库中数据的更新频率和可用性要求。

5. 分析需求:明确数据仓库所需满足的分析需求,如报表查询、数据挖掘等。

二、数据模型设计在数据仓库设计过程中,数据模型的设计尤为重要。

常用的数据模型包括维度建模和星型模型。

维度建模是基于事实表和维度表构建的,通过定义事实和维度之间的关系,建立多维数据结构。

星型模型则将事实表和各个维度表之间的关系表示为星型结构,有助于提高查询效率。

根据具体需求和数据特点,选择合适的数据模型进行设计。

三、数据抽取与转换数据仓库的构建过程中,需要从各个数据源中抽取数据,并进行清洗和转换。

数据抽取常用的方法包括全量抽取和增量抽取。

全量抽取是指将数据源中的全部数据抽取到数据仓库中,适用于数据量较小或变动频率较低的情况。

增量抽取则是在全量抽取的基础上,只抽取发生变动的数据,提高了数据抽取的效率。

数据在抽取到数据仓库之前还需要进行清洗和转换。

清洗的目标是去除数据中的错误、冗余和不一致之处,保证数据的准确性和完整性。

转换的目标是将数据格式进行统一,并进行必要的计算和整合,以满足数据仓库的需求。

四、数据加载与存储数据加载是指将抽取、清洗和转换后的数据加载到数据仓库中的过程。

数据加载的方式可以分为批量加载和实时加载。

ETL架构设计说明书V04

ETL架构设计说明书V04

密级:ETL架构设计说明书XXXXXXXX公司目录1前言 (1)背景 (1)目的 (1)内容提要 (1)读者 (1)2ETL设计的目标和原则 (1)系统目标 (1)数据目标 (1)功能目标 (2)设计原则 (2)3ETL开发流程设计 (3)数据分析 (3)分析方法 (3)分析内容 (3)开发流程 (4)测试流程 (5)上线流程 (6)4DATASTAGE元数据管理 (6)元数据定义 (6)DATASTAGE元数据管理 (7)数据库元数据导入 (8)文件元数据导入 (8)5ETL架构 (9)ETL总体结构 (9)ETL关键任务设计 (11)数据加载 (11)Pre-Load (11)Load (11)Post-Load (12)数据清洗/变换 (12)数据转换 (13)ETL调度控制设计 (13)实现目标 (14)触发动作 (14)检查运行环境 (14)日志记录 (15)系统参数 (15)部署设计 (16)数据源到统一模型层之间 (16)统一模型层到数据集市之间 (16)ETL的备份与恢复 (17)ETL质量控制与错误处理 (17)ETL质量控制的主要手段 (17)拒绝数据库及拒绝处理策略 (18)已入库源数据发生错误的应对策略 (19)ETL主要流程设计 (19)数据抽取过程 (21)数据清洗过程 (21)数据转换过程 (22)数据装载过程 (22)ETL测试设计 (23)ETL功能测试 (23)模块功能 (23)调度功能 (23)数据准确性测试 (24)准确性测试的原则 (24)准确性测试的方法 (24)性能测试 (24)测试方法 (24)调优原则 (24)1前言1.1背景本文主要是为了明确系统中ETL的主要使用环境及使用方法而建,主要定义了在不同的环境中使用ETL的时候应该注意的配置及操作。

1.2目的本文档是为明确XXXX数据仓库的ETL架构设计而编制的,为项目的ETL系统开发后续工作提供指南。

数据仓库的设计与开发

数据仓库的设计与开发

02
在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。
01
重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;
02
存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。
03
10
主键
Product-Name
char
25
产品名称
Product-SKu
char
20库存单位ຫໍສະໝຸດ 销售员维表包括不同地区的所有销售员信息
Salpers-Key
integer
15
主键
Salpers-Name
char
30
销售员姓名
Territory
char
20
销售员所在区域
Region
char
20
所在地区
订单事实表
销售数据和维
销售数据
商品
促销
时间
部门
城市
地区
商店
图4.2 销售业务的多维数据
(4)确定数据汇总水平
(5)设计事实表和维表
按使用的DBMS和分析用户工具,证实设计方案的有效性 根据系统使用的DBMS,确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求,因此设计方案是否有效还要放在DBMS中进行检验
包括公司收到的所有订单
Order-Key
integer
10
订单键
Order-Name
char
20
订单名称
Product-ref
integer
10
参考产品主键

管理计算机题二

管理计算机题二

管理计算机试题卷一一、单项选择题;1、“信息符合时效性的要求,内容不过时”是指信息的 ;2、BPR是指 ;3、基层业务人员和管理人员使用的信息是 ;4、下列说法错误的是 ;A.信息是数据的载体 B.数据是物理的 C.信息的释义的 D.信息比较稳定5、下列不属于管理信息的特点的是 ;A.数据来源的广泛性B.信息资源的共享性C.信息形式的多样性D.信息价值的确定性6、信息的生命周期不包括 ;A.捕获 B.存储 C.使用 D.消亡7、中层管理者所使用的信息是 ;8、产品的结构属于 ;9、企业中支持管理层运作的信息系统被称为 ;10、超市的收付款系统属于 ;11、临时项目报表属于 ;12、负责管理企业资金的动作的是 ;13、系统的特征不包括 ;A 不相关性 B.目的性 C.环境.适应性 D.整体性14、下列不属于硬件资源的是 ;A.计算机系统平台B.规则C.通信及网络平台D.数据库平台15、计算机系统的发展呈现出的特点不包括 ;A.高性能化 B.网络化 C.大众化 D.易用化16、下列说法正确的是 ;17、第二代计算机的主要电子器件是 ;18、今后计算机技术的发展方向不包括 ;今后计算机技术将朝着高性能化、微性化、大众化、智能化与人性化、功能综合化的方向发展;19、一个完整的计算机系统应当包括 ;20、OSI模型的第2层是 ;21、计算机硬件体系结构是由五部分构成的,一般用最早提出这个结构的科学命名,叫做 ;22、下列IP地址合法的是23、计算机的操作系统是 ;系统软件是计算机管理自身资源,直接控制和协调外部设备的软件,最典型的系统软件就是操作系统;24、在我国,物联网于年作为国家五大新兴战略性产业之一正式写入政府工作报告;25、数据处理不包括 ;A.采集 B.整理 C.存储 D.检索26、数据库管理系统的核心工作是 ;27、IPV6中IP地址的长度为位;28、城域网的工作范围一般是 ;29、主要的云计算服务模式不包括 ;A. IaaS B. TaaS D. DaaS30、数据仓库的特点不包括;A. 面向事务 B.集成 C.相对稳定 D.反映历史事务二、名词解释1、电子商务2、系统:系3、商业智能4、主管信息系统:5、虚拟团队:6、信息处理基础平台:7、软件:8、局域网:9、数据库:10、元数据:三、1、简述电子商务对企业运作的影响2、简述CBIS的优越性答:3、简述用户在信息系统改善中的作用答:4、简述TPS的功能答:5、简述专家系统的特点答:6、简述ERP的功能;答:7、简述集中式平台的优缺点答:8、简述计算机的组成部件答:计算机必须具备如下五大基本组成部件:卷二一、单项选择题:1.作为模型应当满足的条件不包括 ;A.真实反映物质本身 B.容易被人理解 C.便于在计算机上实现D.本身就是真实事物2.传统集合运算不包括 ; A.交 B.投影 C.并 D.差传统集合运算主要有并,交,差三种,选择投影和连接属于专门的关系运算; 3.在E-R模型中,表示实体的是 |;注;E_R模式中,矩形表示实体,菱形表示实体间联系,椭圆形表示实体或联系的属性;4. 专门的关系运算不包括 ;5.使用SQL,语言进行数据查询时使用命令动词是 ;6.下列范式中最低范式是 .A 5NF B BCNF C 2NF D 3NF7.一张二维表对应的一个Foxpro 中不支持的SQL语句是 .9.关系模型中的主码与Visual Foxpro中的相对应.10.下列说法正确的是 ;A.一个关系中只能有一个候选码B.一个关系中可以有多个主码C.外码所在的关系叫参照关系D.可以作为候选码的属性也称非属性11.由属性名组成的表头称为 .12.信息系统规划需要完成的四个基本的阶段不包括 ;A.战术规划 B.需求分析 C.资源分配 D.项目规划.信息系统规划需要完成的四个基本的阶段有战略规划需求分析资源分配项目规划.13.经济可行性分析要回答的基本问题是 ;14.使用终端用户开发EUC的优点不包括 ;A.可及时满足终端用户灵活多样的需求B.软件错误概率较低C.提高了终端用户参与系统应用的积极性D.可以缓解开发部门的部分压力15.软件购买之后需要根据客户要求进入定制过程被称为”.16.生命周期法也被称作 .17.从规划范围上看来企业信息系统规划可以分为 .18.面向象程序设计的简称是 .19.在信息系统规划的主要方法中,要求”自下而上”实施的是 .20.最早出现的规范化开发方法是 ;方法地进行系统规划;22.系统开发的第一个阶段是 ;23.系统分析师的职责不包括 ;A.评价该项计算机应用系统的可行性B.完成信息系统需求规格说明书C.编写程序代码D.完成系统逻辑模型的构建工作24.下列关于系统开发的特点的说法中,正确的是 ;A.质量要求高B.技术更新慢C.个人的创造性活动D.开发经验丰富25.下列属于计算机技术专家的职责的是 ;26.用来描述组织的具体业务活动、业务分布和相应的信息处理环节的是 ;27.数据流程图的要素不包括 ;A.数据流B.数据存储C.数据项D.处理功能28.在系统分析阶段,提出解释和梳理用户的业务需求的是 ;29.下列说法错误的是;A.数据/功能分析是从总体上了解系统的处理功能与数据资源之间联系的过程B.数据/功能分析一般在数据流程图和功能分析之间进行C.格栅图是进行数据/功能分析时常用的工具C矩阵是一种特殊的格栅图30.下列关于U/C矩阵的完备性检验的说法中,正确的是 ;A.每个数据类列至少有三个CB.每个数据类列必须的一个CC.每个数据类列只能有一个UD.每个数据类列最多有三个U二、名词解释1.概念模型:2.码::4.构件:5.决策表:三、简单题;1.简述Visual Foxpro中的索引种类;答:2.简述信息系统规划的主要内容答:3.简述结构化方法的特点答:4.简述系统调查内容;答:5.简述创建数据字典的基本要求.答:四、应用题;1. Visual Foxpro中学生表建立视图ST, 其中包含职称字段ZC和姓名字段XM;请写出命令语句;答:2.房屋贷款处理过程是:接收贷款人的贷款账号后,先查询贷款人资料库进行信息核对,再查询房屋贷款资料库确定贷款类型;然后查看贷款利息文件、贷款式存款文件和还贷款记录文件,完成房屋贷款扣款;最后修改贷款人存款文件和还款记录文件,并将扣款数额通知贷款人;绘制房屋贷款处理过程的数据流程图.答:3.在Visual Foxpr中,显示课程表KC中学分XF在3~5的记录;请写出SQL语句;答卷三一、单项选择题;1、系统分析报告经过专家和用户评审、通过批准后,开发工作进阶段;2、下列选项中凝聚最高的是 ;A.数据凝聚 B.逻辑凝聚 C.时间凝聚 D.偶然凝聚3、控制结构图也称为 ;4、在控制结构图中,□A 表示 ;5、代码设计的原则不包括 ;A.唯一性 B.合理性 C.复杂性 D.规范性;6、下列说法错误的是 ;A模块之间的通信只限于其直接上下级模块 B 模块调用顺序为自下而上 C 任何模块不直接与上下级模块发生通信联系 D 任何模块不能直接与其他同级模块发生通信联系7、顺序码也称 ;8、合理的系统结构设计要满足的条件不包括 ;A 系统开发速度较快 B 系统有较高的可靠性 C 降低项目开发成本 D 系统容易维护9、系统测试的对象是 ;10、下列关于凝聚程序的说法中,错误的是;A.逻辑凝聚的凝聚程度比时间凝聚低B.逻辑凝聚的凝聚程度比功能凝聚低C.数据凝聚的凝聚程度比时间凝聚低D.逻辑凝聚的凝聚程度比功能凝聚低11、为了保持模块的独立性,要努力避免 ,应消除任何形式的非法耦合;12、人机对话窗口和信息提示窗口的设计,要注意贯彻原则;13、将表示实体特征的文字、数字或记号直接作为编码的是 ;14、成组码的优点不包括 B;A.简单方便 B.易记忆 C.易校对 D.易处理15、下列选项中是数据库管理系统的是 ; B. Linux Foxpr|o D. Unix16、数据库备注文件的后缀是 ;17、一个I:N联系转换为一个关系时, 成为关系的码;18、“可否提供对错误、故障和识操作的控制”是指软件质量评价的因素中的 ;19、功能测试又称为 ;20、除外,要避免出现由开发者自我承担测试任务的现象;21、人工代码评审不包括 ;A.小软件自审 B.文档分析 C.会审 D.自动分析22、对装配好的整个软件系统的整体效果进行的测试是 ;23、较大型的、技术上可做拆分的复合采用的切换方式是 ;逐步切换:是让系统的切换分期分批地多阶段完成;24、下列说法错误的是 ;A. 白盒测试属于动态测试B.黑盒测试属于静态测试C.黑盒测试又称为功能测试 D白盒测试又称为结构测试25、在信息中心中,负责制定与信息系统应用有关的安全策略和服务保障措施的部门是 ;规划与安全部的工作职责为:协助制定信息系统的规划,分析企业业务对信息服务的需求,规划应用系统的开发工作,制定与信息系统应用有关的安全策略和服务保险措施;26、信息中心负责设计新系的是 ;27、常用的可靠性技术不包括 ;A.数据库管理员 B.用户协调员 C.程序员D.系统分析师28、信息系统的安全保护等等级中的第3级是 ;29、大型软件的生命周期左右;30、常见的经济指标不包括 ; A.净利润率 B.投资回收期 C.成本节约额 D.收益增长率二、名词解释;1、数据耦合:2、回归测试:3、直接切换:4、信息中心:5、系统审计:三、简答题;1、简述设计输入界面要注意的原则答:2、简述高层管理者在系统实施过程中的支持作用答:3、简述逐步切换方式的缺点4、简述CIO的职责5、简述机房管理制度的内容卷全真模拟题一一、单项选择题:1、“生成信息的成本不应高于信息的价值”是指管理信息的;2、在管理领域,20世纪70年代以前是使用为主的时代;3、ENIAC研制成功的时间是;4、信息系统的用户多数是;5、企业组织从横向看不包括;企业组织从横向看一般包括战略规划层、管理控制层、运行操作层等,纵向看常分不同的职能部门;6、业务处理系统的简称为; 业务处理系统TPS又被称为事务处理系统,它的主要服务对象位于企业的操作和执行层面;7、在计算机内部,信息是以数字形式存在的;8、目前已颁布的动态图像及其伴音号的数字压缩编码国际标准不包括 ;9、只能有一个方向的通信不,而没有反方向的交互的数据通信方式是 ;10、Microsft Word是 ;11、最早倡导出蓝牙技术公司不包括 ;12、在E-R模型中,表示实体间联系的是 ;13、传统集合运算不包括 ;14、Visual Foxpr中的索引种类不包括 ;15、关键成功要素法是在年被提出的;16、信息系统的开发建设方式不包括 ;17、面向对象模型的基本单元是 ;18、是信息技术人员与业务人员之间沟通的桥粱;19、信息系统中输入数据流到输出数据流的变换过程称为 ;20、下列说法错误的是 ;21、系统设计阶段的主要活动不包括 ;22, 表示 ;23、下列关于凝聚程度的说法中,正确的是 ;24、描述处理过程的图形工具有 ;25、实际ASCII代码位二进制数字编码,其中最高位属于较验位;26、“程序代码中排除错误的程度”是指软件质量评价因素中 0.27、下列说法错误的是 ;28、进行切换的缺点不包括 ;29、在信息中心中,负责计算机硬件和系统软件的安装及维护的部门是 ; 30预防性维护约占维护工作的 ;二、名词解释:1、移动商务:2、虚拟企业:3、视图:4、非法耦合:5、测试用例:三、简述题:1、简述ERP的作用2、简述数据库管理系统的功能3、简述生命周期法的特点4、简述系统开发的指导原则5、简述数据库设计的要求卷全真模拟题二一、单项选择题:1、材料的进货数属于 0.2、人类社会赖以生存和发展的三大资源要素不包括 .3、业务信息的特点不包括 ;4、铁路的售票系统属于 ;5、下列不属于当代综合性TPS的特点的是 ;6、关键指标报表属于 ;7、美国国防部组建ARRAnet的时间是 ;8、第五代计算机的主要电子器是 ;9、数据通信系统模型的要素不包括 ;10、10、OSI模型的第5层是 ;11、下列说法正确的是 ;12、层次模型中,最下层的结构没有子女,称为 ;13、下列范式中最高范式是 ;14、顾客与商品之间的联系是 ;15、世纪70年代初, 公司基于用信息支持企业运行的思想,推出了企业系统规划法;16、法理的可行性要回答的基本问题是 ;17、战略性规划的规划期为 ;18、对U/C矩阵的检验中,不允许有空行或空列的检验是指 ;19、U/C矩阵中的功能名称位于;20、新系统的逻辑模型是以为主要工具设计完成的;21、控制结构图中,表标模块间数据传递的是 ;22、下列说法正确的是 ;23、身份证编码属于 ;24、事务日志文件的后缀是 ;25、在SQL Server2000数据据中,最多可以有个表;26、是整个系统开发和实施过程的最终审查;27、系统测试的目的是 ;28、人工代码评审属于 ;29、信息系统的环境适应性评价指标不包括 ;30、在信息中心中,负责网络设施的设计、安装、运行、安全和维护工作的部门是 ;二、名词解释;1、信息系统:2、云计算:3、用户定义的完整性:4、结构化语言:5、逻辑数据模型:三、简答题.1、简述虚拟企业的特点答:虚2、简述通信系统的编码方式答:3、简述系统说明包括的内容答:4、简述代码设计的原则答:5、简述信息系统审计的原则答:卷全真模拟题三一、单项选择题;1、众信息加工程度看,信息可分为原始信息和 ;2、“信息内容正确无误,准确反映客观现实,不会形成的误解“是指信息的;A.正确性B.完整性C.相关性D.简单性3、下列说法正确的是;A.信息是数据的重要来源B.信息往往是零散的 C 信息比较稳定 D.信息是物理的4、企业中支持战略层动作的信息系统被称为;5、下列说法错误的是 ;A.业务处理系统的简称是TPSB.业务处理系统又称为事务处理系统C.业务处理系统主要处理企业的日常业务D.医院的挂号系统不是业务处理系统6、销售日报表属于 ;7、1个字节由位二进制数构成的;8、蓝牙的最大传输距离是;9、传输文件服务FTP的端口号是;10、抗干扰性最好的传输介质是;11、多媒体数据库系统的主要特点不包括;A.集成性B.独立性 c. 数据量较小 D.实时性12、学生和课程之间的联系是;13、在SQL Server 2000服务器中数据库名最多由个字符组成;14、在诺兰模型的阶段,单项应用大量涌现带来种种矛盾,企业会采取措施抑制IT 支出的无序增长;15、BSP方法地付诸补实施;16、诺兰模型有个阶段;17、管理的可行性要回答的基本问题是;18、下列说法错误的是 ;A.业务流程图简单易读B.业务流程图以一项业务或一组相互关联的业务为描述对象;C.业务流程图是需求分析阶段常用的一种图形化分析工具D.业务流程图的符号和画法实现了标准化19、下列说法错误的是 ;A.数据结构描述了某些数据项之间的逻辑关系B.数据结构可以组合成为数据项C.数据存储需要说明该存储的数据结构D.数据流可由数据项或数据结构组成20、功能分析常用的工具有:决策权、决策表各;21、系统总体设计不包括;A.软件系统总体结构设计B.数据库设计C.处理过程设计D.通信网络平台设计22、在控制结构图中, 表示 ;23、绘制控制结构图的依据是;24、顺序码的优点不包括;25、一个M:N联系转换为一个关系时,;26、也称为负面测试,确认系统没有执行不当操作;27、系统发布或交付前的试运行及最终检测是;28、用户企业中的是系统实施中最具影响力的角色之一;29、信息中心,负责网络设施的设计、安装、运行、安全和维护工作的部门是;30、系统安全管理的原则不包括;A.访问控制原则B.木桶原则C.最小特权原则D.安全隔离原则二、名词解释;1、物联网IOT:2、数字图像技术:3、线一建模语言UML4、控制结构图:5、并行切换:三、简答题;1、简述TPS的主要作用答:2、简述计算机网络的特点答:力3、一个关系模型必须具务哪些条件答:4、简述生命周期法的主要阶段答5、简述并行切换的缺点答:全真模拟五一、单项选择题;1、员工的出生日期属于;2、电子商务的主要类型不包括;注:电子商务的主要类型有B2B、B2C、C2C\C2B、G2C和B2G;3、战略信息的特点不包括;战略信息的使用者为企业高层管理者,信息的来源广、使用寿命长、加工方法较为灵活,但对信息的精确程度要求不是很高;4、面向全国或全球客户提供航空订票服务的系统属于;5、DSS不包括;注;DSS是以数据管理、模型管理和知识管理三部分为基础,加上人机会话界面构成的;6、下列关于决策支持系统的说法中,错误的是 ;A.提供信息和决策支持技术来分析特定的问题和机会B.交互式查询和应答C.信息格式为预先指定的固定格式D.企业数据进行分析和建模提供信息7、多媒体技术的特征不包括;注:多媒体的特征有多样性、集成性、交互性和实时性;8、第三代计算机的主要电子器件是;9、包交换的称为报文交换;10、下列说法正确的是;A.模似信号的自变量一定是连续的B.模似信息的自变量一定是离散的C.模似信号是的因变量一定是离散的D.模似信号的因变量一定是连续的11、开放式系统互联参考模型是国际标准化组织于年提出的;12、宿舍和学生之间的联系是;13、在E-R图中,口表示;14、下列说法错误的是;A.一张二维表对应一个关系B.表中每一列叫做一个属性C.每个属性的取值范围称为域D.一个关系中只有一个侯选码15、是BSP方法的核心;16、在大多数场合,“购买”方式会比“开发”方式的成本低;17、信息系统的规划是的核心工作;18、业务人员的工作职责不包括 ;A.提现、解释和梳理用户的业务需求B.向开发人员介绍业务流程的含义C.参与原型设计过程,对原型进行评估和反馈D.进行项目的监督管理19、整个系统开发过程的领导者是;20、数据流程图具有两个显着特点,即具有抽象性与;21、结构化设计的构想是在由理查德·史蒂文斯等人提出来的;22、控制结构图也称为;23、从技术角度看,结构化设计对模块划分的基本要求是”;24、模块间的结构形式不包括;25、模块的分解方法有两种:以转换为中心结构的分解和以为中心结构的分解;26、“现有硬件是否很好地支持该软件”是指软件质量评价因素中的;27、对培训的目的重在操作技能的提升和本岗位工作质量的保障;28、又称UI测试;29、在信息中心中,负责对信息系统在企业中应用的价值进行评估的部门是;30、下列不属于信息系统可用性评价指标的是 ;A.可靠性B.技术先进性C.自我修复性D.可维护性二、名词解释;1、数据仓库:2、对象是面向对象模型的基本单元:在3、数据字典:4、组装测试:5、纠错性维护:三、简答应题;1、简述管理费用信息的基本性质;答:2、简述OLTP的特点答:3、对U/C矩阵的正确性可进行哪三方面的检验答:4、简述价值链模型的作用答:4、简述系统设计阶段的主要活动;答:全真模拟四一、单项选择题;1、“能有效防止未授权用户接触和使用信息”是指信息的;2、下列说法正确的是;3、员工的工作量属于;4、企业中支持操作层动作的信息系统被称为;5、对用户查询的响应属于;6、制造业的管理信息系统的第三代是;7、分布式平台的优点不包括;8、下列是系统软件的是9、第一代计算机的主要电子器件是;10、远程登录服务Telnet的端口号是;11、频分复用的简称为;13、用于存储OLE对象的数据是;14、在SQL Server 2000中每个表最多可以建立个非聚集索引;15、可行性分析的主要内容不包括;16、自行开发的缺点不包括;17、决定项目是否顺得进入实质性的建设过程的关键性文件是;18、系统调查需要;19、U/C矩阵中数据类名称位于表格的;20、数据字典中的条目有六种形式;数据项,数据流,数据存储,处理功能,外部实体和;21、结构化设计的核心内容不包括;22、下列说法正确的是;23、耦合有三种类型,不包括;24、用连续数字作为每个实体的标识的编码,称为;25、数据库设计的最后阶段是;26、“代码便于阅读,容易为他人理解”是指软件质量评价因素中的;27、系统测试的一般流程是;28、确认测试主要采用的测试方法是;29、计算机设备的发展方向不包括有;30、企业信息主管的英文简称是;二、名词解释;1、专家系统:是2、数据库系统DBS:是3、数据流程图:4、集中式:5、重复码:;三、简答题;1、简述GDSS的主要作用答:2、数据仓库的特点答:3、简述信息系统的规划的流程;答14、简述系统分析阶段的主要任务答:5、简述逐步切换方式的优点;全真模拟五一、单项选择题;1、员工的出生日期属于;2、电子商务的主要类型不包括;注:电子商务的主要类型有B2B、B2C、C2C\C2B、G2C和B2G;3、战略信息的特点不包括;战略信息的使用者为企业高层管理者,信息的来源广、使用寿命长、加工方法较为灵活,但对信息的精确程度要求不是很高;4、面向全国或全球客户提供航空订票服务的系统属于;5、DSS不包括;注;DSS是以数据管理、模型管理和知识管理三部分为基础,加上人机会话界面构成的;6、下列关于决策支持系统的说法中,错误的是 ;A.提供信息和决策支持技术来分析特定的问题和机会B.交互式查询和应答C.信息格式为预先指定的固定格式D.企业数据进行分析和建模提供信息7、多媒体技术的特征不包括;注:多媒体的特征有多样性、集成性、交互性和实时性;8、第三代计算机的主要电子器件是;9、包交换的称为报文交换;10、下列说法正确的是;A.模似信号的自变量一定是连续的B.模似信息的自变量一定是离散的C.模似信号是的因变量一定是离散的D.模似信号的因变量一定是连续的11、开放式系统互联参考模型是国际标准化组织于年提出的;12、宿舍和学生之间的联系是;13、在E-R图中,口表示;14、下列说法错误的是;A.一张二维表对应一个关系B.表中每一列叫做一个属性C.每个属性的取值范围称为域D.一个关系中只有一个侯选码15、是BSP方法的核心;16、在大多数场合,“购买”方式会比“开发”方式的成本低;17、信息系统的规划是的核心工作;18、业务人员的工作职责不包括 ;A.提现、解释和梳理用户的业务需求B.向开发人员介绍业务流程的含义C.参与原型设计过程,对原型进行评估和反馈D.进行项目的监督管理19、整个系统开发过程的领导者是;20、数据流程图具有两个显着特点,即具有抽象性与;21、结构化设计的构想是在由理查德·史蒂文斯等人提出来的;22、控制结构图也称为;23、从技术角度看,结构化设计对模块划分的基本要求是”;24、模块间的结构形式不包括;25、模块的分解方法有两种:以转换为中心结构的分解和以为中心结构的分解;26、“现有硬件是否很好地支持该软件”是指软件质量评价因素中的;27、对培训的目的重在操作技能的提升和本岗位工作质量的保障;28、又称UI测试;29、在信息中心中,负责对信息系统在企业中应用的价值进行评估的部门是;30、下列不属于信息系统可用性评价指标的是 ;A.可靠性B.技术先进性C.自我修复性D.可维护性二、名词解释;1、数据仓库:2、对象是面向对象模型的基本单元:在3、数据字典:4、组装测试:5、纠错性维护:三、简答应题;1、简述管理费用信息的基本性质;答:深度密押一一、单项选择题;1、信息时代是一个成为生产国的时代;信息时代是一个知识成为生产力的时代,信息取代资本成为社会财富创造和经济发展的关键要素,信息产业成为促进经济发展的主要动力;2、销售者是企业,而采购者是个人的电子商务类型是;3、决策支持系统的英文简称是s;。

数据仓库与数据挖掘课程设计报告书

数据仓库与数据挖掘课程设计报告书

目录21. 绪论 ........................................................................21.1项目背景 ...................................................................21.2 提出问题................................................................22 数据库仓库与数据集的概念介绍 .................................................22.1数据仓库................................................................2.2数据集..................................................................233 数据仓库 ....................................................................33.1 数据仓库的设计..........................................................3.1.1数据仓库的概念模型设计.............................................333.1.2数据仓库的逻辑模型设计.............................................3.2 数据仓库的建立..........................................................333.2.1数据仓库数据集.....................................................43.2.2建立维表...........................................................4.数据挖掘操作 .................................................................444.1数据预处理..............................................................44.1.1描述性数据汇总.....................................................44.2决策树..................................................................125、实验心得 ...................................................................126、大总结 .....................................................................1. 绪论1.1项目背景在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

系统设计说明书归一大数据平台数据仓库系统设计说明书修改变更记录:目录1引言51.1文档编制目的 (5)1.2背景 (6)1.3词汇表 (6)1.4参考资料 (6)2总体设计72.1软件体系结构 (7)2.2系统物理结构 (7)2.3技术路线 (8)3系统接口设计83.1用户接口 (8)4子系统/模块设计84.1数据仓库 (8)4.1.1O DL(操作数据层)设计 (8)4.1.2B DL(事物层)设计 (10)4.1.3I DL(宽表层)设计 (11)4.1.4P DL(应用层)设计 (12)4.1.5P UB(维度)库设计 (15)4.1.6业务账(数据集市)库 (16)4.1.7数据导出设计 (16)5数据结构与数据库设计176外部存储结构设计177故障处理说明178尚需解决的问题18编写指南:本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。

描述系统整体情况。

如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不适用”;如果需要对本模板的个别章节详细描述,也可将其形成单独的文档,成为本文档附件。

若文档中的某个章节已经在其他项目文档中加以描述,可保留标题,注明“参见(文档编号)(文档名称)(条款)”。

形成正式文档后须删除斜体字内容。

0 报告编制要求这里列出本系统设计报告编制的经验性要求,须由系统设计人员参照其进行裁剪以确定本次报告编制的相关规定。

1引言1.1文档编制目的指导开发人员进行后期的开发工作;指导测试人员进行解决方案级的系统测试;1.2背景叙述系统设计阶段的目标、作用范围以及其他应向读者说明的理解本报告所需的背景,如与公司其它软件之间的联系等。

1.3词汇表列出本系统设计说明书中专门术语的定义、英文缩写词的原词组和意义、项目组内达成一致意见的专用词汇,同时要求继承全部的先前过程中定义过的词汇。

词汇名称词汇含义备注备注中注明该词汇的来源,或有其他更详细的解释的文档位置;以及对该词汇的其他叫法。

1.4参考资料需求规格说明书系统架构设计说明书数据仓库命名规范.docx2总体设计2.1软件体系结构2.2系统物理结构描述使用本软件系统典型用户的物理设备分布图及设备上相应基本软件配置。

软件环境包括:操作系统、数据库、以及其它支撑软件;硬件环境包括:主机类型、网络类型、存储器容量、其它特殊设备。

要求:1)尽量为系统的每个物理节点定义一个和功能相关的名称,名称的含义在词汇表中说明;2)结合运行体系图中提到的“程序”,将相关的“运行程序”分布到各个物理节点中;3)采用网络拓扑图表示。

2.3技术路线描述本软件系统在实现过程中所采用的技术路线、方法。

对较新的技术给予详细的阐述及必要的说明,在可能的情况下给出相应的技术参考资料。

3系统接口设计3.1用户接口无接口。

4子系统/模块设计4.1数据仓库4.1.1ODL(操作数据层)设计4.1.1.1功能描述实现从外部系统导入数据到大数据平台,ODL层数据与数据源保持一致.同步方式包括:增量同步全量同步数据源类型包括:数据库流程图:数据同步流程图数据库同步调度系统数据源系统数据库读取同步脚本远程调用ODL本地表结束分布式数据仓库开始是否成功异常处理是否流程说明:1. 调度系统定时启动数据同步作业.2. 作业读取数据同步脚本,远程调用数据库接口.3. 数据库接口返回远程调用结果.4. 接收数据库接口返回的数据集,装载到ODL本地表.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.数据源说明:1. 通过视图封装需要同步的物理表, 与业务进行隔离. 当物理表发生变动,尽量通过修改视图兼容.2. 数据同步程序访问数据源视图.数据粒度说明:与数据源保持完全一致。

详见<<数据同步列表.xlsx>>4.1.2BDL(事物层)设计4.1.2.1功能描述BDL层对ODL数据进行清洗、转换,实现统一维度的数据整合。

4.1.2.2业务流程流程图:BDL 数据流程图E T L 阶段调度系统读取作业脚本BDL本地表结束分布式数据仓库开始ODL表数据清洗维度转换、捕获维表流程说明:1. 调度系统定时启动数据同步作业.2. 作业读取ODL表,进行数据清洗,对不符合规则的数据进行丢弃或转换.3. 将转换后的结果数据装载到BDL本地表.异常处理:调度系统捕获异常并处理.日志说明:由调度系统负责记录作业(正常和异常)日志.数据粒度说明:与ODL保持一致.4.1.2.3作业设计详见<<数据仓库转换文档.xlsx>>4.1.3IDL(宽表层)设计4.1.3.1功能描述在IDL层对BDL事实表按主题进行合并, 形成一次写多次读的宽表, 降低系统整体开销. 并实际根据需要进行用户级粒度的聚合, 进一步提高查询效率.4.1.3.2业务流程流程图:IDL数据流程图E T L 阶段调度系统读取作业脚本IDL本地表结束分布式数据仓库开始BDL表1按主题关联事物级粒度BDL表N用户级粒度聚合流程说明:1. 调度系统定时启动数据同步作业.2. 按主题读取相关BDL表, 进行关联, 尽量补齐维度字段, 生成事物级宽表.3. 按用户级粒度聚合, 生成用户级宽表.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.数据粒度说明:1. 事物级粒度.2. 用户级粒度.4.1.3.3作业设计详见<<数据仓库转换文档.xlsx>>4.1.4PDL(应用层)设计4.1.4.1功能描述PDL层按业务需求, IDL宽表汇总查询生成各种结果表.4.1.4.2业务流程流程图:PDL 数据流程图E T L 阶段调度系统读取作业脚本PDL本地表结束分布式数据仓库开始IDL表各种粒度聚合维度条件筛选生成指标数据流程说明:1. 调度系统定时启动数据同步作业.2. 读取IDL宽表,按业务需求进行聚合,筛选,生成指标数据.3. 结果写入PDL层结果表.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.数据粒度说明:1. 按业务需求的各种粒度.4.1.4.3业务账数据统计设计业务账数据统计如下特点:业务账指标由多个交易类型代码组合, 一个交易类型代码对应多个业务指标, 例如:业务账指标A 交易类型代码{M00010, M00001,M00002,M00003,…}业务账指标B 交易类型代码{M00010, M00011,M00012,M00013,…}业务账指标C 交易类型代码{M00000, M00011,M00002,M00023,…}随需求也业务变化, 业务账指标及其交易类型代码也会变化.每个业务账指标统计算法相同, 只是其交易类型代码组合不同.每个业务账指标可能会被多个报表调用,例如“积分总金额”针对以上特性, 通过抽象的方法,设计对指标(交易类型代码)配置化管理、运算统一化技术的功能,减少系统维护成本。

业务账指标定义交易类型代码字典业务账指标业务账流水配置业务账指标数据报表调用4.1.4.4作业设计详见<<数据仓库转换文档.xlsx>>4.1.5PUB(维度)库设计4.1.5.1功能描述采用异步LOOUP方法,主动捕获非法维度数据,经过人工识别生成维度数据.4.1.5.2业务流程流程图:PUB数据流程图E T L 阶段调度系统读取作业脚本结束分布式数据仓库开始ODL表、维表异步LOOKUP维度映射表人工识别处理维度表捕获异常维度是流程说明:1. 调度系统定时启动数据同步作业.2. 异步读取ODL表和维表,对比维度映射表查找是否有不存在的维度数据.3. 如果发现非法维度数据,经过人工识别,写入维度映射表和维度表.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.4.1.5.3作业设计详见<<数据仓库转换文档.xlsx>>4.1.6业务账(数据集市)库4.1.7数据导出设计4.1.7.1功能描述将PDL表和维度导出,同步给mysql库,供统计报表查询使用.4.1.7.2业务流程数据导出流程图E T L 阶段调度系统门户系统PDL表、维表读取同步脚本抽取结束分布式数据仓库开始统计表、维表装载流程说明:1. 调度系统定时启动数据同步作业.2. 读取PDL表和维表,将数据装载到MYSQL库对应的表中.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.4.1.7.3作业设计5数据结构与数据库设计详见<<数据库设计说明书.docx>>6外部存储结构设计说明本系统存贮于磁盘等持久性存贮介质,而且不是由数据库管理系统进行管理的数据的组织结构,包括数据名称、用途、每个数据项的标识名、类型和含义,组织结构、访问方法和存储要求。

7故障处理说明说明本系统所采用的基本错误处理方法和原则,例如:统一采用C++ try-catch错误方法,所有错误最终必须以界面形式向用户说明。

用一览表方式说明各类可能的错误或故障出现时系统的处理方法和补救措施。

8尚需解决的问题以列表的形式列出在系统设计阶段必须解决但尚未解决的问题。

可对问题进行编号以便进行跟踪。

相关文档
最新文档