第一章 从数据库到数据仓库
数据库应用基础第1章习题参考答案

第一章习题参考答案1.选择题(1)数据库(DB)、数据库系统(DBS)、数据库管理系统(DBMS)三者之间的关系是(A)。
A.DBS包括DB和DBMS B.DBMS包括DB和DBSC.DB包括DBS和DBMS D.DBS就是DB,也就是DBMS (2)设有部门和职员两个实体,每个职员只能属于一个部门,一个部门可以有多名职员,则部门与职员实体之间的联系类型是(B)。
A.m:n B.1:m C.m:k D.1:1(3)对于“关系”的描述,正确的是( D)。
A.同一个关系中允许有完全相同的元组B.同一个关系中元组必须按关键字升序存放C.在一个关系中必须将关键字作为该关系的第一个属性D.同一个关系中不能出现相同的属性名(4)E-R图用于描述数据库的(A)。
A.概念模型B.数据模型C.存储模型D.逻辑模型(5)在关系模型中,一个关键字(C)。
A.可以由多个任意属性组成B.至多由一个属性组成C.可以由一个或者多个其值能够唯一表示该关系模式中任何元组的属性组成D.可以由一个或者多个任意属性组成(6)现有如下关系:患者(患者编号,患者姓名,性别,出生日期,单位)医疗(患者编号,患者姓名,医生编号,医生姓名,诊断日期,诊断结果)其中,医疗关系中的外关键字是(A)。
A.患者编号B.患者姓名C.患者编号和患者姓名D.医生编号和患者编号(7)一个关系只有一个(D)。
A.候选关键字B.外部关键字C.组合关键字D.主关键字(8)下列标识符可以作为局部变量使用的是(C)。
A.[@Myvar] B.My var C.@Myvar D.@My var (9)Transact-SQL支持的一种程序结构语句是(A)。
A.BEGIN…E ND B.IF…T HEN…ELSEC.DO CASE D.DO WHILE(10)字符串常量使用(A)作为定界符。
A.单引号B.双引号C.方括号D.花括号2.填空题(1)数据库是在计算机系统中按照一定的方式组织、存储和应用的(数据集合)。
面向应用领域的数据库新技术

面向应用领域的数据库新技术数据库技术被应用到特定的领域中,出现了工程数据库,地理数据库,统计数据库、科学数据库、空间数据库等多种数据库,使数据库领域中新的技术内容层出不穷。
一、数据仓库传统的数据库技术是以单一的数据资源为中心,进行各种操作型处理。
操作型处理也叫事务处理,是指对数据库联机地日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间,数据的安全性和完整性。
分析型处理则用于管理人员的决策分析。
例如:DSS,EIS和多维分析等,经常要访问大量的历史数据。
于是,数据库由旧的操作型环境发展为一种新环境:体系化环境。
体系化环境由操作型环境和分析型环境(数据仓库级,部门级,个人级)构成。
数据仓库是体系化环境的核心,它是建立决策支持系统(DSS)的基础。
1.从数据库到数据仓库具体来说,有以下原因使得事务处理环境不适宜DSS应用⑴事务处理和分析处理的性能特性不同在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因此,系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间,OLTP (联机事务处理)是这种环境下的典型应用。
在分析处理环境中,某个DSS应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。
将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。
⑵数据集成问题DSS需要集成的数据。
全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。
因此,DSS不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。
而事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当前数据,对整个企业范围内的集成应用考虑很少。
当前绝大部分企业内数据的真正状况是分散而非集成的,这些数据不能成为一个统一的整体。
对于需要集成数据的DSS应用来说,必须自己在应用程序中对这些纷杂的数据进行集成。
第一章 数据及分类

四、试验观测
(一)试验观测设计的原则 为了能充分揭示所考察因素与事物之间的因果规律,进行试 验观测必须遵循下列两个原则。 1.均衡分散性原则:是指所进行的试验应均衡地分散在各个 因素的不同水平或位级的全部各种可能配合之中,以便保证试验 结果具有较强的代表性。 2.整齐可比性原则:是指试验考察某个因素的各个水平或位 级的效应时,其他因素应保持相同的水平,以便保证在该因素各 个水平或位级的效应之中能最大限度地排除其他因素的干扰,从 而能有效地进行比较。 (二)试验观测的方法 按照试验观测设计的不同,试验观测的方法主要有以下几种。 1.完全随机试验观测:类似于现场调查中的简单随机抽样调查. 2.随机区组试验观测:类似于现场调查中的分层随机抽样调查。 3.拉丁方试验观测 4.正交试验观测
第五节 Excel的数据简介
一、Excel的数据展示 二、Excel的数据处理 三、Excel的函数功能 四、Excel的统计分析
谢谢!
第四节 数据库
一、数据仓库(数据存放集合)
1.数据仓库(data warehouse)是一个面向主题 的(subject oriented)、集成的(integrate)、 相对稳定的(non-volatile)、反映历史变化 (time variant)的数据集合,用于支持管理决策。 2.广义上包括数据库,狭义上紧紧指数据的有机 集合-原始的记录和重组。
第一章 数据及分类
陈正伟
重庆工商大学 二0一一年三月
真实的数据是未开发的金矿;是强有力 的证据;是一首美妙的诗篇;是能够说真话 的朋友。 --- 陈正伟
第一节 数据的基本概念
一、基本概念
(一)数据 1)定义:科学实验、检验、统计等所获得的 和用于科学研究、技术设计、查证、决策等的数值。 2)表现:数据通常表现为各种字母、数字符号 的组合、语音、图形、图像等,统称为数据,数据 经过加工后就成为信息,信息的影响决策变为情报。 3)扩展:数据挖掘(Data Mining),就是从存 放在数据库,数据仓库或其他信息库中的大量的数 据中获取有效的、新颖的、潜在有用的、最终可理 解的模式的非平凡过程。
管理信息系统总结

管理信息系统总结第⼀章信息系统概论●信息技术对市场和企业运作模式的影响经济全球化-导致:全球市场的管理、控制和竞争;全球性⼯作团队、采购、⽣产、供应、技术⽀持和售后服务;–企业渴望:通过ISIS所提供的信息沟通、分析功能进⾏快捷的信息交换和辅助决策;克服地理位置分散、信息共享和协调困难的局⾯,在全球范围内进⾏贸易,在世界市场中进⾏采购,向世界各地⽤户提供服务。
⼯业经济向知识和信息经济的转变–信息和知识劳动者逐渐取代体⼒劳动者–新兴服务业–新的知识与信息密集型组织–新的知识与信息密集产品–知识在传统产品制造中的应⽤得到加强●企业组织的变⾰传统的企业组织:层级式、集权、结构化新型的企业组织:扁平化、分权、弹性●管理模式的变⾰(制造业为例)物料需求计划MRP:⽣产过程中的缺料问题,降低了库存制造资源计划MRPII:物流和资⾦流的集成和统⼀管理准时⽣产制JIT:消除⽆效作业,按需⽣产企业资源计划ERP:对物料、劳⼒、设备资⾦等全⾯计划供应链管理SCM:控制供应商-制造商-销售商建⽴合作伙伴,剥离⾮核⼼业务,抓要害●信息系统的概念从系统的⾓度定义信息系统信息系统是⼀系列相互关联的可以收集(输⼊)、操作和存储(处理)、传播(输出)数据和信息,并提供反馈机制以实现其⽬标的元素或组成部分的集合。
数据:⼀串原始资料,代表组织中或是周遭所发⽣事件的记录,尚未整理成⼈们能了解和使⽤的格式信息:数据已被整理成对⼈⽽⾔有意义且有⽤的格式。
Meaningful知识:被理解、发现、知道的对事物认识的⼀组规则、规律,辅助决策。
Useful从企业的⾓度定义信息系统从企业⾓度看,信息系统是⼀个基于信息技术的,为了应对环境造成的挑战⽽⽣成的组织和管理的解决⽅案。
-为对抗外在环境挑战,基于信息技术⽽建⽴的组织与管理上的解决⽅案。
-企业信息价值链中获取、转换与传播信息等⼀系列增值活动的⼀部分。
●组织的关键要素员⼯: 管理者,知识⼯作者,数据⼯作者,⽣产或服务⼈员结构: 组织结构图,专家组,产品,地理位置作业程序: 标准作业程序 (SOP, ⾏动规则))政治: 不同层级的利益与观点,冲突与妥协⽂化: ⾏为习惯,⾏事风格,价值观商业功能:销售和市场:销售产品或服务⽣产制造:⽣产产品或服务财务:管财(现⾦、股票、债券)会计:记账(收据、退款、⽀票付款等)⼈⼒资源:⼈员招聘、培训和管理等层级:⾼层主管: 负责公司产品与服务的长远战略规划中层管理者: 执⾏⾼层主管计划作业管理者: 负责监控公司的⽇常⼯作●信息系统的社会技术视⾓透视—组织和信息系统如何相互影响、配合、依赖第⼆章信息系统应⽤体系●经营管理活动可以分成3个层次-作业计划与控制层(简称作业层)-管理控制和战术计划层(简称管理层)负责实施组织的⽬标,对组织内部的各种资源进⾏有效的利⽤,计划并控制组织的活动,对计划实施的情况进⾏检查,以确保⽬标的实现-战略计划层(简称战略层)确定组织的⽬标、制定实现该⽬标的长远政策和发展⽅向,并负责与外部环境进⾏联系组织内信息系统—按组织阶层分类注: 这个图特别重要,不同领域不同层次的功能,会出题!!1.TPS(Transaction Processing System)事务:是指组织的基本业务活动。
数据挖掘中的名词解释

第一章1,数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
2,人工智能(Artific ial Intelli gence)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
3,机器学习(Machine Learnin g)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
4,知识工程(Knowled ge Enginee ring)是人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。
5,信息检索(Informa tion Retriev al)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
6,数据可视化(Data Visuali zation)是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
7,联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。
在联机事务处理中,事务是被立即执行的,这与批处理相反,一批事务被存储一段时间,然后再被执行。
8, 联机分析处理(OLAP)使分析人员,管理人员或执行人员能够从多角度对信息进行快速一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。
8,决策支持系统(decisio n support)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
数据仓库建设管理制度

第一章总则第一条为规范数据仓库建设管理工作,确保数据仓库建设质量,提高数据仓库应用效果,促进企业信息化建设,特制定本制度。
第二条本制度适用于企业内部数据仓库建设过程中的组织、规划、实施、维护等各个环节。
第三条数据仓库建设应遵循以下原则:1. 面向业务:以企业业务需求为导向,确保数据仓库满足企业决策分析需求。
2. 集成性:整合企业内外部数据资源,实现数据共享和交换。
3. 可扩展性:适应企业业务发展,满足未来数据增长需求。
4. 安全性:确保数据仓库运行稳定,保障数据安全。
第二章组织与管理第四条企业成立数据仓库建设领导小组,负责数据仓库建设的总体规划和决策。
第五条设立数据仓库管理部门,负责数据仓库建设过程中的日常管理工作,包括:1. 制定数据仓库建设方案;2. 组织项目实施;3. 监督项目进度;4. 确保项目质量;5. 做好数据仓库维护工作。
第六条数据仓库建设应成立项目组,负责具体实施工作,项目组由以下人员组成:1. 项目经理:负责项目整体规划、协调和监督;2. 技术负责人:负责技术选型、系统设计、开发与测试;3. 业务负责人:负责业务需求分析、数据质量监控;4. 运维负责人:负责数据仓库运维保障。
第三章数据仓库规划与设计第七条数据仓库规划应包括以下内容:1. 需求分析:明确企业业务需求,确定数据仓库主题;2. 数据模型设计:根据需求分析,设计数据仓库模型;3. 技术选型:选择合适的数据库、工具和技术;4. 系统架构设计:确定数据仓库系统架构,包括硬件、软件、网络等。
第八条数据仓库设计应遵循以下原则:1. 面向主题:围绕企业业务主题进行数据组织;2. 集成性:确保数据来源的多样性和一致性;3. 可扩展性:适应业务发展,满足未来数据增长需求;4. 易用性:便于用户查询、分析和使用。
第四章数据仓库实施与运维第九条数据仓库实施应包括以下步骤:1. 数据抽取:从源系统中抽取所需数据;2. 数据清洗:对抽取的数据进行清洗,确保数据质量;3. 数据转换:将清洗后的数据进行转换,满足数据仓库需求;4. 数据加载:将转换后的数据加载到数据仓库中;5. 系统测试:对数据仓库进行功能测试、性能测试和安全性测试。
从数据库到数据仓库——广电未来的制胜武器

丹( 97 ) 女 , 17 一 , 工程师 , 究方向为有线 宽带综合 管理 系统 、 研 数字 电视 管理 系统 的建立 、 数据库 、 网管等。
1 2 6 6
维普资讯
中国有线电视)0 6 20 年第 l 期 6
通过数据库系统对内部进行管理 , 时单纯 的联机事 这 务处理已经不能满足企业竞争 的需要 , 企业 除了利用
1 数据仓 库 的概 念
基本模式 , 以数据仓库的建立需要以企业为本 , 所 结合 企业经营在实践 中不断积累经验, 在运营仓 库发 展 的背景
数据仓库与数据库只有一字之差, 而且 目前一般都 采用关系数据库中的关系表结构形式 , 但两者有本质的 区别 , 其工作原理及处理过程完全不同。在数据库应用 早期 , 计算机系统所处理的是从传统手工操作 向自动化 转换的过程 , 要求的是准确、 快速 、 安全地向数据库中添 加数据 , 并能快速有效地查询相关数据 , 当时数据库刚 刚开始发展, 数据量还很少, 难以提供全面的分析和统 计, 因此数据库面对的主要是联机事务处理。
文献标识码 : C
从 数 据 库 到 数 据 仓 库 广 电未 来 的 制 胜 武 器
口宣 丹 ( 江 视台 络传 心, 湛 市电 网 输中 广东湛 2 0) 江5 0 44
摘
要 : 目前数据爆 炸、 息 匮乏 的情 况下 , 在 信 需要 利 用数据 仓库 系统 集成 1 或 多个独 立传统数 据库 数 个
联 机 事 务处 理 发 展 到一 定 阶段 , 多 数企 业 都 能 大
19 年 , 91 号称 “ 数据库 之父” Wi a .n o 的 l mH I n l i m
在《 建立数据仓库》 一书中首次提出数据仓库的概念 :
银行数据仓库流程管理制度

第一章总则第一条为规范银行数据仓库的开发、管理、维护和使用,确保数据仓库的稳定、高效、安全运行,提高数据质量,特制定本制度。
第二条本制度适用于银行内部所有涉及数据仓库的项目、团队和个人。
第三条本制度遵循以下原则:1. 规范化:数据仓库的开发、管理、维护和使用应遵循规范化的流程和标准。
2. 安全性:确保数据仓库的数据安全,防止数据泄露、篡改和丢失。
3. 可靠性:确保数据仓库的稳定运行,提高数据质量,为业务决策提供有力支持。
4. 可扩展性:适应业务发展和技术进步,满足不同业务场景的需求。
第二章数据仓库流程第四条数据仓库流程主要包括以下阶段:1. 需求分析对业务需求进行调研和分析,明确数据仓库的建设目标、数据范围、功能需求等。
2. 数据建模根据需求分析结果,设计数据仓库的数据模型,包括概念模型、逻辑模型和物理模型。
3. 数据抽取从源系统中抽取数据,进行数据清洗、转换和集成。
4. 数据加载将清洗、转换后的数据加载到数据仓库中。
5. 数据维护对数据仓库进行日常维护,包括数据更新、备份、恢复等。
6. 数据查询与分析为用户提供数据查询和分析服务,支持业务决策。
第三章规范与标准第五条数据仓库命名规范1. 数据库、表、字段等命名应遵循统一的命名规则,易于理解和记忆。
2. 命名应避免使用特殊字符和缩写,确保唯一性和可读性。
第六条 ETL开发规范1. ETL开发人员应遵循ETL开发规范,确保ETL过程的正确性和稳定性。
2. ETL脚本应具有良好的可读性和可维护性,便于调试和修改。
第七条数据质量规范1. 数据仓库的数据质量应符合相关标准,确保数据准确、完整、一致。
2. 定期对数据质量进行检查,发现问题及时整改。
第四章管理与维护第八条数据仓库管理1. 数据仓库管理员负责数据仓库的日常管理,包括数据备份、恢复、监控等。
2. 数据仓库管理员应定期对数据仓库进行性能优化,提高数据查询效率。
第九条数据维护1. 数据维护人员负责数据仓库的数据维护工作,包括数据更新、备份、恢复等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)在数据仓库中,由于主要是进行数据分析处理,那 么商品采购时的分析活动主要是要了解各供应商的情况,显 然,‚供应商‛是采购时分析的对象。所以我们并不需要组 织像‚订单‛、或是‚订单细则‛这样的数据库模式,因为 它们包含的是纯操作型的数据;但是仅仅只用OLTP数据库中 ‚供应商‛中的数据又是不够的,因而要重新组织‚供应商‛ 这么一个主题。
5、历史数据问题
联机事务处理一般只需要当前数据,在数据库中一般也 只存储短期内的数据,且不同数据的保存期限也不同。即使 被保留的历史数据,也没有得到充分利用。 对于决策分析而言,历史数据是相当重要的,许多分析 方法必须以大量的历史数据为依据,没有对历史数据的详细 分析,是难以把握企业的发展趋势的。
(1)同一字段在不同的应用中具有不同的数据类型。
(2)同一字段在不同的应用中具有不同的名字。 (3)同名字段,不同含义。
为了将这些不一致的数据集成起来,首先必须对它门进 行转换,消除不一致之后才能供分析使用。因此,这是一项 很繁重的工作。
4、数据动态集成问题
由于每次分析都进行数据集成的开销很大,一些应用仅 在开始对所需数据进行了集成,以后就一直以这部分集成的 数据作为分析的基础,不再与数据发生联系,我们称这种方 式的集成为静态集成。静态集成的最大缺点在于,如果在数 据集成后数据源中数据发生改变,这些变化不能反映给决策 者,导致决策者使用的是过时的数据。 集成数据必须以一定的周期进行刷新,我们称其为动态 集成。显然联机事务处理系统不具备动态集成的能力。
1.1.1 操作型数据处理
联机事务处理系统就是操作型数据处理的典型例子。是 数据库系统的主要应用。其基本架构如图1.1所示。 联机事务处理系统的主要功能 是对事物进行处理,快速地响应客 户的服务要求使企业的业务处理自 动化。是数据库的主要应用之一。 联机事务处理系统的主要性能 指标是事务处理效率和事物吞吐率, 每个事物处理的时间越快越好,单 位时间能完成的事物数量越多越好。
2、‚蜘蛛网‛问题 解决数据分散的一种方法是对数据进行集成。在联机事务 处理系统出现不久,就出现一种称作‚抽取‛处理的程序‛。 用户利用抽取程序从各个分散的数据库中查找有用的数据。然 后这些数据被提取出来放入新的文件或数据库中,供用户使用。 由于抽取程序能将数据从联机事务处理系统转移出来,对这些 数据进行分析时不会影响联机事务处理系统的效率,因此,受 到程序员的喜爱,被大量应用。
传统的面向应用的数据组织方式的特点:
第一,面向应用进行数据组织,是指对企业中相关的组 织部门等进行详细的调查,收集数据库的基础数据及其处理 的过程。调查的重点是‘数据’和‘处理’,在进行数据组 织时要充分了解企业的部门组织结构,考虑企业各部门的业 务活动特点。 第二,面向应用进行数据组织,反映一个企业内数据的 动态特征,即它要便于表达企业各部门内的数据流动情况以 及部门间的数据输入输出关系。主要的目的是为了进行联机 事务处理,以提高日常业务处理的速度和准确性等。
1.1.4 数据库系统的局限性
数据库系统作为数据管理手段,主要用于事务处理,取得 了巨大的成功,那么能否将它应用于分析型数据处理呢?答案 是否定的,主要原因包括以下几点。 1、数据的分散 联机事务处理的目的在于使业务处理自动化,一般只需要 与本部门业务有关的当前数据,而对整个企业范围内的集成应 用考虑很少。企业内部事务处理的应用之间实际上几乎都是独 立的,造成了当前绝大部份企业内数据的真正状况是分散而非 集成的。 出现这种现象有多重原因。有设计方面的、有经济方面的、 还有体制方面,以及历史、地理方面等。
表1.1列出的操作型数据与分析型数据的区别从根 本上体现了事务处理和分析处理的差别。‚数据仓库之 父‛W.H.Inmon在其《Building the Data Warehouse》 一书中,指出数据仓库中的数据应具备以下4个基本特 征:
(1)数据仓库的数据是面向主题的; (2)数据仓库的数据是集成的; (3)数据仓库的数据是不可更新的; (4)数据仓库的数据是随时间不断变化的。 并且给出了数据仓库的定义:数据仓库是一个面向主题 的、集成的、不可更新的、随时间不断变化的数据集合,用 以更好地支持企业或组织的决策分析处理。
数据仓库与数据挖掘
第一章 从数据库到数据仓库
1.1 数据仓库产生的原因
1.2 数据仓库的基本概念
1.3 数据仓库的体系结构
1.1 数据仓库产生的原因
数据是企业或机构的重要资源。企业或机构的 运营过程可以说是数据的收集、整理、加工、存储 和检索过程。
当前的数据处理可以大致分为两大类: 操作型 处理和分析型处理。
库存管理子系统: 领料单(领Байду номын сангаас单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存号,日期) 库房(库房号,仓库管理员,地点,库存商品描述)
人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话)
为了更好地理解主题与面向主题的概念,用例子说 明面向主题的数据组织与传统的面向应用的数据组织方 式的不同。
1、传统的面向应用的数据组织方式
一家采用‛会员制‛经营方式的商场,按业务已建立起 销售、采购,库存管理以及人事管理子系统。按照其业务处 理要求,建立了各自的数据库模式: 采购子系统: 订单(订单号,供应商,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,电 话) 销售(员工号,顾客号,商品号,数量,单价,日期)
所以说,实际中的数据库建设由于偏重对联机事务处理 的支持,而将数据应用逻辑与数据在一定程度上又重新绑在 一起而变得不统一了,造成如下后果。
(1)使得本来是描述同一个客观实体的数据由于与不同 的逻辑捆绑在一起而变得不统一。 (2)使得本来就是一个完整的客观实体的数据分散在不 同的数据库模式中。 2、面向主题的数据组织方式 面向主题的数据组织应该分为两个步骤:
第三,这种数据组织方式生成的各项数据库模式与企业 中实际的业务处理流程中所涉及的单据有很好的对应关系, 这种对应关系使得数据库模式具有很强的操作性,因而可以 较好地在这些数据库模式上建立起各项实际的应用处理.如 库存管理中的领料单,进料单和库存等是实际管理中就存在 的单据或报表。
第四,面向应用进行数据组织的方式并没有体现数据库 这一概念提出的原本意图:数据与数据处理的分离;即要将 数据从数据处理或应用中抽象出来,解放出来,组织成一个 与具体的应用独立的数据世界。
1.1.3 两种数据处理模式的差别
通过上面讨论,可以发现,操作型数据处理与分析型数 据处理是两种不同的操作,表1.1中列出操作型数据与分析 型数据之间的主要差别。
表1.1操作型数据和分析型数据的区别 操作型数据 细节的 当前数据 可更新 操作需求事先可知道 生命周期符合SDLC 对性能要求高 一个时刻操作一个单元 事务驱动 面向业务处理 一次操作数据量小,计算 简单 支持日常操作 分析型数据 综合,或提练的 历史数据 不更新 操作需求事先不知道 完全不同的生命周期 对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析挖掘 一次操作数据量大,计算 复杂 支持管理需求
操作型处理也叫事务处理,是指对数据库联机 的日常操作,通常是对一个或一组纪录的查询和修 改,主要是为企业的特定应用服务的,人们关心的是 响应时间,数据的安全性和完整性。
分析型处理则用于管理人员的决策分析。例如 DSS,EIS(Executive Information System ) 和多 维分析等,经常要访问大量的历史数据。
面向主题的数据组织方式,就是在较高层次上对分 析对象的数据的一个完整一致的描述,能完整,统一地 刻画出各个分析对象所涉及的企业的各项数据,以及数 据之间的联系。所谓较高层次是相对面向应用的数据组 织方式而言的,是指按照主题进行数据组织的方式具有 更高的数据抽象级别。
需要指出的一点,目前数据仓库仍是采用关系数据 库来实现的,也就是说数据仓库的数据最终也表现为关 系。因此,要把握主题和面向主题的概念,需要将它们 提高到一个更高的抽象层次上来理解,也就是要特别强 调概念的逻辑意义。
用户 用户 用户
应用系统 数据库管理系统 (DBMS)
数据库 (DB) 图1.1联机事务处理系统架构
为有效地对事务进行处理,数据库管理系统在技术和管理 上采取多项措施。
首先,数据库系统中严格定义了事务的概念。所谓事务是 用户定义的一个数据库操作序列,这些操作要么全做,要么全 不做,是一个不可分割的工作单位。 例如,在关系数据库中,一个事物可以是一条SQL语句、 一组SQL语句或整个程序。 需要注意的是,事务和程序是两个概念。一般讲,一个程 序中包含多个事务。
1.2
数据仓库的基本概念
什么是数据仓库? * 数据仓库是作为决策支持系统服务基础的分析型数据库, 用来存放大容量的只读数据,为制定决策提供所需的信息。 * 数据仓库是与操作型系统相分离的、基于标准企业模型 集成的、带有时间属性的、面向主题(subject-oriented) 及不可更新的数据集合。
这些经抽取得到的新文件或数据库又被某些用户再进行抽 取,这种不加以控制的连续抽取最终导致系统内数据间形成了 错综复杂的网状结构,人们形象地称为‛蜘蛛网‛。企业的规 模越大,‛蜘蛛网‛问题就越严重。