数据仓库设计与实现

合集下载

数据仓库与数据挖掘实验四

数据仓库与数据挖掘实验四

数据仓库与数据挖掘实验四引言概述:数据仓库与数据挖掘是现代信息技术领域中的重要概念,它们在实际应用中发挥着重要作用。

本文将介绍数据仓库与数据挖掘实验四的相关内容。

本实验主要涉及数据仓库的设计与实现、数据挖掘算法的应用以及数据可视化技术的运用等方面。

下面将分五个部份详细介绍相关内容。

一、数据仓库的设计与实现1.1 数据仓库的概念与特点数据仓库是指将多个异构数据源中的数据集成到一个统一的存储中,并进行预处理和清洗,以支持决策支持系统的数据分析和查询工作。

数据仓库的特点包括:面向主题、集成性、稳定性、时变性和非易失性等。

1.2 数据仓库的架构与模型数据仓库的架构包括:数据源层、数据集成层、数据存储层和数据应用层。

数据仓库的模型包括:星型模型、雪花模型和星座模型等。

其中,星型模型是最常用的模型,它以一个中心事实表为核心,周围是多个维度表。

1.3 数据仓库的设计与实现步骤数据仓库的设计与实现包括需求分析、数据源选择、数据抽取与清洗、数据转换与加载、数据存储与索引以及数据查询与分析等步骤。

在设计与实现过程中,需要根据实际需求进行数据建模、ETL(抽取、转换、加载)处理以及OLAP(联机分析处理)等工作。

二、数据挖掘算法的应用2.1 数据挖掘的概念与分类数据挖掘是从大量数据中自动发现隐藏的模式、关联、异常以及趋势等有价值的信息。

数据挖掘算法可以分为分类算法、聚类算法、关联规则挖掘算法、时序模式挖掘算法和异常检测算法等。

2.2 数据挖掘算法的原理与应用分类算法包括决策树、朴素贝叶斯和支持向量机等,用于进行数据的分类和预测。

聚类算法包括K-means和层次聚类等,用于将数据划分为不同的类别。

关联规则挖掘算法用于发现数据集中的频繁项集和关联规则。

时序模式挖掘算法用于发现时间序列数据中的模式和趋势。

异常检测算法用于发现数据中的异常值和离群点。

2.3 数据挖掘算法的评估与优化数据挖掘算法的评估可以使用准确率、召回率、精确率和F1值等指标进行评估。

数据仓库设计与建模的增量抽取与全量加载的实现方法(六)

数据仓库设计与建模的增量抽取与全量加载的实现方法(六)

数据仓库设计与建模的增量抽取与全量加载的实现方法随着信息技术的迅猛发展,企业对数据的需求越来越大。

数据仓库的设计与建模成为了一种重要的数据管理方法。

在数据仓库的建设过程中,数据的抽取与加载是非常重要的环节。

本文将从增量抽取和全量加载两个方面介绍数据仓库的设计与建模的实现方法。

一、增量抽取的实现方法增量抽取是指在每次数据更新过程中,只抽取最新的增量数据,并将其加载到数据仓库中。

增量抽取的实现方法有以下几种:1. 时间戳增量抽取:在源数据中新增一个时间戳列,用来记录每条数据的更新时间。

在增量抽取过程中,只需查询源数据中大于上次抽取时间的数据,即可获取最新的增量数据。

2. 日志增量抽取:对于一些支持事务的数据库系统,可以通过监控数据库的事务日志来实现增量抽取。

当有新的事务发生时,将其对应的数据抽取并加载到数据仓库中。

3. 主键增量抽取:若源数据表存在主键列,可通过记录上次抽取的最大主键值,然后查询大于该值的新数据,进行增量抽取。

二、全量加载的实现方法全量加载是指将所有源数据都加载到数据仓库中。

全量加载的实现方法有以下几种:1. 全部刷新:每次进行全量加载时,先清空数据仓库中的数据,然后将所有源数据重新加载。

2. 增量刷新:部分全量加载的同时进行,即将新增的数据进行全量加载,而对于已存在的数据,只进行更新操作。

3. 分片加载:将整个数据集划分成多个小的数据片段,每次只加载其中一个数据片段,以避免单次加载过多数据。

三、增量抽取与全量加载的结合应用在实际的数据仓库设计与建模过程中,常常需要结合增量抽取与全量加载来实现数据更新。

通过增量抽取可以减少数据抽取的时间和成本,而全量加载可以保证数据的完整性和一致性。

1. 增量抽取 + 全部刷新:在每次增量抽取后,先清空数据仓库中的数据,然后将增量数据重新加载。

这种方法适用于源数据更新频率较低的情况。

2. 增量抽取 + 增量刷新:在每次增量抽取后,将增量数据进行增量加载,而对于已存在的数据,只进行更新操作。

数据仓库中的多维数据模型设计与实现教程

数据仓库中的多维数据模型设计与实现教程

数据仓库中的多维数据模型设计与实现教程在数据仓库中,多维数据模型设计与实现是一项关键任务。

它不仅可以帮助企业组织和分析庞大的数据量,还能提供决策支持和洞察力。

本文将介绍数据仓库中多维数据模型的概念、设计原则以及实现方法,帮助读者全面了解和掌握这一重要主题。

一、多维数据模型的概念多维数据模型是基于数据的特征和关联性来组织数据的一种模型。

它通过将数据按照不同的业务维度进行分组和分类,将数据以多维方式呈现,从而提供了更加直观和灵活的数据分析能力。

多维数据模型主要由维度、度量和层次结构组成。

1. 维度:维度是描述业务问题的属性,它可以是时间、地理位置、产品、客户等。

维度用来描述数据的特征,例如销售额可以按照时间、地理位置和产品维度进行分析。

2. 度量:度量是可以进行数值计算和分析的数据,例如销售额、利润、数量等。

度量用来描述数据的量度,便于进行各种统计分析。

3. 层次结构:层次结构是维度之间的关系,它描述了维度之间的层次结构和上下级关系。

例如时间维度可以由年、月、日等层次结构组成。

二、多维数据模型的设计原则在设计多维数据模型时,需要遵循一些原则,以确保模型的合理性和有效性。

1. 简单性:多维数据模型应该尽可能简单,避免过于复杂的维度和层次结构。

简单的模型易于理解和维护,提高数据分析效率。

2. 一致性:多维数据模型中的维度和度量应该保持一致性,避免冗余和重复。

一致的模型有助于提高查询效率和数据一致性。

3. 可扩展性:多维数据模型应该具有良好的扩展性,能够容纳未来的需求变化和数据增长。

设计时需要考虑到未来可能发生的维度扩展和度量变化。

4. 性能优化:多维数据模型的设计也要考虑到查询性能的优化。

根据实际需求和查询模式,合理设计维度的层次结构、聚集表和索引等,以提高查询效率。

三、多维数据模型的实现方法在实现多维数据模型时,需要选择合适的工具和技术来支持模型的构建和数据的加载。

1. 数据抽取和转换:多维数据模型的实现通常需要进行数据抽取和转换,将源系统的数据转化为可用于多维模型的格式。

人力资源管理数据仓库建设方案设计与实现

人力资源管理数据仓库建设方案设计与实现
源 模 块 系 统 实 施 项 目 参 照 20 4 0
信 息 发 展 规 划 ,决 定 实 施 信 息 化
S 8 程 , 设 以 一・ 化 平 台 、 GI 6 建 体
大 , 大 部 分 增 量 数 据 来 源 于 系 统

八 大 业 务 应 用 及 六 大 保 障 体 系 为 核 心 的统 ~ 的 企 业 级信 息 系 统 。
此 外 . 人 力 资 源 管 理 中 的 组 织 数 据 、员 工 数 据 等 作 为 权 威 数 据 源 向其 他 业 务 系 统 进 行 传 输 , 为 _ 到 实 时 传 输 的 目 的 和 较 高 『达
的 数 据 传 输 速 度 , 可 以 直 接 从 审
pe o lSf 施 指 导 [ 】 京 : 文 ( t实 R.北 甲胃 中

t  ̄ 理 操 作 。 员 工 个 人 自 助 平 台 L L
年 P o l S f 8 3 版 本 已 实 施 的 e pe o . l 组 织 管 理 、 事 管 理 、 期 管 理 、 人 假 薪 资核 算 管 理 的 系 统 功 能方 案 ,
使 用 P o lSo e p e f HCM 0 版 本 标 l 9. 准 功 能 进 行 重 新 实 施 , 以 辅 助 集
团 公 司 总 部 、7 个 地 市 公 司 和 超 1 高 压 公 司 对 其 正 式 员 I 建 立 标 准
化 的人 力 资 源 管 理 平 台 。
稳 步推进 。 在 此 背 景 下 。 山 东 电 力 集 团
公 司 f 下 简 称 山 东 电 力 ) 全 省 以 在
范 同 内 , 采 用 同 步 实 施 的 加 速 建 设 方 式 进 行 成 熟 套 装 软 件 信 硬 件 配 置 方 案 e pe o t

数据仓库的设计和实现

数据仓库的设计和实现

数据仓库的设计和实现一、数据仓库的定义数据仓库(Data Warehouse)是指从不同数据源种搜集的信息,经过多维分析后形成的一个集中式且具备分析能力的数据存储库。

二、数据仓库设计的基本原则1. 集成性:数据仓库应该整合多个数据源的数据,具有全局性视角。

2. 时效性:数据应该是最新的,而非历史的,数据之间应该有时间关系。

3. 一致性:数据应该是唯一的、标准化的,并应该尽可能的与同一机构的不同业务应用和不同数据源适配。

4. 可访问性:数据应该是用户友好的,对多种数据操作的查询方式都要满足。

5. 稳定性:为避免影响公司核心业务,数据仓库必须保障数据的一致性,同时也保障数据的灵活性,以适应业务发展的方向。

三、数据仓库的设计流程数据仓库的设计流程可以大致分为以下几个步骤:1. 确定数据仓库的业务目标,指出数据仓库用于集成的数据源和数据仓库必须包含的内容。

2. 设计维度模型,理解主题业务流程,建立数据源和数据仓库之间的映射。

3. 设计度量模型,设定可计算的指标和各类跟踪指标。

这些指标是基于业务主题的分析,包括财务、物流和顾客等。

4. 设计 ETL 流程,其包括抽取阶段、转换阶段和装载阶段。

5. 设计物理架构,建立数据仓库到数据仓库工作台(作为交互的接口)的架构。

四、数据仓库的实现1. ETL 流程的实现,包括实现数据抽取、数据清洗、数据变换和数据装载为一体的各工作点,以完成 ETL 的流程。

2. 数据模型的实现,包括维度模型的物理模型和星型模型的物理模型。

物理模型也会设计纵向分区的间隔,同时也会考虑使用分区以便支撑大表的运行。

3. 明星和雪花分型的实现,考虑到性大数据、性能提升和系统的可维护性,将设计数据仓库的分层体系结构。

4. 单点登录、按权限进行数据授权,数据科技化越来越深,数据授权也会随之上升,因此数据仓库的权限设计也变得越来越重要。

5. 多维查询分析,利用数据挖掘、多维分析等技术把数据信息分析出来,是数据仓库的理解和利用它的关键。

数据仓库的ETL设计与实现

数据仓库的ETL设计与实现

数据仓库的ETL设计与实现随着数据管理和处理技术的不断发展,数据仓库的应用越来越广泛。

数据仓库是一个面向主题的、集成的、稳定的、历史数据导向的数据集合,它可以为企业决策提供支持和参考。

而ETL (Extract-Transform-Load)是数据仓库建设中至关重要的一环,本文将从ETL的定义、设计和实现三个方面讨论数据仓库ETL的相关内容。

一、ETL的定义ETL是数据仓库中的三个核心过程之一,其作用是将来源系统的数据提取出来、进行清洗和转换、最终加载到数据仓库中。

该过程包括了多个环节,例如数据抽取、转换、质量验证等。

数据抽取主要是从数据源系统中提取需要的数据,转换则是对数据进行处理,如合并、拆分、计算、汇总等操作。

而在数据转换的过程中,也需要对数据的质量进行验证,包括数据完整性、准确性、一致性等多方面的要求。

最后通过数据加载的过程,将清洗后的数据存储到数据仓库中,以供后续的查询和分析使用。

二、ETL的设计1. 数据源分析在进行ETL设计之前,需要对数据源进行充分、全面的分析。

这个过程可以帮助我们了解源数据的组织方式、数据格式以及数据量,进而为后续的数据抽取和转换设计提供有力的支持。

此外,还需要考虑数据源的连接方式和可靠性。

2. 抽取和清洗在数据抽取方面,需要针对不同来源系统选择不同的抽取方式。

例如,可以使用增量抽取方式来避免对全部数据的重复抽取;也可以选择周期性全量抽取的方式,提高数据抽取的准确性和及时性。

而在数据清洗方面,则需要对数据进行结构化、规整、控制数据质量,如去除重复记录、删除无效数据、纠正数据错误等操作。

清洗之后的数据能够满足数据仓库的要求,保证后续数据处理的有效性。

3. 转换和装载在数据转换方面,主要采用ETL工具对数据进行处理。

ETL工具能够提供大量的内置函数、命令和工具,帮助我们完成加工数据的过程,如对数据进行汇总、拆分、格式转换等操作,让数据达到更好的可用性和易读性。

而在数据装载方面,主要考虑数据的加载方式和处理速度。

《面向工业领域的实时数据仓库的设计与实现》

《面向工业领域的实时数据仓库的设计与实现》

《面向工业领域的实时数据仓库的设计与实现》一、引言随着工业领域信息化和数字化的不断深入,实时数据仓库已成为工业领域中不可或缺的重要基础设施。

实时数据仓库是存储、处理和分析实时数据的系统,能够为工业生产提供决策支持。

本文旨在探讨面向工业领域的实时数据仓库的设计与实现,为相关领域的研究和实践提供参考。

二、实时数据仓库设计1. 需求分析在工业领域中,实时数据仓库的需求主要来自于生产线的实时监控、设备故障的预测与预警、产品质量监控与控制等。

因此,设计一个高效的实时数据仓库应考虑以下几个方面:(1)高可用性:确保数据存储和处理的稳定性和可靠性。

(2)高性能:满足大量数据的实时处理和分析需求。

(3)灵活性:支持不同类型的数据源接入和数据处理。

(4)可扩展性:随着业务的发展,能够方便地扩展存储和处理能力。

2. 架构设计实时数据仓库的架构设计应遵循分层设计原则,通常包括以下几个层次:(1)数据源层:负责收集不同类型的数据源,如传感器数据、生产管理系统数据等。

(2)数据预处理层:对数据进行清洗、转换和标准化处理,以便于后续分析。

(3)数据存储层:采用分布式存储技术,如HDFS或分布式数据库,以支持海量数据的存储。

(4)数据处理层:采用计算引擎和算法模型,对数据进行实时处理和分析。

(5)应用层:提供API接口和可视化界面,以支持业务应用的开发和使用。

3. 关键技术选择在实时数据仓库的设计中,关键技术的选择至关重要。

主要涉及以下技术:(1)分布式存储技术:如HDFS或分布式数据库,用于支持海量数据的存储和管理。

(2)计算引擎:如Spark或Flink等,用于实现数据的实时处理和分析。

(3)数据模型设计:采用合适的数据库模型和数据存储结构,以提高数据的处理和分析效率。

三、实时数据仓库的实现1. 数据源接入与预处理在实现实时数据仓库时,首先需要收集不同类型的数据源,并进行预处理。

这包括对数据进行清洗、转换和标准化等操作,以便于后续分析。

智能制造中的数据仓库设计与应用

智能制造中的数据仓库设计与应用

智能制造中的数据仓库设计与应用一、智能制造概述随着信息技术的飞速发展,智能制造已成为各国推进制造业转型升级的重要手段。

智能制造是指以数字化技术为基础,通过智能化、网络化、自动化等方式,实现制造全生命周期的智能化管理与运营。

而在智能制造中,数据是支撑其实现的核心。

因此,如何有效地管理和利用生产过程和产品信息所产生的大量数据已成为智能制造中一个重要问题。

二、数据仓库设计原则数据仓库是智能制造中存储和管理大量数据的重要手段。

在进行数据仓库的设计时,需要遵循以下几个原则:1.统一性原则:所有数据都应该从一个数据来源中获取,保证数据的唯一性。

2.独立性原则:数据仓库应该与操作性数据库相独立,以免对操作系统产生影响。

3.持久性原则:数据仓库的数据应该长期保存,以便后期的分析和查询。

4.可伸缩性原则:数据仓库应该具备良好的扩展性和可伸缩性,以满足日后数据量增大的需求。

5.安全性原则:数据仓库中的数据应该得到保护,避免数据泄露和数据被篡改。

三、数据仓库的应用数据仓库是智能制造的核心手段之一,具有多种应用场景。

其中包括:1.生产过程监控:数据仓库可以实时收集和存储生产过程中的各类数据,并通过可视化的方式展示。

通过对差异数据的分析,可以及时调整生产流程,提升生产效率。

2.质量管理:数据仓库可以收集制造过程中出现的各类质量数据,通过数据挖掘和分析,可以发现问题所在,及时监测和改进生产过程。

3.预测性维护:数据仓库可以收集并存储设备运行数据等信息。

通过对数据的分析和挖掘,可以及早发现问题并进行维修和保养,减少生产停顿时间。

4.供应链优化:数据仓库可以存储供应链相关的数据,包括订单信息、物流信息、采购信息等。

通过对数据的分析和挖掘,可以优化物流、降低成本及提高客户满意度等。

四、数据仓库建设过程建设数据仓库需要进行多项工作,包括:1.需求分析:根据业务需求,确定数据仓库的具体应用场景和需要收集的数据内容。

2.数据模型设计:根据数据需求设计数据模型,确保数据可控、易于管理。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库的设计与实现第1章数据仓库的设计与实现1.1数据仓库设计过程数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。

一、数据仓库设计根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。

二、数据抽取根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。

三、数据管理数据管理分为目标数据维护和元数据维护两方面。

目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。

元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。

当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。

1.2需求分析与决策主题的选取通过对管理者和各级别的用户的数据分析需求进行调研,我们收集并整理出了用户的决策分析需求如下:1.2.1 博士学位授予信息年度数据统计分析一、按主管部门统计从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。

可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。

具有表格和图形两种方式来展示分析结果。

典型报表格式如表1所示。

表 1 200__年度授予博士学位情况统计表(按主管部门统计)表1续200__年度授予博士学位情况统计表(按主管部门统计)二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.2硕士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.3 学士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按学科类别统计七、按专业统计1.3系统体系结构设计通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。

本系统服务器端要求运行平台为Windows 2003 Server企业版,客户端要求Windows XP,浏览器为IE6.0;采用SQL Server 2005数据仓库构建方案构建数据仓库,选用Visual 2003/SQL Server2005、Rose、Power Designer等开发工具进行系统开发。

我们设计的综合信息分析系统构架在统计综合信息平台中,其核心功能表现为通过数据转换技术,将直报数据库及其他数据源的数据库生成利于进行分析的、不同于关系数据库的数据仓库,根据不同的分析需求建立不同的专题分析数据库(多维数据库),最后对多维数据库进行利用联机分析处理、数据挖掘,其架构如图所示。

图1学位授予信息统计系统架构在这个体系结构中,存放于系统数据库中的业务数据及外部数据源数据按照主题通过ETL工具被抽取到ETL数据库(数据准备区),数据在ETL数据库中完成预处理工作(清洗和转换),再通过ETL工具加载到数据仓库。

数据进入数据仓库后按照维度和事实存放,采用MS Analysis Serviees作为OLAP服务器,Analysis Serviees可以方便的定义维度和构建OLAP立方体。

用户使用前端的查询工具、报表工具、分析工具,就可以访问决策支持系统并分析浏览数据了。

由于数据预处理本身的复杂性,直接从外部数据源把数据整合到数据仓库必将导致该过程即占用许多外部操作型数据库的资源和时间,也会影响数据仓库装载数据的效率。

借鉴算法研究中“以空间换时间”的思想,再结合目前硬件成本的下降,本系统中,我们在数据仓库的体系结构中添加一个专门进行数据预处理的存储区域以提高数据仓库系统整体性能。

在系统设计中,应注意以下问题:一、理顺学位授予信息之间的关系以及业务数据是保证数据质量的关键,抽取信息的质量依赖于用户对结果的解释,容易导致错误。

二、针对不完整的数据、不一致的数据、错误的数据以及冗余数据确定数据处理规则,即ETL实施的具体规则。

三、系统监控与数据管理包括维表的维护、增量数据抽取转换等的控制、系统出错报警、异常处理、数据存储及访问的安全性、海量数据的查询效率、数据各份策略等。

四、模型设计是系统的基础和成败的关键,在实际操作的过程中,要注意的问题包括主题的确定、分析内容的细化、粒度的设计等。

1.4系统数据逻辑结构设计1.4.1基础层模型设计基础层数据用于存放从学历教育博士学位、同等学力人员申请博士学位、博士专业学位、学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位、普通高等教育本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学位、学士专业学位等数据源ETL过来的数据,这些业务数据将进行整合、组织、重构和存放。

根据学位银行授予统计系统需求,基础层模型包含博士学位信息主题域、硕士学位信息主题域、学士学位信息主题域。

博士学位授予信息是指主题域存放所授予的博士学位信息,分为学历教育博士学位、同等学力人员申请博士学位、博士专业学位。

主要的信息有:个人基本信息、学科信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。

图2学历教育博士学位授予信息基础层模型硕士学位授予信息是指主题域存放所授予的硕士学位信息,分为学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位。

主要的信息有:个人基本信息、学科信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。

学士学位授予信息是指主题域存放所授予的学士学位信息,分为普通高等教育本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学位、学士专业学位。

主要的信息有:个人基本信息、学科信息、学位信息等。

1.4.2汇总层模型设计汇总层模型的设计需要考虑汇总的粒度问题,汇总的粒度不同,能够回答的业务问题也不一样,由于系统数据庞大繁杂,学位授予时间相对比较固定,本模型将汇总层模型设计为年。

该层的设计主要考虑数据向年度级别的汇总,解答如某年某主管单位所授予的博士学位人数等业务问题。

根据博士学位信息授予主题的需求分析,即分析的角度(也叫维度)、指标、查询的内容,以博士学位信息授予主题为例,其汇总层的数据模型如图所示。

图3学历教育博士学位授予信息汇总层模型1.4.3报表层模型设计报表层数据是用于存放学位授予信息统计系统中固定报表统计数据,同时也是灵活查询的数据源。

这些数据是根据报表业务规则,从基础层和汇总层统计而出,本模型主要包括内容有:授予博士学位信息统计表、授予硕士学位信息统计表、授予学士学位信息统计表。

以博士学位信息统计主题为例,其博士学位信息报表层的数据模型如图所示。

图4学历教育博士学位授予信息(按主管部门统计)报表层模型1.5数据仓库模型设计为满足决策分析的需要,系统需要将各种数据源来的数据围绕决策主题存储到数据仓库中,以提高数据查询、聚集的效率。

数据仓库建模采用自上而下的三级建模方式,即概念建模、逻辑建模、物理建模。

概念建模可采用信息打包法,逻辑建模以星型建模方法和雪花建模方法为主,物理建模以3NF和星型建模方式为主。

图5数据仓库建模方法在数据仓库的3级数据模型中,概念模型表示现实世界的“业务信息”构成关系,用业务数据库设计中的“实体-关系”方法(E-R方法)来设计这一级的数据模型,但需要用分析主题代替传统E-R方法中的实体。

在传统业务数据库设计中的逻辑模型一般采用范式规范的表及其关系,数据仓库设计中的逻辑模型也采用表来存储数据,因此也数据仓库中使用的也是关系模型,不过表与表之间不再通过3大范式的规范,而是以星形结构、雪花形结构和星座型结构等方式组成。

物理模型则属于这些表的物理存储结构,比如表的索引设计等。

数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。

作为数据仓库的灵魂——元数据模型则自始至终伴随着数据仓库的开发、实施与使用。

数据粒度和聚合模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。

图4表达了微观数据仓库设计中各种概念之间的关系。

图 6 微观数据仓库设计中各种概念之间的关系在上图的关系图中,元数据是在对企业商业智能需求分析和概念模型设计阶段就应该设计好并且一直贯穿于数据仓库应用全程的重要部分,而数据粒度和聚合的设计则是在逻辑模型的设计过程中完成的,物理模型则需要做一些存储优化方面的工作。

具体而言,这三级数据模型设计的每一个阶段都有相应的详细设计步骤,图5即是对这些步骤的一个总结。

图7数据仓库数据库设计的步骤数据仓库包括以下维度表:人的性别代码、世界各国和地区名称代码、中国各民族名称罗马字母拼写法和代码、政治面貌代码、身份证件类型代码、中华人民共和国行政区划(省市)代码、高等学校代码、学位类别代码、授予博士、硕士学位和培养研究生的学科、专业目录、学习方式代码、攻读类型代码、论文类型代码、论文选题来源代码、学位类别代码、专业目录、获学位后去向代码、工作单位性质类别代码、工作性质代码、工作单位性质类别代码、专业技术职务级别代码、干部职务级别代码、专业学位领域代码、考试方式代码、以研究生毕业同等学力申请硕士学位学生类别代码、高等学校本、专科专业代码、留学生培养方式代码;包括以下事实表:学历教育博士学位信息表、同等学力人员申请博士学位信息表、博士专业学位信息表;学历教育硕士学位信息表、同等学力人员申请硕士学位信息表、硕士专业学位、普通高等教育本科毕业生学士学位信息表、成人高等教育本科毕业生学士学位信息表、来华留学本科毕业生学士学位信息表、学士专业学位信息表。

1.5.1概念模型设计概念建模主要表达决策的主题、分析主题的角度、各个角度需要分析的属性信息,决策中层次的信息—粒度,及决策主题的评估等。

1997年Hammergren提出的信息打包方法,要求从一个决策者的角度去将焦点集中在几个主题上,着重分析所涉及的数据多维性。

信息打包方法首先需要确定分析的主题,然后围绕这个主题填入指标、维度、粒度等信息。

1.定义关键性指标:定义分析主题的评估指标;2.定义维度:维度是用户访问评估信息的途径,每一个维度只表示一个主要的访问途径。

3.定义粒度:粒度是维度中信息的详细程度。

我们分析对象为对学位授予信息的统计分析。

下面以博士学位授予信息统计作为分析主题为例,为学位信息分析系统数据仓库建立概念模型。

相关文档
最新文档