BI_数据仓库基础
基本bi知识

基本BI知识一、什么是BI?BI(Business Intelligence)即商业智能,是指通过对企业内部和外部数据的分析,帮助企业管理者做出更明智的决策,提高企业运营效率和市场竞争力的一种管理和分析方法。
BI通过收集、整理、分析数据,将数据转化为有价值的信息和洞察,并提供可视化的报表和仪表盘,帮助企业管理层全面了解企业状况,识别业务机会和风险,以及进行业务规划和预测。
二、BI的核心要素1. 数据源数据源是BI系统的基础,它可以包括内部数据库、企业应用系统、云端存储、第三方数据供应商等。
通过合理选择和整合数据源,可以确保BI系统获得准确、全面的数据,并提高数据的可靠性和一致性。
2. 数据仓库数据仓库是BI系统中存储和管理数据的中心库,它采用多维数据模型,将不同数据源的数据整合到一个统一的数据模型中,方便用户对数据进行分析和查询。
数据仓库通常采用ETL(Extract, Transform, Load)的流程,对数据进行抽取、转换和加载,确保数据的质量和一致性。
3. 数据分析工具数据分析工具是BI系统中用于对数据进行处理、分析和可视化的软件工具,包括数据挖掘工具、报表工具、可视化工具等。
这些工具可以帮助用户从不同角度和层次理解数据,发现数据中的隐藏信息和关联规律,支持决策者进行数据驱动的决策。
4. 数据可视化数据可视化是BI系统的重要功能,它通过图表、仪表盘等可视化手段展示数据分析结果,提高用户对数据的理解和洞察能力。
数据可视化可以帮助用户直观地呈现数据,发现数据中的趋势和异常,以及进行数据的比较和分析。
三、BI的应用场景1. 销售分析BI系统可以帮助企业对销售数据进行分析,包括销售额、销售渠道、客户分布等方面的数据。
通过对销售数据的分析,企业可以了解销售情况,找出销售瓶颈和机会,制定销售策略和预测销售趋势。
2. 运营分析BI系统可以对企业的运营数据进行分析,包括生产效率、成本控制、供应链管理等方面的数据。
bi基础知识 -回复

bi基础知识-回复BI基础知识: 了解商业智能商业智能(Business Intelligence,BI)是一个涵盖多个领域的概念,包括数据分析、数据可视化、报告和仪表板等。
它综合运用技术和工具来帮助企业从海量数据中提取有价值的信息,以支持决策制定和业务运营。
本文将从BI的定义、组成部分以及关键性步骤展开,详细介绍BI基础知识。
第一部分:商业智能的定义与概述1. 什么是商业智能?商业智能是指利用技术和工具来收集、整理、分析企业内外部数据,提供有意义的信息以支持决策制定和业务运营的一种智能化方法。
2. 商业智能的价值和意义商业智能可以帮助企业实现数据驱动的决策,并从中获得以下几方面的价值:- 改善决策质量:通过分析和可视化数据,帮助决策者深入了解企业状况,从而做出更明智的决策;- 提高工作效率:通过自动化数据收集和分析过程,减少人工工作量,节省时间和成本;- 发现商机或问题:通过挖掘数据中隐藏的模式和趋势,帮助企业发现新的商机或解决问题;- 优化业务流程:通过数据分析和报表,帮助企业识别业务流程中的瓶颈和改进机会。
第二部分:商业智能的组成部分1. 数据仓库与数据集成数据仓库是商业智能的基础,它是一个集成的、主题导向的、相对稳定的数据存储区域,用于支持业务智能分析和决策制定。
数据集成则是将来自不同数据源的数据整合到数据仓库中。
2. 数据清洗与转换数据清洗与转换是将原始数据进行清洗、过滤、整理和重构,以使其符合数据分析和报表的要求。
这一步骤包括数据去重、格式标准化、缺失数据填充等。
3. 数据分析与挖掘数据分析与挖掘是应用统计学和机器学习技术来发现数据中的模式、趋势和关联性。
常见的分析技术包括数据探索、预测分析、聚类分析等。
4. 可视化与报表可视化与报表是利用图表、图形和仪表板等方式将分析结果可视化呈现,以便于业务人员理解和使用。
这可以通过数据可视化工具或自定义开发实现。
第三部分:构建商业智能系统的关键步骤1. 确定业务目标和需求首先,明确商业智能系统的目标和需求,了解企业的业务需求和决策制定过程,以帮助指导后续的数据模型设计和分析内容。
BI 基础培训

将BW的管理自动化
图形化的设计和监控
可以计划安排在后台 运行
雇佣
员工组 员工子组 雇佣状态 公司代码 服务年长 工龄
成本中心 主成本中心控制范围 主成本中心
InfoCube
付款 工资核算范围 支付等级范围 工资等级组 工资等级水平 支付等级类型
关键指标:反映状况的具体值
时间 日历年/月 日历年度/季度 日历年 日历月 季度
在SAP BW数据流中的转换
SAP BW中的处理链
人力资源
Table of employees
EMPLO COST_CENTER ...
InfoObject “0costcenter ”
成本中心
BW基本概念:InfoObject
Characteristics (特性)例如 “成本中心”, “客户名称”, “功能范围”
特殊类型的特性:
•
时间特性 与时间相关的特性“财务期间”, “日历年”, ...
OLTP 与 OLAP区别
特征 主要操作 分析的程度 每一交易的数据量 数据类型 数据的时限 对数据的更新 数据库设计 交易/用户数 响应时间 每交易访问的表数 处理类型
OLTP 更新 低 很小 明晰的 主要操作当前数据 频繁 复杂 多 快 若干 定义好的
OLAP 分析
高 很大 汇总的 当前和历史的 不频繁,只有新数据 简单
DSO (Data Store Object ) DSO由特性和关键指标组成,与 R3的数据库表结构相似,存放 的是明细数据,例如销售订单行 项目信息。其作用是集合、清洗 和存储业务数据。
BW基本概念:InfoCube(信息立方体)
Info Cube是具有数据对象和数据提供器功能的对象 包括2种类型的信息对象
BI基础知识测试以及答案

BI基础知识测试以及答案BI 基础知识测试以及答案一、填空题:每空1分,共40分1、商业智能技术(Business Intelligence),以数据仓库、在线分析(OLAP) 、数据挖掘为核心技术,同时融合了关系数据库和联机分析处理技术2、数据抽取在技术上主要涉及互连、复制、增量、转换、调度、监控以及数据安全性等方面。
3、业界主要的数据抽取工具有SSIS 、PowerCenter 、DataStage和Sagent等4、业界主要的OLAP Server有:IBM OLAP Server 、SSAS 等5、业界主要的前端工具:Cognos 、BO 、Brio 、BI.Office等6、多维数据结构是OLAP的核心,其组织形式包括星型模型,雪花模型。
7、维度分类包括:普通维、雪花维、父子维8、数据仓库基本元素包括:关系型数据库、数据源、事实表、维表、索引9、多维模型设计基本元素:维度(级别、成员)、度量值(指标) 、计算值、存储方式、角色权限和安全机制10、项目的具体的实施步骤:1). 项目前期准备;2). 需求分析;3). 逻辑数据模型设计;4). 系统体系结构设计;5). 物理数据库设计;6). 数据转换加载ETL;7). 前端应用开发;8)、数据仓库管理(处理流程与操作) ;9)、解决方案集成(测试验收与试运行)11、数据挖掘的模式,按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。
在实际应用中,往往根据模式的实际作用细分为以下6 种:1)、分类模式2)、回归模式3)、时间序列模式4)、聚类模式5)、关联模式6)、序列模式二、问答题:共60分12、(6分)请说明BI技术体系之间是如何实现互补的?数据仓库技术:数据整合集成各系统的历史数据,建立面向主题的企业数据中心在线分析处理技术:数据分析灵活、动态、快速的多维分析、随机查询、即席报表数据挖掘技术:知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策13、(9分)请简述一下数据仓库系统的显著特征一、频繁的变化数据仓库系统在任何企业信息系统中都是最不稳定的环节,对数据仓库各个部分的调整和修改十分频繁。
BI是什么

本文来自CSDN博客,转载请标明出处:/zxs9999/archive/2008/09/29/2995086.aspx"BI"是什么?大家来说说,如何通俗地表述"BI"是什么?昨天试图给一位非业内人士描述BI是什么,从报表讲到决策支持,完了看着对方,四目相对。
发现自己说了一堆废话,这难道不是很尴尬的事情吗?因此,如何将BI、商务智能、数据仓库、挖掘这些听起来曲高和寡的名词,表述地让人更容易明白?还请大家伙出出主意。
确实是啊,碰到不明白的怎么说都不清楚呀如果是我遇到了,就不要再提什么BI阿,report阿直接举个例子,如何快速的在一个堆满货物的仓库里找到自己想要的东西,而bi就是手电筒,呵呵这种说法可以吗:企业里有大量的、分布于各个计算机系统的数据,把这些数据进行整理、分析,找到其中有价值的信息,为企业的经营决策提供依据。
是指BI的定义吗:“以实现价值成果为目标,对资源及其组织过程的智能化管理方法”BI或者DW在业内现在尚无一个统一的精确的说法,就BI和DW本身也往往存在争论。
我的理解,BI更多时候指的是前端应用部分,而DW更多时候指的是后端部分(包括架构体系的建立)。
目前也没有一个术语能够在完整的,准确的表达出从后端数据采集直至前端应用这么一个端到端的过程。
Inmon提出的CIF(企业信息工厂)倒是能够涵盖整个过程,然而这个概念似乎太大了一点(整个外部世界都涉及在内,从而形成了一个“信息”生态系统)。
当然我们往往会将BI或者DW的范围进行扩大,而在与客户或者非业内人士沟通时候,我觉得可以根据用户本身的类别(压根儿没听过BI/有一些了解/熟悉/专家级别)将BI这个概念进行诠释。
譬如:对于一无所知的受众,那么我觉得举例子可能会更形象一些(下定义似乎不太现实),我经常就会根据用户对相应行业的熟悉程度进行举例,例如,大部分人对零售都有一定了解,那么这个时候不妨举购物篮子分析说明BI的部分作用,进而说明BI可以从数据中发现知识(KDD)等等。
数据仓库-数据集市-BI-数据分析-介绍

数据仓库-数据集市-BI-数据分析-介绍数据仓库数据集市BI数据分析介绍在当今数字化的时代,数据已经成为企业和组织最宝贵的资产之一。
如何有效地管理、分析和利用这些数据,以获取有价值的信息和洞察,成为了摆在众多企业面前的重要课题。
在这个过程中,数据仓库、数据集市、商业智能(BI)和数据分析等技术和概念发挥着至关重要的作用。
接下来,让我们一起深入了解一下这些概念。
数据仓库,简单来说,就是一个用于存储和管理企业数据的大型数据库系统。
它的目的是将来自不同数据源(如操作系统、数据库、文件等)的数据整合到一个统一的、一致的环境中,以便进行分析和决策支持。
数据仓库中的数据通常是经过清洗、转换和集成的,以确保数据的质量和一致性。
它采用了特定的架构和技术,如星型模式、雪花模式等,来优化数据的存储和查询性能。
数据仓库就像是一个大型的数据仓库,将各种各样的数据收集起来,经过整理和分类,以便后续的使用。
与数据仓库密切相关的是数据集市。
数据集市可以看作是数据仓库的一个子集,它专注于特定的业务领域或主题,例如销售数据集市、客户数据集市等。
数据集市的数据来源于数据仓库,经过进一步的筛选和加工,以满足特定业务部门或用户的需求。
数据集市的规模通常比数据仓库小,但更具针对性和灵活性,能够更快地提供相关的数据和分析结果。
接下来,我们谈谈商业智能(BI)。
BI 是一套用于将数据转化为有价值的信息和知识的技术和工具。
它包括数据报表、数据可视化、数据挖掘、联机分析处理(OLAP)等功能。
通过 BI 系统,用户可以以直观的方式查看和分析数据,从而发现数据中的趋势、模式和关系。
BI 帮助企业管理层做出更明智的决策,提高企业的竞争力和运营效率。
例如,通过数据报表,管理层可以清晰地了解企业的销售业绩、成本支出等情况;通过数据可视化,复杂的数据可以以图表、地图等形式展现,更容易理解和分析。
数据分析则是一个更广泛的概念,它涵盖了从数据收集、数据处理、数据分析到结果解释和报告的整个过程。
bi基础知识

bi基础知识【原创实用版】目录1.BI 的含义2.BI 的发展历程3.BI 的应用领域4.BI 的关键技术5.我国在 BI 领域的发展正文1.BI 的含义BI,即商业智能(Business Intelligence),是一种通过运用数据分析、数据挖掘等技术,使企业能够更加准确地了解其业务状况,从而辅助决策和提升业务效率的管理方法。
BI 可以帮助企业实现对业务的实时监控、数据驱动的决策以及智能化的运营。
2.BI 的发展历程商业智能的发展可以分为以下几个阶段:(1)早期数据分析:20 世纪 60 年代,企业开始使用计算机进行数据分析,主要用于财务管理和库存管理。
(2)数据仓库和 OLAP:20 世纪 90 年代,数据仓库和联机分析处理(OLAP)技术的出现,使得企业可以大规模地存储和分析数据,从而为决策者提供更加全面和准确的信息。
(3)数据挖掘和大数据:随着互联网的普及和数据量的快速增长,数据挖掘和大数据技术逐渐成为 BI 领域的热点。
这些技术可以帮助企业从海量数据中发现有价值的信息,为决策提供支持。
3.BI 的应用领域商业智能的应用领域非常广泛,主要包括:(1)销售与营销:通过分析销售数据、客户行为等,为企业制定更加有效的销售策略和营销活动。
(2)生产与供应链:通过对生产、库存、物流等环节的数据分析,优化生产流程,降低成本,提高供应链效率。
(3)财务管理:通过对财务数据的实时监控和分析,帮助企业实现财务风险的防范和控制,提高资金使用效率。
(4)人力资源管理:通过对员工的招聘、培训、绩效等方面的数据分析,优化人力资源配置,提高员工的工作效率和满意度。
4.BI 的关键技术商业智能领域的关键技术主要包括:(1)数据仓库:用于存储和管理企业级数据,为 BI 系统提供数据支持。
(2)数据挖掘:通过挖掘大量数据,发现潜在的规律、趋势和关联关系,为决策者提供有价值的信息。
(3)数据可视化:将复杂的数据以直观、易懂的方式呈现出来,帮助决策者快速理解数据信息。
BI、数据仓库、OLTP、OLAP

BI、数据仓库、OLTP、OLAP⼀、BI 商业智能(Business Intelligence,简称:BI),⼜称商业智慧或商务智能,指⽤现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进⾏数据分析以实现商业价值。
商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了⼀系列的概念和⽅法,通过应⽤基于事实的⽀持系统来辅助商业决策的制定。
商业智能技术提供使企业迅速分析数据的技术和⽅法,包括收集、管理和分析数据,将这些数据转化为有⽤的信息,然后分发到企业各处。
⼆、数据仓库 Data Warehouse,可简写为DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据⽀持的战略集合。
它是单个数据存储,出于分析性报告和决策⽀持⽬的⽽创建。
为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库是⾯向主题的;操作型数据库的数据组织⾯向事务处理任务,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织。
主题是指⽤户使⽤数据仓库进⾏决策时所关⼼的重点⽅⾯,⼀个主题通常与多个操作型信息系统相关。
数据仓库是集成的,数据仓库的数据有来⾃于分散的操作型数据,将所需数据从原来的数据中抽取出来,进⾏加⼯与集成,统⼀与综合之后才能进⼊数据仓库 概括来说,数据仓库系统是指具有综合企业数据的能⼒,能够对⼤量企业数据进⾏快速和准确分析,辅助做出更好的商业决策的系统。
它本⾝包括三部分内容:1、数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中⼼信息数据库中。
2、应⽤层:通过联机分析处理,甚⾄是数据挖掘等应⽤处理,实现对信息数据的分析。
3、表现层:通过前台分析⼯具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在⽤户⾯前。
从应⽤⾓度来说,数据仓库系统除了联机分析处理外,还可以采⽤传统的报表,或者采⽤数理统计和⼈⼯智能等数据挖掘⼿段,涵盖的范围更⼴;就应⽤范围⽽⾔,联机分析处理往往根据⽤户分析的主题进⾏应⽤分割,例如:销售分析、市场推⼴分析、客户利润率分析等等,每⼀个分析的主题形成⼀个OLAP应⽤,⽽所有的OLAP应⽤实际上只是数据仓库系统的⼀部分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1BIBusiness Intelligence,即商业智能,商务智能综合企业所有沉淀下来的信息,用科学的分析方法,为企业领导提供科学决策信息的过程。
BOSS业务运营支撑系BPM企业绩效管理BPR业务流程重整CRM客户关系管理CUBE立方体DM(Datamart)数据集市数据仓库的子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
DM(DataMine)数据挖掘DSS决策支持系统EDM企业数据模型3ERPEnterprise Resourse Planning企业资源规划。
它是一个以管理会计为核心的信息系统,识别和规划企业资源,从而获取客户订单,完成加工和交付,最后得到客户付款。
换言之,ERP将企业内部所有资源整合在一起,对八个采购、生产、成本、库存、分销、运输、财务、人力资源进行规划,从而达到最佳资源组合,取得最佳效益。
4ETL数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。
构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
KDD数据库中知识发现5 KPI企业关键业绩指标(KPI:KeyProcessIndication)是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。
LDM逻辑数据模型6 MDD多维数据库(Multi Dimesional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。
因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。
多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。
Metadata(元数据),它是“关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义、数据的抽取规则、数据的转换规则、数据加载频率等信息。
MOLAP自行建立了多维数据库,来存放联机分析系统数据7 ODS(四个特点)(Oprational Data Store)操作型数据存储,是建立在数据准备区和数据仓库之间的一个部件。
用来满足企业集成的、综合的操作型处理需要,操作数据存储是个可选的部件。
对于一些准实时的业务数据库当中的数据的暂时存储,支持一些同时关连到历史数据与实时数据分析的数据暂时存储区域。
8 什么是数据集市DM数据集市可以看作是数据仓库的一个子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
二数据仓库DWDatawarehouse,数据仓库是一个集合或过程,4要素面向主题,集成,时间相关(反映历史变化),(稳定)不可修改的数据集合。
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。
与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。
下图是一个典型的企业数据仓库系统,通常包含数据源、数据存储与管理、数据的访问三个部分:最为重要的一张图这张图可以看出四个特点中,面向对象,集成,数据源:是指企业操作型数据库中的各种生产运营数据即OLIP数据的存储与管理:数据仓库的存储主要由元数据的存储及数据的存储两部分组成。
元数据是关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义、数据的抽取规则、数据的转换规则、数据加载频率等信息。
各操作数据库中的数据按照元数据库中定义的规则,经过抽取、清理、转换、集成,按照主题重新组织,依照相应的存储结构进行存储数据的访问:由OLAP(联机分析处理)、数据挖掘、统计报表、即席查询等几部分组成。
例如OLAP:针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。
按照存储方式来分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP (Multi-Dimension OLAP)将OLAP分析所需的数据存放在多维数据库中。
分析主题的数据可以形成一个或多个多维立方体。
ROLAP(Relational OLAP)将OLAP分析所需的数据存放在关系型数据库中。
分析主题的数据以“事实表-维表”的星型模式组织。
三企业信息工厂企业信息工厂(Corporate Information Factory,简称EIF)是一种构建数据仓库的架构。
企业信息工厂主要包括五个集成转换层(I&T)、操作数据存储(ODS)、企业级数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。
这些部件有机的结合在一起,为企业提供信息服务。
企业级数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。
一般,也称数据仓库,是用来满足企业战略决策的需要。
数据仓库的数据来自数据准备区和操作数据存储。
数据集市的数据来源是数据仓库。
企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。
而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。
一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。
企业信息工厂中的数据流向一般是从源系统到数据准备区到操作数据存储到数据仓库到数据集市维Dimension维,是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。
商店、时间和产品都是维。
各个商店的集合是一个维,时间的集合是一个维,商品的集合也是一个维。
代理关键字(维ID)代理关键字一般是指维度表中使用顺序(序列)分配的整数值作为主键,也称为“代理键”。
代理关键字用于维度表和事实表的连接。
使用代理关键字可以用来处理缓慢变化维。
维度表数据的历史变化信息的保存是数据仓库设计的实施中非常重要的一部分。
Kimball的缓慢变化维处理策略的核心就是使用代理关键字。
优点1缓冲2性能3建不存在的维度记录4缓慢变化维处理缓慢变化维(能力的体现)随着时间的流失发生缓慢的变化处理缓慢变化维的方法通常有三种方式:第一种方式是直接覆盖原值。
这样处理,最容易实现,但是没有保留历史数据,无法分析历史变化信息。
第一种方式通常简称为“TYPE 1”。
第二种方式是添加维度行。
这样处理,需要代理键的支持。
实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。
第二种方式通常简称为“TYPE 2”。
第三种方式是添加属性列。
这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,而本属性字段使用TYPE 1来直接覆盖。
这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。
第三种方式通常简称为“TYPE 3”。
退化维度事实表中的部分ID如订单号,但他没有对应的维度表,这编号称为退化维微型维度为了解决快变超大维度,解决的方法是,将分析频率比较高或者变化频率比较大的字段提取出来,建立一个单独的维度表。
这个单独的维度表就是微型维度表。
多维体系结构(MD)中的三个关键性概念,一致性维度,总线架构(Bus Architecture)和一致性事实(Conformed Fact)一致性维度解决数据仓库的集成问题在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成逻辑上的数据仓库。
而且数据集市的建立是可以逐步完成的,最终组合在一起,成为一个数据仓库。
如果分步建立数据集市的过程出现了问题,数据集市就会变成孤立的集市,不能组合成数据仓库,而一致性维度的提出正式为了解决这个问题。
一致性维度的范围是总线架构中的维一致性维度建立的地点是多维体系结构的后台(Back Room),即数据准备区。
在同一个集市内,一致性维度的意思是两个维度如果有关系事实表,主要有三种事实表,分别是事务粒度事实表(Transaction Grain Fact Table),周期快照粒度事实表(Periodic Snapshot Grain Fact Table)和累积快照粒度事实表(Accumulating Snapshot Grain Fact Table);从用途的不同来说,事实表可以分为三类,分别是原子事实表,聚集事实表和合并事实表。
粒度分类事务事实表(Transaction fact table)记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”周期快照事实表(Periodic snapshot fact table)以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等等用途分类聚集事实表(Aggregated Fact Table)是原子事实表上的汇总数据,也称为汇总事实表如只有月度维,求和,平均值等合并事实表建立一个事实表,它的维度是两个或多个事实表的相同维度的集合聚集事实表和合并事实表的主要差别是合并事实表一般是从多个事实表合并而来。
但是它们的差别不是绝对的,一个事实表既是聚集事实表又是合并事实表是很有可能的。
因为一般合并事实表需要按相同的维度合并,所以很可能在做合并的同时需要进行聚集,即粒度变粗。
非重点预连接聚集表(pre-joined aggregagte table)是通过对事实表和维度表的联合查询而生成的一类汇总表。
在预连接聚集表中,保存有维度表中的描述信息和事实表的事实值。
切片事实表切片事实表的结构与相对应的基础表相同,数据来源于相对应的基础表。
切片事实表由于缩小了表中数据的记录数,所以查询的效率得到了很大的提高蜈蚣事实表)是指那些一张事实表中有太多维度的事实表事实表相关的维度在15个以下为正常,如果维度个数超过25个,就出现了维度过多的蜈蚣事实表一致性事实一致性事实和一致性维度有些不同,一致性维度是由专人维护在后台(Back Room),发生修改时同步复制到每个数据集市,而事实表一般不会在多个数据集市间复制。
需要查询多个数据集市中的事实时,一般通过交叉探查(drill across)来实现。
1.5 数据集市即席查询即席查询的位置通常是在关系型的数据仓库中ODS:操作数据存储(ODS)是面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合,用来满足企业综合的、集成的以及操作型的处理需求。
个人不建议ODS保存相当长周期的数据,同样ODS中的数据也尽量不做转换,而是原封不动地与业务数据库保持一致。