EC环境下高性能数据仓库平台的设计

合集下载

企业大数据平台的建设与优化

企业大数据平台的建设与优化

企业大数据平台的建设与优化随着信息化程度的提升,越来越多的企业开始依托数据实现业务决策。

同时,企业内部的业务也变得日益复杂,数据的处理效率和准确性对企业的经济效益、营销策略、风险把控等方面影响越来越大,因此建设和优化企业大数据平台已经成为了企业重要的一部分。

一、企业大数据平台的概念和分类企业大数据平台(Enterprise Big Data Platform)是指企业搭建的一个大数据分析和应用平台,用于对企业中不同来源具有多结构的大数据进行存储、管理、分析和展示,实现信息化系统的统一数据处理和交换。

按照平台的运行方式和需求分析的复杂度,可以将企业大数据平台划分为以下几类:1.数据仓库(DW)平台:主要用于企业内部的数据存储和管理,提供数据的统一来源,用于支持企业级报表、分析以及监控等功能。

2.商业智能(BI)平台:基于数据仓库,提供数据分析、机器学习、数据挖掘、数据可视化等新型智能化业务分析功能,帮助企业更好的发现并解决问题。

3.大数据分析(DA)平台:以高性能分布式计算及大数据分析技术为核心,通过分析海量数据发现商业机遇,解决业务问题,支撑商业智能。

二、企业大数据平台的建设如何建设企业大数据平台是每个企业都要思考的问题。

一般来说,企业大数据平台建设包括以下几个方面:1.规划和设计企业大数据平台建设必须从规划和设计阶段开始,明确目标、业务需求、架构等,根据规划目标以及业务特点,选择相应的平台架构和存储方案,在架构设计走向标准化和通用化的背景下,企业在选择架构时应尽量选择已经广泛运用且业界认可的开源架构,在成本和效益上取得平衡。

2.数据收集和管理数据收集是大数据平台能否运作的基础,在大数据治理及数据治理架构设计阶段,企业需规划数据的抽取、清洗、加载、转换等过程,将数据汇集到一个中央系统里进行管理。

企业平台的数据库只处理数据,而不考虑如何展示,以保证数据管理和数据应用相互独立,方便未来的系统扩展和开发。

数据仓库的架构方式及其比较

数据仓库的架构方式及其比较

数据仓库的架构方式及其比较数据仓库的架构方式及其比较传统的关系数据库一般采用二维数表的形式来表示数据,一个维是行,另一个维是列,行和列的交叉处就是数据元素。

关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。

数据仓库是多维数据库,它扩展了关系数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但不管是哪一种架构,维度表、事实表和事实表中的量度都是必不可少的组成要素。

下面解析由这些要素构成的数据仓库的架构方式。

1.星形架构星形模型是最常用的数据仓库设计结构的实现模式,它使数据仓库形成了一个集成系统,为最终用户提供报表服务,为用户提供分析服务对象。

星形模式通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来支持各种决策查询。

星形模型可以采用关系型数据库结构,模型的核心是事实表,围绕事实表的是维度表。

通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。

维度表中的对象通过事实表与另一维度表中的对象相关联这样就能建立各个维度表对象之间的联系。

每一个维度表通过一个主键与事实表进行连接,如图3-10所示。

图3-10 星形架构示意图事实表主要包含了描述特定商业事件的数据,即某些特定商业事件的度量值。

一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中,维度表主要包含了存储在事实表中数据的特征数据。

每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要求事实表中的外键不能为空,这与一般数据库中外键允许为空是不同的。

这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度关键字,以便连接到中心的事实表,进行查询,这样就可以减少在事实表中扫描的数据量,以提高查询性能。

在AdventureWorksDW数据仓库中,若以网络销售数据为事实表,把与网络销售相关的多个商业角度(如产品、时间、顾客、销售区域和促销手段等)作为维度来衡量销售状况,则这些表在数据仓库中的构成如图3-11所示,可见这几个表在数据仓库中是以星形模型来架构的。

《系统集成项目管理工程师》第1章、第6章、第9章合集选择试题(含答案共87页)

《系统集成项目管理工程师》第1章、第6章、第9章合集选择试题(含答案共87页)

第一章《信息化知识》1、信息系统的()决定了系统可以被外部环境识别,外部环境或者其他系统可以按照预定的方法使用系统的功能或影响系统的行为。

A.可嵌套性B.稳定性C.开放性D.健壮性【答案】C【解析】P5,系统的开放性是指系统的可访问性。

这个特性决定了系统可以被外部环境识别,外部环境或者其他系统可以按照预定的方法,使用系统的功能或者影响系统的行为。

2、在实际的生产环境中,()能使底层物理硬件透明化,实现高性能物理硬件和老旧物理硬件的重组重用。

A.通讯技术B.智能化技术C.遥感和传感技术D.虚拟化技术【答案】D【解析】P14,本题考查虚拟化技术的作用。

虚拟化技术主要包括服务器虚拟化、内存虚拟化、存储虚拟化、网络虚拟化、应用虚拟化及桌面虚拟化。

3、企业信息化结构不包括()。

A.数据层B.作业层C.管理层D.决策层【答案】A【解析】P36,企业信息化结构分层包括:产品(服务)层、作业层、管理层、决策层。

4、在重点领域十点建设智能工厂、数字化车间、加快人工智能交互、工业机器人、智能物流管理等技术在生产过程中的应用,属于制造过程()。

A.信息化B.智能化C.标准化D.工业化【答案】B5、()是连接原始电子商务和现代电子商务的纽带。

A.EDIB.WebC.HTTPD.E-mail【答案】A【解析】P69,EDI是连接原始电子商务和现代电子商务的纽带。

6、实施商业智能的步骤依次是:需求分析、()、建立商业智能分析报表、用户培训和数据模拟测试、系统改进和完善。

A.数据仓库建模、数据抽取B.数据仓库建模、规划系统应用架构C.规划系统应用架构、数据仓库建模D.数据抽取、数据仓库建模【答案】A7、大数据具有的特点包括:Volume(大量)、Velocity(高速)、()。

①可验证性(Verifiable)②真实性(Veracity)③多样(Variety)④价值(Value)、A.①③④B.②③④C.①②④D.①②③【答案】B【解析】P84,大数据5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

高性能计算平台中的数据仓库设计与优化

高性能计算平台中的数据仓库设计与优化

高性能计算平台中的数据仓库设计与优化随着大数据时代的到来,数据仓库设计和优化变得越来越重要。

在高性能计算平台中,数据仓库的设计和优化尤为关键。

本文将深入探讨高性能计算平台中数据仓库的设计原则和优化方法。

一、数据仓库设计原则1. 数据模型设计:在高性能计算平台中,数据模型设计是数据仓库设计的关键。

一个良好的数据模型能够提高数据查询和分析的效率。

常见的数据模型包括星型模型和雪花模型。

根据实际情况选择合适的数据模型,并进行细致的设计和优化。

2. 数据抽取和加载:高性能计算平台中的数据仓库需要从各种数据源中抽取和加载数据。

在进行数据抽取和加载时,需要考虑到数据的规模和复杂性。

采用合适的ETL工具和技术,确保数据准确地加载到数据仓库中,同时保证数据的一致性和完整性。

3. 数据存储和索引:在高性能计算平台中,数据存储和索引的设计对查询和分析的速度有着重要的影响。

采用适当的存储和索引方式,能够大大提高数据的读取和查询的效率。

同时,考虑到数据的增长和变化,需要进行定期的数据存储和索引的优化,以提高系统的性能。

4. 数据查询和分析:高性能计算平台中的数据仓库需要能够支持复杂的查询和分析需求。

在设计和优化数据查询和分析的过程中,需要考虑到数据的分布和分区,以及查询的效率和准确性。

采用合适的查询语言和工具,能够快速和准确地进行数据查询和分析。

二、数据仓库优化方法1. 数据分区和压缩:在高性能计算平台中,数据分区和压缩是数据仓库优化的重要方法。

通过将数据分为不同的分区,可以提高数据读取和查询的效率。

同时,采用数据压缩技术可以减少数据的存储空间,提高系统的性能。

2. 查询优化:在高性能计算平台中,查询优化是数据仓库优化的关键。

通过合理设计查询语句和索引,以及使用查询优化技术,能够提高查询的效率和准确性。

同时,考虑到查询的复杂性和数据的规模,需要进行定期的查询优化,以保证系统的性能。

3. 并行计算和分布式存储:在高性能计算平台中,采用并行计算和分布式存储技术,能够提高数据仓库的处理性能。

数据仓库设计方案

数据仓库设计方案

数据仓库设计方案【正文】一、引言数据驱动的决策已经成为企业中不可或缺的一部分。

为了有效地管理和分析海量的数据,数据仓库设计方案应运而生。

本文将介绍数据仓库的概念、设计原则和关键步骤,帮助企业构建高效可靠的数据仓库。

二、数据仓库概述数据仓库是指将各类数据整合、清洗、转化并存储于统一的数据存储区域,旨在为决策支持系统提供准确可靠的数据服务。

其设计方案需要考虑多个方面,包括数据源、数据的抽取与转换、数据建模和数据的加载等。

三、数据仓库设计原则1. 一致性:数据仓库应该保持与源系统的数据一致性,确保决策所依据的数据准确无误。

2. 高性能:数据仓库需要具备高性能的查询和分析能力,以满足用户对数据的实时性和响应性要求。

3. 安全性:严格管理数据仓库的访问权限,确保敏感数据的安全性和隐私保护。

4. 可扩展性:数据仓库需要具备良好的扩展能力,能够适应数据量的增长和业务需求的变化。

5. 可维护性:数据仓库的设计应该具备良好的可维护性,便于数据的更新、维护和监控。

四、数据仓库设计步骤1. 需求分析:明确数据仓库的功能和目标,分析业务需求和数据源的特点,为后续的设计提供指导。

2. 数据抽取与转换:根据需求分析的结果,选择合适的数据抽取方式,并进行数据的清洗、转换和集成。

3. 数据建模:根据业务需求和数据源的特点,设计数据仓库的物理和逻辑模型,并建立相应的维度表和事实表。

4. 数据加载:将清洗和转换后的数据加载到数据仓库中,并进行合理的存储和索引,以便进行后续的查询和分析。

5. 数据质量控制:定期监控数据仓库的数据质量,并进行必要的修复和优化,确保数据准确无误。

6. 安全管理:建立合适的权限控制机制,确保数据仓库的安全性和合规性。

五、数据仓库设计工具和技术1. ETL工具:ETL(Extract-Transform-Load)工具可以帮助实现数据的抽取、转换和加载,实现数据仓库的数据集成和清洗。

2. 数据建模工具:数据建模工具可以辅助设计数据仓库的物理和逻辑模型,提供建模、维护和文档化的功能。

商业智能中数据仓库的设计

商业智能中数据仓库的设计

实施 C F PR的第一步 就是要 求供应企业和零售企业一起通过 协 商 确定处理订单的业务流程 以及控制库存的有关参数 . 比如: 订单最小批量 、交货期 、订单间隔、再订货点、最低库存水平等 。
2 建立贯穿供应链的信息集成系统 . 有效的 C F 系统要求集中协调不同企业的关键数据 .比如: PR
5 建立必要的绩效评价系统 .
企 业核心竞争力 。正是在这个背景下 企业决定实施商务 智能 。 二 、商业智能项 目概述
公司选用 Bs es b c X 软件作为展现工具 数据仓库选 ui sO j t I n e 用 oal 9企业版 ( . . . ) 总体架构如下 : rc i e 92 0 6
【】 5张 群 来守林 :P E技 术在连锁超市 的应 用[ . CF J 商业研 】 【 卅李玉 良 邵新 宇 李培根
据仓库的主要的数据来源。包括 B A A N的EP R 系统 电子商务平台, 高 亮:PR一 供应链库存管 SI 物流系统 .包装系统 .还有一些外部数据源。例如 E C L CFr L M4 X E 表。 理技术的新趋 势【 . J 机械设 计与制造工程 ,0 l ) 】 2 0( 3 2D 服务器 (aa ae 。D 服务器存储数据仓库的相 关数 .W dtw r) W 【 万华: 5 当前我 国零售业 面临的问题 和对策[ . J 边疆经济 与 】 据。 根据数据特性的不同。有可 以划分到不同的区域 采 用oal r c e
对供应商及整个供应链 的影响 。
五 .结束语
C F是基于零售企业和供应企业双方有 良好的合作基础之上 PR
的 在此基础上 双方共同做 出业务计划 .实现双方之间的无缝 衔接。C F 代 表了未来供应链 管理技术的发展方向 国外发达 国 PR

XX公司数据仓库建设项目方案

XX公司数据仓库建设项目方案

XX公司数据仓库建设项目方案项目背景XX公司是一家大型企业,面临着日益增长的数据量和日益复杂的数据分析需求。

为了有效管理和利用这些数据,公司决定建设一个数据仓库。

项目目标本项目的目标是建立一个可靠、可扩展且高性能的数据仓库,以支持公司内部各部门和团队的数据分析需求。

具体目标如下:1. 集成数据:将来自不同数据源的各类数据进行汇总和集成,建立统一的数据模型。

2. 数据清洗和转换:提供数据清洗和转换功能,确保数据的准确性和一致性。

3. 数据存储和管理:提供高效的数据存储和管理机制,包括数据备份、恢复和访问控制等功能。

4. 数据查询和分析:提供灵活、高效的数据查询和分析功能,支持各种复杂的数据分析操作。

5. 数据可视化:提供直观、易懂的数据可视化工具,帮助用户更好地理解和分析数据。

项目实施方案本项目将采用以下实施方案:1. 技术选型:根据公司的需求和预算,选择合适的数据仓库解决方案和相关技术工具。

2. 数据收集和集成:通过ETL(抽取、转换和加载)过程,从各个数据源中提取数据,并对其进行清洗和转换,最终加载到数据仓库中。

3. 数据模型设计:基于业务需求和数据分析目标,设计适合的数据模型,包括维度模型和事实模型等。

4. 数据存储和管理:建立高性能的数据存储和管理机制,选择合适的数据库技术和数据存储架构,确保数据的安全和可靠性。

5. 数据查询和分析:设计和实现高效的数据查询和分析接口,支持各类复杂查询和分析操作。

6. 数据可视化:集成数据可视化工具,将数据以直观的图表和报表形式展示,帮助用户更好地理解和分析数据。

项目进度计划本项目将按照以下进度计划进行实施:- 需求调研和分析:2周- 技术选型和方案设计:1周- 数据收集和集成:3周- 数据模型设计和构建:2周- 数据存储和管理系统搭建:1周- 数据查询和分析系统开发:2周- 数据可视化系统开发:1周- 系统测试和优化:2周- 用户培训和上线:1周风险与挑战在项目实施过程中,可能会面临以下风险和挑战:- 技术选型风险:选择的数据仓库解决方案和相关技术工具可能不适用于公司的实际需求。

数据仓库设计作业指导书

数据仓库设计作业指导书

数据仓库设计作业指导书一、背景介绍数据仓库是一种面向主题的、集成的、相对稳定的、不可操作的数据集合,用于支持业务分析和决策制定。

在数据仓库设计作业中,我们需要按照一定的步骤和方法,将原始数据进行抽取、转换和加载,构建一个适合分析和查询的数据仓库模型。

本指导书将引导您完成数据仓库设计作业,并提供相应的步骤和要点。

二、数据仓库设计步骤1. 需求分析在设计数据仓库之前,首先需要进行需求分析。

通过与业务用户的交流和调研,明确数据仓库的目标和用途,确定数据仓库要解决的问题,并明确需要提供的报表和查询需求。

2. 数据抽取与清洗在数据仓库设计中,数据抽取和清洗是非常重要的环节。

从各个数据源中抽取所需数据,并进行清洗,包括去重、去除空值、数据格式转换等,以确保数据的质量和准确性。

3. 数据转换与集成在数据仓库设计中,数据转换和集成是将原始数据转化为适合分析的形式,同时将来自不同数据源的数据整合在一起。

这一步骤包括数据规范化、数据合并、数据聚合等操作,以得到一致的数据模型。

4. 维度建模在数据仓库设计中,维度建模是一种常用的设计方法。

通过定义维度和事实表,建立维度模型,以支持灵活的数据分析和查询。

在维度建模过程中,需要定义维度表中的属性和层次,并与事实表进行关联。

5. 数据加载数据加载是将经过转换和整合的数据加载到数据仓库中的过程。

这一步骤包括数据加工和数据加载两个环节。

数据加工是对数据进行清洗和处理,数据加载是将清洗后的数据加载到数据仓库中的操作。

6. 数据访问数据访问是数据仓库设计的最终目标,通过各种工具和技术,实现数据的查询和分析。

数据访问可以通过数据仓库工具、OLAP工具、报表工具等方式进行。

三、数据仓库设计要点1. 主题导向:数据仓库的设计要以业务主题为导向,按照业务需求进行设计和建模,以支持相关业务的决策和分析。

2. 一致性和准确性:设计过程中需要确保数据的一致性和准确性,对于抽取的数据进行清洗和转换,去除重复值和不合法数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

EC环境下高性能数据仓库平台的设计摘要:随着网络技术的发展,电子商务作为一种全新的商务模式,已经深入到我们的工作、生活当中,因而构建支持电子商务的高性能数据仓库平台显得非常重要。

该文以此为出发点,讨论了电子商务环境下数据仓库平台的设计和实现,包括需求分析,逻辑设计和物理设计等。

关键词:电子商务;数据仓库;粒度中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)36-10554-02The Design of Data Warehouse Platform for EC EnvironmentGE Fu-hong, ZHANG Li-ping, LI Wei-min(College of Education Science and Technology, Shanxi Datong University, Datong 037009, China)Abstract: With the development of internet technology,e-commerce has become a new model for business and popular with us. So designing data warehouse platform for EC environment is very important. In this paper, we discuss the design of data warehouse platform for e-commerce environment, including requirement analysis, logical design and physical design.Key words: e-commerce; data warehouse; granulation电子商务EC( Electronic Commerce)是一种通过网络技术的应用,快速而有效地进行各种商业行为新技术,不仅指基于Internet 网上的交易,而且指所有利用Internet、Intranet和局域网来解决问题、降低成本、增加价值并创造新的商机的所有商务活动。

电子商务作为一种全新的商务模式已深入到人们的工作、生活当中。

电子商务将信息技术和网络技术与企业的商务活动紧紧地融合在一起,互相渗透、互相促进、实现了企业效益的快速增长。

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。

数据仓库的根本任务是把数据加以整理归纳,并及时提供给相应的管理决策人员,供他们做出改善其业务经营的决策,使信息发挥作用,支持决策。

数据仓库在电子商务中有着非常广泛的用途,如:客户追踪、控制商品库存、减少跳线率、一对一服务、决策信息服务等。

因此,构建一个基于电子商务的数据仓库决策支持系统,可以极大地提高电子商务企业的商业智能,从而占有更大的市场,提高市场竞争力。

本文着重对支持电子商务的高性能数据仓库平台的设计进行探讨。

1 电子商务数据仓库平台的设计1.1 数据仓库的平台的构成数据仓库平台是由硬件和软件两部分组成的。

硬件平台是大量数据存储和处理的基础;软件平台则用一个高效的且优化的方式来组织和管理数据。

一个高性能平台是任何一种高性能数据仓库环境的核心。

就是这种平台决定了数据仓库环境的处理能力和I/O速度,可以支持的用户数,以及可以存储的数据量。

一个高性能平台是由大量组件构成并在一条链中将这些组件有机组织起来。

由于数据仓库环境必须能够随着用户需求的增长而增长,要能够适应用户需求的变化,所以性能链中的每个组件必须能够支持快速增长和快速变化这种特性,保证数据仓库平台的可持续发展。

1.2 数据仓库的平台开发模型数据仓库设计的主要目标是确定一个模型使之能对决策支持处理进行优化,这个模型对商务分析人员必须清楚易懂,而且能够支持高速速查询。

数据仓库中的数据必须精确、一致、干净。

多维模型恰好能够满足了这些要求,可以采用星型模型来实现数据仓库系统,那么工作的重心集中在事实表和维表的建立上,而两者的建立主要是基于收集各种可能的OLAP(联机分析处理)分析。

图1显示了构建数据仓库多维模型的过程。

数据仓库平台的开发过程比较复杂,因为数据仓库中的数据是面向主题,因此其开发过程是一个数据驱动的过程,包括软硬件配置、体系结构的设计、技术的选择、开发环境等。

本文侧重介绍数据仓库体系结构的设计,但也需要考虑到硬件对整个数据仓库平台性能的影响,如各种服务器的选取、数据仓库数据库服务器、OLAP查询服务器、Web服务器。

整个平台使用Java为前端开发工具,微软SQL Server 2000 为目标数据库。

1.3 电子商务数据仓库平台开发过程1) 需求分析。

在实现系统之前,第一步是需求分析,它是数据仓库设计中非常重要的一部分,尤其是电子商务环境下,因为要捕获许多电子商务特有的数据,例如:①各种网页数据到Web数据库的转变;②元数据的处理;③支持数据库级的用户接口(如存储设计等);④模型的变化(如新产品,已售商品等);⑤在上下文环境下捕获click stream 数据。

2) 逻辑设计阶段。

这一阶段主要完成数据仓库逻辑模型和数据仓库体系结构的设计。

通过使用多个电子商务站点来寻求具体经验,同时模拟了许多商业场景来得出各种各样的OLAP查询,然后在这些查询的基础上进行分类,得出所需要的主题域,既要确定事实表的粒度和必要的维,又要确定维的属性。

设计时采用星型多维模型,这种数据模型直观且简化了数据结构,有助于提高查询的性能。

数据仓库中的每一个主题对应于一个星型模型结构,由事实表和若干维表组成,并按不同的粒度来存储数据。

在完成数据模型的构建之后,设计如图2所示的数据仓库体系结构。

这是一个3 层体系结构: 最底层是数据仓库服务器,这是一个关系数据库系统,把数据集市和元数据库也放在这一层;中间层为OLAP 服务器,它是一种特殊的服务器,可以直接实现多维数据和操作; 最顶层主要是应用服务器,主要是商业智能应用程序,包括查询和报告工具,OLAP分析和数据挖掘,以及各种报表生成工具。

在上面所提出的体系结构中,整个数据仓库平台由以下几个模块组成:①数据抽取、转换和加载模块。

其功能是从各种数据源抽取所需的数据,并通过清理和转换变成统一的数据格式,加载到数据仓库数据库中。

这里数据源的选取和数据质量是非常重要的,数据源主要包括ERP/CRM 数据、OLAP 数据、历史数据、外部数据(如人口统计数据和心理学数据)、click stream 数据等。

②元数据管理模块。

元数据是数据仓库中最重要的一部分,只要是支持和管理数据仓库的任何所需信息,都要写到元数据库中,元数据管理是控制企业数据仓库、Web 驱动的应用程序的关键部分。

系统实现了基于Web 的数据仓库访问,用户可以通过Meta data Browser 来访问和管理元数据。

③数据访问模块。

这个模块主要完成数据前端展现和各种OLAP 查询、分析、数据挖掘以及各种报表的生成。

④数据仓库管理和维护模块。

这个模块主要完成对数据仓库的日常维护和管理,涉及数据仓库的更新、备份,ETL规则的更新,平台性能的优化以及数据仓库的安全性等。

3) 物理设计阶段。

完成数据模型的设计后,就进入物理阶段设计,主要包括数据仓库物理模型的实现和硬件平台的配置。

这里重点考虑存储策略和索引技术,所有表的存放都要充分利用并行处理技术和多线程技术,这样来提高数据仓库性能。

在数据仓库环境下,主要使用位图索引和联合索引。

为加快今后查询的速度,同时还建立了很多汇总表和视图。

2 电子商务数据仓库平台设计中的若干关键问题2.1 数据源的选取电子商务的数据仓库数据来源很多,数据格式复杂,例如click stream 数据、IP 地址等。

如何捕获这些数据就成为数据仓库设计中非常困难的一点,例如如何追踪hyperlink 链接。

在数据源的选取过程中,要确保数据仓库中的数据是有效性和精确性。

2.2 物理数据库及数据模型的设计数据模型的建立在数据仓库数据库构建中很重要,为了提高数据仓库的性能,可采用非结构化的数据库,它通过最佳优化同一个物理块中的数据存放位置、减少频繁的表的连接。

同时采用星型模型来保存数据,图3是设计的销售数据仓库事实表的一个简化的星型模型。

Item_KeyItem_NameBrandTypeTime_KeyMonthQuarterYearTime_KeyItem_KeyLocation_KeyLocation KeyCityProvinceCountry2.3 数据的描述和存储策略使用XML来描述数据,可以很方便地在各种各样的系统中对这些数据进行互操作,而不必担心诸如平台、操作系统、语言、或是数据存储等各方面的不同,这样系统有灵活的扩展性和可移植性。

数据的存储策略及其访问是另一个需重点考虑的问题,为了对数据进行高效地访问和更新,对数据存放位置在物理的块、页一级上进行特殊的控制,并利用I/O并行性对数据并行存储和管理。

2.4 数据仓库的Web 访问所设计的数据仓库是基于电子商务的,为了使用户更多地了解企业,同时企业获得更大的利益和提高效率,系统允许通过浏览器对数据仓库访问。

2.5 可扩展性的硬件体系建立了数据仓库体系结构后,就需要用可扩展硬件来配置数据仓库平台,而且随着数据仓库的增长,要扩增硬件配置来满足新的处理需求。

除此之外,设计时还应该考虑查询的反应时间、报告的反应时间、数据抽取转换和加载的时间、数据仓库更新和刷新频率及其对机器资源的消耗等。

3 结束语企业通过构建一个基于数据仓库的电子商务平台,可以提高商业智能,也就提高了企业的竞争力。

数据仓库系统平台的构建是一个动态的反馈和循环的过程,是不断循环、螺旋式上升的,要根据用户所返回的信息不断地调整和完善,提高系统地效率和性能,这就要求数据仓库结构必须能够支持不断的更新和可扩展性需求。

参考文献:[1] Inmon B.Data Warehouse Performance[M].New York:JohnWiley&Sons Inc,1999(1):121-125.[2] 陈文平,夏红霞.事务数据向数据仓库转移的方法[J].武汉理工大学学报,2002,24:18-20.[3] 郝春吉.统计行业数据仓库构建及应用[J].微计算机信息,2006,5(3):21-24.[4] 夏红霞,赵杨,钟珞.数据仓库中的索引技术[J].微机发展,2000,6(10):31-32.[5] 钟珞,马志军.支持电子商务的数据仓库平台[J].武汉理工大学学报,2003,25:16-18.。

相关文档
最新文档