数据分析系统的总体架构(多维数据库)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多维数据库的概念并不复杂,(图四:pic4.jpg)举一个例子:我们想描述2003年4月份可乐在北部地区销售额10万元时,牵扯到几个角度:时间、产品、地区。这些叫做维度。至于销售额,叫做度量值。当然,还有成本、利润等。

这样一个模型,可以用一个三维的立方体来描述,每个维度分别代表了时间、产品和地区,立方体上的单元代表了度量值。

进一步,维度可以分为不同的层次,因此这个模型也可以回答诸如“2003年第一季度日用品在南方的销售情况”等。

扩展一下我们的想象,除了时间、产品和地区,我们还可以有很多维度,例如客户的性别、职业、销售部门、促销方式等等。实际上,使用中的多维数据库可能是一个8维或者15维的立方体。

虽然结构上15维的立方体很复杂,但是概念上非常简单,不是吗?

数据分析系统的总体架构分为四个部分:源系统、数据仓库、多维数据库、客户端(图五:pic5.jpg)

* 源系统:包括现有的所有OLTP系统,搭建BI系统并不需要您更改现有系统。

* 数据仓库:数据大集中,通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次,当然是自动的。数据仓库依然建立在关系型数据库上,往往符合叫做“星型结构”的模型。

* 多维数据库:数据仓库的数据经过多维建模,形成了立方体结构,每一个立方体描述了一个业务主题,例如销售、库存或者财务。

* 客户端:好的客户端软件可以把多维立方体中的信息丰富多彩地展现给用户。

实际案例:在下面的案例中,我们利用Oracle 9i搭建了数据仓库,Microsoft Analysis Service 2005搭建了多维数据库,ProClarity 6.1 做为客户端分析软件。

分解树好象一个组织图。当它被展开时,通过在选定条目的重复下钻,分解树展示了您想获得的整个路径。此外,您还可以在较低级别选择一个条目并创建一个含有更加详细信息的新的分解树。

分解树在回答以下问题时很有效:

* 在指定的产品组内,哪种产品有最高的销售额?

* 在特定的产品种类内,各种产品间的销售额分布如何?

* 哪个销售人员完成了最高百分比的销售额?

在图六(pic6.jpg)中,可以对2001年个季度的销售额和所占百分比一目了然。任意一层分解树都可以根据不同维度随意展开,在该分解树中,在大区这一层是按国家展开,在国家这一层是按产品分类展开。

投影图使用散点图的格式,显示2个或3个度量值之间的关系。数据点的集中预示两个变量之间存在强的相关关系,而稀疏分布的数据点可能显示不明显的关系。

投影图很适合分析大量的数据。在显示因果关系方面有明显效果,比如例外的数据点就可以考虑进一步研究,因为它们落在“正常”的点群范围之外。

在图七中(pic7.jpg)各色各样的数据点代表不同产品,可以看出网络设备集中于右下区域

(低销售额、高毛利率)PC机集中于左上区域(高销售额、低毛利率),从而使您对公司的产品利润分布运筹帷幄。

当您乘坐飞机俯瞰大地的时候,就会看到面积不一、颜色各异的农田星罗棋布,鸟瞰图由此而来。

鸟瞰图显示两个数量或属性的相对大小。使用大小和颜色作为指示器,把它们应用于您的查询所选择的成员时,您可以快速评估数据。

鸟瞰图可以迅速回答以下问题:

* 性能比如通过“PC机在哪个国家的销售额最大(最大面积)?”这样的问题来评价销售状况的表现”

* 机会比如通过“为什么PC机在中国具有最大的销售额?”这样的问题来发现改进的机会

* 例外比如通过“为什么在澳大利亚这样的发达国家销售额反而小?”来发现例外。在图八(pic8.jpg)中大小代表销售额,颜色代表毛利率,您只需看一眼,就可以得到如下认识:商用PC机的销售额是最高的,但毛利率却不是最高的。

相关文档
最新文档