基于Oracle+rac的数据仓库系统-淘宝

合集下载

基于Oracle数据仓库应用技术的研究与实现

基于Oracle数据仓库应用技术的研究与实现

基于Oracle数据仓库应用技术的研究与实现本文介绍了数据仓库系统的设计与实现方法。

武汉科技大学硕学论士位文摘要一1第页数据仓库是一项基于数据管理和利用的综合性技术。

近年来,数据仓库技术在信息技术领域中日益成熟,己成为业界研究的重点。

企业要想在市场竞争中取胜,获得更大的经济效益,可以利用数据仓库技术,对企业的业务数据进行深层次的挖掘、分析历史和当前的业务数据以及相关环境的数据,快速获取其中有用的决策信息,为企业提供快速、准确和方便的决策支持。

数据仓库是面向主题的、集成的、变的时和非易失的数据集合,支持管理的决策过程。

数据仓库不是一个新的平台,而是一个新的概念。

数据仓库也不是一个现成的产品,而是一个解决方案。

数据仓库是在收集各种分散、异构数据源的基础上,对数据进行转换和集成,从而为决策者提供单一的分析环境,帮助其进行科学决策。

联机分析处理(LnAltc1rcigOA)O一ieayiaPoen,Lp是数据仓库的一个典型的应用。

nn它能将数据仓库中的数据按照不同的粒度级进行聚合和预计算,从而在用户面前展现多维数据视图。

同时,联机分析处理还提供了较直观的多维分析操作,包括切片、切块、上卷、下钻和旋转等,使用户能多角度、多层次地观察数据仓库中的数据。

本论文对面向决策支持的数据仓库技术进行了深入的研究,利用数据仓库和联机分析处理的相关知识,独立设计了钢铁销售决策支持的数据仓库系统的架构,建立了数据仓库系统,并在此基础上进行应用研究。

本文阐述了数据仓库的基本概念及特点、数据仓库的体系结构、数据仓库的数据组织、数据仓库的数据分析等知识,介绍了oal公司提供的rce基于oalg数据仓库解决方rcei案及其关键工具,在对本文的理论基础进行了详细的介绍后,研究了如何将数据仓库及联机分析处理有关理论、方法应用于决策支持系统中.完成的主要工作有:结合钢材销售主业务,构建数据仓库模型,划分了合同、销售及来款三个主题,建立了满足此模型需求OA三层客户/LP服务器体系结构,进而完成了为销售决策提供支持的数据仓库环境的设计;运用O工具实Bw现了部分系统需求数据的T转换;为了EL在两维的屏幕中显示多维数据,运用了最新的oaluieltlineol中的lcvrrrceBnnelgcTonoee及e相关工具,实现了LPO多维分析操作;A设计了oal数据仓库的应用模型,基于cer独立完成了某钢铁公司销售决策支持系统的数据仓库架构设计、建模及OA分析,LP从而实现了数据仓库系统在销售决策中的实际应用。

oracle rac的机制与测试方法

oracle rac的机制与测试方法

一、Oracle RAC的定义及机制Oracle RAC(Real Application Clusters)是Oracle数据库的一种架构,它允许在多台服务器上运行Oracle数据库实例,并提供对这些实例的访问。

Oracle RAC的主要特点包括:1. 多实例架构:Oracle RAC允许在多台服务器上同时运行多个数据库实例,这些实例可以共享相同的存储。

2. 高可用性:Oracle RAC提供了高可用性和容错能力,任何一个数据库实例出现故障时,系统可以自动切换到其他正常工作的实例。

3. 扩展性:Oracle RAC可以根据需求动态地增加或减少服务器和存储资源,以满足系统的扩展和缩减需求。

4. 负载均衡:Oracle RAC可以自动分发和负载均衡数据库请求,以提高系统的性能和资源利用率。

5. 并行处理:Oracle RAC可以在多个数据库实例之间并行处理数据库请求,提高系统的处理能力。

Oracle RAC的机制主要包括集裙架构、存储架构、网络架构和实例架构等方面,它们共同组成了Oracle RAC的核心机制。

二、Oracle RAC的测试方法1. 硬件测试:硬件测试是Oracle RAC测试的第一步,包括对服务器、存储和网络设备的性能、容量和可靠性等方面进行测试。

2. 软件测试:软件测试是Oracle RAC测试的关键,包括对Oracle数据库软件、操作系统、集裙软件、文件系统等进行功能、性能和可靠性等方面进行测试。

3. 故障测试:故障测试是Oracle RAC测试的重要内容,包括对数据库实例故障、节点故障、存储故障等进行模拟和测试,检验系统的容错和恢复能力。

4. 性能测试:性能测试是Oracle RAC测试的重点,包括对数据库的并发处理能力、负载均衡能力、扩展性等进行测试,评估系统的性能和资源利用率。

5. 容量测试:容量测试是Oracle RAC测试的必要环节,包括对数据库的容量规划、增长预测、资源消耗等进行测试,确保系统的可扩展性和充分利用资源。

关于oracle的RAC

关于oracle的RAC

关于oracle的RACsaintfei:从网上搜集的文章集合整理而成,对ora的rac的组件和体系结构有了基本的认识。

下面为个人总结归纳:实例概念一组进程和对应的数据结构数据库是一个箱子,实例相当于机械手一台机器上一个库只能对应一个实例Rac一个库多个实例,并行。

每个实例运行在一个物理机器上,可以负载均衡,发生故障可以有状态切换。

需要能让多个机器同时读写的共享磁盘,可以由操作系统提供(AIX concurrent vg,Linux GPFS,)但concurrent vg是操作系统的双机软件中的组件所以必须安装ha软件。

可以用ora的ASM。

crs为ora的集群软件,提供ip切换等集群功能。

ASM功能类似LVM为os提供存储管理功能,但是是不可管理,把lun划给即可。

RAC模式,两个实例操作同一个数据库。

常用的方式是客户端连接的时候分别使用ip1加实例名和ip2加实例名的方式连接两个实例。

当一台主机故障之后,ip会切换到另一台主机上,但实例名变化了,仍然无法连接。

所以有了服务名的概念。

客户端使用ip加服务名方式连接数据库可以解决问题,切换比操作系统双机快。

但是对于tuxedo长连接的方式,没有重连接机制,仍然需要应用干预。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------以下摘自:/share/detail/23532601一集群环境下的一些特殊问题1.1 并发控制在集群环境中,关键数据通常是共享存放的,比如放在共享磁盘上。

而各个节点的对数据有相同的访问权限,这时就必须有某种机制能够控制节点对数据的访问。

Oracle的数据仓库解决方案

Oracle的数据仓库解决方案

Oracle的数据仓库解决方案在数据驱动的时代,企业越来越重视数据的收集、分析和利用。

数据仓库作为数据集中存储和管理的关键组件,成为企业实现数据驱动决策的重要基础。

Oracle作为全球领先的数据库技术提供商,也提供了强大的数据仓库解决方案。

Oracle的数据仓库解决方案主要包括以下几个关键组件和特点:1. 数据采集和清洗:Oracle提供了丰富的数据采集工具和方案,可以从各种关系型数据库和非关系型数据库等数据源中提取、转换和加载数据到数据仓库中。

此外,Oracle还可以对数据进行清洗和预处理,确保数据的准确性和一致性。

2. 数据存储和管理:Oracle的数据仓库解决方案采用高性能的数据库引擎来存储和管理数据。

它支持多种存储结构,如关系型、多维和列式存储等,以满足不同的数据分析和查询需求。

此外,Oracle还提供了强大的数据压缩和索引技术,以优化数据存储和查询性能。

3. 数据集成和转换:Oracle的数据仓库解决方案可以帮助企业将分散、异构的数据集成到一个统一的数据模型中。

它提供了强大的ETL(抽取、转换和加载)工具,可以对数据进行清洗、转换和整合,使数据在数据仓库中具有一致的结构和格式。

4. 数据分析和挖掘:Oracle的数据仓库解决方案提供了丰富的分析和挖掘功能,帮助企业发现数据中的模式、规律和趋势。

它支持各种常用的分析工具和技术,如OLAP(在线分析处理)、数据挖掘和机器学习等,以帮助企业实现更深入、高效的数据分析。

5. 数据安全和权限控制:Oracle的数据仓库解决方案提供了全面的数据安全和权限控制机制,以保护企业的数据资产安全。

它支持各种安全功能,如数据加密、访问控制和审计等,以确保数据的机密性、完整性和可用性。

综上所述,Oracle的数据仓库解决方案提供了全面、可靠的解决方案,帮助企业构建高效、可扩展的数据仓库。

它的强大功能和灵活性使得企业能够深入挖掘数据的价值,提升决策能力和竞争优势。

什么是OracleRAC?

什么是OracleRAC?

RAC就是real application clusters的缩写,跟rack的读音同。

Oracle Real Application Clusters (RAC)可以支持24 x 7 有效的数据库应用系统,您可以在由低成本的服务器构成的高可用性系统上自由部署您的应用,而无需修改您的应用程序。

已经有超过4200个用户从中受益。

现在Oracle在10g RAC中更提供免费的集群软件和存储管理软件,为您降低应用成本。

拥有RAC您无需再为成本而牺牲性能和可靠性。

关键特性高可用性Oracle Real Application Clusters 提供一个高性能低成本的应用平台,支持所有类型的应用系统,无论是事务处理型应用还是分析型应用。

所有应用共享同样的服务器和存储资源。

出现任何的服务器或磁盘故障,系统会自动重新接管发生故障的功能。

这些对前端用户的完全透明的。

同样,如果您需要增加服务器或改变其他组件的配置也不会影响到应用系统。

高性能Oracle Real Application Clusters保持着TPC-C的记录,达到每分钟118万个事务的处理能力,和仅仅$5.52 每tpmC的成本。

在3,000 GB的TPC-H数据仓库Benchmark 测试中, Oracle RAC同样保持性价比的领先地位,保证我们的用户能够达到更好更快的ROI。

这仅仅是Oracle 保持的多项Benchmark 记录中的最近的一些指标。

按需扩充您现有的系统可能是基于当前的工作负载而构建的,当应用规模需要扩充时(支持更多的数据、用户或应用),您就需要扩展您的系统以保证系统的性能。

当您的应用是构建于大型的SMP主机时,您可能需要购买另一台昂贵的主机,但可能只能使用到其处理能力的很小一部分。

但是如果您使用Oracle RAC的话,您可以通过增加一台或多台低成本的服务器来扩充您的应用系统的处理能力,满足应用需求。

第三方应用支持Oracle RAC数据库服务器象一个单一镜像的数据库服务器,所有的应用无需任何改动都可以直接部署(例如Oracle EBS, SAP, Siebel, 您自己的应用), 同时可以提高应用性能和可靠性。

淘宝购物数据库课程设计

淘宝购物数据库课程设计

淘宝购物数据库课程设计一、课程目标知识目标:1. 学生能理解数据库的基本概念,掌握数据库在淘宝购物中的应用。

2. 学生能学会使用数据库管理系统,如MySQL,进行基本的数据存储、查询和管理操作。

3. 学生能掌握数据库设计的基本原则,结合淘宝购物场景,构建合理的数据库结构。

技能目标:1. 学生能运用数据库知识,设计并实现一个简单的淘宝购物数据库。

2. 学生能运用SQL语句进行数据的插入、查询、更新和删除等操作。

3. 学生能通过数据库管理软件,对淘宝购物数据库进行维护和管理。

情感态度价值观目标:1. 学生能认识到数据库在生活中的广泛应用,增强对信息技术的兴趣和认识。

2. 学生在团队合作中,培养沟通协调能力和解决问题的能力。

3. 学生能关注网络购物中的信息安全问题,提高信息安全意识。

课程性质:本课程为信息技术学科,结合淘宝购物场景,旨在让学生掌握数据库的基础知识和应用能力。

学生特点:六年级学生具备一定的计算机操作能力,对网络购物有一定的了解,但数据库知识较为陌生。

教学要求:教师应采用任务驱动的教学方法,注重实践操作,引导学生自主探究和合作学习,培养其信息技术素养。

在教学过程中,关注学生的学习进度,及时调整教学策略,确保课程目标的达成。

通过本课程的学习,使学生能够将所学知识应用于实际生活,提高其解决问题的能力。

二、教学内容1. 数据库基础知识- 数据库的概念与作用- 数据模型与关系模型- 关系数据库的组成与结构2. 数据库管理系统- 数据库管理系统的选择与安装(以MySQL为例)- SQL语言基础:数据定义、数据操纵、数据查询、数据控制- 数据库的基本操作:创建数据库、表、索引等3. 淘宝购物数据库设计- 用户表、商品表、订单表等基本表的设计- 表与表之间的关系:外键、参照完整性- 数据库设计原则与优化4. 数据库应用实例- 淘宝购物数据库的创建与维护- 淘宝购物数据的插入、查询、更新和删除操作- 数据库安全性、完整性、一致性保障措施5. 教学内容的安排与进度- 第一课时:数据库基础知识,关系数据库的组成与结构- 第二课时:数据库管理系统的安装与基本操作,SQL语言基础- 第三课时:淘宝购物数据库设计,表与表之间的关系- 第四课时:数据库应用实例,综合实践操作教学内容参考教材相关章节,结合课程目标和学生实际情况进行组织。

淘宝网首席DBA陈吉平著

淘宝网首席DBA陈吉平著

搭建Oracle高可用系统1.1 1.2 1.3 1.4 1.5 1.6 理解Oracle数据库Oracle高可用特性(High Availability)搭建高可用的周边辅助环境高可用应用设计高可用数据库设计高可用性案例1.7总结4 第1章什么是Oracle高可用环境引言近几年来,随着IT 技术的不断进步,以及业务需求的不断提高,搭建一个数据库高可用环境已经成为很多企业迫切的需求。

本书从Oracle 及Oracle 周边环境分析Oracle 高可用环境的特性,为用户搭建一个良好的Oracle 高可用环境打下一定的理论基础。

本章是本书的第 1 章,仅仅提供一些Oracle 的基础理论知识与高可用性构架的思想,也希望能起到一个引导作用,为顺利阅读以后的章节打下一定的基础。

通过本章,希望能了解如下内容:理解Oracle 的大致体系结构理解Oracle 内存结构与后台进程理解Oracle 物理与逻辑结构理解Oracle MAA 最高可用性结构与计划理解Oracle 的典型高可用特性Oracle 并行服务器(OPS/RAC)Oracle 数据保护(Standby/Data guard)Oracle 数据复制(Advanced Replication/Streams)Oracle 主机上的HA理解如何搭建一个高可用环境辅助环境的高可用设计应用的高可用设计数据库的高可用设计理解一些典型的高可用设计的案例构建0racle高可用环境——企业级高可用数据库架构、实战与经验总结1.1理解Oracle数据库5 1.1理解Oracle数据库1.1.1 Oracle数据库体系结构Oracle 是一个可移植的数据库——它在相关的平台上都可以使用,即具有跨平台特性,也正由于具有这个特性,加上Oracle 优越的性能与开放性,才使得Oracle 能取得今天这样的成绩。

不过,在不同的操作系统上,Oracle 除了内核是完全一样的以外,其他地方也略有差别,如在Linux/Unix 上,Oracle 是多个进程实现的,每一个主要函数都是一个进程;而在Windows 上,则是一个单一进程,但是在该进程中包含多个线程。

oracle rac通俗解释

oracle rac通俗解释

oracle rac通俗解释
Oracle RAC(Real Application Clusters)是一种Oracle数据库
的集群技术,它允许多台服务器共同处理同一个数据库。

通俗地说,Oracle RAC就像是一台巨大的数据库服务器,由多台
物理服务器群组成,每台服务器都能同时处理和访问同一个数据库。

在传统的数据库架构中,通常只有一台服务器负责处理数据库操作,其他服务器只能作为备份或备用。

而Oracle RAC则改
变了这种架构,它将整个数据库分成多个部分,分布在不同的服务器上。

每台服务器都有自己的内存和处理资源,可以同时处理来自应用程序的查询和事务。

Oracle RAC的好处是提高了数据库的可用性和性能。

由于多
台服务器共同处理数据库操作,一台服务器出现故障时,其他服务器可以接替它继续处理请求,不会导致整个系统停止工作。

同时,由于数据库操作可以分散到多台服务器上进行,每台服务器的负载也减轻了,提高了整个系统的性能和响应速度。

总之,Oracle RAC是一种集群技术,能够将多台服务器组成
一个大型的数据库服务器,提高数据库的可用性和性能。

这种技术的应用让数据库能够更加稳定地运行,并能够处理更多的并发请求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
User A User B User C connects to node 2
Node 1
Node 2
User C issues a query with a DOP of 6
Node 1
Node 2
AAAAAA
BBBB
AAAAAACC
BBBBCCC C
An unused parallel server
主要考虑的问题:
1. 效率,是否能快速的满足日常需求 2.开放性,开放系统还是选择封闭系统 3. 可扩展性,包括线性扩展能力,对外接口等 4. 成本因素
为什么选择Oracle RAC
Oracle RAC优点
Oracle是一个相对开放的系统,文档很多 Taobao本身对Oracle的技术比较了解 在实际的测试中,Oracle表现比较优越 可以做到线性的扩展能力 成本不会高于Teradata
淘宝数据仓库应用案例(一)—淘我喜欢
淘宝数据仓库应用案例(二)—猜你喜欢
淘宝数据仓库应用案例(三)—内部系统
淘宝数据仓库12节点物理拓扑图
淘宝数据仓库12节点的承载量
上线前测试情况
5台CX3-80,每台120块146G 15K光纤硬盘,12个节点同时跑 Orion测试: orion -run advanced -testname mbps_all_point_20 -num_disks 500 -size_small 1024 -size_large 1024 -matrix point -num_small 0 num_large 20 -type seq -verbose
RDS
Hardware
NIC
HCA
Hardware
NIC
HCA
IPOIB
300-500MB/s,延迟几十us
RDS(certified by oracle 10.2.0.2)
速度1GB/s,延迟10us
关于infiniband
对于IPOIB oracle端不需要做任何调整 检测 oradebug setmypid oradebug ipc oradebug tracefile_name netperf -H 10.0.100.104 -l 60(Linux tool) 对于RDS 安装 cd $ORACLE_HOME/rdbms/lib make -f ins_rdbms.mk ipc_rds ioracle 详细见“Oracle Real Application Clusters 10g Release 2: Installation and Configuration of Linux Clusters Using RDS over InfiniBand Interconnect” /technology/products/database/clustering/pdf/rds_installatio n_on_oracle_rac_10g_release_2_linux_clusters.pdf 对于RDS速度的检测 crload/crtest(Oracle Developer team’s tool) Oradebug中无法看到RDS信息,oracle BUG 5610067 paul.tsien@ is the PM of RAC & RDS team
节点6与其它节点内部通信超时,甚至不通,而自动重启 。 节点6重启之前,节点5也出现重启 在节点6重启之前,有更多的节点被踢出(重启),直到 开始正式重启
节点异常退出—解决办法
原因分析
怀疑cisco的infiniband在高压下不稳定,网络出现延迟。 当一个节点负载压力太高,被迫重启的时候,与其它节 点内部网络出现超时甚至不通 在该节点重启之前,其它节点认为该节点还正常( Voting Disk是正常的) 其它节点会出现脑裂,也会不同程度的把自己从RAC环 境中踢出
淘宝数据仓库环境介绍
陈吉平
淘宝网首席DBA,资深技术专家 Oracle ACE 《搭建Oracle高可用环境》一书作者
淘宝介绍
淘宝网()是国内领先的个人交易网上平台,由全球 最佳B2B公司阿里巴巴公司投资4.5亿创办,致力于成就全球最大的个 人交易网站。自2003年5月10日成立以来,淘宝网基于诚信为本的准 则,从零做起,在短短的半年时间,迅速占领了国内个人交易市场的 领先位置...
Oracle RAC缺点
对技术的要求相对比较高,需要DBA深入的优化
淘宝数据仓库现状
数据源 ODS 计算
展示
Oracle
Real Time同步
4节点 RAC ODS层
12节点 RAC 计算层
Mysql
ETL&互备
……
分布计算 (hadoop)
淘宝数据仓库的应用场景
Personalization Recommendations Business Analysis Web Servers Data WareHouse Internal End Users Taobao DataBase
并行执行的Join方式
Table1
Table1
Table1
Partition wise join
大表对大表 采用hash或 者partiiton的 分布方式
Table2 Table1
Table2
Table2
大表对小表 小表采用广 播方式克隆 多份
Table2
案例分析(一)——升级中的问题
08年数据仓库从10.2.03升级到10.2.04
读总吞吐量达到7721.26MB/s
目前使用量:读2.5GB/s,写500MB/s
实施细节(一)——内联网络
普通千兆 网卡 Infiniband 高速交换
RAC Database IPC Library RAC Database
IPC Library
User Kernel
UDP IP IPoIB
User Kernel
议程
淘宝数据仓库的发展历史 淘宝数据仓库的现状 淘宝数据仓展历史
单机DELL6650
12节点RAC环境 计划扩展到20节点 4节点RAC环境
IBM-P550
2004
2006
2007
2008
为什么选择Oracle RAC
当时的可选方案
Teradata,在ebay有成功案例 Oracle Rac,对淘宝来说,技术比较成熟
临时解决办法是将db_block_checksum这个参数改 为FALSE 后面ORACLE新发布了一个补丁5386204,打上补 丁后问题得以解决。
案例分析(二)——节点异常退出
08年12节点刚开始使用cisco的infiniband交换机, 总是出现如下的情况:
[ CSSD]2008-09-02 17:48:15.706 [1241577824] >WARNING: clssnmPollingThread: node dw6 (6) at 50 3.118329e-317artbeat fatal, eviction in 29.490 seconds ...... [ CSSD]2008-09-02 17:49:15.677 [1241577824] >WARNING: clssnmPollingThread: node dw5 (5) at 50 3.118519e-317artbeat fatal, eviction in 29.780 seconds ..... [ CSSD]2008-09-02 17:49:46.460 [1262557536] >ERROR: clssnmCheckDskInfo: Aborting local node to avoid splitbrain. [ CSSD]2008-09-02 17:49:46.460 [1262557536] >ERROR: : my node(11), Leader(1), Size(10) VS Node(6), Leader(1), Size(12)
ASM磁盘组的划分
4+1 的RAID5 每个RAID组划分2-4个LUN 每个RAID组的第一个LUN组成ASM磁盘组1,第二 个LUN组成ASM磁盘组2,依次类推 数据库建立在ASM磁盘组上 可以确保数据分布在所有的物理磁盘上
ASM的测试与使用效果
数据基本上分布到了所有的LUN上面
实施细节(三)——并行执行
解决办法
将infiniband网卡替换成普通网卡,内部互联就恢复正常 ,再也没有节点自动宕机的情况了
未来的计划
扩展到20节点 Oracle 11g的新特性 继续尝试使用Infiniband交互技术 Oracle新硬件Exadata的测试
谢谢
Q&A
A parallel server working A on a query for user A
A parallel server working on a A parallel server working on a query for user B B C query for user C
并行执行相关参数
并行度参数,如
parallel_max_servers=256 parallel_min_servers=16 parallel_threads_per_cpu=2 parallel_execution_message_size=16384
跨节点并行的参数
instance_groups=crm,erp,oltp parallel_instance_group=crm 关于跨节点并行的更多资料,可以参考我们团队的Blog :/blog/dba/html/217_rac-spanparalle.html
在升级之后碰到了一个新的BUG,数据库会报如下600 错误: ORA-00600: internal error code, arguments: [kddummy_blkchk], [47], [935468], [18038], [], [], [], [] 数据库部分查询报块损坏,无法执行
相关文档
最新文档