Datastage 培训资料
DataStage 基础培训_练习

2011-04-12
1
练习 1、需求内容 实现按部门和城市对订单进行多维度分析
2、设计方案 1)新建订单多维分析事实表
注:在插入数据之前,先对当前 2)源头取数
从订单表orders获取当前会计期(200305)订单信息
从员工表emp获取员工所属部门信息
从供应商表suppliers获取供应商所属城市信息
3
练习 2、设计方案 3)开发ETL,将基于部门和城市的订单多维分析数据装载到事
实表,要求:
A、新建一个JOB将订单信息先落地到中间数据文件 B、新建另一个JOB从中间数据文件抽取订单信息,并通过与员 工表、供应商表匹配获取订单多维分析数据,装载到事实表 C、通过JOB Sequence将两个JOB封装起来,并设计前后依赖
(2)DataStage环境
IP:192.168.1.253
Project:SIEProjectA u/p:dsadm/dsadm
5
练习 参考ETL(SQL)
6
Q&A
7
关系
D、使用的Stage包括但不限于以下stage:Oracle Stage、 DataSet Stage、Join Stage、Lookup Stage、Transformer Stage、Aggregator Stage
4
练习
3、环境
(1)#深圳SIEDW数据库 USER/ PASSWORD:BI_APP/bi_app SIEDW = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 192.168.1.254)(PORT = 1521)) (CONNECT_DATA = (SERVER = DEDICATED) (SERVICE_NAME = SIEDW) ) )
DataStage基本知识

本例对字段做简单运算,根据条件装载到不同表中
53
DataStage实例-表到表
本例中连接数据库仍使用ODBC,每个ODBC Stage连 接Informix中的一张表. 本例中使用一个新的Stage: Transformer(转换) 在设置了各个ODBC Stage之后,我们来看一下 Transformer(转换)的属性
DataStage Administrator(主管):用于创建 DataStage用户,创建,移动项目。
10
DataStage Administrator(主管)
11
DataStage Administrator(主管)
12
DataStage Designer(设计者)
13
DataStage Manager(管理者)
输入需要导出的列
需要的列
47
DataStage实例-表到文件
查看并修改SQL语句
SQL语句
SQL参考
48
DataStage实例-表到文件
可使用”View data…”按钮查看内容
查看内容
49
DataStage实例-表到文件
指定输出文件
文件路径名称
50
DataStage实例-表到文件
Repository(仓库),包括建造数据集市或数据仓库 所需要的全部信息的中央存储器; DataStage Server(服务器),运行向数据仓库抽 取,转换,导入数据的可执行作业; DataStage Package Installer(包安装,服务端的 安装工具),用来安装包装的DataStage作业和插件 的用户界面。
DATASTAGE----DATASTAGE经验积累

DATASTAGE——一DATASTAGE经验积累一、JOB的分类与作用1、Server JOB:最为常用的Job类型,Job可以组合使用,Server Job是Job的最小单位。
原文档:If you have the Web Services pack installed an additional check box, Web Service Enabled, appears. Select it to indicate the job can be made available as a web service.2、Parallel JOB:3、Mainframe JOB:运行于大型机的JOB。
4、JOB Sequences:Job Sequence主要用于Job间的协作工作控制,如各Job的实行流程,出错处理,文件监控等。
二、jobstatus的用法jobstatus-jobstatus waits for the job to complete, then returns an exit code derived from the job status.命令格式为:dsjob –run[ –mode [ NORMAL | RESET | VALIDATE ] ][ –param name=value ][ –warn n ][ –rows n ][ –wait ][ –stop ][ –jobstatus][–userstatus][-local]project job三、判断NULL值 实例STAGE :JOIN STAGE设置:LEFT JOIN左输入语句:SELECT * FROM PMP_Insured_Amount右输入语句:SELECT COL_ID,TAB_NAME,WORK_DATE,REF_COLUMN1 AS UNIQUE_ID_IN_SRC_SYS,REF_COLUMN2,ROW_ID,HASHCODE AS B_HASHCODE,ANCHOR_ID,PARTITION_KEY,IS_DUPLICATED,'A' AS MARK --用以判断结果集右边是否为空FROM ETL_FOR_INC_TMP2SQL语句:SELECT A.*,B.*FROM PMP_Insured_Amount ALEFT JOIN ETL_FRO_INC_TMP2 BON A.UNIQUE_ID_IN_SRC_SYS = B.UNIQUE_ID_IN_SRC_SYS 功能:判断来自A表的所有记录,哪些能够B表关联,哪些不能与B表关联。
DataStage官方培训教程10

DataStage官方培训教程10DataStage是一个ETL工具,它提供了广泛的数据连接选项以及数据转换和清理功能,以帮助企业完成数据仓库构建和管理。
由于数据驱动的世界越来越重要,数据管理和ETL应用程序的需求也变得越来越迫切。
DataStage官方培训教程10涵盖了DataStage常见的任务和操作,为学习DataStage用户提供了完整的指导。
在本文中,我们将对DataStage官方培训教程10进行分析和实践,以帮助读者更好地了解和掌握DataStage。
DataStage官方培训教程10的结构和内容DataStage官方培训教程10是一本基于DataStage 11.7版本的官方培训教材。
该教材共包含15个单元,分为4个部分。
第一部分介绍了DataStage概述和安装过程,包括DataStage架构、组件、工作流程等。
第二部分介绍了DataStage的数据源定义、数据移动和数据变换。
第三部分主要介绍了DataStage的错误处理和调试,包括日志、报告、来源和目标检查等。
第四部分介绍了高级主题,如DataStage管理、性能调整、共享资源和集成JDBC驱动程序等。
DataStage官方培训教程10的学习方法和技巧DataStage官方培训教程10是一本详细的教材,需要耐心和时间来学习。
以下是一些学习方法和技巧,可以帮助读者更好地掌握DataStage。
1.按照教材结构进行学习按照各个部分和单元的结构进行学习,以便逐步深入理解每个主题。
特别是,在学习前两部分时需要仔细阅读和理解数据源定义、数据移动和数据变换的概念和操作指南,掌握其重要性和影响关系。
2.完整地跟随实例进行演示教材中提供了许多实例来示范DataStage的各个方面,读者可以用自己的DataStage环境进行实操,加深对DataStage的理解和熟练度。
值得注意的是,在学习高级主题时需要一定的实践经验和技能,否则可能会花费更多的时间和精力。
DataStage基础培训教程ppt课件

全局变量与Job变量
• 全局变量 -- 生命周期:整个Project -- 在Administrator中定义
• Job变量 -- 生命周期:一个Job -- 在Designer、Manager中定义
演示:定义一个Job变量 在Designer中定义参数
Meta data definition
Debug and Tuning
• View Status and Logs - status, log, detail等多种视图 - 配合Monitor来查错、调优
Job Status
• Not Compiled • Compiled • Reset • Running • Finished • Finished (with warning) • Abort
演示:生成事实表
明细表
关联
聚合
事实表
Hash File
• 用途: -- 左连接时用作副表 -- 多次被访问的数据集 -- 存储其他临时数据
• 关键点: -- 必须指定key -- output的position必须与input一致
Transformer
• 用途: -- 提供丰富的运算符和函数 -- 数据清洗、转换 -- 关联多个数据源
DataStage基础培训
Jerry 2006.03
议程
• Hello World • DataStage Components • Define Parameter & Table • Hash File、Transformer、Aggregator • Director & Monitor • Administrator & Manager • Routine & Control
DataStage培训资料

1,注册号(序列号)。 2,工程数量。 在Datastage服务端可以建立的最大工程数量。包括新 建的工程,也包括对先前建立的工程进行加上升级。 3,到期时间。 4,授权代码。 在许可信息中,这个信息必须被正确输入的。
安装向导会指导通过以下 步骤进行:
1,输入许可信息。 2,指定服务器的路径。 3,选择程序的文件夹。 4,创建一个新的工程或升级已经存在的工程。
安装Datastage
首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过程中系统提示使 用者选择安装路径和输入产品序列号。 在Datastage Server安装的过程中会提示用户建立一个 工程。 在安装Datastage Server端以后,需要安装Datastage Client端,鼠标点击 软件会自动进行安装,安装过程中系统提示使用者选择安装 路径和输入产品序列号。
Datastage的服务端
安装有Datastage服务端的机器,必须运行着。 需要运行Datastage的客户端。 打开Datastage的控制面板,来停止或启动服务端。 当再次安装Datastage的时候,会停止服务端。
为了保证Datastage客户端程序的正常运行,必须保证 Datastage的服务器保持运行状态。 在Windows2000的控制面板中打开Datastage的控制面 板,可以启动或停止全部的Datastage服务。 点击可以启动全部的服务或者停止全部的服务。 在安装或重新安装Datastage的时候,这些服务一定要 全部停止。
安装Datastage客户端
在安装Datastage服务端之后。 可以安装在WinNT,Windows2000以及WinXP上。 Datastage产品的许可用于安装Datastage的客户端。 Datastage的操作许可只能用于安装Director和 Administrator。
datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。
如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。
针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。
其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
DataStage官方培训教程7

Module Objectives
Upon module completion, students will be able to: Define what a hashed file is List different types of hashed files List various uses for hashed files Create hashed files Source hashed files Use caching attributes to accelerate reads and writes Import metadata from hashed files Delete hashed files
Overflow Groups
When there is not enough space remaining in a group, the group overflows
2048 4096 6144 8192 10240 12288
Group Address
Header
Group 1 Group 2 Group 3
Insert the name of the hashed file— can use parameters Let the job create the hashed file
Can optionally use the CREATE.FILE command from a DataStage command shell or program
Hashing Algorithms (Static File Types)
Character type
Location where most variation occurs in key column
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Datastage培训1.什么是Datastage?设计jobs 抽取(Extraction)、转换(Transformation)、装载(Loading)即ETL 数据整合项目工具,如数据仓库、数据集市和系统移植。
DataStage的框架,如图-1:图-1在开发过程中是通过DataStage的四个客户端(DataStage Administrator如图-2, DataStage Manager如图-3, DataStage Designer如图-4, DataStage Director如图-5)来进行工作的。
图-2 图-3 图-4 图-5DataStage的基本开发流程:1.在Administrator中新建工程、定义全局和工程属性2.在Manager中导入元数据3.在Designer中定义job4.在Designer中编译job5. 在Director中验证,运行,监控job2.DataStage Administrator介绍主要功能:对server进行一些常规的设置、用来执行管理任务,如建立DataStage用户、新建和删除工程,设置工程的属性。
2.1.登陆登陆后的界面:在General标签中、可以看到当前server的版本是7.5.1.A,你也可以点击”NLS…”选择Client端的默认字符集。
2.2.新建工程选择Projects标签,在这里你可以选择Add按钮来新建一个工程“sjzh”如图:该工程存放的目录为“/home/dsadm/Ascential/DataStage/Projects/sjzh”在这里我们选择系统的默认路径。
选择“OK”就新建了一个工程,如图:2.3.更改“Licensing”选择“Licensing”标签,如图:在这里可以对Server和Client端的License进行更改。
比如当软件License过期时,要在不重新安装的情况下改变License就要使用这个功能。
2.4.设置Project的属性其他页面的属性,请勿修改。
2.5.设置TimeOut时间3.DataStage Manager介绍主要功能:存储和管理在Designer中定义jobs过程可再利用的元数据(在数据转换抽取过程中用到的表定义,文件输出格式,routines)、批量编译jobs、导入和导出工程等。
3.1.导入导出Job及其它组件导入●导出通过Export--→DataStage Components把设计好的job导出保存为DSX文件或者XML文件。
3.2.管理配置文件该文件是定义DataStage的网络节点、安装目录和运行时使用的临时文件。
可以配置多个节点。
目的是让作业并行、并发执行。
提高数据效率。
通过Tools- Configurations管理DataStage配置文件4.DataStage Director使用主要功能:验证(validate),运行(run),监控(monitor)你所定义的DataStage jobs,为每个job的运行定义时间表(schedule)。
4.1.运行已经编译好的Job注意以下几点:多个Job可以同时执行,但是需要仔细考虑Job的数据量,处理逻辑的复杂程度。
否则可能造成,其中一个或者多个Job异常。
Job并行运行时,可能会提高效率,但是也可能造成并行运行的时间比串行运行时间还长。
具体要看每个Job的CPU和I/O负荷。
每个Job可以生成多个Instance,多个Instance可以并发执行。
须特别注意:重新编译后同一个Job的Instance将会消失。
4.2.在Design中设置同一个Job生成多个Instance在Direct设置多个实例运行规则输入Invocation ID,即Instance No4.3.将编译好的Job加入计划任务未编译好的Job不能使用schedule。
4.4.监控Job的运行情况4.5.杀死僵死进程进入清除资源页面杀死进程5.DataStage Designer主要功能:抽取(extracting),清洗(cleansing),转换(transforming),整合(integrating)和装载(loading)数据到仓库中的表中。
常用的控件:ODBC Enterprise,Column Generator,Peek,Row Generator,Sequential File,Aggregator,Copy,Filter,FTP Enterprise,Funnel,Join,Merge,Modify,Switch,Transformer5.1.DataStage JOB属性设置进入JOB属性设置页面,并选择“允许同一个JOB多实例运行”。
设置JOB参数:5.2.Annotation功能特点:一般用于注释,可利用其背景颜色在job中分颜色区别不同功能块使用要点:5.3.数据库控件:Oracle Enterprise Stage 功能说明:从Oracle数据库中读取数据或者写数据到Oracle数据库中。
通常完成的操作:✓使用INSERT或UPDATE命令更新数据库表✓装入数据库表✓读取数据库表✓从数据库表中删除行✓在库表中直接执行查询操作✓将库表装入内存,然后执行查询操作具体用法:✓Inputs Page向数据库中写数据,关键是对Properties的配置Outputs Page:与Inputs Page类似,只是完成的是从数据库中读取数据。
5.4.Sequential File Stage功能特点:适用于一般顺序文件(定长或不定长),可识别文本文件。
使用要点:按照命名规范命名点住文件,双击鼠标,在general说明此文件内容,格式,存储目录等修改文件属性,文件名称,reject方式等到修改文件格式,比如记录结束符是什么,字段分隔符,字符串是用什么区别等输入此文件字段内容5.5.Copy Stage功能说明:Copy Stage可以有一个输入,多个输出。
它可以在输出时改变字段的顺序,但是不能改变字段类型。
注意:当只有一个输入及一个输出时最好将Force设置为True,这样可以在Designer里看到运行结束,否则将无法标识运行结束,但不会影响运行结果数据。
5.6.LookUp Stage功能说明:LookUp Stage把数据读入内存执行查询操作,将匹配的字段输出,或者在在符合条件的记录中修改或加入新的字段。
功能说明:将多个表连接后输出用JOIN Stage和LookUp Stage时做关联的字段类型和长度定义保持一致。
LookUp Stage 和 Join Stage的区别LookUp Stage将数据读入到内存中,所以效率很高,但是占用了较多的物理内存。
所以当reference data比较小的时候,我们推荐用LookUp Stage;当reference data比较大的时候,我们推荐用Join Stage。
5.8.Merge Stage功能说明:将Merge Key值相同的记录合并。
将其中的一个输入设定为Master,其余的为Update。
把Update中Merge Key相同的记录合并入Master。
5.9.Modify Stage功能说明:Modify stage 只能有一个输入及一个输出,它可以修改表结构:删除,保留一个字段;给字段改名;修改字段的数据类型。
Specification的具体用法:删除一个字段: DROP columnname [, columnname]保留一个字段: KEEP columnname [, columnname]改变字段:new_columnname [:new_type] = [explicit_conversion_function]old_columnname5.10.Aggregator StageStage类型:Processing Stage功能说明:将输入的数据分组,计算各组数据的总和或者按组进行其他的操作,最后将结果数据输出到其他的stage。
具体用法:✓Stage Page:描述stage的一般信息以及字段的分组信息和选择分组计算函数✓Inputs Page:详细描述输入数据信息,一般直接反映输入数据字段信息Oupputs Page:详细描述输出数据信息,即经过分组计算后的数据字段信息.5.11.Remove Duplicates StageStage类型:Processing Stage功能说明:输入根据关键字分好类的有序数据,去除所有记录中关键字重复的记录,通常与sort stage配合使用具体用法:✓Stage Page:Properties中的key值与之前sort stage的分类key值相同✓Inputs Page:对输入数据字段的描述Oupputs Page:对输出数据字段的描述5.12.Difference StageStage类型:Processing Stage功能说明:按字段比较两个文件,找出不同的记录。
(两个文件before和after,以before 为准,与after文件中的记录进行比较,找出before在after文件中没有或者有的记录) 具体用法:✓Stage Page比较策略说明Drop Output For Copy False:保留before及afte link中key值相同的行 True:删除before及afte link中key值相同的行Drop Output For Delete False:保留before link中有但是afte link中没有的key值所在的行True:删除before link中有但是afte link中没有的key 值所在的行Drop Output For Edit False:保留key值相同,value不同的行True:删除key值相同,value不同的行Drop Output For Insert False:保留before link中没有但afte link中有的key值所在的行True:删除before link中没有但afte link中有的key值所在的行调整before和after的顺序:✓Inputs Page:对输入数据字段的描述Oupputs Page:对输出数据字段的描述5.13.Switch StageStage类型:Processing Stage功能说明:将文件按照一定的条件(一般为字段的值)分割成多个子文件。
具体是将输入的每一条记录按照各自符合的条件(关键字的值)分配到不同的输出(Switch Stage 有一个input link 和多个output link,一个 reject link,output link最多可达128个;此功能很类似与C函数中的switch函数)。