DataStage 基础培训3
DataStage 基础培训_练习

2011-04-12
1
练习 1、需求内容 实现按部门和城市对订单进行多维度分析
2、设计方案 1)新建订单多维分析事实表
注:在插入数据之前,先对当前 2)源头取数
从订单表orders获取当前会计期(200305)订单信息
从员工表emp获取员工所属部门信息
从供应商表suppliers获取供应商所属城市信息
3
练习 2、设计方案 3)开发ETL,将基于部门和城市的订单多维分析数据装载到事
实表,要求:
A、新建一个JOB将订单信息先落地到中间数据文件 B、新建另一个JOB从中间数据文件抽取订单信息,并通过与员 工表、供应商表匹配获取订单多维分析数据,装载到事实表 C、通过JOB Sequence将两个JOB封装起来,并设计前后依赖
(2)DataStage环境
IP:192.168.1.253
Project:SIEProjectA u/p:dsadm/dsadm
5
练习 参考ETL(SQL)
6
Q&A
7
关系
D、使用的Stage包括但不限于以下stage:Oracle Stage、 DataSet Stage、Join Stage、Lookup Stage、Transformer Stage、Aggregator Stage
4
练习
3、环境
(1)#深圳SIEDW数据库 USER/ PASSWORD:BI_APP/bi_app SIEDW = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 192.168.1.254)(PORT = 1521)) (CONNECT_DATA = (SERVER = DEDICATED) (SERVICE_NAME = SIEDW) ) )
DataStage基本知识

本例对字段做简单运算,根据条件装载到不同表中
53
DataStage实例-表到表
本例中连接数据库仍使用ODBC,每个ODBC Stage连 接Informix中的一张表. 本例中使用一个新的Stage: Transformer(转换) 在设置了各个ODBC Stage之后,我们来看一下 Transformer(转换)的属性
DataStage Administrator(主管):用于创建 DataStage用户,创建,移动项目。
10
DataStage Administrator(主管)
11
DataStage Administrator(主管)
12
DataStage Designer(设计者)
13
DataStage Manager(管理者)
输入需要导出的列
需要的列
47
DataStage实例-表到文件
查看并修改SQL语句
SQL语句
SQL参考
48
DataStage实例-表到文件
可使用”View data…”按钮查看内容
查看内容
49
DataStage实例-表到文件
指定输出文件
文件路径名称
50
DataStage实例-表到文件
Repository(仓库),包括建造数据集市或数据仓库 所需要的全部信息的中央存储器; DataStage Server(服务器),运行向数据仓库抽 取,转换,导入数据的可执行作业; DataStage Package Installer(包安装,服务端的 安装工具),用来安装包装的DataStage作业和插件 的用户界面。
【正式版】DATACON培训3PPT资料

【正式版】DATACON培训3PPT资料在当今数字化快速发展的时代,数据的处理和分析变得越来越重要。
DATACON 培训 3PPT 资料为我们提供了宝贵的学习资源,帮助我们深入了解数据处理和分析的相关知识与技能。
这份资料首先为我们清晰地阐述了数据处理的基础概念。
它让我们明白,数据并非只是一堆杂乱无章的数字和字符,而是蕴含着丰富信息的宝藏。
通过合理的收集、整理和存储,我们能够从海量的数据中挖掘出有价值的内容。
在数据收集方面,PPT 资料强调了多种有效的方法和途径。
比如,通过在线调查问卷获取用户的反馈,从企业内部的业务系统中提取关键数据,以及利用传感器等设备实时采集物理世界的数据。
同时,还提醒我们要注意数据的准确性和完整性,避免因为错误或缺失的数据导致分析结果的偏差。
数据整理环节是将收集到的原始数据进行清洗和预处理的过程。
这包括去除重复数据、纠正错误数据、补充缺失值等操作。
资料中通过实际案例展示了这些步骤的重要性和具体实现方法,让我们能够直观地理解和掌握。
数据存储也是一个关键的环节。
PPT 资料介绍了常见的数据存储方式,如关系型数据库、非关系型数据库等,并对比了它们各自的优缺点和适用场景。
这让我们在面对不同的数据存储需求时,能够做出明智的选择。
接下来,资料重点讲解了数据分析的方法和技术。
从简单的描述性统计分析,到复杂的预测分析和数据挖掘算法,都进行了深入浅出的介绍。
我们了解到如何通过平均值、中位数、标准差等指标来描述数据的集中趋势和离散程度;如何运用回归分析预测未来的趋势;如何使用聚类分析将数据进行分类等。
同时,PPT 资料还强调了数据分析工具的应用。
例如,Excel 在日常数据处理中的便捷性,Python 强大的数据分析库,以及专业的数据分析软件如 SPSS、SAS 等。
通过实际操作演示,让我们熟悉了这些工具的基本功能和使用技巧。
在数据可视化方面,这份资料也给了我们很多启示。
它指出,好的数据可视化不仅能够清晰地展示数据,还能够帮助我们发现数据中的隐藏模式和趋势。
DataStage基础培训教程ppt课件

全局变量与Job变量
• 全局变量 -- 生命周期:整个Project -- 在Administrator中定义
• Job变量 -- 生命周期:一个Job -- 在Designer、Manager中定义
演示:定义一个Job变量 在Designer中定义参数
Meta data definition
Debug and Tuning
• View Status and Logs - status, log, detail等多种视图 - 配合Monitor来查错、调优
Job Status
• Not Compiled • Compiled • Reset • Running • Finished • Finished (with warning) • Abort
演示:生成事实表
明细表
关联
聚合
事实表
Hash File
• 用途: -- 左连接时用作副表 -- 多次被访问的数据集 -- 存储其他临时数据
• 关键点: -- 必须指定key -- output的position必须与input一致
Transformer
• 用途: -- 提供丰富的运算符和函数 -- 数据清洗、转换 -- 关联多个数据源
DataStage基础培训
Jerry 2006.03
议程
• Hello World • DataStage Components • Define Parameter & Table • Hash File、Transformer、Aggregator • Director & Monitor • Administrator & Manager • Routine & Control
新教材DATASTAGE的介绍及基本操作.ppt

Datastage测试
• 问题一:
Datastage的Designer是用来建立和编译job、用来进行数据 的抽取、转换和加载即ETL。(Yes/No) 答案一: Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage) 拖拽到设计区域中,经过建立和编译,Job就可以执行,用 来进行数据的抽取、转换和加载。
安装操作员版本的Datastage,需要有Datastage 的Director的许可。
一个工程关联着一个目录,这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个 工程,即登录这个工程。
工程是自包含的很多的工程可以在同一时间被打开,在 各自单独的环境打开。可以在它们之间导入或导出项目。
多用户可以在同一时间使用一个工程中工作,但是 Datastage禁止在同一时间由多个用户访问同一个job。
• 3,到期时间。 • 4,授权代码。
在许可信息中,这个信息必须被正确输入 的。
课件
安装向导会指导通过以下步骤进行:
• 1,输入许可信息。 • 2,指定服务器的路径。 • 3,选择程序的文件夹。 • 4,创建一个新的工程或升级已经存在的工
程。
课件
安装Datastage
课件
首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过
• 在Windows系统中安装Datastage服务端。 • 建立一个Datastage的工程。 • 安装Datastage的客户端。
课件
Datastage 的服务端要首先安装,之后才 可以安装Datastage 客户端,服务端能都安 装在WinNT、Windows2000或者UNIX系统中, 这个模块将介绍在Windows环境下进行安装。
datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。
如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。
针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。
其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
datastage入门教程

DATASTAGE总结一、安装datastageA、安装服务端安装虚拟机(注册码在文件中)---解压datastage安装包redhat3__Datastage----点击解压文件中Red Hat Enterprise Linux 3---安装---在虚拟机启动---查看虚拟机IP地址,在dos窗口验证是否可以连接---打开secureCRT,连接虚拟机---进入/app/oracle/product/10.2/network/admin/tnsnames.ora中---按E键,再按i 进入编辑状态---将IP地址设为本机Ip地址,数据库实例名自己设置---按ESC、W、Q、:键退出---完成B、安装客户端解压datastage客户端安装包Datastageclient---点击解压文件datastage7.5.3\datastage client---安装---注册码在datastage7.5.1下载地址及license中----完成二、DATASTAGE主键1、transforme r(oracle----transformer---file)数据源oracle设置properties\source\readmethod=auto-generated sqlproperties\source\table=要导入的表名点击connection,出现remote server=数据库实例名,user=Scott,password=tigerColumns下将length设置合适---load---oracleI9--选定导入的表名---ok注意:若不知道导入表的格式Columns下将length设置合适---load---import---plug-in meda data definitions---oracleI9--ok---数据库实例名,用户名、密码---ok--选择Scott用户下---选表--- 导入Transformer设置:将需要显示的字段拖拽过去---ok目标文件file设置:properties下file--填入保存路径first line is columns name=trueFomat下点击record level 添加record delimiter 属性为UNIX newline点击field defaults 添加 null field value 属性为0 Quote=noneColumns下将length设置合适----ok以下主键数据源或目标文件为oracle/file的设置同上transformer的设置方法2、转存(file---transformer---file)Transformer设置:将需要显示的字段拖拽过去---ok3、导入(file---transformer---oracle)Transformer设置:将需要显示的字段拖拽过去---ok4、copy(file--copy--多file):一个输入,多个输出Copy设置:stage当只有一个输入及一个输出时最好将Force设置为TrueOutput下将需要显示的字段拖拽过去---ok5、filter(file--filter---多file):只有一个输入,可以有多个输出Filter设置:stage下properties\where clause=过滤条件--点击whereclause出现output link=slink值(在link orderingzhong看对应值) Output下将需要显示的字段拖拽过去---ok6、join(多oracle---join---file):多表连接Join设置:stage下properties\join keys\key=关联字段,options\join type=连接类型(内、全、左、右连接)Output下将需要显示的字段拖拽过去---ok7、look up(多oracle---look up--file):数据的查询Look up设置:将关联字段连接,再将需要显示的字段拖拽过去8、merge(多file---merge---file):相同数据的合并Merge设置:stage下properties\merge keys\key=字段,sort order=排序Options下unmatched masters mode=保留/删除Output下将需要显示的字段拖拽过去---ok9、funnel(多file---funnel---file):数据的合并Funnel设置:stage下properties\options\funnel type=选择合并方式Output下将需要显示的字段拖拽过去---ok10、aggregator(oracle---aggregator---file):数据的分类、汇总Aggregator设置:stage下properties\grouping keys\group=分组字段点击aggregations\aggregation type出现column for calculation=聚合字段及合方式,可以取最大值,最小值, Sum值,count值等多种聚合方式。
DataStage优化培训笔记

DataStage 优化培训笔记Sequential file1、注意 reject mode 的设置2、优化:(在文件定长的前提下)number of readers per node 设定单节点的多个读取,根据实际情况设置多读个数read from multiple nodes 设定多节点的数据读取Change Capture Stage比较数据后会进行排序,如果之前的数据已经做了排序,则需要改变排序属性。
注意 before和after的设置,不要设反。
Copy Stage在内存中操作的组件,建议 1 进多出用copy组件Tansformer Stage是内嵌的程序,一旦作业执行到此stage程序会暂停进程,外部调用so 的程序,Transformer 组件中包含的函数,可以自己编写函数进行嵌入(通过routine实现)filter 不能用于复杂的判断, copy 不能增加赋默认值的字段 ..Sort Stage尽量不用,属于滞留组件,要等数据齐全后再能进行sort 操作LookUp 和 Join 的区别需要注意join 一定要进行排序再进行处理(效率较低),LookUp 是流水线实现(超过 800M不能用此 stage)Data Set StageStage 自动设置数据为定长,实现多值读取,可以通过drop on input来限制输入数据。
生产环境优化:关注 CPU(并发路数 , 逻辑节点数 , 物理作业数 ), 内存 ,I/O 交互1、在 Oracle Enterprise 中使用 select 语句时,提取尽量少的字段数据2、在使用 LookUp Stage 时,如果数据从Oralce 出来的,在 LookUp table (参照表中)可以设置 Lookup type = sparse(此方式是数据不提取到内存,直接在表中进行操作)3、在 Oracle Enterprise 中设置 Partition table=" 需要查询的表名" 可以实现多进程读取数据4、在文件系统中,为平衡节点负载,建议数据的输入和输出放在不同的磁盘上(可通过节点进行设置,如Sequential_File 中设置 FILE的路径)5、尽量少用repartition ( sort stage 、 join stage 等组件需要对数据进行repartition )6、要保证有足够的scratch 空间,当此空间满了之后,系统会把数据转移到tmp 空间,效率变低7、网络瓶颈会影响作业效率(局域网通讯,Node 之间的通讯问题)8、在 MAIN 机器上,设置是否关闭jobmonitor 进程( pools""为默认节点,需要进行节点运行,如果对””进行赋值,则不作为默认节点,不做运行。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 Sequence-主要功能
• Sequence作业 • 编译作业 • 调试作业
公司内部使用,请勿外传
1.1Sequence基础
1.1 控件介绍 1.2 参数变量及流程控制介绍 1.3 Sequence开发实例
公司内部使用,请勿外传
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.9 Terminator_Activity
该控件提供停止所有当前活动JOB发送STOP命令到各活动JOB的功能
发送STOP命令到各RUNNING JOB 直接将各运行JOB 置为 Abort状 态
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.4 Exception Handler Stage
这个Stage只有输出没有输入,该Stage的作用是在sequence发出警告 信息发出警告信息(JOB发生错误的时候)将该sequence 停掉。
DataStage 调度培训
主讲人:顾伟
2015年3月21日星期六
公司内部使用,请勿外传
内容
将JOB按照业务流程串起来调度 -各sequence组建介绍 -JOB调度顺序介绍 -sequence 的编译、调度、监控
公司内部使用,请勿外传
公司内部使用,请勿外传
Q U E S T I O N S & A N S W E R S
公司内部使用,请勿外传
1.1.2 Annotation
对Sequence的JOB 组件或者 Sequence某个功能模块进行注释. 设定方法如下:
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.3 StartLoop_Activity & EndLoop_Activity 1.1.3.1StartLoop_Activity 设置循环开始步骤,循环次数,循 环终止步骤
1.2 Sequence 的编译和运行
该Sequence 在运行的时候将会按照从左到右的顺序按照各控件的逻辑运行,因此我们可以通过控件之间的连接 线将JOB STAGE串接成串行或并行的JOB STAGE进行运行
公司内部使用,请勿外传
1.3 Sequence运行的监控
1.1Sequence Stage
1.1.1Description Annotation
对Sequence实现功能进行注释,一个Sequence只能有一个 Description Annotation。 设定方法如下:
公司内部使用,请勿外传
1.1Sequence Stage
这里填写所调用脚本 需要用到的参数
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.6 Job Activity
Job Activity 有一条 Input线和一条Output线. 在 JOB 选项中可以将需要运行的JOB导入. Trigger 选项卡中可以选择根据当前JOB运行后的结果对进行下个动作
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.5Execute Command Stage
该STAGE用于调用放置在DS SERVER端的SHELL脚本或其他的命令脚本
这里选择将要执行的脚本在SERVER上的存放路径并写 上将要执行的脚本名称
从StartLoop的下一个组件开始喜欢 每个步骤执行几次 往哪个STAGE方向执行
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.3.2EndLoop_Activity 设置循环终止点,需要将终止 STAGE链接到StartLoop_Activity上去形成一个闭合环路
Sequence运行后产生的运行日志可以在 DataStage Director 中看到 对应的 Sequence起吊各JOB的日志,具体的JOB运行日志需要在JOB 对应的日志中才可以看见。 当JOB运行错误 Sequence的日志中将产生对应的JOB调度失败的警告 ,具体的错误原因需要到JOB日志中进行查看
1.1.7 Routine_Activity
• • 该控件提供在sequence中调用 RT的功能。 该控件有一条Input 线和多条Output 线
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.8 Sequencer
• • 该控件用于终止Sequence流程的执行 该控件具有多条Input 线和多条Output线
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.10 Wait_For_File_Activity
该控件提供等待某个控制文件出现后激活整个 Sequence的功能
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.11 UserVariables_Activity
该控件提供在Sequence运行的过程中修改参数及添加参数的能力
公司内部使用,请勿外传
1.2 Sequence 的编译和运行
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.7 Notification_Activity
• Notification_Activity 配置邮件服务器对应的信Βιβλιοθήκη 发送邮件公司内部使用,请勿外传
1.1 Sequence Stage
公司内部使用,请勿外传
1.1 Sequence Stage
1.1.7 Nested_Condition
• • Nested Condition 可以根椐用户的定义条件进行后面的动作 该组件具有一条Input 、多条Output线
公司内部使用,请勿外传