DataStage-V11.3部署手册
datastage经验总结

目录1 如何重新启动DataStage服务器, 步骤如下: (4)2 DataStage开发经验积累: (4)2.1模板开发 (4)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (4)2.3去除不需要的字段 (4)2.4T RANSFORMER S TAGE的使用 (4)2.5L OOK UP/JOIN 空值处理 (5)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (5)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (5)2.8D ATA型数据是比较麻烦的 (5)2.9行列互换之H ORIZONTAL P IVOT(P IVOT S TAGE) (6)2.10行列互换之V ERTICAL P IVOT (6)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (8)2.12D ATA S TAGE SAP S TAGE的使用 (9)2.13C OLUM I MPORT S TAGE的使用 (9)2.14C OLUM E XPORT S TAGE的使用 (11)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (12)2.16U NABLE TO CREATE RT_CONFIG NNN (13)2.17查看JOB和CLIENT的对应的后台进程 (13)2.18强制杀死DS进程 (13)2.19查看S ERVER E NGINE的进程 (14)2.20查看S ERVER L OCKS (14)2.21关于UNIX系统下无法启动服务的解决办法 (15)2.22L OCKED BY OTHER USER (16)2.23DATA S TAGE J OB L OG的处理 (16)2.24一些BASIC语言中处理字符串的函数 (16)2.25BASIC程序中使用到的一些语法知识 (17)3DS中常见问题记录 (21)3.1权限管理问题 (21)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (21)3.3删除文件的问题 (21)3.4SEQUENCE调度出现的错误问题 (22)3.17字符集问题 (22)3.18V ERSION C ONTROL的问题 (22)3.19SEQUENCE调不起JOB的问题 (22)3.20SEQUENCE调度失败的问题 (23)3.21DS发送邮件的配置问题 (24)3.22随机错误问题 (25)3.23DS中的日期问题 (25)3.24DS连接ORACLE问题 (26)3.25在S EQUENCE F ILE S TAGE中的空值处理问题 (26)3.26在DS中使用O RACLE E NTERPRISE S TAGE必须的权限 (26)3.27DS中去除‘回车符’的问题以及从CHAR类型转变成整型的方法 (26)3.28从后台看JOB列表的方法 (27)3.29D ATASTAGE和数据库的连接方法 (27)3.30在DATASTAGE中使用环境变量的问题 (27)3.31IC ONV 和OC ONV (28)3.32在M ERGE中使用特殊字符 (28)4部分常用Stage 的使用说明 (28)5dsjob 语法说明: (30)6如何从DataStage服务器导出所开发的JOBS列表 (31)7查看当前服务器状态信息的方法: (35)8如何在两台机器之间进行FTP文件 (35)9如何获得Jobstatus ,步骤如下: (37)10dsjob –run 的用法 (38)11如何在后台运行和停止一个JOB (39)12DS Oracle EE Stage 配置 (41)11.1安装O RACLE客户端 (41)11.2添加O RACLE用户到DSADM GROUP组选项 (41)11.3配置D ATA S TAGE服务器DSENV文件 (41)11.4配置TNSNAMES.ORA (42)11.5重起D ATA S TAGE服务 (42)11.6配置O ACLE S TAGE抽取的S ELECT权限 (42)11.7O ACLE EE STAGE配置结束 (43)13DS ODBC 的配置 (43)12.1修改$DSHOME/DSENV (43)12.2修改$DSHOME/.ODBC.INI,来提供数据库连接信息; (43)12.3修改$DSHOME/UVODBC.CONFIG,来指定DSN(DATA SOURCE NAME). (44)14ETL系统扩展 (45)15Remote Shell (rsh)的配置 (45)14.1创建并配置.RHOSTS文件 (45)14.2修改/ETC/HOSTS.EQUIV文件 (46)16dsadmin命令的使用 (46)15.1DSADMIN命令的使用 (46)17如何启动JobMonApp (48)18DS.TOOLS (48)19uvsh常用命令 (51)18.1LOGTO P ROJECT N AME --------登录一个工程 (51)18.2DS.TOOLS---------进入DS工具 (51)18.3LIST DS_JOBS--------显示所有的J OB及J OB的分类C ATEGORY (51)18.4LIST DS_JOBS WITH NAME=J OB N AME ------显示某个特定J OB的信息 (51)18.5LIST.READU EVERY-----列出所有的锁及锁的拥有用户U SER N AME (51)18.6UNLOCK USER USERNO ALL----解锁用户锁住的J OBS (51)18.7LIST.INDEX-----列出资料库的索引 (52)20Usage Analysis来进行影响分析 (52)19.1如何启动U SAGE A NALYSIS (52)19.2U SAGE A NALYSIS中S ELECT C OLUMNS的使用 (53)19.3U SAGE A NALYSIS中V IEW HTML的使用 (54)19.4U SAGE A NALYSIS中L OCATE IN M ANAGER的使用 (55)19.5U SAGE A NALYSIS可使用的S OURCE类型 (56)21DS Message Handlers (57)20.1M ESSAGE H ANDLERS的两种级别 (57)20.2M ESSAGE H ANDLERS的三种动作种类 (58)20.3M ESSAGE H ANDLERS的文件格式 (58)22DS Parallel Routine (59)21.1P ARALLEL R OUTINE注意事项 (59)21.2P ARALLEL R OUTINE创建流程 (59)21.3P ARALLEL R OUTINE示例 (60)23uvconfig文件中参数修改方法 (62)22.1修改文件UVCONFIG中的参数 (62)22.2运行UVREGEN (62)22.3重启DS服务 (62)22.4校验 (62)24&PH& (62)23.1CD \&PH\&或CD ‘&PH&’ (62)25DB2支持的数据格式 (63)26DB2中Load语法和基本使用 (64)1如何重新启动DataStage服务器, 步骤如下:1.01启动DataStage Server 的命令要在$DSHOME/bin 目录下进行. 启动之前要切断所有与服务器端的连接:1. 登陆DataStage 服务器,输入: $DSHOME/bin2. 关闭DataStage 服务器 ./uv –admin –stop3. 检查服务器上是否还有进程没关掉,否则服务器无法启动起来,netstat -a | grep ds4. 重起服务器 ./uv –admin –start.Note: 关闭DataStage 服务器后,建议过30 sec 再重起服务器.2DataStage开发经验积累:2.1 模板开发并行JOB中模板的开发可以最大程度的重用并行JOB的构件,节省时间1. 使用JOB参数(PARAMETER)可以在运行时提供参数的值,增加灵活性,可以在不同的环境处理不同的数据;使用JOB PARAMETER 可以在同一时间使用不同参数运行同一个JOB2. Shared Container共享容器可以在多个JOB中共享相同的逻辑,当一个JOB编译时共享容器被嵌入.2.2 通过Server Shared Container在Parallel Job中添加Server Job Stage在Designer中创建一个server shared container,添加需要的Server job stage,再把server shared container添加到parallel job并连接到其他parallel stage. 2.3 去除不需要的字段当从数据库中读取数据时,要尽可能早的去除不需要的字段,只读取需要的字段,而不是整个表,这样可以提高数据读取效率.2.4 Transformer Stage的使用1. 慎用Transformer Stage,因为它可能降低JOB的运行效率,有些功能能合并成一个单独的STAGE的不要用多个STAGE,要用其他的STAGE来代替Transformer Stage 能完成的任务.2. Transformer Stage 的数据流程是先经过constraint的过滤,然后再经过Derivation处理3. 对于确定类型的操作,使用其他STAGE 比使用TRANSFORMER 会更好:(1) 对如下情况,使用Copy Stage 将比Transformer Stage 更好﹡在界面上提供一个JOB 设计占位符﹡重新命名字段﹡删除字段﹡Implicit类型变换(2) 使用Filter Stage 或者Switch Stage 来把输入记录按照限制表式分成多个输出分支.(3) 使用Modify Stage 来explicit 类型变换和Null处理﹡Modify Stage 也可重新命名字段﹡保持(keep)或删除(drop)字段﹡也可增加新字段,并为新增字段赋值,但赋值方式要以字段=字段形式,例如:new_columnname=old_columnname; 但new_columnname=”hf”这样赋值是错误的﹡Null的处理destinationColum=handle_null(sourceColum,Value)destinationColum=make_null(sourceColum,Value),这个使用中有问题,不处理空值2.5 Look up/join 空值处理1. 当使用Lookup Failure = Contunue 时,要把reference link 的非主键设置成Nullable,即使reference data 是非空的,也要设置成Nullable,这样能够确保Lookup 把空值分配给没有匹配的参考非主键2. 如果参考非主键没有设置成Nullable ,将会发生什么:Lookup 将会分配一个默认值给没有匹配的的行:Integer 默认值为0Varchar/char 默认值为空字符串(0长度的)2.6 DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用空格(ASCII 20)字符来填充剩余长度(环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII20),具体在哪个stage填充的不知.2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII0)。
DataStage基本知识

本例对字段做简单运算,根据条件装载到不同表中
53
DataStage实例-表到表
本例中连接数据库仍使用ODBC,每个ODBC Stage连 接Informix中的一张表. 本例中使用一个新的Stage: Transformer(转换) 在设置了各个ODBC Stage之后,我们来看一下 Transformer(转换)的属性
DataStage Administrator(主管):用于创建 DataStage用户,创建,移动项目。
10
DataStage Administrator(主管)
11
DataStage Administrator(主管)
12
DataStage Designer(设计者)
13
DataStage Manager(管理者)
输入需要导出的列
需要的列
47
DataStage实例-表到文件
查看并修改SQL语句
SQL语句
SQL参考
48
DataStage实例-表到文件
可使用”View data…”按钮查看内容
查看内容
49
DataStage实例-表到文件
指定输出文件
文件路径名称
50
DataStage实例-表到文件
Repository(仓库),包括建造数据集市或数据仓库 所需要的全部信息的中央存储器; DataStage Server(服务器),运行向数据仓库抽 取,转换,导入数据的可执行作业; DataStage Package Installer(包安装,服务端的 安装工具),用来安装包装的DataStage作业和插件 的用户界面。
DATASTAGE的介绍及基本操作

? 数据清洗、转换、加载都可以在图形化工具里完成 ,同样可以灵活的被外部系统调度,提供专门的设 计工具来设计转换规则和清洗规则等,实现了增量 抽取、任务调度等多种复杂而实用的功能 。
? Designer提供一个数据流程的模式,轻松将设置和Job的设计有 机的组成。
? 使用Designer,可以: 1、指定数据如何抽取。
? 2、指定数据的转换规则和进行转换。
? 3、使用参考性质的LookUp到数据集市中编辑数据。
? a)例如,如果销售的记录集包括CustomerID,可以在 CustomerMaster表中使用LookUp查找到Customer的名称。
Datastage的工程管理
? 所有的工作都在一个工程中。 ? 在安装过后,需要建立一个工程,这是安
装必选的项目。 ? 在使用它工作之前,要登录这个工程。 ? 可以在工程间进行导入和导出Datastage的
项目内容。 ? 多个用户可以在同一时间使用同一工程,
但是不能同时编辑同一个项目。
所有的工作都在Datastage的工程里进行。在做任何事 之前,那些具有同样管理权限的人,都要先打开一个工程, 即进行登录。
运行和监控 ds的job。主要用于 job调试。
? DS Manager
允许编辑和查看在 ds中存储的内容。主要用于项目 管理或job的导入、导出、备份。
DataStage中的Administrator
默认使用Administator来指定常规的服务端,用来增加 或删除DataStage工程,并且可以设置工程的属性。 Administator也对于总库提供命令接口。
Datastage控件使用指南

目录1. 引言 (1)2. 常用STAGE使用说明 (1)2.1.S EQUENTIAL F ILE S TAGE (1)2.2.A NNOTATION (4)2.3.C OLUMN E XPORT S TAGE (5)2.4.C HANGE C APTURE S TAGE (7)2.5.C OPY S TAGE (9)2.6.F ILTER S TAGE (10)2.7.F UNNEL S TAGE (11)2.8.T ANSFORMER S TAGE (12)2.9.S ORT S TAGE (13)2.10.L OOK U P S TAGE (14)2.11.J OIN S TAGE (14)2.12.M ERGE S TAGE (16)2.13.M ODIFY S TAGE (17)2.14.D ATA S ET S TAGE (18)2.15.F ILE S ET S TAGE (19)2.16.L OOKUP F ILE S ET S TAGE (21)2.17.O RACLE E NTERPRISE S TAGE (23)2.18.A GGREGATOR S TAGE (24)2.19.R EMOVE D UPLICATES S TAGE (26)2.20.C OMPRESS S TAGE (27)2.21.E XPAND S TAGE (28)2.22.D IFFERENCE S TAGE (29)2.23.C OMPARE S TAGE (31)2.24.S WITCH S TAGE (32)2.25.C OLUMN I MPORT S TAGE (33)3. DATASTAGE MANAGER使用 (35)3.1.导入导出J OB及其它组件 (35)3.2.管理配置文件 (37)4. DATASTAGE ADMINISTRATOR常用配置 (39)4.1.设置T IME O UT时间 (39)4.2.设置P ROJECT的属性 (40)4.3.更新D ATA S TAGE S ERVER的L ICENSE和本地C LIENT的L ICENSE (41)5. DATASTAGE DIRECTOR使用 (41)5.1.察看J OB的状态,运行已经编译好的J OB (41)5.2.将编译好的J OB加入计划任务 (44)5.3.监控J OB的运行情况 (45)1.引言DataStage EE的开发主要由DataStage Designer完成。
Datastage产品安装手册

Datastage产品安装配置手册目录DATASTAGE (1)产品安装配置手册 (1)目录 (1)1. 引言 (2)2. SERVER安装 (2)2.1.S ERVER安装准备 (2)2.1.1. 硬件及软件准备 (2)2.1.2. 创建用户及组 (2)2.1.3. 系统参数设置 (3)2.2.S ERVER安装步骤 (3)2.3.安装完毕,检查后台S ERVER是否启动正常 (15)3. CLIENT安装 (16)4. EESTAGE配置: (16)4.1.配置前准备 (16)4.2.配置过程 (16)4.3.测试 (17)1.引言DataStage EE 7.5.2Server安装在hp unix平台上,Client端安装在Windows平台上。
以下为详细说明其安装步骤。
2.Server安装2.1.Server安装准备2.1.1.硬件及软件准备2.1.2.创建用户及组1.运行sam命令,启动管理界面2.在安装机器上创建dstage组3.创建用户dsadm,属于dstage组和dba组。
dsadm用户要有存取权限2.1.3.系统参数设置1)检查Server端paging space的空间,对于CPU数量少于20个的机器,最好整个Paging Space为500M×CPU数,如机器配置了8个CPU,则推荐至少需要配置4GB的Paging Space空间。
2)检查核心参数,不符合要求则针对操作系统进行如下调整(使用sam):3)检查参数Maximum number of PROCESSES allowed per user,设置Datastage允许运行的最大进程数,推荐设置到较大的值,如:8192。
2.2.Server安装步骤确保以超级用户root进入系统(非常重要)如果是硬盘包,则执行命令:gunzip 2105-ds-75a-aix.tar.Z进入解压目录Tar xvf 2105-ds-75a-aix.tar进入/解压环境/Ascential.media/aix目录如果是光盘包,则执行命令: Mount /cdrom进入 /cdrom目录1)执行./INSTALL.SH\;1。
datastage使用说明

用DataStage进行数据整合DataStage 的开发环境是基于C/S 模式的,通过DataStage Client 连接到DataStage Server 上进行开发。
这里有一点需要注意,DataStage Client 只能安装在Windows 平台上面。
而DataStage Server 则支持多种平台,比如Windows、Redhat Linux、AIX、HP-UNIX。
DataStage Client 有四种客户端工具。
分别是DataStage Administrator、DataStage Designer、DataStage Manager、DataStage Director。
接下来首先介绍这几种客户端工具在DataStage 架构中所处的位置以及它们如何协同工作来开发ETL Job 的,接着再分别详细介绍每个工具的功能。
图1 描述了IBM WebSphere DataStage 的整个系统架构。
DataStage 的客户端工具连接到DataStage Server 上进行ETL Job 的开发,DataStage Server 再与后台的数据库连接起来进行数据处理。
DataStage 的客户端工具之间的是一个相互合作的关系。
下面通过介绍ETL Job的开发过程来介绍他们之间的这种关系。
ETL Job开发流程1.用DataStage Administrator 新建一个项目;2.用DataStage Designer 连接到这个新建的项目上进行ETL Job的设计;3.用DataStage Director 对设计好的ETL Job设置运行的模式,比如多长时间运行一次ETL Job;4.用DataStage Manager 进行ETL Job的备份等。
图1:IBM WebSphere DataStage 架构图DataStage AdministratorDataStage Administrator 的主要功能有以下几个:1.设置客户端和服务器连接的最大时间。
datastage学习文档

工作总结1 如何重新启动DataStage服务器, 步骤如下: (5)2 DataStage开发经验积累: (5)2.1模板开发 (5)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (5)2.3去除不需要的字段 (5)2.4T RANSFORMER S TAGE的使用 (5)2.5L OOK UP/JOIN 空值处理 (6)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (6)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (6)2.8D ATA型数据是比较麻烦的 (6)2.9行列互换之H ORIZONTAL P IVOT(P IVOT S TAGE) (7)2.10行列互换之V ERTICAL P IVOT (7)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (9)2.12D ATA S TAGE SAP S TAGE的使用 (10)2.13C OLUM I MPORT S TAGE的使用 (10)2.14C OLUM E XPORT S TAGE的使用 (12)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (13)2.16U NABLE TO CREATE RT_CONFIG NNN (14)2.17查看JOB和CLIENT的对应的后台进程 (14)2.18强制杀死DS进程 (14)2.19查看S ERVER E NGINE的进程 (15)2.20查看S ERVER L OCKS (15)2.21关于UNIX系统下无法启动服务的解决办法 (16)2.22L OCKED BY OTHER USER (17)2.23DATA S TAGE J OB L OG的处理 (17)2.24一些BASIC语言中处理字符串的函数 (17)2.25BASIC程序中使用到的一些语法知识 (18)3DS中常见问题记录 (22)3.1权限管理问题 (22)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (22)3.3删除文件的问题 (22)3.4SEQUENCE调度出现的错误问题 (23)3.17字符集问题 (23)3.18V ERSION C ONTROL的问题 (23)3.19SEQUENCE调不起JOB的问题 (23)3.20SEQUENCE调度失败的问题 (24)3.21DS发送邮件的配置问题 (25)3.22随机错误问题 (26)3.23DS中的日期问题 (26)3.24DS连接ORACLE问题 (27)3.28从后台看JOB列表的方法 (28)3.29D ATASTAGE和数据库的连接方法 (28)3.30在DATASTAGE中使用环境变量的问题 (28)3.31IC ONV 和OC ONV (29)3.32在M ERGE中使用特殊字符 (29)4部分常用Stage 的使用说明 (29)5dsjob 语法说明: (31)6如何从DataStage服务器导出所开发的JOBS列表 (32)7查看当前服务器状态信息的方法: (36)8如何在两台机器之间进行FTP文件 (36)9如何获得Jobstatus ,步骤如下: (38)10dsjob –run 的用法 (39)11如何在后台运行和停止一个JOB (40)12DS Oracle EE Stage 配置 (42)11.1安装O RACLE客户端 (42)11.2添加O RACLE用户到DSADM GROUP组选项 (42)11.3配置D ATA S TAGE服务器DSENV文件 (42)11.4配置TNSNAMES.ORA (43)11.5重起D ATA S TAGE服务 (43)11.6配置O ACLE S TAGE抽取的S ELECT权限 (43)11.7O ACLE EE STAGE配置结束 (44)13DS ODBC 的配置 (44)12.1修改$DSHOME/DSENV (44)12.2修改$DSHOME/.ODBC.INI,来提供数据库连接信息; (44)12.3修改$DSHOME/UVODBC.CONFIG,来指定DSN(DATA SOURCE NAME). (45)14ETL系统扩展 (46)15Remote Shell (rsh)的配置 (46)14.1创建并配置.RHOSTS文件 (46)14.2修改/ETC/HOSTS.EQUIV文件 (47)16dsadmin命令的使用 (47)15.1DSADMIN命令的使用 (47)17如何启动JobMonApp (49)18.1LOGTO P ROJECT N AME --------登录一个工程 (52)18.2DS.TOOLS---------进入DS工具 (52)18.3LIST DS_JOBS--------显示所有的J OB及J OB的分类C ATEGORY (52)18.4LIST DS_JOBS WITH NAME=J OB N AME ------显示某个特定J OB的信息 (52)18.5LIST.READU EVERY-----列出所有的锁及锁的拥有用户U SER N AME (52)18.6UNLOCK USER USERNO ALL----解锁用户锁住的J OBS (52)18.7LIST.INDEX-----列出资料库的索引 (53)20Usage Analysis来进行影响分析 (53)19.1如何启动U SAGE A NALYSIS (53)19.2U SAGE A NALYSIS中S ELECT C OLUMNS的使用 (54)19.3U SAGE A NALYSIS中V IEW HTML的使用 (55)19.4U SAGE A NALYSIS中L OCATE IN M ANAGER的使用 (56)19.5U SAGE A NALYSIS可使用的S OURCE类型 (57)21DS Message Handlers (58)20.1M ESSAGE H ANDLERS的两种级别 (58)20.2M ESSAGE H ANDLERS的三种动作种类 (59)20.3M ESSAGE H ANDLERS的文件格式 (59)22DS Parallel Routine (60)21.1P ARALLEL R OUTINE注意事项 (60)21.2P ARALLEL R OUTINE创建流程 (60)21.3P ARALLEL R OUTINE示例 (61)23uvconfig文件中参数修改方法 (63)22.1修改文件UVCONFIG中的参数 (63)22.2运行UVREGEN (63)22.3重启DS服务 (63)22.4校验 (63)24&PH& (63)23.1CD \&PH\&或CD ‘&PH&’ (63)25DB2支持的数据格式 (64)26DB2中Load语法和基本使用 (65)1.01启动DataStage Server 的命令要在$DSHOME/bin 目录下进行. 启动之前要切断所有与服务器端的连接:1. 登陆DataStage 服务器,输入: $DSHOME/bin2. 关闭DataStage 服务器 ./uv –admin –stop3. 检查服务器上是否还有进程没关掉,否则服务器无法启动起来,netstat -a | grep ds4. 重起服务器 ./uv –admin –start.Note: 关闭DataStage 服务器后,建议过30 sec 再重起服务器.2DataStage开发经验积累:2.1 模板开发并行JOB中模板的开发可以最大程度的重用并行JOB的构件,节省时间1. 使用JOB参数(PARAMETER)可以在运行时提供参数的值,增加灵活性,可以在不同的环境处理不同的数据;使用JOB PARAMETER 可以在同一时间使用不同参数运行同一个JOB2. Shared Container共享容器可以在多个JOB中共享相同的逻辑,当一个JOB编译时共享容器被嵌入.2.2 通过Server Shared Container在Parallel Job中添加Server Job Stage在Designer中创建一个server shared container,添加需要的Server job stage,再把server shared container添加到parallel job并连接到其他parallel stage. 2.3 去除不需要的字段当从数据库中读取数据时,要尽可能早的去除不需要的字段,只读取需要的字段,而不是整个表,这样可以提高数据读取效率.2.4 Transformer Stage的使用1. 慎用Transformer Stage,因为它可能降低JOB的运行效率,有些功能能合并成一个单独的STAGE的不要用多个STAGE,要用其他的STAGE来代替Transformer Stage 能完成的任务.2. Transformer Stage 的数据流程是先经过constraint的过滤,然后再经过Derivation处理3. 对于确定类型的操作,使用其他STAGE 比使用TRANSFORMER 会更好:(1) 对如下情况,使用Copy Stage 将比Transformer Stage 更好﹡在界面上提供一个JOB 设计占位符﹡重新命名字段成多个输出分支.(3) 使用Modify Stage 来explicit 类型变换和Null处理﹡Modify Stage 也可重新命名字段﹡保持(keep)或删除(drop)字段﹡也可增加新字段,并为新增字段赋值,但赋值方式要以字段=字段形式,例如:new_columnname=old_columnname; 但new_columnname=”hf”这样赋值是错误的﹡Null的处理destinationColum=handle_null(sourceColum,Value)destinationColum=make_null(sourceColum,Value),这个使用中有问题,不处理空值2.5 Look up/join 空值处理1. 当使用Lookup Failure = Contunue 时,要把reference link 的非主键设置成Nullable,即使reference data 是非空的,也要设置成Nullable,这样能够确保Lookup 把空值分配给没有匹配的参考非主键2. 如果参考非主键没有设置成Nullable ,将会发生什么:Lookup 将会分配一个默认值给没有匹配的的行:Integer 默认值为0Varchar/char 默认值为空字符串(0长度的)2.6 DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用空格(ASCII 20)字符来填充剩余长度(环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII20),具体在哪个stage填充的不知.2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII0)。
DataStage客户端安装及使用文档

DataStage 客户端安装及使用文档1.客户端安装1.1 安装步骤解压客户端文件client_IA-suite.rar,完成后,进入目录,client_IA-suite,运行install.exe,会提示如下:选择英语,点击确定,安装时,最好关闭防火墙,选择要安装客户端的位置,点击NEXT:选择要安装的组件,点击NEXT:选择安装模式,点击NEXT:点击INSTALL后,开始安装:点击FINISH,安装完成。
安装完成后,在本机的HOSTS文件中需要配置一下:目录:C:\Windows\System32\drivers\etc在最后一行添加如下:# localhost name resolution is handled within DNS itself.# 127.0.0.1 localhost# ::1 localhost17.83.26.110(IP地址为服务器地址)ETL110(这个名字可以自己取)1.2 DataStage Client组件安装完成后有如下组件:1.Administrator Client用于创建DataStage 用户,创建,移动项目,设置清除标准的用户界面。
2.Director Client用来验证,计划时间,运行,监控DataStage 作业的用户界面。
3.Designer Client用来创建DataStage 应用(或作业)的设计接口。
每个作业都指定数据源,所需的转换和数据的目的地。
作业被编译成可执行的,由Director 计划,由Server 运行(主机作业被转移,在主机上运行)。
4.Datastage Manager用于存储和管理JOB 的元数据,使之可以在DataStage Designer 中再度被使用,包括库表定义、集中的转换程序等,并对工程备份和恢复。
2.组件使用2.1Administrator Client2.1.1登陆界面ETL110为刚刚我们在HOSTS中配置的名字,端口一般都是9080输入DOMAIN和账号密码完成后,点击DATASTAGE SERVER 右边的小三角,这时DATASTAGE会去验证用户名密码,成功后,会出来下拉框,这时证明已经联通了,选中一个SERVER,点击OK即可登陆2.1.2设置参数登陆成功后,界面如下:General页签:Projects页签:点击工程属性按钮后,显示界面如下:General 页签:Protect Projec t :设置项目为protected, 如果一个项目已经是protected,则按钮就显示为“Unprotect Project”Auto-purge of job log:每个Job 都对应一个log 文件,Job 的每一次运行都会产生新的log 附加到log 文件中,如果不及时清除无用的log,将会占用大量的空间,同时还会影响Job 的运行效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DataStageV11.3
安装手册
修订记录
一、基础安装环境检查
1.操作系统Redhat Linux6需要的安装补丁包
glibc-2.12-1.107.el6.x86_64
libXp-1.0.0-15.1.el6.x86_64
libXau-1.0.5-1.el6.x86_64
libXext-1.1-3.el6.x86_64
libX11-1.3-2.el6.x86_64
libxcb-1.5-1.el6.x86_64
libXmu-1.0.5-1.el6.x86_64
nss-softokn-freebl-3.14.3-9.el6.x86_64
pam-1.1.1-4.el6_0.1.x86_64
libaio-0.3.107-10.el6.x86_64
libstdc++-4.4.7-3.el6.x86_64
compat-libstdc++-33-3.2.3-69.el6.x86_64 libgcc-4.4.7-3.el6.x86_64
2.检查操作方法
rpm –qa | grep glibc
3.授权文件配置
将授权文件解压至安装文件is-suite文件夹下
二、创建oracle数据库
1.将DataStage初始化Oracle数据库脚本上传至
数据库服务器
2.依次执行数据库初始化脚本
./ create_xmeta_db.sh sys Oracle123 orcldb dsadmin dsadmin'!'123 DATASTAGE /oracle/app/oracle/oradata/orcldb
./create_xmeta_db.sh sys Oracle123 orcldb wsadmin wsadmin'!'123 DATASTAGE1 /oracle/app/oracle/oradata/orcldb
三、DataStage程序安装
1.启动安装程序
2.通过web访问方式登录安装控制页面
https://localhost:9445/ISInstall
默认执行下一步
默认执行下一步
基础环境检查全部通过后,再执行下一步操作
选择程序安装路径后执行下一步
选择新安装程序,执行下一步
选择安装服务层及引擎层执行下一步
选择安装DataStage产品,执行下一步
接受安装许可信息,执行下一步
配置服务层的集群设置,如非集群配置,默认执行下一步
使用Oracle下dsadmin用户进行数据库连接操作,执行下一步
使用Oracle的was数据库用户wsadmin进行数据库连接操作,执行下一步
默认选择安装Websphere应用后,执行下一步
默认程序安装路径,执行下一步
程序对外开放端口列表,执行下一步
设置服务层管理用户,执行下一步
设置InfomationServer用户isadmin后,执行下一步
默认不进行建库操作,将Skip database registration and script creation 勾选上,执行下一步
选择安装InfoSphere DataStage产品,执行下一步
ASB端口,默认执行下一步
创建DataStage服务端服务器管理用户,执行下一步
创建用户成功,执行下一步
默认执行下一步
默认执行下一步
执行安装程序,执行下一步
默认执行下一步
默认执行下一步
默认执行下一步
安装前环境再次检查,务必保证全部检查通过,方可执行安装操作,执行下一步
安装日志记录,默认执行下一步
安装完成。
配置oracle数据源ODBC
四、管理服务
1.关闭服务
停止DS服务
cd /opt/IBM/InformationServer/Server/DSEngine
bin/uv –admin –stop
停止ASBNode
cd /opt/IBM/InformationServer/ASBNode/bin
./NodeAgents.sh stop
2.启动服务
启动DS服务
cd /opt/IBM/InformationServer/Server/DSEngine
bin/uv –admin –start
启动ASB服务
cd /opt/IBM/InformationServer/ASBNode/bin
./NodeAgents.sh start
五、卸载
1.数据库端卸载
删除相关用户
drop user iaviews cascade;
drop user cmviews cascade;
drop user igviews cascade;
drop user cefviews cascade;
drop user remiews cascade;
删除相关表空间
删除安装所创建的datastage、datastage1表空间
2.实用软件除去Datastage(图形方式)
以root身份登录至/opt/IBM/InformationServer /_uninstall安装目录,执行./uninstall -uimode graphical -rsp file_name
访问删除页面操作。