DataStage 工作笔记

合集下载

DataStage 日志记录使用规范

DATASTAGE日志记录使用规范一、设计目的在以往的datastage开发过程中,通过oracle enterprise stage 进行数据入库的时候,因为是使用的datastage的入库技术,即直接使用insert语句插入数据,所以无法在数据库中记录插入的记录条数和reject的记录条数.在这种情况下,为了能够统计加载资料量,我们使用先调用shell命令统计job日志中的加载记录条数,再通过调用存储过程把记录条数记载入数据库的日志表的方式来实现统计加载记录条数的目的二、相关程序a)命令行程序名称:sp_log.sh功能:查询job日志中对应sequence下所有job的插入目标表的记录条数,并通过调用oracle存储过程把统计出的记录条数加加载数据库日志表;输入参数: DSPROJECT datastage项目名称DSJOBNAME datastage sequence job 名称WORKDA TE 加载日期,用于插入日志表WORK_DATE列DBNAME 加载数据库连接名称DBUSER 加载数据库用户名称DBPWD 加载数据库用户密码输出参数: OUTPUT 加载成功失败标志b)存储过程名称:sp_log功能:使用输入参数插入stat_error_log表,保存日志记录输入参数: in_work_date 加载日期,插入日志表WORK_DATE列in_proc_name 加载程序名称,插入日志表PROC_NAME列in_table_name 加载目标表名称,插入日志表TABLE_NAME列in_proc_type 加载程序类型,插入日志表PROC_TYPE列,0为存储过程,1为ds jobin_row_num 加载记录条数,插入日志表ROW_NUM列in_sql_code 加载SQL_CODE,插入日志表SQL_CODE列,本处只插入空值in_sql_errm 加载SQL_ERRM,插入日志表SQL_ERRM列,本处只插入空值in_execute_flag 加载标志,插入日志表EXECUGTE_FLAG列,0为成功,1为失败in_stat_time 加载结束日期,插入日志表STAT_TIME列in_begin_time 加载开始日期,插入日志表BEGIN_TIME列in_info 加载信息,插入日志表INFO列,本处插入执行周期和拒绝记录条数输出参数: out_sqlcode 加载标志,0为成功,非0值为失败out_sqlmsg 加载信息,记录正确结束信息或失败错误原因及出错位置三、使用规范a)封装sequence程序调整在原有job封装sequence程序的尾部添加一个Execute Command Stage,用这个Stage调用shell命令,如图:b)参数传递在Execute Command Stage 中,我们需要填写调用命令行的一些信息,如下: Command:/EDWETL/SH/sp_log.shParameters:P05_EDW test_ec #WORKDATE# #DBNAME# #DBUSER# #DBPWD#其中,Command字段填写的是命令行保持不变,除非开发规范发生变化;Parameters字段填写必须按照project名称+空格+seq名称+空格+#WORKDATE#+空格+#DBNAME#+空格+#DBUSER#+空格+#DBPWD#的方式填写,如图:c)运行前核查表i.确认sp_log.sh在/EDWETL/SH/下ii.确认该文件有执行权限iii.确认datastage执行用户具有/EDWETL/TMP文件夹的读写权限iv.确认目标数据库用户下有sp_log的存储过程,该过程有效并有执行权限d)范例程序具体的可执行范例程序在:10.201.64.13的P05_EDW\TMP下,SEQUENCE名称为test_ec。

DATASTAGE----DATASTAGE经验积累

DATASTAGE——一DATASTAGE经验积累一、JOB的分类与作用1、Server JOB:最为常用的Job类型，Job可以组合使用，Server Job是Job的最小单位。

原文档：If you have the Web Services pack installed an additional check box, Web Service Enabled, appears. Select it to indicate the job can be made available as a web service.2、Parallel JOB:3、Mainframe JOB:运行于大型机的JOB。

4、JOB Sequences:Job Sequence主要用于Job间的协作工作控制，如各Job的实行流程，出错处理，文件监控等。

二、jobstatus的用法jobstatus-jobstatus waits for the job to complete, then returns an exit code derived from the job status.命令格式为：dsjob –run[ –mode [ NORMAL | RESET | VALIDATE ] ][ –param name=value ][ –warn n ][ –rows n ][ –wait ][ –stop ][ –jobstatus][–userstatus][-local]project job三、判断NULL值实例STAGE ：JOIN STAGE设置：LEFT JOIN左输入语句：SELECT * FROM PMP_Insured_Amount右输入语句：SELECT COL_ID,TAB_NAME,WORK_DATE,REF_COLUMN1 AS UNIQUE_ID_IN_SRC_SYS,REF_COLUMN2,ROW_ID,HASHCODE AS B_HASHCODE,ANCHOR_ID,PARTITION_KEY,IS_DUPLICATED,'A' AS MARK --用以判断结果集右边是否为空FROM ETL_FOR_INC_TMP2SQL语句：SELECT A.*,B.*FROM PMP_Insured_Amount ALEFT JOIN ETL_FRO_INC_TMP2 BON A.UNIQUE_ID_IN_SRC_SYS = B.UNIQUE_ID_IN_SRC_SYS 功能：判断来自A表的所有记录，哪些能够B表关联，哪些不能与B表关联。

经验总结_DataStage

经验总结_DataStage本资料仅供内部使用！经验总结_DataStage2010年09月29日目录1.D A TA S TAGE怎么调用存储过程 (2)2.D A TA S TAGE调度设计 (3)1. DataStage怎么调用存储过程1）打开Desinger2）拉入DB2 Connector控件3）填写参数4）在“Insert statement”属性中输入：call DCDW.SP_ODS2DW_DIRECTOR 5）总体情况如下图：6）编译1）新建“序列作业”2）加入Job Activity控件3）编辑Job Activity控件内容4）调度时间的设置3. DataStage8.5作业日志入库1)原理：新建一个Before/After subroutine，名为RoutineJobInfo，每个JOB运行完后执行一个这个routine，用于将每个job执行完后的相关日志信息写到一个文件里，然后通过一个shell程序runjobinfo将每个job运行的日志信息写入数据表LOG_DATASTAGE中。

每天通过检查LOG_DA TASTAGE表中每个job的状态信息来检查job是否运行失败。

2)步骤第一步，打开Designer 客户机，进入如下界面，找到左边的Routines目录第二步第三步RoutineJobInfo_code.txt 第四步第五步输入参数0;/dcdata/etl/runjobinfo/，在/dcdata/etl/runjobinfo/目录下产生每个JOB运行后的日志信息，文件名为job名称.txt。

3)建立日志表(DCDW.LOG_DATASTAGE)4)Shell程序etl_runjobinfo.sh读取/dcdata/etl/runjobinfo/下产生的每个JOB日志信息，产生JOB运行清单jobfilename.tmp记录运行job名称，将相关信息插入DCDW.LOG_DATASTAGE表。

Datastager入门应用开发(详细示例)

Datastage应用开发1 Datastage 简介Datastage包含四大部件：Administrator、Manager、Designer、Director。

1．用DataStage Administrator 新建或者删除项目，设置项目的公共属性，比如权限。

2．用DataStage Designer 连接到指定的项目上进行Job的设计；3．用DataStage Director 负责job的运行，监控等。

例如设置设计好的job的调度时间。

4．用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标：将源表中数据调度到目标表中去。

1 数据库：posuser/posuser@WHORADB , ip: 192.168.100.882 源表：a_test_from3 目标表：a_test_to两者表结构一样，代码参考：create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE)；alter table A_TEST_FROMadd constraint TEST primary key (ID)；4. 示例数据：insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务：打开datastage designer，连接datastage服务器1．双击桌面datastage designer图标。

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心（数据仓库）中的数据来自于多种业务数据源，这些数据源可能是不同硬件平台上，使用不同的操作系统，数据模型也相差很远，因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心（数据仓库）加载这些数据量大、种类多的数据，已成为建立数据中心（数据仓库）所面临的一个关键问题。

针对目前系统的数据来源复杂，而且分析应用尚未成型的现状，专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据集市或数据中心（数据仓库）目标数据库的集成工具。

DataStage 能够处理多种数据源的数据，包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等，以下列出它所能处理的主要数据源：大型主机系统数据库：IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库：Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统：SAP/R3,PeopleSoft系统等，普通文件和复杂文件系统，FTP 文件系统，XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。

其中每步都可以在图形化工具里完成，同样可以灵活的被外部系统调度，提供专门的设计工具来设计转换规则和清洗规则等，实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现，复杂转换可以通过编写脚本或结合其他语言的扩展来实现，并且DataStage 提供调试环境，可以极大提高开发和调试抽取、转换程序的效率。

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作DataStage的基本操作包括设计和开发数据集成任务、管理数据集成任务的执行、监控任务的运行状态和性能等。

下面将分别介绍DataStage 的设计和开发、任务管理和监控等方面的基本操作。

1.设计和开发数据集成任务：- 创建项目：在DataStage中创建一个新的项目，并指定项目的名称和存储位置。

-创建作业流：在项目中创建一个新的作业流，并指定作业流的名称和描述。

-添加源和目标：将源数据和目标数据的连接器添加到作业流中，并配置其连接属性。

-设计转换：使用图形化工具将数据转换逻辑以节点的方式添加到作业流中。

可以使用预定义的转换函数、过滤器和聚合函数，并自定义转换规则。

-配置作业参数：为作业流设置参数，例如源数据的路径、目标数据的路径等。

-配置作业调度：定义作业流的调度规则，例如每日、每周或每月执行一次。

2.任务管理：- 启动任务：在DataStage的用户界面中选择要执行的作业流，并单击启动按钮来启动任务。

-监控任务状态：查看任务的运行状态，例如正在运行、已完成或已失败。

-管理调度：可以根据需要修改任务的调度规则，例如修改任务的执行时间或频率。

-管理依赖关系：设置任务之间的依赖关系，例如一个任务的输出作为另一个任务的输入，确保任务按照正确的顺序执行。

3.监控任务：- 实时监控：在DataStage的用户界面中查看任务的实时执行情况，包括输入/输出数据的数量、处理速度、错误记录等。

-查看日志：查看任务执行的详细日志，包括每个节点的执行情况、输入/输出数据的详细信息、转换规则的执行结果等。

-分析性能：分析任务的性能指标，例如任务的执行时间、内存使用情况、CPU利用率等，以优化任务的运行效率。

DataStage还提供了其他高级功能，例如数据质量检查、数据变化捕获和增量加载等。

此外，DataStage与其他数据集成工具和平台的集成也是可能的，例如与大数据处理框架Hadoop、数据仓库工具Teradata等的集成。

DataStage V7.5 学习总结讲解学习

一、DataStage简介Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据集市或数据中心（数据仓库）目标数据库的集成工具。

DataStage能够处理多种数据源的数据，包括主机系统上的大型数据库、开放系统上的关系型数据库和普通的文件系统等。

常见的主要数据源有：大型主机系统的数据库：IMS、DB2、ADABAS、VSAM等。

开发系统的关系型数据库：Informix、Oracle、Sybase、DB2、Microsoft SQL Server等。

ERP系统：SAP/R3、PeopleSoft等。

普通文件和复杂文件系统，FTP文件系统，XML等。

IIS、Netscape、Apache等Web服务器系统。

Outlook等Email系统。

DataStage 可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现，复杂转换可以通过编写脚本或结合其他语言的扩展来实现，并且 DataStage 提供调试环境，可以极大提高开发和调试抽取、转换程序的效率。

二、DataStage工作原理DataStage XEDataStage的设计是基于数据流的概念。

一个完整的数据流图（DataStage作业），从一个永久存储的数据源开始，并且执行一系列的增值转换和其他处理操作，最后加载数据到一个永久的存储。

数据集（Data Set）就是对通过数据流程的记录的收集。

一个数据集可以是屋里放置在磁盘上，也可以是虚拟放置在内存中。

数据在数据流中的Stage中移动使用的是虚拟的数据集，这样可以大大提高性能；分区（在后面介绍）是在Stage的属性中设置的。

DataStage Stage使用

Funnel阶段Funnel阶段是一个处理阶段。

它将多个输入数据集复制到单个数据集，该操作对于将单独数据集合并到单个大型数据集而言非常有用。

该阶段可以有众多输入链接和一个输出链接Funnel阶段能够以下列三种方式之一运行：1、连续传送以不可保证顺序合并输入数据的记录。

它依次从每个输入链接获取一条记录。

如果输入链接上的数据不可用，那么该阶段会跳至下一个链接，而不是等待。

2、排序传送按照一个或多个键列的值定义的顺序合并输入记录，输出记录的顺序由这绡排序键确定。

3、顺序将第一个输入数据集中的所有记录复制到输出数据集，然后将第二个输入数据集中的所有记录复制到输出数据集，依此类推。

对于所有方法，所有数据数据集的元数据都必须椒相同的。

排序传送方法对于其输入数据有一些特定要求。

所有输入数据集都必须根据Funnel操作的键列进行排序。

通常，排序传送操作的所有输入数据集在排序之前都是散列分区的（选择自动分区方法将确保完成这一操作）.散列分区可确保具有相同键列值的所有记录都位于同一分区中，以便在同一个节点上处理。

如果在Funnel阶段之前在单独的阶段上执行排序和分区，那么必须保留该分区排序传送操作允许您设置一个主键和多个辅键以确定将输出的记录的顺序。

Funnel阶段：快速路径InfoSphere DataStage有许多缺省设置，这表示您能够载作业中轻松包含Funnel阶段。

本部分指定了要使Funnel阶段运行所需的最少步骤。

InfoSphere DataStage提供了多样化的用户界面，且提供了许多快捷方式供您达到特定目标，本部分描述了基本方法。

要使用Funnel阶段：1、在“阶段”页面的属性选项卡中，指定“传送类型”。

“连续传送”为缺省值，但也可以选择“顺序”或“排序传送”。

如果选择使用“排序传送”方法，则还需要指定对数据进行排序所依据的键。

可以重复使用键属性来指定组合键。

2、如果使用“顺序”方法，请在“阶段”页面的“链接排序”选项卡中，指定合并数据集的顺序。

DataStage 工作笔记

1.安装与配置参考文档：《Planning, Installation, and Configuration Guide.pdf》1.1服务端与客户端的安装1.1.1安装拓扑采用简单的两层部署进行安装，安装拓扑如下图所示：Host1环境如下：(1)硬件环境CPU：Inetel Core Duo P8600内存：4GB(2)软件环境操作系统：Windows Server 2003 EE SP2C++编译器：Microsoft Visual Studio .NET 2008 Express Edition C++1.1.2安装参考文档：《Planning, Installation, and Configuration Guide.pdf》[pages 198-200]1.1.3C++编译器配置参考链接：/infocenter/iisinfsv/v8r5/index.jsp?topic=/com.ibm.swg.im.iis.productization.iisinfsv.install.doc/topics/wsis inst_set_envars_cpp.html(1)支持的C++编译器，见如下链接的系统要求说明：/support/docview.wss?rs=14&uid=swg270163821.1.4登陆与安装语言选择登陆（会话）语言选择中文，DataStage安装语言选择英文，结果Designer里同时有中文和英文，而DB2和WAS都是中文版，如何安装纯英文版的？解决方法1：登陆语言选择和安装语言全部选择英文即可安装上纯英文版。

解决方法2：通过控制面板->区域和语言选项，将语言设置为英语，安装完成后将语言再修改为中文即可。

1.1.5新建用户与凭证（Credentials）参考文档：《Day 1 Exercise-DS.doc》[Exercise 1: Administration Console] (1)通过Web浏览器登陆Web Console for IBM Information Server，地址如下（localhost为server端主机名）：http://localhost:9080/ibm/iis/console/loginForm.jsp?displayForm=true (2)新建两个用户dsadmin和dsuser，如下图：权限设置如下：dsadmin：Suite User、DataStage and QualityStage Administrator/User dsadmin：Suite User、DataStage and QualityStage Userdsadmin 可以正常使用，但dsuser 只能登陆 Administrator，登陆Designer和Director会报错：The current user does not have the required DataStage roles set up. 为什么？解决方法1：直接给dsuser同时授予Suite User、DataStage and QualityStage Administrator/User权限。

DataStage_Designer学习记录

数据库：IP：132.33.2.2Sid：cntest用户名/密码：ctetl/ctetl123DataStage Designer学习记录（数据集成）1、准备工作（1）、软件安装（2）、配置DataStage Administrator登陆DataStage Designer ：132.33.2.2 / dsadm / dsadm / data_portal_test 2、DataStage Designer导入表定义（1）、在数据库中创建表（2）、在DataStage Designer的存储中右键单击Table Definitions然后选择Import > Plug-in Meta Data Definitions。

如图：选中oraoci9，点击OK（3）、输入数据库、用户名和密码，点击next（4）、出现如下图所示在Owner list下拉列表中选中表所在的数据库用户在table前打上“√”，点击next（5）、表结构导入从Select T able(s)中选中要导入的表名单击Import完成表结构导入导入之后可在T able Definitions －Plugln －Oraoci9 查看导入表3、创建文件导入数据库parallel job例子（1）、新建 parallel jobNew －parallel job（2）、拖拽组件、连线在组件库中拖拽File中的Sequential_File（文件组件）组件在组件库中拖拽Processing中的Transformer（转换，字段名，数值转换）组件在组件库中拖拽Database中的Oracle_Enterprise（表、sql语句）组件右键从Sequential_File组件连接到Transformer，在右键从Transformer连接到Oracle_Enterprise（3）、配置parallel job的属性单击edit(编辑) －Job Properties（设置）在General项上添写Category（所属作业的层次）在Parameters项中添写参数参数说明如下：说明：前三项为必须配置的内容，＃db_user_name db_user_name String （用户名）db_pass_word db_pass_word String （密码）db_server db_server String （数据库名）（这两项为数据库内部操作参数）Date Date String （时间）Region Region String （地市）（这一项为文件导入数据库参数）file_name file_name String （文件名）（4）、配置文件组件属性双击Sequential_File组件在Output －Properties里输入#file_name# （这里是表示文件是动态的参数）在Output －Format里输入如下值（有三个）Final delimiter = end 表示每行的结尾用“回车”来结束Delimiter = | 表示每个字段用“|”标识（指标上传接口规范里说明）Null field value = '' 表示对于空值的字段输入空在Output －Columns里输入字段对应名字和属性至此文件组件的配置完毕Nullabe ：Yes 表示允许为空No 表示不能为空Description ：备注字段，不用添写Key 如果打上“√”表示当程序自动拼写sql的时候作为关联的字段（5）、配置Oracle_Enterprise组件属性双击Oracle_Enterprise组件在Input －Properties 里输入参数T able = table_name table_name 为数据库里的表名Write Method = load 此项为下拉选择项。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

解决方法2：通过控制面板->区域和语言选项，将语言设置为英语，安装完成后将语言再修改为中文即可。

解决方法2：以dsadmin登陆Administrator中，在Properties->Permissions中将dsuser 新增进来，并将其 User Role 设置为 Developer 即可。

1.1.6使用客户端连接服务端在host文件（C:\WINDOWS\system32\drivers\etc下）里新增服务端主机的IP 地址和主机名：hostip hostname如：10.66.0.41 jactop1.2环境变量（Environment Variable）与作业参数（Job Parameter）1.2.1如何设置环境变量参考文档：《DS SE - DS Overview.ppt》 [pages 21-25]1.2.2参数及参数集（Parameter Set）(1)创建参数集（Parameter Set）New->Other-> Parameter Set(2)可以引用环境变量。

(3)参数集可以导入导出，而且参数集中参数值更新后，相应的Job中引用值会自动更新。

1.2.3Parallel Job中如何使用 Project 的 Environment Variable(1)在 Project Properties 中设定 Environment Variables；(2)在 Job Properties 的 Parameters 选项卡中 Add Environment Variable即可。

也可以先新建Parameter Set，在Parameter Set定义中引用Environment Variable，然后Job引用Parameter Set。

注意：当在Project中修改了Environment Variable的类型/默认值，引用该Environment Variable的参数（集）中的相应参数的类型/默认值不会随之改变，只能重新引用该Environment Variable。

1.2.4Tips and Problems(1)User Defined 类型只能是 String 和 Encrypted（用于存储密码等保密信息）。

(2)APT_DUMP_SCORE环境变量，可以在Project或Job属性里设置，不一致时，以Job里的设置为准。

(3)如何在使用当前日期、当前时间等变量值，便于其他Parallel Job执行时调用？解决方法：调用DS Macro或者使用Transformer中的Date&Time FunctionsDS Macro Name Description Note DSHostName 引擎主机名DSJobControllerDSJobInvocationIdDSJobName 作业名DSJobStartDate 作业开始日期，即当前日期格式：YYYY-MM-DDDSJobStartTime 作业开始时间，即当前时间格式：HH:MM:SS24HDSJobStartTimestamp 作业开始时间戳，即当前时间戳格式：YYYY-MM-DDHH:MM:SSDSJobWaveNoDSProjectName 工程名(4)全局参数尽量使用Parameter Set来实现，因为Parameter Set支持导入导出。

2.Parallel Processing2.1Partitioning & Collecting Data参考文档：《DS SE - DS Course.ppt》 [pages 77-89]数据分区（分发）/收集类型2.1.1Round Robin以逐条循环分配的形式将所有数据平均分发给每个node，每个node只得到部分数据。

保证每个节点处理数量相当的数据，从而使得每个节点负载均衡。

2.1.2Hash通过Hash算法，将指定Key(s)的Hash值相同的数据分发到同一个node上，这样就可以保证可以多个node同时执行如 Join这样的操作时可以保证数据正确。

注意：Aggregator/Join Stage 的分区类型最好手动选择为 Hash。

2.1.3Entire以复制的形式使得每个node得到完整的数据。

2.1.4Tips and Problems(1)需要Key的分区方法：Hash/Range/Modulus(2)收集数据时的Sort Merge，前提是各个分区数据已经排序。

2.2Configuration Files参考文档：《DS SE - DS Course.ppt》 [pages 17-19, 32-40]本机采用安装默认设置，2个节点，如下图：注：通常情况下，node数:CPU数 <= 2:13.RCP(Runtime Column Propagation)3.1什么是 RCP(1)允许开发者忽略源数据和目标数据映射的有力特性。

(2)在运行时 (并非设计时)，RCP会自动将源数据所有字段自动映射到目标数据。

(3)比如：需要从数据库表中读200个字段，而数据处理业务逻辑只需要用到其中的2个字段，那么在Job设计的过程中，只需要映射这2个字段，剩余的字段将由RCP来处理。

3.2如何使用RCP(1)设置Project属性登陆Administrator Client，编辑Project Properties，勾选上如下图红色边框标注的复选框，点击“OK”确定即可。

Enable Runtime Column Propagation for new links 有何作用？(2)在Parallel Job 设计中设置在数据源Stage Properties->Output->Columns定义的左下角勾选上 Runtime Column Propagation 复选框，如果不需要使用RCP，则取消勾选即可。

如下图（以 Oracle Enterprise Stage 为例）：4.Import & Export4.1Job Design如何将Job Design 文件（.dsx）导入到操作系统语言不同的Server上：使用文本编辑器打开 .dsx 文件，将文件第二行CharacterSet的值修改为目标Server的字符集名称即可。

如：从操作系统语言为英文的 Server 上的 Job 导出后，其CharacterSet值如下图如果要导入到操作系统语言为简体中文的 Server 上，将CharacterSet值修改为“CP936”即可，即4.2Table Definition(1)Import -> Table Definitions -> Plug-in Meta Data Definitions可批量导入所选Schema下多个表的定义。

(2)Oracle 数据类型 Number(6)，导入到Table Definition中为 Decimal(6) ，但是Load到Columns定义中会转换为Integer。

5.Processing Stage5.1Copy Stage5.1.1Tips and Problems(1)一个 Job 中要两次用到同一张大表是否可以使用Copy Stage，对性能影响不大，只是消耗内存。

(2)当在一个Job中一个数据流可能需要复制分流时，使用Copy Stage，即使暂时不用也可以先加上一个Copy Stage，便于后续开发。

(3)可以没有输出，作为断点（相当于Peek Stage）。