ETL维护手册
天融信TA系统数据库维护手册

TA系统数据库维护手册利用TA系统做数据库的备份和恢复1、本地数据库备份:1、具体方法:使用GUI连接到TA Server上,在服务器配置里面选择任务调度策略,新建一个备份数据库任务,riL J肆霜驚繰畿瞿箴蠶蠶令黠F向导’您只扁要)^择和输入-锁•:上一歩⑤fr一步凰〉|飓消1注意:完全备份的间隔时间根据日志产生量来确定, 的计算公式是:完全备份的间隔天数<= (磁盘大小12)1每天产生的日志量,推荐至少每周做一次完全备份设S任务执行时闾翳鹭驛矗餐離舉熬期靡?下跻调度时间•翻沁择O 立即执昏©计立嗣—每天执行 ©毎周执行厂1L 債D 垢月执匸ro 自定义时问 piZJ 31^~3314"上’:'4取消I注意:备份参数选择完全备份, 可以根据需要选择是否清除数据库里面的数据;如果选择了“备份完成后清除旧日志” 定要选“紧缩数据库空间”才能保证数据库空间有效释放。
厂1L 債1、 融髓巒执行时,■^统将日志目鳩份在愆指走的歸桎下.關徨为远程服务备份类型;© 融韻邺•O 増量备份(増呈备愉之前必颔进行过完全备份)H ■ ■ ■ ■ ■ ■ ■ X0不删除I 日日志 O 渚除所有旧日志 O 活隍氏于厂数嶠库选项:□紧霜数据库空间验证完全备份是否成功: 棗曲日志°<上1步迢〕I T -步®〉| 取消 ]在开始菜单,选择程序,TOP SEC 安全审计综合分析系统,审计服务器,配置服务器,在数据库设置里面找到备份文件路径,验证路径里面是否存在定制时间的文件,并且以 DBK为扩展名基本设置数据库设置厂1L -I II詹麗驚繰畿霭霧離卸翳号鯛'您只需要选擇和输1硕数据库类型|HS 5eL SIKVEE2000 3服薯器诵口 |1433用尸名 恋码备阱文件诧径[eTVbak=取消I2、 建立增量备份:任务荃本信息职消I 同建立完全备份的方法,在备份参数里面选择增量备份, 建议增量备份的时间间隔为一天,可以根据需要调整设S任务执行时闾翳鹭驛矗餐離嬲曙期靡?下跻调度时间•翻沁择需"O 立即执昏c 上一齿国11下一歩也〕〉| 取消 I注意提示:必须已经成功做过完全备份才可以建立增量备份厂1L 債II融勰巒执行时,统将日志目鳩份在您指走的蹄轻下.關勧远程服务备份类型;0完全备份 0増呈勧幷増曼备符乏箭匹须进行过完至备扮丁j■ H H ■ ■ ■ ■ ■ H ■ ■ ■ ■ H ■ H ■ ■ ■ ■ ■ H H ■ ■ ■ ■ . — . . ■ ■ ■ H ■ H ■ ■ H H ■ ■ ■ ■ . H ■ ■ ■ H ■ H ■ ■ H H ■ ■ ■ ■ . H ■ ■ ■ H ■ H ■ H0不删除I 日日志 O 満殊所有旧日志圭的日志-数鬻库逝项:□紧霜数据库空间3、验证增量备份是否成功:厂1&计划执I ~0骞沃抉行0毎周执行 0毎月执疔0自定义时问[Si re F0ZI W |i 壮越血 W1^~3 |M 西號314:29:[J 2<上1步迢〕I T -步®取消IFBK同验证完全备份的方法,验证数据库备份路径里面是否存在定制时间的文件,并且以为扩展名2些有用的心得(来自深圳雷江生)、刚刚安装设置完成后,建议立即做一次的完整备份;保证完整备份的DBK文件尽可能小,这样在进行历史数据的恢复的时候,速度会快些。
E数据库服务器维护手册sybse公司

ASE数据库服务器维护手册目录☆概述在ASE数据库服务器运行工作期间,数据库系统管理员应该完成相应的日常维护工作,在出现数据库故障后,应该具备一定的故障定位和解决能力,以保证数据库系统的稳定、高效运行,为应用系统提供正常的工作平台。
本文用于数据库管理员日常维护使用。
主要分为以下章节:ASE数据库服务器安装、ASE日常维护管理、ASE故障检查及恢复、ASE性能监控及优化☆ASE数据库服务器安装篇本篇以一个实际的产品安装过程为例,讲述ASE服务器的安装及基本配置过程。
因具体软硬件情况不同,某些细节可能有所差异,在实际安装过程中可能需要更改相应的部分。
硬件环境:IBM RS6000 H85双机(双CPU、1G内存)操作系统:IBM AIX 5.1.0.0数据库系统:SYBASE ASE FOR IBM 64bit,Version 12.5(For IBM 5L)一.逻辑卷组由IBM工程师对主机本地磁盘及磁盘阵列进行划分,系统中应已经存在多个逻辑卷组:rootvg、dbvg等。
其中的dbvg用于数据库系统数据库。
另外,建议为sybase ASE产品分配单独的存放空间(单独的文件系统存放),空间大小为2G左右。
(根据应用系统情况不同,可能需要划分多个逻辑卷组以对多个应用系统提供单独的存储系统。
)二.逻辑卷(根据应用系统情况不同,划分的逻辑卷大小、个数可能会有所差异,应在划分前与Sybase工程师进行相应的确认。
)三.创建sybase用户组及用户为了便于权限管理,需要创建sybase用户组和sybase用户。
建立sybase用户组使用操作系统管理员root用户身份,运行smitty管理工具使用上下箭头键选择 Security & Users ✍Groups ✍Add a Group在Group NAME处输入组名sybase,其余使用默认值即可,回车将弹出添加用户组成功提示,使用F3键返回上一界面。
ETL操作手册_TV模式

快速入门指南 电视分析仪/接收机模式目录说明 (1)1频道表和调制标准 (2)1.1频道表 (2)1.1.1编辑频道表 (5)1.1.2创建频道表 (6)1.1.3频道表复制 (6)1.2调制标准 (6)1.2.1创建新调制标准 (7)1.2.2 编辑调制标准 (10)1.2.3 调制标准复制 (10)1.2.4 模拟电视调制标准 (10)1.2.5 数字电视调制标准 (12)2模拟电视基础和测试用例 (14)2.1 频谱测量 (15)2.2 载波测量 (16)2.3 视频示波 (16)2.4视频调制测量 (17)2.5 Hum测量 (18)2.6 C/N测量 (20)2.6.1离线(Off-Service)C/N测试 (20)2.6.2在线(In-Service)C/N测试 (21)2.6.3 Quiet Line C/N测试 (22)2.7 CSO测量 (23)2.7.1离线(Off-Service)CSO测试 (23)2.7.2 Quiet Line CSO测试 (25)2.8 CTB测量 (26)3DVB-C,J.83A/C测试用例 (27)3.1 频谱测量 (28)3.2 测试结果一览 (29)3.3 星座图测试(Modulation Analysis) (30)3.4 幅度、相位和群时延分析(Channel Analysis) (31)3.5 APD/CCDF测量 (31)4DVB-T/H测量用例 (32)5TV Analyzer测量 (32)6频道表测试与不利用频道表测试 (33)7通用功能和信息 (34)7.1 信号电平 (34)7.2 衰减调整 (34)7.3 测量显示界面的标识 (35)7.4 状态栏标识 (35)7.5 术语和缩写 (35)说明R&S ETL的操作指南包括三种:快速入门指南、操作手册和在线帮助。
对于ETL而言,主要分为频谱分析仪和电视分析仪/接收机两大功能,为了方便,我们分开撰写了快速操作指南。
ETL维护手册

ETL系统维护手册1.概述文件包括以下方面的内容:▪简要描述了ETL系统的概念,目标和系统边界。
▪描述了ETL系统的整个处理流程。
▪描述了ETL系统的系统结构和功能模块。
▪确定了ETL服务器的目录结构和ETL作业的命名原则,从而能够以此为依据来设计、管理经营分析系统的数据转换作业。
2.ETL系统概念ETL系统是经营分析系统的一个子系统,完成经营分析系统所必须的ETL过程。
ETL是extraction,transformation和load的缩写,意思是抽取,转换和加载。
下面对三个概念分别说明:▪抽取:将经营分析所关注的原始的未经转换的源数据从源系统中抽取出来,按照一定的格式形成数据块,并按照特定的传输协议从源系统传到ETL系统,做为ETL系统下一步操作的数据源。
▪转换:将源系统传来的源数据按照经营分析系统的所规定的正确性,一致性,无冗余性的要求进行转换。
▪加载:将数据加载到经营分析系统的数据仓库中。
1.1. ETL目标ETL系统的目标是经过适当的抽取,转换和加载过程,将经营分析系统所关注的数据从源系统中正确地,一致地,无冗余地载入经营分析系统的数据仓库中。
1.2. ETL系统边界ETL系统边界包括两部分:▪ETL系统同源系统的接口界面:ETL系统同源系统的交互是通过文件形式完成的。
源系统按照经营分析系统的要求按照特定的周期以特定的格式生成源数据文件,ETL系统取得源系统生成的数据文件进行下一步的处理。
▪ETL系统同经营分析系统其它子系统的接口界面:ETL系统同经营分析系统其它子系统的交互是通过数据仓库的基层表形式完成的。
ETL按照经营分析系统的要求,将数据加载到数据仓库的基层表,经营分析系统其它子系统根据基层表中的内容形成面向分析使用的中间表,多维数据库表等等。
1.3. ETL处理流程ETL处理流程包括以下几个方面:▪取数据文件流程:取数据文件流程即是ETL系统同源系统的接口处理流程,包括以下几个步骤:•取得源系统当前传送的数据文件文件名列表•校验文件的完整性,根据文件名列表中文件大小和我们实际取得的文件的文件大小进行比较,可以得到源数据是否完整。
东方通ETL工具软件TI-ETLv2产品白皮书全解

T ongT ech®TI-ETL v2产品白皮书北京东方通科技公司2015年目录1 前言 (1)2 为什么要用ETL (1)2.1 业务需求 (1)2.2 IT需求 (2)2.3 IT与业务一致性要求 (2)3 TI-ETL v2简介 (3)3.1 产品组成结构 (3)3.1.1 集成开发工具 (4)3.1.2 服务器 (5)3.1.3 资源库 (5)3.1.4 统一管理平台 (6)3.2 产品结构关系 (7)3.3 转换流程和任务流程 (8)3.3.1 转换流程 (8)3.3.2 任务流程 (9)4 主要功能和特点 (10)4.1 大数据适配 (10)4.2 强健的ETL引擎 (10)4.3 丰富的系统适配 (11)4.4 资源统一存储 (11)4.5 丰富的处理组件 (11)4.6 多种数据抽取模式 (11)4.7 图形化操作/调试/预览能力 (11)4.8 高效数据处理 (12)4.9 异常恢复和数据一致性 (12)4.10 强大的监控管理功能 (12)4.11 插件式组件管理和可扩展性 (12)4.12 国产环境支持 (13)5 成功案例 (13)1前言随着IT应用建设的发展,数据成为了最重要的资源,无论是接地气的业务系统、应用软件、数据中心或是高大上的云/物/移/大/智,均是以数据资源为核心,依托发挥数据价值而存在和发展。
目前,虽然各行业IT发展成熟度不一致,但基本已经度过了大批量业务系统建设阶段,业务系统也经过了几年的运转,积累了不同量级的数据资源。
但因早起IT业务系统的很少跨部门、跨单位、跨层级的统一规划和建设,导致业务系统处于分散、独立的状况,业务间数据资源不仅处于烟囱状态,数据资源的一致性和互用性较差,数据资源的价值无法充分发挥。
此外,各行业自身业务也在逐渐多元化和复杂化,业务产生和所需使用的数据也就具有不确定和频繁变动性,导致一旦应用发生变化、新增系统或物理数据变动,一旦无法借助某些手段适应变化,整个应用和数据体系均有较大可能不得不随之修改。
ORACLE数据库日常维护手册(最全+最实用)

ORACLE数据库日常维护手册(最全+最实用)byfwyangoracle日常维护手册查阅数据库版本select*fromv$version;查阅数据库语言环境selectuserenv('language')fromdual;查阅oracle实例状态selectinstance_name,host_name,startup_time,status,database_statusfromv$instanc e;查阅oracle监听状态lsnrctlstatus查看数据库归档模式selectname,log_mode,open_modefromv$database;查看回收站中对象selectobject_name,original_name,typefromrecyclebin;清空回收站中对象purgerecyclebin;还原回收站中的对象flashbacktable\tobeforedroprenametotest;1byfwyang闪回误删除的表flashbacktableaaatobeforedrop;闪回表中记录到某一时间点altertabletestenablerowmovement;flashbacktabletesttotimestamp21:17:47','yyyy-mm-ddhh24:mi:ss');to_timestamp('2021-10-15查阅当前可以话selectsid,serial#,username,program,machine,statusfromv$session;查阅ddl门锁select*fromdba_ddl_lockswhereowner='fwyang';检查等待事件selectsid,ername,event,wait_class,t1.sql_textfromv$sessiona,v$sqlareat1whe rewait_class<>'idle'anda.sql_id=t1.sql_id;检查数据文件状态selectfile_name,statusfromdba_data_files;检查表空间使用情况selectupper(f.tablespace_name)\表中空间名\,d.tot_grootte_mb\表中空间大小(m)\,d.tot_grootte_mb-f.total_bytes\已使用空间(m)\,to_char(round((d.tot_grootte_mb-f.total_bytes)/d.tot_grootte_mb*100,2),'990.99')\采用比\,f.total_bytes\空闲空间(m)\,2byfwyangf.max_bytes\最小块(m)\from(selecttablespace_name,round(sum(bytes)/(1024*1024),2)total_bytes,round(max(bytes)/(1024*1024),2)max_ bytesfromsys.dba_free_spacegroupbytablespace_name)f,(selectdd.tablespace_name,round(sum(dd.bytes)/(1024*1024),2)tot_grootte_mbfromsys.dba_data_filesddgroupb ydd.tablespace_name)dwhered.tablespace_name=f.tablespace_nameorderby4desc;膨胀表中空间altertablespcets_aj_datacoalesce;减少表中空间大小selectt.tablespace_name,t.file_name,t.bytes/1024/1024/1024fromdba_data_filestwheret.tablespace_name='ts_aj_data';altertablespacets_aj_dataadddatafile'/data/ts_aj_data05_10g.dbf'size10000mauto extendoff;检查不起作用的约束selectowner,constraint_name,table_name,constraint_type,statusfromdba_constrain tswherestatus='disable';检查出现坏块的数据库对象selecttablespace_name,segment_type,owner,segment_namefromdba_extentswherefile_id=<afn>and<block>betweenblock_idandblock_id+blocks-1;3byfwyang检查违宪的数据库对象selectowner,object_name,object_typefromdba_objectswherestatus='invalid';查看语句执行进度selectse.sid,opname,trunc(sofar/totalwork*100,2)||'%'aspct_work,elapsed_secondselapsed,round(elapsed_seconds*(totalwork-sofar)/sofar)remain_time,sql_textfromv$session_longopssl,v$sqlareasa,v$sessionsewheresl.sql_hash_value=sa.hash_ valueandsl.sid=se.sidandsofar!=totalworkorderbystart_time;检查碎片程度低的表中selectsegment_nametable_name,count(*)extentsfromdba_segmentswhereownernotin('sys','system')groupbysegment_namehavingcount(*)=(selectmax(count(*))fromdba_segmentsgroupbysegment_name);检查表空间的i/o比例selectdf.tablespace_namename,df.file_name\,f.phyrdspyr,f.phyblkrdpbr,f.phywrts pyw,f.phyblkwrtpbwfromv$filestatf,dba_data_filesdfwheref.file#=df.file_idorderbydf.tablespace_na me;4byfwyang检查碎片程度低的表中selectsegment_nametable_name,count(*)extentsfromdba_segmentswhereownernotin('sys','system')groupbysegment_namehavingcount(*)=(selectmax(count(*))fromdba_segmentsgroupbysegment_name);检查文件系统的i/o比例selectsubstr(a.file#,1,2)\,substr(,1,30)\,a.status,a.bytes,b.phyrds,b.ph ywrtsfromv$datafilea,v$filestatbwherea.file#=b.file#;检查消耗cpu最低的进程selectp.pidpid,s.sidsid,p.spidspid,ernameusername,s.osuserosname,p.serial#s_#,p.terminal,p.programprogram,p.background,s.status,rtrim(substr(a.sql_text,1,80))sqlfromfromv$processp,v$sessions,v$sqlareaawhere p.addr=s.paddrands.sql_address=a.address(+)andp.serial#<>'1';检查运转好久的sqlselectusername,5。
ETL使用手册

ETL使用手册2007年11月8日ETL使用手册第一章配置文件结构<loaderJob>//根标签<restartCounter/>//在目标数据库中创建数据表,纪录importDefinition标签重新启动的次数,如果存在表明会抛错.<variables>//接收参数定义<variable/></variables><jdbcDefaultParameters>//默认JDBC连接<jdbcSourceParameters><jdbcSourceParameter/></jdbcSourceParameters><jdbcTargetParameters><jdbcTargetParameter/></jdbcTargetParameters></jdbcDefaultParameters><sql>//执行SQL语句<jdbcTargetParameters><jdbcTargetParameter/></jdbcTargetParameters><sqlStmt><include/></sqlStmt></sql><definitionInclude>//定义包含<include/>//包含多个<definitionInclude>标签文件<echo/>//日志开头要显示的信息<copyTable/>//简单表复制<importDefinition>//导入定义<sortColumns>//确保字段数据唯一<sortColumn/></sortColumns><jdbcParameters>//导入任务定义的JDBC连接<jdbcSourceParameters><jdbcSourceParameter/></jdbcSourceParameters><jdbcTargetParameters><jdbcTargetParameter/></jdbcTargetParameters></jdbcParameters><valueColumns>//直接对应转换列<valueColumn/></valueColumns><transformations>//自定义转换规则<transformation>//转换规则<sourceColumns><sourceColumn/></sourceColumns><targetColumns><targetColumn/></targetColumns><javaScript><include/></javaScript></transformation></transformations><variableColumns><variableColumn/>//将变量值赋给目标字段必须属性override="true"<userIDColumn/>//将当前用户赋给目标字段<timeStampColumn/>//将当前时间赋给目标字段</variableColumns><relationColumns><relationColumn/>//导入外键关系(必须存在对应关系)</relationColumns><constantColumns><constantColumn/>//将固定值(常量)赋给目标字段</constantColumns><counterColumns><counterColumn/>//通过计数器表向目标字段自动增量生成数据(例如:自动加1)<subCounterColumn/><subCounterKeyColumn/></subCounterColumn></counterColumns><tables>//定义目标表<table/></tables></importDefinition></definitionInclude></loaderJob>第二章标签说明<loaderJob>ETL配置文件的根标签。
数据仓库系统运维操作手册

数据仓库生产环境操作手册一.运维概述“数据仓库生产系统”的运行维护责任在于保障系统运行,运维方式主要是操作员通过工作机远程登陆到系统中的相关主机,对主机进行操作,包括automation调度系统、数据库、磁盘、软件环境、数据情况等,查看批出理的运行情况,一旦运行出现问题作相应的记录并通知相关的技术人员,作出相应的处理。
所有运维项目成员严格按照《数据仓库系统运维守则.doc》文档来进行运维检查工作,否则出现事故由值班人员和当日值班负责人承担事故责任。
二.运维内容1.每日维护1.1数据检查每日批处理运行前运行完成后都需要对源头的数据和生产出的数据进行检查,确保当日批处理程序正常从事生产。
检查工作在每日9:00-9:30之间完成,且必须在启动程序(批处理程序)前执行。
具体规定如下:1.1.1 转定长数据的检查每天上午9:00--9:45之间,运维值班人员进行这项工作具体执行步骤如下:1.在本地工作机上使用telnet远程登录工具登录到168.7.6.163服务器上,输入用户名sjtq,密码:cib2009edw,2.输入命令 cd EDW/sh/log3.输入命令 more yyyymmdd当天的日志,是否有错误信息,最后数据是否都上传结束。
4.以下错误属于正常情况:03:00:03 : 1.检查20091031标志文件失败~~~~~~~~~03:00:03 : 1.数据标志检查失败,等待5分钟(06001/dta_varied)正常等待情况5.检查点如下:1)每个大任务开始的初始化操作03:00:00 : ================ 0.环境变量设置完毕 ================ 2)数据装载,卸载,上传,整个模块处理结束的情况。
05:41:50 : ================ 2.装载Unl数据完毕 ================05:41:50 : ---------------- 2.开始装载BAK数据----------------05:41:50 : ================ 2.装载BAK数据完毕 ================05:41:50 : ---------------- 3.开始卸载fix数据----------------06:26:11 : ================ 3.卸载fix数据完毕================06:26:11 : ---------------- 4.开始向批量数据交换平台送fix数据----------------06001 send ok06001 send ok06002 send ok06002 send ok07002 send ok07002 send ok06027 send ok06027 send ok06:28:56 : ================ 4.向批量数据交换平台送fix数据完毕================06:28:58 : END6.查找是否存在“错误“,”出错“字样。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ETL 处理流程包括以下几个方面: 取数据文件流程:取数据文件流程即是 ETL 系统同源系统的接口处理流程, 包括以下几个步骤: 取得源系统当前传送的数据文件文件名列表 校验文件的完整性,根据文件名列表中文件大小和我们实际取得的 文件的文件大小进行比较,可以得到源数据是否完整。若文件名列 表中文件大小和我们实际取得的文件的文件大小相等,表示数据文 件是完整的,若不相等,表示数据文件不完整。将不完整文件转移 到特定目录中,并向监控系统提出报警信息。 校验文件的有效性,根据文件名中所带的任务周期信息判断源系统 产生的数据文件是否是当前的任务周期所需的数据文件。若数据文 件无效,将数据文件转移到特定目录中,并向监控系统提出报警信 息。
ETL 系统同经营分析系统其它子系统的接口界面: ETL 系统同经营分析系统其它子系统的交互是通过数据仓库的基层表形 式完成的。ETL 按照经营分析系统的要求,将数据加载到数据仓库的基 层表,经营分析系统其它子系统根据基层表中的内容形成面向分析使用 的中间表,多维数据库表等等。
1.3. ETL 处理流程
etlrecv.pl:etlrecv.pl 程序是 ETL 系统的取数据模块,它监控是否源系统 有新的控制文件生成,若有则进行文件完整性和有效性检查,若检查失 败,则将源数据文件移入错误目录,若正确,则将控制文件和源数据文 件移入 QUEUE 目录,等待下一步处理。
etlmaster.pl:etlmaster.pl 程序监视 QUEUE 目录,看是否有新的控制文 件,若有,则将控制文件和源数据文件转入 PROCESS 目录中并生成一 个执行 etlslave_nt.pl 的子进程。它作为处理监听进程,是 ETL AUTOMATION 工作框架的一部分。
ETL 维护手册 V0.2.doc
Page 7
控制文件:控制文件是一个文本文件,由源系统生成,作为源系统同 ETL AUTOMATION 之间的接口,源系统使用控制文件通知源系统以生 成了源数据文件,需要 ETL AUTOMATION 进行处理。 控制文件的文件名形如: dir.XXXXXYYYYMMDD, dir.XXXXXXXX.YYYYMMDD,DXXXXXMMDD 内容包括: 源数据文件的文件名 源数据文件的大小 源数据文件的记录数(可选)
ETL 维护手册 V0.2.doc
Page 1
2. ETL 系统概念
ETL 系统是经营分析系统的一个子系统,完成经营分析系统所必须的 ETL 过 程。 ETL 是 extraction,transformation 和 load 的缩写,意思是抽取,转换和加 载。 下面对三个概念分别说明: 抽取:将经营分析所关注的原始的未经转换的源数据从源系统中抽取出来, 按照一定的格式形成数据块,并按照特定的传输协议从源系统传到 ETL 系 统,做为 ETL 系统下一步操作的数据源。 转换:将源系统传来的源数据按照经营分析系统的所规定的正确性,一致 性,无冗余性的要求进行转换。 加载:将数据加载到经营分析系统的数据仓库中。
ETL 总控模块:
ETL 总控模块负责调度取数据模块,多个加载模块,多个转换模块。 它包括以下部分: 任务配置表,它包含了以下信息:
ETL 维护手册 V0.2.doc
Page 5
ETL 过程所须的所有任务标识信息,包括任务标识,任务名 所有任务的任务周期,任务触发的日期和时间段信息 任务之间的依赖关系信息,一个任务是否依赖于其它任务的完 成,一个任务的完成是否应触发其它任务的执行 所有任务对应的执行模块的路径 任务状态表,它包含了当前任务周期内任务执行状态,具体记录了 当前任务周期内哪些任务已执行,执行是否成功等。 总控逻辑:根据任务配置表和任务状态表中信息完成任务的调度和 任务周期的更新。 数据预处理模块: 取数据模块根据源系统传来的数据文件文件名列表完成数据文件的完整 性和有效性校验,若校验不通过,则将错误文件移到特定目录中,并通 过状态日志模块对监控系统提出告警。若校验通过,则将数据文件文件 名和路径提供给下一个总控模块 加载模块: 加载模块将清空数据仓库 ETL 临时表,并将源数据文件加载到数据仓库 ETL 临时表。 转换模块: 转换模块按照经营分析的要求将数据从数据仓库的 ETL 临时表中转换到 数据仓库的基层表中。 控制参数接口模块: 控制参数接口模块是 ETL 管理员同 ETL 系统交互的接口, ETL 管理员 通过控制参数接口模块调整总控模块的任务配置表和查看总控模块中任 务状态表 状态日志模块: 状态日志模块将 ETL 过程产生的各种状态日志信息写入状态日志文件 中,用于监控和查错处理
etlslave_unix.pl or etlslave_nt.pl
execute
/ETL/DATA/complete or /ETL/DATA/fail/error
/ETL/DATA/process
Job Script
它包括以下各部分: ETL AUTOMATION 工作框架:ETL AUTOMATION 工作框架由多个守 护进程构成。它提供了一个开放性的体系结构,允许不同的转换加载逻 辑以 PERL 脚本的形式作为插件加入到整个 ETL AUTOMATION 工作流 程中。
ETL 维护手册 V0.2.doc
Page 6
1.6. ETL 系统实现
ETL 系统将实现为 ETL AUTOMATION 工作框架和处理脚本。
1.7. ETL AUTOMATION 工作框架
ETL AUTOMATION 的工作流程图为:
Control File/Data Files
/ETL/DATA/receive
1.1. ETL 目标
ETL 系统的目标是经过适当的抽取,转换和加载过程,将经营分析系统所关注 的数据从源系统中正确地,一致地,无冗余地载入经营分析系统的数据仓库中。
1.2. ETL 系统边界
ETL 系统边界包括两部分:
ETL 维护手册 V0.2.doc
Page 2
ETL 系统同源系统的接口界面: ETL 系统同源系统的交互是通过文件形式完成的。源系统按照经营分析 系统的要求按照特定的周期以特定的格式生成源数据文件,ETL 系统取 得源系统生成的数据文件进行下一步的处理。
ETL 维护手册 V0.2.doc
Page 3
加载流程:加载流程是将校验通过的正确的数据文件无转换地直接加载到数 据仓库的 ETL 临时表,临时表的结构同于源系统传来的数据文件的结构。
转换流程:转换流程是将 ETL 临时表中的数据按照正确性,一致性,无冗余 性的原则转换到数据仓库的基层表中。 转换原则包括以下各点: 正确性:要求源数据各字段按照确定的转换规则正确地转换到数 据仓库的基层表中,这是转换的最基本的要求。 一致性:要求不同数据源取来的具有相同含义的字段取值按照数 据仓库基层表的数据定义做归一化处理。 无冗余性:由于不同数据源传来的数据中难免有部分数据重复, 所以在转换过程中就要求删除这部分冗余数据,使得加载到数据 仓库的基层表中的数据应是无冗余的。 转换类型包括以下各点: 字段类型转换:由于源数据的字段定义不一定同于数据仓库基层 表字段定义,所以就要求字段类型转换,转换过程不应造成信息 丢失和错误转换。 归一化转换:不同数据源取来的具有相同含义的字段取值按照数 据仓库基层表的数据定义做归一化处理 数据合并:由于数据仓库基层表的实体定义有可能对应到源系统 中多个实体,在这种情况下就要求将源系统中多个实体的数据合 并入一个数据仓库基层表实体中。在合并过程中应注意无冗余性 转换原则。 数据拆分:由于源系统中一个实体有可能对应到数据仓库基层表 的多个实体,在这种情况下就要求将源系统中一个实体的数据拆 分到数据仓库多个基层表中。 转换逻辑组成: 转换逻辑由多个独立的任务组组成 每一个任务组由多个相互依赖的任务组成
etlrcv.pl
/ETL/DATA/fail/bypass /ETL/DATA/fail/error /ETL/DATA/fail/duplicate /ETL/DATA/fail/corrupt /ETL/DATA/fail/unknown etlmaster.pl
fork process
/ETL/DATA/queue
Page 4
ETL 维护手册 V0.2.doc
任务是转换逻辑的最小单位,包含具体的转换逻辑,实现特定 频率,特定时间的数据转换。
1.4. ETL 系统结构
控制参数接口模块
数据预处 源数据 理模块
ETL 总控模块
基层表
状态日志模块
加载 模块
加载 模块
转换 模块
转换 模块
1.5. ETL 功能模块
ETL 维护手册 V0.2.doc
Page 9
3. ETL 数据装载环境
9. 服务器系统名及 IP 定义
系统名:***ETL IP: 127.0.0.1
1.10. 所安装 ETL 的软件及作用
ETL AUTOMATION 的工作框架,包括: PERL 执行环境。 Perl DBI 接口模块,一个类似 ODBC 的接口程序,提供了一组 标 准的函数界面让我们可以使用来对于数据库进行运作。 Perl DBD-ODBC 接口模块,通过 DBD-ODBC 界面呼叫使用 Teradata 所提供的 ODBC 驱动程序来连接 Teradata 的数据库。 Teradata 的 ODBC 驱动程序。 ETL Automation 服务端程序,包括 etlrcv.pl,etlmaster.pl,etlslave_nt.pl,etlagent.pl,etlclean.pl 等。 ETL 前端管理和监控程序 安装 Java 执行环境。 安装 ETL 前端管理程序- ETLAdmin.jar,用户使用此程序完成 ETL 任务,任务组,任务依赖关系的配置。 安装 ETL 前端监控程序 - ETLMonitor.jar,用户使用此程序完成 ETL 任务当前运行状态的监控。