数据集成中间件

在线数据集成主要是为了针对客户已有的信息系统的数据进行集成。根据不同的要求将数据抽取到平台的业务数据库中来，并完成数据的清洗和建仓。由于目标信息系统仍然在运行和生产数据，在线数据集成能够根据定时实现对增量数据的同步工作。

1.1. 图形化界面，使用简单
数据集成中间件充分考虑了用户使用的便捷性和易用性，提供了图形化的开发、管理和监控界面，使非技术人员通过简单的培训也能掌握要高级技术人员通过编程完成的功能。便捷性主要体现在整个抽取、转换、加工整合只要通过简单的拖拽就可以实现。易用性体现在对于任何用户，即便对计算机使用较少的人，只要明白业务需求，通过培训即可轻易自主使用各种图形控件设计自己的业务需求。数据集成中间件完全通过图形化控件实现了具体的业务需求，完成了业务问题的图形化转变。

1.2. 支持各种平台和广泛的数据源
数据集成中间件完全由java实现，由此具备了跨平台性，支持各种字符集的转换，能够运行在各种操作系统之上，如UNIX、Windows NT/2000/2003、Linux等。数据集成中间件采用高性能的数据抽取接口，通过JDBC、ODBC、JNDI、OCI等技术支持的各种数据源，包括各种关系数据库、web数据库、xml数据、以及各种结构化数据和非格式化数据。支持常见的数据库，如Oracle、DB2、Sybase、SQL　Server、mysql、excel等主流数据库,同时为方便用户各种电子文件数据整合，还支持txt、csv、xls、zip、xml文件作为输入或输出，这为提取多数据源数据提供了完备的保障。

数据集成中间件支持VFS文件和远程执行，构建出了基于网络的转换平台。只要用户有网络连接即可实现各种数据源的加工整合。

1.3. 基于工作流支持过程驱动方法和自顶向下的设计
数据集成中间件设计基于工作流，提供了灵活的作业设计方法，支持过程驱动方法和自顶向下的设计。数据集成中间件作业设计包含转换和作业两个核心对象，转换实现数据加载、计算、清洗、转移等功能，作业是把转换或者作业作为一个工作流中的一个节点来看待，实现了更加复杂的数据处理。通过转换和作业可以实现自顶向下的设计，数据集成中间件基于工作流作业设计，完美的支持了过程驱动方法。数据集成中间件还提供了作业件的同步异步控制，为用户提供了全面的设计方案。

数据集成中间件供灵活的作业开发的参数支持。无论是转换还是作业，构成他们的每个图形化控件都提供了完善参数支持，大大提高了设计人员的效率和灵活性，同时也使作业易用修改重复利用。这些参数包括：对于数据纪录数目，开始时间，文件

名，数据长度等。

1.4. 丰富的数据转换功能
数据集成中间件包含了丰富的数据转换功能，包含了二十多种转换控件，比如值影射、拆分字段、字段选择、计算器、增加常量、排序纪录、过滤纪录、去除重复纪录、是否为null、行转为列、分组等等。这些转换控件支持ETL过程中数据转换环节执行顺序、支持的数据平滑化、规范化、聚类等转换操作。即便对于新出现的特殊转换，我们也可以开发出个性化的转换控件，放入数据集成中间件即可实现即插即用的功能。

1.5. 灵活的可扩充性，支持二次开发
数据集成中间件通过组件化设计、接口化设计实现了灵活的可扩充性，对于各个模块支持二次开发控件的即插即用。这样可以有效地对数据转换模块进行二次开发，为用户业务发展、业务变更等提供了可扩充性，使用户花费很小的成本，即可享用定制化的服务。比如用户需要一个合并纪录的业务要求，那么我们可以在短时间内开发一个“合并纪录”的转换控件，直接放到数据集成中间件中即可使用。

数据集成中间件的开放性、可扩展性为特殊个性化服务提供了解决办法。

1.6. 支持java script内嵌脚本和存储过程等数据库对象
数据集成中间件支持内嵌脚本语言、存储过程、插件及外部程序来处理复杂的处理。数据集成中间件支持java script内嵌脚本语言，提高了常用的字符串验证、日期格式转换等常用函数，用户可以像使用web编程一样，将复杂的业务处理通过编写java script实现，这为用户的高级应用提供了支持。数据集成中间件是基于元数据的设计的，完全屏蔽数据库厂商的差异性，用户不必担心数据库的变更、或升级带来的已有的作业不可用，同时也有效地支持了数据库各自的特性，用户可以轻松的调用自己编写的或者数据库系统自带的存储过程、函数等对象。数据集成中间件基于元数据，在屏蔽数据库差异性的同时，很好的支持数据库的特性。

1.7. 支持增量更新
对于经常用到的增量更新数据集成中间件做了专门的支持，有效的解决了完全抽取和增量抽取的问题。数据集成中间件中提供多种控件来支持增量更新，增量更新的设计方法也是根据应用场景来选取的。增量更新按照数据种类的不同大概可以分成：1. 只增加，不更新；2. 只更新，不增加；3. 即增加也更新；4. 有删除，有增加，有更新。其中1 ，2， 3种大概都是相同的思路，使用的控件可能略有不同，通用的方法是在原数据库增加一个时间戳，然后在转换之后的对应表保留这个时间戳，然后每次抽取数据的时候，先读取这个目标数据库表的时间戳的最大值，把这个值当作参数

传给原数据库的相应表，根据这个时间戳来做限定条件来抽取数据，抽取之后同样要保留这个时间戳，并且原数据库的时间戳一定是指定默认值为当前时间（以原数据库的时间为标准），抽取之后的目标数据库的时间戳要保留原来的时间戳，而不是抽取时候的时间。第四种情况有些复杂，但利用数据集成中间件控件也是能完全能够实现的。

数据集成中间件作业设计思路是这样的，创建一个与原表结构类似的表结构，然后创建一个三种类型的触发器，分别对应insert , update , delete 操作，然后维护这个新表，在你进行ETL的过程的时候，将增量备份或者数据复制停止，然后开始读这个新表，在读完之后将这个表里面的数据删除掉就可以了。这些操作都可以通过数据集成中间件控件实现。

1.8. 完善的运行、调试、分析、日志管理
数据集成中间件提供了对ETL统一处理过程，包括完整地运行、调试、管理功能以及不同层次级别的日志管理功能、完善的数据审计功能。数据集成中间件有相关的监控预警机制，为作业设计人员，提供了良好的设计环境，使设计人员能全面地观察执行过程。数据集成中间件只是从业务数据源读取数据，即便执行失败也不会对源数据任何做修改，保证了作业正常进行，不影响数据源系统和经营分析系统的正常工作。日志管理功能分出了七个日志级别，从没有日志，到非常详细，为设计人员调试作业、转换提供了多层次的备选方案。

数据集成中间件影响分析，除了能够分析转换性能的瓶颈外，还提供分析报表的功能，为设计高效的转换提供了良好的支持。

数据集成中间件设计的转换、作业可以存放在物理文件系统，也可以存放在常见的关系数据库中。为用户管理提供良好的支撑。

1.9. 高效的性能
数据集成中间件拥有良好的性能。通过流水线作业技术和缓冲技术，分批分量的读取数据，降低数据源系统的IO操作，最大限度的降低了对业务数据的影响，使业务系统的分析平台、报表平台不受影响。在保证不对源系统造成影响的前提下，依然能达到每秒一万条数据的传输转换速度。