信息整合_异构数据交换综述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

异构数据交换综述

摘要

本文介绍了异构数据交换的基本概念和研究现状,阐述了异构数据的特点,阐明了异构数据交换的方式与相关技术,并对异构数据交换的前景做出了展望。

关键词:异构数据,数据交换,数据集成,XML

A Review of Heterogeneous Data Exchange

Abstract

This paper introduces the basic concepts of heterogeneous data exchange and research status, describes the characteristics of heterogeneous data, illustrates the way the exchange of heterogeneous data and related technologies, and prospects for the exchange of heterogeneous data .

Key Words:Heterogeneous data,Data exchange,Data Integration,XML

目录

1 引言 (1)

2 研究现状 (1)

3 异构数据分析 (2)

3.1 异构数据 (3)

3.2 冲突分类 (3)

4 异构数据交换方式 (6)

4.1 异构数据的发布 (7)

4.2 异构数据的集成 (7)

4.3 交易自动化 (8)

5 异构数据交换的方法与技术 (8)

5.1 基于XML的异构数据交换技术 (9)

5.2 本体技术 (11)

5.3 Web Service技术 (12)

6 展望 (12)

参考文献 (14)

1 引言

自计算机诞生以来,人类积累了丰富的数据资源。计算机网络的普及,使得数据资源的共享成为一个热门话题。然而,由于时间和空问上的差异,人们使用的数据源各不相同,各信息系统的数据类型、数据访问方式等也都千差万别。这就导致各数据源、系统之问不能高效地进行数据交换与共享,成为“信息孤岛”。用户在具体应用时,往往又需要将分散的数据按某种需要进行交换,以便了解整体情况。如,跨国公司的销售数据是分散存放在不同的子公司数据库中,为了解整个公司的销售情况,则需要将所有子系统的数据集中起来。为了满足一些特定需要,如数据仓库,数据挖掘等,也需要将分散的数据交换集中起来,以达到数据的统一和标准化。异构数据的交换问题由此产生,受到越来越多人的重视。

用户在进行数据交换时,面对的数据是千差万别的。产生数据差异的主要原因是数据的结构和语义上的冲突。异构数据不仅指不同的数据库系统之间的异构,如Oracle和SQL Server数据库,还包括不同结构数据之间的异构,如结构化的数据库数据和半结构化的数据。源数据可以是关系型的,也可以是对象型的,更可以是Web页面型和文本型的。因而,要解决数据交换问题,一个重要的问题就是如何消除这种差异。随着数据的大量产生,数据之间的结构和语义冲突问题更加严重,如何有效解决各种冲突问题是数据交换面临的一大挑战。

异构数据交换问题解决后,才会对其他诸如OLAP、OLTP、数据仓库、数据挖掘、移动计算等提供数据基础。对一些应用,如数据仓库的建立,异构数据交换可以说是生死牧关。数据交换质量的好坏直接影响在交换后数据上其他应用能否有效进行。数据交换后,可以减小由于数据在存储位置上分布造成的数据存取开销;避免不同数据在结构和语义上差异造成的数据转换引起的错误;数据存放更为精简有效,避免存取不需要的数据;向用户提供一个统一的数据界面等。因此,数据交换对信息化管理的发展意义重大。

2 研究现状

异构数据交换技术的研究始于七十年代中期,至今已有三十年多了。数据库的异构问题已经引起了各数据库厂家及许多数据库专家的注意。各数据库厂商积极参与国际标准的制定,他们新推出的产品都能支持统一的数据库语言、FAP,API标准。它们的产品有的还留有支持新标准的余地,有的则采用了便于向国际标准过渡的形式。经过十几年对异构数据问题的探索和研究,人们已取得了不少成果,提出了许多解决异构数据交换的策略及方法,但就其本质可分成四类:

1.使用软件工具进行转换

一般情况下,数据库管理系统都提供将外部文件中的数据转移到本身数据库表中的数据装入工具。比如Oracle提供的将外部文本文件中的数据转移到Oracle数据库表的数据装入工具SQL Loader,Powersoft公司的PowerBuilder中提供的数据管道(Data Pipeline)。

这些数据转移工具可以以多种灵活的方式进行数据转换,而且由于它们是数据库管理系统本身所附带的工具,执行速度快,不需要ODBC支持,在机器没有安装ODBC的情况下也可以方便地使用。

但是,使用这些数据转换工具的缺点是它们不是独立的软件产品,必须首先运行该数据库产品的前端程序才能运行相应的数据转换工具,通常需要几步才能完成,且多用手工方式进行转换。如果目的数据库不是数据转换工具所对应的数据库,数据转换工具就不能再使用。

2.利用中间数据库的转换

由于缺少工具软件的支持,在开发系统时可使用“中间数据库”的办法,即在实现两个具体数据库之间的转换时,依据关系定义、字段定义,从源数据库中读出数据通过中间数据库灌入到目的数据库中。

这种利用中间数据库的转换办法,所需转换模块少,且扩展性强,但缺点是在实现过程中比较复杂,转换质量不高,转换过程长。

3.设置传送变量的转换

借助数据库应用程序开发工具与数据库连接的强大功能,通过设置源数据库与目的数据库两个不同的传送变量,同时连接两个数据库,实现异构数据库之间的直接转换。这种办法在现有的数据库系统下扩展比较容易,其转换速度和质量大大提高。

4.通过开发数据库组件的转换

利用Java等数据库应用程序开发技术,通过源数据库与目的数据库组件来存取数据信息,实现异构数据库之间的直接转换。通过组件存取数据,关键是数据信息的类型问题,若源数据库与目的数据库对应的数据类型不相同,必须先进行类型的转化,然后双方才能实施赋值。

异构数据交换问题,实质上就是:一个应用的数据可能要重新构造,才能和另一个应用的数据结构匹配,然后被写进另一个数据库。它是数据集成的一个方面,也可以说是数据集成众多表现形式中的一种。

3 异构数据分析

异构数据交换的目标在于实现不同数据之间的数据信息资源,设备资源,人力资源的合并和共享。因此,分析异构数据,搞清楚异构数据的特点,把握住异构数据交换过程中的核心问题,是十

相关文档
最新文档