大数据环境下的数据迁移技术研究_王刚

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Microcomputer Applications Vol. 30, No.5, 2013 研究与设计 微型电脑应用 2013年第30卷第5期

・1・

文章编号:1007-757X(2013)05-0001-03

大数据环境下的数据迁移技术研究

王 刚,王 冬,李 文,李光亚

摘 要:数据是信息系统运行的基础和核心,是机构稳定发展的宝贵资源。随着信息系统数据量成几何级数增加,特别是在当前大数据环境和信息技术快速发展情况下,海量数据迁移是企业解决存储空间不足、新老系统切换和信息系统升级改造等过程中必须面对的一个现实问题。如何在业务约束条件下,快速、正确、完整地实现海量数据迁移,保障数据的完整性、一致性和继承性,是一个关键研究课题。从海量数据管理的角度,阐述了海量数据迁移方法,比较了不同数据迁移的方案特点。 关键词:大数据;数据迁移;存储

中图分类号:TP391 文献标志码:A

Data Migration Technology Research Based on Big Data Environment

Wang Gang 1, Wang Dong 2, Li Wen 3, Li Guangya 2

(rmation Center of Shanghai Municipal Human Resources and Social Security, Shanghai200051, China;

2. Wonders Information Co., Ltd., Shanghai201112, China;

3. Shanghai Institute of Foreign Trade, Shanghai201600, China)

Abstract: The data is the core resource of the information system, it is the basis of the enterprise, With the continuous of business, a geometric increase in the amount of data generated by the information system, especially in the case of current data environment and information technology. The massive data migration is a real problem. With the business constraints, the massive data migration is a key research topic, in this paper, from the point of view of the massive data management, elaborated a massive data migration me-thod, and compare the characteristics of different data migration program. Key words: Big Data; Data Migration; Storage

0 引言

数据一直是信息系统的基础和核心。一方面,随着企业业务的发展,信息系统覆盖面的扩大,管理和服务精细化层度的深入,集中式的管理信息系统正在不断应运而生,各行各业都先后出现了规模庞大的数据中心。这些数据中心经过一段时间的运行,其数据量正成几何级增长,有的甚至可以达到TB 级或PB 级。另一方面,新的技术架构和业务操作对性能指标提出了更高的要求,而这些要求往往需要通过软件升级或者硬件更新的方式来实现,因而在新老系统的切换或升级改造过程中,势必会面临一个现实问题――数据迁

移。吕帅[1]

等人从分级存储管理的角度提出了混合存储环境下的数据价值评估模型和迁移过程控制理论,提出了数据价

值的精确判定。徐燕[2]

等人利用编程基础实现了异构数据库系统间的数据迁移,提出了数据迁移的抽取、转换和载入3个过程。李喆[3]等从项目管理和方法论角度描述了企业级数据迁移的过程。张玺[4]针对数据从磁盘到磁带的数据迁移问题,提出了并行文件处理方式。丛慧刚[5]等人,从元数据角度,提出了数据迁移中元数据对映射模式体系,对采用源数据驱动ETL 引擎进行功能实现。这些研究都是根据具体工程中数据迁移这个关键问题进行了研究,但是随着信息技术

的发展,针对数据迁移整体管理缺少研究。本文结合某特大

型城市社会保险信息系统管理过程中大数据环境下,海量数据迁移问题进行整体分析,对可能需要大数据迁移的驱动因素和在数据迁移过程中需要关注的各类风险点进行了汇总分析,根据这些风险对数据迁移的各类方案进行分析、研究和论述,最后针对实际工作给出了实际应用。

1 数据迁移驱动分析

1) 新老系统切换需要:数据作为企业的核心资源,是

企业业务连续和发展的基础,因此当信息系统更新或者新老系统切换时,需要对老系统的数据进行整理,抽取,并按照新系统的业务逻辑和数据规则进行迁移,以保障业务的连续性。 2) 搬迁或数据中心合并需求:很多政府政策上的指导

引发了组织结构的变化以及数据分布的改变。一个非常有名的例子是美国的金融监管法案

(Ring-Fencing Senario),这个法案要求所有的银行把数据通过几个步骤和高危投资业务进行隔离。而这些步骤会涉及大量的结构性数据(数据库)和非结构性数据(金融交易的图像存档)的迁移。 3) 性能提升需求:由于业务的发展,企业规模的变大,

——————————————

基金项目:核高基重大专项课题(2009ZX01043-003-004-05);上海市教委科研创新项目(11YS205)和上海市高校“085工程”项目资助。

作者简介:王 刚(1974-)男,上海市,上海市人力资源和社会保障信息中心,工程师,本科,研究方向:计算机信息系统集成和安全管理,上海,

200051

王 冬(1972-)男,上海市,万达信息股份有限公司,工程师,硕士,研究方向:信息系统软件工程和数据挖掘,上海,200051 李 文(1972-)女,上海市,上海对外贸易学院,副教授,博士,研究方向:计量经济和数据挖掘,上海,200051

李光亚(1973-)男,上海市,万达信息股份有限公司,教授级高工,博士,研究方向:计算机软件、系统集成、信息安全、软件工程等,上海,200051

相关文档
最新文档