ETL中数据清洗技术分析与研究

合集下载

ETL中数据清洗技术分析与研究

ETL中数据清洗技术分析与研究

在很多系统特别是一些旧的系统 中, 在搭建时基于节省字节的考虑 , 常使用单个代码来代表多个 目的 . 如: 一个 目录号可能指一个已经存在的客户 的号码 , 也可能同时指将要卖给我们货物 的卖方的号码 .
[ 收稿 日期 ] 0 8 1 4 2 0 —0 —1 [ 作者简介 ] 彭秦晋( 9 9 , 山西榆 次人 , 中学院继续教 育 学院 , 1 7 一) 男, 晋 助教
数据 质量 的 方法 .
关 键 词 : 数 据 ; 据 源 ; 洗 ; 常检 测 脏 数 清 异 中 图分 类 号 : P 7 T 24 文献标 识码 : B 文 章 编 号 : 6 3—1 0 2 0 ) 3—01 1一O 17 8 8( 0 8 0 0 3
数 据仓 库是 面 向主题 的 、 成 的 、 可更 新且 随 时间不 断变 化 的数据 集合 . 集 不 它必 须 有 正确 和 可 以信 任 的 数 据去 支持决 策分 析 . 一个 数据 仓库 应该仅 仅 有 一 个正 确 的输 出 , 那就 是 这 个 已经被 数 据仓 库 提 供 了充 分
魂, 它能够按照统一的规划集成并提高数据 的价值 , 并完成源数据 向目标数据转换 , 是实施数据仓库的重要
步骤 . 1产 生数 据质量 问题 的原 因分析
1 1数 据 源可 能存在 的 问题 .
数据质量存在问题的根本原因在于数据源 . 由于数据仓库 中的数据来 自多种业务数据源 , 它们可能存 储在不 同的硬件平台上 , 而且使用不 同的操作系统 , 使得从这些数据源 中获取来 的数据中不可避免地存在
维普资讯
第2 5卷第 3 期
20 0 8年 6 月





数据清理关键技术及其软件平台的研究与应用

数据清理关键技术及其软件平台的研究与应用

数据清理关键技术及其软件平台的研究与应用第一章绪论1.1 引言我国目前正在大力推广信息技术,实施各行各业的信息化工程。

随着信息化建设的不断深入,企事业单位积累了大量的电子数据,这些数据非常重要。

为了使信息系统中的数据更准确、一致,能支持正确决策,就要求所管理的数据准确、可靠。

因此,企业数据质量的管理正在获得越来越多的关注。

但是,由于各种原因,如数据录入错误、不同来源数据引起的不同表示方法、数据间的不一致等,导致企业现有系统数据库中存在这样或那样的脏数据,主要表现为:不正确的字段值、重复的记录、拼写问题、不合法值、空值、不一致值、缩写词的不同,不遵循引用完整性等。

根据“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)”这条原理,若不进行清理,这些脏数据会扭曲从数据中获得的信息,影响信息系统的运行效果,也为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患。

显见,数据清理问题的重要性是不言而喻的。

另外,从市场上众多的相关产品,也可以明白这一点。

然而,由于数据清理本身的一些特点,比如:1)数据清理是具体应用问题,经常要具体问题具体分析,难于归纳出通用方法;2)数据清理问题的数学建模困难。

因此,目前在学术界,数据清理并没有得到足够的关注,针对这方面的研究也少,有些人甚至认为数据清理是一个需要大量劳动力的过程,而且往往过于依赖特定应用领域。

其实不然,对于数据清理有很多内容值得研究,比如:3)在数据清理的研究中,尽管检测相似重复记录受到最多的关注,采取了许多措施,但检测效率与检测精度并不令人满意。

特别是在数据量非常大时,耗时太多,有待于更好的方法。

作者在文献中做了一些这方面工作,在相似重复记录检测中采用长度过滤方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率;4)在数据清理的相关研究中,数据清理整体框架的研究正逐渐成为研究的热点。

对此,作者在文献[7]中提出一个可扩展的数据清理软件平台,该软件平台具有开放的规则库和算法库,通过在规则库中定义清理规则以及从算法库中选择合适的清理算法,可使该软件平台适用于不同的数据源,从而使其具有较强的通用性和适应性;5)目前,对数据清理的研究主要集中在结构化数据上。

数据仓库中的ETL技术与数据清洗

数据仓库中的ETL技术与数据清洗

数据仓库中的ETL技术与数据清洗在大数据时代,数据已经成为企业最重要的资产之一。

数据仓库在企业中扮演着重要的角色,它可以帮助企业集成数据,存储并管理大量的数据,为企业提供决策支持。

然而,数据的质量对数据仓库的建设和运营至关重要,而数据清洗和ETL技术则是数据仓库建设中必不可少的一部分。

一、数据清洗数据清洗是指对数据进行识别、纠错、去重、完整性检查等操作,以保证数据的准确性、完整性和一致性。

鉴于真实的世界数据来源可能来自不同的来源,不同的格式,不存在标准化的样本,数据清洗是一个艰巨的任务。

当清洗工作不彻底时,数据品质将会受到显著的危害。

数据清洗需要针对多个方面进行操作。

一方面,数据清洗需要对数据进行去重,保证数据的唯一性。

另一方面,对于缺失数据需要进行补充或剔除,保证完整性。

二、ETL技术ETL是Extract-Transform-Load的缩写,它是数据仓库中将数据从源系统中提取出来,并转换为可用的格式最后加载到数据仓库中的过程。

ETL技术是一个非常重要的技术,它是数据仓库中实现数据集成的核心技术之一。

ETL技术中包含三个部分:抽取、转换和加载。

在数据仓库中,数据集成任务往往需要从不同的数据源中提取数据,并根据业务需要进行数据转换。

最后,这些数据将被加载到数据仓库中,以便从中洞察企业的信息,取得更好的商业效益。

三、ETL技术与数据清洗的关系ETL技术通常比数据清洗更为复杂。

在大型企业中,数据源可能达到数百甚至数千,其中每一个数据源都有其本身的数据格式和结构。

这就需要ETL技术能够识别和处理这些不同的格式和结构,进而将这些数据转换为标准化的数据。

同时,ETL技术需要对数据进行整合和处理,以保证数据从多个数据源中提取后是一致的。

由于清洗任务是ETL技术中的一个关键任务,它的影响会在ETL技术的后续步骤中体现出来。

在ETL过程中,数据清洗往往是非常关键的一步。

尽管E和T在ETL中都包含了数据清洗的部分,但不同数据源的数据质量很有可能不同。

大数据下的ETL技术分析与应用

大数据下的ETL技术分析与应用

大数据下的ETL技术分析与应用随着数字化和信息化的快速发展,大数据技术已成为当前企业发展和管理的主要工具。

而ETL(Extraction, Transformation and Loading)技术也随之应运而生。

那么,ETL技术究竟是什么,有什么作用,如何应用?一、ETL技术简介ETL技术是一套将跨异构数据源数据进行抓取、清洗、拼接等处理,最终将处理好的数据输入大数据存储层的技术。

简单来说,就是将数据从不同的数据源中提取出来,经过一系列的转化处理,最后输入到目标数据仓库中,以为企业提供支持决策的数据。

二、ETL技术的作用1. 提高数据质量ETL技术可以在数据进入系统前进行数据清洗,从而提高数据质量和统一数据标准,避免数据冗余和重复。

2. 实现数据整合ETL技术可以将不同系统、不同数据源的数据进行整合,实现数据共享和交互,从而实现数据价值最大化。

3. 支持决策ETL技术可以将企业所有的数据进行整合,对数据进行一系列的分析和挖掘,能够支持企业决策,提高企业的竞争力和决策效率。

三、ETL技术的应用ETL技术的应用非常广泛。

以下是几个基于ETL的应用场景的介绍:1. 金融行业在金融行业中,ETL技术可以用于数据标准化和整合,保证系统数据的准确性和完整性,同时也可用于反洗钱和欺诈监控等。

2. 零售行业在零售行业中,ETL技术可以用于电子商务数据的管理、监控和分析;可以帮助企业监控用户需求和购物行为,实现智能化运营。

3. 医疗行业在医疗行业中,ETL技术可以用于患者诊疗记录的整合和管理,可以帮助医疗机构提高医疗服务质量和效率,实现个性化服务。

四、ETL技术的发展趋势1. 数据可视化随着大数据技术的快速发展,ETL技术也逐渐向数据可视化方向发展。

在ETL应用场景中,可视化是重点趋势之一,它可以为企业提供更清晰的数据展示和数据运营决策。

2. 机器学习和人工智能机器学习和人工智能技术的不断发展,已经在ETL技术中得到了广泛应用。

大数据分析中的数据清洗方法(六)

大数据分析中的数据清洗方法(六)

在当今信息时代,大数据分析已经成为了各行各业发展的重要工具。

然而,要进行准确、有效的大数据分析,首先需要保证数据的质量。

数据清洗作为大数据分析中的重要环节,对数据的准确性和完整性起着至关重要的作用。

本文将探讨大数据分析中的数据清洗方法,以及其在实际应用中的重要性。

数据清洗是指通过识别、纠正、删除或补充数据中存在的不准确、不完整或不适用的记录,以确保数据的准确性和完整性。

在大数据分析中,数据清洗是至关重要的,因为大数据的规模和多样性使得数据质量更加容易受到影响。

而数据质量的不准确或不完整会对分析结果产生严重的影响,甚至会导致错误的决策。

首先,数据清洗的方法之一是识别和删除重复数据。

这是因为在大数据中,往往会存在大量重复的数据记录,如果不进行清洗,就会对分析结果产生误导。

因此,通过识别重复数据并将其删除,可以有效提高数据的准确性。

其次,数据清洗还包括纠正数据中的错误信息。

在大数据中,往往会存在一些错误的数据记录,比如格式不正确、数值异常等。

针对这些错误,可以通过数据清洗方法进行纠正,比如修复数据格式、填充缺失值、剔除异常值等,以提高数据的准确性和完整性。

另外,数据清洗也需要识别和处理缺失数据。

在大数据中,往往会存在数据记录中的一些字段是缺失的,这会对数据的完整性和准确性产生影响。

因此,需要通过数据清洗的方法,比如插值、填充缺失值等,来处理这些缺失数据,以确保数据的完整性和准确性。

此外,数据清洗还需要进行一些规范化的操作。

比如统一数据的单位、格式、标准化数据记录等,以确保数据的一致性和可比性。

这些规范化的操作可以有效提高数据的准确性和可靠性,从而提高分析结果的有效性。

最后,数据清洗需要进行一些异常值的识别和处理。

在大数据中,往往会存在一些异常值,比如超出正常范围的数值、不合理的数据记录等。

通过识别这些异常值并进行处理,可以有效提高数据的准确性和可靠性。

总之,数据清洗在大数据分析中起着至关重要的作用。

通过识别和处理重复数据、错误数据、缺失数据、规范化数据以及处理异常值等方法,可以有效提高数据的准确性和完整性,从而提高分析结果的有效性。

数据处理与ETL技术

数据处理与ETL技术

数据处理与ETL技术数据处理是指对原始数据进行整理、清洗、转换和计算的过程,以便能够更好地进行分析和应用。

而ETL技术(Extract、Transform、Load)则是一种用于从不同数据源中提取数据、转换数据格式以及将数据加载到目标系统的一种处理方法。

本文将介绍数据处理的基本概念、ETL技术的原理和应用场景,并探讨其对企业决策和业务发展的重要性。

一、数据处理的基本概念数据处理是指将原始数据转化为有用信息的过程,通过对数据的整理和清洗,提高数据的质量和准确性,并将数据转换成适合分析和应用的形式。

数据处理的过程包括数据的提取、转换和加载等环节,其中ETL技术起着关键的作用。

二、ETL技术的原理1. 数据提取(Data Extraction):ETL技术通过连接各种数据源,如数据库、文件等,将需要的数据提取出来。

数据提取可以通过SQL查询、文件读取等方式进行。

2. 数据转换(Data Transformation):在数据提取之后,需要对数据进行转换,使其符合目标系统的要求。

数据转换可以包括数据清洗、数据合并、数据计算、数据格式转换等操作。

3. 数据加载(Data Loading):数据转换完成后,将数据加载到目标系统中,使之能够被业务系统和分析工具所使用。

数据加载可以分为全量加载和增量加载两种方式,根据需求选择合适的加载方式。

三、ETL技术的应用场景ETL技术在企业的数据处理和分析中具有广泛的应用场景,以下列举几个典型的应用场景:1. 数据仓库建设:ETL技术可以用于从不同的数据源中将数据提取、转换和加载到数据仓库中,满足企业对数据集成和决策分析的需求。

2. 数据清洗和预处理:企业内部的数据通常存在一定的不完整和不准确性,ETL技术可以帮助企业进行数据清洗和预处理,提高数据质量和准确性。

3. 数据迁移和同步:当企业需要将数据从一个系统迁移到另一个系统时,ETL技术可以帮助实现数据的迁移和同步,确保数据的完整性和一致性。

数据清洗课件-第6章 ETL数据清洗与转换

数据清洗课件-第6章 ETL数据清洗与转换

ODI(Oracle Data Integrator)是Oracle的数据集成类工具,同时也是一个综 合的数据集成平台,可满足所有数据集成需求
Kettle数据清洗与转换基础
使用Kettle可以完成数据仓库中的数据清洗与数据转换工作,常见的有:数据值 的修改与映射、数据排序、重复数据的清洗、超出范围的数据清洗、日志的写 入、数据值的过滤以及随机值的运算等。
3)Kettle 中文名称叫水壶,是一款国外开源的ETL工具,纯java编写,可以在 Windows、Linux、Unix上运行。因此,可以使用Kettle实现ETL的数据清洗与转换 。
ETL概述
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽 取、转换、加载至目的端的过程。在数据仓库的语境下,ETL基本上就是数据采 集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。
ETL是数据仓库中非常重要的一环,是承前启后的必要的一步。 目前在市场上常见的ETL工具包含有:
清洗简单数据数据排序去除重复数据清洗超出范围数据kettle数据转换在日志中写入常量过滤记录随机数相加统计分析kettle数据仓库高级应用在使用kettle进行etl数据清洗与转换时除了上述内容外在更多的时候还要用kettle连接数据库来实现更高级的操作
第6章 ETL数据清洗与转换
数据仓库与ETL
数据仓库(Data Warehouse) 简称DW,顾名思义,数据仓库是一个很大的数据 存储集合,出于企业的分析性报告和决策支持目的而创建,并对多样的业务数 据进行筛选与整合。 。
数据仓库可以从各种数据源中提取所需的数据,并进行存储、整合与挖掘,
从而最终帮助企业的高层管理者或者业务分析人员做出商业战略决策或商业报 表。

数据清洗与整理中的数据迁移与转换技术研究(四)

数据清洗与整理中的数据迁移与转换技术研究(四)

数据清洗与整理中的数据迁移与转换技术研究1. 引言数据在现代社会中扮演着重要的角色,但与此同时,海量的数据也带来了数据清洗与整理的需求。

在数据清洗与整理过程中,数据迁移与转换技术起着至关重要的作用。

本文将针对数据迁移与转换技术进行研究,探讨其在数据清洗与整理中的应用。

2. 数据迁移技术数据迁移是指将数据从一个地方转移到另一个地方的过程。

在数据清洗与整理中,数据迁移技术用于将原始数据从源数据存储位置移动到清洗和整理的目标数据存储位置。

常见的数据迁移技术包括ETL (抽取、转换、加载)和ELT(抽提、加载、转化)。

ETL技术ETL技术是一种将数据从源系统中抽取、进行一系列转换操作,然后将数据加载到目标系统中的过程。

在数据清洗与整理中,ETL技术可以用于从多个源文件中抽取数据、进行数据清洗和转换,最终将清洗后的数据加载到目标数据库中。

ELT技术相较于ETL技术,ELT技术主要区别在于数据转换的时机。

ELT技术是在将数据加载到目标系统后,再进行转换操作。

在数据清洗与整理中,ELT技术可以实现对目标数据库中的数据进行数据清洗和转换,使其满足清洗与整理的需求。

3. 数据转换技术数据转换是指将原始数据转换成规范的格式,并进行数据清洗和整理的过程。

在数据清洗与整理中,数据转换技术可以用于数据的格式转换、数据的加工和数据的合并。

数据格式转换数据格式转换是将数据从一种格式转换成另一种格式的过程。

例如,将CSV格式的数据转换成JSON格式的数据,或者将Excel格式的数据转换成数据库中的表结构等。

数据格式转换技术可以使得数据符合清洗与整理的需求,提高数据的可用性和可读性。

数据加工数据加工是指通过一系列操作对数据进行加工处理,以满足特定的需求。

在数据清洗与整理中,数据加工技术可以用于数据的筛选、排序、分组、计算等操作,从而得到符合要求的数据集。

数据合并数据合并是指将多个数据集合并成一个数据集的过程。

在数据清洗与整理中,有时候需要从不同的数据源中提取数据并进行合并,以得到更全面、更完整的数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第25卷第3期 
晋 中 学 院 学 报V ol.25 N o.32008年6月Journal of Jinzhong University Jun. 2008
[收稿日期]2008-01-14
[作者简介]彭秦晋(1979-),男,山西榆次人,晋中学院继续教育学院,助教.
ET L 中数据清洗技术分析与研究
彭秦晋
(晋中学院继续教育学院,山西晋中030600)
摘 要:数据质量是商业智能的基础,数据质量的好坏直接影响到商业智能的成败.数据
质量存在问题有多方面的原因,在此基础上提出了实施数据清洗的五个步骤,最后阐述了提高
数据质量的方法.
关键词:脏数据;数据源;清洗;异常检测
中图分类号:TP274 文献标识码:B 文章编号:1673-1808(2008)03-0101-03
数据仓库是面向主题的、集成的、不可更新且随时间不断变化的数据集合.它必须有正确和可以信任的数据去支持决策分析.一个数据仓库应该仅仅有一个正确的输出,那就是这个已经被数据仓库提供了充分证据的决策.但是,数据仓库中的数据可能来自不同的数据源,或者是一个ERP 应用,或者一个Excel 表,甚至是一个消息队列,这些都不在数据仓库团队所能控制的范围之内,这些数据中可能存在大量的“脏”数据.所以,在数据仓库中,为了保证数据质量,数据仓库工程通常开始于历史数据的读取,并要进行数据清洗和质量控制.ET L 指的是数据的抽取(Extract )、转换(T rans form )和装载(Load )的过程,是数据仓库的核心和灵魂,它能够按照统一的规划集成并提高数据的价值,并完成源数据向目标数据转换,是实施数据仓库的重要步骤.
1产生数据质量问题的原因分析
1.1数据源可能存在的问题
数据质量存在问题的根本原因在于数据源.由于数据仓库中的数据来自多种业务数据源,它们可能存储在不同的硬件平台上,而且使用不同的操作系统,使得从这些数据源中获取来的数据中不可避免地存在一些问题,所以保证数据质量是很困难的事.
1.1.1不完整和错误的数据数据仓库中的数据代表的应该是整个一系列数据,不应该有信息缺少的情况发生.如:一个公司的总支出应该包括工资项,假如没有,就必须给它重命名,再将这一类数据过滤出来,按缺失的内容分别写入不同的Excel 文件向用户提交,并且在规定时间补全后重新写入数据仓库.但是在实际情况中,由于业务系统不够健全,常常发生接受输入后不进行数据完整性分析,直接写入后台数据库的情况.数据输入过程中也常出现把数值数据输入成全角字符、日期格式不正确、日期越界等情况,这些都导致了错误数据的产生.
1.1.2数据一致性
数据源系统出于性能的考虑,会在一定程度上舍弃外键的约束,最终导致数据不一致.例如要表达性别,可以用“0”/“1”,也可以用“F ”/“M ”,从而出现代码不一致.
1.1.3超负荷代码
在很多系统特别是一些旧的系统中,在搭建时基于节省字节的考虑,常使用单个代码来代表多个目的.如:一个目录号可能指一个已经存在的客户的号码,也可能同时指将要卖给我们货物的卖方的号码.

101・
1.1.4重复的数据
数据质量问题中的一种常见的情况是现实实体可能由多个不完全相同的记录来表示,这样的记录被称做相似重复记录,姓名和地址域是这个问题的经典例子.如在交易系统中,由于它不需要收集商业分析所需要的数据,因此一个确切的客户姓名是不需要的,I.B.M和I BM被看作是同一个公司.检测和消除相似重复记录是数据清洗和提高数据质量要解决的主要问题之一.
1.2ET L过程中可能存在的问题
1.2.1规则描述错误
在ET L过程中,一方面由于设计人员对数据源系统理解的不充分,常导致规则理解错误;另一方面在规则的描述中也会存在二义性问题.规则是依附于目标字字段的,不能总用文字描述,必须有严格的数学表达方式.
1.2.2ET L开发错误
ET L开发过程中也会发生一些诸如逻辑错误、书写错误之类的错误.例如对于一个分段值来说,开区间和闭区间是需要指明的,但是开发人员常常没注意,一个大于等于号若写成大于号就会导致数据错误.
1.2.3人为处理错误
在整体ET L流程没有完成之前,为了省事,通常会手工运行ET L过程.而且,手工运行过程常按照自己的理解而不是正常的流程去进行,误删数据、重复装载数据这些错误不可避免.此外,现在很多业务系统的输入界面是用C OBO L语言或C语言开发的,其界面处理能力不是很强,一些要素被设计成“输入”而不是“选择”,输入的正确与否完全由操作员的理解决定.
2实施数据清洗,提高数据质量
数据质量的好坏是影响商业智能应用效果的关键,但由于企业的信息化是个长期积累和发展的过程,难免在其中存在一些脏数据,从而阻碍商业智能应用的进程.数据清洗(data cleaning)是一个减少错误和不一致性、解决对象识别的过程,它的任务是过滤掉那些不符合要求的数据,并将过滤结果交给业务主管部门,最终由主管部门确定是过滤掉,还是由业务单位修正之后再进行抽取.
2.1数据清洗方法分类
按数据清洗的实现方式和范围,通常将数据清洗分为四类:
(1)手工实现方式:用人工来检测所有的错误并改正.这只能针对小数据量的数据源.
(2)专门编写应用程序:通过编写应用程序检测、改正错误,缺点是清理程序复杂,系统工作量大.
(3)运用数据清洗工具:只限于某些特定领域.
(4)与特定领域无关的数据清洗:这一部分的应用非常有限,主要集中在重复记录的检测/删除.
2.2实施数据清洗的方法
2.2.1数据分析
用于探测哪一类型的错误,有必要进行一个细节性的分析.
2.2.2匹配和消除重复数据
匹配就是要在其他记录寻找相似的记录,发现重复异常.根据匹配的结果,对重复的记录可以删除,也可以把多个记录合并为一个具有更完整信息的记录,更好地描述它所指向的实体.
2.2.3验证
用于进行转换的工作流程的正确性和有效性的测试和评估.
2.2.4清洁数据的回流
当错误被消除后,应该用清洁数据替换源系统中的脏数据,这样可以避免在将来的数据解压过程中重做清洗工作.
2.2.5归档
在ET L系统中建立一张错误事件表,所有来自于ET L过程中的错误事件都会被写入到这张表中,可以通过运行此报告来确定数据质量问题的区域并跟踪它们.


1
2
2.3数据质量改进的其他方法
2.3.1测试数据脏的程度
可通过对每一个属性执行一个S Q L统计来实现,S Q L语句如下:
Select my-attritbute,count(3)From s ource-table G roup by my-attritbute order by1;
2.3.2尽最大可能在源头上解决问题
最理想的解决方案是和源系统工作组纠正出现问题的根源.可以通过创建一系列需要遵守和注意的规则来实现.实际上,某一些问题并不能在数据仓库中纠正,假如源系统指定了一个错误的区号,在数据检查的过程中它很难被发现,因此我们应该在数据化阶段来纠正这些问题.
2.3.3在数据阶段化过程中解决问题
对于那些同意纠正的数据,应当和商业用户一起制定正确的商业规则,在交易过程中清洗它们.唯一正确的结果是纠正原始加载的数据并且用当前的数据校正历史数据.
2.3.4并不修改所有问题
并不是所有的问题都要解决,一些问题需要留给商业用户,这样有利于管理者能了解这个问题的特点和原因,理解它的严重性,从而更易于解决以后类似的问题.
2.3.5和源系统管理者一起工作,帮助他们定期对源系统进行检查和清洗.
3总结
数据清洗的过程是从大量原始数据中使用一系列逻辑判断,检查数据是否符合数据仓库的要求,从而选择做进一步保留或过滤操作.数据清洗的过程是数据集成的一个重要步骤,也是其中一个复杂的过程.数据清洗属于一个较新的研究领域,如何将数据清洗有效地运用到ET L中以提高数据仓库的数据质量及如何提高数据清洗精度等有待于进一步研究.
[参考文献]
[1]郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082.
[2]张 宁.数据仓库中ET L技术的研究[J].计算机工程与应用,2002(24):213-216.
(责任编辑 张 莺)


1
3。

相关文档
最新文档