ETL面试题

合集下载

ETL工程师面试题

ETL工程师面试题

ETL工程师面试题一、ORACLE部分1.表:table1(FId,Fcla,Fcore),用最高效最简单的SQL列出各班成绩最高的列表,显示班级,成绩两个字段。

2.有员工表empinfo(Fempnovarchar2(10)notnullpk,Fempnamevarchar2(20)notnull,Fagenumbernotnull,Falarynumbernotnull);假如数据量很大约1000万条;写一个你认为最高效的SQL,用一个SQL计算以下四种人:falary>9999andfage>35falary>9999andfage<35falary<9999andfage>35falary<9999andfage<35每种员工的数量;3.aa,bb表都有20个字段,且记录数量都很大,aa,bb表的某字段(非空)上有索引,请用SQL列出aa表里面存在的某在bb表不存在的某的值,请写出认为最快的语句。

什么是分区表?简述范围分区和列表分区的区别,分区表的主要优势有哪些?有个表a(某number(20)),向该表插入从1开始的连续的1000万记录逻辑题假设有一个池塘,里面有无穷多的水。

现有2个空水壶,容积分别为5升和6升。

问题是如何只用这2个水壶从池塘里取得3升的水。

五个大小相同的一元人民币硬币。

要求两两相接触,应该怎么摆?一花8块钱买了一只鸡,9块钱卖掉了,然后他觉得不划算,花10块钱又买回来了,11块卖给另外一。

问他赚了多少4.1,11,21,1211,111221,下一个数是什么?。

数据工程师面试题

数据工程师面试题

数据工程师面试题一、问题描述数据工程师是当前热门职位之一,面试中经常会涉及与数据工程相关的问题。

以下是一系列常见的数据工程师面试题,希望能对大家有所帮助。

二、问题列表1. 数据仓库和数据湖有何区别?2. 请描述ETL过程。

3. 什么是事实表和维度表?4. 请解释一下数据架构中的横向扩展和纵向扩展。

5. Redis和MongoDB的主要区别是什么?6. 解释一下数据清洗和数据转换。

7. 请描述一下数据模型化的过程。

8. 什么是数据挖掘?它在数据工程中的作用是什么?9. 解释一下冷热数据分离以及其优势。

10. 什么是数据流水线?三、问题解答1. 数据仓库和数据湖有何区别?数据仓库是一种结构化的、面向主题的、集成的、相对稳定的数据集合,将企业中分散在各个系统中的数据整合为一个统一的数据源。

数据仓库使用固定的模式和模型,适用于对数据进行报表、分析和决策支持等工作。

而数据湖则是以原始、未经整理的形式,将数据以其原始形式存储在数据湖中。

数据湖的模式和模型可以随时根据需求进行变更和调整。

2. ETL过程的描述ETL是指将数据从不同的来源抽取(Extract)、转换(Transform)、加载(Load)到目标数据库或数据仓库的过程。

在这个过程中,数据会经过一系列的清洗、转换和整合,以确保数据的质量和一致性。

ETL过程通常涉及数据抽取、数据清洗、数据转换、数据加载四个步骤。

3. 事实表和维度表的定义和作用事实表是数据仓库中的核心表,包含了与业务过程中的事件或事实相关的度量指标。

它通常包含了与业务分析和报表生成相关的数据字段,如销售数量、订单金额等。

维度表则用于提供多维度的上下文信息,用于对事实表中的度量指标进行分析和解释,如时间维度、地理位置维度等。

4. 数据架构中的横向扩展和纵向扩展横向扩展通常是指通过增加更多的服务器节点来扩大系统的容量和吞吐量,以满足数据规模增长和负载增加的需求。

横向扩展可以通过增加服务器节点来分担负载,提高系统的可伸缩性和可用性。

etl 面试题

etl 面试题

etl 面试题ETL(Extract, Transform, Load)是一种数据集成和数据处理的技术,广泛应用于数据仓库和商业智能。

在面试中,ETL面试题通常涉及ETL工具、ETL流程、数据清洗和转换等方面的知识。

本文将回答一系列ETL面试题,帮助读者更好地理解和掌握ETL相关的知识。

一、ETL是什么?它的作用是什么?ETL是一种数据集成和数据处理的技术,包括数据提取(Extract)、数据转换(Transform)和数据加载(Load)三个步骤。

其作用是从不同的数据源提取数据,经过转换和清洗后加载到目标系统中,以支持数据分析和决策。

二、请简要介绍一下你熟悉的ETL工具。

在ETL工具方面,市场上有多种选择,如Informatica PowerCenter、IBM DataStage、Microsoft SQL Server Integration Services(SSIS)等。

以下以Informatica PowerCenter为例进行介绍:Informatica PowerCenter是一款功能强大的ETL工具,可以在不同的平台上运行。

它提供了强大的数据提取、转换和加载功能,以及丰富的连接器和预定义的转换功能,能够满足各种ETL需求。

三、请简述一下ETL的工作流程。

ETL的工作流程通常包括以下步骤:1. 数据提取(Extract):从源系统中提取数据,可以是关系型数据库、文件、Web服务等。

2. 数据清洗(Cleanse):对提取的数据进行清洗和筛选,去除重复项、空值以及不合规的数据。

3. 数据转换(Transform):对清洗后的数据进行转换,包括数据格式转换、数据合并、数据分割、计算字段等。

4. 数据加载(Load):将转换后的数据加载到目标系统中,可以是数据仓库、数据集市或即席查询工具等。

5. 数据校验(Verify):对加载后的数据进行校验,确保数据的准确性和完整性。

四、请说明一下ETL中的维度表和事实表。

大数据专员面试题目(3篇)

大数据专员面试题目(3篇)

第1篇一、基础知识与概念理解1. 题目:请简述大数据的基本概念及其与普通数据的主要区别。

解析:考察应聘者对大数据基本概念的理解。

应聘者应能够解释大数据的规模(大量、多样、快速)、价值密度低、处理和分析的技术和方法等特点,并说明大数据与普通数据在数据量、处理方式、分析目标等方面的区别。

2. 题目:大数据的五个V指的是什么?解析:考察应聘者对大数据特征的理解。

大数据的五个V分别是Volume(数据量)、Velocity(数据速度)、Variety(数据多样性)、Veracity(数据真实性)和Value(数据价值)。

应聘者应能够解释每个V的具体含义。

3. 题目:请简述Hadoop生态系统中的主要组件及其功能。

解析:考察应聘者对Hadoop生态系统的了解。

应聘者应能够列举Hadoop生态系统中的主要组件,如Hadoop分布式文件系统(HDFS)、Hadoop YARN、Hadoop MapReduce、Hive、Pig、HBase等,并解释每个组件的基本功能和作用。

4. 题目:请简述数据仓库和数据湖的区别。

解析:考察应聘者对数据仓库和数据湖的理解。

应聘者应能够解释数据仓库和数据湖在数据存储、处理、查询等方面的差异,以及它们在数据分析中的应用场景。

二、数据处理与分析5. 题目:请简述ETL(提取、转换、加载)过程在数据处理中的作用。

解析:考察应聘者对ETL过程的了解。

应聘者应能够解释ETL在数据预处理、数据清洗、数据转换等方面的作用,以及ETL工具在数据处理中的应用。

6. 题目:请描述数据切分、增量同步和全量同步的方法。

解析:考察应聘者对数据同步的理解。

应聘者应能够解释数据切分、增量同步和全量同步的概念,并举例说明在实际应用中的具体操作方法。

7. 题目:请简述数据挖掘中的分类、聚类和预测方法。

解析:考察应聘者对数据挖掘方法的了解。

应聘者应能够列举数据挖掘中的分类、聚类和预测方法,如决策树、K-means、支持向量机、神经网络等,并解释每种方法的基本原理和应用场景。

etl工程师面试题

etl工程师面试题

etl工程师面试题
一、简介
ETL(Extract-Transform-Load)工程师是负责从多个数据源中抽取、转换和加载数据到数据仓库或目标系统的专业人士。

他们不仅需要具
备数据仓库和业务知识,还需要掌握各种ETL工具和数据处理技术。

本文将介绍一些常见的ETL工程师面试题,帮助读者了解该职位要求
和相关技能。

二、面试题目
1. 请介绍一下ETL的工作流程。

2. 请列举一些常见的ETL工具,并简要说明它们的特点和用途。

3. 在ETL过程中,数据抽取阶段可能会遇到哪些常见问题,以及如何解决?
4. 数据转换是ETL过程中的重要环节,请分享一些常用的数据转换技术和方法。

5. 数据加载阶段会面临哪些挑战,你有什么经验来应对这些挑战?
6. 请介绍一下维度建模和事实表的概念,以及在数据仓库中的应用。

7. 当需要处理大规模数据时,你如何保证ETL的性能和效率?
8. 在ETL过程中,如何处理数据质量问题?请分享一些解决方案。

9. 请描述一下你在以往的项目中遇到的最具挑战性的数据处理任务,并说明你是如何解决的。

10. 请简要解释一下OLAP和OLTP的概念,并说明它们之间的区
别和联系。

三、结语
以上是ETL工程师面试中常见的一些问题,涵盖了ETL的基本概念、工具、技术和应用场景。

希望读者可以通过了解这些问题,并在
实际工作中不断学习和实践,成为一名优秀的ETL工程师。

请注意:本文提供的只是参考答案,实际面试中可能会有其他问题。

因此,建议读者在备战面试时进行广泛的学习和准备,以应对各种可
能的问题。

祝您面试成功!。

面试ETL题总汇

面试ETL题总汇

ETL面试题总汇一、分析1.什么是逻辑数据映射?它对ETL工程组的作用是什么?What is a logical data mapping and what does it mean to the ETL team?答:逻辑数据映射〔Logical Data Map〕用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或者Excel 的格式保存如下的信息:目标表名:目标列名:目标表类型:注明是事实表、维度表或者支架维度表。

SCD类型:对于维度表而言。

三种SCD〔Slowly Changing Dimension〕技术SCD1直接修改原维表信息,不保存任何维历史信息。

SCD2创立新的记录而不删除或者修改原有维信息。

可通过为每条记录设定过期时间、生效时间两个字段来区分各历史记录和当前记录〔历史记录的过期时间均早于当前记录的生效时间〕。

SCD3在维表中定义历史信息字段,只保存有限的历史信息〔此技术很少应用〕源数据库名:源数据库的实例名,或者连接字符串。

源表名:源列名:转换方法:需要对源数据做的操作,如Sum(amount)等。

逻辑数据映射应该贯通数据迁移工程的始终,在其中说明了数据迁移中的ETL策略。

在进行物理数据映射前进行逻辑数据映射对ETL工程组是重要的,它起着元数据的作用。

工程中最好选择能生成逻辑数据映射的数据迁移工具。

-----------------------------补充:逻辑数据映射分为两种:1: 模型映射:从源模型到DW目标模型之间的映射类型有:一对一:一个源模型的数据实体只对应一个目标模型的数据实体。

如果源类型与目标类型一致,那末直接映射。

如果两者间类型不一样,那末必须经过转换映射。

一对多:一个源模型的数据实体只对应多个目标模型的数据实体。

在同一个数据存储空间,往往浮现会一个源实体拆分为多个目标实体的情况下。

在不同的存储空间中,结果会对应到不同的存储空间的实体。

etl面试题及答案

etl面试题及答案

etl面试题及答案ETL(Extract, Transform, Load)是数据仓库中常用的一种数据处理过程,它包括从源系统中提取数据、转换数据以满足目标系统的需求,并将数据加载到目标系统中。

在面试中,了解ETL的相关知识对于应聘数据工程师或数据分析师等职位至关重要。

以下是一些常见的ETL面试题及答案:1. 什么是ETL?ETL是数据集成过程中的三个主要步骤的缩写,即提取(Extract)、转换(Transform)和加载(Load)。

它通常用于将数据从源系统迁移到目标系统,如数据仓库。

在这个过程中,数据不仅被移动,还可能被清洗、整合和转换为适合分析的格式。

2. ETL和ELT有什么区别?ELT(Extract, Load, Transform)是ETL的变体,主要区别在于数据的转换步骤发生在数据被加载到目标系统之后。

这种方法通常在目标系统(如数据仓库)具有更强大的处理能力时使用,可以更灵活地处理数据。

3. 在ETL过程中,数据源通常有哪些类型?数据源可以是关系型数据库、非关系型数据库、文件系统(如CSV、XML文件)、云存储服务、Web API等。

数据工程师需要能够处理各种数据源,并能够从这些源中提取数据。

4. 解释一下数据清洗在ETL中的重要性。

数据清洗是ETL过程中的一个关键步骤,它涉及识别和纠正数据中的错误和不一致性,如重复记录、格式错误、不完整的数据等。

数据清洗确保了数据的质量和准确性,这对于后续的数据分析和决策至关重要。

5. ETL过程中的转换操作通常包括哪些内容?转换操作可能包括数据类型转换、数据格式标准化、数据聚合、数据关联、数据去重、数据加密等。

这些操作的目的是将原始数据转换为适合分析和报告的格式。

6. 在ETL中,如何处理大数据量?处理大数据量时,通常需要使用分布式处理系统,如Apache Hadoop或Spark,这些系统能够并行处理大量数据。

此外,使用增量加载而不是全量加载可以减少数据传输和处理的时间。

数据挖掘岗面试题目(3篇)

数据挖掘岗面试题目(3篇)

第1篇一、基础知识1. 请简述数据挖掘的基本概念和目的。

2. 请列举数据挖掘的主要应用领域。

3. 请说明数据挖掘的流程和步骤。

4. 请解释什么是数据预处理,其重要性是什么?5. 请列举数据预处理的主要方法。

6. 请解释什么是特征工程,其重要性是什么?7. 请列举特征工程的主要方法。

8. 请解释什么是机器学习,请列举几种常见的机器学习算法。

9. 请解释什么是监督学习、无监督学习和半监督学习。

10. 请解释什么是分类、回归和聚类。

11. 请解释什么是模型评估,请列举几种常见的模型评估指标。

12. 请解释什么是决策树,请列举决策树的分类方法。

13. 请解释什么是随机森林,请列举随机森林的优点。

14. 请解释什么是支持向量机(SVM),请列举SVM的分类方法。

15. 请解释什么是神经网络,请列举神经网络的分类方法。

16. 请解释什么是深度学习,请列举深度学习的应用领域。

17. 请解释什么是K-means算法,请列举K-means算法的优缺点。

18. 请解释什么是层次聚类,请列举层次聚类的分类方法。

19. 请解释什么是关联规则挖掘,请列举关联规则挖掘的算法。

20. 请解释什么是时间序列分析,请列举时间序列分析的方法。

二、编程能力1. 请用Python实现以下功能:(1)读取CSV文件,提取其中指定列的数据;(2)对提取的数据进行排序;(3)将排序后的数据写入新的CSV文件。

2. 请用Python实现以下功能:(1)使用Pandas库对数据集进行数据预处理;(2)使用NumPy库对数据进行特征工程;(3)使用Scikit-learn库对数据进行分类。

3. 请用Python实现以下功能:(1)使用TensorFlow库实现一个简单的神经网络模型;(2)使用PyTorch库实现一个简单的神经网络模型;(3)对模型进行训练和评估。

4. 请用Python实现以下功能:(1)使用Scikit-learn库实现一个SVM分类器;(2)对分类器进行训练和评估;(3)调整SVM分类器的参数,以提高分类效果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、分析1.什么是逻辑数据映射?它对ETL项目组的作用是什么?What is a logical data mapping and what does it mean to the ETL team?答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel 的格式保存如下的信息:目标表名:目标列名:目标表类型:注明是事实表、维度表或支架维度表。

SCD类型:对于维度表而言。

三种SCD(Slowly Changing Dimension)技术SCD1直接修改原维表信息,不保存任何维历史信息。

SCD2创建新的记录而不删除或修改原有维信息。

可通过为每条记录设定过期时间、生效时间两个字段来区分各历史记录和当前记录(历史记录的过期时间均早于当前记录的生效时间)。

SCD3在维表中定义历史信息字段,只保存有限的历史信息(此技术很少应用)源数据库名:源数据库的实例名,或者连接字符串。

源表名:源列名:转换方法:需要对源数据做的操作,如Sum(amount)等。

逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的ETL策略。

在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的,它起着元数据的作用。

项目中最好选择能生成逻辑数据映射的数据迁移工具。

-----------------------------补充:逻辑数据映射分为两种:1: 模型映射:从源模型到DW目标模型之间的映射类型有:一对一:一个源模型的数据实体只对应一个目标模型的数据实体。

如果源类型与目标类型一致,则直接映射。

如果两者间类型不一样,则必须经过转换映射。

一对多:一个源模型的数据实体只对应多个目标模型的数据实体。

在同一个数据存储空间,常常出现会一个源实体拆分为多个目标实体的情况下。

在不同的存储空间中,结果会对应到不同的存储空间的实体。

一对零:一个源模型的数据实体没有与目标模型的数据实体有对应,它不在我们处理的计划范围之内。

零对一:一个目标模型的数据实体没有与任何一个源数据实体对应起来。

例如只是根据设计考虑,时间维表等。

多对一:多个源模型的数据实体只对应一个目标模型的数据实体。

多对多:多个源模型的数据实体对应多个目标模型的数据实体。

2: 属性映射一对一:源实体的一个数据属性列只对应目标实体的一个数据属性列。

如果源类型与目标类型一致,则直接映射。

如果两者间类型不一样,则必须经过转换映射。

一对多:源实体的一个数据属性列只对应目标实体的多个数据属性列。

在同一个实体中,常常出现会一个源属性列拆分为目标的多个属性列情况。

在不同实体中,结果会对应到不同的实体的属列。

一对零:一个源实体的数据属性列没有与目标实体的数据属性列有对应,它不在我们处理的计划范围之内。

零对一:一个目标实体的数据属性列没有与任何一个源数据属性列对应起来。

例如只是根据设计考虑,维表和事实表中的时间戳属性,代理健等。

多对一:源实体的多个数据属性列只对应目标实体的一个数据属性列。

多对多:源实体的多个数据属性列对应目标实体的多个数据属性列。

作用:1 为开发者传送更为清晰的数据流信息。

映射关系包括有关数据在存储到DW前所经历的各种变化的信息,对于开发过程中数据的追踪审查过程非常重要。

2 把ETL过程的信息归纳为元数据,将数据源结构,目标结构,数据转换规则,映射关系,数据的上下文等元数据保存在存储知识库中,为元数据消费者提供很好的参考信息,追踪数据来源与转换信息,有助于设计人员理解系统环境变化所造成的影响;开发设计者可以轻松的回答以下的问题:1、这些数据从那里来?2、这样的结果通过什么样的计算和转化得来?3、这些数据是如何组织的?4、数据项之间有什么联系?5、如果源发生变化,有那几个系统,目标受影响?2.在数据仓库项目中,数据探索阶段的主要目的是什么?What are the primary goals of the data discovery phase of the data warehouse project? 答:在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。

对源系统的分析通常包括两个阶段,一个是数据探索阶段(Data Discovery Phase),另一个是异常数据检测阶段。

数据探索阶段包括以下内容:A、收集所有的源系统的文档、数据字典等内容。

B、收集源系统的使用情况,如谁在用、每天多少人用、占多少存储空间等内容。

C、判断出数据的起始来源(System-of-Record)。

D、通过数据概况(Data Profiling)来对源系统的数据关系进行分析。

数据探索阶段的主要目的是理解源系统的情况,为后续的数据建模和逻辑数据映射打下坚实的基础。

3.如何确定起始来源数据?How is the system-of-record determined?如何确定起始来源数据?答:这个问题的关键是理解什么是System-of-Record。

System-of-Record和数据仓库领域内的其他很多概念一样,不同的人对它有不同的定义。

在Kimball的体系中,System-of-Record是指最初产生数据的地方,即数据的起始来源。

在较大的企业内,数据会被冗余的保存在不同的地方,在数据的迁移过程中,会出现修改、清洗等操作,导致与数据的起始来源产生不同。

起始来源数据对数据仓库的建立有着非常重要的作用,尤其是对产生一致性维度来说。

我们从起始来源数据的越下游开始建立数据仓库,我们遇到垃圾数据的风险就会越大。

二、架构4.在ETL过程中四个基本的过程分别是什么?What are the four basic Data Flow steps of an ETL process?在ETL过程中四个基本的过程分别是什么?答:Kimball数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取(extract)、清洗(clean)、一致性处理(confirm)和交付(delivery),简称为ECCD。

A、抽取阶段的主要任务是:读取源系统的数据模型。

连接并访问源系统的数据。

变化数据捕获。

抽取数据到数据准备区。

B、清洗阶段的主要任务是:清洗并增补列的属性。

清洗并增补数据结构。

清洗并增补数据规则。

增补复杂的业务规则。

建立源数据库描述数据质量。

将清洗后的数据保存到数据准备区。

C、一致性处理阶段的主要任务是:一致性处理业务标签,即维度表中的描述属性。

一致性处理业务度量及性能指标,通常是事实表中的事实。

去除重复数据。

国际化处理。

将一致性处理后的数据保存到数据准备区。

D、交付阶段的主要任务是:加载星型的和经过雪花处理的维度表数据。

产生日期维度。

加载退化维度。

加载子维度。

加载1、2、3型的缓慢变化维度。

处理迟到的维度和迟到的事实。

加载多值维度。

加载有复杂层级结构的维度。

加载文本事实到维度表。

处理事实表的代理键。

加载三个基本类型的事实表数据。

加载和更新聚集。

将处理好的数据加载到数据仓库。

从这个任务列表中可以看出,ETL的过程和数据仓库建模的过程结合的非常紧密。

换句话说,ETL系统的设计应该和目标表的设计同时开始。

通常来说,数据仓库架构师和ETL 系统设计师是同一个人。

5.在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?What are the permissible data structures for the data staging area? Briefly describe the pros. and cons. of each.在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?答:A、固定格式的文本文件。

(Flat File)Flat File指的是一种保存在系统上的一种文本文件格式,它以类似数据库的表的方式用行和列来保存数据。

这种文件格式经常用来进行数据交换。

用于保存数据不太合适。

B、XML数据集。

多用于数据交换,用户保存数据不太合适。

C、关系数据库的表。

保存数据的较理想选择。

D、独立的数据库表。

独立的数据库表一般指建立的表和其他表没有外键约束关系。

这样的表多用于数据处理。

E、三范式或者关系型模型。

F、非关系型数据源。

非关系型数据源一般包括COBOL copy books、VSAM文件、Flat文件、Spreadsheets 等。

G、维度模型。

H、原子事实表和聚集事实表。

I、代理键查找表。

6.简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上?When should data be set to disk for safekeeping during the ETL?简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上?答:Staging的意思就是将数据写到磁盘上。

出于安全及ETL能方便重新开始,在数据准备区(Staging Area)中的每个步骤中都应该将数据写到磁盘上,即生成文本文件或者将建立关系表保存数据,而不应该以数据不落地方式直接进行ETL。

例如,在数据抽取阶段,我们需要连接到源系统,为了对源系统的影响尽量小,我们需要将抽取的数据保存成文本文件或者放入数据准备区的表中,这样,当ETL过程出现错误而失败时,我们就可以从这些文本文件开始ETL,而不需要再次影响源系统。

三、抽取7.简述异构数据源中的数据抽取技术。

Describe techniques for extracting from heterogeneous data sources.简述异构数据源中的数据抽取技术。

答:在数据仓库项目中,需要抽取的数据经常来自不同的数据源,它们的逻辑结构和物理结构都可能不同,即称之为异构数据源。

在对异构数据源进行整合抽取时,我们需要做的事情依次是标识出所有的源系统,对源系统进行概况分析,定义数据匹配逻辑,建立筛选规则,生成一致性维度。

对于源数据的操作系统平台和数据平台各不相同的情况,我们需要根据实际情况来确定如何进行数据抽取,通常的方法有建立ODBC连接、定义接口文件、建立DBLINK等方法。

8.从ERP源系统中抽取数据最好的方法是什么?What is the best approach for handling ERP source data?从ERP源系统中抽取数据最好的方法是什么?答:ERP系统的产生是为了解决企业内异构数据的整合。

这个问题也是数据仓库系统面临的主要问题。

ERP的解决方案是将企业内的各个应用(包括销售、会计、人力资源、库存和产品等)建立在相同的平台和相同的应用框架下,即在应用操作层将企业内的数据进行了一致性处理。

而数据仓库是在应用操作层之上建立一致性的规则并进行一致性处理。

相关文档
最新文档