数据仓库与电信EDA简介

合集下载

eda技术

eda技术

eda技术EDA(Exploratory Data Analysis)技术是一种数据分析方法,它通过整合、理解和概括数据来揭示数据的内在关系和规律。

EDA技术是数据科学和机器学习领域中一项重要的预处理工具,它可以帮助数据分析师和科学家更好地了解数据,并为后续的建模和分析工作提供指导。

EDA技术的核心思想之一是探索性可视化分析,它通过图表和图形展示数据的分布、趋势和关联等信息。

通过可视化的方式,我们可以直观地发现数据中的异常值、缺失值、离群点和异常分布等问题,帮助我们更好地理解和解释数据。

在可视化分析的过程中,我们可以使用柱状图、折线图、散点图、箱线图等图表方式来展示数据的不同特征,从而深入挖掘数据的内在规律。

除了可视化分析,EDA技术还包括数据的统计描述和探索性数据分析。

统计描述可以帮助我们了解数据的基本统计特征,如均值、中位数、标准差等,通过统计描述,我们可以对数据的分布和形态有一个大致的了解。

探索性数据分析是一种更加深入的数据分析方法,它通过利用统计学原理和方法来探索数据之间的关系和影响。

探索性数据分析可以使用相关系数、回归分析、变差分析等方法,帮助我们了解数据之间的相关性、影响因素等。

在进行EDA技术分析时,我们还需要考虑数据的质量和准确性。

数据质量的问题可能导致分析结果的误差或者无法得到有效的结论。

因此,在进行EDA技术分析之前,我们需要对数据进行数据清洗和数据预处理,包括缺失值填充、异常值处理、数据转换等步骤,以确保数据的准确性和完整性。

EDA技术在实际应用中具有广泛的应用价值。

例如,在金融领域中,EDA技术可以帮助分析师挖掘金融市场中的规律和趋势,为投资决策提供数据支持;在医疗领域中,EDA技术可以帮助医学研究人员分析临床数据,发现患者的生理指标与疾病之间的关系;在市场营销领域中,EDA技术可以帮助企业分析市场数据,了解目标消费者的需求和购买行为,从而制定有效的营销策略。

综上所述,EDA技术是一种重要的数据分析方法,它通过可视化分析、统计描述和探索性数据分析等手段,帮助我们更好地理解和解释数据。

关于EDA的概述

关于EDA的概述

关于EDA的概述探索性数据分析(Exploratory Data Analysis,EDA)是指对收集到的数据进行初步观察、分析、总结和可视化的过程。

它是数据分析的第一步,通过这一步骤,我们可以对数据有一个整体的认识,发现数据中的模式和趋势,为下一步的建模和预测提供一定的指导。

EDA可以包括以下几个主要步骤:1.数据清理:数据清理是EDA的关键步骤之一,它涉及数据集中的缺失值、异常值、重复值等问题的处理。

缺失值是指数据集中一些变量的部分观测值缺失的情况,异常值是指数据集中与其他观测值相比具有明显差异的观测值,重复值是指数据集中出现多次的相同观测值。

通过清除这些问题数据,可以提高后续分析的准确性和可靠性。

2.描述统计分析:描述统计分析是对数据集的基本统计特征进行总结和描述的过程。

通过计算数据的均值、中位数、标准差、极值等统计指标,可以直观地了解数据的中心趋势、分散程度、数据分布形态等情况。

此外,还可以通过制作直方图、箱线图、散点图等可视化图形来展示数据的分布和关系。

3.变量关系分析:变量关系分析是研究不同变量之间关系的过程。

通过计算变量之间的相关系数、绘制散点图、矩阵图等可视化图形,可以了解变量之间的线性相关性、非线性相关性、正负相关性等情况。

进一步分析不同变量之间的关系,可以帮助我们发现变量之间的潜在模式和规律。

4.探索性可视化:探索性可视化是通过制作各种图表来呈现数据的分布、关系和趋势的过程。

常用的探索性可视化图形包括直方图、箱线图、散点图、折线图、热力图等。

这些图形可以帮助我们更好地理解数据的特征和结构,发现数据中的模式和趋势。

5.假设检验:在数据分析中,我们常常会提出一些假设,然后通过统计方法进行假设检验。

假设检验的目的是判断从样本中得到的统计结果是否支持我们所提出的假设。

在EDA中,可以使用T检验、卡方检验、方差分析等常见的假设检验方法来对数据进行验证。

6.结论总结:完成以上步骤后,我们可以对数据进行总结和结论。

eda简介(eda简介)

eda简介(eda简介)

---------------------------------------------------------------最新资料推荐------------------------------------------------------eda简介(eda简介)eda 简介(eda 简介) EDA in the communications industry (Telecommunication) another explanation is the enterprise data architecture, EDA gives a general view of an enterprise data architecture, and in accordance with the characteristics of telecom enterprises, the framework and hierarchy. EDA is an electronic design automation (Electronic Design Automation): from the computer aided design in the middle of 1960s (CAD), computer aided manufacturing (CAM), computer aided test (CAT) and Computer Aided Engineering (CAE) and the concept of development. Catalog First, what is EDA? Two, design methods Three 、 EDA tool software classification Four, EDA tool software vendors tycoon three Five, compounds Six. Exploratory data analysis Seven. Distribution estimation algorithm 1. What is EDA? Two, design methods Three 、 EDA tool software classification Four, EDA tool software vendors tycoon three Five, compounds Six. Exploratory data analysis Seven, distribution estimation algorithm Edit this paragraph 1. What is EDA? In 1990s, the international advanced electronic and computer technology in the world, has been exploring new methods of electronic circuit design actively,1 / 23and made a thorough change in design methods, tools etc, with great success. In the field of electronic technology design, the application of programmable logic devices (such as CPLD, FPGA) has been widely popularized. These devices bring great flexibility to the design of digital systems. These devices can be programmed by software to reconstruct their hardware structure and working mode, so that the hardware design can be as convenient and fast as the software design. All these greatly changed the traditional digital system design method, design process and design concept, and promoted the rapid development of EDA technology. EDA technology is a computer as a tool for designers in the EDA software platform, using hardware description language VHDL to complete the design documents, and then the computer automatically complete logic compilation, simplification, segmentation, synthesis, optimization, layout, simulation, adaptive translation, logical mapping and programming work until the chip for the specific target the. The emergence of EDA technology greatly improves the efficiency and operability of circuit design, and reduces the labor intensity of designers. Using EDA tools, the electronics designer can start the electronic system design from concept, algorithm and protocol, a lot of work can be done through the---------------------------------------------------------------最新资料推荐------------------------------------------------------ computer and electronic products can be from circuit design and performance analysis to design the whole process of IC territory or PCB layout of the computer automatically complete the processing. Now, the concept or category of EDA is very wide. Including mechanical, electronic, communications, aerospace, chemical, mineral, biological, medical, military and other fields, there are EDA applications. At present, EDA technology has been widely used in major companies, enterprises and institutions and scientific research and teaching departments. For example, in the aircraft manufacturing process, from design, performance testing and characteristic analysis until the flight simulation, may involve EDA technology. The concept of EDA EDA technology refers to the computer as the work platform, the latest achievements of the integration application of electronic technology, computer technology, information processing and intelligent technology, the automatic design of electronic products. Using EDA tools, the electronics designer can start the electronic system design from concept, algorithm and protocol, a lot of work can be done through the computer and electronic products can be from circuit design and performance analysis to design the whole process of IC3 / 23territory or PCB layout of the computer automatically complete the processing. Now, the concept or category of EDA is very wide. Including mechanical, electronic, communications, aerospace, chemical, mineral, biological, medical, military and other fields, there are EDA applications. At present, EDA technology has been widely used in major companies, enterprises and institutions and scientific research and teaching departments. For example, in the aircraft manufacturing process, from design, performance testing and characteristic analysis until the flight simulation, may involve EDA technology. This paper refers to the EDA technology, mainly for electronic circuit design, PCB design and IC design. EDA design can be divided into system level, circuit level and physical implementation level. Edit paragraph two, design method (1) front end design (system modeling, RTL level description), back end design (FPGAASIC) system modeling (2) IP multiplexing (3) front-end design (4) system description: establish the mathematical model of the system. (5) function description: describe the behavior of the system or the data flow diagram among the sub modules. (6) logic design: the system function is structured, usually with text, schematics, logic diagrams, Boolean expressions to represent the design results. (7)---------------------------------------------------------------最新资料推荐------------------------------------------------------ simulation: including function simulation and timing simulation, mainly verify the correctness and timing characteristics of the system function. Edit this paragraph three, EDA tool software classification EDA tool software can be roughly divided into three categories: chip design assistance software, programmable chip aided design software, system design auxiliary software and so on. Currently entering the country and has a wide influence in the EDA software system design software and programmable chip design software: Protel, Altium Designer, PSPICE, multiSIM10 (the latest version of the original EWB, OrCAD, PCAD), LSIIogic, MicroSim, ISE, Modelsim, Matlab and so on. These tools are strong function, generally can be used in several aspects such as many software can realize the circuit design and simulation, PCB automatic layout and also can output a variety of file with third party software interface. According to the main function or the main application situation, divided into circuit design and simulation tools, PCB design software, IC design software, PLD design tools and other EDA software, a brief introduction. 3.1 electronic circuit design and simulation tools, we may have used the test board or something else to make some electronic5 / 23system to practice. But sometimes, we find that there are a lot of problems to be done, not previously thought, so that waste our time and supplies. It also increases the product development cycle and extends the product listing time, so that the product loses the market competitive advantage. Is there a way to know the result without using the electric iron test board? The conclusion is that this is the circuit design and simulation technology. When it comes to electronic circuit design and simulation tools, this technology can not be mentioned in the United States, can not help but mention their aircraft design why high efficiency. Our previous design of a medium-sized aircraft, from the draft to the detailed design to the wind tunnel test, and finally to the map to the actual production, the entire cycle is about 10 years. And the United States is 1 years old. Why is there such a big gap? Because the United States is most used in the design of virtual simulation technology, the wind tunnel experiment parameters accumulated over the years into the computer, and then through the computer programming written in a virtual environment of software, and enable it to experience parameters automatically apply the relevant formula and call after long-term accumulated input computer. In this way, as long as the aircraft shape meter data---------------------------------------------------------------最新资料推荐------------------------------------------------------in the virtual wind tunnel test software, where unreasonable have changes there, until the best effect, efficiency is high, as long as the final test several times for shortage in the actual environment can be established, from their Boeing 747 to F16 is this method uses the. The aerodynamic data are provided by senior experts, and the software developer is IBM. The engineer of the aerocraft only needs to use the simulation software to do a variety of simulation debugging work on the computer platform. Similarly, many of their other things are using a similar approach, from big to small, from complexity to simplicity, and even to design furniture and composition, but the specific content of the software is different. In fact, they invented the first generation of computers for this purpose (originally for efficient design of artillery and related shells and other large amount of design). Electronic circuit design and simulation tools include SPICE/PSPICE; multiSIM7; Matlab; SystemView; mmicad LiveWire、爱迪生、蒂娜亲明亮的火花等。

eda名词解释

eda名词解释

eda名词解释EDA(Exploratory Data Analysis)是指对收集的数据进行初步的探索和分析,并通过数据可视化技术来揭示其中的模式、关系和趋势。

EDA是数据科学和机器学习的重要前置步骤,它允许数据科学家和分析师了解数据的特征、结构和潜在的问题,从而为后续的建模和分析工作做好准备。

EDA的目标是将数据转化为有用的信息,以便进一步的决策和行动。

通过对数据进行可视化和统计分析,EDA可以帮助人们发现数据中的规律和趋势,识别异常值和缺失值,并提供数据质量的保证。

此外,EDA还可以通过探索性模型构建来验证假设和猜测,并为进一步的分析提供线索。

EDA的步骤可以包括以下几个方面:1. 数据获取:从不同的数据来源中获取需要分析和探索的数据集。

2. 数据清洗:检查数据中的异常值、缺失值和重复值,并进行处理和修复。

这包括删除异常值、填充缺失值和删除重复值。

3. 数据可视化:使用图表、图形和其他可视化工具直观地展示数据。

可以使用直方图、散点图、箱线图等来描述数据的分布、相关性和离群值。

4. 统计分析:对数据进行统计分析,包括计算基本统计量(如均值、标准差、中位数等)、查找相关性和进行假设检验。

统计分析可以帮助我们了解数据的中心趋势、扩散程度和群体差异。

5. 探索性模型构建:根据目标变量和特征变量之间的关系,构建简单的模型来验证假设和推断潜在的影响因素。

这可以通过线性回归、逻辑回归等模型来实现。

6. 结果解释:对EDA的结果进行解释和总结,提出问题的答案和结论。

可以提出新的问题和领域的挖掘,为进一步的分析提供指导。

EDA常用的工具和软件包括Python中的Matplotlib、Seaborn和Pandas,以及R语言中的ggplot2和dplyr等。

EDA的好处在于它能够让我们更好地了解数据,发现数据中的规律和趋势,并识别数据中的异常值和缺失值。

通过可视化和统计分析,EDA可以帮助我们做出更准确和有意义的决策,并为后续的模型建立和分析工作提供指导。

数据仓库概述

数据仓库概述

数据仓库概述数据仓库概述随着计算机技术的飞速进展与企业界不断提出新的需求,数据仓库技术应运而生。

传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各类类型的数据处理工作。

近年来,随着计算机应用,,网络计算,开始向两个不一致的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。

特别是数据库处理能够大致地划分为两大类:操作型处理与分析型处理(或者信息型处理)。

这种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原先的以单一数据库为中心的数据环境进展为一种新环境:体系化环境。

数据库系统作为数据管理手段,从它的诞生开始,就要紧用于事务处理。

通过数十年的进展,在这些数据库中已经储存了大量的日常业务数据。

传统的业务系统通常是直接建立在这种事务处理环境上的。

随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各类类型的信息处理任务。

后来人们逐步认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理与分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。

事务处理环境不适宜D S S应用的原因要紧有下列五条:(1)事务处理与分析处理的性能特性不一致。

在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不一致,某个D S S应用程序可能需要连续几个小时,从而消耗大量的系统资源。

将具有如此不一致处理性能的两种应用放在同一个环境中运行显然是不适当的。

(2)数据集成问题。

D S S需要集成的数据。

全面而正确的数据是有效的分析与决策的首要前提,有关数据收集得月完整,得到的结果就越可靠。

eda技术

eda技术

EDA技术EDA(探索性数据分析)是数据科学和数据分析领域中非常重要的一环。

它是通过分析和可视化数据来发现数据中的模式、关系和异常,为后续的数据处理和建模步骤提供指导和灵感。

本文将介绍EDA技术的基本原理和常用的方法。

1. EDA的基本原理EDA的基本原理是通过对数据进行可视化和统计分析,探索数据中的特征和规律。

它主要包括以下几个方面:数据的汇总和描述统计首先,我们需要对数据进行汇总和描述统计,以了解数据的基本情况。

常用的汇总统计方法包括计算数据的均值、中位数、标准差等。

描述统计的结果可以帮助我们对数据有一个整体的认识,发现数据中的异常值和缺失值。

数据的可视化分析数据的可视化分析是EDA的核心部分。

通过绘制直方图、散点图、箱线图等图表,我们可以直观地展示数据的分布、相关性和异常值。

数据可视化能够帮助我们发现数据中的模式和趋势,以及数据之间的关系。

数据的探索性统计分析在数据可视化的基础上,我们可以进行更进一步的统计分析。

例如,计算不同变量之间的相关系数,进行假设检验等。

这些统计分析方法可以协助我们发现变量之间的关系,分析数据的影响因素和驱动因素。

2. 常用的EDA方法在EDA过程中,常用的方法包括:直方图直方图是显示数据分布情况的一种常用图表。

它将数据划分为一系列的区间,并计算每个区间内数据的频数或频率。

通过观察直方图,我们可以了解数据的分布形状、集中程度以及是否存在异常值。

散点图散点图用于显示两个变量之间的关系。

它将每个数据点表示为坐标平面上的一个点,其中X轴和Y轴分别表示两个变量的取值。

通过观察散点图,我们可以发现变量之间的线性关系、分布情况以及是否存在异常点。

箱线图箱线图可以展示数据的分布情况和异常值。

它由一个矩形框、上下两根线和若干个离群点组成。

箱线图可以显示数据的中位数、上下四分位点和边缘值,帮助我们检测和处理异常值。

相关矩阵相关矩阵可以展示不同变量之间的相关性。

它是一个n×n的矩阵,其中每个元素表示两个变量之间的相关系数。

eda知识点大全

eda知识点大全

EDA(探索性数据分析)是一种数据分析方法,它能够帮助我们理解数据集的特征、发现数据集中隐藏的模式和关系,并为我们提供对数据进行更深入研究的基础。

在本文中,我们将逐步介绍EDA的一些关键知识点。

1. 数据集的观察在进行EDA之前,首先需要观察数据集的基本情况。

我们可以通过以下几个方面来观察数据集:•数据集的大小:我们可以查看数据集中的行数和列数,了解数据集的规模。

•数据集的特征:我们可以查看数据集中的特征名称,并了解每个特征的含义。

•数据集的缺失值:我们可以检查数据集中是否存在缺失值,并了解缺失值的分布情况。

2. 数据集的清洗在观察完数据集之后,我们需要对数据集进行清洗,以便后续的分析。

数据集的清洗包括以下几个方面:•处理缺失值:我们可以选择删除包含缺失值的行或列,或者使用合适的方法填充缺失值。

•处理异常值:我们可以检查数据集中是否存在异常值,并根据实际情况决定如何处理这些异常值。

•数据类型的转换:我们可以将特征的数据类型转换为适合分析的类型,比如将字符串类型转换为数值类型。

3. 数据集的可视化数据集的可视化是EDA的重要步骤之一,通过可视化数据,我们可以更好地理解数据的分布和关系。

常用的数据可视化方法包括:•直方图:用于显示数值型数据的分布情况。

•散点图:用于显示两个数值型变量之间的关系。

•条形图:用于显示类别型变量的分布情况。

•箱线图:用于显示数值型数据的分布情况和异常值。

4. 数据集的探索在进行数据集的探索时,我们可以使用一些统计方法和可视化工具来发现数据集中的模式和关系。

常用的探索方法包括:•相关性分析:通过计算变量之间的相关系数,来了解变量之间的线性关系。

•分组分析:通过将数据集分成不同的组别,来比较不同组别之间的差异。

•高级可视化技术:如热力图、散点矩阵等,用于显示多个变量之间的关系。

5. 数据集的统计分析在进行数据集的统计分析时,我们可以使用一些统计指标来描述数据集的特征和分布。

常用的统计指标包括:•均值和中位数:用于表示数据的集中趋势。

电信业务词汇

电信业务词汇
9、用户保有数和基数的区别
10、
7、IVR,(Interactive Voice Response)即互动式语音应答,您只须用电话即可进入服务中心,根据操作提示收听手机娱乐产品。 可以根据用户输入ቤተ መጻሕፍቲ ባይዱ内容播放有关的信息。
8、PV(page view)即页面浏览量,或点击量,通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。
4、一、Edw是一个基于php,mysql,javascript等技术开发的一个框架平台,目前该平台已被很多系统应用了。基于Edw平台已经有EMS,EOS等应用平台。三、 EDW(Enterprise Data Warehouse 数据仓库),普遍存在于各种企业BI项目。
5、ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。
6、ETL,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。 ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider
1、EDA------企业数据应用平台
2、CRM(Customer Relationship Management)即客户关系管理。从字面上来看,是指企业用CRM来管理与客户之间的关系。在不同场合下,CRM可能是一个管理学术语,可能是一个软件系统,而通常所指的CRM,是指用计算机自动化分析销售、市场营销、客户服务以及应用支持等流程的软件系统。它的目标是缩减销售周期和销售成本、增加收入、寻找扩展业务所需的新的市场和渠道以及提高客户的价值、满意度、赢利性和忠实度。CRM是选择和管理有价值客户及其关系的一种商业策略,CRM要求以客户为中心的企业文化来支持有效的市场营销、销售与服务流程。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因此不需要事务处理、恢复和并发控制机制。数据仓库里的 数据通常只需要两种操作:初始化载入和数据访问,因此其 数据相对稳定,极少或根本不更新。
据,而不仅仅是某一个时刻的数据
3
数据仓库与生产数据库的比较
操作型数据库系统 系统目的 使用人员 支持日常操作 办事员、DBA、数据库专家
分析型数据仓库 支持管理需求、获取信息 经理、管理人员、分析专家
数据内容
数据特点 数据组织 存取类型 数据稳定性 操作需求特点 操作特点 数据库设计 一次操作数据量 存取频率 响应时间
当前数据
细节的 面向应用 增加、更改、查询、删除 动态的 操作需求事先可知道 一个时刻操作一单元 基于ER图 一次操作数据量小 比较高 小于1秒~2、3秒
历史数据、派生数据
综合的,或提炼的 面向主题 查询、聚集 相对稳定 操作需求事先不知道 一个时刻操作一集合 基于星型模式、雪花模式 一次操作数据量大 相对较低 几秒~几分钟
3
数据仓库模型设计—雪花模型
数据仓库模型设计—星型模型
数据仓库模型设计—多维模型
数据仓库模型设计—多维模型
为了分析方便,将同一维度的不同层次的维度(如地市ID,区 县ID)都融合到事实表中。 维度模型也是星型模型。
强调的是先对维度进行预处理,将多个维度集合到一个事实
表,包含了多个维度,这样可以组合各维度,形成灵活的报 表查询。
数据仓库体系架构
工具:
Teradata,Greenplum Oracle,DB2,SqlServer
Hadoop
数据仓库体系架构
展现和应用层
TOPIC

数据仓库简介 EDA简介 Q&A


26
EDA架构
EDA架构
EDA架构
EDA架构
电信ODS和EDW的相同点
31
电信ODS与EDW比较
数据仓库体系架构
仓库—接口层
接口层
也称STAGE,ODS层;特点如下:
1. 采集外围的源系统的数据;如CRM,计费等 2. 此层的数据模型与源系统基本保持一致!
3. 根据不同数据的特点,采集数据频率和实时性
有所不同;
数据仓库体系架构
仓库—整合层
整合层
1. 数据仓库的核心层;
2. 按照主题体系进行组织的细节数据;一个细节
1
集成(Integrated)
数据仓库通常是结合多个异种数据源构成的,异种数据源可能
数据仓库通常围绕一些主题,如“产品”、 “销售商”、“消费者”等来进行 组织。
包括关系数据库、面向对象数据库、文本数据库、Web数据库、
2
数据仓库关注的是决策者的数据建模与分析, 一般文件等 而不针对日常操作和事务的处理。因此,数
数据表可以来自多个不同源系统的接口层的数 据;
3. 采用统一数据模型(多维);数据原则上是统一
编码格式; 4. 数据来源----接口层;数据输出----汇总层
数据仓库体系架构
仓库—汇总层
汇总层
1. 按主题加工需要,形成汇总数据
2. 通过维度(日期、地域、产品等)对运营、分析 数据进行汇总的数据
3. 可有轻度汇总数据;然后进行高层汇总
32
电信ODS与EDW比较
33
电信ODS与EDW比较
34
TOPIC

数据仓库简介 EDA简介 Q&A


35
Q&A36小时,分钟等级别数据仓库体系架构
ETL
ETL(Extract-Transform-Load ) 是构建数据仓库的重要一环,用户 从数据源抽取出所需的数据,经过 数据清洗,最终按照预先定义好的 数据仓库模型,将数据加载到数据 仓库中去。 工具:Informatic, DataStage, Kettle, Datax,Sqoop
4. 数据来源----整合层或本层
数据仓库体系架构
DEMO
汇总 表A
汇总 表B
汇总层
明细 表A
明细 表B
明细 表C
整合层
CRM
计费
账务
流量
接口层
CRM
计费
账务
流量
源数据
数据仓库体系架构
数据集市
1. 简称DM,以某个应用为出发 点而建设的局部DW; 2. DM只关心自己需要的数据, 不会全盘考虑企业整体的数据 架构和应用,每个应用都有自 己的DM。 3. 规模小;面向部门,由业务部门 管理和维护;
数据仓库
1 2 3
数据仓库概述 数据仓库模型设计 数据仓库体架构
12
数据仓库体系架构
数据仓库体系架构
源数据
1. 一般取自生产数据库的镜
像,从库;尽量减少对线 上生产库的影响;
2. 按文件类型:RDBMS、文
本文件、HDFS、消息流 等;
3. 结构化,半结构化和非结
构化 4. 按取数频率:月,周,日,
据仓库提供了特定主题的简明视图,排除了 对于决策无用的数据
4
特征
时变(Time Variant)
非易失(Nonvolatile)的数据集合
数据存储从历史的角度提供信息,数据仓库中 包含时间元素,它所提供的信息总是与时间相 关联的。数掘仓库中存储的是一个时间段的数
数据仓库总是与操作环境下的实时应用数据物理地分离存放,
数据仓库与电信EDA简介
中国电信 上海信息化研发中心 2015年11月
TOPIC

数据仓库简介 EDA简介 Q&A


2
数据仓库
1 2 3
数据仓库概述 数据仓库模型设计 数据仓库体系架构
3
数据仓库
数据仓库(DataWarhouse)是一个面向主题、集成、时变、非易失的数据集合,是支持管理
部门的决策过程。 面向主题(Subject Oriented)
数据仓库
1 2 3
数据仓库概述 数据仓库模型设计 数据仓库体系架构
6
数据仓库模型设计

1
事实表(Fact Table)
事实表包含的是业务数据信息,数据取值通 常是可度量的、连续型的,且具有可加性, 数据量可达到几百万甚至上亿条记录。
2

4
维表( Dimension Table)
维表包含的是相应维度的描述型信息,这些信 息用作查询的约束条件,一般是离散的、描述 性的,不具有可加性。
数据仓库体系架构
ETL-INFOMATICA
数据仓库体系架构
ETL-INFOMATICA
数据仓库体系架构
仓库
ETL(Extract-Transform-Load )
是构建数据仓库的重要一环,用户
从数据源抽取出所需的数据,经过 数据清洗,最终按照预先定义好的
数据仓库模型,将数据加载到数据
仓库中去。 工具:Informatic, DataStage,
相关文档
最新文档