数据挖掘 - 知识点
数据挖掘-知识点

1、数据库与数据仓库的对比数据库 数据仓库面向应用 面向主题数据是详细的 数据是综合和历史的保持当前数据 保存过去和现在的数据数据是可更新的 数据不更新对数据的操作是重复的 对数据的操作是启发式的操作需求是事先可知的 操作需求是临时决定的一个操作存取一个记录 一个操作存取一个集合数据非冗余 数据时常冗余操作比较频繁 操作相对不频繁查询基本是原始数据 查询基本是经过加工的数据事务处理需要的是当前数据 决策分析需要过去和现在的数据很少有复杂的计算 有很多复杂的计算支持事务处理 支持决策分析2、OLTP与OLAP,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁联机事物处理(On Line Transaction Processing的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLTP OLAP数据库数据 数据仓库数据细节性数据 综合性数据当前数据 历史数据经常更新 不更新,但周期刷新对响应时间要求高 响应时间合理用户数量大用户数量相对较小面向操作人员,支持日常操作 面向决策人员,支持决策需要面向应用,事务驱动面向分析,分析驱动3、数据字典和元数据:数据字典:是数据库中各类数据描述的集合,它在数据库设计中具有很重要的地位。
由:数据项;数据结构;数据流;数据存储;处理过程5部分组成。
元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据 :(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据4、数据从数据库到知识的流程:DB-->DW-->OLAP-->DM-->KDD-->DSS-->AI5、数据挖掘的含义:知识发现(KDD):从数据中发现有用知识的整个过程。
数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。
数据专员必备知识点总结

数据专员必备知识点总结一、基本知识1. 数据类型:了解常见的数据类型,包括数值型、字符型、日期型等,了解每种数据类型的特点和处理方法。
2. 数据采集:熟悉数据的采集方法,包括网页爬虫、API接口、数据库查询等,了解不同数据采集方法的优缺点和适用场景。
3. 数据存储:了解常见的数据存储方式,包括关系型数据库、非关系型数据库、数据仓库等,了解不同数据存储方式的特点和应用场景。
4. 数据传输:掌握数据传输的方式,包括批处理、流处理、消息队列等,了解不同数据传输方式的优缺点和适用情况。
5. 数据安全:了解数据安全的基本知识,包括数据加密、权限管理、安全备份等,了解常见的数据安全风险和防范措施。
二、数据处理技能1. 数据清洗:掌握数据清洗的方法和技巧,包括异常值处理、缺失值处理、重复值处理等,能够运用各种工具和方法对数据进行有效清洗。
2. 数据转换:熟悉数据转换的技术,包括数据格式转换、数据结构转换、数据合并分割等,能够灵活运用不同的数据转换方法。
3. 数据抽取:掌握数据抽取的技术,包括抽样抽取、随机抽取、分层抽取等,了解不同抽取方法的特点和应用场景。
4. 数据加载:了解数据加载的技术,包括全量加载、增量加载、实时加载等,能够根据不同的加载需求灵活选择合适的加载方法。
三、统计学知识1. 基本概念:掌握统计学的基本概念,包括总体和样本、参数和统计量、假设检验和置信区间等,了解这些概念在数据分析中的应用。
2. 统计方法:熟悉常用的统计方法,包括描述统计、推断统计、回归分析、方差分析等,了解这些方法的原理和应用场景。
3. 可视化展示:掌握数据可视化的技术,包括图表绘制、数据映射、交互式展示等,能够通过可视化手段有效展示数据分析结果。
四、数据挖掘能力1. 数据挖掘概念:了解数据挖掘的基本概念和原理,包括关联规则挖掘、分类预测、聚类分析等,了解数据挖掘在实际应用中的意义和作用。
2. 数据挖掘工具:熟悉常见的数据挖掘工具,包括R语言、Python、Weka等,了解这些工具的特点和使用方法。
数据挖掘知识点归纳

知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息,是汇总的。
5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。
知识点二可以挖掘什么数据1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳,以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。
面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。
形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。
结果描述可以用广义关系或者规则(也叫特征规则)提供。
9.用规则表示的区分描述叫做区分规则。
10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。
数据挖掘复习知识点整理

数据挖掘:是从大量数据中发现有趣(非平庸的、隐含的、先前未知、潜在实用)模式,这些数据可以存放在数据库,数据仓库或者其他信息存储中。
挖掘流程:(1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类) (6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过 (1) 数据特征化:目标类数据的普通特性或者特征的汇总; (2) 数据区分:将目标类数据的普通特性与一个或者多个可比较类进行比较; (3)数据特征化和比较来得到。
关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起浮现的条件,通常要满足最小支持度阈值和最小置信度阈值。
分类:找出能够描述和区分数据类或者概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。
导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、含糊集)。
预测:建立连续值函数模型,预测空缺的或者不知道的数值数据集。
孤立点:与数据的普通行为或者模型不一致的数据对象。
聚类:分析数据对象,而不考虑已知的类标记。
训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或者分组,从而产生类标号。
第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。
从一个或者多个数据源采集信息,存放在一个一致的模式下,并且通常驻留在单个站点。
数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。
面向主题:排除无用数据,提供特定主题的简明视图。
集成的:多个异构数据源。
时变的:从历史角度提供信息,隐含时间信息。
非易失的:和操作数据的分离,只提供初始装入和访问。
联机事务处理OLTP:主要任务是执行联机事务和查询处理。
联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或者‘知识工人’提供服务。
知识点归纳 数据挖掘中的聚类分析与分类算法

知识点归纳数据挖掘中的聚类分析与分类算法数据挖掘中的聚类分析与分类算法数据挖掘是指从大量数据中自动发现有用的模式、关系或规律的过程。
在数据挖掘过程中,聚类分析和分类算法是两个常用且重要的技术。
本文将对这两个知识点进行归纳总结。
一、聚类分析聚类分析是将一组无标签的数据对象进行分组或聚类的数据挖掘技术。
其目标是通过对象之间的相似性将它们划分为若干个簇,使得同一簇内的对象相似度高,不同簇之间的相似度低。
聚类分析广泛应用于市场分割、社交网络分析、图像处理等领域。
常用的聚类算法有以下几种:1. K-means算法:K-means是一种基于距离度量的聚类算法。
它通过逐步迭代,将数据集分为K个簇,使得每个数据对象与本簇内的其他对象的相似度最高。
2. 层次聚类算法:层次聚类算法是一种通过计算不同类别之间的相似性,并逐步合并相似度高的类别的方式进行数据聚类的方法。
Hierarchical Agglomerative Clustering(HAC)是层次聚类的一种常见算法。
3. 密度聚类算法:密度聚类算法是一种通过计算对象的密度来确定簇的方法,常见的算法有DBSCAN和OPTICS算法。
这类算法可以有效地发现具有不同密度分布的聚类。
二、分类算法分类算法是将带有标签的数据集按照类别或标签进行划分的数据挖掘技术。
通过学习已有数据集的特征和类别标签,分类算法能够对新的未标记数据进行分类预测。
分类算法广泛应用于垃圾邮件过滤、文本分类、风险评估等领域。
常用的分类算法有以下几种:1. 决策树算法:决策树算法是一种基于树形结构的分类算法。
它通过对数据集进行递归分割,使得每个子节点具有最佳的纯度或信息增益,从而实现对数据的分类。
2. 朴素贝叶斯算法:朴素贝叶斯算法是一种基于条件概率的分类算法。
它假设特征之间相互独立,并通过计算条件概率来进行分类预测。
3. 支持向量机算法:支持向量机算法是一种通过寻找最优分割超平面将数据划分为不同类别的算法。
数据挖掘导论知识点总结

数据挖掘导论知识点总结数据挖掘是一门综合性的学科,它涵盖了大量的知识点和技术。
在本文中,我将对数据挖掘的导论知识点进行总结,包括数据挖掘的定义、历史、主要任务、技术和应用等方面。
一、数据挖掘的定义数据挖掘是从大量的数据中发掘出有价值的信息和知识的过程。
它是一种将数据转换为有意义的模式和规律的过程,从而帮助人们进行决策和预测的技术。
数据挖掘能够帮助我们从海量的数据中找到潜在的关联、规律和趋势,从而为决策者提供更准确和具有实际意义的信息。
二、数据挖掘的历史数据挖掘的概念最早可追溯到20世纪60年代,当时统计学家和计算机科学家开始尝试使用计算机技术来处理和分析大量的数据。
随着计算机硬件和软件技术的不断发展,数据挖掘逐渐成为一门独立的学科,并得到了广泛应用。
三、数据挖掘的主要任务数据挖掘的主要任务包括分类、聚类、关联规则挖掘、异常检测和预测等。
分类是将数据划分为多个类别的过程,其目的是帮助我们将数据进行分组和识别。
聚类是将数据划分为多个簇的过程,其目的是发现数据中的潜在模式和规律。
关联规则挖掘是发现数据中的关联规则和频繁项集的过程,其目的是发现数据中的潜在关联和趋势。
异常检测是发现数据中的异常值和异常模式的过程,其目的是发现数据中的异常现象。
预测是使用数据挖掘技术对未来进行预测的过程,其目的是帮助我们做出更准确的决策。
四、数据挖掘的技术数据挖掘的技术包括统计分析、机器学习、人工智能、数据库技术和数据可视化等。
统计分析是数据挖掘的基础技术,它包括描述统计、推断统计和假设检验等方法。
机器学习是一种使用算法和模型来识别数据模式和规律的技术,常见的机器学习算法包括决策树、神经网络、支持向量机和朴素贝叶斯等。
人工智能是数据挖掘的前沿技术,它包括自然语言处理、图像识别和智能决策等方面。
数据库技术是数据挖掘的技术基础,包括数据存储、数据检索和数据管理等技术。
数据可视化是数据挖掘的重要技术,它能够帮助我们将数据呈现为可视化的图表和图形,从而更直观地理解数据。
数据仓库与数据挖掘 阶段考试复习题

第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
知识点归纳 数据挖掘中的关联规则挖掘与异常检测

知识点归纳数据挖掘中的关联规则挖掘与异常检测知识点归纳数据挖掘中的关联规则挖掘与异常检测数据挖掘是一门涉及大数据分析和处理的学科,旨在从大量的数据中发现隐藏的模式、关联和趋势。
关联规则挖掘和异常检测是数据挖掘中的两个重要任务。
本文将对这两个知识点进行归纳和讨论。
一、关联规则挖掘关联规则挖掘是指在大规模数据集中寻找项集之间的相关性。
在关联规则挖掘中,项集是一个或多个项目的集合。
关联规则则是指在一个项集中出现的某个项目,能够关联到另一个项集中的其他项目。
关联规则挖掘的典型应用包括超市购物篮分析、推荐系统和生物信息学等。
它不仅可以帮助企业了解产品之间的关联性,还可以为用户提供个性化的推荐服务。
关联规则挖掘的常用算法有Apriori算法、FP-Growth算法等。
Apriori算法是一种基于候选生成和剪枝的经典算法。
它通过迭代发现频繁项集,然后生成关联规则。
FP-Growth算法是一种基于频繁模式树的算法,它通过构建一棵FP树来加速频繁项集的发现过程。
二、异常检测异常检测是指在数据集中寻找与其他样本不同的异常样本。
在异常检测中,异常样本通常被认为是不符合预期或规范的数据点,它们具有与其他样本不同的统计特性。
异常检测在许多领域中都有广泛的应用,如欺诈检测、网络入侵检测和工业生产中的故障检测等。
通过及时发现和处理异常,可以提高系统的安全性和可靠性。
异常检测的常用算法有基于统计方法的Z-Score算法、基于距离的KNN算法和基于聚类的LOF算法等。
Z-Score算法通过计算数据点与其均值之间的差异来判断是否为异常值。
KNN算法通过计算数据点与其最近邻之间的距离来确定是否为异常值。
LOF算法则通过计算数据点与其周围邻域之间的密度差异来判断是否为异常值。
三、关联规则挖掘与异常检测的联系尽管关联规则挖掘和异常检测是两个独立的任务,但它们在某些应用场景中可以相互协作。
首先,在关联规则挖掘中,异常样本可能作为离群项出现。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、数据库与数据仓库的对比2、OLTP与OLAP联机事物处理(On Line Transaction Processing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
3、数据字典和元数据:数据字典:是数据库中各类数据描述的集合,它在数据库设计中具有很重要的地位。
由:数据项;数据结构;数据流;数据存储;处理过程5部分组成。
元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据4、数据从数据库到知识的流程:DB-->DW-->OLAP-->DM-->KDD-->DSS-->AI5、数据挖掘的含义:知识发现(KDD):从数据中发现有用知识的整个过程。
数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。
6、数据仓库和数据挖掘的区别与联系(1)数据仓库与数据挖掘的区别:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。
数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
(2)数据仓库与数据挖掘的关系:①数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
②数据挖掘用于数据仓库实现决策支持:预测客户购买倾向;客户利润贡献度分析;分析欺诈行为;销售渠道优化分析等。
③数据仓库和数据挖掘的结合对支持决策会起更大的作用。
(3)数据仓库中数据存储特点:由于数据仓库不同于数据库,数据挖掘也随之发生变化。
数据存储方式的不同;数据存储的数据量的不同;数据存储的结构不同(4)数据仓库中数据挖掘特点:①数据挖掘从数据仓库中挖掘更深层次的信息。
②数据仓库为数据挖掘提出了新要求:数据挖掘需要可扩展性;数据挖掘方法需要能挖掘多维知识。
7、商业智能:商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。
商业智能与新决策支持系统从组成和目标来看是一致的。
但是,商业智能是一种技术,新决策支持系统是解决实际决策问题的一个系统。
可以理解为:新决策支持系统是利用商业智能技术来解决实际决策问题的系统。
8、数据仓库结构:近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。
历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。
轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。
高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。
图一9、数据仓库系统结构:数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
图二(1)、仓库管理①数据建模:数据建模是建立数据仓库的数据模型。
②数据抽取、转换、装载:数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。
数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。
③元数据:同13④系统管理:数据管理,性能监控,存储器管理以及安全管理。
(2)分析工具①查询工具:数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
②多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。
③数据挖掘工具:从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。
10、数据仓库的运行结构数据仓库应用是一个典型的客户/服务器(C/S)结构形式:客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。
服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。
三层C/S结构:OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。
这种结构形式工作效率更高。
11、数据仓库数据模型:数据仓库存储采用多维数据模型。
(1)星型模型:大多数的数据仓库都采用“星型模型”。
星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。
(2)雪花模型:雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。
(3)星网模型:星网模型是将多个星型模型连接起来形成网状结构。
多个星型模型通过相同的维,如时间维,连接多个事实表。
12、*数据抽取、转换和装载数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。
可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。
(1)数据抽取①确认数据源:列出对事实表的每一个数据项和事实;列出每一个维度属性;对于每个目标数据项,找出源数据项;一个数据元素有多个来源,选择最好的来源;确认一个目标字段的多个源字段,建立合并规则;确认一个目标字段的多个源字段,建立分离规则;确定默认值;检查缺失值的源数据②数据抽取技术:考虑两种情况:当前值;周期性的状态。
分为两类:静态数据抽取;修正数据的抽取。
(2)数据转换①数据转换的基本功能:选择:从源系统中选择整个记录或者部分记录。
分离/合并:对源系统中的数据进行分离操作或者合并操作。
转化:对源系统进行标准化和可理解化。
汇总:将最低粒度数据进行汇总。
清晰:对单个字段数据进行重新分配和简化。
②数据转换类型:格式修正;字段的解码;计算值和导出值;单个字段的分离;信息的合并;特征集合转化;度量单位的转化;关键字重新构造;汇总;日期/时间转化③数据整合和合并:数据整合和合并是将相关的源数据组合成一致的数据结构,装入数据仓库。
④如何实施转换:自己编写程序实现数据转换;使用转换工具(3)数据装载①数据装载方式:基本装载:按照装载的目标表,将转换过的数据输入到目标表中去。
追加:如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。
破坏性合并:用新输入数据更新目标记录数据。
建设性合并:保留已有的记录,增加输入的记录,并标记为旧记录的替代。
②数据装载类型:最初装载:这是第一次对整个数据仓库进行装载。
增量装载:由于源系统的变化,数据仓库需要装载变化的数据。
完全刷新:这种类型的数据装载用于周期性重写数据仓库。
(4)ETL工具:数据转换引擎;代码生成器;通过复制捕获数据13、*元数据元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。
分类:关于数据源的元数据;关于数据模型的元数据;关于数据仓库映射的元数据;关于数据仓库映射的元数据;关于数据仓库使用的元数据。
14、OLAP的概念OLAP是在OLTP的基础上发展起来的。
OLTP是以数据库为基础的,OLAP是以数据仓库为基础的数据分析处理。
它有两个特点:一是在线性(On Line),由客户机/服务器这种体系结构来完成的;二是多维分析,这也是OLAP的核心所在。
OLAP理事会给出的定义:联机分析处理(OLAP)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。
OLAP的简单定义:联机分析处理是共享多维信息的快速分析。
它体现了四个特征:(1)快速性:用户对OLAP 的快速反应能力有很高的要求。
(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。
(3)多维性:系统必须提供对数据分析的多维视图和分析。
(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。
15、OLAP的基本概念OLAP是针对特定问题的联机数据访问和分析。
(1)变量:变量是数据的实际意义,即描述数据“是什么”。
(2)维:维是人们观察数据的特定角度。
如产品维、顾客维、时间维等。
(3)维的层次:数据的细节不同程度为维的层次。
如日、月、季、年是时间维的层次。
(4)维成员:维的一个取值称为该维的一个维成员。
如“某年某月某日”是时间维的一个成员。
(5)多维数组:一个多维数组可以表示为:(维1,维2,……,维n,变量)(6)数据单元(单元格):多维数组的取值称为数据单元。
16、*MOLAP数据模型MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,采用类似于多维数组的结构。
17、*ROLAP数据模型ROLAP是基于关系数据库的OLAP。
它是一个平面结构,用关系数据库表示多维数据时,采用星型模型18、MOLAP和ROLAP的对比MOLAP和ROLAP在技术上各有优缺点。
MOLAP以多维数据库为核心,在数据存储和综合上有明显优势,但它不适应太大数据存储,特别是对有大量稀疏数据的存储将会浪费大量的存储空间。
ROLAP以RDBMS为基础,利用成熟的技术为用户的使用和管理带来方便。
19、*OALP的多维数据分析(1)切片:选定一个多维数组的一个二维子集叫做切片。
(2)切块:在多维数组的某一个维上选定某一区间的维成员的操作;选定多维数组的一个三维子集的操作。
(3)钻取:取有向下钻取(drill down )和向上钻取(drill up )操作。
向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。
向上钻取获取概括性的数据。
(4)旋转:通过旋转可以得到不同视角的数据。
旋转操作相当于平面数据将坐标轴旋转。
20、*数据仓库分析与设计(1)需求分析:需要确定如下问题:确定主题域;支持决策的数据来源;数据仓库的成功标准和关键性能指标;数据量与更新频率。
通过需求分析,需要的数据包括:数据源;数据转换;数据存储;决策分析。
(2)概念模型设计:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,既概念模型。
概念模型的特点是:①能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
②易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。