数据仓库期末复习总结

合集下载

数据库基础知识整理与复习总结

数据库基础知识整理与复习总结

数据库基础知识整理与复习总结关系型数据库MySQL1、数据库底层MySQL数据库的底层是B+树。

说到B+树,先说下B树,B树也叫多路平衡查找树,所有的叶⼦节点位于同⼀层,具有以下特点:1)⼀个节点可以容纳多个值;2)除⾮数据已满,不会增加新的层,B树追求最少的层数;3)⼦节点中的值与⽗节点的值有严格的⼤⼩对应关系。

⼀般来说,如果⽗节点有a个值,那么就有a+1个⼦节点;4)关键字集合分布在整棵树中;5)任何⼀个关键字出现且只出现在⼀个节点中;6)搜索可能在叶⼦结点结束,其搜索性能等价于在关键字全集做⼀次⼆分查找。

B+树是基于B树和叶⼦节点顺序访问指针进⾏实现,它具有B树的平衡性,并且通过顺序访问指针来提⾼区间查询的性能,⼀个叶⼦节点中的key从左⾄右⾮递减排列。

特点在于:1)⾮叶⼦节点中含有n个关键字,关键字不保存数据,只作为索引,所有数据都保存在叶⼦结点;2)有的叶⼦节点中包含了全部关键字的信息及只想这些关键字记录的指针,即叶⼦节点包含链表结构,能够⽅便进⾏区间查询;3)所有的⾮叶⼦结点可以看成是索引部分,节点中仅包含其⼦树中的最⼤(或最⼩)关键字;4)同⼀个数字会在不同节点中重复出现,根节点的最⼤元素就是B+树的最⼤元素。

MySQL中的InnoDB引擎是以主键ID为索引的数据存储引擎。

InnoDB通过B+树结构对ID建⽴索引,在叶⼦节点存储数据。

若建索引的字段不是主键ID,则对该字段建索引,然后再叶⼦节点中存储的是该记录的主键,然后通过主键索引找到对应的记录。

因为不再需要全表扫描,只需要对树进⾏搜索即可,所以查找速度很快,还可以⽤于排序和分组。

InnoDB和MyISAM引擎都是基于B+树,InnoDB是聚簇索引,数据域存放的是完整的数据记录;MyISAM是⾮聚簇索引,数据域存放的是数据记录的地址。

InnoDB⽀持表锁、⾏锁、间隙锁、外键以及事务,MyISAM仅⽀持表锁,同时不⽀持外键和事务。

InnoDB注重事务,MyISAM注重性能。

数据仓库(简答题复习资料整理)

数据仓库(简答题复习资料整理)

数据仓库(简答题复习资料)(1)数据仓库概念和特点 P12-14数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。

数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。

首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库的功能和特性1 面向主题2 数据的集成性3 数据的稳定性(非易失性)4 数据随时间变化的特性5 多维性数据是带有时间轴的→数据是多维的→形成立方体(Cube)见书P52(2)数据库与数据仓库的区别简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。

维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。

单从概念上讲,有些晦涩。

任何技术都是为应用服务的,结合应用可以很容易地理解。

以银行业务为例。

数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。

数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。

比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。

如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。

数据仓库知识点总结

数据仓库知识点总结

数据仓库知识点总结一、数据仓库概念数据仓库是一个用来集成、清洗、存储和管理企业数据的系统,以支持企业决策制定、分析和商业智能服务。

它是一个面向主题的、集成的、时间性的、非易失的数据集合,用于支持企业决策。

数据仓库是企业数据管理的重要组成部分,它与操作型数据处理系统相辅相成。

数据仓库以不同的视角和角度组织数据,帮助企业管理者对企业整体情况进行全面分析和评估。

二、数据仓库的特点1. 面向主题:数据仓库与传统数据库相比,更加侧重对业务应用的支持,主要面向业务应用的主题而不是基本事务数据,以方便企业管理者进行更好的分析和决策。

2. 集成性:数据仓库集成了来自不同数据源的数据,将数据统一管理,并且进行了数据清洗和转换,确保数据的一致性和准确性。

3. 时态性:数据仓库中的数据具有时间性,可以保存历史数据,能够支持分析历史数据的趋势和变化。

4. 非易失性:数据仓库中的数据不会丢失,可以持久保存,并且根据需要定期备份,确保数据的安全和可靠。

5. 大数据量和复杂性:数据仓库通常包含大量的数据,并且数据之间的关系复杂,需要采用专门的数据模型和处理方法来管理和分析。

6. 以支持决策为目标:数据仓库的目标是为企业管理者提供数据支持,帮助他们更好地了解企业的经营状况和趋势,以支持企业决策。

三、数据仓库架构数据仓库架构包括了多个重要组成部分,主要包括数据提取、数据清洗、数据转换、数据加载、元数据管理和数据查询分析等。

1. 数据提取:数据提取是指从各个数据源中将需要的数据提取出来,数据源可以包括企业内部的数据库、文件系统、应用系统等,也可以包括外部数据源,如公共数据等。

2. 数据清洗:数据清洗是指对提取的数据进行清洗和规范,包括去重、校验、纠错、转换等处理,以确保数据的准确性和一致性。

3. 数据转换:数据转换是指对清洗后的数据进行格式转换、相关联和整合,以便于数据仓库的统一管理和分析。

4. 数据加载:数据加载是将转换后的数据载入数据仓库中,通常包括全量加载和增量加载两种方式,以确保数据的及时性和准确性。

仓库数据分析年终总结

仓库数据分析年终总结

仓库数据分析年终总结在过去的一年里,仓库数据分析在企业的运营管理中发挥了至关重要的作用。

通过对仓库数据的深入挖掘和分析,我们为公司的决策提供了有力支持,优化了仓库管理流程,提高了运营效率和效益。

以下是对过去一年仓库数据分析工作的详细总结。

一、数据来源与收集为了确保数据分析的准确性和全面性,我们从多个渠道收集了仓库相关数据。

这些数据包括但不限于:1、库存管理系统:记录了货物的入库、出库、库存数量、货位信息等基本数据。

2、采购订单系统:提供了采购订单的详情,包括采购数量、供应商信息、预计到货日期等。

3、销售订单系统:包含了销售订单的信息,如销售数量、客户信息、发货日期等。

4、仓库作业记录:如搬运、盘点、分拣等操作的时间、人员和工作量。

通过整合这些数据,我们建立了一个全面的仓库数据仓库,为后续的分析工作奠定了坚实的基础。

二、数据分析的主要内容与成果1、库存周转率分析通过计算库存周转率,我们能够了解库存的流动速度。

经过分析发现,某些产品的库存周转率较低,长期积压在仓库中,占用了大量的资金和空间。

针对这一情况,我们与采购部门和销售部门合作,调整了采购计划和销售策略,成功提高了这些产品的库存周转率,减少了库存成本。

2、库龄分析对库龄进行分析,有助于识别长期滞销的库存。

我们发现部分货物的库龄超过了合理期限,存在质量下降和价值损耗的风险。

基于此分析结果,我们采取了促销、退货或报废等措施,降低了库存减值的风险。

3、货位优化分析通过对货物出入库频率和数量的分析,结合仓库的布局和设备情况,我们提出了货位优化方案。

重新规划了货位分配,使得货物的存取更加便捷高效,减少了仓库作业的时间和成本。

4、缺货预警分析建立了缺货预警模型,当库存数量低于安全库存水平时,及时发出预警信号。

这使得采购部门能够提前进行补货,避免了因缺货导致的销售损失和客户满意度下降。

5、成本分析对仓库运营成本进行了详细分析,包括仓储租金、设备折旧、人力成本、物流费用等。

数据仓库期末复习总结

数据仓库期末复习总结

数据仓库期末复习总结自然抽取的缺点:①数据缺乏可信性(原因:数据无时间基准,数据算法上的差异,抽取的多层次问题,外部数据问题,无公共起始数据源);②生产率低下(多个数据来源导致数据定位复杂,数据处理过程复杂);③无法将数据转换为信息(面临众多未集成的遗留系统,没有存储足够的能够满足DSS分析员需求的历史数据)多重粒度:图幅的比例尺大小,投影方式,数据采集的精度,数据的时间空空间分辨力,系统功能等来合理划分不同的粒度。

确定粒度的级别:①合理推测粒度级别。

②预测不同结构体系的需求。

数据仓库与OLAP:OLAP应用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速地进行评价。

数据挖掘:数据挖掘:从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。

常用的数据挖掘的方法:大多属于数学统计方法或人工智能中的机器学习算法以及人工神经网络/遗传算法:概念/类描述,关联规则挖掘,序列模式分析,分类分析,聚类分析,异常点检测Apriori算法有两个性能瓶颈:①多次扫描事物数据库,需要很大的I/O负载。

②可能产生庞大的候选集。

对象间距离的计算:①明可夫斯基距离。

②二次型距离。

③余弦距离。

④二元特征样本的距离度量。

聚类分析的算法:划分法、层次法、密度法、网格法、模型法OLAP特性:快速性、可分析性、多维性、信息性不用审计的原因:①原先在数据仓库中没有的数据会突然出现。

②当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化。

③当需要审计能力时,数据仓库的备份和恢复限制会发生急剧变化。

④在仓库中审计数据会使仓库中数据的粒度处于最低级别上。

原始数据与导出数据的区别:原始数据/操作型数据:面向应用,详细的,在访问瞬间是准确的,为日常工作服务,可更新,重复运行,处理需求预先可知,生命周期符合SDLC,对性能要求高,一次访问一个单元,事物处理驱动,就操作性数据更新责任来说更新控制是一个主要关心的问题,高可用性,整体管理,非冗余性,静态结构可变的内容,一次处理的数据量小,支持日常操作,访问频繁导出数据/DSS型数据:面向主题,概要的或精化的,代表过去的数据和快照,为管理者服务,不更新,启发式运行,处理需求事先不知道,完全不同的生命周期,对性能要求宽松,一次访问一个集合,分析处理驱动,无更新控制问题,宽松的可用性要求,以子集管理,总是存在冗余,结构灵活,一次处理数据量大,支持管理需求,访问很少或不多数据集市与数据仓库的关系:数据仓库:一个面向主题的,集成的,非易失的,随时间变化的用来支持决策人员决策的数据集合。

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP 实现。

OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

&操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。

数据仓库就是一个面向主题的(Subject Oriented )、集成的(Integrate )、相对稳定的(Non-Volatile )、反映历史变化(Time Variant )的数据集合,通常用于辅助决策支持。

数据仓库-期末考试复习题

数据仓库-期末考试复习题

数据仓库-期末考试复习题复思考题(重点)一、单项选择题1)一般信息管理中,采用哪种方式的概念模型最多A。

ce模型B.实体-关系模型C.02O模型D.B/S模型(2)在关系表中,下列哪种属性不能承担主列关键字(Key)?A.身份证号B.银行卡号C.加密电文D.企业标识码(3)数据仓库的生命周期中,不包含下列哪个阶段?A.规划分析阶段B.设计实施阶段C.使用维护阶段D.反馈提升阶段(4)多维切片是指:A.在多个维度上观察全员操作B.多个成员的操作片段C.旋转数据集的部分维度D.在线分析或联机分析(5)一般信息管理中,采用哪种方式的分布式物理模型最多A。

ce模型 B.实体-关系模型C.02O模型D.B/S模型(6)在关系表中,下列哪种属性可以成为外键(Key)?A.客户信用程度B.银行卡行号C.加密的身份证号D.实体商户地址(7)数据仓库的生命周期中,不包含下列哪个阶段排在第三阶段?A.规划分析阶段 B.设计实施阶段 C.使用维护阶段D.反馈提升阶段(8)多维报表是指:A.在多个维度上观察全员操作B.分歧维度花式分歧叠加展示C.旋转数据集的部分维度D.在线阐发或联机阐发(9)数据表的多维索引的感化是:A.使数据表更节省存储空间B.加快数据存储速率C.表格花式美观大方C.加快数据查找效率10)de布局中的MAP职能是?A.钻取B.汇聚C.分发D.结晶11)下列哪种客户需求能够直接成为数据堆栈的多维报表?A.客户销售业绩清单B.客户根本名册C.客户关系图表D.客户反馈信息(12)数据堆栈开辟强调哪种主体特征?A.信息安全性B.业务流程C.操作事务性D.数据实时性(13)数据仓库与数据库系统相比,更加提倡:A.空间换时间B.数据范式更严格C.冗余度更小C.更加适用于分布式结构(14)透视表属于OLAP中的哪种能力范畴?A.存储本领B.展示本领C.稳定性本领D.安全性本领(15)OLAP的系统布局分为:A.胖客户端系统和瘦客户端系统B。

数据库原理最新期末考试必背知识点

数据库原理最新期末考试必背知识点

名词解释数据:数据是描述事物的符号记录,是数据库中存储的基本对象。

(数据是描述现实世界的各种信息的符号记录,是信息的载体,是信息的具体表现形式,其具体的表现有数字、文字、图形、图像、声音、语言等。

)数据项:数据项也称为分量,是数据库中可以命名的最小逻辑数据单位,指某个元组对应列的属性值,用来描述属性的数据。

实体: 客观存在并可以相互区别的事物称为实体。

实体集:实体集是性质相同的同类实体的集合,也叫实体整体。

字段:一个成员,它表示与对象或类关联的变量;在数据库中,大多数时,表的“列”称为“字段”。

域:域是一组具有相同数据类型的值的集合。

(属性的取值范围来自某个域。

)信息:信息是现实世界事物存在的方式或运动状态,是一种已经被加工为特定形式的数据。

数据库:(存放数据的仓库)数据库是长期存储在计算机内、有组织的、可共享的数据集合。

(P4-5)数据管理:对数据进行分类、组织、编码、存储、检索和维护,是数据处理的中心问题。

数据操作:对数据库中各种对象(型)的实例(值)允许执行的操作的集合包括操作及有关的操作规则。

DBMS (数据库管理系统): 数据库管理系统是操纵和管理数据库的一组软件,它是数据库系统(DBS)的重要组成部分,位于用户和操作系统之间,用于建立、运用和维护数据库,具有定义、建立、维护和使用数据库的功能。

(是位于用户与操作系统之间的一层数据管理软件)DBA:是“数据库管理员”的简称,是数据库系统中的高级用户,全面负责数据库系统的管理、维护、正常使用等工作。

数据结构:描述数据库的组成对象以及对象之间的联系。

(也就是说,数据结构描述的内容有两类:一类是与对象的类型、内容、性质有关的,一类是与数据之间联系有关的对象。

)实体型:用实体名及其属性名集合来抽象和刻画同类实体,称为实体型。

属性:属性是实体所具有的某一特性。

描述实体的特征。

主属性:包含在任何一个候选码中的属性称为主属性。

外码:属性或属性组X不是关系模式R的码(既不是主码也不是候选码),但X是另一个关系模式的码,则称X是R的外部码,也称外码。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自然抽取的缺点:①数据缺乏可信性(原因:数据无时间基准,数据算法上的差异,抽取的多层次问题,外部数据问题,无公共起始数据源);②生产率低下(多个数据来源导致数据定位复杂,数据处理过程复杂);③无法将数据转换为信息(面临众多未集成的遗留系统,没有存储足够的能够满足DSS分析员需求的历史数据)多重粒度:图幅的比例尺大小,投影方式,数据采集的精度,数据的时间空空间分辨力,系统功能等来合理划分不同的粒度。

确定粒度的级别:①合理推测粒度级别。

②预测不同结构体系的需求。

数据仓库与OLAP:OLAP应用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速地进行评价。

数据挖掘:数据挖掘:从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。

常用的数据挖掘的方法:大多属于数学统计方法或人工智能中的机器学习算法以及人工神经网络/遗传算法:概念/类描述,关联规则挖掘,序列模式分析,分类分析,聚类分析,异常点检测Apriori算法有两个性能瓶颈:①多次扫描事物数据库,需要很大的I/O负载。

②可能产生庞大的候选集。

对象间距离的计算:①明可夫斯基距离。

②二次型距离。

③余弦距离。

④二元特征样本的距离度量。

聚类分析的算法:划分法、层次法、密度法、网格法、模型法OLAP特性:快速性、可分析性、多维性、信息性不用审计的原因:①原先在数据仓库中没有的数据会突然出现。

②当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化。

③当需要审计能力时,数据仓库的备份和恢复限制会发生急剧变化。

④在仓库中审计数据会使仓库中数据的粒度处于最低级别上。

原始数据与导出数据的区别:原始数据/操作型数据:面向应用,详细的,在访问瞬间是准确的,为日常工作服务,可更新,重复运行,处理需求预先可知,生命周期符合SDLC,对性能要求高,一次访问一个单元,事物处理驱动,就操作性数据更新责任来说更新控制是一个主要关心的问题,高可用性,整体管理,非冗余性,静态结构可变的内容,一次处理的数据量小,支持日常操作,访问频繁导出数据/DSS型数据:面向主题,概要的或精化的,代表过去的数据和快照,为管理者服务,不更新,启发式运行,处理需求事先不知道,完全不同的生命周期,对性能要求宽松,一次访问一个集合,分析处理驱动,无更新控制问题,宽松的可用性要求,以子集管理,总是存在冗余,结构灵活,一次处理数据量大,支持管理需求,访问很少或不多数据集市与数据仓库的关系:数据仓库:一个面向主题的,集成的,非易失的,随时间变化的用来支持决策人员决策的数据集合。

数据集市:为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据。

关系:①所以数据集市的结构都依赖于数据仓库中粒度化的数据。

②数据集结构一般是星型模型并且包含事实表和维度表。

③任何数据集市的数据结构与其他数据集市的都不同。

④试图将任何一个数据集市转变为数据仓库都不具有意义。

数据如何从数据仓库到达数据集市?周期性的转移;对于数据仓库中的数据,必须经过选择、访问、重组才能适合数据集市的要求;对于数据仓库中的大量细节数据需要进行多种不同的计算;重要问题在于:访问多少数据和刷新频率。

LOTP与LOAP的区别:随着数据库系统的广泛应用,数据库系统记录和处理的数据越来越多,及时地记录和处理企业的各种业务数据,这些系统称为联机事务处理(OLTP)系统。

数据库技术的广泛应用和技术的发展,人们已经不再满足于仅仅用数据库系统来记录企业的业务活动数据和对数据的简单处理,人们需要对企业活动的数据进行各种分析,以便发现企业业务趋势,这些系统称为联机分析处理(OLAP)系统。

区别:OLTP:数据库原始操作,细节性数据,当前数据,经常性更新数据,一次性处理的数据量少,对相应时间要求高,用户量大,面向操作人员支持日常操作,面向应用事物驱动OLAP:数据库导出数据或数据仓库数据,综合性数据,历史性数据,不可更新但可周期性刷新数据,一次性处理的数据量多,相应时间合理,用户量少,面向决策人员支持管理需要,面向分析分析驱动空间数据仓库:空间数据仓库(SDM)是集成的、面向主题的、相对稳定的、反映时间变化和地理空间变化的空间数据存储,以支持各级管理人员基于空间数据的分析和决策。

关键技术:①支持空间信息的空间数据仓库模型的研究。

②面向海量空间信息的数据存储策略。

③支持空间数据导航的元数据机制。

④面向海量信息高效检索的空间索引机制。

⑤联机分析处理OLAP技术。

数据仓库建设时的逆规范化:数据模型处理的输出是一系列表,每个表包含关键字和属性。

设计生产的许多小表进行连接运算,会造成I/O性能的急剧下降。

较合理的方法是将这些表物理合并,使得I/O代价最小化。

手段:①创建数据数组。

②引入冗余数据。

③当数据访问频率相差悬殊时,将数据作进一步分离。

④引入导出数据减少I/O代价。

⑤建立创造性索引或创造性概要文件。

⑥参照完整性管理。

星型模型与雪花模型的比较:①星型模型通过预连接和建立有选择的数据冗余,为用户的访问和分析过程大大简化了数据。

②星型模型效率比较高,因为雪花模型维表层次多,查询时连接操作较多。

③雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但这种方式可以使系统进一步专业化和实用化,同时降低了系统的通用程度。

④雪花模型的维表可能是规范化形式,以便减少冗余,易于维护,节省存储空间。

选择建议:①星型模型结果效率上优于雪花模型,首选星型模型。

②如果存储空间上存在瓶颈,可考虑雪花模型。

③如果维护方面要求简便性,可考虑雪花模型。

位图索引:位图是一个按序列排列的点阵,每个点对应索引列的不同取值。

位图索引支持低可选择性的查询。

相比B树,占用存储空间更少。

如果有新值加入,位图索引必需重新构建。

在访问位图索引之后总是要访问数据表。

优势:①如果将位图组织为向量组,可以不必加载整个位图,而只获取与查询相关的向量的磁盘页。

②可以非常高效的使用布尔运算符。

Web数据挖掘的定义及特点:Web数据挖掘是从大量的Web文件的集合中发现有用的信息和模式。

特点:①Web数据挖掘的对象是海量的、分散的。

动态地Web文件。

②Web在逻辑上是由文件结点和超链接构成的网络,因此Web数据挖掘的模式可能是关于内容的、结构的或使用的。

③异构的数据环境。

Web页面的复杂性远比任何传统的文本文档复杂得多。

Web上的每一个站点就是一个数据源,每个数据源都是异构的,各自的信息和组织不一样,构成了一个巨大的异构数据环境。

④Web文件是半结构化或无结构的。

每一个站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,没有特定的模型描述。

需要研究统一的语义模型,并解决半结构化或无结构化的数据的抽取技术。

⑤Web上的信息只有很小一部分是相关或有用的。

事实上,一个人只关心Web上的很少一部分信息。

所以其他信息对用户来说是不感兴趣的,而且这些冗余信息的存在可能会淹没用户所希望得到的搜索结果。

K-means算法:优点:是解决聚类问题的一种经典算法,简单快速。

对处理大量数据集,该算法是相对可伸缩和高效率的。

当结果簇是密集的,它的效果较好。

缺点:①在簇的平均值被定义的情况下才能使用,可能不适用与某些应用。

②必须实现给出K,而且对初值敏感。

对于不同的初始值,可能会导致不同的结果。

③不适合于发现非凸面形状的簇或者大小差别很大的簇。

而且,它对于噪声和孤立点的数据是敏感的。

层次聚类算法:优点:可以在不同粒度水平上对数据进行探测,而且容易实现相似度量或距离度量。

缺点:单纯的层次聚类算法终止条件模糊,而且执行合并或分裂簇的操作后不可修正,这很可能导致聚类结果质量很低。

由于需要检查和估量大量的对象或簇才能决定簇的合并和分裂,所以这种方法的可扩展性较差。

通常考虑把层次聚类算法与其他办法相结合来解决实际聚类问题。

元数据:元数据描述数据集管理数据的环境,担任数据仓库的数据组织工作。

元数据常常被定义为“关于数据的数据”。

元数据使最终用户或DSS分析员能够探索各种可能性。

元数据与指向数据仓库的索引相似,处于数据仓库的上层,并且记录数据仓库中对象的位置。

存储的记录:①程序员及DSS分析员所知的数据结构。

②数据仓库的元数据。

③数据进入数据仓库时进行的转换。

④数据模型。

⑤数据模型与数据仓库的关系。

⑥抽取数据的历史记录。

内容:元数据在数据仓库环境主要包括以下方面。

①表结构、表属性、源数据、记录到数据仓库的映射、数据模型说明、抽取日志、访问数据的公用例行程序、数据的定义/描述、数据单元之间的关系。

②可分为业务元数据与义务元数据二类。

作用:①描述什么在数据仓库中。

②制作系统设计文档。

③测量数据品质。

④监视数据同步操作。

⑤规定什么样的数据进入和离开数据仓库。

⑥根据事件时间表安排数据抽取和监视导入工作。

⑦绘制由源系统数据转换为数据仓库数据的映射图。

⑧选择不同级别的数据综合算法。

角色:①在操作型环境中,元数据几乎是事后补记,并归入到与文档相同的重要性级别。

而数据仓库环境中元数据重要性提高。

②二种环境中元数据服务于不同的群体。

操作型服务于IT人员,数据仓库服务于DSS分析人员。

③元数据涉及到对二种环境数据的映射管理。

④数据仓库环境中的元数据需要随时间变化追踪数据结构的变化。

收集:来源于源系统、抽取的数据、转换和清理的数据、装载的数据、存储的数据、信息传递。

维护:元数据的存储、管理和维护。

多维DBMS与数据仓库的区别:多维数据库管理系统提供了一种信息系统结构,这种结构可以使企业灵活地对数据进行访问,可以用多种方法对数据进行切片、分块,动态地考虑汇总数据和细节数据之间的关系。

数据仓库中的细节数据为多维DBMS提供了稳健方便的数据源。

区别:①多维DBMS数据量比数据仓库少了一个数量级。

②数据仓库只适合少量灵活访问,多维DBMS适合大量不可预知的访问和分析。

③数据仓库存储很长时间范围内的数据,多维DBMS存储较短时间范围内的数据,④数据仓库只允许分析人员以受限的形式访问数据,而多维DBMS允许自由访问。

⑤多维DBMS与数据仓库有着互补的关系:数据仓库可以存储非常细节的数据,而多维DBMS中往往会对细节数据进行轻度综合,DSS分析员可以同时获取这二种数据;汇总信息在多维DBMS中计算和聚集后存储在数据仓库中。

多维DBMS可建立在两种基础之上:关系模型和能优化“切片和切块”数据的立方体。

关系模型优点:①能支持大量数据。

②支持数据动态连接。

③已被证实是有效的技术。

④能够支持通用的数据更新处理。

缺点:①性能上不是最佳。

②不能够对访问处理进行优化。

立方体优点:①对DSS处理在性能上是最优的。

②对数据快速访问进行优化。

③如已知数据访问模式,则数据的结构可以优化。

④能够很轻松地进行切片和分块。

相关文档
最新文档