数据立方体计算与数据泛化
数据挖掘05数据立方体

(2)通过访问立方体单元,计算聚集。
可以优化访问单元组的次序,使得每个单元被访问的次数 最小化,从而减少内存访问和磁盘I/O的开销。
完全立方体计算的多路数组聚集方法(2)
一个包含A,B,C的3-D数组,假定维A,B,C的基数分别是40、400和 4000
8-12-76
28-7-75
25-8-70 …
Residence
3511 Main St., Richmond 345 1st Ave., Richmond
125 Austin Ave., Burnaby …
Phone # GPA 687-4598 3.67
253-9106 3.70
闭立方体 (1)
冰山方体的计算通过冰山条件(例:HAVING COUNT(*) >= min_sup)来减轻计算数据立方 体中不重要的聚集单元的负担,然而仍有大量 不感兴趣的单元需要计算
比如:最小支持度为10,假定100维的数据立方体 有两个基本方体:{(a1,a2,a3,…,a100):10, (a1,a2,b3,…,b100):10},假设冰山条件为最小支持度 10
数据立方体计算与 数据泛化(2)
数据泛化
数据泛化
通过将相对层次较低的值(如属性age的数值)用较高层次 的概念(如青年、中年、老年)置换来汇总数据
1
2
概念层
3
(青年,中年,老年)
4
5
(17,18,19,…,34,35,36,…,56,57,…)
主要方法:
数据立方体(OLAP使用的方法) 面向属性的归纳方法
哪个是多路数组聚集 的最佳遍历次序?
(完整版)数据挖掘概念课后习题答案

�数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可 能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和 基于相似性的数据分析
1.9列举并描述说明数据挖掘任务的五种原语。
五种原语是:
�任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据 库、数据库表、或数据仓库,其中包括包含关系数据、选择关系数据的 条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。
�关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:
major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]
其中,X是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
�分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型 或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效 的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的 数字型数据的值。
面向市场营销与风险分析的多维数据展现工具

面 向市场 营销 与风 险分析 的 多 维 数 据 展 现 工 具
南京银行股份有限公司信息技术部总经理 余宣杰 南京银行 股份有 限公司信息技术部 姜欣荣 随着信息技术的不断发展 ,银行业积累了相当庞大 立 主题 化 的数 据集市 ,面 向市场营销 与J x L 险分 析实现
为了方便非 I T人员在制定商 业银行的营销方 案 、
风险分析决策等过程 中灵活地获取数据支撑 ,本文基于
多维 数 据 结 构 就 全 方 位 信 息 支 撑 应 用模 式 进 行 理 沦探
三 、案 例 分析
1 . 市场营销
小企业部 为了提高对公客户的业 务办理效率,针对
索 ,通过数据指标统一管理 、主题数据集市建没与数据 预处理等手段 ,并 实现支持多维数据钻取的数据展现工 具 ,具有 以下优点 。
5 2 F A N c I A L c 0 M p u T E R 。 F c H N l A
啊 噬
图 2多维展 现工具应用流 程
再 次 ,选 取合 适 的 分 析维 度 ,通过 调 整 分 析指 标 的 层 次 顺 序 ,进 行数 据 信 息 挖掘 ,如 评 比不 同年 份 的 各分 支机 构 经营 开 展 成 果 ,或 是 分析 各分 支机 构 历 年 来 经营
的数据资源,走在以网络化和数字化为基本特征的信息 T + I 的 数据 分析 与 应 用 。
时代前沿。为了更好地推广各种经营活动 ,提高产品创
一
新能力 , 各 家银 行 都开 展 了数 据挖 掘 技术 的研 究 。 时, 为 了提 高经 营 管 理 水平 ,银 行业 将 数 据 分析 对 象 首 先 聚
为 了提 升 处理 效率 ,硬件 资源 的 升级 与软 件 算 法 的 统 计分析 , 即提供 泛化汇 总 、 细化 F钻 、 切 换视 角等功 能
数据导入与预处理技术复习

数据导⼊与预处理技术复习数据导⼊与预处理技术复习笔记本⽂由本⼈学习过程中总结,难免有纰漏,欢迎交流学习第1章为什么需要数据处理本章内容将涵盖以下⼏个⽅⾯:为什么需要数据处理关于数据科学的六个简单处理步骤,包括数据清洗;与数据预处理相关的参考建议对数据清洗有帮助的⼯具⼀个关于如何将数据清洗融⼊整个数据科学过程的⼊门实例在数据分析、挖掘、机器学习或者是可视化之前,做好相关的数据预处理⼯作意义重⼤。
这个数据预处理的过程不是⼀成不变的,是⼀个迭代的过程,在实际的⼯作中,需要不⽌⼀次的执⾏数据预处理。
所采⽤的数据挖掘或分析⽅法会影响清洗⽅式的选取。
数据预处理包含了分析所需要的各种处理数据的任务:如交换⽂件的格式、字符编码的修改、数据提取的细节等。
数据导⼊、数据存储和数据清洗是数据预处理中密切相关的技术。
搜集原始数据->存储->数据清洗->存储->增量搜集数据->合并存储数据->数据挖掘(⼤数据、⼈⼯智能)->数据可视化;有三种处理⽅案可以选择:什么都不处理:忽略这些错误数据,直接开始构建线形图。
如果直接数据可视化,这样的结果是,有⽤的数据被掩盖了。
修正数据:算出错误消息的正确数据,采⽤修订后的数据集来可视化。
扔掉错误数据:放弃错误数据。
为了在选项⼆和三之间做个选择,计算错误数据实际上这些只占到了数据量的百分之⼀。
因此,选择选项三,扔掉这些数据。
利⽤Google的Spreadsheets能在初始数据中缺少⽇期的情况下,在x轴⾃动进⾏零值数据补齐,创建线性图或者条状图。
在以上的数据集中,需要补齐的零值就是所缺失的数据。
1.6 ⼩结从以上的实例看出,数据预处理占了整个过程的80%的⼯作量;数据预处理是数据科学过程的关键部分,不仅涉及对技术问题的理解,还需要做出相应的价值判断;第⼆章数据预处理为什么对数据进⾏预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层⽣成脏数据不完整缺少数据值;缺乏某些重要属性;仅包含汇总数据;e.g., occupation=""有噪声包含错误或者孤⽴点e.g. Salary = -10数据不⼀致e.g., 在编码或者命名上存在差异e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C”e.g., 重复记录间的不⼀致性e.g., Age=“42” Birthday=“03/07/1997”不完整数据的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素⼈为/硬件/软件问题噪声数据(不正确的值)的成因数据收集⼯具的问题数据输⼊时的⼈为/计算机错误数据传输中产⽣的错误数据不⼀致性的成因不同的数据源违反了函数依赖性数据预处理为什么是重要的?没有⾼质量的数据,就没有⾼质量的挖掘结果⾼质量的决策必须依赖⾼质量的数据e.g. 重复值或者空缺值将会产⽣不正确的或者令⼈误导的统计数据仓库需要对⾼质量的数据进⾏⼀致地集成数据预处理将是构建数据仓库或者进⾏数据挖掘的⼯作中占⼯作量最⼤的⼀个步骤数据质量的多维度量⼀个⼴为认可的多维度量观点:精确度完整度⼀致性合乎时机可信度附加价值可解释性跟数据本⾝的含义相关的内在的、上下⽂的、表象的以及可访问性数据预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤⽴点,解决不⼀致性数据集成集成多个数据库、数据⽴⽅体或⽂件数据变换规范化和聚集数据归约得到数据集的压缩表⽰,它⼩得多,但可以得到相同或相近的结果数据离散化数据归约的⼀部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要基本统计类描述的图形显⽰常⽤的显⽰数据汇总和分布的⽅法:直⽅图、分位数图、q-q图、散布图和局部回归曲线直⽅图:⼀种单变量图形表⽰⽅法将数据分布划分成不相交的⼦集或桶,通常每个桶宽度⼀致并⽤⼀个矩形表⽰,其⾼度表⽰桶中数据在给定数据中出现的计数或频率数据清理任务填写空缺的值识别离群点和平滑噪声数据纠正不⼀致的数据解决数据集成造成的冗余空缺值数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,⽐如销售表中的顾客收⼊引起空缺值的原因设备异常与其他已有数据不⼀致⽽被删除因为误解⽽没有被输⼊的数据在输⼊时,有些数据应为得不到重视⽽没有被输⼊对数据的改变没有进⾏⽇志记载空缺值要经过推断⽽补上如何处理空缺值忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分⽐变化很⼤时,它的效果⾮常差。
《大数据导论》简答题与答案

《大数据导论》简答题与答案1.人类社会的数据产生方式经历了哪些阶段?简述各阶段的特点。
人类历史上从未有哪个时代和今天一样产生如此海量的数据,人类社会的数据产生方式大致经历了3个阶段:运营式系统、用户原创内容阶段、感知式系统阶段。
(1)运营式系统:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。
人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始,这些数据规范、有秩序、强调数据的一致性,且这些数据的产生方式是被动的。
(2)用户原创内容阶段:互联网的诞生促使人类社会数据量出现第二次大的飞跃,但真正的数据爆发产生于Web2.0时代,其重要标志就是用户原创内容。
以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;新型移动设备出现,易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性,这些数据的产生方式是主动的。
(3)感知式系统:人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感知式系统的广泛使用。
微小带着处理功能的传感器设备广泛布置于社会的各个角落,通过这些设备对整个社会的运转进行监控,这些设备会源源不断地产生新数据,这些数据的产生方式是自动的,数据呈现多源异构、分布广泛、动态演化等。
简单来说,数据产生经历了被动、主动和自动三个阶段,这些被动、主动和自动的数据共同构成了大数据的数据来源。
2. 大数据处理的关键技术都有哪些?并做简要描述。
大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算处理、数据分析和挖掘、数据可视化展示等。
1).数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
《数据挖掘》教学大纲

《数据挖掘》教学大纲一、课程的性质、目的与任务数据挖掘是综合了机器学习、统计和数据库的一门现代计算机技术,旨在发现海量数据中的模型与模式,具有巨大的应用前景。
在很多重要的领域,数据挖掘都发挥着积极的作用。
因此这门课程是计算机专业及相关专业的重要课程之一。
《数据挖掘》课程是计科专业与软工专业的专业任选课程,通过本课程的学习使学生掌握数据挖掘的基本概念,了解数据挖掘的定义和功能以及实现数据挖掘的主要步骤和具体实现方法,初步掌握数据挖掘的算法。
使同学们在学习本课程后,能实现简单的数据挖掘算法编程,了解实现数据挖掘的具体操作。
通过本课程的学习,要求学生达到:1.了解数据挖掘技术的整体概貌2.了解数据挖掘技术的主要应用及当前的研究热点问题和发展方向3.掌握最基本的概念、算法原理和技术方法二、课程教学基本内容与要求第一章引言(一)基本教学内容1.1什么激发了数据挖掘,为什么它是重要的1.2什么是数据挖掘1.3对何种数据进行挖掘1.4数据挖掘功能——可以挖掘什么类型的模式1.5所有模式都是有趣的吗1.6数据挖掘系统的分类1.9数据挖掘的主要问题(二)基本要求教学目的:掌握数据挖掘的基本概念、理解数据挖掘的形成与发展过程、了解数据挖掘的数据对象、了解数据挖掘所具有的功能。
教学重点:重点讲解数据挖掘的功能教学难点:数据挖掘功能第二章数据预处理(一)基本教学内容2.1 为什么要预处理数据2.2 描述性数据汇总2.3 数据清理2.4 数据集成和变换2.5 数据归约2.6 数据离散化和概念分层产生(二)基本要求教学目的:了解数据预处理的原因,掌握数据预处理的方法。
教学重点:数据清理、数据集成和变换、数据归约、数据离散化和概念分层教学难点:数据归约、数据离散化和概念分层第三章数据仓库与OLAP技术概述(一)基本教学内容3.1 什么是数据仓库3.2 多维数据模型3.3 数据仓库的系统结构3.4 数据仓库实现3.5 从数据仓库到数据挖掘(二)基本要求教学目的:理解数据仓库的概念,了解数据仓库的多维数据模型,理解数据仓库的系统结构,掌握数据立方体的有效计算。
数据预处理(完整步骤)

数据预处理(完整步骤)原⽂:/5009.html⼀:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不⼀致)(2)没有⾼质量的数据,就没有⾼质量的挖掘结果(⾼质量的决策必须依赖于⾼质量的数据;数据仓库需要对⾼质量的数据进⾏⼀致地集成)(3)原始数据中存在的问题:不⼀致 —— 数据内含出现不⼀致情况重复不完整 —— 感兴趣的属性没有含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据⾼维度⼆:数据预处理的⽅法(1)数据清洗 —— 去噪声和⽆关数据(2)数据集成 —— 将多个数据源中的数据结合起来存放在⼀个⼀致的数据存储中(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式(4)数据规约 —— 主要⽅法包括:数据⽴⽅体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
(5)图说事实三:数据选取参考原则(1)尽可能富余属性名和属性值明确的含义(2)统⼀多数据源的属性编码(3)去除唯⼀属性(4)去除重复属性(5)去除可忽略字段(6)合理选择关联字段(7)进⼀步处理:通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不⼀致数据,去掉数据中的噪⾳、填充空值、丢失值和处理不⼀致数据四:⽤图说话,(我还是习惯⽤统计图说话)数据清洗的路⼦:刚拿到的数据 —-> 和数据提供者讨论咨询 —–> 数据分析(借助可视化⼯具)发现脏数据 —->清洗脏数据(借助MATLAB 或者Java/C++语⾔) —–>再次统计分析(Excel的data analysis不错的,最⼤⼩值,中位数,众数,平均值,⽅差等等,以及散点图) —–> 再次发现脏数据或者与实验⽆关的数据(去除) —–>最后实验分析 —-> 社会实例验证 —->结束。
⼀数据清理试图填充缺失值,光滑噪声并识别离群点,并纠正数据中的不⼀致。
1)处理缺失值⽅法:a.忽略元祖,挖掘任务涉及分类任务中如果缺少类标号时通常这样做b.⼈⼯填写缺失值,量⼤时⾏不通c.使⽤⼀个全局常量填充缺失值,简单但不可靠d.使⽤属性的均值填充缺失值e.使⽤与给定元组属同⼀类的所有样本的属性均值f.使⽤最有可能的值填充缺失值,可以⽤回归,使⽤贝叶斯形式化的基于推理的⼯具或决策树归纳确定,是流⾏的做法。
参考答案of数据挖掘

笫一章卜列JS于数据挖掘任务的是<)根据性别划分公司的顾客计斃公司的总销傅额预測一对股子的结果利用历史记录预测公司的未來股价吋以在不同维度合并数据.从而形成数据立方体的足()数据库数据祿数据仓库数据库系统目的足缩小数据的取值范用•使其更适合于数据挖掘以浓的需要.井且能够得到和原始数据相同的分析结果的足()数据清洗数据集成数据变换数据归約卜谜四种方法嘛一种不足雷见的分类方法(〉决第树支持向fitK-Xeans (聚类)朴素贝叶斯分类卜列任务中.朋于数据挖掘技术在商务智能方面应用的足()欺诈检测垃圾邮件识别根据因特网的捜索引擎伍找特定的Web页面定向营销舁常检测的应用包括()网络攻击预测某股票的未来价格计算公司的总带會额根据性别划分公司顾客将原始数据进行集成.变换.维度规约、数值规约足哪个步驟的任务(〉猿繁模式挖掘分类和预测数据预处理数据流挖掘KDD是(数据挖掘9知识发现)卜列有关离群点的分析错谦的足(〉-纓宿况卜离群点会被肖作唤声而去弃离群点即足噪声数据在荣些待殊应用中离群点有特殊的总义信用卡在不常消费地区突然消费人壇金额的现盘属于离群点分析范畸卜列关于模式识别的相关说法中错谓的足(〉模式识别的本质足抽象出不同爭物中的模式并由此对爭物进行分类医疗诊断属干模式讲别的研宛内容之一F机的描纹解镇技术不属r模式识别的应用门然语育理解也包含模式识别何题()不属干数据挖抿的应用领域。
商务智能信息识别I搜童引鼻医疗诊斷目前数据分析和数据挖掘而临的挑战性何题不包括(〉数据类型的多样化高维度数据离群点数据分析与挖掘结果对视化常见的机器学习方法有监悴学习.无监怦学r监悴学习数据挖掘足从人规模的数据中抽1R或挖掘出感兴趣的知识或模式的过程或方法&施紫模式足描数据集中频緊出现的蟆式X肉群点足描全局或者局部范用内偏离一履水平的观测对盘联机分析处理足数据仓库的主要应用分类是措通过建立模型预测离散标签.I叩丿I足通过建立连续值模型推断新的数据的某个数值型属性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
湘潭大学商学院 管理科学与工程 韦波
第一节 数据立方体计算的有效方法
湘潭大学商学院 管理科学与工程 韦波
1、不同类型立方体物化的路线图 数据立方体有利于多维数据的联机分析处理。本节将完全立方体物 化与部分立方体物化的各种策略进行比较。为完整起见,我们首先回 顾设计数据立方体的基本术语。 ■ 立方体物化 数据立方体是方体的格。每个方体用一个group-by表示。基本方 体是数据立方体中泛化程度最低的方体,泛化程度最高的方体是顶点 方体,通常用all表示。它包含一个值,对于存放在基本方体中的所有 元组聚集度量M。对立方体下钻,就是从顶点方体沿方体格向下移动; 上卷就是从基本方体向上移动。 本章讨论的目的是使用术语数据立方体的格而不是单个方体。 基本方体的单元是基本单元,非基本方体的单元是 聚集单元。聚集单元在一个或多个维聚集。
第四章 数据立方体的计算与数据泛化
本章,我们将更详细的考察描述性数据挖掘。描述性数据挖掘,它以简洁 和汇总的方式描述数据,并提供数据有趣的一般性质。 本章内容主要包括三节: 第一节:考察如何有效地在不同的抽象层计算数据立方体,深入考察 数据立方体计算的具体方法。 第二节:提供OLAP和数据立方体的进一步探查方法。 第三节:介绍另一种数据泛化方法,面向属性的归纳。
湘潭大学商学院 管理科学与工程 韦波
为了系统的压缩数据立方体,需要引入闭覆盖的概念。一个单元c 是闭 单元,即如果不存在单元d使得d是单元c的特殊化(后代)(即d通过将 c中的*值用非*值替换),并且d与c具有相同的度量值。闭立方体是一个 仅由闭单元组成的数据立方体。 部分物化的另一种策略是仅预计算涉及少数维(如3到5个维)的方体, 这些方体形成对应数据立方体的外壳,对附加的维组合的查询必须临 时计算。
湘潭大学商学院 管理科学与工程 韦波
5、为快速高维OLAP预计算壳片段 数据立方体有利于多维数据空间的快速联机分析。然而,高维的完全数据 立方体需要海量存储空间和不切实际的计算时间。冰山立方体提供了一个更 可行的替代方案,正如我们已经看到的那样,其中冰山条件用来指定只计算 完全立方体单元的一个子集。然而冰山立方体有如下的一些缺点: 第一、冰山立方体本身的计算和存储的开销仍然可能很高;第二,很难确 定合适的冰山阙值;第三,冰山立方体不可能增量的更新,一旦一个聚集单 元低于冰山阙值,就被剪枝,它的度量值就丢失,任何增量更新都需要从头 重新计算。 一种可能的替代方法是计算一个薄的立方体外壳。例如,可以计算一个60维 的数据立方体中的具有3维或更少维的所有方体,导致厚度为3的立方体外壳。 然而,这种方法有两个缺点。第一:需要计算的方体其实很多的。第二,这 种方体不支持高维OLAP。
湘潭大学商学院 管理科学与工程 韦波
聚集单元在一个或多个维聚集,其中每个聚集维用单元记号中的*指示。 聚集的维数不同,单元之间可能存在祖先-子孙关系。 为了确保联机分析处理,有时希望预计算整个立方体,但是,预计算 整个立方体需要海量空间,常常超过存储容量。尽管这样,完全立方 体计算的算法仍然很重要。部分物化则在存储空间和OLAP的响应时间 之间提供了有趣的折衷。冰山立方体就是一种部分物化的方法,这种 方法只对满足阙值的方体物化。 冰山立方体的SQL查询: computer cube sales_iceberg as Select month,city,customer_group,count(*) From salesinfo Cube by month,city,customer_group Having count(*) ﹥﹦min_sup
湘潭大学商学院 管理科学与工程 韦波
3、BUC:从顶点方体向下计算冰山立方体 BUC是一种计算稀疏冰山立方体的算法。与Multiway不同,BUC从顶 点方体向下到基本方体,构造立方体。这允许BUC分担数据划分开销。 这种处理次序也允许BUC在构造立方体时使用Apriori性质进行剪枝。 BUC代表“自底向上构造”(Bottom-UP construction),然而,BUC的 处理次序实际上是自顶向下!BUC的作者以相反的次序观察方体的格, 顶点方体在底部,而基本方体在顶部。从这种角度,BUC确实是自底向 上构造。然而,由于我们采用应用观点,下钻表示从顶点方向下到基本 方体,因此BUC的探查过程视为自顶向下。 我们来解释下BUC算法。初始,用输入关系(元组集)调用该算法。 BUC聚集整个输入并输出结果总数。对于每个维,输入沿维划分。检查 划分的最小支持度。也就是说,如果划分中的元组数满足最小支持度。
湘潭大学商学院 管理科学与工程 韦波
4、Star-cubing:使用动态星形树结构计算冰山立方体 star-cubing结合了我们已经研究过的其他方法的优点。它集成自顶向下和 自底向上立方体计算,并利用多维聚集。它从一个称作星形树的数据结构操 作,进行无损数据压缩,从而降低计算时间和内存需求量。 star-cubing算法利用自底向上和自顶向下的计算模型如下:对全局计算次 序,它使用自底向上模型。然而,它下面还有一个基于自顶向下的子层,利 用共享维的概念。这种集成允许算法在多个维上聚集,而仍然划分父分组并 剪裁不满足冰山条件的子女分组。
湘潭大学商学院 管理科学与工程 韦波
方体树:方体树的每一层代表一个维,每个节点代表一个属性值。每个节点有 4个字段:属性值、聚集值,指向可能后代的指针和指向可能兄妹的指针。方 体中的元组逐个插入树中。一条从根到树叶节点的路径代表一个元组。这种表 示合并了公共前缀,节省内存并允许聚集内部节点的值。利用内部节点的聚集 值,可以进行基于共享维的剪枝。 如果单个维在属性值p上的聚集不满足冰山条件,则在冰山立方体计算中识别 这样的节点没有意义。这样的节点可以用*替换,使方体树可以进一步压缩。 如果单个维在p上的聚集不满足冰山条件,则称属性A的节点p是星节点。 使用星节点压缩的方体树称为星树。
湘潭大学商学院 管理科学与工程 韦波
为了进行划分,BUC扫描输入,聚集元组得到all的计数,对应于单元(*,*, *,*)。使用维A将输入分为4个划分,每个对应于A的一个不同值。A的每个 不同值的元组数(计数)记录在datacount中。 在搜索满足冰山条件的元组时,BUC使用Apriori性质节省搜索时间。从维的 值a1开始,聚集a1的划分为A的分组创建一个元组,对应于单元(a1,*,*,*,). 假设这个满足最小支持度,此时再在这个划分上进行递归调用。通过在每次 递归使用之前检查冰山条件,只要单元计数不满足最小支持度,BUC就节省 大量处理时间。
湘潭大学商学院 管理科学与工程 韦波
我们可以看到,在计算BC方体中,我们已经扫描了64块中的每一块。那么 我们在计算其他方体,如AC、AB等的时候,就可以避免重新扫描所有的 块。这也就是“多路计算”和“同时聚集”思想。
接下来,我们要讨论的问题是,不同的块扫描和方体计算次序对整个数 据立方体的计算效率的影响。这个计算效率主要指在内存的占用方面。
湘潭大学商学院 管理科学与工程 韦波
ALL 剪裁: A/A 剪裁: B/B AD/A C/C D/D
J剪裁: AB/AB
AC/AC BD/B BC/BC CD
ABD/AB
ACD/A
BCD ABC/ABC
ABCD
Star-cubing方法如上图所示。如果我们只遵循自底向上 模型,则star-cubing标记为被剪裁的方体仍然被考察。 Star-cubing能够剪裁指示的方体,因为它考虑共享维。
湘潭大学商学院 管理科学与工程 韦波
我们现在通过一个具体的例子来说明多路数组立方体计算。考虑一个包 含维A、B、C的3-D数组。维A组织成4个相等划分的a0、a1、a2、a3。 维B、C类似地划分成4部分。 ●基本方体 记作ABC(其他方体间接或直接的由它计算)。该方体业已 计算,并对应于给定的3-D数组。 ●2-D方体AB,AC和BC 分别对应于按AB,AC和BC分组。这些方体必 须计算。 ●1-D方体A,B和C,分别对应于按A,B和C分组。这些方体必须计算。 ●0-D方体,记作all,即没有分组。该方体必须计算。它包含一个值。 现在,我们来看一看如何用多路数组技术进行这种计算, 假设我们想计算BC方体中的b0c0块。在块内存中为该 块分配内存,通过扫描ABC的1-4块,计算出b0c0。即 b0c0单元在a0-a3上聚集。然后,块内存分给下一个块 b1c0,在扫描ABC紧接着的4个块5-8后完成b1c0的计 算。如此继续下去。
湘潭大学商学院 管理科学与工程 韦波
2、完全立方体计算的多路数组聚集 多路数组聚集 方法使用多维数组作为基本数据结构,计算完全数据立 方体。它是一种使用数组直接寻址的典型MOLAP方法,其中维值通过位 置或对应数组位置的下标访问。因此,多路数组聚集不能使用任何基于 值的重新排序作为优化技术。 所使用的一种不同的方法是为基于数组的立方体结构开发的: ●将数组分成块。块是一个子立方体,其大小能够放入立方体计算 时可用的内存。分块是一种将n维数组划分成小的n维块的方法,其中每 块作为一个对象存放在磁盘上。 ●通过访问立方体单元(即存取立方体单元的值)计算聚集。 由于分块设计“重叠”某些聚集计算,称该技 术为多路数组聚集,它进行同时聚集——即同 时对多个维计算聚集。
湘潭大学商学院 管理科学与工程 韦波
■立方体计算的一般策略 一般,有两种基本数据结构用于存储方体。关系表是关系OLAP实现的 基本数据结构,而多维数组是多维OLAP实现的基本数据结构。尽管 ROLAP和MOLAP可能使用不同的立方体计算技术,但是某些“优化” 技巧可以在不同的数据表之间共享。 下面介绍一些数据立方体有效计算的一般优化技术: ●排序、散列和分组 应当对维属性使用排序、散列和分组操作,以便 对相关元组重新定序和聚类。在立方体计算中,聚集对共享一组相同的 纬值的元组(或单元)进行。这样,重要的是利用排序、散列和分组操 作一起访问和分组这样的数据,以利于聚集的计算。 ●同时聚集和缓存中间结果 在立方体计算中,由先 前计算的较低层聚集计算叫高层聚集,而不是由基 本事实表计算。此外,从缓存的中间计算结果同时 聚集可以减少开销很大的磁盘I/O操作。