第3章数据泛化

第3章数据泛化
第3章数据泛化

第3章数据泛化

第3章数据综合分类数据挖掘

描述性挖掘:以简明扼要的方式描述数据,并提供有意义的数据一般属性

预测数据挖掘:通过分析数据建立一个或一组模型,并尝试预测新数据集的行为概念描述(一般化):为数据表征和比较生成描述(当所描述的概念涉及类对象时,也称为类描述)

表征:提供给定数据集的简明摘要例如,它可以根据专业表现分布表来区分:它可以提供两个或更多数据集的比较描述。例如,男孩和女孩之间的比较面向属性的

综合:这是一种数据综合方法,它可以在大量数据中找出一般规律。什么是数据一般化?数据库中的数据和对象通常包含原始概念层的详细信息。数据泛化是将数据库中的数据集从较低的概念层抽象到较高的概念层的过程用更高层次的概念替换更低层次的概念。例如:将(XXXX年龄范围值)分别替换为老年人、中年人和年轻人

面向属性归纳的基本步骤,如用省、

1代替地、市两级的概念,数据聚焦,获取初始数据关系2,进行面向属性归纳

是数据归纳。对于具有大量不同值的属性,执行以下操作:属性删除、属性泛化属性泛化控制:控制泛化过程、确定有多少不同值被视为具有大量不同值的属性泛化阈值控制:如果属性的不同值的数量大于属性泛化阈值,则应该进一步删除或泛化该属性广义(广义)关系阈值控

制:如果广义关系中不同元组的数量超过广义(广义)关系阈值,则应该进一步广义化

属性删除适用规则:对于初始工作关系中有大量不同值的属性,满足以下条件。应该使用属性删除:该属性没有泛化运算符(例如,该属性没有定义相关的概念层次结构)。并且该属性的更高级概念由其他属性

表示,例如:名称:要删除的属性电话号码:要删除的属性的属性一般化控制的两种常用方法:属性一般化阈值控制:为所有属性设置一般化阈值或为每个属性设置阈值(通常为2到8)

一般化关系阈值控制:为一般化关系设置阈值以确定一般化关系中不同元组的最大数量(通常为10到30,第4章关联规则挖掘:从事务数据库、关系数据库和其他信息存储中的大型数据项目集中发现有趣且频繁出现的模式,项目之间的关联

应用:购物篮分析、分类设计、捆绑销售和亏损销售分析、病理分析、文本挖掘、网络故障分析和其他

经典关联规则挖掘算法:Apriori算法和FP-growth算法

集I = {i1,I2,...im}作为一组m个不同的项目,每个ik(k=1,2,...,m)称为项目项目集称为项目集,简称为项目集。其元素的数量称为项集的长度,长度为k的项集称为k项集。

我= {面包、奶油、牛奶、茶、蛋糕、啤酒}这家超市卖6种商品。项目集一包含6个项目,项目集一的长度为6。对于项目集{蛋糕,啤酒}包含2个项目,成为2个项目集

每个事务T(事务)是项集I的子集,即T?我,但通常是t?ⅰ每个交易都有一个唯一的标识符——交易号。所有记录为TID的交易构成交易数据库d,或交易记录集d,

简称为交易集d事务集D中包含的事务数记录为|D|表4.1中显示的事务记录集D包含10个事务t1-T10,那么|D|=10在每次交易中,顾客购买的商品集合(即项目集)是所有商品的项目集I的子集

表示项目集x,x?设置计数(X?t)是事务集d中包含X的事务数,那么支持(X)的项集X是项集X出现的概率,从而描述了X的重要性计数(X?支持(十)?项集x的支持度为:|D |

项集最小支持度和频繁项集,为了找到有意义的关联规则,用户给定的项集必须满足的最小支持度阈值称为项集最小支持度,记录为supmin从统计上来说,它表示用户所关心的关联规则必须满足的最小重要性。只能为满足最低支持级别的项目集生成关联规则。

大于或等于supmin的项集称为频繁项集,否则称为非频繁项集。通常,如果k-项集满足supmin,它被称为k-频繁项集,并被记录为lk。关联规则

关联规则可以表示为:r: x?y(读:x与y相关,或y与x相关)其中:x?ⅰ,Y?我,和X∨Y =?

如果r: x?Y是一个关联规则,那么{X,Y}就是一个项目集相反,如果{X,Y}是一个项集,那么X?可以形成一个关联规则例如,{面包,牛奶}是项集,那么R1:{面包}?{milk}是一个关联规则关联规则不一定有意义支持关联规则

关联规则r: x?y,x在哪?ⅰ,Y?我,还有x?Y=?规则r的支持是事务集中同时包含x和y的事务数与所有事务数的比率。计数(X?支持(X?y)?|D|关联规则的可信度

关联规则r: x?y,x在哪?ⅰ,Y?我,还有x?Y=?规则r的可信度是指包含X和y的事务数量与包含X

支持的事务数量的比率(X?信心?y)?支持度(X)

关联规则的最小支持度和最小置信度

关联规则的最小支持度也是度量频繁集的最小支持度,表示为supmin,用于度量规则需要满足的最小重要性。最小置信度为

的规则被记录为confmin,这表示关联规则需要满足的最小可靠性。强关联规则

如果规则x?满意:支持(X?y)?Supmin和确认(x?y)?称为关联规则x。y是一个强关联规则,否则它被称为关联规则x?y是弱关联规则

在挖掘关联规则时,生成的关联规则必须由supmin和confmin来度量,筛选出的强关联规则可以用来指导商家的决策

Apriori属性:频繁项集的所有非空子集也必须是频繁的

(即,如果某个K-项集a是频繁的,则a的所有非空子集都是频繁的)Apriori算法是反单调的,即,如果一个集不能通过测试,则该集的所有超集不能通过与

相同的测试例如,如果{B,C,E}是频繁的,那么它的所有非空子集{B,C}、{B,E}、{C,E}、{B}、{C}、{E}都必须是频繁的。假

设{A,C}不频繁,{A,B,C}也必须不频繁。

因此,对于一个项目集,如果一个子集不频繁,那么该项目集也必须不频繁。从频繁项集

生成的强关联规则同时满足最小支持度和最小置信度。从频繁项集生成的规则满足支持度要求,置信度可以通过以下公式计算: support_count(A?信心?b)?P(A|B)?

第5章数据分类和分类的定义:根据交易特征将给定的交易个体分配到指定的类别把不正常的事情分成正常的过程。分类与预测的区别分类:预测分类标签(离散值),根据训练数据集和类别标签属性建立分类模型,对新数据进行分类。例如,信任度预测的分类问题:预测函数值(连续值),根据训练数据集建立连续函数值模型,然后用该模型计算

分类与新数据聚类之间的差异。1)分类:引导学习2)聚类:无监督学习描述属性可以是连续属性或离散属性。类别属性必须是离散的1、尝试描述数据挖掘的步骤(给出步骤的标题并给出简要说明)

数据挖掘的步骤是:1)数据收集;2)数据预处理;3)数据挖掘;4)评价和表达

2和ODS是什么意思?它的功能是什么?

1)正式文件系统都称为操作数据存储,即操作数据存储。

2)函数:操作数据存储是普通数据仓库体系结构中的可选组件,它与数据仓库

起着补充作用

3,什么是特征化?在面向属性归纳的表征过程中,有两个参数:属性泛化临界值和广义(广义)关系临界值。试着描述这两个参数的重要性

1)特征化:简洁地总结关系模式的给定数据集的过程。(4分)

2)属性泛化阈值控制:为所有属性设置泛化阈值或为每个属性设置阈值(一般为2到8)(2分)泛化关系阈值控制:为泛化关系设置阈值并确定泛化关系中不同元组的最大数量(通常为10-30,在实际应用中应允许调整)(2分)4、描述使用遗传算法的基本步骤(给出步骤标题,并给出简要说明)

1)编码:对要选择的特征进行编号,每个特征是一个基因,一个解决方案是一串基因的组合

9 support _ count(A);2)初始群体的生成:随机生成N个初始字符串结构数据;3)交换:交换操作是遗传算法中最重要的遗传操作;4)适度价值评估和检测:计算交换产生的新个体的适应度;5)选拔:从交流群体中寻找优秀的个人;6)变异;7)暂停

1,描述了ETL的基本概念和主要方法

ETL是数据挖掘的预处理过程,它从分布式异构数据源中提取数据,如关系数据、平面数据文件等。进入临时中间层,清理、转换、集成并最终加载到数据仓库或数据集市,这成为在线分析处理和数据挖掘的基础(4)主要方法有:1)从异构数据源中提取数据

2)数据清洗和转换方法,如空值处理、格式格式化、数据压缩等。

3)索引方法数据加载后(4分)

3,多维数据模型由维度表和事实表组成,请描述维度表和事实表的关系

立方体由维度表和事实表组成,事实表是数据集的主体,由相关属性的主键和数据度量组成,相关属性的主键是维度表的外键(2分),事实表中这些相关属性的外键组合成事实表的主键(2分);事实表中相关属性的外键是相应维度表的主键。(其他综合4分)

4,在SQL server中给出XXXX年龄、姓名)

课程信息表:课程(课程号、课程名、课时)教师信息表:教师(教师号、教师名、职称)要求:

基于维度表-事实表绘制数据仓库的星型结构逻辑模型;图中标明了主键和外键。

?两层数据仓库体系结构

提取提取过程:清理协调导出提取匹配合并删除重复项转换)内部提取(标准化提取提取输出到导出到数据仓库以提取源数据系统(数据阶段区域)

查询结果和挖掘结果的数据显示:加载负载数据仓库数据仓库以填充摘要查询工具报表生成器最终用户应用程序建模和挖掘工具可视化工具唯一的企业级数据仓库数据和元数据存储区域最终用户呈现工具

9

UML类关系(依赖-泛化-关联-聚合-组合-实现)

UML图中类之间的关系:依赖,泛化,关联,聚合,组合,实现 类与类图 1) 类(Class)封装了数据和行为,是面向对象的重要组成部分,它是具有相同属性、操作、 关系的对象集合的总称。 2) 在系统中,每个类具有一定的职责,职责指的是类所担任的任务,即类要完成什么样的 功能,要承担什么样的义务。一个类可以有多种职责,设计得好的类一般只有一种职责,在 定义类的时候,将类的职责分解成为类的属性和操作(即方法)。 3) 类的属性即类的数据职责,类的操作即类的行为职责 依赖关系(Dependence):假设A类的变化引起了B类的变化,则说名B类依赖于A类。 ? 依赖关系(Dependency) 是一种使用关系,特定事物的改变有可能会影响到使用该事物的其他事物,在需要表示一个事物使用另一个事物时使用依赖关系。大多数情况下,依赖关系体现在某个类的方法使用另一个类的对象作为参数。 ? 在UML中,依赖关系用带箭头的虚线表示,由依赖的一方指向被依赖的一方。 1.public class Driver 2.{ 3.public void drive(Car car) 4. { 5. car.move(); 6. } 7.…… 8.} 9.public class Car 10.{ 11.public void move() 12. { 13. ...... 14. }

15.…… 16.} 依赖关系有如下三种情况: 1、A类是B类中的(某中方法的)局部变量; 2、A类是B类方法当中的一个参数; 3、A类向B类发送消息,从而影响B类发生变化; 泛化关系(Generalization):A是B和C的父类,B,C具有公共类(父类)A,说明A是B,C的一般化(概括,也称泛化) ? 泛化关系(Generalization)也就是继承关系,也称为“is-a-kind-of”关系,泛化关系用于描述父类与子类之间的关系,父类又称作基类或超类,子类又称作派生类。在UML中,泛化关系用带空心三角形的直线来表示。 ? 在代码实现时,使用面向对象的继承机制来实现泛化关系,如在Java语言中使用extends 关键字、在C++/C#中使用冒号“:”来实现。

第3章数据泛化

第3章数据泛化 第3章数据综合分类数据挖掘 描述性挖掘:以简明扼要的方式描述数据,并提供有意义的数据一般属性 预测数据挖掘:通过分析数据建立一个或一组模型,并尝试预测新数据集的行为概念描述(一般化):为数据表征和比较生成描述(当所描述的概念涉及类对象时,也称为类描述) 表征:提供给定数据集的简明摘要例如,它可以根据专业表现分布表来区分:它可以提供两个或更多数据集的比较描述。例如,男孩和女孩之间的比较面向属性的 综合:这是一种数据综合方法,它可以在大量数据中找出一般规律。什么是数据一般化?数据库中的数据和对象通常包含原始概念层的详细信息。数据泛化是将数据库中的数据集从较低的概念层抽象到较高的概念层的过程用更高层次的概念替换更低层次的概念。例如:将(XXXX年龄范围值)分别替换为老年人、中年人和年轻人 面向属性归纳的基本步骤,如用省、 1代替地、市两级的概念,数据聚焦,获取初始数据关系2,进行面向属性归纳 是数据归纳。对于具有大量不同值的属性,执行以下操作:属性删除、属性泛化属性泛化控制:控制泛化过程、确定有多少不同值被视为具有大量不同值的属性泛化阈值控制:如果属性的不同值的数量大于属性泛化阈值,则应该进一步删除或泛化该属性广义(广义)关系阈值控

制:如果广义关系中不同元组的数量超过广义(广义)关系阈值,则应该进一步广义化 属性删除适用规则:对于初始工作关系中有大量不同值的属性,满足以下条件。应该使用属性删除:该属性没有泛化运算符(例如,该属性没有定义相关的概念层次结构)。并且该属性的更高级概念由其他属性 表示,例如:名称:要删除的属性电话号码:要删除的属性的属性一般化控制的两种常用方法:属性一般化阈值控制:为所有属性设置一般化阈值或为每个属性设置阈值(通常为2到8) 一般化关系阈值控制:为一般化关系设置阈值以确定一般化关系中不同元组的最大数量(通常为10到30,第4章关联规则挖掘:从事务数据库、关系数据库和其他信息存储中的大型数据项目集中发现有趣且频繁出现的模式,项目之间的关联 应用:购物篮分析、分类设计、捆绑销售和亏损销售分析、病理分析、文本挖掘、网络故障分析和其他 经典关联规则挖掘算法:Apriori算法和FP-growth算法 集I = {i1,I2,...im}作为一组m个不同的项目,每个ik(k=1,2,...,m)称为项目项目集称为项目集,简称为项目集。其元素的数量称为项集的长度,长度为k的项集称为k项集。 我= {面包、奶油、牛奶、茶、蛋糕、啤酒}这家超市卖6种商品。项目集一包含6个项目,项目集一的长度为6。对于项目集{蛋糕,啤酒}包含2个项目,成为2个项目集

数据挖掘数据预处理

XI`AN TECHNOLOGICAL UNIVERSITY 实验报告 实验课程名称数据集成、变换、归约和离散化 专业:数学与应用数学 班级: 姓名: 学号: 实验学时: 指导教师:刘建伟 成绩: 2016年5月5 日

西安工业大学实验报告 专业数学与应用数学班级131003 姓名学号实验课程数据挖掘指导教师刘建伟实验日期2016-5-5 同实验者实验项目数据集成、变换、归约和离散化 实验设备 计算机一台 及器材 一实验目的 掌握数据集成、变换、归约和离散化 二实验分析 从初始数据源出发,总结了目前数据预处理的常规流程方法,提出应把源数据的获取作为数据预处理的一个步骤,并且创新性地把数据融合的方法引入到数据预处理的过程中,提出了数据的循环预处理模式,为提高数据质量提供了更好的分析方法,保证了预测结果的质量,为进一步研究挖掘提供了较好的参考模式。三实验步骤 1数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。 2数据变换是指将数据转换或统一成适合于挖掘的形式。 (1)数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。类似地,数值属性如年龄,可以映射到较高层概念如青年、中年和老年。 (2)规范化:将属性数据按比例缩放,使之落入一个小的特定区间。大致可分三种:最小最大规范化、z-score规范化和按小数定标规范化。 (3)属性构造:可以构造新的属性并添加到属性集中,以帮助挖掘过程。例如,可能希望根据属性height和width添加属性area。通过属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。 3数据经过去噪处理后,需根据相关要求对数据的属性进行相应处理.数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性,获得比原始数据小得

数据挖掘概念复习

数据挖掘:是从大量数据中发现有趣(非平凡的、隐含的、先前未知、潜在有用)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。 挖掘流程: (1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)(6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识 概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过(1)数据特征化:目标类数据的一般特性或特征的汇总;(2)数据区分:将目标类数据的一般特性与一个或多个可比较类进行比较;(3)数据特征化和比较来得到。 关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,通常要满足最小支持度阈值和最小置信度阈值。 分类:找出能够描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、模糊集)。 预测:建立连续值函数模型,预测空缺的或不知道的数值数据集。 孤立点:与数据的一般行为或模型不一致的数据对象。 聚类:分析数据对象,而不考虑已知的类标记。训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组,从而产生类标号。 第二章数据仓库 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。从一个或多个数据源收集信息,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。面向主题:排除无用数据,提供特定主题的简明视图。集成的:多个异构数据源。时变的:从历史角度提供信息,隐含时间信息。非易失的:和操作数据的分离,只提供初始装入和访问。 联机事务处理OLTP:主要任务是执行联机事务和查询处理。 联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。这种系统可以用不同的格式和组织提供数据。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。 多维数据模型: 多维数据模型将数据看作数据立方体,允许从多个维度对数据建模和观察。包含维表和事实表。最流行的数据仓库数据模型是多维数据模型,这种模型可以是星形模式(事实表在中间,连接到多个维表)、雪花模式(星型的变种,某些维表规范化,分解到附加维表,以减少冗余)、事实星座模式(多个事实表共享维表)。 数据立方体:允许从多维对数据建模和观察。它由维和事实定义。维:关于一个组织想要保存记录的透视图和实体,每个维都有一个表与之相关联,成为维表。事实表:包括事实的名称和度量,

文献翻译-数据类型泛化用于数据挖掘算法

英文翻译 系别 专业 班级 学生姓名 学号 指导教师

Data Types Generalization for Data Mining Algorithms Abstract With the increasing of database applications, mining interesting information from huge databases becomes of most concern and a variety of mining algorithms have been proposed in recent years. As we know, the data processed in data mining may be obtained from many sources in which different data types may be used. However, no algorithm can be applied to all applications due to the difficulty for fitting data types of the algorithm, so the selection of an appropriate mining algorithm is based on not only the goal of application, but also the data fittability. Therefore, to transform the non-fitting data type into target one is also an important work in data mining, but the work is often tedious or complex since a lot of data types exist in real world. Merging the similar data types of a given selected mining algorithm into a generalized data type seems to be a good approach to reduce the transformation complexity. In this work, the data types fittability problem for six kinds of widely used data mining techniques is discussed and a data type generalization process including merging and transforming phases is proposed. In the merging phase, the original data types of data sources to be mined are first merged into the generalized ones. The transforming phase is then used to convert the generalized data types into the target ones for the selected mining algorithm. Using the data type generalization process, the user can select appropriate mining algorithm just for the goal of application without considering the data types. 1. Introduction In recent years, the amount of various data grows rapidly Widely available, low-cost computer technology now makes it possible to both collect historical data and also institute on-line analysis for newly arriving data. Automated data generation and gathering leads to tremendous amounts of data stored in databases Although we are filled with data, but we lack for knowledge. Data mining is the automated discovery of non-trivial, previously unknown, and potentially useful knowledge embedded in databases. Different kinds of data mining methods and algorithms have

数据挖掘功能

数据挖掘功能——可以挖掘什么类型的模式? 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。 在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同的模式。这样,重要的是,数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。此外,数据挖掘系统应当能够发现各种粒度(即,不同的抽象层)的模式。数据挖掘系统应当允许用户给出提示,指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式带上一个确定性或“可信性”度量。 数据挖掘功能以及它们可以发现的模式类型介绍如下。 1 概念/类描述:特征和区分 数据可以与类或概念相关联。例如,在AllElectronics 商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders 和budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或(2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或(3)数据特征化

和比较。 数据特征是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL 查询收集关于这些产品的数据。有许多有效的方法,将数据特征化和汇总。例如,基于数据方的OLAP 上卷操作(1.3.2 小节)可以用来执行用户控制的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。 数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称作特征规则)形式提供。 例 1.4 数据挖掘系统应当能够产生一年之内在AllElectronics 花费$1000 以上的顾客汇总特征的描述。结果可能是顾客的一般轮廓,如年龄在40-50、有工作、有很好的信誉度。系统将允许用户在任意维下钻,如在occupation 下钻,以便根据他们的职业来观察这些顾客。 数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询提取。例如,你可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的那些进行比较。用于数据区分的方法与用于数据特征的那些类似。 “区分描述如何输出?”输出的形式类似于特征描述,但区

第3章 数据泛化

第3章数据泛化 数据挖掘的分类 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有意义的一般性质。 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。 概念描述(泛化):为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述) 特征化:提供给定数据集的简洁汇总。例如按专业的成绩分布表 区分:提供两个或多个数据集的比较描述。如男生与女生的对比。 面向属性的归纳:是一种数据泛化方法,可以从大量数据中找出其中的一般性规律 什么是数据泛化?数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中数据集从较低的概念层抽象到较高的概念层的过程。用较高层次的概念来代替较低层次的概念。例如:用老、中、青分别代替(20-35,36-50,51-70)的年龄区间值。用省代替地市级的概念等 面向属性的归纳的基本步骤 1、数据聚焦,获得初始数据关系 2、进行面向属性的归纳 基本操作是数据概化,对有大量不同值的属性,进行以下操作:属性删除、属性概化 属性概化控制:控制概化过程,确定有多少不同的值才算是有大量不同值的属性 属性概化临界值控制:如果一个属性的不同值个数大于属性概化临界值,则应当进一步删除或者概化该属性。 概化(广义)关系临界值控制:如果概化关系中不同元组的个数超过概化(广义)关系临界值,则应当进一步概化。 属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除:在此属性上没有概化操作符(比如该属性没有定义相关的概念分层)、该属性的较高层概念用其他属性表示 如:name:要被删除的属性phone#:要被删除的属性 属性概化控制的两种常用方法: 属性概化临界值控制:对所有属性设置一个概化临界值或者是对每个属性都分别设置一个临界值(一般为2到8) 概化关系临界值控制:为概化关系设置一个临界值,确定概化后的关系中,不同元组个数的最大值。(通常为10到30,应该允许在实际应用中进行调整) 第4章关联规则 关联规则挖掘:从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、项与项之间的关联 应用:购物篮分析、分类设计、捆绑销售和亏本销售分析、病理分析、文本挖掘、网络故障分析等 经典的关联规则挖掘算法:Apriori算法和FP-growth算法 设Ⅰ={i1,i2,…,i m}是m个不同项目的集合,每个i k(k=1,2,……,m)称为一个项目(item)。 项目的集合Ⅰ称为项目集合(itemset),简称为项集。其元素个数称为项集的长度,长度为k 的项集称为k-项集(k-itemset)。 Ⅰ={bread, cream, milk, tea, cake, beer } 该超市出售6种商品,项集Ⅰ包含6个项目,Ⅰ的长度为6. 对于项集{cake, beer }包含2个项目,成为2-项集。 每笔交易T(Transaction)是项集Ⅰ上的一个子集,即T?Ⅰ,但通常T?Ⅰ。对应每一个交易有一个唯一的标识——交易号,记作TID交易的全体构成了交易数据库D,或称交易记录集D,

相关主题
相关文档
最新文档