基于SQL技术的频繁模式的发掘
基于SQL的频繁模式挖掘的研究与实现

的知识 发现功能 , 难于嵌 人大型应用 ; 数据挖掘 引擎 与数据库 系
统 是 松 散 耦 合 , .miisi H. a n a称 其 为 “ 件 挖 掘 系 T I e nk 和 l M ni l 文
统 ” :
给定事 务数据 库 T B和最 小支持 度 阈值 mn sp 频繁模 D i— u ,
含 A当且仅当 A T时包 含 k个项的模式称 为 k模式 模式 A 一
1 引 言
数据挖掘技 术的研究与应用至今为止 已经取得 了很 大的成
果 , 同 时 也 面 临 着 一 些 问题 , 如 : 据 挖 掘 系统 仅 提 供 孤 立 但 例 数
的支持 度计 数是指事 务集 中包含该 模式 的事 务数 , 如果模 式 A
R E RC A MP E ES A H ND I L ME A I QL B E R QUE T P T E N MI I G NT T ON OF S AS D F E N A T R NN
L uj ’ Z a gJ in ’ J n igu i ie G i hn i a g i gQ ny e x a
Ab t a t s r c F e u n a tr n n sa k y p o lm n ma y d t n n p l ain T i p p rt k sa h g e o ma c P g o t lo r q e t t n mi i g i e r b e i n aa mi ig a pi t . h s a e a e ih p r r n e F — w h ag — p e c o f r
rh r xm l,sst l i R B oeF ・e n ie eu n pt rs rm ib N I Q n r l P / Q r a i i m f a pe ue be n D MSt s r Pt eadm ns rq et a e o t yA S LadO a e L S Lpo mmn t oe a ot r f tn f S c r g g t h o g ,i st e i dpoe ue lm n ti S Lbsdf q et at nn t d e nl y g e h d tl r d rst i e eths Q ae r un pt r mii me o . c o v e ae c o mp e e n g h Ke w r s y od Fe un pt r nn S L F -e F -rwh rq et at mii e n g Q Pt e Pgo t - r -
基于SQL Server 2005的数据挖掘系统优势分析

基于SQLServer2005的数据挖掘系统优势分析[摘要]本文介绍了数据挖掘软件及工具的发展历史,提出基于SQL Server 2005的数据挖掘系统,阐述了SQL Server 2005平台的功能优势。
[关键词]SQL Server 2005;数据挖掘;数据仓库数据挖掘(Data Mining,DM))是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是统计学、数据库技术和人工智能技术的综合。
数据挖掘的工具和软件已广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等领域。
随着数据挖掘应用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型,所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件。
因此,本文结合数据挖掘软件的发展,提出一种基于SQL Server 2005的纵向数据挖掘解决方案,并阐述了SQL Server 2005平台的功能优势。
1 数据挖掘软件及其开发工具的发展状况及趋势1. 1数据挖掘软件的发展状况及趋势在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点,Robert Grossman认为,数据挖掘软件的发展将经历4个时代[1]:第一代数据挖掘软件。
支持一个或少数几个数据挖掘算法,挖掘向量数据,数据一般一次性调进内存进行处理。
如果数据足够大,并且频繁变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。
第二代数据挖掘软件。
与数据库管理系统集成、支持数据库和数据仓库,和它们具有高性能的接口具有高的可扩展性。
能够挖掘大数据集以及更复杂的数据集,通过支持数据挖掘模式和数据挖掘查询语言增加系统的灵活性。
虽然注重模型的生成,但如何与预测模型系统集成导致了第三代数据挖掘系统的开发。
基于SQL Server2005的数据挖掘系统优势分析

保险、 公共设施 、 政府、 教育 、 远程通讯 、 软件开发、 运输等领 域。随着数据挖掘应用 日渐广泛 . 人们发现有些工具只有 精通数据挖掘算法的专家才能熟练使用 . 如果对算法不了 解. 难以得 出好的模 型. 所以迫切需要一类使用简单 而又 具有针对性 、 功能 良好的数据挖掘软件 。因此, 本文结合数
持数 据挖 掘模 式 和数据 挖 掘查 询语 言 增加 系 统 的灵 活 性 。 商开始提供称之为“ 工具集” 的数据挖掘软件。此类工具集 虽然注重模 型的生成 . 但如何与预测模型 系统集成导致了 的特 点是 提 供 多种数 据 挖掘 算法 ,非 面 向特 定 的应 用 , 是
第三代数据挖掘系统的开发 。 通用的算法集合. 以称为横 向的数据挖掘工具 。 可 第三代数据挖掘软件 。 与预测模型系统之间能够无缝 12 3纵 向的数据挖掘解决方案(9 9 .. 1 9 年开始) 集成 . 使得 由数据挖掘软件产生的模型的变化 能够及时反 随着横向的数据挖掘工具 的使用 日渐广泛 . 人们发现
四代软件能够挖掘嵌入式系统 、 移动系统和普遍存在计算 设备产生 的各种类型的数据。 12 数 据 挖掘工 具 的发展 状况 及趋 势 .
目前 在整 个 数据 挖 掘技 术 的发展 过程 中 . 挖掘 工 数据
具一 共经 历 了 3 阶段 : 个 据挖 掘软 件 的发 展 .提 出一 种 基 于 S LSre 0 Q evr 0 5的纵 12 1独立的数据挖掘软件 (9 5 2 .. 19 年以前) 向数 据挖 掘解决 方案 . 阐述 了 S LSre 0 并 Q vr 0 5平 台 的功 e 2 独立 的数 据 挖掘 软 件对应 第 一代 系统 . 出现在 数 据挖 能优 势 。 掘技 术 发展 早期 . 究人 员 开发 出一 种新 型 的数 据 挖 掘算 研
使用标准SQL实现多维关联规则的挖掘

M iigM ut i n in l scainRue i tn ad S nn l dme so a o it lsw t Sa d r QL i As o h
CHENG i . Ln Yn ig
( n u u l eui r e i a ol e Hfi 30 1 C i ) A h i bi Scr yPo s o l lg , e 0 3 , hn P c t f sn C e e2 a
多维 关联规 则挖 掘 的相 关 问题 , 并给 出了一种 实现 算 法。 . 关 键词 : 据挖 掘 ; 数 多维 关联规 则 ;Q S L语 言 中图分 类号 : T 3 1 P 1 文献标 识 码 : B 文章 编 号 :6 2— 7 6(0 7) 1— 16— 3 17 9 0 2 0 0 0 0 0
Ab t a t Aso ito ul sa mp ra tmo li aa mi n s r c : s c ain r e i n i o tn de n d t nig.Th sp p rdic s e he p o lmsa o t i a e s u s st r b e b u
维普资讯 htBiblioteka p://第 十 二 卷 第 一 期 安 徽 电气 工 程 职 业 技 术 学 院 学 报 V 11 . o 1 0.2 N . J R LO N I L C R C NGNE R N R E SO A E H Q O ,E OU NA FA HU E T IALE I E I G P OF SI N LT C NIUEC I GE E L
m n gm ldmes n l soit nrls i tn adS La dpo ssa p rahb sdo Q . ii ut i ni a sc i ue t s d r Q n rp e la po c ae nS L n i o a ao wh a o l Ke o d :a nn ; ut i ni a asca o ue ;Q n ug yw rs d t miig m ld a i me s n l oi i rl S Ll gae o s tn s a
构建基于Microsoft SQL的数据挖掘解决方案

【 ( 伊 蒙(n o, H) 据 仓 库 ( 书 第 四版 ) 】 志 海 2 美) 】 [i n n W. . 数 原 【. M 王
等 . . 京: 械 工业 出版 社 。0 6 译 北 机 20 .
摘
603 ; 10 9
603 ) 10 9
要 : 析 了Mi ot 司  ̄S LS r r 0 5 数 据 挖 掘 功 能 和 优 势 , 出 了数 据 挖 掘 解 决 方 案 , 快 速 实现 纵 向 的 分 c f ms  ̄ J Q ev 0  ̄ e2 提 可
数 据 挖掘 。
关 键 词 : 据 挖 掘 ;Q e e 0 5 V ae 虚 拟 化 ; 拟 机 数 S LSr r 0 ; Mw r ; v 2 虚
参考文献 :
利 用分析服务创建数据库 ,Q e e 0 5 S LSr r 0 为数据挖掘提 v 2 供 了 多维数据 集 ( u e 和数 据集 ( a st, 于数据 挖 掘的 C b) D t e)用 a
【 安淑 芝. 据仓 库与数 据挖掘f 北京 : 华 大学 出版社, 1 】 数 M】 清
32 设 计 OL 模 型 . AP
S LSre 0 5为数据挖掘解 决方案提供 了强大 的设计 Q evr 0 2 和开发平 台, 为企业级的数据挖掘系统的设计和实现带来极 大
的便利。充分利用S L e e20 提供 的功能, Q r r 05 S v 结合具体 的应
用, 以快速实现纵 向的数据挖掘解决方案 。 可
大多数数据挖掘项 目的主要 目标是使用挖掘模 型来创建 预测 。数据挖掘对查 找和描述特定多维数据集 中的隐藏模式 非常有用 , 因为多维数据集 中的数据增长很快 , 以手动查找 所
基于SQLServer2000的数据仓库和数据挖掘

2004年第25卷第5期华 北 工 学 院 学 报V o l.25 N o.5 2004 (总第97期)JOURNAL OF NORTH CH I NA I NSTI TUTE OF TECHNOLOG Y(Sum N o.97)文章编号:100625431(2004)0520322203基于SQL Server2000的数据仓库和数据挖掘Ξ刘爽英,张 静(华北工学院计算机科学与技术系,山西太原030051)摘 要: M icro soft在SQL Server2000中第一次包含了数据挖掘功能.其数据挖掘解决方案基于OL E DB规范,为数据挖掘提出了一种新的类SQL语言,便于开发者更好地建立数据挖掘的应用.利用SQL Server2000去创建数据仓库,对关联规则数据挖掘经典算法A p ri o ri进行改进和测试,在算法效率上得到明显提高.关键词: 数据仓库;数据挖掘;挖掘模型;测试中图分类号: T P311 文献标识码:ABuild i ng Data W arehouse and Data M i n i ng w ith SQ L Server2000L I U Shuang2ying,ZHAN G J ing(D ep t.of Computer Science and T echno logy,N o rth Ch ina Institute of T echno logy,T aiyuan030051,Ch ina) Abstract:M icro soft SQL Server2000includes data m in ing functi on fo r the first ti m e.T he data m in ing so lu ti on is based on OL E DB sp ecificati on,p resenging a new SQL2like language fo r data m in ing.It can help database develop ers to bu ild data m in ing app licati on.T he research is discu ssed in detail based on A p ri o ri.A n efficien t m ethod is pu t fo r w ard fo r bu ilding data w arehou se and data m in ing app licati on u s2 ing SQL Server2000.Key words:data w arehou se;data m in ing;m in ing m odel;test0 引 言数据挖掘是数据库和人工智能领域最前沿、最活跃的研究方向之一,数据挖掘是一个数据驱动的过程[1],目的是发掘以前没有被发现或是容易被忽略的有意义的数据模式,是管理层作出决策的依据.数据挖掘的一个显著特点是它依靠计算机而不是人力来做那些用来建立预测模型的复杂的数学运算.大量原始数据的分析需要深层次的归纳推理,这部分工作是由计算机来完成的.推理过程结束之后,计算机再按照某种格式输出相应分析结果,供决策者分析决策.数据仓库作为一种高效的解决数据收集和使用的技术,正在越来越多地应用到传统的数据库技术领域,数据挖掘则在数据库和数据仓库的支持下进行高效率的知识挖掘工作[2,3].1 数据仓库设计数据挖掘的物理结构描述了客户应用程序与数据挖掘模型的相互作用,结构的选择是根据数据源的大小和对该数据挖掘模型发布的预测查询频率来选择的.根据应用特点,可使用两层体系结构或三层体Ξ收稿日期:2003212231 基金项目:2003年院自然科学基金资助项目 作者简介:刘爽英(1972-),女,讲师,硕士.主要从事计算机应用研究.系结构方案.两层体系结构的物理结构不太复杂,能够在合理高效的服务器上挖掘数百万的记录.服务器中一并存放着数据挖掘引擎和数据仓库,在本地运行所有处理过程.通过一个OL E DB 连接,客户机可以简单调用引擎执行所有必要的数据挖掘处理,并在需要时接受预测结果集.当数据挖掘任务进一步增加,客户机选用挖掘结果需求量增大时,可选用三层体系结构.这个结构总体上需要一个专用的高性能服务器在中间层来用作数据挖掘引擎,数据仓库被置于后端,中间层负责挖掘其数据.中间层从后端载入数据并进行挖掘,挖掘结果被传到客户机.在众多的数据仓库产品中,选择SQL server 2000[4]作为数据仓库的支撑平台.主要原因如下:首先,SQL server 2000既可以方便地接受各种形式的数据,也可以方便地输出各种形式的数据.其二,SQL server 2000的A nalysis Services 具有简易的使用性能及其良好的发展势头.第三,SQL server 2000的A nalysis Services 中提供了灵活的对象编程接口,这为进一步开发智能决策支持系统提供了可能.由于SQL server 2000的A nalysis Services 是一个管理多维记录集的服务器,可按照A nalysis Ser 2vices 中的各种向导建立数据仓库的维度和多维记录集.通过数据仓库或关系数据库,在A nalysis Ser 2vices 的支持下可以进一步进行各种数据挖掘.2 数据挖掘方法2.1 OL E DB 用于数据挖掘数据挖掘模型是OL E DB fo r DM 中提出的一个概念.一个数据挖掘模型就是一个容器,在某种程度上可以看成是由各种不同数据类型的列构成的一个关系表,实际上它并不存储原始数据,而是存储数据挖掘算法在关系表中发现的模式.为了建立一个数据挖掘模型,OL E DB fo r DM 可采用SQL 中创建表的语法,例如CR EA T E 语句.2.1.1 数据挖掘模型测试当一个数据挖掘模型建立之后,它只是一个空的容器.在测试阶段,数据挖掘算法分析输入的事件和挖掘模型已经发现的模式.根据针对数据挖掘的OL E DB ,测试数据可以来源于任何表格数据源,只要它存在于OL E DB 的驱动器上.它不需要用户从关系数据源中导出数据到任何特殊的中间存储形式.这就极大地简化了数据挖掘过程.可采用SQL 中数据插入句法,例如I N SER T I N TO 语句.Open row set 命令可以从一个OL E DB 数据源中访问远程数据.SQL Server 2000为SQL Server A ccess 和O racle 装备了OL E DB 驱动器.测试过程需要花费一些时间.在测试完成之后,数据挖掘算法将发现隐藏在数据挖掘模型中的模式,用户可以浏览挖掘模型来查看发现的模式,或用测试过的挖掘模型来进行预测任务.2.1.2 数据挖掘预测预测是数据挖掘的一个重要任务.它需要一个测试过的数据挖掘模型和一系列的新事件.预测的结果是一个新记录集,它包括预测的列的值以及其它输入的列的值.整个过程与关系连接非常相似,但它不是连接两个表,而是连接数据挖掘模型和输入表.可以采用SQL 中查询表的语法,例如:SEL ECT ...FROM A JO I N BON <条件>其中A 表示测试过的数据挖掘模型;B 表示新的数据表;<条件>是两个表的公共属性,进行等值连接或自然连接.从以上分析可知,OL E DB 与标准SQL 紧密结合,可以快速,准确地进行查询处理,而SQL Server 2000是创建数据,建立数据挖掘的一种有效方案.323(总第97期)基于SQL Server 2000的数据仓库和数据挖掘(刘爽英等)423华北工学院学报2004年第5期2.2 利用SQL Server2000进行数据挖掘在基于数据挖掘的OL E DB的使用中,从不同数据挖掘ISV中来的不同的数据挖掘算法可以很容易地嵌入到用户的应用中去.这些数据挖掘算法的软件包提供了两个数据挖掘算法:M icro soft的决策树和M icro soft的集群.数据挖掘提供者是分析服务2000的一部分(在SQL Server7.0中叫OLA P服务).和M icro soft的OLA P服务相似,SQL Server2000中的数据挖掘组件也主要是针对DBA的.A nalysis Services由OLA P和数据挖掘两部分组成,是数据分析的重要技术.在A nalysis Services中存在一些数据挖掘工具,这些工具包括模型建立向导,模型编辑器,模型内容浏览器以及D T S预测任务. SQL server2000包含了两种数据挖掘算法:即决策树和聚类算法.决策树被广泛应用于分类任务,不像分类算法中的其它算法,如最近邻居法、神经网络法、基于统计的回归算法等.决策树能够处理多维数据,并且发现的规则很容易被理解.聚类分类算法是一个最大期望算法的可伸缩实现,从重要数据源构造适当的统计模型,并且产生包含离散和连续值的聚类数据库.SQL Server2000数据挖掘模型是基于OL E DB fo r DM规范,使用灵活.任何数据库开发者都能够利用数据挖掘功能开发应用程序,它的数据挖掘语言非常类似于SQL,数据挖掘供应者是一个开放系统,因为它是一个OL E DB的部件,来自于其它数据挖掘公司的算法,能够嵌入到同样的平台上,数据挖掘服务能够通过D SO(D ecisi on Suppo rt O b ject)或ADO包含在任何用户程序系统中.在建立应用之前,首要任务就是建立一个数据挖掘模型和训练这个模型.实现这个任务有多种方法,最容易的一种方法就是利用A nalysis Services的数据模型向导,这个向导将产生数据挖掘模型和训练查询,并通过OL E DB fo r DM接口向数据挖掘供应者发送这个查询.另外一种方法是自行编写一些程序,例如利用面向对象编程技术编写一些VB或V C程序,通过D SO或ADO把它与数据挖掘供应者连接起来,然后就向这个供应者发布这个文本查询,就像一个数据库开发者处理数据库查询一样.A nal2 ysis Services已扩展了D SO模型从而能够支持数据挖掘,所以可以通过D SO连接数据挖掘供应者.通过D SO对象相连的方法与通过简单的ADO相连方法比较起来有许多优越性.例如,使用这个模型有较好的安全控制、远程数据服务及挖掘模型的仓库支持;但是使用D SO编程需要更多的编码工作并且开发者需要描述每个列对象和挖掘模型对象的属性.3 结 论作者在院自然科学基金资助项目《基于图论的关联规则数据挖掘与标准查询语言应用分析》中采用SQL server2000数据库,利用面向对象编程技术编写VB程序,通过ADO连接数据库,对关联规则数据挖掘经典算法A p ri o ri进行改进,在算法效率上得到明显提高.有了A nalysis Services of SQL Server2000,数据挖掘不再是统计专家们的保留领域,数据挖掘算法的复杂性对用户是隐藏的,每一个数据库的开发者都能够建立和训练数据挖掘模型并把这些优点嵌入到他们用户的应用系统中去.数据挖掘将很快会成为被普通采用的知识发现技术.参考文献:[1] A graw al R,I m ielinsk i T,Sw am iA.M ining associati on rules betw een sets of item s in large databases[M].P roceed2ings of1993A C M S IG M OD Internati onal Conference on M anagem ent of D ata.W ash ington,DC,1993.207-216.[2] 范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.[3] 刘爽英,贺利坚.企业数据仓库设计方法研究[J].华北工学院学报,2001,(6):461-463.[4] 郑阿奇.SQL Server2000实用教程.北京:电子工业出版社,2002.。
SWRL数据集中频繁模式发现

据 集上 的数据挖 掘 过程 必须 充分考 虑数据 的语 义特征 。 已有 的 关于这 种类 型数据 的候 选频繁模 式 生成 方法可 能产 生大量 无意 义的模 式 , 重 了模 式评价 过程 的计 算 负担 。 对这 一缺 陷提 出 了基 于 加 针 向下求精规 则和相 容谓 词 的候 选频繁 模 式生成 方法 , 同时定 义 了谓 词数 量 约束 , 而避 免产 生过 多 从
1 S WRL数 据 集 中 的频 繁 模 式 发 现
假设 指 定 : 某种 模 式 语 言 以; 数 据 集 合 , ① ② . ;
③ 出现在 r 中的一个 一元 谓词 ky 1 ④ 频繁 阈值 t e ̄ ; 。
频 繁模式 的发现在 于 找到 C A且 口 fr ≥ t ∈ ( ,) 的
Q — q ) CKy ) 口1口2 … , ( 一 ( , , ,
式 中 , K 是 一 个 一 元 谓 词 ky 1 它 是 出 现 在 Ce y e ̄, S L 中的任 意概 念 , 示 用户 在 频繁模 式 发现 中 WR 表 所关注 的概念 。 是 P中唯 一的受 C 约束 的变量 , (≤i 1 < ) 数据集 中 出现 的概 念 ( 是 一元谓 词) 或
袁 柳 ,李战 怀 ,陈世 亮
( 北 工 业 大 学 计 算 机 学 院 , 西 西 安 70 7 ) 西 陕 1 0 2
摘
要: 用S 使 WRI(e n i We l L n u g ) S ma t bRue a g a e 描述 的数据 蕴含 了更 多的语 义信 息 ,WR c S L数
的非频繁 模式 和 冗余 模 式 。实验证 明该 方法 可提 高频繁模 式 生成 的效 率 。 关 键 词 : 义 We , WRL,频繁模 式 ,向下 求精规 则 语 b S
fpgrowth算法sql代码

fpgrowth算法是一种常用的频繁模式挖掘算法,它能够快速有效地发现数据集中的频繁模式和关联规则。
而在实际应用中,我们常常需要将该算法应用到SQL数据库中,以便更好地对数据进行分析和挖掘。
本文将介绍fpgrowth算法的原理和SQL代码实现,以帮助读者更好地理解和应用该算法。
一、fpgrowth算法原理fpgrowth算法是一种基于频繁模式树(FP-tree)结构的频繁模式挖掘算法。
它通过两次遍历数据集,首先构建FP树,然后通过递归方式挖掘FP树中的频繁模式。
具体步骤如下:1. 构建FP树(1) 遍历数据集,统计每个项的频数,然后根据频数降序排序得到频繁1项集;(2) 再次遍历数据集,根据频繁1项集和频数构建FP树,每个项在FP树上对应一条路径。
2. 挖掘频繁模式(1) 从FP树的底部开始,递归向上回溯每个项的前缀路径,得到条件模式基;(2) 对于每个条件模式基,构建条件FP树,然后递归挖掘得到频繁模式。
二、fpgrowth算法SQL代码实现在SQL数据库中,我们可以通过使用递归查询和临时表来实现fpgrowth算法。
下面是一个简单的示例,假设我们有一个名为transaction_table的交易表,表中包含了交易ID和对应的商品项集。
```sql-- 创建临时表存储频繁1项集CREATE TEMPORARY TABLE frequent_item1 ASSELECT item, COUNT(*) AS countFROM transaction_tableGROUP BY itemHAVING count >= min_support;-- 构建FP树WITH RECURSIVE fp_tree(item, count, parent) AS (SELECT item, SUM(count) AS count, NULL AS parentFROM frequent_item1GROUP BY itemUNION ALLSELECT t.item, SUM(t.count), f.idFROM transaction_table tJOIN fp_tree f ON t.item = f.itemGROUP BY t.item, f.idSELECT * FROM fp_tree;```上述SQL代码中,我们首先创建一个临时表frequent_item1来存储频繁1项集,然后使用递归查询构建FP树。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
技 术 的 方 法 , 速 实 现 把 数 据 库 D 分 成 一 组 短 模 式 快
则 X_> y 具 有 支 持 度 S - .
关 联规则 的 挖掘一 般 分 为 2步 : 找 出所 有 频 繁 ① 项 集 ; 由频 繁项 集 产 生强 关 联 规 则. 这 2个 步 骤 ② 在 中 , 2步 比较容 易 , 掘关联 规 则 的总 体 性能 由第 】 第 挖
收 稿 日 期 :0 8 0 — 0 20 ~ 6 4
作者简介 1 郑
斌 (9 7 ) 女 , 建 连 江 人 , 士 17一 , 福 硕
步确定 .
目前 已有 多 种 关 联 规 则 的 挖 掘算 法 ] 均 属 于 , 无 监督 学 习方 法 , Apir 算 法 、 样 算 法 、 I 算 如 r i o 抽 DC
法 等 ] Ap ir 算 法 是 一 种 经 典 算 法 , 算 法 大 . ro i 该
D n的过程 , 能够直 接得 到所 有频 繁 1 ~项 集 相 关 的条
关 键 词 : 关 联 规 则 ; FP—Gr wt 频繁 模 式 ; QI o h; S
中图分类号 : T 3 P
文献标识码 : A
F —Grwt P o h算法 是不 产生候 选 项 集 的关 联 规则 挖掘算 法 , 它把发 现 长模 式 的 问题 转 换 成递 归 的发 现 短模式 , 然后 连接 后缀 . 该算 法瓶 颈在 于需要 在 内存 中 建立 整个 数据 集 的 F P—t e 然 后搜 索 该树 获 取频 繁 r , e 1 一项 集 的条件库 , 当数 据 库很 大 时 , 算 法对 内存 空 该 间要求 较 高 , 索 过 程 花 费 时 间 也 很 长 , 空 效 率 不 搜 时
件库 , 然后 对 每个 条件 库 分别 构 造小 的条 件 F —te P re
幅度压 缩 了候选 集 的大 小 , 需要 多 次 扫 描 数据 库 并 但 产生大 量 的侯 选 集. 于是 人 们 相继 提 出 了一些 优 化 的
方 法 一 .
来得 到最终 所需 的频 繁模 式 , 而降低 算法 复杂 度 , 从 执 行速 度快且 占用 内存 空 间小 , 具有 良好 的伸缩性 . 并
时 也 包 含 y, 称 规 则 X一> y 在 事 务 集 D 成 立 , 具 则 并
模式 , P F —g o h算法 都 是 有效 的 , 且 其 挖 掘速 度 rwt 并 大 约 比 Ap ir算法 快一 个数 量级 . r i o
有 置信 度 c 如 果 D 中 s 的 的 性 能 分 析 表 明 : 于 挖 掘 长 的 和 短 的 频 繁 r wt 对
丁为 丁 ,的项 集 . 每个 事务 有 唯 一标 识 , 作 TI . 称 D
当 X T, 们 说 事 务 T 包 含 X ( 是 J中 的 某 些 项 我 X
集 ) 关联 规则是 形如 X=>y 的表 达式 , 中 X, C . 其 Y J且 XnY— j . 果 D 中 C 的事务 在 包 含 x 的 同 , 2 如 『
基于 S QL技 术 的频 繁模 式 的发 掘
郑 斌
( 建 省 经 济 管 理 干 部 学 院 , 州 30 0 ) 福 福 5 0 2
摘
要 : 分 析 了 频 繁 项 集 挖 掘算 法 F —g o h算 法 , 对 算 法 中 存 在 的效 率 瓶 颈 问题 , 出 了 一 个 改 进 的挖 掘算 法 . P r wt 针 提
2 F P—Gr wt o h算 法
F — G o h方 法 采 取 分 而 治 之 的 策 略 : 经 过 P r wt 在 第 1次 扫 描 之 后 , 数 据 库 中 的 频 繁 集 压 缩 进 一 颗 频 把
1 关 联 规 则 挖 掘 概 述
数 据 挖 掘 uiD t M iig 就 是 从 海 量 的 实 际 应 ( aa nn )
改进 后 的算 法 通 过 应 用 S 术 的 方 法 直 接 得 到 频 繁 1 QI技 一项 集 的 条件 模 式 基 , 而 减 少 了 F —go t 从 P rw h算 法 中构 造 F P
—
te 和 搜 索 的 开 销 . 析 结 果 表 明 , 进 的算 法 具有 比较 良好 的性 能. re 分 改
第 1 卷第 5 9 期 20 0 8年 l O月
中原 工学 院学 报
J OURNAI OF Z ONGYUAN H UNI VERS TY I OF TECHN0I ) GY (
VOI 1 No. .9 5 Oc ., 00 t 2 8
文 章 编 号 :6 1 9 6 2 0 )5 0 6 6 1 7 —6 0 ( 0 8 0 ~0 5 —0
f i,: … ~ 为一 项集 . D 为事 务集 , 个 事务 :{。 i, i} 设 每
和一个 长 度为 1的频 繁 集相 关 ; 最后 再 对 这 些 条件 库 分别进 行挖 掘. P G o h方 法 把 发 现 长 频 繁 模 式 F — r wt 的 问题转换 成递 归 发现 一 些 短模 式 , 使 用 最 不频 繁 它 的项作 为 后 缀 , 而 提 供 了 良 好 的选 择 性 . F 从 对 P—
用数 据 中提取 隐含在 其 中 , 人们 事先 不知道 的 , 是 又 但
是 潜 在 有 用 的 信 息 和 知 识 的 过 程 . 基 本 概 念 是 : 其 设
繁模 式树 ( P Tre , F e) 同时依 然保 留其 中 的关 联信 息 ;
—
随后再 将 F P— Tre 化 成 一 些 条 件 库 , 个 条 件 库 e分 每