关联规则

合集下载

数据挖掘方法——关联规则(自己整理)

数据挖掘方法——关联规则(自己整理)

6
四、关联规则的分类
按照不同情况,关联规则可以进行分类如下: 1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值 型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动 态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。 例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)= 2300,涉及的收入是数值类型,所以是一个数值型关联规则。 2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而 在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打 印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层 次之间的多层关联规则。 3.基于规则中涉及到的数据的维数,关联规则可以分为单维关联规则和多维关联规则。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联 规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的 一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则 只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段 的信息,是两个维上的一条关联规则。
小结:Apriori算法可以分为频繁项集的生成和关联规则的生成两 大步骤;FP-Growth算法可以分成FP-Tree的生成,频繁项集的生成和 关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.

关联规则

关联规则

C3 itemset
{2 3 5}
扫描 D
L3 itemset sup
{2 3 5} 2
{2,3}->{5}
21
Apriori 够快了吗? — 性能瓶颈

Apriori算法的核心:

用频繁的(k – 1)-项集生成候选的频繁 k-项集 用数据库扫描和模式匹配计算候选集的支持度 巨大的候选集: 多次扫描数据库:

给定数据库D,关联规则的挖掘就是找出所有存 在于数据库D中的强关联规则。因此整个关联规 则挖掘过程可以分解为以下两个子问题:
找出所有的频繁项目集; 根据找到的频繁项目集导出所有的强关联规则。

13
强关联规则的产生



第一个子问题的求解,需要多次扫描数据库D,这意味着 关联规则挖掘算法的效率将主要取决于数据库扫描、I/O操 作和频繁项目集的计算上。因此如何迅速、高效地找出所 有的频繁项目集是关联规则挖掘的中心问题 第二个子问题的求解比较容易,R. Agrawal等人已提出了 有效的解决办法,具体过程如下: 对每个频繁项目集I,产生所有的非空真子集:对I的任意 非空真真子集m,若support(I)/Support(m) minconfidence,则产生强关联规则m->(l-m)。

第二步: 修剪
forall itemsets c in Ck do
forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck
19
生成候选集的例子

L3={abc, abd, acd, ace, bcd} 自连接 : L3*L3

简述关联规则算法流程

简述关联规则算法流程

简述关联规则算法流程摘要:一、关联规则简介二、关联规则算法流程1.数据预处理2.事务数据库的构建3.寻找频繁项集4.生成关联规则5.剪枝与优化三、关联规则应用实例四、关联规则算法的优缺点正文:一、关联规则简介关联规则是数据挖掘中的一种重要方法,主要用于发现数据集中的关联关系。

关联规则的表示形式为:A1 → A2,表示如果事务中包含A1,那么很可能也包含A2。

关联规则算法旨在找出频繁出现在数据集中的项集(即支持度高的项组合),然后根据置信度生成关联规则。

二、关联规则算法流程1.数据预处理:首先对原始数据进行清洗,包括去除重复记录、填补缺失值等,以便后续算法顺利进行。

2.事务数据库的构建:将清洗后的数据组织成事务数据库,其中每个事务由一组项目组成。

3.寻找频繁项集:通过遍历事务数据库,计算每个项集的出现次数,找出支持度大于设定阈值的频繁项集。

这一步可以使用递归、Apriori算法等方法。

4.生成关联规则:对于每个频繁项集,生成满足置信度要求的关联规则。

例如,如果一个频繁项集为{A, B},且其在事务数据库中的支持度为0.8,那么可以生成如下关联规则:A → B,支持度为0.8。

5.剪枝与优化:为了消除冗余规则和降低规则置信度,可以对生成的关联规则进行剪枝。

剪枝方法包括:前缀剪枝、闭包剪枝等。

此外,还可以通过优化算法提高计算效率,如采用矩阵运算、FP-growth等方法。

三、关联规则应用实例关联规则在许多领域都有广泛应用,如购物篮分析、搜索引擎、信用评估等。

以购物篮分析为例,通过挖掘顾客购买商品的关联关系,可以为顾客推荐相关商品,提高销售额和客户满意度。

四、关联规则算法的优缺点关联规则算法具有较强的可读性和实用性,能够发现数据集中的潜在关联关系。

但同时,它也存在一定的局限性,如对数据量较大、项目较多的情况处理效果不佳,以及生成大量冗余规则等问题。

为了解决这些问题,研究人员不断提出新的关联规则算法,以提高算法的效率和准确性。

数据挖掘方法——关联规则(自己整理)

数据挖掘方法——关联规则(自己整理)

小结:Apriori算法可以分为频繁项集的生成和关联规则的生成两 大步骤;FP-Growth算法可以分成FP-Tree的生成,频繁项集的生成和 关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
9
五、关联规则挖掘的相关算法
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
7
五、关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是 基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关 联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和 预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小 支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集 合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定 义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被 留下来。为了生成所有频集,使用了递推的方法。 Apriori算法可以产生相对较小的候选项目集,扫描数据库的次数由最大频繁 项目集的项目数决定。因此,该算法适合于最大频繁项目集相对较小的数据集中 的关联规则挖掘问题。 Apriori算法的两大缺点:1.可能产生大量的候选集;2.可能需要重复扫描数据库。
关联分析的目的:找出数据库中隐藏的关联网。一般用Support(支 持度)和Confidence(可信度)两个阀值来度量关联规则的相关性,引入 lift(提高度或兴趣度)、相关性等参数,使得所挖掘的规则更符合需求。

身边的强关联规则的例子

身边的强关联规则的例子

身边的强关联规则的例子1.天气与服装:在日常生活中,天气与服装之间存在一定的关联规律。

例如,在炎热的夏天,人们通常会选择穿短袖衫、短裤等轻便、透气的服装;而在寒冷的冬天,人们则会穿厚重的外套、长裤等能够保暖的服装。

这种关联规律的存在,使得人们能够根据天气情况来选择合适的服装,增加舒适感。

2.学习时间与成绩:学习时间与成绩之间有着一定的关联规律。

通常来说,学习时间的多少与成绩的好坏呈正相关关系。

也就是说,学习时间越长,成绩往往越好;而学习时间越少,成绩往往越差。

这是因为学习需要时间与精力的投入,只有付出了足够的努力才能获得较好的成绩。

3.睡眠时间与身体健康:睡眠时间与身体健康之间存在着强关联。

充足的睡眠是保持身体健康的重要因素之一、睡眠不足会导致身体疲劳、免疫力下降、情绪不稳定等问题,甚至引发一些慢性疾病。

因此,保持良好的睡眠习惯对于维持身体健康至关重要。

4.饮食与体重:饮食与体重之间存在着一定的关联规律。

不良的饮食习惯,如高脂肪、高糖分的食物摄入过多,会导致体重增加;而合理的饮食结构,如多吃蔬菜水果、控制摄入热量,则有助于维持体重稳定。

饮食与体重之间的关联规律提醒人们养成良好的饮食习惯,以保持健康的体重。

5.锻炼与健康:锻炼与健康之间有着紧密的关联。

适当的锻炼可以促进新陈代谢、增强体质、提高免疫力等,对身体健康有显著的积极影响。

而长期缺乏锻炼则容易导致肌肉萎缩、心血管功能下降、抵抗力下降等健康问题。

出于对健康的考虑,人们应该每天适度锻炼,保持身体的良好状态。

6.阅读与知识积累:阅读与知识积累之间存在着强关联。

阅读是人们获取知识的主要途径之一,通过书籍、报纸、网络等渠道进行广泛的阅读,能够不断扩大知识面,提高自己的见识与思维能力。

相反,不重视阅读,缺乏知识积累的人往往面对问题时难以做出明智的决策,思维能力也相对较低。

7.个人卫生与健康:个人卫生与健康之间存在着紧密的关联。

保持良好的个人卫生习惯,如勤洗手、戴口罩、保持整洁的住宿环境等,能够有效预防疾病的传播,降低感染的风险,维护身体健康。

关联规则的基本概念

关联规则的基本概念

关联规则的基本概念
关联规则是关联分析的主要概念,用于揭示数据集中的物品之间的相关关系。

关联规则通常以if-then形式表示,其中if部
分称为前提(Antecedent),表示某些物品的组合,在此条件下,则部分称为结果(Consequent),表示其他物品的组合。

关联规则的基本概念包括以下几个要素:
1. 项(Item):指数据集中的一个单独的物品,可以是一个商品、一种服务或其他特定的实体。

项可以是单个物品,也可以是物品的集合。

2. 项集(Itemset):指数据集中的一个或多个项的集合。

项集可以包含单个项或多个项。

3. 支持度(Support):指项集在数据集中出现的频率。

支持
度可以用来度量一个项集的重要性或常见程度。

4. 可信度(Confidence):指关联规则的可信程度。

可信度可
以用来度量当前提条件出现时,结果出现的概率。

关联规则可以通过计算项集的支持度和关联规则的可信度来找出频繁项集和强关联规则。

频繁项集是指支持度高于预设阈值的项集,而强关联规则是指可信度高于预设阈值的关联规则。

通过分析频繁项集和强关联规则,可以发现物品之间的相关关系,从而用于市场篮子分析、推荐系统和数据挖掘等应用领域。

关联规则基本概念-Read

关联规则基本概念-Read

关联规则基本概念设I={i 1,i 2,…i m }是项的集合。

设任务相关的数据D 是数据库事务的集合,其中每个事务T 是项的集合,使得I T ⊆。

每个事务有一个标识符,称作TID 。

设A 是一个项集,事务T 包含A 当且仅当T A ⊆。

关联规则是诸如A ⇒B 的蕴涵式,其中I A ⊂,I B ⊂,并且φ=⋂B A 。

(1)支持度与置信度规则的支持度和置信度是两个规则兴趣度量值,它们分别表示发现规则的有用性和确定性。

规则A ⇒B 在事务级中D 中成立,具有支持度s ,其中s 是D 中事务包含B A ⋃(即A 和B 二者)的百分比,它是概率)(B A P ⋃。

规则A ⇒B 在事务集中具有置信度c ,其中D 中包含A 的事务同时也包含B 的百分比是c 。

这是条件概率)(A B P 。

即是)()(sup B A P B A port ⋃=⇒ (7.21)即:关联模式的支持度是模式为真的任务相关的元组(或事务)所占的百分比。

对于关联规则 A ⇒B (其中A 和B 是项目的集合),支持度定义为:元组总数的元组数和包含)支持度(B A =⇒B A )()(A B P B A confidence =⇒ (7.22)即:每个发现模式都应当由一个表示其有效性或“值得信赖性”的确定性度量。

对于关联规则A ⇒B (其中A 和B 是项目的集合),其确定性度量置信度定义为:()的元组数包含的元组数和包含置信度A B A B A =⇒ 同时满足最小支持度阈值(min_sup )和最小置信度阈值(min_conf )的规则称作强规则,我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。

如果我们想象全域是商品的集合,则每种商品有一个布尔变量,表示该商品的有无。

每个篮子则可用一个布尔向量表示。

可以分析布尔向量,得到反映商品频繁关联或同时购买的购买模式。

这些模式可以用关联规则的形式表示。

例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:computer ⇒financial_management_software[support=2%,confidence=60%]上面关联规则的支持度2%意味分析中的全部事务的2%同时购买计算机和购买财务管理软件,置信度60%以为购买计算机的顾客60%也购买财务管理软件。

【数据挖掘技术】关联规则(Apriori算法)

【数据挖掘技术】关联规则(Apriori算法)

【数据挖掘技术】关联规则(Apriori算法)⼀、关联规则中的频繁模式关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被⼴泛研究的⼀种重要模型,关联规则数据挖掘的主要⽬的是找出:【频繁模式】:Frequent Pattern,即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称为关联(Association).⼆、应⽤关联规则的经典案例:沃尔玛超市中“啤酒和尿不湿”的经典营销案例购物篮分析(Basket Analysis):通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从⽽帮助零售商可以更好地制定有针对性的营销策略。

以下列举⼀个最简单也最经典的关联规则的例⼦:婴⼉尿不湿—>啤酒[⽀持度=10%,置信度=70%]这个规则表明,在所有顾客中,有10%的顾客同时购买了婴⼉尿不湿和啤酒,⽽在所有购买了婴⼉尿不湿的顾客中,占70%的⼈同时还购买了啤酒。

发现这个关联规则后,超市零售商决定把婴⼉尿不湿和啤酒摆在⼀起进⾏销售,结果明显提⾼了销售额,这就是发⽣在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。

三、⽀持度(Support)和置信度(Confidence)事实上,⽀持度和置信度是衡量关联规则强度的两个重要指标,他们分别反映着所发现规则有⽤性和确定性。

【⽀持度】规则X->Y的⽀持度:事物全集中包含X U Y的事物百分⽐。

Support(A B)= P(A B)⽀持度主要衡量规则的有⽤性,如果⽀持度太⼩,则说明相应规则只是偶发事件,在商业实践中,偶发事件很可能没有商业价值。

【置信度】规则X->Y的置信度:既包括X⼜包括Y的事物占所有包含了X的事物数量的百分⽐。

Confidence(A B)= P(B|A)置信度主要衡量规则的确定性(可预测性),如果置信度太低,那么从X就很难可靠的推断出Y来,置信度太低的规则在实践应⽤中也没有太⼤⽤途。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

对“个性化检索”研究现状的分析
—基于关键词的关联规则挖掘
学号:103789000000246
姓名:徐孝娟
专业:情报学
摘要:基于文献研究个性化检索,对其进行关键词关联规则挖掘,并依据规则进行文献内容分析,得出个性化检索研究的现状与总体特征,通过与学术界网站评价研究热点内容进行对比,发现个性化检索的研究主要在在个性化检索领域的研究主要集中在把本体理论引入,以解决检索词歧义等问题,让检索词更贴近自然语言,并考虑用户模型、用户兴趣,让用户直接参与进来,用户的兴趣通过关联规则挖掘,从而使查询更加精确,提高查询准确率。

关键词:情报学;网站评价;关联规则挖掘;研究现状
分类号:G350
随着计算机技术和互联网的迅速发展,网站的数量在空前的增长,越来越多的信息和服务通过互联网发布,而网站的质量决定了网民获取信息和服务的质量。

中国互联网络信息中心(CNNIC)发布的《第26次中国互联网络发展状况统计报告》[1]报告显示,截至2010年6月中文网站数量达363万家,年增长率达到17.3%。

网站数量的增加一方面加剧了网站之间的竞争,另一方面也加大了用户选择合适的信息来源的难度。

这些问题的出现吸引了不同学科领域学者从不同角度对网站信息的个性化进行研究,对这些研究的探究直接影响用户获取信息和服务质量的提高和未来发展。

1研究方法
1.1关联规则内涵
Apriori算法[2]是最著名的关联规则算法,它的主要思想是首先寻找所有的频繁项集,即满足s不小于mins的项集,然后通过用户给定的minc,在每个最大频繁项集中,寻找confidence不小于minc的关联规则。

关联规则的基本概念如下:
○1设I = {i1,i2,…,im}是项的集合,其中元素称为项,包含k个项的项集称为k项目集。

记B为交易T的集合,这里交易T是项的集合,并且T属于I。

○2规则XY在交易数据库D中的支持度(S)是交易中包含X和Y的交易数与所有交易数之比,表示在规则中发现的频度,记为S (XY),即S(XY) = P(X∪Y)。

○3规则XY在交易数据库D中的置信度(C)是指包含X和Y的交易数与包含X 交易数之比,表示规则的强度,记为C (XY),即C (XY) = P( Y | X)。

○4频繁项目集,指满足用户给定支持度的项目集,关联规则挖掘的重点耗时的工作便是找出所有频繁项目集。

○5最小支持度阈值mins,表示数据项集在统计意义上的最低主要性;最小置信度阈值minc,表示规则的最低可靠性。

最小支持度和最小置信度的选取应根据数据的情况和用户的需要设定。

关联规则挖掘求解问题的步骤:预处理与挖掘任务有关的数据,根据具体问题的要求对数据库进行相应的处理,从而生成规格化的数据库;从数据库D中找到所有支持度大于最小支持度的项集,这些项集称为频繁项集;使用b中找到的频繁项集产生期望的规则R,这些规则必须满足最小置信度,形成输出规则。

1.2关联规则应用意义
关联规则是数据挖掘的主要技术之一,是知识发现的一个环节,用于从大量数据中的项集之间发现有趣的关联或相关联系,从而达到认识事物客观规律的技术方法。

随着对大量数据的不停收集与存储,数据库中挖掘关联规则显得越来越重要。

关联规则挖掘的思想可以应用到文献计量学,例如对关键词之间的关联程度进行分析,如果某两个或多个关键词频繁出现在同一篇文献的关键词集中,则说明这两个或多个关键词具有一定的关联。

本研究意在通过找出有关网络评价文献中的高频词,从而分析当前网络评价的研究现状。

本文中笔者对支持度(S)和置信度(C)这两个指标的解释[9]为:S是指同时包含XY两个高频关键词的文献数与总研究文献数之比,反映了这方面内容研究的普遍性。

C是指同时包含XY两个高频关键词的文献数与包含X的文献数之比,反映了关注该问题的概率。

2数据获取与处理
2.1数据获取
2010年12月24日笔者以中国知网和万方作为数据库,把“个性化检索”作为题名进行检索,共检索到文献56篇,剔除重复和不相关的还有45篇,这45篇文章共包含关键词99个,利用excel统计关键词后,用ucinet工具进行共现分析[11](如图1)。

图1关键词共现
从图1笔者得出○1个性化检索方面的文章主题主要集中在个性化检索;个性化服务;个性化;搜索引擎;信息检索;Agent;用户兴趣模型;本体论。

说明我国学者在近几年来对这些方面的研究颇多。

○2对计算机应用和多媒体在图中是独立的小模块,通过抽取文件可知,这两个关键词分别在2009年3月和2010年4月提出,说明这两个课题刚刚被学者关注,是新兴的领域。

2.2数据预处理
通过excel获得原始数据,对原始数据通过ucinet工具进行处理,可以得到关键词词频排序表,我们以top15作为研究对象,对top15相关的数据进行关联
规则挖掘,得出top15中关键词的共现表,即表1(由于本体和ontology是一个概念,在下文的支持度和置信度计算中将二者合为一个关键词)。

本文主要是对个性化的现状进行分析,因此在对关联规则的计算,只计算单方向的,例如只计算个性化检索→用户兴趣的置信度和支持度,不在计算用户兴趣→个性化检索的置信度和支持度。

由图1可知,个性化检索关键词在各学科领域的研究还是比较集中的,因此根据需要,定义较低的阈值即可。

笔者给本研究的最小置信度为20%,最小支持度为4%。

通过对关联候选关键词的置信度和支持度进行计算,得出满足条件的规则,如表2。

3规则结果分析
从表2可知:
○1当学者写文献时,提到有个性化的关键词,就经常会涉及到本体论、分类、信息检索、文本分类这几个关键词,从这几个关键词可以得出本体论和文本分类方法经常被用到个性化检索的研究中。

○2规则个性化检索→用户兴趣,支持度占到了22.22%,说明当前学者在研究个性化检索时,用户兴趣是经常被考虑到的因素,这和笔者阅读文献中所获取的内容是一致的;置信度占到了58.82%,说明一提到个性化检索→用户兴趣在含有个性化检索关键词的文献中研究占得比例较大,学者关注的多。

○3用户兴趣和IETM、本体论,结合○1○2说明用户兴趣与个性化检索、本体论、IETM这些的联系比较密切,在笔者阅读的文献中,当设计一个个性化检索系统时,本体论是当前比较热的方法,而用户兴趣是要考虑的重要因素,因此几个关键词关系密切和实际符合。

○4个性化检索与关联规则的规则说明在进行用户兴趣模型研究时,要考虑各个兴趣之间的关联性;个性化服务与用户模型、信息检索,说明在网站数量激增的时代,越来越多的用户在获取信息服务时需要个性化服务,这直接吸引了学者对这方面的研究,这也是置信度和支持度高的原因。

总的来说,在个性化检索领域的研究主要集中在把本体理论引入,以解决检索词歧义等问题,让检索词更贴近自然语言,并考虑用户模型、用户兴趣,让用户直接参与进来,用户的兴趣通过关联规则挖掘,从而使查询更加精确,提高查询准确率。

4推论与结语
笔者通过对文献关键词的提取,发现在个性化检索领域,本体方法引入,如何更好的构建本体数据库是继续用解决的问题;用户兴趣是目前考虑最多的因素,而用户兴趣的获取途径以及获取的内容涉及到用户的隐私,如何能够在获取用户兴趣模型的同时不影响用户的隐私将是以后研究的重点。

本文的创新点在于将关联规则挖掘的方法引入到文献计量学中来对学科的研究热点进行分析,但由于时间和能力有限本文只研究了以题名个性化检索方面的文献,而对个性化搜索,个性化自动推送等相关的题名并未检索和研究,所得
结论有一定的局限性。

关于个性化方面文献的研究以及研究方法的改进有待于今后进一步加强。

参考文献:
[1]中国互联网络中心.第26次中国互联网络发展状况统计报告[R].2010
[2]徐洁磐.数据仓库与决策支持系统[M].北京:科学出版社,2005
[3]向阳,张巍.基于事务数据库的关联规则采掘算法研究[J].山东大学学报(自然科学版),
2001,20(2):55-59
[4]JiaweiHan,MichelineKamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001
[5]卲峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003
[6]张玉林等.一类表间多层次关联规则挖掘算法研究[J].管理工程学报,2002,16(2):53-56
[7]彭仪普,熊拥军.关联挖掘在文献借阅历史数据分析中的应用[J].情报杂志,
2005(8):40-45
[8]罗凤莉.基于关联规则挖掘的图书流通信息分析[J].晋图学刊,2007(2):33-36
[9]赵艳芝.对“个性化检索”研究现状的分析-基于关键词的关联规则挖掘.2008,52(7):
102-105
[10]蔡会霞等.关联规则的数据挖掘在高校图书馆系统中的应用[J].南京工业大学学报,
2005,27(1):85-88
[11]钱峰.基于SPSS知识地图的国内数据挖掘研究现状分析[J].情报科学.2008,26(6):
924-928
[12]Fayyad UM,Piatetsky Shapiro G,Smyth P.Advances in knowledge discovery and data
mining[M].California: AAAI/MITPress,1996。

相关文档
最新文档