基于关联规则的文本聚类算法的研究
数据挖掘技术中基于关联规则算法的研究

数据挖掘技术中基于关联规则算法的研究摘要数据挖掘的主要目的在于能够从大型的数据库中挖掘出对用户有价值的信息,以便为决策者地决策提供有用的数据依据本文对数据挖掘技术的概念和内容做出了描述,同时也对基于关联规则的数据挖掘技术进行比较全面的概括和分析,并提出解决相应问题的基于关联规则挖掘算法。
关键词数据挖掘;关联规则;算法中图分类号tp392 文献标识码a 文章编号 1674-6708(2011)45-0223-031 概述1.1课题的研究背景现代计算机科学技术发展的历史,同时也是数据和信息加工手段不断更新和改善的历史。
随着计算机硬件和软件不断的发展,尤其是数据库技术与应用的广泛推广,摆在人们面前的问题出现了,这些急剧膨胀的信息数据,如何有效利用这一丰富数据海洋的宝藏为人类服务,也已成为广大信息技术工作者所重点关注的焦点之一。
传统的收集数据技术可以在一定程度上对收集来的数据信息进行统计分析,能够获得一定的数据价值,这种传统的收集数据技术具有一定的效果,但当这种方法在面对海量的数据并从中进行数据分析时,却没有一个比较好的解决方案。
无论是数据的统计、数据的查询、数据的报表等这些传统的数据处理方式都是对收集来的数据简单的进行处理,而不能对这些数据内部所隐含的价值信息进行有效的提取和分析。
在这些大量数据的背后隐藏了很多具有决策意义的信息,如何得到这些能够为我们提供决策依据的数据依据已经成为当前的一个热点的研究方向。
1.2研究目的和意义数据挖掘技术是面向应用型的。
目前,在很多重要的领域,数据挖掘都可以发挥积极促进的作用,尤其是在如保险、交通、零售、银行、电信等商业应用领域。
数据挖掘能够帮助用户解决许多典型的商业性的问题,其中包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用评分、欺诈发现等等。
数据挖掘技术已经广泛的在企业市场的营销中得到了应用,它以市场营销学的市场细分原理为基础,通过对涉及到消费者消费行为的信息进行收集、加工和处理,得出结论以确定目标消费者地兴趣、消费倾向、习惯以及消费需求,从而能够推出目标消费者下一步的消费方向,然后以得出来的结论为基础,对目标消费者和消费群体进行定向的营销,这与传统的盲目营销的方式相比,可以在很大程度上节省因营销而产生的开支,能够提高营销的成功率,从而可以为企业带来更大的利润,也能够帮助企业树立起好的口碑。
wake实验报告

DW&DM课程实验报告学院:商学院班级:信管11-1姓名:***学号:************一、实验目的:使用数据挖掘中的分类算法、聚类分析、关联规则分析对数据集进行分类训练并验证。
二、实验内容:1.学习用WEKA进行聚类分析的操作方法2.学习用WEKA进行关联规则分析的操作3. 学会一种分类方法的操作三、实验步骤一、聚类分析(1)数据准备1. 数据文件格式转换使用WEKA作数据挖掘,面临的第一个问题往往是我们的数据不是ARFF格式的。
幸好,WEKA还提供了对CSV文件的支持,而这种格式是被很多其他软件,比如Excel,所支持的。
现在我们打开“bank-data.csv”。
利用WEKA可以将CSV文件格式转化成ARFF文件格式。
ARFF 格式是WEKA支持得最好的文件格式。
此外,WEKA还提供了通过JDBC访问数据库的功能。
2.“Explorer”界面“Explorer”提供了很多功能,是WEKA使用最多的模块。
3.bank-data数据各属性的含义如下:id: a unique identification numberage: age of customer in years (numeric)sex: MALE / FEMALEregion:inner_city/rural/suburban/townincome: income of customer (numeric)married:is the customer married (YES/NO)children: number of children (numeric)car: does the customer own a car (YES/NO)save_act: does the customer have a saving account (YES/NO)current_act:does the customer have a current account (YES/NO) mortgage: does the customer have a mortgage (YES/NO)pep: did the customer buy a PEP (Personal Equity Plan,个人参股计划) after the last mailing (YES/NO)上图显示的是“Explorer”打开“bank-data.csv”的情况。
大数据技术概论期末复习题2023-11(附参考答案)(1)

单项选择题1.下列各项不属于数据的是()oA.文本B.图像C.视频D.印象2.下列各项不属于大数据特征的是()。
A.体量大B.种类多C真实性 D.数据生成慢3.数据异常值的处理方法不包括()。
A.极小值替换B删除 C.忽略 D.视为缺失值进行填补4.下列各项不能用于描述数据集中趋势的是()。
A.方差B.平均数C中位数 D.峰值5.下列各项不属于Hadoop的特点是()。
A存储迅速 B.成本高C计算能力强 D.灵活性强6.在工业网络实时监控系统中,需要连续不断地采集和处理数据。
以下()不属于这种计算模式。
A.在线处理B.实时处理C.流式计算D.批量计算7,下面不是研究数据方法的是()。
A统计学 B.机器学习C心理分析 D.数据挖掘8.下面不属于大数据的处理过程的是()。
A.数据获取B.数据清洗C数据分析 D.数据安全9.下面不属于大数据计算模式的类型的是()。
A.批量计算B.手动计算C流式计算 D.交互式计算10.下列各项属于合规数据的是()oA.非法收集隐私信息数据B.取得使用者同意的个人资料数据C泄露的隐私信息数据 D.垄断数据11.在Had∞p生态系统中,主要负责节点集群的任务调度和资源分配,将存储和计算资源分配给不同应用程序的组件是()oA.HDFSB-MapReduce C.YARN D.Storm12.下列属于图数据的主要特性的是()。
A数据驱动计算 B.不规则问题C高数据访问率 D.以上均是13.可以用来查看数值型变量的分布的可视化方法是()。
A箱线图 B.直方图C小提琴图 D.以上方法均可以14.如果只是研究两个数值变量之间的关系,最常见的可视化方法是()。
A直方图 B.散点图C.饼图 D.折线图15.下列各项不属于批处理系统的特点的是()oA.可以实现实时的分析报告或自动响应B.可以实现无缝扩展以处理峰值数据量或数据请求C.支持数据在不同系统之间进行交换D.支持作业执行状态的监控16.下列各项属于非结构化数据的是()oA.图像B.二维数据表CHTM1文档D.以上均是17.在大数据的处理流程中,()步骤是将数据转化为图形,以更直观的方式展示和表达。
数据挖掘算法在电子商务中的使用教程

数据挖掘算法在电子商务中的使用教程随着互联网的快速发展,电子商务行业成为了全球经济的重要组成部分。
在这个竞争激烈的市场中,企业需要利用各种工具和技术来提高销售、预测市场趋势以及改进运营效率。
数据挖掘算法作为一种强大的工具,可以帮助电子商务企业挖掘潜在的商机,优化运营并提供个性化的用户体验。
本文将介绍几种常用的数据挖掘算法,并探讨它们在电子商务中的具体应用。
1. 关联规则算法关联规则算法是一种寻找数据集中项集之间的关联关系的方法。
它可以帮助企业发现隐藏在数据中的规律,并提供针对性的推荐。
在电子商务中,关联规则算法可以用于协同过滤推荐系统的构建。
通过分析用户购买历史或浏览记录,算法可以发现用户之间的相似性并推荐相关产品。
这种个性化推荐可以提高用户满意度和购买转化率。
2. 聚类算法聚类算法是将一组对象分成相似的子集的方法。
在电子商务中,聚类算法可以用于用户细分以及市场细分的研究。
通过对用户行为数据的分析,可以将用户划分成不同的群组,并了解他们的兴趣、需求和消费习惯。
这些信息可以帮助企业制定更加个性化和精准的营销策略,提高广告投放的效果和销售转化率。
3. 决策树算法决策树算法是一种用于分类和回归问题的监督学习方法。
在电子商务中,决策树算法可以用于构建精准的用户行为预测模型。
通过分析用户的历史浏览记录、购买记录和其他相关信息,算法可以预测用户的未来行为,例如是否会购买某个产品、对某个广告的反应等。
这些预测结果可以帮助企业优化广告投放和产品推荐策略,提高销售和盈利能力。
4. 神经网络算法神经网络算法是一种模拟人脑神经元工作原理的计算模型。
在电子商务中,神经网络算法可以用于构建用户情感分析模型。
通过分析用户在社交媒体、评论和评分等渠道的表达,算法可以了解用户的情感倾向,例如对产品的满意度、购买意愿等。
这些情感信息可以帮助企业更好地了解市场和用户需求,并及时调整产品策略。
5. 推荐算法推荐算法是一种根据用户兴趣和偏好向用户提供个性化推荐的方法。
数据挖掘实验报告结论(3篇)

第1篇一、实验概述本次数据挖掘实验以Apriori算法为核心,通过对GutenBerg和DBLP两个数据集进行关联规则挖掘,旨在探讨数据挖掘技术在知识发现中的应用。
实验过程中,我们遵循数据挖掘的一般流程,包括数据预处理、关联规则挖掘、结果分析和可视化等步骤。
二、实验结果分析1. 数据预处理在实验开始之前,我们对GutenBerg和DBLP数据集进行了预处理,包括数据清洗、数据集成和数据变换等。
通过对数据集的分析,我们发现了以下问题:(1)数据缺失:部分数据集存在缺失值,需要通过插补或删除缺失数据的方法进行处理。
(2)数据不一致:数据集中存在不同格式的数据,需要进行统一处理。
(3)数据噪声:数据集中存在一些异常值,需要通过滤波或聚类等方法进行处理。
2. 关联规则挖掘在数据预处理完成后,我们使用Apriori算法对数据集进行关联规则挖掘。
实验中,我们设置了不同的最小支持度和最小置信度阈值,以挖掘出不同粒度的关联规则。
以下是实验结果分析:(1)GutenBerg数据集在GutenBerg数据集中,我们以句子为篮子粒度,挖掘了林肯演讲集的关联规则。
通过分析挖掘结果,我们发现:- 单词“the”和“of”在句子中频繁出现,表明这两个词在林肯演讲中具有较高的出现频率。
- “and”和“to”等连接词也具有较高的出现频率,说明林肯演讲中句子结构较为复杂。
- 部分单词组合具有较高的置信度,如“war”和“soldier”,表明在林肯演讲中提到“war”时,很可能同时提到“soldier”。
(2)DBLP数据集在DBLP数据集中,我们以作者为单位,挖掘了作者之间的合作关系。
实验结果表明:- 部分作者之间存在较强的合作关系,如同一研究领域内的作者。
- 部分作者在多个研究领域均有合作关系,表明他们在不同领域具有一定的学术影响力。
3. 结果分析和可视化为了更好地展示实验结果,我们对挖掘出的关联规则进行了可视化处理。
通过可视化,我们可以直观地看出以下信息:(1)频繁项集的分布情况:通过柱状图展示频繁项集的分布情况,便于分析不同项集的出现频率。
基于CLIQUE的聚类算法研究

的 新路 )
!
引言
聚类 分析 是数 据 挖掘 中 的 核 心 技术 , 聚 类在 电
本 文不 同 于 其 它 类 似 文 章 仅 限 于 对 聚 类 算 法 作 总体 性的 逐 个 论 述 , 它 按 照 -./012 聚 类 算 法 的 发 展脉 搏 的 主 线, 以其算法的局 限性为依据, 比较 全 面地 对各 类改 进 算法 进 行 分析 比 较 , 并给出了比 较 的结 果, 使用户对各类算法的 优缺点更清楚, 使 用 更明 确, 并对 其未来 的发 展方 向进 行了 展望 )
基 于
-./012
付
的 聚 类 算 法 研 究
淇, 李正凡
( 华 东 交 通 大学 信 息 工 程 学 院 , 江 西 南 昌 ++""’+ )
摘要: 聚类分析是数据 挖 掘研 究 领 域中 一 个非 常 活 跃 的研 究 课 题 ) 本 文 重 点 分析 了 高 维 度数 据 的 自 动子 空 间 聚 类算 法 ( -./012) 及其各类改进算 法, 并对其未来发展方向进行了简要展望 ) 关 键 词: 数据挖掘; 聚类; 子空间 -./012; 文献标识码: 5 中图分类号: 34+’ ’
收稿日期: !""# $ "% $ !& 作者简介: 付 淇 (’&%( $ ) 女, 江西临川人, 华 东交通大学硕士研究生, 主要研究 向为 挖掘 )
NM
华
东
交
通
大
学
学
报
6M MO 年
先对 每个 属性 进 行 ! 等 分 , 整 个 数 据 空 间 就 被划 分 为 一 个 超 长 方 体 集 合, 对每个单 元进行数 据点计 数, 大于 某个 阈值 "的 单元 称为 稠密 单元 , 然后 对稠 密单 元进 行 连 接 就 构 成 类 ! 不 同 于 其 它 方 法, 它可 以 自动 地识别 嵌入 在数 据子 空间 中的 类 ! 定 理 " (反 单调 性质 ) 如 果 点集 # 在 ! 维空 间 中是 一个类 , 那 么 # 在任 何 ( ! $ %) 维 空 间中 的投 影 也构 成一个 类 ! 定 理 % 的 一种 等价 形 式 可 以 表 述为 : 如 果点 集 ( ! $ %) 维空 间 中 的投 影 不 是 一个 类 , 那么 # 在 一个 # 在 ! 维 空间 中 也不 构 成 一个 类 ! 上 面 的 叙 述表 明 从 “ 不是” 的 角 度 看, 该 性 质 是 单 调 的, 称这种性质 为反 单调 性 质 ! 在 高 维 空 间 子 空 间 中 进 行 聚 类 时 , 可以 利用 该性 质 进行 “ 剪枝 ” , 其 用法 类 似 于 发现 关 联规 则 的 &’()*() 算法 ! 一 个 +",-./( 是 指 连接 的 密集 单 元的 最大集 合 ! !! ! 012345 的优 点和 局限性 对数 据 012345 具 有网 格类 算法 效率高 的优 点, 输入 顺序 不 敏 感, 无需假设任何规范的 数据分布 ! 它随 输入 数据 的 大小 线 性 地扩 展 , 当 数 据 维 数增 加 时具 有良 好的 可 伸缩 性 , 对 于 大型 数 据 库 中 的高 维 数据 的聚 类非 常 有效 ! 但 需 要 用户 输 入 数 据 聚类 空 间 等间 隔距 离 和 密 度 阈 值 参 数 ! 但 是 012345 不 能 自动 去除 孤 立 点 , 并且由于方法大大简化, 它也存 在 着很 多的局 限性 , 主 要是 以下 几个 方面: 这 %)012345 算 法采 用 固 定 划 分 网 格 的 方 法, 很容 易破 坏密 集 区域 的 边 缘, 降低 最 终 结 果 的准 确 性! 6)012345 算法 不能 自动 去除 数 据集 中 的 孤立 点, 需要 增 加 额 外 的 计 算 步 骤 去 除 孤 立 点 , 这就增 加 了计 算复杂 性 ! 7)012345 算法 利用 最小 描述 长 度技 术 来 进行 剪枝 , 以 减少 候选 密 集单 元 的 数 目 ! 但 是, 利 用这 种 技术 可能 会剪 掉 一些 密 集 单元 , 对 最 终 的 聚 类结 果 质 量造 成影响 ! 8)012345 算 法 的 很 多 步 骤 都 采 用 近 似 算 法 , 聚 类结 果的精 确性 可能 因此 降低 !
银行工作中的数据挖掘方法与案例分享
银行工作中的数据挖掘方法与案例分享在当今信息爆炸的时代,数据已经成为各行各业的重要资源。
银行作为金融行业的重要组成部分,也不例外。
银行拥有大量的客户数据、交易数据等,利用这些数据进行数据挖掘分析,可以帮助银行更好地了解客户需求、优化业务流程、提高风险控制能力等。
本文将介绍银行工作中常用的数据挖掘方法,并分享一些实际案例。
一、关联规则挖掘关联规则挖掘是一种常见的数据挖掘方法,它可以帮助银行发现不同变量之间的关联关系。
例如,银行可以利用关联规则挖掘分析客户的消费习惯,从而精准地推送相关产品和服务。
此外,关联规则挖掘还可以用于分析信用卡交易数据,帮助银行发现异常交易行为,提高风险控制能力。
案例分享:某银行利用关联规则挖掘分析信用卡交易数据,发现了一组异常交易行为。
这些交易都发生在深夜,并且金额较大,与持卡人平时的消费习惯明显不符。
通过进一步调查,银行发现这些交易是由盗刷者所为。
及时发现并阻止了这些异常交易,银行成功保护了客户的资金安全。
二、聚类分析聚类分析是一种常用的无监督学习方法,它可以将数据集中相似的样本归为一类。
在银行工作中,聚类分析可以帮助银行发现不同客户群体的特征和行为模式,为精准营销和定制化服务提供依据。
案例分享:某银行利用聚类分析对客户进行分群,发现了两个明显的客户群体:一类是年轻人,他们更倾向于使用移动支付和线上银行服务;另一类是中老年人,他们更喜欢传统的网点服务。
基于这一发现,银行针对不同客户群体推出了不同的产品和服务,提高了客户满意度和业务收入。
三、决策树算法决策树算法是一种常用的监督学习方法,它可以根据已有的数据建立决策树模型,用于预测和分类。
在银行工作中,决策树算法可以帮助银行进行风险评估和信用评级。
案例分享:某银行利用决策树算法对客户进行信用评级,根据客户的个人信息、财务状况等指标,预测客户的信用状况。
通过信用评级,银行可以更好地判断客户的还款能力,从而制定相应的贷款政策和利率。
一种基于词共现的文档聚类算法
1 概述
当前关 于文档 聚 类的研 究多基 于 向量空 间模型 (etr V co S aeMo e V M) pc d l S ,然而 V M 忽略 了词问的语义关联 ,对 , S
共现词组合是指出现 在同一语境 中的 2个词语 ,它忽略 了词语 的位置及先后顺序 ,只要 2个词在 同一语境单元中出
表示模 型,将其应用于层次聚类算法中 ,并通 过聚类熵 寻找最优 的层 次划分 ,从而准确反映文档之 间的主题相关关系。实验结果表 明,该
算法所获得 的结果 优于其他基于短语 的文档层次聚类算法 。
关健词 :文档 聚类 ;文档模型 ;词共现 ;文档相似度 ;聚类增益
Do u e tCl s e i gAl o ih s d 0 o d Co o c r e c c m n u t rn g r t m Ba e n W r ・ c u r n e
h e a c i a l se i g ag rt m ,t r ug e c u t rn n r p o fn h e tl v lp rii n n c u a e y r fe t he r l to s i e we n i r r h c lc u trn l o i h h o h t l s e g e to y t d t e b s e e a t o ,a d a c r t l e c s t e ai n h p b t e h i i t l
中 圈分类号:T 31 P0. 6
种 基 于词 共 现 的 文档 聚 类算 法
常 鹏 lb a ,冯 , l 楠h ,马 辉 。
(. 1 天津大学 a 管理与经济学部 ;b 信息与 网络 中心 ,天津 30 7 ;2 天津城市建设学院管理工程系,天津 308) . . 002 . 034 摘 要: 为解决文本主题表达存在的信息缺失问题 , 出一种基于词共现 的文档聚类算法 。利用文档集 上的频 繁共现词建立文档主题 向量 提
基于聚类算法的文本分类研究
基于聚类算法的文本分类研究文本分类是自然语言处理领域的重要研究方向之一。
它的基本任务是将给定的文本分成不同的类别,这对信息检索、舆情分析、垃圾邮件过滤等应用具有重要意义。
随着社交媒体和互联网技术的不断发展,海量文本数据也不断涌现,如何高效、准确地对这些文本进行分类成为了研究的热点之一。
本文主要探讨基于聚类算法的文本分类研究。
聚类算法是一种常见的无监督学习算法,在数据挖掘、模式识别等领域得到广泛应用。
在文本分类中,聚类算法可以通过自动对数据集进行分组,找到数据点间的相似性,从而实现文本的自动分类。
一、文本分类的基本方法文本分类的基本方法通常分为两种:有监督学习和无监督学习。
有监督学习指的是,需要预先定义好分类的标签和特征,在已知数据集的情况下,通过机器学习算法让机器学习分类的规则,从而对未知数据进行预测。
常见的有监督学习算法有朴素贝叶斯、支持向量机、决策树等。
无监督学习则不需要预先定义标签和特征,它可以自动从未分类的数据中发现类别以及类间关系。
常见的无监督学习算法包括聚类、主题模型、关联规则挖掘等。
在文本分类中,有监督学习需要人工定义分类标签和特征,需要大量的标注数据和专业知识,难度较大。
而无监督学习可以自动、高效地对文本进行分类,不需要先验标签,更加适合大规模、多样化的文本分类任务。
因此,聚类算法也成为了文本分类中常用的无监督算法之一。
二、聚类算法的基本原理聚类算法是一种经典的无监督学习算法,它的基本思想是将数据分成有意义的组或簇。
在文本分类中,聚类算法可以自动发现文本数据集中的不同主题或类别,从而实现文本的自动分类。
聚类算法包括层次聚类和划分聚类两种类型。
层次聚类是一种自底向上的聚合方法,常见的算法有凝聚层次聚类(AGNES)和分裂层次聚类(DIANA)等。
划分聚类是一种自顶向下的划分方法,常见的算法有K-Means、DBSCAN、谱聚类等。
在聚类算法中,距离度量是关键的因素之一。
距离度量常用的有欧式距离、余弦相似度、曼哈顿距离等。
大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)
⼤数据的常⽤算法(分类、回归分析、聚类、关联规则、神经⽹络⽅法、web数据挖掘)在⼤数据时代,数据挖掘是最关键的⼯作。
⼤数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的⼤型数据库中发现隐含在其中有价值的、潜在有⽤的信息和知识的过程,也是⼀种决策⽀持过程。
其主要基于,,模式学习,统计学等。
通过对⼤数据⾼度⾃动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、⽤户调整市场政策、减少风险、理性⾯对市场,并做出正确的决策。
⽬前,在很多领域尤其是在商业领域如、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、危机等。
⼤数据的挖掘常⽤的⽅法有分类、回归分析、聚类、关联规则、⽅法、Web 数据挖掘等。
这些⽅法从不同的⾓度对数据进⾏挖掘。
数据准备的重要性:没有⾼质量的挖掘结果,数据准备⼯作占⽤的时间往往在60%以上。
(1)分类分类是找出数据库中的⼀组数据对象的共同特点并按照分类模式将其划分为不同的类,其⽬的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。
可以应⽤到涉及到应⽤分类、趋势预测中,如淘宝商铺将⽤户在⼀段时间内的购买情况划分成不同的类,根据情况向⽤户推荐关联类的商品,从⽽增加商铺的销售量。
分类的⽅法:决策树——是最流⾏的分类⽅法特点:a、它的每次划分都是基于最显著的特征的;b、所分析的数据样本被称作树根,算法从所有特征中选出⼀个最重要的,⽤这个特征把样本分割成若⼲⼦集;c、重复这个过程,直到所有的分⽀下⾯的实例都是“纯”的,即⼦集中各个实例都属于同⼀个类别,这样的分⽀即可确定为⼀个叶⼦节点。
在所有⼦集变成“纯”的之后,树就停⽌⽣长了。
决策树的剪枝:a、如果决策树建的过深,容易导致过度拟合问题(即所有的分类结果数量基本⼀样,没有代表性);b、剪枝通常采⽤⾃上⽽下的⽅式。
每次找出训练数据中对预测精度贡献最⼩的那个分⽀,剪掉它;c、简⾔之,先让决策树疯狂⽣长,然后再慢慢往回收缩。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引言
算法的流程设计
文本聚类 [1]是一种有效的文本挖掘方法 ,能从大量文本 数据中发现潜在的知识和规律 。它不仅是知识获取技术 ,也是 一种文本处理过程 ,它是一种典型的无指导的机器学习问题 。 把一个文档集分成若干称为簇的子集 ,每个簇中的成员之间具 有较大的相似性 ,而簇与簇之间的文档具有较小的相似性 。经 典的文本聚类算法很多 ,其中 K2均值聚类算法 [2 ]是目前比较 流行的一种基于划分的算法 。该算法中文档相似度计算通常 采用基于 TF2IDF函数的 cosine公式 。其缺点是 : a)算法效果 与样本输入的次序和词频相关 [3 ] 。只有当句子包含的词数足 够多时 ,相关的词才会重复出现 ,其效果才能体现出来 ,因此只 适合于词频出现频率较多的大文档 ,对于表达较简单或较短的 文档分类效果不佳 。 b)该方法只考虑了词在上下文中的统计 特性 ,而没有考虑词本身的语义信息 [4 ] ,因此具有一定的局限 性 。本文提出了一种基于关联规则的 K2均值聚类算法 ,计算 句子相似度时不仅使用 TF2IDF函数而且结合词语间的关联度 值 ,减少了相似度对于输入次序和频数的敏感度 ,有效地提高 了小文档或者简单句子的聚类结果的准确度 。
基于关联规则的 K2均值聚类算法模型采用了联合挖掘的 思想 ,如图 1所示 。
首先对文档集进行切词预处理 ,然后分两部分处理 。第一 部分对文档中每个词进行权重计算 ,根据权重进行文本特征向 量表示 ;第二部分将每个文档视为一个事务 ,文档中的关键词 组视为事务中的一组事务项 ,执行关联规则算法 ,得出基于词 语的关联规则 ,并按照文中给出的算法求出词语间的关联度矩 阵 。由以上两部分结果和文中给出算法计算出句子间的相似 度值 ,即可执行聚类算法得到几个簇的子集 。在每个子集上再 次执行关联规则算法 ,即将聚类算法作为关联规则的预处理 ,
第 25卷第 4期 2008年 4月
计算机应用研究 App lication Research of Computers
Vol. 25 No. 4 Ap r. 2008
基于关联规则的文本聚类算法的研究 3
曲守宁 , 王 钦 , 邹 燕 , 朱 强
(济南大学 信息科学与工程学院 , 济南 250022)
函数权重十分相似 ,但是它将长度归一化因子作为计算词权重
的因素 :
weight( i) = [ TFij ×log (D /DFi ) ] /
M
∑
K =1
[
TFk
j
×log ( D
/DFk )
]
(2)
某文档包含的关键词为 W 1 , W 2 , …, W n , 则该文档可以用
一个 n维向量 T =〈T1 , T2 , …, Tn 〉来表示 。其中 T1 为 W 1 的权
Research on text clustering algorithm based on association rule
QU Shou2ning, WANG Q in, ZOU Yan, ZHU Q iang
( S chool of Inform a tion S cience & Eng ineering, J inan U n iversity, J inan 250022, China)
Abstract: K2means clustering algorithm is a kind of better text categorization algorithm. Its sim ilarity calculation is based on the word frequency statistics. Because the word frequency of short or simp le document is low, result of the K2means clustering method is not desirable. To solve above mentioned p roblem s, put forward a kind of K2means text clustering method based on association value of words. Firstly, conducted the association rule algorithm on the short document sets to get the association rules about key words. Got the matrix about words’association by using the key words association rule. Secondly, exp ressed text eigenvector by weight of words in the document. Finally, according to the matrix about words’association and text eigen2 vector exp ressing, got the sim ilarity value of documents by certain algorithm. Experiment show s that it can get the efficient clustering results. Not only app lies the frequency of words in this method, but also consider the association of words. Key words: text clustering; K2means clustering; association rules; weight
收稿日期 : 2007201218; 修 回日期 : 2007204219 基金 项目 : 国家 自然科 学基金 资助项 目 ( 60573065 ) ; 国家“863 ”计 划资助 项目 (2002AA4Z3240) ; 教育部的世行贷款 ———21世纪初高等教育教学改革资助项目 (1283B0843) 作者简介 :曲守宁 (19622) ,男 ,山东烟台人 ,副院长 ,教授 ,硕导 ,主要研究方向为计算机网络与信息系统 、数据仓库与数据挖掘 ( qsn@ ujn. cn) ; 王钦 (19802) ,女 ,山东青岛人 ,硕士研究生 ,主要研究方向为数据仓库与数据挖掘 、答疑系统与信息管理 ;邹燕 ( 19822) ,女 ,山东烟台人 ,硕士研究 生 ,主要研究方向为数据挖掘与信息管理 ;朱强 (19832) ,男 ,山东德州人 ,硕士研究生 ,主要研究方向为数据挖掘与信息管理.
第 4期
曲守宁 ,等 :基于关联规则的文本聚类算法的研究
·9 87 ·
可以得出每个子集上的词语关联度 ,因此构成的关联度矩阵更 加准确 。这一步可执行 n次 ,以不断提高聚类准确度 。
相关算法及关键技术
1 切词技术与权重计算
中文分词技术 [5]属于自然语言处理技术范畴 ,是文本挖
掘技术的方法之一 。现有的分词算法可分为基于字符串匹配 、
小可信度的规则 ;最后得到关联规则 。
本文将所有文档集视为事务数据库 ,将每个文档含有的词
语集合视为项目集 ,执行关联规则算法 ,得出关于关键词之间
的关联规则 ,以计算词语之间的相关度 。
1 2均值聚类算法
执行聚类算法前 ,首先要对文档进行文本特征表示 ,计算 出句子相似度 。设问答库中某一文档由 (W 1 , W 2 , …, Wm )共 m 个词构成 ,另一文档由 (W ′1 , W ′2 , …, W ′n )共 n个词构成 , 则这 两个句子之间的关系矩阵可以表示为
Si = S′i = sum1 = sum2 = 0; for( i = 1; i < = n; i + + ) { for( j = 1; j < = m; j + + ) { Si = Si + T′i 3 R [ i] [ j] ; / / Si 为关键词 W ′i 对文档 1的关联度 ; S′i = S′i + Ti 3 R [ i] [ j ] ; / / S′i为关键词 W i 对文档 2的关联度 ; }
重值 。
1 关联规则算法
关联规则 [7]算法在商业等领域的成功应用 ,使关联规则
算法成为数据挖掘中最成熟最活跃的研究内容 。在关联规则
中 , D 是所有事务的集合 , 假设 X、Y 是数据项集 , 则关联规则
表示为 ( T中包含 X ) = > ( T中包含 Y ) , 通常简写为 X = > Y。
R 11 R 12 R 13 … R1m
R 21 R 22 R 23 … R2m
⁝⁝⁝
⁝
R n1 R n2 R n3 … R nm
其中 : Rnm表示关键词 W n 和 Wm 的关联度 。具体计算算法如下 : if Wm =W ′n
then Rnm = 1 else { for each record of association table if W 1 and W 2 ∈record then i + + ; Rnm = ( i - a) / ( i + a) / / a为一个默认参数 } else Rnm = b / / b为一个默认参数
support ( X ) =σx / |D |
(3)
项目集 X 的可信度 c即 confidence ( X = > Y) :
confidence ( X = > Y) = support( X ∪Y) / support( X )
(4)
关联规则的挖掘实际上就是首先找出事务数据集 D 中所
有大于等于最小支持度的频集 ;然后在频集上找出大于等于最
词的权重 :
weight = TF ×IDF = TF ×lg[ D /DF (W ) ]