基于兴趣度的Apriori算法在电子病历数据分析中的应用_刘立刚
基于粒计算的Apriori算法及其在图书管理系统中的应用

基于粒计算的Apriori算法及其在图书管理系统中的应用邱桃荣;白小明;张丽萍
【期刊名称】《微计算机信息》
【年(卷),期】2006(000)07X
【摘要】粒计算作为一种新的信息和知识处理的方法近来已经被许多研究者所重视,以及在许多领域中的得到应用。
本质上,计算能够表示存储在系统中的数据的语义信息,因此粒计算能作为用于探索数据性质的一种方法,如挖掘数据库中的关联规则。
本文在分析经典Apfiofi算法的基础上,从信息粒的角度出发,提出基于粒计算生成k-频繁项目集算法。
分析了对给定问题,当用粒计算模型求解时需要解决的几个基本问题。
最后通过实例说明如何通过信息粒的二进制表示.并基于粒计算k-频繁项目集生成算法来获取隐藏在图书借还记录中的有关关联规则。
可以看出该算法具有实际应用价值。
【总页数】4页(P218-221)
【作者】邱桃荣;白小明;张丽萍
【作者单位】南昌大学计算机系,南昌330029
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于组件的3层结构在图书管理系统中的应用 [J], 吕牧孙;纪瑛瑛;徐文杰
2.基于MVC模式的Struts框架在图书管理系统中的应用 [J], 顾春霞;张广泉
3.基于粒计算的Apriori算法及其在图书管理系统中的应用 [J], 邱桃荣;白小明;张丽萍
4.基于粒计算的模糊神经建模方法在电能输出预测中的应用 [J], 孙文越;张建华;王如彬
5.基于Phpcms在职业院校图书管理系统中的开发与应用 [J], 郑君
因版权原因,仅展示原文概要,查看原文内容请购买。
Apriori算法在糖尿病电子病历挖掘分析中的应用

Apriori算法在糖尿病电子病历挖掘分析中的应用作者:刘伟业何永红来源:《电子技术与软件工程》2016年第11期摘要随着人民生活水平的提高和人口老龄化加重,糖尿病患者人数增长迅速,研究糖尿病对减轻患者家庭和社会医疗负担具有重要意义。
本研究利用Apriori算法对美国Health Facts医疗数据库中17018份糖尿病患者的电子病历进行关联规则分析,辅助医生根据患者的一个或多个属性特征对病情或治疗方案做出临床判断。
【关键词】糖尿病 Apriori算法关联规则糖尿病是由于人体胰岛素分泌不足,加上机体靶细胞对胰岛素敏感性下降而引起的以慢性血糖水平增高为显著特征的代谢类疾病。
中华医学会糖尿病分会于 2007-2008 年对全国 14 个省市进行了流行病学调研,结果发现 20 岁以上的成年人糖尿病患病率为 9.7%,总的糖尿病患者数达 9240 。
关联规则问题由Agrawal等人在1993年提出,近年来许多研究者对关联规则进行大量方法理论研究和应用研究,在临床数据分析中也得到了充分应用,而Apriori算法是关联规则中的经典算法。
1 Apriori算法原理Apriori算法的核心是利用逐层搜索迭代的方式获取事务数据库中所有的频繁项集,用k项频繁项集去寻找k+1项频繁项集,直到不存在k+1项频繁项集为止。
然后根据频繁项集,计算出所有的强关联规则。
2 用Apriori算法对糖尿病电子病历进行关联规则分析2.1 从Health Facts数据库中提取所需糖尿病数据及预处理本研究使用来自美国的“Health Facts”医疗数据库中130家医院1999-2008年间的糖尿病患者病历数据,提取其中做过糖化血红蛋白检测(HbA1c)糖尿患者,共 17018 名患者,以分析糖尿病患者年龄、住院时长、用药量等特征之间的相关关系,在进行关联规则分析前,首先对数据进行预处理,包括数据清理、数据抽取及数据转换等。
本研究选取的糖尿病患者12个属性(gender—性别,age—年龄,A1cresult—糖化血红蛋白检测值,insulin—胰岛素用量等)进行分析。
Apriori算法在高校教学评价系统中的应用研究

Apriori算法在高校教学评价系统中的应用研究
崔园
【期刊名称】《数字技术与应用》
【年(卷),期】2017(000)008
【摘要】教学评价系统是高校教学质量监控体系的重要环节,本文主要阐述了数据挖掘的关联规则中Apriori算法,并用它对教学评价结果做进一步分析,尝试从中挖掘出潜在的有价值的信息.这些信息可作为教学管理部门进一步决策的参考依据,以便有效提升教育教学质量,加快实现教育现代化.
【总页数】2页(P124-125)
【作者】崔园
【作者单位】成都医学院人文信息管理学院计算机教研室,四川成都610083【正文语种】中文
【中图分类】G642
【相关文献】
1.基于Apriori算法的教学评价系统 [J], 邓慧
2.基于关联规则算法的高校教学评价系统的应用研究 [J], 宋荣;李霞婷;
3.基于Apriori算法的校园教学质量评价系统设计 [J], 张鸿雁
4.Apriori算法在高校教学评价系统中的应用研究 [J], 崔园
5.大数据背景下PDCA在高校教学质量评价系统中的应用 [J], 乔洁;李方方;高云因版权原因,仅展示原文概要,查看原文内容请购买。
Apriori优化算法在临床数据挖掘中的应用分析

集挖 掘算法 。应用优化算法对病人就诊数据进行挖掘分析 ,与传统的频繁项集挖掘算法相 比 ,优 化 算法在执行效 率上有明显的提高 ,对 临床 实践研究提供有价值 的指导意见 。 【 关键词】 临床数据挖掘 ;关 联规则 ;频繁项集 ;无 向项集 图 【 中图分类号】 T P 3 1 [ 文献标识码】 A [ 文章编号】 1 0 0 8 — 1 7 8 X( 2 0 1 3 ) 0 2 — 0 0 4 5 — 0 4
第 3 2 卷第 2 期
Vo 1 . 3 2 No . 2
长 春师 范 学 院学报 ( 自然科 学版 )
J o u r n a l o f C h a n g c h u n N o r ma l U n i v e r s i t y ( N a t u r a l S c i e n c e )
一
【 收稿 日期】 2 0 1 3 - 0 1 — 0 4 【 作者简介】 陈安娜( 1 9 7 8 一) ,女 ,福建漳 州人 ,漳 州卫 生职业 学院信息技术部讲师 ,硕士 ,从事We b ]  ̄ 、数据挖掘研 究。
・
45 ・
现 在基 于文 献[ 5 ] 所 给的病 人就诊 数据 进行 算法优 化 分析 ,产生 频繁项 集 。 2 . 1 事务 集 的布尔矩 阵表 示 对 于任 一给定 的事 务集 D,令
置信度c : 指 出现项集 A 的事务集D 中,项集B 也同时出现的概率 ,c o n i f c e n c e ( A  ̄B ) = P ( A I B ) = P ( AuB ) / P ( A ) 。 为 了发 现 有 意 义 的规 则 ,需 要 预 先 设 定 两 个 阈 值 , 即最 小 支 持 度 ( m i n — s u p ) 和 最 小 置 信 度
一种改进的APRIORI算法在电子商务中的应用

至此 , 生成 了4个分段的频繁项集 , 将这些频繁 项集相互组合 , 就进一步生成分段组合的频繁项集. 分别为是 { ,,, ,a cI, } …,a cfg1, acfg} { ,, o , { ,,,,I n T 0P S. , ,}验证之后 , 将其 中不满足最小支持 度的去 除, 可得最终频繁项集是 { ,, g . acf } ,
认 可度 均得 到提升 .
关键词 :P I R 算法; A RO I 电子商务 ; 推荐 系统
中 图分类 号 :P0 . T 3 16 文献标 识码 : A
商 品采 购者 在 电子商务 活 动 的过程 中通 过 We b方式进行信 息流 的交互. 通过数据挖掘技术 , 可以运用分类 、 关联 、 聚类 等技术手段 , 中提取 出 从 有利于市场策略的数据¨ . 关联规则挖掘在这个过 程中起到 了不可或缺的作用 , 通过在 电子商务中发 现事务数据库中不 同商品间的关联关 系, 确定客户 购买行为模式 , 可以广泛应用于电子商务数据管理 和客户关系管理. 在进行关联分析中, 人们常常采用 A rr算法进行分析 , po ii 本文在分析算法不足的基础 上 , 出了一 种 改 进 的 分 段 A r r算 法 , 到 分 布 提 pii o 达 化、 并行化寻找频繁项集的 目的, 以便于对客户进行
否则 , 转到 步骤 ( ) 7;
( )由频繁项集根据最小置信度 r ncn, 7 a —of产 i 生强关联规则 , 算法结束. 随着电子商务的发展 , 关联规则挖掘被广泛应 用, 它能够对大量的数据进行快速的分析 , 发现其关 联, 从而有利于决策分析和商业管理. 电子商务的市
智能科学技术论文:浅谈基于Apriori算法的关联规则在疾病诊断中的应用

智能科学技术论文:浅谈基于Apriori算法的关联规则在疾病诊断中的应用随着计算机技术的发展,数据库及信息管理在医疗机构的应用越来越广泛,如何在浩瀚的数据中找出有价值的知识和规则,为疾病的诊断和治疗提供科学的依据,从而更好地为医院的医疗、科研和教学服务是当前急需解决的问题[1]。
本文通过关联规则挖掘疾病与症状的关联模式,期望对疾病的诊断提供有价值的参考。
1 数据挖掘在疾病诊断中的应用医学数据库是庞大的数据资源,每天都会有大量相同或相似的信息存储其中。
医学数据库中含有海量的原始信息,其中包括大量模糊的、不完整的、带有噪声的信息,在数据挖掘之前,必须对这些信息进行清理和过滤,确保数据一致性,将其变成适合挖掘的形式。
2 关联规则的基本概念关联规则挖掘是数据挖掘中最活跃的研究方法之一,最初用于购物篮分析,通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购物习惯。
要原因可能由感冒引起的。
当病人到医院向医生求助时,会主动描述自己的症状,医生会根据病人的描述,主动询问一些其他可能发生的症状,以进一步对病人的病情有所了解。
医生对病人的症状及疾病的诊断主要依据专业知识以及多年的临床经验,但有可能发生失误,影响病人的最佳治疗时机,从而引起医疗纠纷。
若能将所有关联规则置于信息系统中,则可减少上述错误发生的概率。
当医生将病人描述的症状输入到计算机时,系统便可根据关联规则,提醒医生该病人可能患有其他症状,而这些症状可能都是由某种疾病引发的。
此外,当病人身体不适去医院就诊时,往往不清楚该挂那个科。
当病人就诊时,被告知挂错号,不仅造成医疗资源的浪费,还可能会耽误病人的治疗。
若能在服务台的自助系统中加入关联规则搜索功能,病人可以根据自己的症状查询应该挂哪个科。
4 结语本文将基于Apriori算法的关联规则应用于疾病诊断,尝试挖掘症状和疾病之间的关联。
除此之外,关联规则的数据挖掘技术还可以为医疗提供更多潜在的、有价值的信息。
基于兴趣度剪枝的Apriori优化算法
基于兴趣度剪枝的Apriori优化算法
刘上力;杨清
【期刊名称】《郑州轻工业学院学报(自然科学版)》
【年(卷),期】2011(026)004
【摘要】鉴于关联规则挖掘中的Apriori算法在挖掘潜在有价值、低支持度模式时效率较低,因此提出一种优化的Apriori挖掘算法,即在频繁项集挖掘中引入项项正相关兴趣度量剪枝策略,有效过滤掉非正相关长模式和无效项集,从而扩大了可挖掘支持度阈值范围.实验结果表明,该算法是有效和可行的.
【总页数】4页(P68-71)
【作者】刘上力;杨清
【作者单位】湖南科技大学网络信息中心,湖南湘潭411201;湖南科技大学网络信息中心,湖南湘潭411201
【正文语种】中文
【中图分类】TP392
【相关文献】
1.基于贝叶斯网络的频繁模式兴趣度计算及剪枝 [J], 胡春玲;吴信东;胡学钢;姚宏亮
2.基于兴趣度的Apriori算法在电子病历数据分析中的应用 [J], 刘立刚;钟锐;杨娟
3.基于Apriori有效关联规则及其兴趣度的研究 [J], 常少春
4.基于APRIORI算法和兴趣度的糖耐量实验数据关联规则挖掘和筛选 [J], 苏凯; 程鹏
5.基于改进兴趣度度量与Apriori算法的交通事故多发点成因分析 [J], 王颖志;沈雅婕;王立君
因版权原因,仅展示原文概要,查看原文内容请购买。
Apriori算法和矩阵分析在医学数据分析中的应用比较
Apriori算法和矩阵分析在医学数据分析中的应用比较左颖;陈祖林【期刊名称】《江西科学》【年(卷),期】2012(030)004【摘要】The Apriori algorithm was mainly used to analysis the association of 2104 retrieval data which have been collected in this article,and relative rules between some diseases have been summaried.Then,the dataset was again analysised through statistical analysis method.Futhermore,two methods were mutually controlled in this paper,and not only the ranking results of the close degree which show the relationship between the type 2 diabetes mellitus and its complications has been confirmed,but also the new way of medical data analysis were explored.%主要通过用Apriori算法对临床收集的2 104条体检数据进行关联分析,得到一些病症之间的关联规律,再应用统计分析的方法对数据集进行验证性分析,并将2种分析方法进行比较,相互印证得出了"2型糖尿病"与关联并发症按照密切程度排序的结果,探寻了医学数据分析的途径。
【总页数】4页(P532-535)【作者】左颖;陈祖林【作者单位】武警江西总队医院,江西南昌330033;武警江西总队医院,江西南昌330033【正文语种】中文【中图分类】TP311.13【相关文献】1.改进的Apriori算法在大学生心理数据分析中的应用 [J], 王璇2.基于兴趣度的Apriori算法在电子病历数据分析中的应用 [J], 刘立刚;钟锐;杨娟3.基于数组的Apriori算法在体质测试数据分析中的应用 [J], 刘辛;杨素锦4.加权Apriori算法优化及其在商品销售数据分析中的应用 [J], 邵婷婷5.加权Apriori算法优化及其在商品销售数据分析中的应用 [J], 邵婷婷;因版权原因,仅展示原文概要,查看原文内容请购买。
基于Apriori算法的用户行为数据挖掘研究
基于Apriori算法的用户行为数据挖掘研究
丁丽
【期刊名称】《科技通报》
【年(卷),期】2013(29)12
【摘要】据用户行为数据发现客户行为特征及习惯,实现对用户数据进行有价值提取及分析,本文提出了基于改进的Apriori算法改进的用户数据挖掘的研究。
先对Apriori算法流程进行了分析,接着根据Apriori算法在效率及精度的不足提出三个方面的改进,最后运用实例仿真对算法性能进行验证,实验证明,在相同数据样本情况下,改进的Apriori算法更加高效且最小置信度更高,具有一定的应用价值。
【总页数】4页(P214-217)
【关键词】用户行为;数据挖掘;Apriori算法;关联规则
【作者】丁丽
【作者单位】山东英才学院
【正文语种】中文
【中图分类】TP392
【相关文献】
1.Apriori算法在ACViS中用户行为监测数据挖掘中的应用研究 [J], 谢超;陈毓芬;王英杰
2.改进的Apriori算法在用户WAP上网的喜好数据挖掘系统中的研究与应用 [J], 刘云香;张金
3.Apriori算法在ACViS中用户行为监测数据挖掘中的应用研究 [J], 齐慧平
4.基于Apriori算法的农资网站用户行为分析 [J], 王玉珍;常丹
5.基于数据挖掘的用户行为分析研究 [J], 金琳
因版权原因,仅展示原文概要,查看原文内容请购买。
基于兴趣度的Apriori算法在电子病历数据分析中的应用_刘立刚
0 引言
计算机在医疗领域的广泛应用, 国内各大医 院都建立了医院信息管理系统, 覆盖了诊断、治 疗、化验等环节. 随着信息技术的不断发展,医院 数据库中产生了大量的历史数据, 运用数据挖掘 算法对这些数据进行分析与归纳,便能从这些海量
数据中挖掘出有价值的知识和规则. Apriori 算法[1] 是由 R.Agrawal 等人提出的一种快速挖掘算法,是 一 个 基 于 两 阶 段 频 集 思 想 的 算 法 [2], 文 献 [3] 分 析 了 Apriori 核心算法, 指出了 Apriori 算法忽略了反面 事例的情况,同时该算法仅使用支持度和置信度进 行关联规则提取,容易引起误导. 文献[4]提出了一 种 FP-aprgrowth 算法, 该算法综合了 Apriori 方法 和 FP-growth 方法二者优点,其算法的提高了挖掘
模型中主要包含了以下几个模块: 数据预处理模块:对病历原始数据库中数据进
行集成、清洗以及变换等预处理. 关联规则挖掘模块: 使用基于兴趣度的
Apriori 算法对经过预处理的数据进行关联规则提 取,生成具有使用价值的关联规则.
诊断模块:运用诊断数据库中的关联规则对患 者的症状进行辅助诊断.
1 Apriori 算法
1.1 相关定义
假设 A={a1,a2,…,am}为项目的集合,B={b1,b2,
…,bn}为所有事务的集合,事务集合中的事务 项 bi (i=1,2,…,n)是由项目集中若干项 aj 构成,每个事
务项记为 BID.
定 义 1 支 持 度 [8]: 假 设 项 目 集 X (X ∈A)、Y
DOI:10.13265/ki.jxlgdxxb.2013.05.009
第 34 卷 第 5 期 2013 年 10 月
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文中采用的是基于相关性的兴趣度, 实现对 Apriori 算法进行改进, 算法的具体描述为: 假设 P(X)为数据集中项集 X 发生的概率,P(Y)为数据 集 Y 中项集发生的概率,P(XY)为数据集中项集 X 与项 集 Y 同 时 发 生 的 概 率 ,若 P(XY)=P(X)P(Y)
然而通过对原始病历数据库中的数据进行统 计得出:患有流行性感冒同时有咳嗽症状的病人占 原始病历数据库的 52 %. 而使用 Apriori 算法挖掘 出的关联规则显示有 71.4 %的病人同时患有流行 性感冒和咳嗽, 通过分析可知使用 Apriori 算法所 生成的关联规则与实际统计结果之间存在较大出 入 ,Apriori 算 法 所 生 成 的 关 联 规 则 明 显 高 于 实 际 情况,因此该规则没有明显的实际意义,同时还具 有一定误导的作用,妨碍医生的正常诊断.
关联规则的兴趣度描述了规则 X Y 中项集 X 与项集 Y 之间相关程度,若规则 X Y 兴趣度值 越大,则 X 与 Y 的相关程度也越大. 兴趣度是在基 于统计独立性假设下真正的强度与期望的强度之 比, 在关联规则中引入兴趣度主要有以下作用:① 能够将关联程度低的规则进行过滤,进一步减少了 候 选 频 繁 项 集[12],提 高 算 法 的 运 算 效 率 ;②能 够 将 没有现实意义且容易引起“错觉”的强关联规则进 行修剪,增强了所生成关联规则的实用性.
Abstract:Based on the analysis of the Apriori algorithm, the example of case is used to describe the weak point of the Apriori algorithm. This paper improves the Apriori algorithm by adding the threshold of interest value. The improved algorithms can analyze the data from electronic patient record and extract right association rules, build the intelligent medical diagnostic model of Apriori algorithms based on interest measure. The experiment results show that the model could extract the meaningful and worthwhile association rules. This model improves the work efficiency of doctors. Key words:Apriori algorithms; interest measure; electronic patient record; medical diagnostic model
表 1 感冒和咳嗽症状病历数统计表
病历数
a
b
25
b
80
总计
105
a
总计
10
35
5
85
15
120
通过分析关联规则“咳嗽”→“流行性感冒”,通过 计算可以得出该规则的支持度为 S=25/120=20.8 %, 置 信 度 为 ,C=a∪b/b=25/35=71.4 % 这 条 关 联 规 则 的具体含义是: 患有咳嗽症状的病人中有 71.4 % 的人同时患有流行性感冒.
表示项集 X 与项集 Y 相互独立;若 P(XY)≠P(X)· P(Y)表示事件 X 与事件 Y 相关,两者相互不独立. 对于所挖掘出来的关联规则 X Y,项集 X 与项集 Y 的兴趣度为:
RI(X Y)= P(XY) P(X)P(Y)
当 RI>1 时,说明项集 X 与项集 Y 之间是正相 关的,X 的发生会增大 Y 发生的概率.
(Y∈A), 所有包含项目集 X、Y 的事务在事务集 B
中所占的百分比,即:
SUPPORT(X Y)= X∪Y B
所有满足用户给定最小支持度的事务集为频繁项集[9].
定义 2 置信度[10]:同时包含 X、Y 的事务数在
包含 X 事务中所在百分比,即:
CONFIDENCE(X
Y)=
SUPPORT(X∪Y) SUPPORT(X)
DOI:10.13265/ki.jxlgdxxb.2013.05.009
第 34 卷 第 5 期 2013 年 10 月
江西理工大学学报
Journal of Jiangxi University of Science and Technology
文章编号:2095-3046(2013)05-0072-05
0 引言
计算机在医疗领域的广泛应用, 国内各大医 院都建立了医院信息管理系统, 覆盖了诊断、治 疗、化验等环节. 随着信息技术的不断发展,医院 数据库中产生了大量的历史数据, 运用数据挖掘 算法对这些数据进行分析与归纳,便能从这些海量
数据中挖掘出有价值的知识和规则. Apriori 算法[1] 是由 R.Agrawal 等人提出的一种快速挖掘算法,是 一 个 基 于 两 阶 段 频 集 思 想 的 算 法 [2], 文 献 [3] 分 析 了 Apriori 核心算法, 指出了 Apriori 算法忽略了反面 事例的情况,同时该算法仅使用支持度和置信度进 行关联规则提取,容易引起误导. 文献[4]提出了一 种 FP-aprgrowth 算法, 该算法综合了 Apriori 方法 和 FP-growth 方法二者优点,其算法的提高了挖掘
Step6:当没有新的频繁项集生成时,将所有大于
最小置信度的规则保留,生成最终所需的关联规则. 1.3 Apriori 算法存在的问题
Apriori 关联规则能够根据上述步骤, 并根据 所设置的兴趣度和置信度从海量的数据中挖掘出 具有现实意义的关联规则. 然而该算法在实际应 用当中存在以下问题:
(1)挖掘出不正确的强关联规则。 根据 Apriori 关联规则算法的描述,对数据库中的数据进行扫描 所生成的强关联规则, 在现实环境中不一定正确, 有些甚至会产生误导. 表 1 为数据库中感冒和咳 嗽症状病历数的统计表,其中 a 和 a 分别代表有流 行性感冒和没有流行性感冒的记录数,b 和 b 分别 代表有咳嗽和没有咳嗽症状的记录数.
(2)Apriori 算法仅使用支持度作为候选项集 生成的决定因素,若最小支持度设置的过低,能够 保证不丢失有意义的规则,但算法的开销会过于庞 大;若最小支持设置的过高,将可能丢失具有现实 意义的规则.
(3)需要多次扫描数据库,Apriori 算法在生成 候选频繁项集时需要对数据库中的数据进行遍历. 当数据库中存有大量数据时,将导致系统的 I/O 负 载增大,处理速度变慢,严重影响算法的执行效率.
74
江西理工大学学报
2013 年 10 月
2 Apriori 关联规则的改进
针对 Apriori 算法对数据库进行扫描时存在扫 描次数多、系统负载大、可能生成错误的强关联规 则等不足, 在本节中通过对 Apriori 关联规则算法 进行改进, 引入兴趣度阈值克服传统的算法的不 足,以实现高效的挖掘具有价值的强关联规则.
Step3: 根 据 所 设 定 的 最 小 支 持 度 , 生 成 频 繁 项
集,记为 L1; Step4: 将频繁 k-项集通过自连接产生长度为
k 的候选 k-项集,根据最小支持度,生成频繁 k-项
集,记为 Lk;
Step5:循 环 执 行 Step4,直 至 没 有 新 的 候 选 项
集生成;
收稿日期:2013-04-03 基 金 项 目 :江 西 省 教 育 厅 科 技 项 目 (GJJ12350 ) 作者简介:刘立刚(1976- ),男,副教授,主要从事产业经济、科技政策、应用统计等方面的研究,E-mail: liuligang76@.
第 34 卷 第 5 期
刘立刚,等:基于兴趣度的 Apriori 算法在电子病历数据分析中的应用
Application of Apriori algorithm based on interest measure in data analysis of electronic medical records
LIU Li-gang1, ZHONG Rui2,YANG Juan1
(1.School of Economies and Management,Jiangxi University of Science and Technology,Ganzhou 341000,China; 2. School of Mathematics and Computer Science, Gannan Normal University, Ganzhou 341000, China)
当 RI<1 时,说明项集 X 与项集 Y 之间是负相 关的,X 的发生会降低 Y 发生的概率.
当 RI=1 时, 说明项集 X 与项集 XY 之间是相 互独立的,X 与 X 之间没有相关性.
3 基于兴趣度的 Apriori 算法的医疗诊断 模型
3.1 医疗诊断模型工作流程 图 1 为医疗诊断模型的工作流程图,在该诊断
模型中主要包含了以下几个模块: 数据预处理模块:对病历原始数据库中数据进
行集成、清洗以及变换等预处理. 关联规则挖掘模块: 使用基于兴趣度的
Apriori 算法对经过预处理的数据进行关联规则提 取,生成具有使用价值的关联规则.
诊断模块:运用诊断数据库中的关联规则对患 者的症状进行辅助诊断.