概念格
概念格与关联规则发现

概念格与关联规则发现
概念格与关联规则发现是数据挖掘领域中的两个重要概念,它们之间存在密切的联系。
概念格是一种形式化工具,用于描述对象和特征之间的联系以及概念间的泛化与例化关系。
它通过构建概念层次结构来表达数据的抽象层次,从而帮助我们更好地理解和分析数据。
关联规则发现是数据挖掘中的一项任务,旨在从数据集中发现变量之间的有趣关系,如购物篮分析中经常一起购买的商品组合。
关联规则发现可以帮助我们发现数据中的隐藏模式和关联,从而为决策制定提供支持。
概念格与关联规则发现之间存在密切的联系。
概念格可以作为关联规则发现的基础,因为它提供了对数据的层次化描述,有助于发现变量之间的关联。
同时,关联规则发现的结果也可以进一步丰富和完善概念格,使其更加准确地反映数据的结构和关系。
在数据挖掘过程中,结合使用概念格和关联规则发现可以获得更好的挖掘效果。
例如,可以使用概念格来识别变量之间的隐含关系,并进一步应用关联规则发现算法来验证和扩展这些关系。
这种方法有助于发现更有价值的信息和知识,从而为决策制定提供更可靠的依据。
总之,概念格与关联规则发现是数据挖掘领域中的两个重要概念,它们之间存在密切的联系。
通过结合使用概念格和关联规则发现,我们可以更好地理解和分析数据,发现更有价值的信息和知识,从而为决策制定提供更可靠的依据。
基于概念格的分类规则提取算法及其应用

严形式背景中的对象个数为Ns/BEGINFOR概念格中的每J个节点C(A,a)eL球A>N+0佃NJUDGE2(C)IFRIGHT>N,+0THENB—cka=)cla为一条分类规则分类节点编号--Cu分类节点编号ENDIFENDEndMainJUDGE2(C)产从形式背景中选区一批训练数据,个数为N1+,FOR训练集中的每条记录TⅢtATTRIBUl耻ATHENRIG耵=RIGHT+lENDⅢNEXTTENDIFENDJUDGE2NEXTC从上面的分析可以得出从概念格FL中提取分类规则的步骤如下:构造分类概念格;选择一定度量上的概念格节点;将类标号属性从概念格中提取出来,剩余的属性作为分类规则的前件。
5在LAMOST中的应用在Pentiumm.1.0GCPU,256M内存,Windows2000操作系统,DBMS为ORACLE9i,用VisualBasic6.0实现了设计与实现了基于概念格的恒星光谱数据分类规则挖掘系统。
选用恒星光谱数据为数据集,经过以下预处理后构成该系统中的分类形式背景,1)选定间隔为20的200个波长3510,3530,…,8330A作为条件属性集,并依据流量、峰宽和形状,将每个波长离散化为十三种值;2)恒星分类的七种类别A、B、F、G、K、M、oY乍为类标号属性。
提取分类规则的方法如下:1)将离散化后的恒星天体光谱数据作为形式背景进行分类规则的提取,首先随机选择一部分数据构造分类概念格。
将分类概念格节点的内涵分为两部分:第一部分为类标号属性,作为分类规则的后件;第二部分为概念格节点出去类标号属性的部分,作为分类规则的前件。
2)类规则的精度通过选择剩余数据作为训练集合,通过将光谱的属性与规则的前件比较,选定一定支持度之上的分类规则,分类规则的正确性通过剩余的数据进行测试。
图2分类形式背景图3分类规则图2为该系统预处理后形成的分类形式背景,图3是分类支持度在3.10之问所提取出的分类规则,共提取出1738条。
概念格相关理论研究

分类号:____________ 密 级:______________ UDC:____________ 单位代码:______________安徽工业大学硕士学位论文论文题目:概念格相关理论研究学 号:20070157作 者:张伟计算机应用技术专业名称:________________________2010年6月8日安徽工业大学硕士学位论文概念格相关理论研究论文题目:Research The Theory of Concept Lattices作者:张伟学院:计算机学院指导教师:杨思春单位:计算机学院论文提交日期:2010年6月8日学位授予单位:安徽工业大学安徽马鞍山243002独 创 性 说 明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及取得研究成果。
尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得安徽工业大学或其他教育机构的学位或证书所使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。
签名日期:____________关于论文使用授权的说明本人完全了解安徽工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文,保密的论文在解密后应遵循此规定。
签名导师签名日期:____________摘 要形式背景是一个三元组,由对象集、属性集以及对象和属性之间关系所构成。
概念格是根据形式背景中对象和属性之间的二元关系建立的一种数据结构,格中每个节点都是一个概念。
概念格适合作为规则发现的基础性数据结构用来发现规则性知识。
本文首先对概念格上的偏序集和序同构关系进行了研究。
已有文献在形式背景Z=(U,A,I)的对象集U、属性集A以及U∪A上定义了偏序关系,证明了偏序集(U, ≤)与对象概念集合(γ(U),≤)之间或偏序集(A,≤)与属性概念集合(μ(A),≤)之间存在序同构关系,给出了一种构造γ(U)或μ(A)中所有概念的内涵和外延的方法。
浅议几种概念格生成工具

・ 1 7 7 ・
浅议 几概念格 生成工具
高 俊 峰
f 北华 大学图书馆, 吉林 吉林 1 3 2 0 1 3 ) 摘 要: 通过 实例操作 , 解析 几种形式概念分析 生成 工具 的主要 用法, 并依此分析几种工具的优缺点 , 得 出的结论是 形式概念分析 工 具在生成单值背景的 H a s s e图上 作 用显 著 。 关键词 : 形式概念分析; 生成 工具; 概念格; 关联规 则挖掘
形式概念分析发展到今天 已经具备 了相 当成熟 的理论基 础 , 其 因此笔者将形 式背景 的对象名 以拼 音方 式表示 ,属性 名用英文表 主算法概念格作为一种工具在信息检索 、 数据挖掘等多个领域 的不 示 。 ( 1 ) 打开 L at t i c e m i n e r 主界 面 , 点击“ i f l e n e w B i n a r y C o n t e x t ” 新 断普及与推广 , 单纯的依靠 人工构建概念格 已经不能满足发展 的需 要, 在此 , 笔 者对几种使用 比较 广泛的形式概念分 析生成 工具进行 建形式背景 , 之后弹 出输入形 式背景名 、 对象个数 、 属性个数 的 3 个 对话框 ,对象名默认 为数字 ,属性名默认为字母 。值得注意的是 , 分析 。 1背 景 介绍 L a t t i c e m i n e r 不仅 能 建立 单 值 背景 ,还可 建立 多 值 背景 ( V a l u e d 从狭 义上理解 , 形式概念分析生成工具是根据形式背景 由计算 C o n t e x t ) , 和多层概念格 的嵌套 ( n e s t e d C o n t e x t ) 三种功能 , 建立 的形 机编译处理后 自动生成相应概念格 的软件 。笔 者认 为知名度 较高 、 式背景能以“ . 1 m b ” 的形式保存 , 以便下次调用 。 较为 常用 的工具不超过 1 0种。本文主要根据 以下几个标准选择将 ( 2 ) 点击 “ S h o w L a t t i c e ” 按钮 , 建 立 Ha s s e图 , 基于 L at t i c e mi n e r 要分析 的软件 : f 1 ) 是否支持 w i n d o w s 操作 系统平 台。( 2 ) 能否免费下 画 出的 H a s s e图具 有立 体显 示与线条 显示 两种方式 , 对话框上方有 载、 在线使用 。 ( 3 ) 工具的名称是否经常 出现在相关文献中。 ( 4 ) 其输 个 L a b e l S i z e 拖 动条可 以随意调节节点标签 的大小。 在对话框左 s s e图中所 有的概念 , 点击每个概念右方就有 出视 图是 否具有可调控性 。( 5 )软件是否 有中文或英文版本 。( 6 ) 侧按树状罗列 出了 Ha J A V A语言编译 , 基于 J a v a语言编译 出的软件具有更 稳定的性能与 相应 的节点 闪烁 。点击 P r o j e c t / S e l e c t 按钮 , 可以任意去除属性与对 用 户 有好 接 口。经 过筛 选 , 本文选取了 C o n E x p O n l i n e J a v a L a t t i c e 象, 对话框右侧 自动显示修改后 的 H a s s e图。 B u i l d i n g A p p l i c a t i o n与 L a t t i c e m i n e r 作 为分析对象 ,并 均采用统一 ( 3 ) L a t t i c e m i n e r 具有强 大的挖掘功 能 ,不 同于 C o n E x p , at L t i c e 形 式 背景 进 行 测 试 。 m i n e r 无需人为判断命题 真假 , 只需输入相应的支持度 、 信度 阈值 即 2几 种 形 式 概 念 分析 生成 工 具 的 比较 可进行属性的关联规则挖掘目 。软件会 自动的将 大于阈值 的先导后 2 . 1 On l i n e J a v a L a t t i c e B u i l d i n g Ap p l i c a t i o n 继 显 示 出来 ,并 支 持 以 X ML格 式 导 出 。笔 者 选 择 s u p p o r t = 5 0 %, O n l i n e J a v a at L t i c e B u i l d i n g A p p l i c a t i o n是 西 班 牙 公 立 庞 培 法 c o n i f d e n c e = 5 0 %进行 挖 掘 。 布拉 大学( u n i v e r s i t a t P o mp e u F a b r e ) 开发项 目“ S I Mu L L D A( 字典互 at L t i c e m i n e r 是一款较为成熟 的形式概念分析生成工具 ,且能 转换 数据库系统 ) ” 的一 个子项 目, S I M u L L D A旨在 为数据库各 国语 胜任复杂 的数据挖掘与应对较大形式背景下 Ha s s e图的显示 工作 , 言中的任 意的两种语言提供互相翻译的服务。 at L t i c e m i n e r 的数据挖掘模式是运用一种类似概念格 的渐进式构造 ( 1 ) 点 击 进 入 算法进行 , 通过一种遍历概念格的办法挖掘出符合条件 的规则 。简 发现 C o n E x p与 O n l i n e J a v a at L t i c e h t t p : / / ma a r t e n . j a n s s e n w e b . n e t / j la a b a / J a aB L A . p l ? a c t i 0 n = 0 u t p u t & x i n — 单 的对 比几款工具的操作界面 , v o e r = f c a . t x t , 选 择“ C r e a t ” 键弹 出一个名为“ s t e p l ” 的指示步骤。 输入形 B u i l d i n g A p p l i c a t i o n都是在一个窗 口 ( 网页 )下逐层进行 而 L at t i c e 式背景的名称 , 对象和属性。 形式背景名称 可选填 , 对 象与属性 的输 m i n e r 每进行一个步骤都会 弹出一个新 的窗 口,这也是一种实 际应 入 必 须左 对齐 , 而 且 每 行 只 能输 入 一 个 名 称 。 用 中的方便。 遗憾 的是该款 软件生 成的 Ha s s e图不支 持 中文对 象属性 名编 ( 2 ) 完成对象属性名的录入后 , 点击 “ 提交查询 内容” 键, 出现名 为“ S t e p 2 ” 的指 示 , 定 义对 象属 性 的关 系 。 译, 限制 了中国用户的使 用 , 另外该工具操作较为繁琐 , 不适合初学 ( 3 ) 提 交 查 询 内容 后 , 页 面 出现 形 式 背 景 中所 有 的形 式 概念 , 点 者 应 用 。 击“ c o n t i n u e ” 键建立 Ha s s e图。H a s s e图的宽 高可 自行设置 , 该工具 结 束 语 以上 几 款 工 具 各 有 其 独 特 的 优 势 , 在 世 界 上 也 有 稳 定 的用 户 群 也具 有全 部显示 、 部分显示 、 不显示节点 的对象 与属性 的功能 , 节点 形态有黑色实心与透明两种 , 另外工具还给 出了 S I Mu L L D A词汇原 体 , 单从生成 Ha s s e图的角度上来讲 , 都具有很强的可信赖性。当然 码。 由于只是 一个测试工具 , 因此不支持挖掘功能 , 显得 有些 简陋。 几款软件也有其各 自不可弥补 的缺陷 , 或者是 当前所有形式概念分 然而不失为一 种稳定 的在线形式概念分析生成 工具 。 析生成工具的缺陷 : O n l i n e J a v a L a t t i c e B u i l d i n g A p p l i c a t i o n 是 一 款 比较 简 单 的形 ( 1 ) 兼容性差 , 不 同工具构造 出的形式背景与概念格无法兼容 , 式概念分析在线工具 ,既不能进行数据挖掘又无法建立 多值 背景 , 也限制了异构概念格 的分解合并等基本的算法实现。 此外在输入属性名 时, 如 果 使 用 的 是 中文 就 会 出现 类 似 乱 码 “ / ? A > ” ( 2 ) 大部分工具插件都具有对系统编译环境 的依赖性 。 的字符串 , 笔者输入英文属性名测试 , 发现虽然 没有 乱码 , 但是倘若 ( 3 ) 形式 概念分析 生成 工具 的功 能与形 式概念分析的实际应用 属性名较长 , 则 无法全部给予显示 。但在生成 Ha s s e图之后就又恢 脱节 , 近年基于概念格 的知识组织 、 信息检索方面 的研 究成果层 出 复到原来 的状态 了, 笔者分析可能是基于 J A V A语言开发工具 的过 不穷 , 但现有 的工具却无 法为用户提供相应的实验环境 。 程中出现的纰漏。之所 以将此款工具列入 , 是 由于这款在线工具操 通过 以上 的分析 , 我们可 以看到 , 虽然现有 的形式概念 分析工 作简单 ,只需 在 w i n d o w s 操作 系统上安装 J A V A虚拟机 即可在线使 具有其不足 , 但是笔 者相 信随着研发 的深入 , 更为标准 化的开发工 用, 适合初学者去 了解形式概念 分析 。 具一定能够更好 的承载形式概念分析 的深层处理任务。 2 . 2 La t t i c e m i ne r 参考文献 2 0 1 0年 的 F
概念格上的近似概念

概念格上的近似概念
概念格理论是一种用于表示概念之间关系的数学工具。
在概念格模型中,每个概念都被看作一个节点,并按照它们之间的包含关系构成一张有向图。
这种图的顶部是一个包含所有概念的顶级节点(称为全集),底部是一个只包含一个元素的节点(称为最小元)。
概念格模型可以用于表达知识、分类等方面。
在概念格上,近似概念是指在一个概念格中,某个概念的定义并不十分确定,但可以通过与其他概念的包含关系进行比较来进行近似描述。
例如,在一个动物概念格中,有可能存在一些概念,它们的定义并不十分清晰,但可以通过与其他概念的包含关系来描述。
比如,一个“类猫动物”的概念可能不够明确,但可以认为它是介于“类猫科动物”和“类犬动物”之间的一个近似概念。
近似概念的概念格理论有助于解决现实世界中不确定性和模糊
性的问题。
通过建立近似概念的概念格模型,可以更好地描述和处理知识,使得概念之间的关系更为准确和清晰。
- 1 -。
动态知识库和概念格在病症智能诊断中的应用

dsa e d a i s i e
s o u e n ie rn d Ap f a in , 0 7 4 ( 8 : 3 — 3 . . mp tr E g n e i g a p c t s2 0 ,3 2 )2 3 2 6 C n i o
Ab t a t T e c s - a e a d p t ns s mp o a e d s rb d b s d o oma o c p n lssW i h i f a t ma i t d s r c : h a e b s n ai t ’ y t m r e c i e a e n f r l c n e t a ay i. t t e a d o u o t su y e h c
念外延 与内涵之间的关系形式化 刻画一般 的抽象 概念 , 这种概 念层次结构是数据分析与规则提取 的有效工 具 , 基于概 念格 的 各 种规则提取方法在 数据库知识发现领 域 , 信息检索 、 字 如 数
图书馆 、 件工程等方面 已经获得广泛应用 。 软
以概念格为背景的关联规则可视化

⦾大数据与云计算⦾随着数据挖掘领域的发展,关联规则的可视化作为一种重要的知识发现和模式识别方法,已经成为一个重要的研究方向。
现有的机器学习方法虽然能够从大量的原始数据中提炼出关键信息,但是这些信息只有在经过人们的理解并产生最后的决策的时候才能真正体现它们的价值,而可视化恰恰能帮人们完成这最重要的一点。
数据可视化是通过可视化技术把原始数据之间不容易被人发现的数据关系给表示出让人易于发现的模式,关联规则作为一种重要的规则,表现数据之间的相关关系,帮助用户进行数据分析。
概念格是一种在海量数据中提取关联信息的工具,概念格的生成过程其实就是概念聚类的过程,通过生成Hasse图能够直观表示出以概念格为背景的关联规则可视化杨葛英1,2,沈夏炯1,2,史先进1,张磊1,21.河南大学计算机与信息工程学院,河南开封4750042.河南大学河南省大数据分析与处理重点实验室,河南开封475004摘要:传统的关联规则表示方法无法展示概念之间的本质关系,缺少对概念层面的认识,忽略了知识发现结果的共享等问题,而概念格作为一种能够生动简洁地体现概念之间泛化和例化关系的数据结构,在对关联规则可视化和发现潜在知识方面也有着独特的优势。
提出了以概念格为背景的关联规则可视化方法,以概念为查找单元,在概念格中寻找需要展示的关联规则路径,将属性之间的关联关系扩展到概念层面,并给出了相对应的多模式规则的可视化的策略与算法。
结合某校图书馆借书记录数据,进行关联规则分析与可视化实现。
实验结果表明,该可视化方法在知识发现和共享方面具有良好的效果。
关键词:概念格;关联规则;泛化和例化;知识发现;可视化文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2002-0368Visualization of Association Rules in Context of Concept LatticesYANG Geying1,2,SHEN Xiajiong1,2,SHI Xianjin1,ZHANG Lei1,21.School of Computer and Information Engineering,Henan University,Kaifeng,Henan475004,China2.Henan Key Laboratory of Big Data Analysis and Processing,Kaifeng,Henan475004,ChinaAbstract:Traditional rule representation methods cannot show the nature of the relationship between concepts,the lack of understanding of the concept hierarchy,ignoring the problem such as sharing the results of knowledge discovery,and concept lattice as a data structure can succinctly vivid embodiment of generalization and instantiated in the relationship between the concepts,in terms of knowledge visualization and association rules found potential also has a unique advantage. This paper proposes an association rule visualization method with concept lattice as the background,takes concept lattice as the search unit,looks for the association rule path to be displayed in concept lattice,extends the association relation between attributes to the conceptual level,and gives the corresponding visualization strategy and algorithm of multi-pattern rules.Finally,the association rules are analyzed and visualized based on the library data.Experimental results show that the visualization method is effective in knowledge discovery and sharing.Key words:concept lattice;association rules;generalization and instantiated;knowledge discovery;visualization基金项目:国家自然科学基金(61402149);河南省科技厅科技攻关计划基金(182102110065,182102210238);河南省高等学校青骨干教师培养计划(2019GGJS040)。
概念格构造算法(综述)

概念格构造算法(综述)
概念格⾃理论提出⾄今发展了近30年,已经成功应⽤于多个研究领域,如数据挖掘、机器学习、知识发现、软件⼯程、知识⼯程以及信息检索等。
概念格的构造算法是基于概念格的应⽤的关键。
现有的构造算法可以分为三类:批处理算法、渐进式算法和分布式算法,其中前两类是单机构造算法。
批处理算法是出现较早的⼀类构造算法,根据构造格的不同⽅式,可分为三类,即⾃顶向下、⾃底向上和枚举。
⾃顶向下类算法⾸先构造格的最上层节点,再逐层向下,较经典的算法有Bordat算法;⾃底向上算法则相反,⾸先构造最底层的节点,再向上扩展,如Chein算法;枚举算法是根据给定数据集,按照⼀定的顺序枚举出所有的节点,然后再⽣成节点间的关系,代表算法有Ganter算法等。
这类算法都需要多遍扫描数据库。
渐进式算法,⼜称增量式算法。
这类算法的基本思想都是将当前要插⼊的记录和格中概念进⾏交运算,根据结果采取不同的处理⽅法,主要区别在连接边的⽅法。
经典的有Godin算法,T. B. Ho算法等。
由于时间性能优越,现有的⼤多数概念格系统都是基于这类算法搭建的。
随着数据规模的迅速增长,概念格的分布式构造成为重要的研究内容。
⽬前我正在做相关研究,过段时间,我会把我的⽅法和现⾏的其他分布式⽅法做个对⽐,⼀起介绍给⼤家。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 概念是人类进行知识表达的一种手 段,知识是人类认识客观世界的结 果,同时也是人们指导自己行为的 准则,人们可以从不同的途径获取 知识和发现知识。 • 概念格是知识的一种表达模型,依 据知识体在内涵和外延上的依赖或 者因果关系,建立概念层次模型。
• 在哲学中,概念被理解为由外延和 内涵所组成的思想单元。基于概念 的这一哲学理解,德国数学家 Wille R.于1982年首先提出了形式 概念分析用于概念的发现,排序和 显示。形式概念分析,也称为概念 格。形式概念分析理论是一种基于 概念和概念层次的数学化表达。
(5) 应用
概念格已成功的应用于数字图书馆及文献检索,软件 工程,知识发现等领域,而且已取得了良好的经济效益和 社会效益。如,Cole R.等将概念格方法应用于分析和可 视化具有1962个属性和4000个处方摘要的医药数据库; Eklund P.W.等展示了概念格层次进行WEB文档索引和导航 的能力;Cole R.等的CEM电子邮件管理系统通过将Email 存储在概念格中,而不是常用的树状结构中,从而在检索 电子邮件时获得了更大的灵活性。 Y.Y.Yao提出了面向对象概念格,Duntsch和Gediga 构造了另外一种新的概念格——面向属性概念格.得到了 两种新的概念格:面向对象概念格和面向属性概念格. 随着概念格理论与方法的进一步完善和发展,以及与 其他知识发现理论与方法的交叉与融合,概念格理论与方 法将成为一种知识发现的有力工具。
谢谢!
• 渐进式生成概念格的求解过程中, 要着重解决三类问题:如何生成新 节点、如何避免重复节点的产生和 如何更新连接节点的边。对于上述 三类问题,谢志鹏等较为详尽的论 述了如何快速构造概念格。 • 下面是一个渐进式算法建造概念格 的简要过程
• 基本思想是先求属性(对象)基本概 念,再由基本概念生成其它概念, 由于在生成新的概念进行集合的交 运算时,对象集(属性集)会不断变 小,而对象集(属性集)是有限,故 当对象集或属性集交为空时,算法 结束空.
•
对于新插入的实例,对格内的节点 会产生以下三种不同的影响:(1): 更新节点,该类节点内涵包含在新的 对象内涵之中,仅仅需要将新对象的 外延加入到外延中即可;(2):不变 节点,这种借点的内涵与新对象的内 涵关系,没有任何交集,不做任何修 改;(3):新增节点,新节点对象的 内涵与格内节点内涵的交集首次出现, 即原格内所没有的新概念需要添加的 节点。
• 形式概念分析的基础是形式背景 (U,A,I),一个由对象集U,属性集 A,以及U与A间的二元关系I构成的 三元组。在形式背景的基础上,获 得形式概念(X,B),其中X称为概念 的外延,是属于这个概念的所有对 象的集合;B称为内涵,是所有这 些对象所具有的属性(特征)集。 概念是外延与内涵的统一体。这种 实现了对概念的哲学理解的形式化。
• 自底而上算法关键在于如何完成 下一个层次的对个序对到上一个层 次的合并,并且要对生成的节点进 行重复性判断。如果在上层中出现 过,要予以标记并在完成此层操作 之前删除该节点。问题是:合并过 程中会产生大量的重复性节点,效 率不高,不能生成相应的Hasse图, 不具备直观性。
•
枚举算法则按照一定的顺序枚举 出格内的节点,在生成Hasse图的 同时,表达出各个节点之间的关系。 • 增量算法或者说是渐进算法的主 要思想是将待插入的对象与格内已 存在的概念节点进行交运算,根据 结果的不同使用相应的过程
• step 4:计算各基本概念{124,a}, {123,b},{135,c},{246,d},{34, e},{7,h}的交,直到对象集的交为 空. • step 5:由上得所有概念: • {124,a},{123,b},{135,c}, {246,d},{34,e},{24,adg},{1, abc},{2,abdg},{3,bce},{4, adeg},{5,cf},{7,h},{12,ab}, {13,bc}
• 所有的概念同它们之间的泛化/例 化关系构成一个概念格。概念格的 每一个节点是一个形式概念。概念 格结构模型是形式概念分析理论中 的核心数据结构。它本质上描述了 对象和特征之间的联系,表明了概 念之间的泛化关系和例化关系,对 应的Hasse图实现了对数据的可视 化。因此,概念格被认为是进行数 据分析的有力工具。
• 知识发现是从数据集中识别正确、 新颖、有潜在应用价值以及最终可 以为人们理解的模式的方法,数据 库知识发现的过程就是将数据库中 蕴含的知识形式化成有用概念的过 程,是人工智能的核心问题。概念 格作为一种具有极大潜力的有效的 知识发现工具,因此备受关注。
• 概念格主要用于机器学习,模式识 别,专家系统,计算机网络,数据 分析,决策分析,数据挖掘,信息 检索等领域。 • 研究概念格的价值在于解决知识发 现领域中所涉及的关联规则、蕴含 规则、分类规则的提取,和实现对 信息的有机组织,减少冗余度,简 化信息表等。
•
形式概念分析与粗糙集都可以用来进行数据挖掘,具有 某些共同的特点。粗糙集着重利用等价关系进行等价类的 划分。概念格内的每个节点也是一个包含最大共同属性集 的等价类。并且两者均是以表述对象集和属性集所构成的 二元关系为基础。基于上述特点.可以利用粗糙集中处理 不可定义概念的方法,在概念格中利用粗糙集的上近似 (upper approximation)和下近似(10wer proximation), 提出上近似格与下近似格。可以取得比单一理论更高效的 约简。 • 神经网络不能简化信息空间维数,当输入信息空间维数 较大时,网络结构复杂、训练时间过长;另一方面神经网 络预测效果也受样本质量的影响.属性约简是概念格的核 心内容之一.借助于概念格的属性约简方法,实现对形式 背景的预处理,去除冗余信息,压缩信息空间维数,精简 形式背景.二者结合也能有效改善上述问题。
• 节点概念与节点概念之间存在着偏 序关系,若有概念C1=(X1,Y1), C2=(X2,Y2),并且X1>X2<=> Y1<Y2,称C1为C2的父节点。概念格 的实行背景通常是由如下表所示的 二维数组来表示,横向维表示属性, 纵向维表示对象,第i行j列的数值 为一表示存在改属性,为0表示不 存在该属性。
• 并行算法是针对数据规模较大时, 概念格求解在时间复杂度和空间复 杂度上计算量日益突出而提出。问 题的主要矛盾在于如何协调集中式 的数据存储方式与串行式的算法设 计。并行算法思想的提出依赖于高 性能计算机与网格并行计算的能力, 综合了批处理算法的并行性和渐进 式算法的高性能性。
(2) 概念格的约简。
概念格的约简能够有效地提高概念格 的维护效率。使形式背景中所蕴含的知识 易于发现,简化知识的表示方式。约简概 念格实际上是在保持对象集不变的条件 下.如何求得最小的属性集的过程。国内 的研究主要是以张文修等提出的理论为基 础。给出概念格属性约简的判定定理,引 入形式背景的可辨识属性矩阵。并依此为 基础求得属性约简的方法
(4)模糊概念格和基于神经网络的概念格
由于各个应用领域中存在的信息具有复杂性和不确定 性,在处理以上问题时。传统的形式概念分析很难们将模 糊理论与形式概念分析结合起来,由此产生了模糊形式概 念分析。 粗糙集理论是一种新的处理模糊和不确定性知识的数学 工具。其理论的主要思想是在保持基本分类能力不变的前 提下。利用不可分辨关系来描述等价关系上不可定义的知 识。即粗糙集(Rough set)。该理论能够利用已有的知识 库,对知识进行近似的或者不确定的描述。最大的特点在 于不需要提供处理该问题所需的数据集合之外的任何先验 信息,对问题处理的不确定性比较客观。
•
批处理算法根据去构造格的不同方 式,可以分为三类:从顶向下算法, 自底向上算法,枚举算法。 从顶向下算法是先构造全概念,也 就是最上层的节点,然后依次生成该 节点的所有可能的子节点,并且对每 个子节点做上述操作,最后将所有存 在父子关系的节点相连,算法的关键 在于如何生成子节点,虽然简洁直观 且较易实现,但存在生成许多冗余节 点的问题。
(3) 规则提取
概念格上的规则提取具有广泛的应用前景。规 则挖掘是近年来数据挖掘的研究课题,每个概念 格节点本质上就是一个最大项目集.为关联规则 挖掘提供了平台,体现了概念之间的包含与分类 关系。更加易于理解和表示。由于规则本身是由 内涵间的关系来描述的。而表现的却是外延之间 的包含与被包含关系,正是由于概念节点统一了 内涵与外延之间的关系,基于概念格的分类规则 的提取在知识发现等方面有着广泛的应用。目前。 对于概念格上分类规则的研究主要集中在优化概 念格的构建和求解算法上。
• 概念格理论的研究主要集中在一下 几个方面: (1) 概念格的建造。 从数据集(在概念格中称为形 式背景)中生成概念格的过程实质 上是一种概念聚类过程。对于同一 批数据,所生成的格是唯一的。 建格算法可以分为:批处理算法、 渐进式算法(或称增量算法)、并 行算法。
• 对于给定的形式背景(U,A,I) (其 中对象集U,属性集A,以及U与A间 的二元关系I),存在唯一一个偏序 集合与之相对应。由偏序集构成一 种格结构,并且此偏序集满足自反 性,反对称性和传递性。若 u∈U,a∈A,uIa表示对象U具有a属 性。格中的每一个节点称之为概念, 记作C(X,Y),X∈U是概念C(X,Y)的 外延,Y∈A是概念中对象的共有属 性(内涵)。
在最坏的情况下,概念格中的 节点是按指数增长的,所以在非常 大的数据集的情况下,控制概念格 中的节点的增长是必须的。概念格 的简化就是对概念格的修剪以控制 概念格中节点的增长。一般建格的 方法的不同采用的修剪方法也不同。
比如,建格的批处理算法 Bordat是通过引入一个支持度门 限,在建格过程中对于支持度小于 门限的节点不予继续展开而达到修 剪的目的。增量算法情形复杂一些, 由于维护格的特性,修剪只能从格 的底部开始进行。