贝叶斯网络结构学习的发展与展望_贺炜
贝叶斯网络的发展与展望

Ke r sB y sa ew r s r b b ly ds iuinv ra l y wo d :a e in n t o k ; o a i t it b t ;ai e 前在人工智能领域 , 贝叶斯推理提供 了一种概率手段 , 即假设待考查 的变量遵循某概率分布 , 根据这
Ab ta t rsn h a e in n t o k sa pid w d l a h f l . ay e h o rh n ies mmai sr c: pe e tteB y sa ew r si p l iey i e c edAn lz d t ec mpe e sv u At e n i rz e t h a ein n t o k Rer s e td ted v lp n itr fte B y s n n t r s,n lo a aye n oteB y sa ew r s, t p ce e eo me t soy o a ei ewok a d as n l zd a d o h h h a d pce ec re t e e rh f l . e itd t u rn sac i d h r e
2 0 年 06
由于贝叶斯 网络是一种概率图模型[ 它表示变量之间的联合概率分布( 4 1 , 物理的或贝叶斯的 )分析变量 ,
之间的相互关系, 利用贝叶斯定理揭示学 习和统计推断功能, 实现预测 、 分类 、 聚类 、 因果分析等数据采掘。 所 以关于一组变量 = 知 {。 … ) 的贝叶斯网络 由两部分组成 :1一个表示 中的变量的条件独立断言的网 () 络结构 S ( ) ;2 与每一个变量相联系的局部概率分布集合 P 两者定义了 的联合概率分布。 是一个有向无 。 S
状态进行建模嗍 。
贝叶斯网络研究现状与发展趋势的文献计量分析

Computer Science and Application 计算机科学与应用, 2020, 10(3), 493-504Published Online March 2020 in Hans. /journal/csahttps:///10.12677/csa.2020.103052The Bibliometric Analysis of CurrentStudies and Developing Trends onBayesian Network ResearchZhongzheng Xiao1, Nurbol2, Hongyang Liu31College of Information Science and Engineering, Xinjiang University, Urumqi Xinjiang2Network Center, Xinjiang University, Urumqi Xinjiang3Xichang Satellite Launch Center, Xichang SichuanReceived: Feb. 26th, 2020; accepted: Mar. 12th, 2020; published: Mar. 19th, 2020AbstractIn this paper, 2,930 literatures related to Bayesian network in the recent 10 years in the web of science were taken as the research object. Based on the literature metrological content analysis method, the focus, development rules of research context, existing commonalities and differences, and research status at home and abroad were systematically reviewed. The study found that, as of now, especially in the prevalence of neural networks, Bayesian networks can be deepened and have great potential because of their strong mathematical interpretability. The analysis results are helpful to provide reference for the research status and progress of scholars in the field of Bayesian network research in China.KeywordsBayesian Network, Map Analysis, Citespace, Research Context贝叶斯网络研究现状与发展趋势的文献计量分析肖中正1,努尔布力2,刘宏阳31新疆大学信息科学与工程学院,新疆乌鲁木齐2新疆大学网络中心,新疆乌鲁木齐3西昌卫星发射中心,四川西昌收稿日期:2020年2月26日;录用日期:2020年3月12日;发布日期:2020年3月19日肖中正 等摘要本文以web of science 中近10年2930篇与贝叶斯网络有关的文献为研究对象,基于文献计量内容分析方法系统地回顾了国内外在贝叶斯网络领域的关注点、研究脉络的发展规律、存在的共性与差异性和研究现状。
贝叶斯网络结构学习

贝叶斯网络结构学习贝叶斯网络学习是一种有效的模式学习方法,用于学习贝叶斯网络结构并将其用于预测和分类问题,它也是一种机器学习技术,许多研究人员都在探索它的优势。
1. 贝叶斯网络结构是什么贝叶斯网络结构乃一种概率图模型,由节点和边组成,各节点代表变量,其中一个节点代表观测值。
边的数量指的是节点变量之间的强依赖关系,一般而言,若两个变量之间存在强依赖关系,则会在图模型中建立一条边,指示他们之间的相关性。
2. 贝叶斯网络学习的基本原理学习贝叶斯网络的基本原理是,利用概率统计的方法来推断出节点和边的特征属性,其中,概率分布中参数的确定是基于训练集中观测数据和先验知识的。
在学习过程中,学习算法会始终寻求优化贝叶斯网络的模型参数,以便实现精确的预测和分类。
3. 在学习贝叶斯网络结构中,学习策略通常有哪些在学习贝叶斯网络结构时,学习策略通常有:连接模型学习(CML)、最大似然学习(MLE)、极大后验概率学习(Bayesian)、凸优化学习以及增量式学习。
CML是典型的机器学习算法,用于学习网络结构和参数变量之间关系,通过不断优化网络结构参数,以提高预测精度和泛化能力,MLE以最大似然方法求出参数估计值,以用于预测模型。
Bayesian学习以后验概率的方法估计参数,凸优化学习基于凸规划,对参数求解,而增量式学习基于随机梯度下降算法,可以迭代地训练模型参数,以用于预测和分类。
4. 为什么要学习贝叶斯网络结构贝叶斯网络结构能够提高模型的精度,有效地克服模型过拟合或欠拟合的情况,减小调参对模型精度的影响,可以有效地处理复杂环境中的知识有效传递和潜在关系等挑战,也可以有效处理特征量级变化大的情况,加快学习和推理速度,并且模型解释性更强。
因此,学习贝叶斯网络结构可以提高模型的预测和分类能力,并有助于完成机器学习任务。
贝叶斯网络结构学习与推理研究

贝叶斯网络结构学习与推理研究贝叶斯网络结构学习与推理研究引言贝叶斯网络是一种概率图模型,用于描述变量之间的依赖关系。
它被广泛应用于数据挖掘、机器学习、人工智能等领域,在不确定性问题的建模和推理中发挥着重要作用。
本文将就贝叶斯网络的结构学习和推理进行研究,探讨其在实际问题中的应用。
一、贝叶斯网络简介贝叶斯网络由一个有向无环图和一组条件概率分布组成,图中的节点表示变量,边表示变量之间的依赖关系。
贝叶斯网络通过概率分布来描述变量之间的条件概率关系,利用贝叶斯定理进行推理推断。
贝叶斯网络既能够表示变量之间的直接依赖关系,也能够表示间接依赖关系,因此能够有效地处理复杂的不确定性问题。
二、贝叶斯网络的学习方法贝叶斯网络的学习包括结构学习和参数学习两个方面。
结构学习是指从数据中学习网络的拓扑结构,而参数学习是指学习网络中条件概率分布的参数。
1. 结构学习贝叶斯网络的结构学习是一个关键性问题,其目的是从观测数据中自动生成贝叶斯网络的结构。
常用的结构学习方法包括约束型学习和无约束型学习。
约束型学习方法通过给定的领域知识或先验假设限制网络结构的搜索空间,来减小搜索的复杂度。
例如,基于专家知识或领域知识的先验约束,限制变量之间的依赖关系,从而缩小结构搜索空间。
无约束型学习方法则不限制网络结构的搜索空间,可以从大规模的数据集中学习贝叶斯网络的结构。
典型的无约束型学习方法包括基于贝叶斯评分准则的搜索算法,如贝叶斯信息准则(BIC)、最大边缘似然(MLE)等。
2. 参数学习在给定网络结构的情况下,需要学习网络中的条件概率分布的参数。
参数学习可以通过最大似然估计(MLE)或贝叶斯估计进行。
最大似然估计是一种经典的参数学习方法,通过最大化数据的似然函数来估计参数的值。
贝叶斯估计则引入了先验知识,通过贝叶斯公式进行参数估计,考虑了样本的大小和先验分布的影响。
三、贝叶斯网络的推理方法贝叶斯网络的推理是指根据已知观测值和网络结构,得到其他变量的概率分布。
贝叶斯网络结构学习方法在知识图谱推理中的应用效果评估

贝叶斯网络结构学习方法在知识图谱推理中的应用效果评估知识图谱是一种用于表示和组织知识的结构化数据模型,它通过实体之间的关系来反映事物之间的联系。
随着知识图谱的发展和应用,越来越多的研究者开始关注如何利用这些关系进行推理和推断。
在知识图谱推理中,贝叶斯网络结构学习方法被广泛应用,其具有有效地处理不确定性和复杂关系的优势。
本文将对贝叶斯网络结构学习方法在知识图谱推理中的应用效果进行评估。
一、贝叶斯网络结构学习方法概述贝叶斯网络是一种基于概率图模型的表示方法,它将变量之间的关系表示为有向无环图(DAG)。
贝叶斯网络结构学习方法旨在通过给定的数据集来学习贝叶斯网络的结构,从而推断变量之间的概率关系。
贝叶斯网络结构学习方法通常包括两个主要步骤:变量选择和参数学习。
在变量选择过程中,通过评估变量之间的条件独立性来确定网络的结构;在参数学习过程中,通过最大似然估计或贝叶斯方法来估计网络中的参数。
二、贝叶斯网络在知识图谱推理中的应用1. 知识图谱推理任务知识图谱推理任务主要包括实体关系预测和实体属性填充。
实体关系预测是指给定两个实体,预测它们之间的关系类型;实体属性填充是指给定一个实体,预测它的缺失属性。
这些任务对于知识图谱的完善和扩展非常重要,可以提供更多的知识和信息。
2. 贝叶斯网络在知识图谱推理中的应用贝叶斯网络在知识图谱推理中的应用主要包括两个方面:一是通过学习知识图谱中实体之间的关系,提升知识图谱的表示能力;二是通过基于贝叶斯网络的推理算法,实现对知识图谱中未知关系或缺失属性的预测。
在知识图谱的表示方面,贝叶斯网络可以捕捉实体之间的复杂关系,并将这些关系编码为网络结构。
通过贝叶斯网络的学习方法,可以从大规模的知识图谱数据中发现实体之间的潜在关系,进而提供更多的推理和推断能力。
在知识图谱推理方面,贝叶斯网络可以通过推理算法对未知关系进行预测。
根据已知的实体关系和属性,贝叶斯网络可以自动推断出实体之间的概率关系,并预测未知关系的概率。
贝叶斯网络的发展与展望

贝叶斯网络的发展与展望
王理冬;汪光阳;程泽凯;朱孝宇
【期刊名称】《安徽工业大学学报(自然科学版)》
【年(卷),期】2006(023)002
【摘要】目前贝叶斯网络在各种领域得到了广泛的应用.对贝叶斯网络进行了综合性的概述,回顾了贝叶斯网络的发展历史,并对该网络当前研究的领域进行了分析和论述.
【总页数】4页(P195-198)
【作者】王理冬;汪光阳;程泽凯;朱孝宇
【作者单位】安徽工业大学,计算机学院,安徽,马鞍山,243002;安徽工业大学,计算机学院,安徽,马鞍山,243002;安徽工业大学,计算机学院,安徽,马鞍山,243002;安徽工业大学,计算机学院,安徽,马鞍山,243002
【正文语种】中文
【中图分类】TP317
【相关文献】
1.改进进化算法的贝叶斯网络结构学习及其应用 [J], 郭文强;毛玲玲;黄梓轩;肖秦琨;郭志高
2.贝叶斯网络结构学习的发展与展望 [J], 贺炜;潘泉;张洪才
3.基于数据驱动贝叶斯网络的内河船舶交通事故分析 [J], 叶子阳;陈沿伊;张培林;程盼;钟惠林;侯华保
4.基于贝叶斯网络分析重症肺炎中医证候规律 [J], 卢恩仕;韩明光;刘峰;张杰;于红
建;刘祖发
5.基于v-结构和邻居集的启发式贝叶斯网络结构学习方法 [J], 徐苗;王慧玲;梁义;綦小龙
因版权原因,仅展示原文概要,查看原文内容请购买。
贝叶斯网络学习方法在知识图谱推理中的应用

贝叶斯网络学习方法在知识图谱推理中的应用知识图谱是一种以图形结构表示知识的技术,他能够将现实世界中的实体、关系和属性等信息以图的形式进行组织和展示。
在知识图谱中,如何进行推理和推断对于进一步挖掘和应用知识具有重要的作用。
贝叶斯网络作为一种常用的概率图模型,具有表达不确定性以及推理能力的优势,近年来在知识图谱推理中得到了广泛应用。
一、贝叶斯网络简介贝叶斯网络是一种基于概率的图模型,用于描述变量之间的依赖关系。
它由一组节点和有向边组成,节点表示变量,有向边表示变量之间的依赖关系。
每个节点都与一个条件概率表(Conditional Probability Table,CPT)相关联,用于描述该节点在给定其父节点状态下的条件概率分布。
贝叶斯网络通过联合概率分布来表示整个系统的不确定性。
二、贝叶斯网络在知识图谱推理中的优势1. 概率推理能力:贝叶斯网络能够通过利用已知的先验知识和观察数据,根据贝叶斯公式进行后验推理,从而对未知变量进行预测和推断。
2. 知识表示灵活:贝叶斯网络以图的形式表示实体和关系之间的知识,能够灵活地描述复杂的知识结构和关联性。
3. 不确定性建模:贝叶斯网络能够有效地处理不确定性问题,根据已有数据和先验知识进行概率推理,从而减少了因缺乏数据而无法进行推理的情况。
4. 适应大规模知识图谱:贝叶斯网络的推理算法具有良好的可扩展性,能够应对大规模知识图谱的推理需求。
三、贝叶斯网络在知识图谱推理中的应用场景1. 实体关系推断:利用贝叶斯网络可以推断两个实体之间的关系,例如推断两个人之间的亲属关系或者两个商品之间的相似性。
2. 属性预测:根据已知属性和观察数据,利用贝叶斯网络可以预测实体的未知属性,例如根据用户的购买记录预测其偏好属性。
3. 缺失数据填补:在知识图谱中,往往存在一些缺失数据,利用贝叶斯网络可以通过已有数据进行推理填补缺失值,从而完善知识图谱的完整性。
4. 推荐系统:贝叶斯网络可以有效地组织和分析用户行为和偏好数据,根据用户的历史行为和观察数据,进行个性化的推荐。
贝叶斯统计学的运用与展望精品资料

2贝叶斯统计推断方法
参数估计与假设检验构成统计推断的两大基本内容,贝叶斯统计学在这两个方面形成了与频率统计学相平行的理论方法,并赋予统计推断以新的解释。
2.1点估计就点估计而言,经典统计学通常要求,作为总体参数的一个优良估计必须具备无偏性,即如果用θ赞表示总体参数θ的优良估计值,那么θ赞必须具备E(θ赞)=θ的性质,也就是从总体N个单位中按随机性原则抽取n个单位组成样本,如果对每一个样本都计算一次θ赞的值,那么共CnN个θ赞值的期望均值应该等于θ。然而,在实际应用中,人们往往只能根据一次抽样观察做出估计,显然就不可回避这样的问题,在一次抽样观察中用θ赞去估计θ,其优良性如何去评估呢?对此,按照经典统计学的理论是不好给出确切说明的。然而,贝叶斯统计推断采用损失函数作为选取最佳估计值的评价标准。它认为最佳估计值的选取依赖于用θ赞来估计参数真值θ时所造成的损失,一般用损失函数L(θ赞,θ)来表示,若要获得最佳估计值,就必须使在θ所有可能值上的后验加权平均(或期望)损失最小,即Eθ(/yθ/y,[L(θ赞,θ)])=乙L(θ赞,θ)π(θ/y)坠θ达到最小。如果采用二次损失函数L1=c(θ赞,θ)2,那么后验期望损失就变为:Eθ(/yθ/y,[L(1θ赞,θ)])=乙c(θ赞,θ)2π(θ/y)坠θ对上式求导,得ddθ赞=2乙c(θ赞-θ)π(θ/y)坠θ,令上式为0,即可获得θ的最佳点估计值实际上就是后验密度的均值(期望):θ赞=E(θ)=乙θπ(θ/y)坠θ。由此可见,在贝叶斯点估计时,参数估计的优良性可以通过期望后验损失最小来反映,而且后验分布是仅依赖于一次抽样观察做出的,因此无论抽样是否可以重复,都可以对某一次抽样观察给出最优估计值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:100220411(2004)022*******贝叶斯网络结构学习的发展与展望贺 炜,潘 泉,张洪才(西北工业大学自动控制系613信箱,陕西西安 710072)摘 要:从最初的概率贝叶斯网络构建阶段到涌现大量研究成果的因果贝叶斯网络结构学习阶段,本文完整地回顾了贝叶斯网络结构学习的整个发展历程,并对该领域当前存在的问题及相关研究进行分析论述,给出了研究展望.值得一提的是,贝叶斯网络结构学习正在成为因果数据挖掘的主流.关键词:概率贝叶斯网络;因果贝叶斯网络;贝叶斯网络结构学习;因果数据挖掘中图分类号:TP18 文献标识码:ADevelopment and Prospect of B ayesian N et w ork Structure LearningHE Wei,PAN Quan,ZHAN G Hong2cai(Depart ment of Cybernetics,Northwest Polytechnical U niversity,Xiπan 710072,Chi na) Abstract:From the initial stage of probabilistic Bayesian network construction to the flourishing stage of causal Bayesian network structure learning,this paper firstly reviews Bayesian network structure learning.Then its current problems,related researches and prospects are discussed.It is worth of pointing out that the research of Bayesian network structure learning is becoming the mainstream in the field of causal data mining.K eyw ords:probabilistic Bayesian network;causal Bayesian network;Bayesian network structure learning;causal data mining1 基本概念(B asic concepts)1.1 贝叶斯网络 贝叶斯网络[1~9]又称为信念网络,是一种图型化的模型,能够图形化地表示一组变量间的联合概率分布函数.一个贝叶斯网络包括了一个结构模型和与之相关的一组条件概率分布函数.结构模型是一个有向无环图,其中的节点表示了随机变量,是对于过程、事件、状态等实体的某特性的描述,边则表示变量间的概率依赖关系.图中的每个节点都有一个给定其父节点情况下该节点的条件概率分布函数.这样,一个贝叶斯网络就用图形化的形式表示了如何将与一系列节点相关的条件概率函数组合成为一个整体的联合概率分布函数.因果贝叶斯网络是指具有因果含义的贝叶斯网络,其中每个节点的父节点被解释为该节点相对于模型中其它节点的直接原因.为了与之区别,有时也将没有因果意义的贝叶斯网络称为概率贝叶斯网络. 贝叶斯网络作为一种图形化的建模工具,具有一系列的优点:(1)贝叶斯网络将有向无环图与概率理论有机结合,不但具有了正式的概率理论基础,同时也具有更加直观的知识表示形式.一方面,它可以将人类所拥有的因果知识直接用有向图自然直观地表示出来,另一方面,也可以将统计数据以条件概率的形式融入模型.这样贝叶斯网络就能将人类的先验知识和后验的数据无缝地结合,克服框架、语义网络等模型仅能表达处理定量信息的弱点和神经网络等方法不够直观的缺点;(2)贝叶斯网络与一般知识表示方法不同的是对于问题域的建模.因此当条件或行为等发生变化时,不用对模型进行修正;(3)贝叶斯网络可以图形化表示随机变量间的联合概率,因此能够处理各种不确定性信息;(4)贝叶斯网络中没有确定的输入或输出节点,节点之间是相互影响的,任何节点观测值的获得或者对于任何节点的干涉,都会对其他节点造成影响,并可以利用贝叶斯网络推理来进行估计预测;(5)贝叶斯网络的推理是以贝叶斯概率理论为基础的,不需要外界的任何推理机制,不但具有理论依据,而且将知识表示与知第33卷第2期2004年4月 信息与控制Information and ControlVol.33,No.2 Apr.,2004 收稿日期:2003-03-17 基金项目:国家自然科学基金资助项目(60172037);教育部“跨世纪优秀人才培养计划”基金资助项目(教技函[2001]1号)识推理结合起来,形成统一的整体[11~13]. 由于上述优点,贝叶斯网络很快就成为人工智能领域进行不确定性推理和建模的一个有效工具.利用贝叶斯网络对于事件或者属性间的带有不确定性的相互关系进行建模和推理在医学诊断、自然语言理解、故障诊断、启发式搜索、图像解释、目标识别以及不确定推理和预测等方面产生了很多成功的应用[14~17],这些应用大致可分为建立系统模型以辅助决策、实现特征融合以及进行分类的数据分析三大类.1.2 贝叶斯网络结构学习 一般贝叶斯网络的构建是首先由相关领域的专家根据事物间的关系来确定出结构模型,即有向无环图,然后再利用其它方法确定每个节点的条件概率,但这样构建的网络模型无法保证其客观性和可靠性.因此,研究人员尝试引入客观的观测数据,希望通过将观测数据与专家知识相结合来共同构建贝叶斯网络,并进一步在没有专家先验知识的情况下,尝试完全从观测数据中学习得到网络结构和参数.其中网络结构的学习不但是整个学习过程的基础,并且是一个NP难题[18],因此更吸引了大量研究人员的注意. 研究人员借鉴统计学领域对多变量联合概率分布近似分解的方法[19],从多个角度对该问题进行研究,形成了基于独立性检验和基于评价与搜索的两大类算法[20].在一系列假设下,研究人员通过将先验信息与观测数据相结合,实现了多种网络结构模型的学习算法,进而提出了在没有任何先验信息情况下的相应算法.最近的研究开始减弱甚至放弃某些假设,从更一般意义下研究网络结构的学习.因果贝叶斯网络结构模型的学习有时也称为因果发现或因果挖掘.这是因为数据的处理所获得的结构模型反映了事物间因果关系的知识.从广义的角度讲,因果数据挖掘可以认为是从数据中发现有关因果性知识的过程.2 概率贝叶斯网络构建阶段(Construction stage of probabilistic B ayesian net w ork)统计分析常常要对多变量随机系统进行建模,以便进行密度估计等各种统计分析.用联合概率分布函数能清楚地描述多变量随机系统的统计特性,但难以获得数学解析公式表达.利用独立变量的联合概率分布能进行分解的特性,研究人员将较小相关性近似按照独立处理,从而实现联合概率的近似分解和图形表示,这就是早期的贝叶斯网络构建过程.我们称这一阶段的研究为概率贝叶斯网络构建阶段. 较早的研究是在1968年,C.K.Chow和C.N. Liu[19]给出了如何通过构建一个树状网络模型来对给定的联合概率分布P进行分解表示的算法.该算法用Kullback2Leibler交叉熵来衡量模型与联合概率P的近似程度,并对于变量间的独立性进行检验,以保证能找到最佳结构.该算法中所蕴涵的思想是后来所有相关研究的基础.G.Rebane和J udea Pearl[21]在1987年将Chow2Liu算法做了改进,将之扩展到多树结构,同时提出了利用条件独立性关系来确定边的方向的方法,开始了构建有向图的研究. Wermuth和Lauritzen[22]在1983年给出了一个通过检验变量间的独立性关系来确定节点之间是否存在边、从而构建出有向图的理论性算法,该算法所得出的网络结构不再限于树状,使得研究开始走向一般网络结构的学习. 概率贝叶斯网络逐渐形成一种常用的随机多变量系统的建模和分析工具.随后人工智能等领域也开始从构建因果系统模型的角度对贝叶斯网络进行研究.这样就进入下一阶段———因果贝叶斯网络结构学习阶段.3 因果贝叶斯网络结构学习阶段(Learning stage of causal B ayesian net w ork)20世纪80年代末,人工智能领域的研究人员注意到贝叶斯网络对不确定系统的建模能力后,开始利用它来构建不确定性专家系统,进行诊断、推理、估计等任务.贝叶斯网络构建的专家系统能够对于不同事物之间的因果关系进行定性和定量的描述,并根据相应的观测或干涉作出推理.这类模型一般是由领域专家根据主观的因果知识构建的.引入观测数据可以减少构建模型的主观性,并增加其可靠性.因此,如何结合先验因果知识来构建贝叶斯网络就成为一个重要的研究问题. 1991年,Cooper和Herskovits提出的K2算法[23]是结合先验信息进行贝叶斯网络结构学习的一个有实际意义的重要算法,在整个研究发展过程中占有重要地位.该算法在给定节点顺序这一先验信息的情况下,利用贝叶斯概率作为标准来评价模型与数据的符合程度,通过不断向网络中增加能提高评价指针的边的贪婪搜索方法来找出最佳网络结构.基于这一思路的方法被统称为基于评价和搜索681信 息 与 控 制 33卷 的结构学习方法.实际在1991年Herskovits和Cooper就已经提出了与K2算法原理相同的Kutato 算法[23],只是由于采用的评价指针为熵,计算量也稍大于K2算法,因此影响要小些.Heckerman等人在1994年的一份微软研究院技术报告[24]中,对于给定各种先验信息的情况下,如何进行贝叶斯网络结构学习进行了系统的研究,给出了将先验知识与统计数据相结合的统一框架的结构学习算法. 研究人员同时也尝试在没有任何先验信息的情况下进行贝叶斯网络结构的学习.Singh和Valtor2 ta[25]在1995年提出了一种混合算法.该算法首先通过对于一种基于独立性检验的算法———PC算法进行改进———来获得节点的顺序,然后再用K2算法学习网络结构.Lam[26]在1994年提出的算法用最小描述长度作为衡量标准,完全通过搜索与评价来找出正确的网络结构,而不需要知道节点顺序等先验信息.Wallace[27]在1996年发表的利用最小信息长度作为衡量标准的评价搜索算法也不需要节点顺序,并能取得相当好的效果. 沿着Pearl1988年的Boundary DA G算法[2]的思路,研究人员尝试通过检验变量间的独立性关系来构建网络结构,这类算法称为基于独立性检验的结构学习算法.首先是Srinivas[28]在1990年对Boundary DA G算法进行了扩展,在已知部分节点顺序和其它一些领域先验知识的情况下,通过独立性检验来重新构建网络结构.Spirtes[29]在1990年提出的SGS算法在不给定节点顺序的情况下,完全利用独立性检验来学习网络结构.但这是一个NP难题.1991年Spirtes对SGS算法的搜索策略进行改进,提出了PC算法[30].该算法对于稀疏网络的结构学习表现出较小的计算量.1997年,Jie Cheng提出的基于互信息的独立性检验构建算法[20]表现出非常好的效果.这是一种基于定量互信息检验的网络结构学习算法,算法假设将两节点A、B间的非Collider节点C放入条件集中会减少A、B节点间的互信息量,而将Collider节点D放入则会增加A、B 间的互信息量.通过这样的启发式评价函数来找到相应节点间的割集,进而确定节点间是否存在边. 初期研究是将领域专家的先验知识与观测数据相结合来构建相应的因果贝叶斯网络.随后研究人员又进一步尝试在较少的先验知识甚至无任何先验知识下,完全从观测数据中构建恰当的贝叶斯网络模型.于是整个发展阶段都是以构建特定领域的因果贝叶斯网络模型为目的.这就使得研究对象是一个相对狭窄的、已经由领域专家预先挑选处理过的数据集和变量集合,算法所要做的就是根据这些变量之间的统计特性来推断出他们之间存在的因果关系.这也是这类算法中所做的许多前提假设能够成立的原因.4 当前存在的问题及相关研究(Existent problems and related researches)4.1 马尔可夫等价类问题及其研究 在利用观测数据构建因果贝叶斯网络的研究中,人们证明了利用观测数据仅能确定贝叶斯网络的马尔可夫等价类[31].下面是马尔可夫等价类的定义: 马尔可夫等价类—表示了同样的独立性关系的网络结构被称为是属于同一马尔可夫等价类的. 同一马尔可夫等价类内的网络结构无法通过观测数据来区分开.这样网络中有些边的方向无法确定.在有领域专家存在的情况下,还可以利用专家的领域知识来帮助确定这些边的方向,但在没有专家先验信息的情况下,这便成为观测数据学习网络结构的一个根本缺陷. 研究人员尝试将观测数据与可控试验产生的实验数据结合起来解决这一问题.Gregory[32]在1999年给出了将实验数据与观测数据相结合来学习网络结构的方法.Simon[33]和Murphy[34]在2001年都分别提出利用主动学习来学习贝叶斯网络结构的思想.其主要思想是利用某评价指针来估计能对下一步结构学习提供最大信息量的数据的形式,然后据此给出可控试验应采取的条件和形式.得到的试验数据应具有较高的信息量,并可将之与前面的观测数据学习结果相结合来进一步确定网络结构.因此,对于观测数据学习因果结构时无法区分边的方向的问题,可以通过这种结合试验数据的方法来解决.另外,Tian[35]在2001提出通过检测底层数据模型的变化来进行因果贝叶斯网络结构发现的方法,也可以在某种程度上解决这一问题.4.2 前提假设过强问题及其研究 在贝叶斯网络结构学习中,人们发现算法的许多假设在实际中常常无法满足.因此,研究人员放松贝叶斯网络结构学习的前提假设,如数据完整性假设、无选择偏好假设和变量离散化假设等,尝试在更一般的情况下进行贝叶斯网络结构的学习.数据完整性假设表明数据集中不存在缺失项.对于存在缺失项的情况,人们提出了三种解决方法.第一种是抛7812期 贺 炜等:贝叶斯网络结构学习的发展与展望弃存在缺失项的数据,这样会造成两个问题,一是会引起数据集变小,可能造成统计样本不够,二是可能这些缺失项的出现不是随机的,抛弃这些数据项会使得数据集无法正确反映实际;第二种方法是给缺失的值赋一个特定的值,如“无”,但这样有可能改变底层的统计关系;第三种方法是给缺失的值赋一个恰当的值,最好与原值近似,有许多方法来指派丢失数据项[36].Friedman[37]将EM算法与模型选择相结合,实现了缺失项估计和结构学习.Chickering[38]用近似评价函数来处理缺失项. 无选择偏好假设表明该数据集是对于实际总体的无偏采样.匹兹堡大学的Gregory F.Cooper[39]在2000年提出了一种存在选择偏好情况下的贝叶斯网络学习算法.该算法通过在有向图中引入一个新的变量节点S来表示具体的数据点是否会被采样到,并在那些会影响采样的变量节点与S之间建立有向边来表示他们对于采样的影响.通过对于这样一个修正网络的学习,从理论上就能避免选择偏好的影响. 许多算法都有变量离散化假设,即假设所面临的变量都是离散变量.对于实际系统中存在连续变量的情况,可以直接采取离散化的方法,如Fried2 man和G oldszmidt[40]在1996年提出根据评价函数来自动确定离散化的门限值,并据此将连续变量离散化的方法.也有研究人员尝试直接对于连续变量的贝叶斯网络或混合有连续变量和离散变量的网络结构进行学习.Heckerman和G eiger[41]在1995提出的贝叶斯评价标准能够处理离散和高斯连续分布情况下网络结构的评价问题,从而能够对连续和混合贝叶斯网络结构进行学习.1996年R.Hofmann 和V.Tresp[42]利用非线性条件密度估计来学习连续变量的条件概率,从而学习贝叶斯网络结构.1997年S.Monti和G. F.Cooper[43]提出通过人工神经网络来估计条件密度以学习连续变量的贝叶斯网络结构.上面这些方法较好地处理了连续变量的贝叶斯网络结构的学习问题.5 因果数据挖掘初露端倪(Emergence of causal data mining)5.1 因果发现算法的提出 利用因果贝叶斯网络的理论,研究人员研究因果关系的发现.Cooper[44]在1997年提出了一种简单易行的因果关系挖掘算法.该算法通过假定已知一个非结果节点W,利用贝叶斯网络结构的性质,对数据集进行搜索,找出满足条件的因果关系.Sil2 verstein[45]在1998年尝试了大型事物数据库的挖掘.5.2 实际需要的呼唤 信息处理所面临的海量数据导致了数据挖掘的理论出现和算法发展.数据挖掘关联算法能对数据中隐含的变量之间的关联关系进行挖掘与发现;分类算法则能对于各个观测变量与目标变量之间的关联关系进行建模,从而根据观测变量的值对目标变量的值进行预测[46].然而,这些算法大都是对于事物之间的统计关联关系的挖掘发现,没有涉及到事物之间的底层因果结构.与统计关联规则相比,因果规则能够提供事物间的内在机制性的规律和知识,使人们能对干涉这些事物所产生的结果作出判断和预测.当已有的挖掘算法挖掘出有用的统计关联知识后,人们自然进一步期望能够获得对于事物的更加本质的认识.因此,在因果贝叶斯网络学习理论不断发展的基础上,各种因果知识发现的研究也不断展开[47~49].6 因果挖掘的前景(Prospect of the causal data mining)因果数据挖掘的研究仍然处于理论阶段,仅有少量实际应用[49,50].这是由于贝叶斯网络结构学习理论的发展是在一个相对单纯的数据背景下进行的,与数据挖掘所面临的情况不同,直接将这些算法应用到环境复杂的数据挖掘应用中,往往难以得到有意义的结果;同时,数据挖掘本身是一个人机交互的多步过程,需要前处理、算法和后处理相结合才有可能得出有意义的结论.另一方面,因果关系挖掘是对于数据中比统计关联规则更高层次的因果知识的发现,因此,如果能够在统计关联挖掘结果的基础上进行因果关系的挖掘,就能借用前者的成果,在已经加工处理过的信息的基础上,进一步精炼,得到更深层次的因果信息. 因此,成功的因果数据挖掘应是以贝叶斯网络结构学习理论为核心,将算法根据数据挖掘的要求进行改进,并与前处理相结合,同时将可控试验与后处理相结合,并与操作人员进行合理恰当的交互,从而达到最终发现因果关系的目的.我们已经开展了这方面的研究工作.由于因果知识能提供关于事物的本质的认识,对干涉的结果作出预测,因此因果挖掘有望在医学、经济、网络等领域中获得巨大的成功.881信 息 与 控 制 33卷 参 考 文 献(R eferences)[1] Jordan M I.Learning in Graphical Models[M].Massachusetts:MIT Press,1998.[2] Pearl J.Probabilistic Reasoning in Intelligent Systems:Networksof Plausible Inference[M].San Mateo CA:Morgan KaufmanPublishers,1988.[3] Jensen F V.An Introduction to Bayesian Networks[M].NewY ork:Springer,1996.[4] Jensen F V.Bayesian Networks and Decision Graphs[M].NewY ork:Springer,2001.[5] Pearl J.Graphical Models for Probabilistic and Causal Reasoning[A].The Computer Science and Engineering Handbook[M].Boca Raton,FL,USA:CRC Press,1997,Volume1.697~714.[6] Lauritzen S.Graphical Models[M].Oxford:Oxford UniversityPress,1996.[7] Cowell R G,Dawid A P,Lauritzen S L,et al.Probabilistic Net2works and Expert Systems[M].New Y ork:Springer,1999.[8] 刘志强.因果关系、贝叶斯网络与认知图[J].自动化学报,2001,27(4):552~566.[9] 胡玉胜,涂序彦,崔晓瑜,等.基于贝叶斯网络的不确定性知识的推理方法[J].计算机集成制造系统2CIMS,2001,7(12):65~68.[10] Huang C,Darwiche A.Inference in belief networks:a procedu2ral guide[J],International Journal of Approximate Reasoning,1996,15(3):225~263.[11] Dawid A P.Applications of a general propagation algorithm forprobabilistic expert systems[J].Statistics and Computing,1992,2(2):25~36.[12] Buntine W L.Operations for learning with graphical models[J].Journal of Artificial Intelligence Research,1994,2:159~225.[13] Lauritzen S L,Spiegelhalter D J.Local computations with prob2abilities on graphical structures and their application to expertsystems[J].Journal of the Royal Statistical Society,1988,50(2):157~224.[14] Sahely B S G E,Bagley D M.Diagnosing upsets in anaerobicwaster water treatment using Bayesian belief networks[J].Journal of Environmental Engineering,2001,127(4):302~310.[15] Neil M,Fenton N,Forey S,et ing Bayesian belief net2works to predict the reliability of military vehicles[J].Comput2 ing and Control Engineering Journal,2001,12(1):11~20. [16] Ng G,Ong ing a qualitative probabilistic network to ex2plain diagnostic reasoning in an expert system for chest pain diag2nosis[A].Computers in Cardiology2000[C].Cambridge,Massachusetts,USA:IEEE,2000.569~573.[17] 傅 军,贺 炜,阎建国,等.贝叶斯网络在柴油机动力装置故障诊断中的应用[J].上海海运学院学报,2001,22(3):68~71.[18] Chickering D M.Learning Bayesian networks is NP2complete[A].Learning from Data:AI and Statistics V[M].NewY ork:Springer,1996.121~130.[19] Chow C K,Liu C N.Approximating discrete probability distri2butions with dependence trees[J].IEEE Transactions on Infor2mation Theory,1968,IT-14(3):462~467.[20] Jie C,Greiner R.Learning Bayesian networks from data:an in2formation2theory based approach[J].Artificial Intelligence,2002,137(1-2):43~90.[21] Rebane G,Pearl J.The recovery of causal polytrees from statis2tical data[A].Third Annual Conference on Uncertainty in Arti2 ficial Intelligence[C].Amsterdam:Morgan Kaufmann,1987.222~228.[22] Wermuth N,Lauritzen S.Graphical and recursive models forcontingency tables[J].Biometrika,1983,70(1):537~552.[23] Herskovits puter2based Probabilistic2Network Construc2tion[D].USA:Stanford University,1991.[24] Heckerman D,G eiger D.Chickering D M.Learning Bayesiannetworks:the combination of knowledge and statistical data[J].Machine Learning,1995,20(3):197~243.[25] Singh M,Valtorta M.Construction of Bayesian network struc2tures form data:a brief survey and an efficient algorithm[J]In2ternational Journal of Approximate Reasoning,1995,12(2):111~131.[26] Lam W,Bacchus F.Learning Bayesian belief networks:an ap2proach based on the MDL principle[J].Computational Intelli2gence,1994,10(4):269~293.[27] Wallace C,K orb K B,Dai H.Causal discovery via MML[A].Proceedings of the Thirteenth International Conference on Ma2chine Learning[C].San Francisco:Morgan Kaufmann Publish2ers,1996.516~524.[28] Srinivas S,Russell S,Agogino A.Automated construction ofsparse Bayesian networks from unstructured probabilistic modelsand domain information[A].Fifth Annual Conference on Un2certainty in Artificial Intelligence[C].Amsterdam:MorganKaufmann,1990.295~308.[29] Spirtes C,G lymour P,Scheines R.Causality from probability[A].Evolving Knowledge in Natural Science and Artificial In2telligence[M].London:Piman,1990.181~199.[30] Spirtes P,G lymour C,Scheines R.An algorithm for fast recov2ery of sparse causal graphs[J].Social Science Computer Re2view,1991,9(1):62~72.[31] Pearl J,Wermuth N.When can association graphs admit acausal interpretation[A].The Fourth International Workshopon Artificial Intelligence and Statistics[C]uderdale,FL:Springer,1993.41~150.[32] Cooper G F,Y oo C.Causal discovery from a mixture of experi2mental and observational data[A].Fifth Annual Conference onUncertainty in Artificial Intelligence[C].Morgan Kaufmann,CA:Morgan Kaufmann,1999.116~125.[33] Tong S,K oller D.Active learning for structure in Bayesian net2works[A].Proceedings of the International Joint Conference on9812期 贺 炜等:贝叶斯网络结构学习的发展与展望Artificial Intelligence[C].Seattle,Washington:Morgan Kauf2mann,2001.863~869.[34] Murphy K.Active Learning of Causal Bayes Net Structure[R].Berkeley:University of California,2001.[35] Tian J,Pearl J.Causal discovery from changes[A].Seven2teenth Annual Conference on Uncertainty in Artificial Intelli2gence[C].Seattle,Washington,USA:Morgan Kaufmann,2001.512~521.[36] Little R J A,Rubin D B.Statistical Analysis with Missing Data[M].New Y ork:John Wiley&Sons,1987.[37] Friedman N.The Bayesian structural EM algorithm[A].Four2teenth Annual Conference on Uncertainty in Artificial Intelli2gence[C].San Francisco,CA:Morgan Kaufmann,1998.125~133.[38] Chickering D M,Heckerman D.Efficient approximations forthe marginal likelihood of incomplete data given a Bayesian net2work[A].Twelfth Annual Conference on Uncertainty in Artifi2cial Intelligence[C].Stanford,USA:Morgan Kaufmann,1996.158~168.[39] Cooper G F.Causal modeling and discovery under selection[A].Sixteenth Annual Conference on Uncertainty in ArtificialIntelligence[C].Stanford,California,USA:Morgan Kauf2mann,2000.98~106.[40] Friedman N,G oldszmidt M.Discretizing continuous attributeswhile learning Bayesian networks[A].Proceedings of the Thir2teenth International Conference on Machine Learning[C].Bari,Italy:Morgan Kaufmann,1996.157~165.[41] Heckerman D,G eiger D.Learning Bayesian networks:a unifi2cation for discrete and G aussian domains[A].Eleventh AnnualConference on Uncertainty in Artificial Intelligence[C].Mon2treal,Quebec,Canada:Morgan Kaufmann,1995.274~284. [42] Hofmann R,Tresp V.Discovering structure in continuous vari2ables using Bayesian networks[A].Advances in Neural Infor2mation Processing Systems[M].Cambridge,MA:MIT Press,1996.500~506.[43] Monti S,Cooper G F.Learning Bayesian belief networks withneural network estimators[A].Proceedings of the Conferenceon Neural Information Processing Systems[C].Massachusetts:MIT,1996.579~584.[44] Cooper G F.A simple constraint2based algorithm for efficientlymining observational databases for causal relationships[J].DataMining and Knowledge Discovery,1997,1(2):203~224. [45] Silverstein C,Brin S,Motwani R,et al.Scalable techniques formining causal structures[A].Proceedings of the1998Interna2tional Conference on Very Large Data Bases[C].New Y ork,N Y:Morgan Kaufmann,1998.594~605.[46] 韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2001.[47] Dai H,K orb K B,Wallace C S,et al.A study of causal discov2ery with weak links and small samples[A].Proceedings of theFifteenth International Joint Conference on Artificial Intelligence[C].San Francisco,USA:Morgan Kaufmann Publishers,1997.1304~1309.[48] Spirtes P,Cooper G.An experiment in causal discovery using apneumonia database[A].Proceedings of AI and Statistics99[C].Florida:Morgan Kaufmann,1999.157~165.[49] Mani S,Cooper G F.A study in causal discovery from popula2tion2based infant birth and death records[A].Proceedings ofthe AMIA Annual Fall Symposium[C].Philadelphia,PA:Hanley and Belfus Publishers,1999.315~319.[50] Mani S,Cooper G F.Causal discovery from medical textual data[A].Proceedings of the AMIA Annual Fall Symposium[C].Philadelphia,PA:Hanley and Belfus Publishers,2000.542~546.作者简介贺 炜(1977-),男,博士生.研究领域为非确定性人工智能,数据挖掘.潘 泉(1961-),教授,博士生导师.研究领域为自适应系统的建模、估计与控制,信息融合,C3I,小波理论及应用,多尺度系统理论等.张洪才(1938-),男,教授,博士生导师.研究领域为动态系统建模、估计与仿真,非线性系统的估计与控制,系统的故障诊断与容错控制,多目标跟踪与多传感器数据融合等.091信 息 与 控 制 33卷 。