贝叶斯网络结构学习总结

合集下载

贝叶斯网络-代码学习

1
版权所有，仿冒必究-------全同学
// initialize ADTree
if (m_bUseADTree) {//weka里默认是是false
m_ADTree = ADNode.makeADTree(instances);
//
System.out.println("Oef, done!");
} if (nParent< bayesNet.getNrOfNodes()) {
bayesNet.getParentSet(iAttribute).addParent(nParent, instances);
3
版权所有，仿冒必究-------全同学
} else { System.err.println("Warning: Node " + sParent + " is
initialNet.getNodeName(initialNet.getParent(iNode, iParent)); int nParent = 0; while (nParent < bayesNet.getNrOfNodes()
&& !bayesNet.getNodeName(nParent).equals(sParent)) { nParent++;
// reserve memory m_ParentSets = new ParentSet[m_Instances.numAttributes()]; // m_Instances.numAttributes()返回的是训练数据的实际属性个数，包括了目标属性在内。 m_ParentSets 是表示所有属性节点的父节点，比如性别属性，如果性别属性id是4，那么 m_ParentSets[4]就存储的是性别属性节点的父节点

贝叶斯网络的模型调优方法(七)

贝叶斯网络是一种概率图模型，用于描述变量之间的依赖关系。

它通过图的结构和概率分布来表示变量之间的相互关系，是一种强大的建模工具，广泛应用于医学、金融、工程等领域。

在实际应用中，贝叶斯网络的模型调优是非常重要的一环，能够提高模型的准确性和可靠性。

本文将探讨一些贝叶斯网络的模型调优方法，希望对相关领域的研究者和应用者有所帮助。

1. 数据预处理在进行贝叶斯网络的模型调优之前，首先需要进行数据预处理。

这包括数据清洗、缺失值处理、异常值处理等步骤。

数据预处理可以提高模型的稳定性和准确性，避免模型受到数据质量的影响。

2. 特征选择特征选择是模型调优的重要一步，它能够减少模型的复杂度，提高模型的泛化能力。

对于贝叶斯网络模型而言，特征选择可以帮助减少变量之间的依赖关系，简化网络结构，提高模型的解释性。

常用的特征选择方法包括过滤式、包裹式和嵌入式方法，研究者可以根据具体情况选择合适的方法进行特征选择。

3. 结构学习贝叶斯网络的结构学习是模型调优的关键一环，它决定了网络中变量之间的依赖关系。

结构学习方法有很多种，包括启发式搜索、约束条件学习、贪婪搜索等。

在进行结构学习时，需要考虑网络的复杂度和解释性，避免过度拟合和欠拟合的问题。

4. 参数估计在确定网络结构后，还需要对网络的参数进行估计。

参数估计是指根据数据来估计网络中每个变量的条件概率分布。

常用的参数估计方法包括最大似然估计、贝叶斯估计等。

在进行参数估计时，需要考虑数据的分布特征和模型的复杂度，避免参数估计的过度自由度和不稳定性。

5. 模型评估模型调优的最后一步是模型评估，通过交叉验证、ROC曲线、AUC值等指标来评估模型的性能。

在进行模型评估时，需要考虑模型的准确性、稳定性、可解释性等方面，综合评估模型的优劣，并根据评估结果进一步调优模型。

总结贝叶斯网络是一种强大的建模工具，但是在实际应用中需要进行模型的调优，以提高模型的准确性和可靠性。

模型调优包括数据预处理、特征选择、结构学习、参数估计和模型评估等步骤，每个步骤都能够对模型性能产生重要影响。

贝叶斯网络的结构敏感性分析

贝叶斯网络的结构敏感性分析贝叶斯网络是一种概率图模型，用于描述变量之间的依赖关系。

它由节点和有向边组成，节点表示随机变量，有向边表示变量之间的依赖关系。

贝叶斯网络在机器学习、数据挖掘和人工智能等领域有着广泛的应用，然而，贝叶斯网络的结构对最终的推断结果有着重要的影响。

因此，对贝叶斯网络的结构敏感性进行分析，有助于了解网络结构对推断结果的影响，进而指导网络结构的构建和优化。

结构敏感性分析是指对贝叶斯网络结构进行变化后，观察网络对推断结果的影响。

一般来说，贝叶斯网络的结构包括节点的选择和边的连接。

节点的选择涉及到网络包含哪些变量，而边的连接则描述这些变量之间的依赖关系。

在结构敏感性分析中，我们可以通过改变节点的选择和边的连接来观察网络结构的变化对推断结果的影响。

首先，我们可以通过增加或减少网络中的节点来进行结构敏感性分析。

增加节点可能会带来更多的信息，但也会增加网络的复杂性，降低推断的准确性。

减少节点可能会简化网络结构，提高推断效率，但也会损失一部分信息。

因此，对网络节点的选择需要进行权衡，考虑到网络的复杂性、推断效率和信息量。

其次，我们可以通过增加或减少网络中的边来进行结构敏感性分析。

增加边可以增强网络中变量之间的依赖关系，提高推断的准确性，但也会增加网络的复杂性。

减少边可以简化网络结构，降低推断的复杂性，但可能会损失一部分变量之间的依赖信息。

因此，对网络边的连接需要进行权衡，考虑到网络的复杂性、推断的准确性和变量之间的依赖关系。

在进行结构敏感性分析时，我们需要通过实验和模拟来观察网络结构变化对推断结果的影响。

一种常用的方法是对比不同结构下的推断结果，分析它们之间的差异。

通过比较不同结构下的推断结果，我们可以了解网络结构的变化对推断的准确性、效率和稳定性的影响，进而指导网络结构的构建和优化。

除了对网络结构的变化进行观察外，我们还可以利用一些指标来量化网络结构对推断结果的影响。

例如，我们可以利用信息熵来描述网络结构对推断结果的不确定性。

贝叶斯网络

(40-9)
贝叶斯网络中的独立关系
•利用变量间的条件独立关系可以将联合概率分布分解成多个复杂度较低的概率分布，从而降低模型复杂度，提高推理效率。 •例如：由链规则可以把联合概率分布P(A, B, E, J, M)改写为：独立参数：1+2+4+8+16=31
– E与B相互独立，即P(E|B)=P(E) – 给定A时，J与B和E相互独立，即P(J|B, E, A)=P(J|A) – 给定A时，M与J、B和E都相互独立，即P(M|J, A, B, E)=P(M|A)
– 条件独立 – 因果影响独立 – 环境独立
(40-11)
贝叶斯网络中的独立关系
(一)条件独立
•贝叶斯网络的网络结构表达节点间的条件独立关系。 •三种局部结构
– 顺连 (serial connection) – 分连(diverging connection) – 汇连(converging connection)
(40-15)
贝叶斯网络中的独立关系
(四)环境独立(context independence)
•环境独立是指在特定环境下才成立的条件独立关系。 •一个环境是一组变量及其取值的组合。设环境中涉及变量的集合用 C表示， C的一种取值用c表示，则C=c表示一个环境。 •定义5.8 设X，Y，Z，C是4个两两交空的变量集合，如果 P(X, Y, Z, C=c)>0 且 P(X|Y, Z, C=c)= P(X| Z, C=c) 则称X, Y在环境C=c下关于Z条件独立。若Z为空，则称X, Y在环境C=c下环境独立。
得到联合概率边缘化分布：
再按照条件概率定义，得到
(40-8)
不确定性推理与联合概率分布

贝叶斯网络的构建方法(四)

贝叶斯网络的构建方法引言贝叶斯网络是一种用来描述变量之间依赖关系的概率图模型，它在各种领域中都有着广泛的应用，包括机器学习、数据挖掘、医学诊断等。

在贝叶斯网络中，节点表示随机变量，边表示变量之间的依赖关系。

如何构建一个合理的贝叶斯网络是一个重要的课题，本文将介绍一些常用的构建方法。

数据收集和变量选择在构建贝叶斯网络之前，首先需要收集相关的数据，并且选择合适的变量。

数据收集的过程中需要保证数据的完整性和准确性，同时也需要考虑变量之间的相关性。

在变量选择方面，可以利用领域知识或者专家经验来进行判断，也可以借助数据挖掘技术进行变量的筛选和排除。

结构学习结构学习是构建贝叶斯网络的重要步骤，它主要是确定变量之间的依赖关系。

常用的结构学习方法包括基于约束条件的方法、基于搜索算法的方法和基于信息度量的方法。

其中，基于约束条件的方法通过领域知识或者专家经验来确定变量之间的依赖关系，而基于搜索算法的方法则是通过搜索空间中的可能结构来寻找最优的网络结构。

在基于信息度量的方法中，常用的指标包括互信息、条件互信息等，通过计算不同变量之间的信息量来确定它们之间的依赖关系。

参数学习确定了贝叶斯网络的结构之后，接下来就是需要确定网络中每条边对应的参数。

参数学习的主要目标是估计联合概率分布，常用的方法包括极大似然估计、最大后验估计等。

在参数学习的过程中，需要考虑数据的分布特点和参数之间的关联性，以及如何处理缺失数据和异常值。

模型评估构建好贝叶斯网络之后，还需要对模型进行评估和验证。

模型评估的目标是检验模型的准确性和可靠性，常用的方法包括交叉验证、信息准则、模型比较等。

此外，还需要对模型进行灵敏性分析和鲁棒性分析，以确保模型在不同条件下的稳定性和可靠性。

应用和拓展贝叶斯网络作为一种强大的概率图模型，在各种领域中都有着广泛的应用。

除了上述提到的机器学习、数据挖掘、医学诊断等领域之外，贝叶斯网络还可以应用于风险评估、决策支持、智能系统等方面。

贝叶斯网络的构建方法(Ⅲ)

贝叶斯网络（Bayesian Network）是一种概率图模型，它用图表示变量之间的依赖关系，并且可以通过概率推理来对未知变量进行推断。

贝叶斯网络在人工智能、数据挖掘、生物信息学等领域都有着广泛的应用。

本文将介绍贝叶斯网络的构建方法，包括模型的搭建、参数的学习和推理的过程。

一、模型的构建构建贝叶斯网络的第一步是确定网络结构，即变量之间的依赖关系。

在实际应用中，可以通过领域专家的知识、数据分析或者专门的算法来确定网络结构。

一般来说，变量之间的依赖关系可以用有向无环图（DAG）来表示，其中每个节点代表一个变量，边代表变量之间的依赖关系。

确定了网络结构之后，就需要为网络中的每个节点分配条件概率分布。

这可以通过领域专家的知识或者从数据中学习得到。

如果使用数据学习的方法，需要注意数据的质量和数量，以及如何处理缺失数据。

二、参数的学习在确定了网络结构和每个节点的条件概率分布之后，就需要学习网络的参数。

参数学习的目标是估计每个节点的条件概率分布。

在数据学习的情况下，可以使用最大似然估计或者贝叶斯估计来求解参数。

最大似然估计是一种常用的参数学习方法，它的思想是选择参数值使得观测数据出现的概率最大。

贝叶斯估计则是在最大似然估计的基础上引入先验概率，通过先验概率和观测数据来更新后验概率。

三、推理过程贝叶斯网络的推理过程是指根据已知的证据来推断未知变量的概率分布。

推理可以分为两种类型：变量消除和贝叶斯更新。

变量消除是一种精确推理方法，它通过对网络中的变量进行递归消除来计算给定证据下的未知变量的概率分布。

这种方法可以得到准确的推理结果，但是在变量较多的情况下计算复杂度会很高。

贝叶斯更新是一种近似推理方法，它通过贝叶斯定理和采样方法来更新变量的概率分布。

这种方法通常用于变量较多或者计算复杂度较高的情况下，它可以通过随机采样来得到近似的推理结果。

总结：本文介绍了贝叶斯网络的构建方法，包括模型的搭建、参数的学习和推理的过程。

浅谈简单Bayes网络结构学习结果复杂度

浅谈简单Bayes网络结构学习结果复杂度Bayes网络可以用有向图的形式形象地表示出考虑的对象间的概率依存关系。

与传统数据挖掘方法相比，它具有理论基础牢固、推理简单准确，且可以在丢失数据的不完备信息下进行推理等诸多优势，因此，基于Bayes网络的数据挖掘算法在通信编码、图像处理、生物医学工程等方面都具有相当广泛的应用。

由于Bayes网络的广泛应用，自然希望能够根据现有的先验知识和观测数据自动训练出对象间的Bayes网络，这就是Bayes网络的学习问题。

这一问题可分为两类：参数学习和结构学习。

所谓参数学习，就是在已知Bayes网络的结构（即所考虑对象间的条件独立性质）后，利用观测数据估计出个节点处的相应参数（即为已知该节点父亲节点时该节点的概率分布函数）；结构学习指的是在考虑变量的相互关系未知的情况下，利用观测数据对它们之间的关系进行估计，从而训练出相应的Bayes网络结构。

显然，结构学习是比参数学习更困难、更有挑战性的任务。

目前有关结构学习的算法研究主要分为两类：一类是基于条件独立性检测的算法。

这类算法主要通过检查变量间鉴别信息或交叉熵等方法来判断变量间的条件独立性，再建立满足这些条件独立性的Bayes网络。

该方法的计算量较小，在节点数不多的情况下准确度也较高，但在节点数较多的情况下，对条件独立性的不准确判断造成的误差会产生连锁反应，导致学习结果的准确性大大降低。

第二类算法是基于评分-搜索的结构学习算法。

这类算法首先确定一个能够反映Bayes 网络准确度的评分函数，然后在满足节点数要求的全体Bayes网络中采用启发式搜索等办法，找出使得评分函数尽量大（或小）的网络作为学习结果。

由于这一问题是NP问题，在节点数较大的情况下无法求出最优解，所以搜索算法一般为梯度下降、蒙特卡洛等次优算法。

基于评分-搜索的结构学习算法因其出色的准确性和对观测数据的鲁棒性而成为结构识别算法中的主流。

在基于评分-搜索的结构学习算法中，评分函数的选取对于学习结果的性能是具有关键性影响的。

贝叶斯网络全解

等式右侧各项的含义：
P(xi|cj)：在cj(此题目，cj要么为垃圾邮件1，要么为非垃圾邮件0) 的前提下，第i个单词xi出现的概率
P(xi)：在所有样本中，单词xi出现的概率
P(cj) ：(垃圾邮件)cj出现的概率
14
第十四页，共62页。
关于朴素贝叶斯的若干探讨
遇到生词怎么办？
拉普拉斯平滑
贝叶斯网络：警报
23
第二十三页，共62页。
贝叶斯网络：警报
全部随机变量的联合分布
24
第二十四页，共62页。
贝叶斯网络的形式化定义
BN(G, Θ)
G:有向无环图
G的结点：随机变量 G的边：结点间的有向依赖
Θ：所有条件概率分布的参数集合
结点X的条件概率：P(X|parent(X))
思考：需要多少参数才能确定上述网络呢？每个结点所需参数的个数：结点的parent数目是M，结点和parent的可
46
第四十六页，共62页。
分配率
如果有那么
试想：
a*b + a*c：2次乘法，1次加法 a*(b + c)：1次乘法，1次加法
47
第四十七页，共62页。
举例说明该算法
48
第四十八页，共62页。
提取公因子：即“分配率”
49
第四十九页，共62页。
使用“消息传递”的观点
50
第五十页，共62页。
26
第二十六页，共62页。
通过贝叶斯网络判定条件独立—1
P(a,b,c)=P(c)*P(a|c)*P(b|c) 则：P(a,b|c)=P(a,b,c)/P(c) 带入，得到： P(a,b|c)=P(a|c)*P(b|c) 即：在c给定的条件下，a，b被阻断(blocked)，

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

贝叶斯网络结构学习总结一、贝叶斯网络结构学习的原理从数据中学习贝叶斯网络结构就是对给定的数据集，找到一个与数据集拟合最好的网络。

首先定义一个随机变量hS ，表示网络结构的不确定性，并赋予先验概率分布()h p S 。

然后计算后验概率分布(|)h p S D 。

根据Bayesian 定理有(|)(,)/()()(|)/()h h h h p S D p S D p D p S p D S p D ==其中()p D 是一个与结构无关的正规化常数，(|)h p D S 是边界似然。

于是确定网络结构的后验分布只需要为每一个可能的结构计算数据的边界似然。

在无约束多项分布、参数独立、采用Dirichlet 先验和数据完整的前提下，数据的边界似然正好等于每一个（i ，j ）对的边界似然的乘积，即111()()(|)()()iiq r n ij ijk ijk hi j k ij ij ijk N p D S N ===Γ∂Γ∂+=Γ∂+Γ∂∏∏∏二、贝叶斯网络完整数据集下结构学习方法贝叶斯网络建模一般有三种方法：1）依靠专家建模；2）从数据中学习；3）从知识库中创建。

在实际建模过程中常常综合运用这些方法，以专家知识为主导，以数据库和知识库为辅助手段，扬长避短，发挥各自优势，来保证建模的效率和准确性。

但是，在不具备专家知识或知识库的前提下，从数据中学习贝叶斯网络模型结构的研究显得尤为重要。

常用的结构学习方法主要有两类，分别是基于依赖性测试的学习和基于搜索评分的学习。

第一类方法是基于依赖性测试的方法，它是在给定数据集D 中评估变量之间的条件独立性关系，构建网络结构。

基于条件独立测试方法学习效率最好，典型的算法包括三阶段分析算法（TPDA ）。

基于依赖性测试的方法比较直观，贴近贝叶斯网络的语义，把条件独立性测试和网络结构的搜索分离开，不足之处是对条件独立性测试产生的误差非常敏感。

且在某些情况下条件独立性测试的次数相对于变量的数目成指数级增长。

第二类方法是基于评分搜索的方法，其原理是在所有节点的结构空间内按照一定的搜索策略及评分准则构建贝叶斯网络结构，这种算法虽然能够搜索到精确的网络结构，但是由于结构空间很大，从所有可能的网络结构空间搜索最佳的贝叶斯网络结构被证明为NP-hard 问题，所以一般需要使用启发式算法，代表性算法有K2算法等。

基于搜索评分的方法是一种统计驱动的方法，试图在准确性、稀疏性、鲁棒性等多个因素之间找个平衡点。

但由于搜索方法的先天弱点，导致用搜索评分的方法不一定能找到最好的结构，但是应用范围很广。

当观察到的数据足够充分且计算次数足够多时，基于搜索评分的方法和基于依赖性测试的方法都可以学到“正确”的网络结构。

此外，有人结合上述两种方法，提出了一些混合算法，这类算法首先利用独立性测试降低搜索空间的复杂度，然后执行评分搜索找到最佳网络，如稀疏候选算法（sparse candidate ）及MMHC （max-min hill-climbing ）算法等。

1. 基于依赖性测试结构学习方法基于依赖性测试的结构学习算法将贝叶斯网络看作是编码了变量间独立性关系的图结构。

它的核心思想是：通过样本集D 验证条件独立性I （Xi ，Xj|C ）是否成立，若成立，则在网络S 中节点Xi 和Xj 被C 有向分割，节点Xi 和Xj 之间不存在边，若不成立，变量Xi 和Xj 是依赖的，网络中节点Xi 和Xj 之间存在边。

然后，利用节点集之间的条件独立性，建造一个有向无环图，以尽可能多地覆盖这些条件独立性。

常用的独立性检验的方法有2χ检验和基于互信息的检验方法。

基于依赖性测试的学习方法学习效率较高，而且能够获得全局最优解；但存在以下问题：1.判断两个节点是否独立或条件独立是困难的，变量间条件独立性检验的次数是随着变量的个数的增加指数级增长的；2.高阶的条件独立性检验的结果不够可靠。

1993年Sprites 等提出的SGS 算法是典型的以条件独立性测试确定拓扑结构的算法。

该算法从无向完全图出发，如果相节点间存在无向分割集，则删除它们间的边；然后通过统计测试来确定剩余边的方向。

2002年，Cheng 将信息论与统计测试相结合，使用相互信息代替了条件独立性测试。

经过Drafting 、Thickening 、Thinning 三个步骤，通过计算相互信息量来确定节点间的条件独立性。

从而构造出多连接有向图模型。

2. 基于评分搜索的结构学习方法：贝叶斯网络基于评分搜索的结构学习方法主要包括两步: 模型选择和模型优化。

模型选择部分要制定模型选择准则，即评分函数,目前较常用的几个评分函数如下：最优参数对数似然函数，CH 评分，BIC 评分等，还有MDL （minimum description length ）,AIC(Akaike information criterion)评分函数，HVL （holdout validation likelihood ）评分（验证数据似然度）。

CVL （cross validation likelihood ）评分（交叉验证）。

模型优化就是要根据模型选择准则，即评分函数，选择出评分最高的网络结构，也就是搜索策略问题。

从所有可能的网络结构空间搜索最佳的贝叶斯网络结构被证明为NP-hard 问题，所以一般使用启发式搜索算法，主要有K2，hill-climbing 算法；随机重复爬山法（random restart hill-climbing ），禁忌搜索（tabu search ），模拟退火（simulated annealing ）及遗传算法（genetic algorithm ）等。

常用的评分函数介绍如下：最优参数对数似然函数结构ζ与相应的参数集合ζθ组成贝叶斯网络（ζ，ζθ）。

相对于数据ϑ最优的贝叶斯网**(,)ζζθ应该使对数似然函数达到最大，即***(,|)maxsup (,|)l l ζζζζθζθϑζθϑ=在概念上寻找最优的贝叶斯网络的过程可以分为两步：第一步寻找最优结构*ζ，第二步寻找最优参数**ζθ。

● 家族CH 评分设定S 1(B |D)(,)nii p score i pa ==∏ ---sB 表示网络结构，D 表示一组变量12n X X X ，，...,的完整实例数据其中*11**()()(,)[]()()iiq r ij ijk ijk i j k ij ij ijk N score i pa N ==Γ∂Γ∂+=Γ∂+Γ∂∏∏其中ijk N 是D 中满足i X =k ，i π=j 的样本个数，ir ij*ijkk 1N N==∑，ir ij*ijkk 1=∂=∂∑。

在使用CH 评分之前，首先需要选定参数先验分布s B s p(|B )θ中超参数ijk ∂。

通常这并非易事，因为理论上我们需要对每一个可能的结构都提供参数先验分布，然而结构数目众多，无法一一罗列。

在实际中，人们往往规定一个等价样本量∂和一个先验贝叶斯旺s B ，利用下式得到s B s p(|B )θ的超参数ijk ∂：s B i i P (X k |j)ijk π∂=∂==。

● BIC 评分，即贝叶斯信息准则是在大样本前提下对边缘似然函数的一种近似，它有明确直观的意义，而且使用方便，是实际中最常用的评分函数。

*log (|)log (|,)log 2dP P m ϑζϑζθ≈-这就是模型结构ζ的BIC 评分，记为BIC （|ζϑ）。

BIC 评分的第一项是模型ζ的优参对数似然度，它度量的是结构ζ与数据ϑ的拟合程度。

第二项是一个关于模型复杂度的罚项。

若仅仅依据优参似然度来选择模型，会选到最复杂的完全贝叶斯网络，导致过度拟合。

由于附加了一个模型复杂度的罚项，BIC 有效地避免了过度拟合，直观上，基于BIC 评分选择模型就是要选择既与数据拟合，又比较简单的模型。

● MDL 评分它是最短描述长度（minimum description length ）的简称。

这个准则的基本思想如下：数据分析的目的是要找出蕴含在数据中的规律，然后可以利用它们对数据进行压缩，从而降低数据的编码（描述）长度，所以，用贝叶斯网分析数据是否成功可以用数据和模型的编码总长度来度量。

● AIC 评分它是Akaike 信息准则的简称，他假设数据ϑ是从一个概率分布P(X)中进行独立同分布抽样而得到的。

AIC 评分的出发点是要找一个贝叶斯网****(,)B ζζθ=，使得*()B P X 与P(X)之间的KL 距离最短，即*(,)(,),B B KL P P KL P P B ≤∀，在一定光滑条件下做大样本近似，可得如下结论，即*B 的结构*ζ应该满足：*(|)(|),AIC AIC ζϑζϑζ≥∀，其中，*(|)log (|,)AIC P d ζζϑϑζθ=-AIC 评分与BIC 评分都是优参对数似然度加一个罚项，因此都称为罚项似然度。

MDL 也是罚项似然度。

● HVL 评分罚项的作用是防止过度拟合，还有一种防止过度拟合的方法，它的基本思想是把数据ϑ随机地分成训练数据t ϑ和验证数据v ϑ。

对于一个模型结构ζ，首先基于训练数据对其参数进行估计，得到一个贝叶斯网(,)tζθ，然后计算验证数据v ϑ对数似然度：(|,)log (|,)t v t v HVL P ζϑϑϑζθ=。

这就是HVL 评分函数。

● CVL 评分，即交叉验证它的基本思想是多次计算模型的HVL 评分，而每次都按照不同方式将ϑ划分为t ϑ和v ϑ，然后计算各次所得评分的平均值，并将其作为模型的最后评分。

CVL 评分比HVL 评分更具鲁棒性，但其计算复杂度也高出HVL 评分数倍。

在大样本情况下，HVL 准则，CVL 准则都与AIC 准则等价。

3. 典型算法介绍：三阶段算法：第一阶段：Drafting ，计算每对节点间的互信息，建立完整的无向图；第二阶段：Thickening ，如果节点对不是d-分割的话，把这一点对加入到边集中；第三阶段：Thinning ，检察边集中的每个点对，如果两个节点是d-分割的，则移走这条边。

K2算法：K2算法用贪婪搜索处理模型选择问题：先定义一种评价网络结构优劣的评分函数，再从一个网络开始，根据事先确定的最大父节点数目和节点次序，选择分值最高的节点作为该节点的父节点。

K2 算法使用后验概率作为评分函数：1(|)(,)ns i i p D B score i pa ==∏其中11()()(,)[]()()iiq r ij ijk ijk i j k ij ijijk N score i pa N ==Γ∂Γ∂+=Γ∂+Γ∂∏∏K2算法伪代码：2(,,,)k X ρμϑ输入：12{,,...,}n X X X X =---------------------一组变量ρ-----------------------一个变量顺序(设它与变量下标一致) μ-----------------------变量父亲节点个数的上界 ϑ-----------------------一组完整的数据输出：一个贝叶斯网1.12n X X X ζ←由节点，，...,组成的无边图2. for j=1 to n3.j ;πφ←4.old j j V CH(X ,|);πϑ←<>5. while(true)6. i jj j i 1i<j,X i arg max CH(X ,{X }|)ππϑ≤∉←<⋃>7.new j j i V CH(X ,{X }|)πϑ←<⋃>8. new old j if(V >V and ||<)πμ 9.old new V V ←;10.j i i {X }ππ←⋃;11. 在ϑ中加边i j X X →； 12. else 13. break; 14. end if 15.end while 16.end for17.估计ζ的参数θ 18.return (ζ,θ);K2的出发点是一个包含所有节点、但却没有边的无向图。