关于社会网络的指数随机图模型的介绍

关于社会网络的指数随机图模型的介绍
关于社会网络的指数随机图模型的介绍

介绍了指数随机图(P *)社交网络模型

(加里·罗宾斯,皮普派特森,尤瓦尔·卡利什,院长Lusher)

心理学系,行为科学,墨尔本大学商学院。 3010,澳大利亚

摘要:

本文提供的介绍总结,制定和应用指数随机的图模型的社交网络。网络的

各个节点之间的可能的关系被认为是随机的变量和假设,这些随机的领带变量

之间的依赖关系确定,一般形式的指数随机图模型的网络。不同的相关性假设

的例子及其相关的模型,给出了包括伯努利,对子无关,马尔可夫随机图模型。在社会选择机型演员的加入属性也被审查。更新,更复杂依赖的假设进行了简

要介绍。估计程序进行了讨论,其中包括新的方法蒙特卡罗最大似然估计。我

们预示着在其它组织了讨论论文在这款特别版:弗兰克和施特劳斯的马氏随机

图模型[弗兰克,澳,施特劳斯,D.,1986年马氏图。杂志美国统计协会81,832-842]不适合于许多观察到的网络,而Snijders等人的新的模型参数。[Snijders,TAB,派特森,P.,罗宾斯,GL,Handock,M.新规范指数随机图模型。社会学方法论,在记者]提供实质性的改善。

关键词:指数随机图模型;统计模型的社交网络; P *模型

在最近几年,出现了在指数随机图模型对于越来越大的兴趣社交网络,通常称为P *类车型(弗兰克和施特劳斯,1986;派特森和沃瑟曼,1999;罗宾斯等人,1999;沃瑟曼和帕蒂森,1996年)。这些概率模型对一组给定的演员网络

允许泛化超越了早期的P1模型类(荷兰和Leinhardt,1981年)的限制二元独立性假设。因此,它们允许模型从社会行为的结构基础的一个更为现实的构建。这些模型车的研究多层次,multitheoretical假说的有效性一直在强调(例如,承包商等,2006)。

已经有一些自Anderson等重大理论和技术的发展。(1999)介绍了他们对

P *型号知名底漆。我们总结了本文上述的进步。特别是,我们认为重要的是在概念上从依赖假设的衍生地,这些模型,模型的基本依据,然后作出了明确,

并与有关(不可观察)社会进程底层网络的形成假说更容易联系。正是通过新

的模式,可以开发一个有原则的方式,包括结合了演员的属性模型这样的做法。在模型规范和估计最近的发展需要注意的是,因为这样做就设置结构和部分新

技术的步骤依赖的假设,不仅扩大了级车型,但具有重要意义的概念。特别是,我们现在有一个更好的了解马尔可夫随机图,和有前途的新规格的性能已经提

出来克服他们的一些不足之处。

本文介绍了模型,并总结当前方法的发展与扩展概念的阐述(更多技术总

结最近被沃瑟曼和罗宾斯,2005年定;知更鸟和派特森,2005; Snijders等人,出版。)我们首先简要介绍理分析社交网络的统计模型(第1节)。然后,我

们提供指数随机图模型的基本逻辑进行了概述,并概述我们框架模型构建(第

2节)。在第3节中,我们讨论的重要概念一个依赖假设的建模方法的心脏。

在第4节中,我们提出了一系列不同的相关性假设和模型。对于模型估计(第

5章),我们简单总结伪似然估计(PLE)的方法,并检讨最近的事态发展蒙特

卡罗马尔可夫链最大似然估计方法。在第6节中,我们提出拟合模型,网络数

据的简单的例子。总之,我们注意到的重要性新的型号规格是关注在这款特别

版的其他论文的重点。

1.为什么模型的社交网络?

有许多公知的技术,用于测量网络性能的节点,或节点的子(如密度,中心性和凝聚力的子集)的。这些技术服务有价值的目的,描述和理解的网络功能,可以承受在特定的研究问题。那么,为什么我们会想要超越这些技术和搜索合

身的一个观察到的社交网络的模型,特别是一个统计模型?原因这样做有以下

内容:

(1)社会行为是复杂的,并且随机模型使我们能够同时捕获的规律在该过程引起网络的联系,而在同一时间识别存在是可变性,我们是不太可能能

够进行详细建模。此外,如瓦(1999)已令人信服地证明,“加入”少

量随机性的,否则便会定期进程可以极大地改变了这一进程的可能结果

的性质。它是因此,重要的是要允许的随机性,如果我们认为它最能反

映过程我们的目标模型。也许最重要的是,良好的特定的随机模型使我

们要了解与观察到的结果的不确定性:我们可以了解可能结果的模型一

个给定的规格分布,或者我们可以估算,对于给定的观察到的数据,从

该数据可能已被产生的虚拟模型的参数(并且也获得与其相关联的不确

定性的定量估计估计)。

(2)统计模型也允许关于是否特定网络子结构的推论 - 通常由一个或少量的参数所表示的模型 - 在网络中被更普遍观察到可能比偶然预期。那么我

们可以假设开发了解可能产生这些结构性质的社会过程。

(3)有时,不同的社会进程可能会做出类似的网络质量预测结构,它只有通过仔细的定量模型,在预测的差异进行评估。例如,群集在网络可能产

生的内源性(自组织)结构的影响(例如,结构平衡),或者通过节点

级效果(例如,同质性)。要在两个方案之间作出决定,需要一个模型,结合这两种效应,然后评估每个的相对贡献。

(4)在更复杂的网络上的数据结构,更有用的适当配制的模型可以在实现高效的表示。值得注意的是,有avariety的确定性方法FO ranalyzing单

个二进制网络,但其中许多都是不恰当的,或者是太复杂,对于更复杂

的数据。为了了解网络的演进(Snijders,2001)或多个网络结构

(Lazega和派特森,1999),模型可以有很大的价值。

(5)在社会网络分析的几个长期存在的问题,涉及到如何本地化的社会过程和结构结合起来,形成全球网络模式,而这种本地化的进程是否足以说

明全球网络性能的谜题。它是难以调查这些问题没有一个模型,如在所

有的除了相当简单的情况下,由许多小规模结构的组合所造成的全球结

果没有立即明显,即使是定性的。具有良好的本地指定型号的社交网络,它可能会穿越这条微宏的差距,往往是通过模拟。

我们特别强调显影可信模型,这些模型可估计从数据并因此经验为基础的值。有多种型号的网络文学,这对于模拟,假设生成的重要工具,而“思想实

验”。但是,我们的主要目标是估算数据模型的参数,然后评估如何充分的模

型表示的数据。这些互补的方法成为有用的,但不同的目的,用数据驱动的方

法显然是其支撑结构的模型假设的实证审讯能力的独特价值。

2后面的P *模型对社会的逻辑网络,大纲

我们描述了作为观测到的网络的研究者已收集并且可以在网络数据有兴趣

建模。所观察到的网络是从一组可能的看作一个实现网络具有类似的重要特征(至少是,行动者的数量相同),即是,由于一些(未知)的随机过程的结果。换句话说,观察到的网络被看作是关系一个特定图案出一大组可能的图案。在

一般情况下,我们做不知道什么随机过程产生所观察到的网络和我们在制定目

标模型是提出一种可行的和理论上的原则假设此过程。

例如,我们的研究课题之一可以是是否在所观察到的网络有显著更多,或

者更少,感兴趣结构特征比偶然预期。我们可能会看到这些特性当地社会进程

的成果。例如,我们可能会问的莫雷诺和詹宁斯(1938年)的统计数据,社交

网络的第一个应用程序做了观察网络是否显示了对等的强烈倾向,超出了一些

回报的关系,如果关系的机会亮相发生完全是随机的。换句话说,你所观察到

的网络中的行动者往往回报关系的选择?这里的结构特点(投桃报李的关系)

是一个社会过程(个人选择来回报他人的选择)的结果。因此,作为一个简单

的例子,我们可以断定一个随机网络模型具有两个参数,一个反映的倾向关系

发生在随机和一种反映了一个额外的倾向往复运动的发生。

在一般情况下,在质询帮助的结构特性来塑造模型的形式。一一个对等进

程的假设使我们提出一个模型,其中所述电平的指标互惠是参数。这个假设也

反映了什么样的期望网络更容易。对于一个给定的演员组成的网络统计模型分

配概率就这些演员的所有可能的网络。例如,由于互惠关系是通常观察到的功能,在友谊网络,良好的模式很可能意味着网络与往复运动是比较常见和网络

没有回报是相当不可能的。

正如往常一样,我们代表的网络节点和边的图。对于一个给定的模型,所

述节点集合被认为是固定的。可能的网络的范围内,和它们发生的概率该模型下,通过在该组的所有可能的曲线图上的概率分布表示同节点的这个号码。在

图的这种分布,这些图表有大量的水平往复运动都可能具有比图少往复运动的

概率较高,具有取决于相关的参数,值的精确概率,如对等参数。需要注意的

是所观察到的网络是在该分布的特定图形,所以它也具有特定概率。

当然,在一开始,我们不知道在分配概率在分布图形要使用的参数值。我

们的目标,更确切地说,是要找到最好的值(通过估算模型用所观察到的网络

作为引导参数)。必要的最大似然准则是选择的参数值以这样一种方式,往复

运动的最可能的程度是这发生在所观察到的网络。如果模型有一个对等的参数(定义为零时相互关系发生偶然的),如果有,在许多往覆关系观测到的网络,则一个模型,它是一种非常适合于数据中往复运动的程度方面将产生积极的对

等参数。如果我们估计互惠参数的观测网络,如果我们可以相信,这个参数是

正的,我们可以推断,还有更多互惠中所观察到的网络不是偶然的预期。

一旦我们定义该组的所有图形的概率分布与节点的一个固定数目的,我们也可以从分配根据分配给它们的概率绘制图形随机的,并且我们可以在任何其他比较采样的曲线图,以观察到的1感兴趣的特征。如果该模型是一个很好的数据,然后将采样的图形将类似于所观察到的1在很多不同的方面。在这种理想的情况下,我们甚至可以推测这种建模的结构效应可以解释在网络的出现。我们可以以了解网络,有可能从这些影响出现的性质研究采样图形的属性。

作为一个例子,考虑在一所学校的教室友谊。所观察到的网络是为我们所测得的友谊关系网络。有可能已经观察到对于特定的教室许多可能的网络。我们检查了教室里所有可能的网络结构的情况下观察到的友谊结构在教室里。一些结构在教室可以是相当容易和一些不太可能发生,和该组所有可能的结构,有关其相应的机率一些假设是曲线图上的概率分布。我们把观察到的这个网络中的分布,而不是在其他教室观察网友谊网络进行比较。(当然,我们的模型中所观察到的网络也可以是用于其它教室的良好模型,但是这并不是问题,在这一点上)。

注意,假设是,网络是由一个随机过程,其中关联关系进入在于,可通过其它关系(和可能的节点级属性)的存在或不存在的形状的方式被产生。换句话说,网络被概念化为关系型关系的自组织系统。实质上,索赔是有产生二元关系,当地的社会进程,而这些社会过程可能取决于周围的社会环境(即在现有的关系)。例如,我们可以假设,具有类似属性的行动者更可能形成友谊关系(同质性),或者,如果两个未连接的参与者被连接到第三演员,在某些时候,他们有可能形成它们之间的友好提携(及物)。需要注意的是,除了随机性的假设,这种描述也隐时间和动态。

2.1。为模型构建的总体框架

在并主张指数随机图模型的社交网络,研究员隐含如下五个步骤。而研究的重点是参数估计和解释的最后一步,它是通过所有的五个步骤,一个研究人员,使连接理论的决策数据分析明确的选择。正如图所示,正是通过这些前面的步骤,我们可以对指数随机图模型的专栏中查找某些早期的网络模型。

2.1.1。步骤1:每个网络领带被视为随机变量

这一步意味着与固定节点集合的随机框架。通过假设领带是我们不意味着人们形成一种特定的方式关系的随机变量:有些关系可能是很可能发生的。相反,我们只是指出我们不知道的一切关系的形成,我们的模式是不会做出完美的确定性预测,并因此有一些将要统计的“噪音”,或缺乏规律性,即我们不能成功地解释。

可能的网络关系建立为随机变量,应及时复习一些基本的符号。对于每个i和j谁是一组n个参与者的N个不同的成员,我们有一个随机变量Y IJ其中Y IJ= 1,如果是从演员一个网络领带i到演员j以及其中Y IJ=0,如果存在就是不打领带。我们指定Y IJ作为变量Y ij的观测值,我们让Y为所有变量的矩阵为Y观测关系的矩阵,所观察到的网络。当然,y可能也被解释为对节点集合N的曲线图,与由那些对(I,J)为且y IJ=1指定的边集。Y可以被引

导(其中当Y ij是杰出的选自Yジ)或无定向(其中Y IJ= Yジ和两个变量没有区别)。它也可以为y将被重视,虽然本文中,我们将限制注意二元关系。

2.1.2。步骤2:一个依赖假说提出,定义网络变量之间的意外

这一假说体现了假设生成网络联系当地的社会过程。例如,关系可以认为

是相互独立的,也就是说,人们形成独立的其它的社会联系的社会关系。这通

常不是一个非常现实的假设。在学校教室的地方互惠的过程,的例子,如果一

个学生喜欢的学生B,那么学生B很有可能像学生一个暗示某种形式的二元依赖。领带也可能取决于节点级属性(见下文第4.4节),与在课堂实例可能同

质性的影响。请注意,这些过程可以表示为一个小规模的图形配置:例如,一

个投桃报李的领带,或者两个女孩之间的纽带。

2.1.3。步骤3:将依赖假设暗示某一特定形式的模型

可以证明,以及指定的依赖假设意味着某一类车型(在哈默斯利 - 克利

福德定理,Besag,1974年)。每个参数对应于网络中的结构,即,可能的网

络关系(和/或演员的属性,尽管这是购买)的一小部分。这些配置的利益(例如,往复式cated关系)的结构特点,上文提到的。该模型则表示其被假定为

从由配置所表示的本地化模式“建立”随机图的分布。例如,一个单一的领带

是一个配置,可能是投桃报李领带(有向图),一个传递黑社会和二星级。与

每个所观察到的曲线图,这些配置中的存在的参数可以被包括在模型中。

依赖假设和模型的一般形式在下文第3节中讨论。特别依赖的假设都在第

4节。

2.1.4。第4步:通过同质性或其他方面的限制简化参数

为了清楚地定义了一个模型,我们需要减少参数的数量。这通常是通过征

收同质化约束进行。实际上,我们问一些参数是否等同于或以其他方式有关。

例如,我们通常建议对于整个网络的互惠效果的一个参数,通过假设互惠参数

为每个可能的往复式领带都是平等的。对于特定型号的参数约束中示出了第4节。

2.1.5。第5步:评估和解释模型参数

当然,估计和解释通常是特定的研究应用重点,但在到达这一步意味着,

其他四个都已经进行,即使只是含蓄。这个步骤是复杂的,如果相关结构是复

杂的,因为它可能需要为任何现实的模型。具有得到的参数估计值,以及估计

的不确定性的估算值,我们可以随后采取具有对于从可指定依赖的假设构成的

网络中的统计模型的充分利用,并且从观察到的网络数据进行估计。例如,我

们可以探讨通过模型,这一步骤可以是非常有益的评价有多好,模型预测结果

的网络的范围,我们可以对模型参数的推断。例如,我们可以推断出任何模型

参数是否显著不同于零,并因此进行相应的配置是否存在于所观察到的曲线图,以或大或小的程度比偶然预期的,给定的其它参数值。我们讨论了参数估计中

的第5节。

3指数随机图模型的一般形式为:依赖的假设和参数约

指数随机图模型有如下形式:

(1)

其中,(i)的总和超过所有配置A;(ⅱ)ηA是对应于结构的参数(并且是非零仅当在A中的所有对变量被假定为有条件地依赖);(三)克(Y)=??IJ∈A ?ij是对应于配置的网络统计数据;克(γ)=1,如果在网络中y为观察到的结

构中,并且是0;否则返回(ⅳ)κ是一个归一化量可确保(1)是一个适当的

概率分布。

所有指数随机图模型方程的形式。(1),其描述了图的上n个节点的一

般概率分布。观察任何特定的图表Y在该分布的概率由下式给定的,而这种概

率取决于两个对统计克(y)的在网络y和对各非零参数η,一种用于在所有配置中甲该模型。配置可能包括投桃报李的关系,传递黑社会等等,因此该模型

使我们能够研究各种可能的结构规律。

那么,为什么依赖的假设很重要吗?依赖假设有挑选出不同类型的配置,

相关的模型的结果。从点注意上述(ii),参数都是零,每当在一个配置变量

是有条件地相互独立。换句话说,这是相关的模型的唯一配置是其中配置中的

所有可能的关系是相互取决于对方。

值得注意的是,如果一组可能的边缘代表模型中的结构,则(1)意味着

可能的边缘的任意子集也是一种配置。因此,单一的边缘总是配置,这表现在

第4节。

这样的依赖关系的假设是在约束其配置是可能的模型中是至关重要的。我

们将讨论在第4具体实施例的结构A表示并列的变量的子集,并且对应于一个

小的子网络。举例来说,如果有向网络,我们采用一个二元依赖的假设(参见

第4章),将遵循互惠参数将在模型中。在这种情况下,在模型1的配置是一

组变量{Y12,Y21},另一个是{Y13,Y31},等等,而每二分体设置其自己的配置。显然,对于任何这些结构中,如果两个关系存在于所观察的图中,我们看

到一个往复运动的领带,这样的结构代表一种类型,可能在图表Y观察到网络

子结构。我们可以概略地认为这个配置作为子结构,即投桃报李领带。

但当然也不能保证,在一个给定的配置所有可能的边缘将出现在一个实现

图形Y,所以我们会看到其中的一些可能的子结构,而不是其他。有些关系会

得到回报,有些则不会。配置代表的可能性。图形统计量,克(y)时,在另一方面,告诉我们是否在配置A是实际上在网络?观察。对于一个对等结构的,

即统计干脆告诉我们是否有回报的相关节点对与否之间的关系。

我们可以认为,在分布的曲线图,作为由这些潜在的重叠构型的产生。例如,假设有在工作中的处理产生的网络中的对等效果。如果我们能观察到网络

的演进,以及网络开始与几个往复式关系,我们可能会看到更多的往复式关系

出现一段时间。在这样的想法,但是,我们必须记住,作为一个特殊的领带出

现过一代人的想象的过程中,它的存在可能会影响其他潜在的邻国关系。因此,有一个隐式动态的,自组织的质量这一假设的施工流程:为一个领带出现或消失,其它相邻关系有可能出现或消失为好,并且有可能是没有天然的端点,以

这种持续的随机过程。然而,任何特定的参数值的强度和方向会影响到相应的

配置,如何频繁地观察到。如果该参数为大且为正,我们期望观察到在图中相

关的配置中分布(1)比如果该参数为零更加频繁。所以,如果一个互惠参数又大又积极,我们希望看到的观测网络的多个往复式关系。同样,当参数为大和

负我们希望看到的配置(例如,投桃报李的关系)相对较少比如果参数是零。

因为:(1)有一个指数项的右侧,这样的分布也被简称为指数随机图模型。弗兰克和施特劳斯(1986)的马尔可夫随机图是一个特定类的指数随机图

模型。网络分析界也指指数随机图模型类为p*模型,因为他们是一个泛化的二

元独立模式,其中p为1款(荷兰和Leinhardt,1981年)是一个流行的早期

例子。

3.1。在参数约束

请注意,公式(1)指的是用于设定不同节点的不同的配置。例如,用于与

对等模型存在于{Y12,Y21},用于{Y13,Y31},等等单独的配置。在这种一般

的形式,那么,该模型意味着许多参数。例如,有n(n-1个)单独与可逆性/2的参数。

这是太多的参数和模型,不能从一个单一的网络,估计观察。某些参数需要被设置为零时,等同于或以其他方式限制。以下弗兰克和施特劳斯(1986)中,我们经常被等同参数,并处以同质性假设当它们指的是同一类型的配置。举例

来说,在考虑互惠,保可往往非常强烈的报答友谊提供来自别人,而是玛丽可

能更持谨慎态度。用于构成一个简单的模型的目的,然而,我们可以假设有是

互惠双方玛丽和保罗·共享一个单一的倾向。由此产生的误差为消耗到模型的

统计噪声。这种方法假定某些规律性的同样对于整个网络,例如,有用于在对

等单一倾向网络,而不管其中的节点是包含的。我们称这种同质同构网络配置中,其中的参数等同于如果该配置是相同的时我们忽略了节点(在这种情况下

的配置被认为是同构的)上的标签。一个不太激进的假设也有可能:例如,如

果我们能够衡量一切个人特点倾向于他们回报的关系,我们可以让互惠效果依

赖于这些节点的特点。

当我们把这种同质性假设,我们生产的具有相同形式式的典范。(1),

但现在的(同构)配置是指一般的效果(例如,整体的互惠效应)。统计则成

为相应的配置的计数在网络中(例如,往复运动关系的数)。

但也有在其中的参数限制可以应用于其他几种方式,并且不同的约束条件

导致不同的型号。施加约束的另一种方法可以是等同于涉及相似类型的行动者

的同构的配置参数。例如,在互惠课堂友谊网络的情况下,我们可以提出的女

孩,女孩的配置,一个是女孩,男孩的配置和另一个男孩,男孩配置中的一种互惠的参数。

即使有了合理的同质化约束模型可能仍然有太多的参数,是难能可贵的。在这种情况下,我们可能会考虑通过一些参数设置为零限制的配置的数量(见4.3节),或通过引入对较大的相关配置参数的值,假设约束(如提出Snijders等人,在新闻界。参见4.6节)。

4.依赖的假设和模型

4.1伯努利图:最简单的假设依赖

当我们假设边缘是独立的,如果发生根据一个固定的概率α(;弗兰克和诺维奇,1993见埃尔德什和仁义,1959),例如它们随机地产生伯努利随机图形分布。依赖性的假设是在这种情况下很简单:所有可能的不同的关系是相互独立的。我们在上文指出,相关的模型的唯一配置是其中配置中的所有可能的关系是有条件地依赖于彼此。当所有可能的关系是相互独立的,唯一可能的配置涉及到单个边缘{Y} IJ。所以从(1)的一般模式是:

注意,相对于(1)的每个集合A包括单个可能的边缘yij是在该模型的结构,并有一个参数ηIJ为每个这些配置。网络统计克(Y)= G IJ(Y)= Y IJ告诉我们,无论是观察还是没有该配置。如果我们施加均匀的假设,使每个领带的效果是一样的,我们等于参数,使得ηIJ=θ对所有的i和j,因此:

(2)

其中,L(y)的=?我的jy ij是弧的图中的y中的数和参数θ所涉及的是并列被观察的概率。参数θ称为边缘或密度的参数。

还有其他的可能性施加均匀性。假设我们有演员两个先验块,我们施加块的均匀性,从而使ηIJ=θ11若i和j是在数据块1,ηIJ=θ12,如果i是块1和j中块2,并等等。然后它是简单的表明

其中,L11(γ)是圆弧的第一个块内的编号和L12(γ)是从块1的弧的方框

2的数量,等等。

4.2。二元模式:二元独立性假设

对于向网络一个稍微较复杂的(但通常不很现实的)假设是二价基,而不

是边缘,是相互独立的。以这种依赖假设我们有两种类型的配置在模型中,单

个边缘和往复运动的边缘。随着同质化征收,模型就变成了:

(3)

其中,L(y)为在y和M(y)的关系的数量= I,的jy IJyジ是y中的相互关

系的数目。一个稍微复杂的同质性假设,结果在第1页模型,荷兰和

Leinhardt(1981)。

相关但更复杂的和现实的车型包括P 2模式(Lazega和面包车Duijn,,1997;范Duijn等人,2004),其假定矢独立,但条件是节点级属性效果。在

P2模型是在适当的时候结构有望从属性出现。它是在p1模型与发送机和接收

机的影响视为随机效应和延伸与演员和二元的影响包括在内。更复杂的假设支

撑这种模式使其更现实的实际网络数据,特别是当属性效果预期要坚强。它不

同于一般的指数随机图模型中随机掺入的影响。当然,在非定向网络,伯努利

和二元组的依赖性模式的情况下是相同的:非定向网络,式中的对等参数ρ(3)是不相关的,并该模型简化为等式(2)。

4.3。马尔可夫随机图

伯努利和二元依赖性结构在许多情况下,实际的假设,无论经验和理论。

弗兰克和Strauss(1986)介绍了马氏依赖性,其中从i的可能扎到j被假设

为基础上将i或j,即使在网络中的所有其它关系的状态是已知的任何其它可

能的领带。在这种情况下,这两个关系被认为是有条件地依赖于给定的所有其

它关系的值。7马尔可夫依赖性可以表征为,前提是两个可能的网络关系是有

条件地依赖于当它们有一个共同的演员。例如,彼得和玛丽之间的关系很可能

是依赖于玛丽和约翰(特别是如果关系是一个浪漫的一个!)之间的关系存在

或不存在,我们可以表达这种更正式通过假设的可能关系之间的条件依赖?下午和Y MJ。这两种可能的关系是有条件地依赖,因为它们共享节点m(玛丽)。

如果我们还假设均匀性,我们得到马尔可夫随图模型,与配置(和相关的

参数),用于在图呈现定向和非定向的网络。1,这些参数与在网络文学一些知名的结构规律。对于有向网络,我们已经看到边缘(τ15)和互惠(τ11)从

伯努利和二元独立模型的参数。有各种二星效应:在两个出星参数(τ12)可

以被认为是与膨胀性,这两个混合星参数(τ13)涉及两个路径,n和双中星

参数(τ14)涉及的人气。需要注意的重要的传递和循环结构(9τ和τ10)。包含这些参数是这些车型的强项,因为是从数据可估计的网络模型,将这些影

响(纽曼,2003年),和极少数确实很少。完整的参数集包括所有可能的高阶

星为好,但如果所有这些星星都包含有太多的参数模型,是难能可贵的。虽然

马氏随机图模型的一些早期的应用包括仅两星效果,现在已知的是,以包括一

个非零参数,至少对许多社交网络的三星级效应模型中可能是重要的(Robins 等,2004,2005)。另一种方法(见下文)包括所有高阶星参数而规定了高阶

星参数之间的关系的约束低阶的。

有大图(略)

例如,马尔可夫随机图模型的非有向网络边缘,二星级,三星级和三角形

的效果是:

(4)

其中,S2(γ)和S3(γ)是两分和三颗星,数字分别在网络?和T(y)为y

中的三角形的数量。请注意,对于马氏随机图形,但是也可以包括高阶三(四

颗星,五颗星,等等)的恒星参数。在该模型式。(4)是我们如何设置某些高阶参数设置为零(3.1节)的一个例子。在这种情况下,我们假设恒星的分布(实际上,度分布)可以充分的二维和三星级的效果解释。

但是应当注意的是,在马尔可夫模型的统计往往彼此相关的,在一些较高

阶给他人的意义。例如,假设有一个三星级的非定向网络中心节点i的。然后

它也有三个二分(和三个边缘)的情况下,也集中在岛这类似于在更熟悉的一

般线性模型程序高阶相互作用。这是有助于解释模型的一个重要特征。如果,

例如,一个网络有很多双恒星存在,则一定会形成三角形只是偶然,但如果在

一个马尔可夫随机图模型,大量的三角形的效果,这是超出任何两个明星效应的,我们可以推断,三角测量的电平不发生,因为许多两分(或实际上的许多

边缘)的机会重叠的根本。在这种情况下,我们将推断三角测量是独立于其他

影响在这个网络中的一个重要的过程。

也得到了发展这一基本马尔可夫随机图模型的几个阐述:对于多元网络

(派特森和沃瑟曼,1999年);对值的网络(Robins等,1999);对于所属的网络(Skvoretz和浮士德,1999;另见帕蒂森和罗宾斯,2004)。

4.4。依赖结构,节点级变量

有引入节点级的效果(演员属性)为马尔可夫等指数随机图模型的各种方法。我们假设二进制属性变量的向量X与X I=1,如果演员我有属性和X I=0,否则。矢量x是那么组观察X上是可能推广到多歧和连续属性的措施,但我们

将限制目前讨论到二进制属性。在这里,作为一个例子,我们将简要地描述其

中的属性被假设为对网络联系的外源预测社会选择模型(Robins等。,2001)。9,我们可以研究一个相似性或同质性假设,作为社会选择 - 社会关系往往具

有相同属性的行动者之间建立的基础 - 通过观察给定属性的分配关系的分配。换句话说,从方程作为不同。(1)中,我们的兴趣是在图中的概率y所表示的属性x的观测值,即,镨(Y = Y| X= x)的。

(图形略)

属性和网络变量之间的简单相关性的假设是,i的属性影响涉及我(即Y九)

可能的关系,称为马尔可夫属性假设。例如,在组织设置,演员的资历(比如,高级管理与初级管理人员),可能会影响该演员的可能联系。如果我们考虑马

尔可夫属性随着马氏网络的依赖关系,图1中所示的非定向网络模型中包含的

配置(多达三星级)。2,用填充节点代表谁的资历属性(即男主角是一名高级管理人员)的演员,和一个空节点(与虚线)只是表示,不论是否初级和高级

的演员。换句话说,配置(A)表示倾向的高级管理人员有相互联系;而配置(B)代表的高级管理人员有很多关系的倾向,等等。大的正参数估计构造(A)是证据为网络中的同质性的效果。

它是由图明显。2,随着属性的唯一的非二元结构包含两个或三个星,与在恒星的中心属性的演员。为了产生三角形的结构与属性变量需要额外的依赖的

假设。

4.5。更复杂的依赖的假设

对超越马尔可夫随机图指数随机图模型阐述了发展。派特森和罗宾斯(2002)提出了两个创新。对于设置机构,他们只限于在社会环境的依赖。图

纸上费尔德(1981),他们建议作为基于时空上下文可能的实例的设置,例如

一组人在同一时间和地点聚集;基于更加抽象的社会文化空间的设置,如对他们的政治承诺挂钩的人;和设置,反映外部“设计”的限制,例如组织结构。

另外一个动机引进的设置是马氏的依赖似乎不现实的大型网络,其中个别

演员甚至不知道对方,并且也没办法接触到,但他们的领带可能仍然采取以影

响其他可能的联系。如果设置结构假说是有理有据的,是有一个需要收集社交

网络的充分了解数据类型的影响。对于进一步的解释,也见Schweinberger和Snijders(2003)。

由派特森和罗宾斯(2002)提出的第二个方向是提出非马尔可夫依赖之间

的关系是不同意的演员,但通过第三方的链接可能会被相互依存的。例如,Y

IJ可有条件地依赖于Y上的RS为四个不同的行动者是否有i或j和R或S之

间所观察到的领带。这些实现依赖模型可以通过什么派特森和罗宾斯(2002)

描述为部分依赖结构进行开发。这些模型还允许引进涉及的属性效果的三角形。

4.6。新的模型形式

有越来越多的证据表明,马氏随机图模型并不好模型,观察到的许多社交

网络(见下文第5.2节),所以这些模型并不总是在实践中是有用的。基于实

现依赖结构,Snijders等。(印刷中)开发的新的规格为指数随机图形的模型,其中包括新的更高阶项。这些模型中引入约束日k星参数,以及新的更高的k-

三角形的结构,允许对其中两个个体可以被连接到一个大的数目k他人的网络

的高度聚集的区域的测量(一个的k三角形)。对于这些模型中,包含许多高

次星形和三角形的效果(而不是设置为0),但是它们受限于进行加权求和,

具有交替的标志的形式。这些创新背后的动机,以及这些新的规格型号的成功,在其他文件中这一特别版的讨论。

5.估计

Anderson等人的(1999)在施特劳斯与池田大作(1990年),以估计马

尔可夫模型的参数介绍了P *底漆用伪似然估计。我们现在知道,取决于数据,可能有严重的问题,与伪似然估计这些模型。但对于马尔可夫随机图模型,标

准最大似然估计是因为在计算式中的常数标准化的困难,不听话的,但任何非

常小的网络,。 1,这意味着该标准统计技术不能应用于这些模型。这些问题

已经被克服近来由新蒙特卡洛最大似然技术的发展。首先,我们做了一些关于

伪可能性相当简短的评论,然后引入新的评价方法。

5.1。伪似然估计:大约技术

使用伪最大似然估计的互动模式最早由Besag(1975),并提出了马尔可

夫随机图模型由施特劳斯和池田(1990)。在一般统计界,假的可能性已经让

蒙特卡罗技术在可行情况下,尽管它仍然有它的信徒(见沃瑟曼和罗宾斯,

2005年,一些文献)。伪似然估计的指数随机图模型的上下文中的优点是,它

是比较容易的,以适应即使是复杂的模型。的缺点是,该估计器的性能没有得

到很好的理解,它是已知的,对于许多数据集的伪似然的估计是不准确的。

伪似然估计是最好的转换公式的理解。(1) - 模型的接头形式 - 为以

下等价条件表(见施特劳斯和池田,1990年,更多的细节):

(5)

其中,(1)之和超过包含?IJ所有配置A;(2)ηA是对应于配置的参数;(3)D A(y)是变化的统计;在网络统计量Z A(Y)当y IJ从1到0的变化值的变化;(4)Y?IJ是y中的关系,除了观察?IJ所有的意见。

变更统计的计算进行了广泛讨论,许多作者(Anderson等,1999;派特森

和罗宾斯,2002;沃瑟曼和派特森,1996;沃瑟曼和罗宾斯,2005),因此我们

不进入它进一步这里。与计算,以产生伪似然估计变动的数据,每一个可能的

领带yIJ成为一个标准的回归过程的情况下,其中y IJ从该组的变化的统计预测(Anderson等,1999)。

这个过程看起来像一个回归 - 或者实际上,一个对数线性模型 - 但事实

并非如此。Logistic回归假设独立的观察,我们明确不马尔科夫和高阶机型做

一个假设。因此,参数估计值可能会有所偏差;与标准误差是近似的,在最好的,并且可能会太小。人们不应该依赖沃尔德统计为手段,以决定一个参数是显著

与否。同样,我们不能假设伪越轨行为的可能性是渐近分布卡方(这将是在正

常回归的情况下)。时间观测的依赖性没有那么强,所以一般认为PL估计将更加准确的情况。伪似然估计被用来日期作为一个实用的方便(考虑到替代品还

没有迄今一直容易获得),并且该方法不具有原则基础。只要有可能,首选的

方案是使用蒙特卡罗估计程序。

5.2。马尔科夫链蒙特卡罗最大似然估计(MCMCMLE)

最近的发展在蒙特卡洛估计技术指数随机图模型已提交和审查的一些作家(见Snijders,2002; Handcock等人,2006; Snijders等人,在记者;沃瑟曼

和罗宾斯,2005),并在该专辑的其他文章中进一步讨论的,所以我们只包括

一个简要这里总结。

首先,我们注意到,这些仿真模型可以在一个相对比较简单的方式来实现。无需进入详细信息,模拟一组给定的参数值的曲线图中的分布可以通过多种算

法来实现(例如,算法中公知的统计更一般地,如对Metropolis算法)。仿真是在蒙特卡洛的最大似然估计的心脏。用于模拟指数随机图形显示贡献程序已

经描述了由施特劳斯(1986),Snijders(2002)和Robins等。(2005)。

虽然有不同的Monte Carlo估计技术(Snijders,2002; Hunter和Handcock,2006)之间的变化,它们都基于同一个中央处理方法:模拟随机图

形的距离参数值的起始集分布的,并且随后的精通过图表的分配比对所观察到

的曲线图,在该过程中的参数值重复,直到估计稳定的参数。实现蒙特卡罗极

大似然估计指数随机图模型最近的软件在这款特别版的其他文件审查。

这两种估计和模拟研究提出的模型规范的问题马尔可夫随机图。Handcock (2003)中定义的邻近简并为发生时的模式意味着只有几个图形具有比非常低

概率的其他(通常这些是完整的图形或空图表)。如果一个模型意味着只有这

些相当无趣的结果,它不会是用于模拟真实的网络是有用的。模拟研究表明,

含有至少非零三星级参数的马尔可夫图形MOD-埃尔斯往往表现出以下邻近简并

比用两分的最高阶非零星参数(Robins等,2005)。但是,列入三星级的参数

往往是不够的尝试发现,重现高水平传递往往是在人类社会结构观察模型时,

除去近简并行为马尔可夫模型图,特别是(没有在Snijders等问题的进一步讨论人,出版中)。这可能不会发生的伪似然估计这些问题,其实简单的说就是

近退化模型,伪似然估计可能是特别令人误解。在这些情况下,首要的问题是,没有明确的具体的模型。

底线是,不同的蒙特卡洛估计技术,现已并在可行情况下,将被优先考虑。这些新方法突出马尔可夫随机图模型的某些不足之处时,例如,传递效果都很强。如果发生这种情况对于一个给定的数据集,研究人员拟合马尔可夫随机图

模型会发现,它是不可能得到一致的参数估计与蒙特卡罗最大似然估计(在技

术上,估计过程不收敛)。这意味着,马氏图表模型是不适合的数据。这是因

为这样Snijders等人。(出版中)介绍了他们的新规格,指数随机图模型,在4.6节中提到,而在其他文件中这一特别版的讨论。

6.一个简单的例子:一个马尔可夫随机图模型奇商务网

在这个特别版的其他文件提供的拟合指数随机图模型对数据的例子,所以

在这里我们提出了一个非常简短的例子。我们适应马尔可夫随机图模型中16的佛罗伦萨家庭业务联系,在UCINET5可用的知名非定向网络(Borgatti等,1999)。(对于数据的上下文的完整描述,请参阅帕吉特和安塞尔,1993年),该模型包含了边缘,二星级,三星级和三角形的参数方程。(4)。这种模式

是不是变质了这组数据与参数估计顺利衔接。MCMCMLE参数估计值列于表1中

我们看到,密度和三角参数是显着的幅度与它们的标准误差的比较。因此,10

释义比较简单。负极密度参数表示沿出现相对很少,特别是如果它们不是高阶

结构,如分和三角形部分。正三角参数可以解释为提供证据该业务关系往往发

生在三角结构,因此群集到像的形式clique-。明星效应并不显著,所以也许

不值得解读。但参数值表明,有多个网络合作伙伴的倾向(正面两星的估计),但这一趋势(负三星级参数)为上限。所以,尽管有网络的演员有多个合作伙

伴的趋势,有几个演员有非常多的合作伙伴。

7.结论

本文提供的配方和应用的指数随机图模型,社交网络的介绍阐述。我们都

集中在介绍这些模型的基本逻辑和推导。鉴于篇幅限制,我们只给出简要注意

最近的事态发展将在其他文章中的这个特别版进行讨论。

在弗兰克和施特劳斯(1986)的马尔可夫随机图模型最近的工作表明,他

们可能是不够的许多观察网络。在回顾发展这些模型这一点,我们有意没有超

过上改进的型号规格非常简要的评论。新规格Snijders等人。(印刷中)提供了在实际使用中的指数随机图模型显着改善。他们还指出了前进的道路发展等

创新规格。其中我们在本文的目的已经奠定了基础,这些新的发展,这是在给

定其他论文更全面的论述,在这个特别版的理解。

致谢

我们感谢匿名审稿人的有益意见改进早期版本的文件。这项研究提供了协助,从澳大利亚研究理事会资助。

关于社会网络的指数随机图模型的介绍

介绍了指数随机图(P *)社交网络模型 (加里·罗宾斯,皮普派特森,尤瓦尔·卡利什,院长Lusher) 心理学系,行为科学,墨尔本大学商学院。 3010,澳大利亚 摘要: 本文提供的介绍总结,制定和应用指数随机的图模型的社交网络。网络的 各个节点之间的可能的关系被认为是随机的变量和假设,这些随机的领带变量 之间的依赖关系确定,一般形式的指数随机图模型的网络。不同的相关性假设 的例子及其相关的模型,给出了包括伯努利,对子无关,马尔可夫随机图模型。在社会选择机型演员的加入属性也被审查。更新,更复杂依赖的假设进行了简 要介绍。估计程序进行了讨论,其中包括新的方法蒙特卡罗最大似然估计。我 们预示着在其它组织了讨论论文在这款特别版:弗兰克和施特劳斯的马氏随机 图模型[弗兰克,澳,施特劳斯,D.,1986年马氏图。杂志美国统计协会81,832-842]不适合于许多观察到的网络,而Snijders等人的新的模型参数。[Snijders,TAB,派特森,P.,罗宾斯,GL,Handock,M.新规范指数随机图模型。社会学方法论,在记者]提供实质性的改善。 关键词:指数随机图模型;统计模型的社交网络; P *模型 在最近几年,出现了在指数随机图模型对于越来越大的兴趣社交网络,通常称为P *类车型(弗兰克和施特劳斯,1986;派特森和沃瑟曼,1999;罗宾斯等人,1999;沃瑟曼和帕蒂森,1996年)。这些概率模型对一组给定的演员网络 允许泛化超越了早期的P1模型类(荷兰和Leinhardt,1981年)的限制二元独立性假设。因此,它们允许模型从社会行为的结构基础的一个更为现实的构建。这些模型车的研究多层次,multitheoretical假说的有效性一直在强调(例如,承包商等,2006)。 已经有一些自Anderson等重大理论和技术的发展。(1999)介绍了他们对 P *型号知名底漆。我们总结了本文上述的进步。特别是,我们认为重要的是在概念上从依赖假设的衍生地,这些模型,模型的基本依据,然后作出了明确, 并与有关(不可观察)社会进程底层网络的形成假说更容易联系。正是通过新 的模式,可以开发一个有原则的方式,包括结合了演员的属性模型这样的做法。在模型规范和估计最近的发展需要注意的是,因为这样做就设置结构和部分新 技术的步骤依赖的假设,不仅扩大了级车型,但具有重要意义的概念。特别是,我们现在有一个更好的了解马尔可夫随机图,和有前途的新规格的性能已经提 出来克服他们的一些不足之处。 本文介绍了模型,并总结当前方法的发展与扩展概念的阐述(更多技术总 结最近被沃瑟曼和罗宾斯,2005年定;知更鸟和派特森,2005; Snijders等人,出版。)我们首先简要介绍理分析社交网络的统计模型(第1节)。然后,我 们提供指数随机图模型的基本逻辑进行了概述,并概述我们框架模型构建(第 2节)。在第3节中,我们讨论的重要概念一个依赖假设的建模方法的心脏。 在第4节中,我们提出了一系列不同的相关性假设和模型。对于模型估计(第 5章),我们简单总结伪似然估计(PLE)的方法,并检讨最近的事态发展蒙特 卡罗马尔可夫链最大似然估计方法。在第6节中,我们提出拟合模型,网络数

数学建模- 图与网络模型及方法

第五章 图与网络模型及方法 §1 概论 图论起源于18世纪。第一篇图论论文是瑞士数学家欧拉于1736 年发表的“哥尼斯堡的七座桥”。1847年,克希霍夫为了给出电网络方程而引进了“树”的概念。1857年,凯莱在计数烷22 n n H C 的同分异构物时,也发现了“树”。哈密尔顿于1859年提出“周游世界”游戏,用图论的术语,就是如何找出一个连通图中的生成圈,近几十年来,由于计算机技术和科学的飞速发展,大大地促进了图论研究和应用,图论的理论和方法已经渗透到物理、化学、通讯科学、建筑学、生物遗传学、心理学、经济学、社会学等学科中。 图论中所谓的“图”是指某类具体事物和这些事物之间的联系。如果我们用点表示这些具体事物,用连接两点的线段(直的或曲的)表示两个事物的特定的联系,就得到了描述这个“图”的几何形象。图论为任何一个包含了一种二元关系的离散系统提供了一个数学模型,借助于图论的概念、理论和方法,可以对该模型求解。哥尼斯堡七桥问题就是一个典型的例子。在哥尼斯堡有七座桥将普莱格尔河中的两个岛及岛与河岸联结起来问题是要从这四块陆地中的任何一块开始通过每一座桥正好一次,再回到起点。当 然可以通过试验去尝试解决这个问题,但该城居民的任何尝试均未成功。欧拉为了解决 这个问题,采用了建立数学模型的方法。他将每一块陆地用一个点来代替,将每一座桥用连接相应两点的一条线来代替,从而得到一个有四个“点”,七条“线”的“图”。问题成为从任一点出发一笔画出七条线再回到起点。欧拉考察了一般一笔画的结构特点,给出了一笔画的一个判定法则:这个图是连通的,且每个点都与偶数线相关联,将这个判定法则应用于七桥问题,得到了“不可能走通”的结果,不但彻底解决了这个问题,而且开创了图论研究的先河。 图与网络是运筹学(Operations Research )中的一个经典和重要的分支,所研究的问题涉及经济管理、工业工程、交通运输、计算机科学与信息技术、通讯与网络技术等诸多领域。下面将要讨论的最短路问题、最大流问题、最小费用流问题和匹配问题等都是图与网络的基本问题。 我们首先通过一些例子来了解网络优化问题。 例1 最短路问题(SPP -shortest path problem ) 一名货柜车司机奉命在最短的时间内将一车货物从甲地运往乙地。从甲地到乙地的公路网纵横交错,因此有多种行车路线,这名司机应选择哪条线路呢?假设货柜车的运行速度是恒定的,那么这一问题相当于需要找到一条从甲地到乙地的最短路。 例2 公路连接问题 某一地区有若干个主要城市,现准备修建高速公路把这些城市连接起来,使得从其中任何一个城市都可以经高速公路直接或间接到达另一个城市。假定已经知道了任意两个城市之间修建高速公路的成本,那么应如何决定在哪些城市间修建高速公路,使得总

第七章 图与网络优化练习题答案

第八章 图与网络优化练习题答案 一、判断下列说法是否正确 1.在任一图G 中,当点集V 确定后,树图是G 中边数最少的连通图。( ) 2.若图中某点v i 有若干个相邻点,与其距离最远的相邻点为v j ,则边[v i ,v j ]必不包含在最小支撑树内。( ) 3.若图中从v 1至各点均有惟一的最短路,则连接v 1至其他各点的最短路在去掉重复部分后,恰好构成该图的最小支撑树。( ) 4.求网络最大流的问题可归结为求解一个线性规划模型。( ) 二、有一项工程,要埋设电缆将中央控制室与15个控制点连通。下图中标出了允许挖电缆沟的地点和距离(单位:hm )。若电缆线100元/m ,挖电缆沟(深1m ,宽0.6m )土方30元/m 3,其它材料和施工费用50元/m ,请作出该项工程预算的最少费用。 中央控制室 1 2 4 3 6 5 8 7 9 10 11 15 12 13 14 7 2 4 6 6 12 4 3 11 9 5 8 5 9 8 8 12 10 5 5 2 5 4 10 5 4 6 9 6 8 4 6 7 3 答案: 求出其最小支撑树为: 中央控制室 1 2 4 3 6 5 8 7 9 10 11 15 12 13 14 7 2 4 4 3 5 5 5 5 2 4 5 4 4 3 埋设电缆的最优方案为总长6200m 所以最少工程预算费为6200×(100+0.6×30+50)=元

三、用Dijkstra 标号法求出下图中v 1到各点的最短距离与最短路径。 v 1 v 3 v 6 v 9 v 11 v 2 v 5 v 8 v 4 v 10 v 7 2 8 1 6 1 2 9 1 1 6 7 3 4 7 1 2 9 6 1 5 3 2 答案: 图中的粗线即为v 1到各点的最短路径;v 1到各点的最短距离为图中带 的数字。 四、所给网络中弧旁数字为该弧容量,求网络最大流与最小截集。 v s v 1 v 2 v 3 v 4 v t 13 2 6 6 3 3 4 4 7 15 答案: 第一次迭代: 得增广链:(v s , v 1, v t );按θ=7调整,如上图。 第二次迭代: v s v 1 v 2 v 3 v 4 v t (13,7) 2 6 6 3 3 4 4 (7,7) 15 (0,+∞) (v s ,13) (v s ,6) (v s ,2) (v 1,4) (v 1,7)

概率图模型研究进展综述

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/07915711.html, Journal of Software,2013,24(11):2476?2497 [doi: 10.3724/SP.J.1001.2013.04486] https://www.360docs.net/doc/07915711.html, +86-10-62562563 ?中国科学院软件研究所版权所有. Tel/Fax: ? 概率图模型研究进展综述 张宏毅1,2, 王立威1,2, 陈瑜希1,2 1(机器感知与智能教育部重点实验室(北京大学),北京 100871) 2(北京大学信息科学技术学院智能科学系,北京 100871) 通讯作者: 张宏毅, E-mail: hongyi.zhang.pku@https://www.360docs.net/doc/07915711.html, 摘要: 概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分 布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行 自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念 和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新 进展.最后讨论了相关方向的研究前景. 关键词: 概率图模型;概率推理;机器学习 中图法分类号: TP181文献标识码: A 中文引用格式: 张宏毅,王立威,陈瑜希.概率图模型研究进展综述.软件学报,2013,24(11):2476?2497.https://www.360docs.net/doc/07915711.html,/ 1000-9825/4486.htm 英文引用格式: Zhang HY, Wang LW, Chen YX. Research progress of probabilistic graphical models: A survey. Ruan Jian Xue Bao/Journal of Software, 2013,24(11):2476?2497 (in Chinese).https://www.360docs.net/doc/07915711.html,/1000-9825/4486.htm Research Progress of Probabilistic Graphical Models: A Survey ZHANG Hong-Yi1,2, WANG Li-Wei1,2, CHEN Yu-Xi1,2 1(Key Laboratory of Machine Perception (Peking University), Ministry of Education, Beijing 100871, China) 2(Department of Machine Intelligence, School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China) Corresponding author: ZHANG Hong-Yi, E-mail: hongyi.zhang.pku@https://www.360docs.net/doc/07915711.html, Abstract: Probabilistic graphical models are powerful tools for compactly representing complex probability distributions, efficiently computing (approximate) marginal and conditional distributions, and conveniently learning parameters and hyperparameters in probabilistic models. As a result, they have been widely used in applications that require some sort of automated probabilistic reasoning, such as computer vision and natural language processing, as a formal approach to deal with uncertainty. This paper surveys the basic concepts and key results of representation, inference and learning in probabilistic graphical models, and demonstrates their uses in two important probabilistic models. It also reviews some recent advances in speeding up classic approximate inference algorithms, followed by a discussion of promising research directions. Key words: probabilistic graphical model; probabilistic reasoning; machine learning 我们工作和生活中的许多问题都需要通过推理来解决.通过推理,我们综合已有的信息,对我们感兴趣的未 知量做出估计,或者决定采取某种行动.例如,程序员通过观察程序在测试中的输出判断程序是否有错误以及需 要进一步调试的代码位置,医生通过患者的自我报告、患者体征、医学检测结果和流行病爆发的状态判断患者 可能罹患的疾病.一直以来,计算机科学都在努力将推理自动化,例如,编写能够自动对程序进行测试并且诊断 ?基金项目: 国家自然科学基金(61222307, 61075003) 收稿时间:2013-07-17; 修改时间: 2013-08-02; 定稿时间: 2013-08-27

复杂网络模型的matlab实现

function [DeD,aver_DeD]=Degree_Distribution(A) %% 求网络图中各节点的度及度的分布曲线 %% 求解算法:求解每个节点的度,再按发生频率即为概率,求P(k) %A————————网络图的邻接矩阵 %DeD————————网络图各节点的度分布 %aver_DeD———————网络图的平均度 N=size(A,2); DeD=zeros(1,N); for i=1:N % DeD(i)=length(find((A(i,:)==1))); DeD(i)=sum(A(i,:)); end aver_DeD=mean(DeD); if sum(DeD)==0 disp('该网络图只是由一些孤立点组成'); return; else figure; bar([1:N],DeD); xlabel('节点编号n'); ylabel('各节点的度数K'); title('网络图中各节点的度的大小分布图'); end figure; M=max(DeD); for i=1:M+1; %网络图中节点的度数最大为M,但要同时考虑到度为0的节点的存在性 N_DeD(i)=length(find(DeD==i-1)); % DeD=[2 2 2 2 2 2] end P_DeD=zeros(1,M+1); P_DeD(:)=N_DeD(:)./sum(N_DeD); bar([0:M],P_DeD,'r'); xlabel('节点的度 K'); ylabel('节点度为K的概率 P(K)'); title('网络图中节点度的概率分布图'); 平均路径长度 function [D,aver_D]=Aver_Path_Length(A) %% 求复杂网络中两节点的距离以及平均路径长度 %% 求解算法:首先利用Floyd算法求解出任意两节点的距离,再求距离的平均值得平均路

读懂概率图模型:你需要从基本概念和参数估计开始

读懂概率图模型:你需要从基本概念和参数估计开始 选自statsbot作者:Prasoon Goyal机器之心编译参与:Panda 概率图模型是人工智能领域内一大主要研究方向。近日,Statsbot 团队邀请数据科学家Prasoon Goyal 在其博客上分两部分发表了一篇有关概率图模型的基础性介绍文章。文章从基础的概念开始谈起,并加入了基础的应用示例来帮助初学者理解概率图模型的实用价值。机器之心对该文章进行了编译介绍。 第一部分:基本术语和问题设定 机器学习领域内很多常见问题都涉及到对彼此相互独立的 孤立数据点进行分类。比如:预测给定图像中是否包含汽车或狗,或预测图像中的手写字符是0 到9 中的哪一个。 事实证明,很多问题都不在上述范围内。比如说,给定一个句子「I like machine learning」,然后标注每个词的词性(名词、代词、动词、形容词等)。正如这个简单例子所表现出的那样:我们不能通过单独处理每个词来解决这个任务——「learning」根据上下文的情况既可以是名词,也可以是动词。这个任务对很多关于文本的更为复杂的任务非常重要,比如从一种语言到另一种语言的翻译、文本转语音等。 使用标准的分类模型来处理这些问题并没有什么显而易见

的方法。概率图模型(PGM/probabilistic graphical model)是一种用于学习这些带有依赖(dependency)的模型的强大框架。这篇文章是Statsbot 团队邀请数据科学家Prasoon Goyal 为这一框架编写的一份教程。 在探讨如何将概率图模型用于机器学习问题之前,我们需要先理解PGM 框架。概率图模型(或简称图模型)在形式上是由图结构组成的。图的每个节点(node)都关联了一个随机变量,而图的边(edge)则被用于编码这些随机变量之间的关系。 根据图是有向的还是无向的,我们可以将图的模式分为两大类——贝叶斯网络(?Bayesian network)和马尔可夫网络(Markov networks)。 贝叶斯网络:有向图模型 贝叶斯网络的一个典型案例是所谓的「学生网络(student network)」,它看起来像是这样: 这个图描述了某个学生注册某个大学课程的设定。该图中有5 个随机变量:课程的难度(Difficulty):可取两个值,0 表示低难度,1 表示高难度 学生的智力水平(Intelligence):可取两个值,0 表示不聪明,1 表示聪明 学生的评级(Grade):可取三个值,1 表示差,2 表示中,3 表示优

社会网络影响力最大化算法及其传播模型研究

社会网络影响力最大化算法及其传播模型研究近年来,随着软件与硬件的飞速发展以及个人电脑和互联网的普及,基于熟人关系的网络如微信、基于同学关系的网络如人人网和基于关注关系的网络如微博等各类在线社交平台深受人们的喜爱并占据着人们几乎所有的业余时间,这些平台可以产生海量的数据,给社会网络分析带来了前所未有的机会,因此吸引了大批科研工作者对社会网络空间结构、传播规律等课题的研究和分析。其中,如何选择社会网络里影响力最大化的TOP-K节点及如何挑选社会网络传播模型这两个方向,成为了学术界研究的热门选择。 本文首先在前人研究的基础上,对社会网络影响力最大化算法里现有的算法进行了改进;其次,详细分析了独立级联模型和线性阈值模型,并引入人们在第一次接收信息和以后再次接收信息时会有不同反应这一现象以及遗忘规律,提出了一种新型的社会网络传播模型。具体研究内容如下:(1)基于三度影响力原则的线性衰减度中心性算法。 根据三度影响力原则,影响力主要在三度分隔以内有效,超过三度分隔,影响力几乎趋近于0。因此线性衰减度中心性以节点在三度分隔以内的潜在影响力来衡量节点的实际影响力,且这种潜在影响力从源节点向外传播到距离为2时影响力衰减到原来的α倍,传播到距离为3时再次衰减β倍,其中0<α,β<1。 计算出线性衰减度中心性之后,本文从3种不同的角度分别在4个公共数据集上验证了算法的有效性。(2)混合式传播模型。 真实的人际关系网络里存在着如下的事实:人们在第一次接触某些信息时,是否接受常常取决于信息本身;而在第一次拒绝之后,以后的每一次是否接受取决于以往所拒绝的人和现在推荐的人对其影响力的累积是否大于其自身的阈值,

基于Excel的随机决策模型_蒙特卡洛模拟

水平上下波动。本文简单介绍在折现现金流量模莲!!中采用 蒙特卡洛模拟方法对那些高风险或发展前景存在不确定性因素的公司进行决策。蒙特卡洛模拟的方法,对于财务 数据都是通过随机取样来确定的,客观地反映了市场的变化。而大量的数据模拟解释了一种概率的结果.这是人们 对收益法中采用财务预测产生怀疑的一个很好解释。 二、蒙特卡洛方法简介 蒙特卡洛模拟法O'lonteCarloSimulation)3L称随机模拟法,其名7来源于摩纳哥著名赌城蒙特卡洛,它是计算机模拟的基础。该理论最早起源于法国科学家普丰在1777年提出的一种计算圆周率的方法——随机投针法.即著名 的普丰针实验。蒙特卡洛模拟建立在中心极限定理的基础 上,假设某个随机变量',的期望值O=E『Y1,那么我们假设可以产生与y独立同分布的随机变量的值,每产生一次完 成一次模拟。假设进行了&次模拟,产生了k个值y,,y:, k b,…,y*,如果令y=乞Y。/k是它们的代数平均值,那么Y l=l 就可以看作0的一个估计值,并且我们可以证明在中心极 限定理的假设下,^越大,越接近正态分布,那么y也就是 0的一个较好的估计量。这种估计期望值的方法就称为蒙 特卡洛模拟。 三、风险投资决策的蒙特卡洛模拟法 在企业价值评估中,常常采用收益法,把预测的盈利 流折现得出企业现在的价值。这种方法所用的增长率是平 均值,但是这个增长率忽视了预计因素变动的不确定性。 还有一种模型是Delphi法,通过反复的大量调查取值来计算一个参数的平均值,该方法在实际运用中将会耗用大量成本。现实【吐界的情况是不确定因素很多并且服从不同的 概率分布,所以。把这种变化明确地表现到预测和模拟当 中是一种可以考虑的选择。本文介绍一种基于Excel加载宏的CrystalBall软件,来实现风险投资决策的仿真运算模型。 1.CrystalBall软件简介 CrystalBall软件是由美国Decisioneering公司开发的,为Excel电子表格提供的功能强大的加载宏。它充分利 用微软视窗环境,提供了含有易学易用的图形包的高级模拟技术的独特组合。该软件包主要有计算机仿真模拟功能、时间序列数据生成预测和OptQuest功能。使其可以在运行结果中自动搜索仿真模型的最优解。 2.CrystalBall软件的使用步骤 (1)定义随机的输入单元格:加载CrystalBall到Excel中,并且建立一个工作表,将投资预测的相关变量输入电子表格中: (2)定义随机单元格的概率分布:利用软件的DefineAssumption功能为相应变量设定概率分布,利用DefineDecision定义决策变量: (3)定义预测的输出单元格:利用DefineForecast功 能定义输出变量的单元格; 金融与投资 (4)设定运行参数:在RunPreference功能中定义模拟次数、敏感度分析等参数; (5)运行仿真:点击Run进行模拟运算,分析模拟结果。 本文举出一个简化的例子说明预测因素不同水平的变化能够影响风险投资决策。在实际工作中采用蒙特卡洛模拟的方法比较复杂,而利用CrystalBall软件包进行模拟则很方便.不需要设计复杂的语言程序。 四、模拟案例 假设ABC公司需要进行?项风险投资,其中年产量和巾‘场份额是两个不确定性变量,其概率分布见表1,争位价格和产品成本同年产量存在一定的线形函数关系,Excel表格设计见图1。 表1年产量和市场份额概率分布 产量的可能取值(件)1000110012001300 相应概率O.2O.40.20.2 市场份额的可能取值(%)10402030 相应概率0.1O.20.30.4 选择年产量和市场份额作为随机变量,按照预计的概率分布。在Excel中利用CrystalBall软件设置随机单元格,选定运行参数为10000次、置信区间为95%和定义敏感度分析工具,然后进行仿真运算,可以得到图2的统计数据和图3的概率分布情况所示的仿真运算结果。 图1模型的Excel电子表格 分析图2的仿真运算结果可知.经过10000次模拟运算后.该投资在1年之后的净现值的平均值为一1958_54元,即该投资的平均期望价值为一195854元,并且我们还可以得到关于数据模拟的中位数、众数、方差和峰度等参数值。利用图3还可以进行风险分析。这是CrystalBall软件提供的更有用的另一种方式,它增加了仿真运行结果的有用信息。决策者可以在图3中移动图形中的小三角形到任意位置.从而立刻估算出相应区问的投资收益净现值的获得概率(Certainty)。对于仿真结果的精确度分析,则可以利用图2中统计表底部的均值标准差meanstandarderror)提供的数据21555元,真实值往往在抽样值的周围以一个数值波动。本案例中是在95%的置信区间内波动,并且可以知道95%的特有倍数是1.965。所以置信范围从 CHINAMANAGEMENT INFORMATIONIZATION,57

虚拟社会仿真中的人际关系网络模型研究

万方数据

“这个世界怎么这么小啊”。其实,这就是著名的“六度分离”所描述的现象:“你和这个星球上的任何一个人之间最多只有六度的分离”。“六度分离”所揭示的现象,就是典型的“小世界”现象。小世界网络的一个典型特性,是网络中的平均距离较小,即节点到另外一个节点的平均距离较小。对应到现实世界的真实个体,两个个体之间哪怕是相隔万里,总是能通过各自的人际网络中的若干个体间接认识。从这个角度看,人际关系网络,固然复杂,却存在奇怪的“小世界”现象。 图1社会关系网络示意图[7】 2.2人际关系网络的无标度特性 在人际关系网络中,每个个体都有其鲜明的个性特征,其朋友或者家庭成员等数量都是不同的,特别是朋友数量,性格外向、好交朋友的个体其朋友数量势必比那些内向的个体朋友数量多。换句话说,如果把个体当作网络中的节点,个体与个体间的联系当作边的话,那么每个节点的度都是不一样的。社会科学的相关研究指出,对于那些善于交际的个体,其认识的人会随着时间的增多而不断增多,其“圈子”就越来越大,同时,大部分普通人其人际网络中的个体是比较有限的。这种现象,其实一定程度上对应了复杂网络中的“无标度”特性,即节点的度更符合幂律分布而非泊松分布。2.3虚拟社会中人际关系网络的地域特性 虚拟社会,并不是对包罗万象的自然、人类社会进行“复制”,而是针对特定问题,就特定地区的社会进行仿真研究。因此,在该“社会”下的人际关系,具有具体的、很强的“地域”特性。每个地区因其文化传承、地理气候、教育程度等等各种文明的不同,其人际关系也呈现很强的地域特性。本文所研究的某地区的人际关系,除了人际关系的一般特性外,其个体性格普遍呈现外向,善于运用多种手段进行各种交流,从相关统计数据看,个体结交广泛;个体的主体意识比较强,对外来文化等各种影响比较排斥;个体十分关注本地区的整体建设,特别是事关民生的事情,参与意识很强。 3人际关系网络模型关键算法 试图构建包含所有复杂关系的人际关系网络,其难度是 可想而知的,不仅要仿真出多种多样的关系,而且每个个体所拥有的人际关系网络因其独特的个性等特征而趋于惟一,并且会随时间动态变化。那么是否能够构建某种情况下的人际关系网络呢?需要指出的是,进行虚拟社会的仿真研究,本身就是在特定的背景下,有别于军事系统之外的属于战争系统仿真中的一部分,而且虚拟社会中的人际关系网络,更多的是体现人与人之间就战争问题进行相互交流过程,最终产生真实度较高的民意、舆论的战争环境。为此,构建虚拟社会下的人际关系网络,具体说就是在危机条件下,仿真某特定地区民众就当前发生的危机事件因交流而形成的人际关系网络,是可能的。同时,人际关系网络具有典型的“小世界”和“无尺度”特性,因此,研究小世界网络模型、无尺度网络模型的构造算法,对于研究人际关系网络模型的构造算法,是有一定借鉴的。 3.1小世界网络模型构造算法‘2-7】【n】 小世界网络模型,是Watts和Strogtz于1998年提出的一个基于人类社会网络的模型,称为WS模型,其网络的生成主要是在规则图的基础上,通过节点间的随机化重连来实现。“随机化”过程是WS模型的一个典型特征,这个特征却很可能破坏了网络的连通性。为此,Newman和Watts在1999年提出了一种经过改造过的小世界网络模型。在该模型中,与WS模型类似,节点先排布在一个规则环状网上,但是NW模型不断开旧的连接,而是以概率P在节点间增加边,两个节点之间不允许有多重连接,也不允许节点的自连接,即该模型是通过用“随机化加边”取代WS小世界模型构造中的“随机化重连而得到的。 WS模型和NW模型都在规则网络中增加了“长程”边,它们的另一端节点不是自己的邻居。通过变化概率P,可以得到从规则网络(P=0)到随机网络(P=1)的一个变化过程。这两个模型从根本上说是一样的,都反映了复杂网络的一个性质:大部分节点只与它们的邻近节点相连,同时也有某些节点可与非邻近节点直接相连。从人际关系中,圈子的存在,其实也说明了这个特性,民众更善于在自己周围环境中结交朋友,而形成地理空间上较小的人际圈子,当然,这并不排除与地理空间较远甚至很远的个体认识的可能性。3.2无尺度网络模型构造算法"。91 Barabasi和Albert认为复杂网络具有两个重要的性质:增长性,即网络规模不断扩大的同时其自身在不断演化;优先连接性,即新的节点更倾向于与那些具有更多连接度的节点相连。这两个性质决定了复杂网络中节点的度分布更接近幂律分布。在此基础上,他们提出了著名的BA模型,节点间是否相连,是通过节点的度来决定的,即网络节点的度越大,新节点与其连接的概率就越大,两者成正比关系。由此生成的网络不仅具有幂律的度分布,而且同时具有较大的集聚系数和较小的平均距离。 从上述分析可以看出,人际交往构成的人际关系网络,既有小世界网络中节点间的平均距离较小,又有其节点的度 一15—万方数据

概率图模型介绍与计算

概率图模型介绍与计算 01 简单介绍 概率图模型是图论和概率论结合的产物,它的开创者是鼎鼎大名的Judea Pearl,我十分喜欢概率图模型这个工具,它是一个很有力的多变量而且变量关系可视化的建模工具,主要包括两个大方向:无向图模型和有向图模型。无向图模型又称马氏网络,它的应用很多,有典型的基于马尔科夫随机场的图像处理,图像分割,立体匹配等,也有和机器学习结合求取模型参数的结构化学习方法。严格的说他们都是在求后验概率:p(y|x),即给定数据判定每种标签y的概率,最后选取最大的后验概率最大的标签作为预测结果。这个过程也称概率推理(probabilistic inference)。而有向图的应用也很广,有向图又称贝叶斯网络(bayes networks),说到贝叶斯就足以可以预见这个模型的应用范围咯,比如医疗诊断,绝大多数的机器学习等。但是它也有一些争议的地方,说到这就回到贝叶斯派和频率派几百年的争议这个大话题上去了,因为贝叶斯派假设了一些先验概率,而频率派认为这个先验有点主观,频率派认为模型的参数是客观存在的,假设先验分布就有点武断,用贝叶斯模型预测的结果就有点“水分”,不适用于比较严格的领域,比如精密制造,法律行业等。好吧,如果不遵循贝叶斯观点,前面讲的所有机器学习模型都可以dismiss咯,我们就通过大量数据统计先验来弥补这点“缺陷”吧。无向图和有向图的例子如(图一)所示: 图一(a)无向图(隐马尔科夫)(b)有向图 概率图模型吸取了图论和概率二者的长处,图论在许多计算领域中扮演着重要角色,比如组合优化,统计物理,经济等。图的每个节点都可看成一个变量,每个变量有N个状态(取值范围),节点之间的边表示变量之间的关系,它除了

数学建模图与网络模型及方法

第五章 图与网络模型及方法 §1 概论 图论起源于18世纪。第一篇图论论文是瑞士数学家欧拉于1736 年发表的“哥尼斯堡的七座桥”。1847年,克希霍夫为了给出电网络方程而引进了“树”的概念。1857年,凯莱在计数烷22 n n H C 的同分异构物时,也发现了“树”。哈密尔顿于1859年提出“周游世界”游戏,用图论的术语,就是如何找出一个连通图中的生成圈,近几十年来,由于计算机技术和科学的飞速发展,大大地促进了图论研究和应用,图论的理论和方法已经渗透到物理、化学、通讯科学、建筑学、生物遗传学、心理学、经济学、社会学等学科中。 图论中所谓的“图”是指某类具体事物和这些事物之间的联系。如果我们用点表示这些具体事物,用连接两点的线段(直的或曲的)表示两个事物的特定的联系,就得到了描述这个“图”的几何形象。图论为任何一个包含了一种二元关系的离散系统提供了一个数学模型,借助于图论的概念、理论和方法,可以对该模型求解。哥尼斯堡七桥问题就是一个典型的例子。在哥尼斯堡有七座桥将普莱格尔河中的两个岛及岛与河岸联结起来问题是要从这四块陆地中的任何一块开始通过每一座桥正好一次,再回到起点。当 然可以通过试验去尝试解决这个问题,但该城居民的任何尝试均未成功。欧拉为了解决这个问题,采用了建立数学模型的方法。他将每一块陆地用一个点来代替,将每一座桥用连接相应两点的一条线来代替,从而得到一个有四个“点”,七条“线”的“图”。问题成为从任一点出发一笔画出七条线再回到起点。欧拉考察了一般一笔画的结构特点,给出了一笔画的一个判定法则:这个图是连通的,且每个点都与偶数线相关联,将这个判定法则应用于七桥问题,得到了“不可能走通”的结果,不但彻底解决了这个问题,而且开创了图论研究的先河。 图与网络是运筹学(Operations Research )中的一个经典和重要的分支,所研究的问题涉及经济管理、工业工程、交通运输、计算机科学与信息技术、通讯与网络技术等诸多领域。下面将要讨论的最短路问题、最大流问题、最小费用流问题和匹配问题等都是图与网络的基本问题。 我们首先通过一些例子来了解网络优化问题。 例1 最短路问题(SPP -shortest path problem ) 一名货柜车司机奉命在最短的时间内将一车货物从甲地运往乙地。从甲地到乙地的公路网纵横交错,因此有多种行车路线,这名司机应选择哪条线路呢假设货柜车的运行速度是恒定的,那么这一问题相当于需要找到一条从甲地到乙地的最短路。 例2 公路连接问题 某一地区有若干个主要城市,现准备修建高速公路把这些城市连接起来,使得从其中任何一个城市都可以经高速公路直接或间接到达另一个城市。假定已经知道了任意两

复杂网络理论及其研究现状

复杂网络理论及其研究现状 复杂网络理论及其研究现状 【摘要】简单介绍了蓬勃发展的复杂网络研究新领域,特别是其中最具代表性的是随机网络、小世界网络和无尺度网络模型;从复杂网络的统计特性、复杂网络的演化模型及复杂网络在社会关系研究中的应用三个方面对其研究现状进行了阐述。 【关键词】复杂网络无标度小世界统计特性演化模型 一、引言 20世纪末,以互联网为代表的信息技术的迅速发展使人类社会步入了网络时代。从大型的电力网络到全球交通网络,从Internet 到WWW,从人类大脑神经到各种新陈代谢网络,从科研合作网络到国际贸易网络等,可以说,人类生活在一个充满着各种各样的复杂网络世界中。 在现实社会中,许多真实的系统都可以用网络的来表示。如万维网(WWW网路)可以看作是网页之间通过超级链接构成的网络;网络可以看成由不同的PC通过光缆或双绞线连接构成的网络;基因调控网络可以看作是不同的基因通过调控与被调控关系构成的网络;科学家合作网络可以看成是由不同科学家的合作关系构成的网络。复杂网络研究正渗透到数理科学、生物科学和工程科学等不同的领域,对复杂网络的定性与定量特征的科学理解,已成为网络时代研究中一个极其重要的挑战性课题,甚至被称为“网络的新科学”。 二、复杂网络的研究现状 复杂网络是近年来国内外学者研究的一个热点问题。传统的对网络的研究最早可以追溯到18世纪伟大数学家欧拉提出的著名的“Konigsberg七桥问题”。随后两百多年中,各国的数学家们一直致力于对简单的规则网络和随机网络进行抽象的数学研究。规则网络过于理想化而无法表示现实中网络的复杂性,在20世纪60年代由Erdos和Renyi(1960)提出了随机网络。进入20世纪90年代,人们发现现实世界中绝大多数的网络既不是完全规则,也不是完全随机

小世界复杂网络模型研究

小世界复杂网络模型研究 摘要:复杂网络在工程技术、社会、政治、医药、经济、管理领域都有着潜在、广泛的应用。通过高级计算机网络课程学习,本文介绍了复杂网络研究历史应用,理论描述方法及阐述对几种网络模型的理解。 1复杂网络的发展及研究意义 1.1复杂网络的发展历程 现实世界中的许多系统都可以用复杂网络来描述,如社会网络中的科研合作网、信息网络中的万维网、电力网、航空网,生物网络中的代谢网与蛋白质网络。 由于现实世界网络的规模大,节点间相互作用复杂,其拓扑结构基本上未知或未曾探索。两百多年来,人们对描述真实系统拓扑结构的研究经历了三个阶段。在最初的一百多年里,科学家们认为真实系统要素之间的关系可以用一些规则的结构表示,例如二维平面上的欧几里德格网;从20世纪50年代末到90年代末,无明确设计原则的大规模网络主要用简单而易于被多数人接受的随机网络来描述,随机图的思想主宰复杂网络研究达四十年之久;直到最近几年,科学家们发现大量的真实网络既不是规则网络,也不是随机网络,而是具有与前两者皆不同的统计特性的网络,其中最有影响的是小世界网络和无尺度网络。这两种网络的发现,掀起了复杂网络的研究热潮。 2复杂网络的基本概念 2.1网络的定义 自随机图理论提出至今,在复杂网络领域提出了许多概念和术语。网络(Network)在数学上以图(Graph)来表示,图的研究最早起源于18世纪瑞士著名数学家Euler的哥尼斯堡七桥问题。复杂网络可以用图论的语言和符号精确简洁地加以描述。图论不仅为数学家和物理学家提供了描述网络的语言和研究的平台,而且其结论和技巧已经被广泛地移植到复杂网络的研究中。 网络的节点和边组成的集合。节点为系统元素,边为元素间的互相作用(关系)。若用图的方式表示网络,则可以将一个具体网络可抽象为一个由点集V和

移动社会网络的用户访问模型及应用研究(可编辑)

移动社会网络的用户访问模型及应用研究 分类号 !殴塑!垒 重庆邮电大学硕士学位论文 Modelof mobile 英文题目visiting People's 璺Q璺i垒!坠璺鲤Q£k垒塾堕i!璺垒卫卫!i£垒鱼Q望 论.文提交日期

至Q!墨!鱼!鱼论文答辩日期幽.氯25 日 年月 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得重庆邮电太堂或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意。

学位论文作者签名:声辱、 签字醐:弦f,年厂月下 学位论文版权使用授权书 本学位论文作者完全了解有关保留、使用学位论文的规 重迭邮电盔堂 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。本人授权可以将学位论文的全部或部分内容编入有关 重废由&电太堂 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、

汇编学位论文。 保密的学位论文在解密后适用本授权书 刷程名. 沁 学位敝作者答名:膨 、像 签字吼矽f;年岁月叶日 签字吼邳年多月下 摘要 摘要

移动社会网络兼具移动属性与社会属性,具有轻量级、移动性、一站式平台服 务、贴近用户及基于位置服务的特性,呈现出良好的发展态势,有着广阔的用户市 场与盈利空间。针对移动社会网络的学术研究,尤其是用户网络行为方面的研究对 于其网络优化、业务营销推广、用户行为预测及网络安全等具有难以估量的价值。 移动社会网络在近几年才开始发展,其网络架构、通信流程、用户访问模式、 内容资源及相关业务应用等都与传统的Intemet社会网络存在很大的差别,其用户 群体行为规律与流量特性也存在较大差异。目前关于传统社会网络的用户与网络行 为的研究相对成熟,而关于移动社会网络的用户与网络行为的研

开源软件的复杂网络分析及建模

第4卷第3期 复杂系统与复杂性科学 Vol.4No.3 2007年9月 C OMP LEX SYSTE M S AND COM P LEX I TY SC I E NCE Sep.2007 文章编号:1672-3813(2007)03-0001-09 开源软件的复杂网络分析及建模 郑晓龙,曾大军,李慧倩,毛文吉,王飞跃,戴汝为 (中国科学院自动化研究所复杂系统与智能科学重点实验室,北京100080) 摘要:开源软件现在变得越来越复杂。把开源软件看作复杂网络并进行研究,有助 于更好地理解软件系统。同时,开源软件是一种较为复杂的人工系统,通过对它们 的研究也可以推动复杂网络理论的应用。以一种基于源代码包的L inux操作系 统———Gent oo L inux操作系统为研究对象,我们把该系统中的软件包抽象成节点, 软件包之间的依赖关系抽象成边,以此建立复杂网络,并对其进行了分析。发现已 有模型不能很好地描述与预测Gent oo网的演化过程,因此,提出了一种新的演化模型。在该模型中,网络现有节点连接新节点的概率不但与现有节点的度有关系,而且也受到现有节点“年龄”的影响。还通过计算机仿真实验把仿真数据与Gent oo真实数据进行了比较,结果显示,新模型更为适合Gent oo网。 关键词:复杂网络;Gent oo;聚集系数;度分布;模型 中图分类号:N94;TP393;TP31文献标识码:A Ana lyz i n g and M odeli n g O pen Source Software a s Co m plex Networks ZHENG Xiao2l ong,ZENG Da2jun,L I Hui2qian,MAO W en2ji,WANG Fei2yue,DA I Ru2wei (The Key Laborat ory of Comp lex Syste m s and I ntelligence Science,I nstitute of Aut omati on, Chinese Academy of Sciences,Beijing100080,China) Abstract:Soft w are syste m s including those based on open2s ource code are becom ing increasingly com2 p lex.Studying the m as comp lex net w orks can p r ovide quantifiable measures and useful insights fr om the point of vie w of s oft w are engineering.I n the mean while,as one of the most comp lex man2made artifacts, they p r ovide a fruitful app licati on domain of comp lex syste m s theory.I n this paper,we analyze one of the most popular L inux meta packages/distributi ons called the Gent oo syste m.I n our analysis,we model s oft2 ware packages as nodes and dependencies a mong the m as arcs.Our e mp irical study shows that the resul2 ting Gent oo net w ork can not be exp lained by existing random graph models.This motivates our work in devel op ing a ne w model in which ne w nodes are connected t o old nodes with p r obabilities that depend not only on the degrees of the old nodes but als o the“ages”of these nodes.Thr ough si m ulati on,we de mon2 strate that our model has better exp lanat ory power than the existing models. Key words:comp lex net w orks;Gent oo;cluster coefficient;degree distributi on;model 收稿日期:2007-08-23 基金项目:国家自然科学基金委基金(60621001,60573078);科技部973项目(2006CB705500,2004CB318103);中国科学院、国家外国专家局,创新团队国际合作伙伴计划(2F05N01) 作者简介:郑晓龙(1982-),男,安徽人,博士研究生,研究方向为复杂网络与数据挖掘。

相关文档
最新文档