安全博弈论 - 首页-中国计算机学会信息网

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

安　波

中国科学院计算技术研究所

安全博弈论

瑞典皇家科学院决定把2012年诺贝尔经济学奖颁发给哈佛大学的阿尔文·罗斯（Alvin E.Roth ）教授和加州大学洛杉矶分校的罗伊德·沙普利（Lloyd S.Shapley ）教授，以表彰他们在基于博弈论的稳定配置理论及市场设计实践上所作的贡献。自从1994年博弈论专家海萨尼（John Harsanyi ）、纳什（John Nash ）和泽尔滕（Reinhard Selten ）被授予诺贝尔经济学奖以来，18年中诺贝尔经济学奖6次钟情博弈论的研究。博弈论为何如此受到偏爱呢？直接原因就是传统宏观经济学理论和模型对经济危机预见的屡屡失灵和危机治理方面的乏力。而博弈论关注宏观决策中常常被忽视的个体相互之间的作用机制，关注经济演变的过程而不是结果，为经济学提供了更广阔的视角和更加科学的方法。博弈论的理论研究已经取得了很大突破，并广泛应用于包括经济学在内的很多科学领域。过去几年，博弈论在安全领域的资源分配及调度方面的理论——安全博弈论逐渐建立并且在若干领域得到成功应用。

安全领域的资源分配及博弈模型

保护关键公共基础设施和目标，如机场、港口、历史名胜、发电设施、政治人物，甚至珍稀动物和自然资源等，是各国安全机构面临的一项极具挑战性的任务。有限的安全资源使得安全机构不可能在任何时候都提供全面的安全保护。此外，安全部门的对手（如恐怖分子、罪犯）可以通过观察来发现安全机构的保护策略的固定模式和弱点，并据

关键词：博弈论　安全领域　资源分配

此来选择最优的攻击策略。一种降低对手观察侦查能力的方式是随机调度安全部门的保护行为，如警察巡逻、行李检测、车辆检查以及其他安全程序。然而，安全部门在进行有效的随机安全策略调度时面临许多困难[1]，特别是有限的安全资源不能无处不在或者每时每刻提供安全保护。安全领域资源分配的关键问题是如何找出有限的安全资源最优配置方案，以获取最佳的安全保护方案。

博弈论提供了一个恰当的数学模型来研究有限的安全资源的部署，以最大限度地提高资源分配的有效性。尽管安全博弈模型是基于20世纪30年代的Stackelberg 博弈模型，但它是一个相对年轻的领域，是在科尼策（Conitzer ）和桑德霍尔姆（Sand-h o l m ）2006年的经典论文[2]发表后迅速发展起来的。安全博弈论初期研究的主要参与者包括南加利福尼亚大学米兰·丹部（Milind Tambe ）教授领导的TEAMCORE 研究小组以及杜克大学维森特·科尼策（Vicent Conitzer ）教授领导的研究小组，现在越来越多的学者参与到这项研究中。相关的论文广泛发表于人工智能领域的顶级会议AAMAS 、AAAI 和IJCAI ，安全博弈论的研究已经成为当前人工智能研究的热点之一。

经典的Stackelberg 博弈模型通常有一个领导者和一个跟随者。参与者可以是个人也可以是警察部队这样的团体。每一位参与者都有其可以执行的行动集合，即纯策略集。混合策略允许参与者以某种概率选择不同纯策略。每位参与者的收益取决于所有参与者的纯策略组合。参与者混合策略的收益

是纯策略收益的期望。跟随者可以观察领导者的策略，然后采取行动来优化自身的收益。因此，Stackelberg博弈模型中跟随者的策略是针对领导者策略的最优回应。

在安全领域，安全部门必须保护有可能被攻击的目标，而攻击者（如恐怖分子）能够观察到安全部门的策略。因此，安全领域的博弈可以抽象为Stackelberg博弈，其中攻击者充当追随者的角色，安全部门充当领导者的角色。安全部门的行动包括巡逻行动或设置检查点，例如在机场设置检查点或者为一次航班安排一名空中警察。攻击者的行为可以是攻击某一个目标，例如攻击某个航站楼或某次航班。安全部门的策略通常是一个混合策略，即以

某个概率分布选择各种可能的行动或资源分配。

表1展示了一个简单安全博弈的收益矩阵。恐怖分子可以攻击任意一个目标，而安全部门只能保护一个目标。假如安全部门采用一个纯策略，而恐怖分子能够观测到安全部门的策略，那么恐怖分子的攻击总是能够成功。如果安全部门采用混合策略（如以50%的概率分别保护两个目标），则总能以一定的概率挫败恐怖分子的攻击。

安全博弈论的成功应用举例

过去几年，基于Stackelberg模型的安全博弈论已经被美国不同领域的安全机构所使用。下面，将举4个例子说明。

机场检查站的设置及巡逻调度

洛杉矶国际机场（L A X）是美国最大的目的地机场，每年的旅客流量在7000万左右。洛杉矶警方采取不同的措施来保护机场，包括设置车辆检查站、警察部队（警犬）在航站楼巡逻，安全筛选和检查乘客行李。安全博弈论应用主要考虑两方面的保护措施：（1）在进入机场的道路上设置车辆检查站，确定检查站的地点和检查时间；（2）制定警犬在洛杉矶国际机场8个航站楼之间的巡逻路线。这8个航站楼有不同的特性，如大小、载客量、客流量、国际与国内航班数量。这些因素导致8个航站楼有不同的风险评估结果。受到有限资源的约束，可设置的车辆检查站不足以覆盖所有机场入口，警犬队伍的数量也不足以覆盖所有的航站楼。因此，采取最佳方案分配资源提高效率才能避免因固定的部署模式带来的挑战。

基于贝叶斯Stackelberg博弈论的ARMOR系统[3]用于规划洛杉矶国际机场检查点的设置以及警犬的巡逻路线。以设置检查点为例，假设洛杉矶国际机场有n条进入机场的道路，警方在这n条道路上设置m（m

图1　警犬在洛杉矶国际机场巡逻

表1

　安全博弈矩阵

空中警察调度

美国联邦空中警察署（F A M S）负责将空中警察分配到始发地美国的航班上，以阻止潜在的攻击。空中警察的分配问题比ARMOR系统更具挑战：他们每天需要将数量有限的空中警察分配给成千上万的商业航班，空中警察的分配必须遵守各种类型的限制条件，如每一名空中警察需要飞回其基地，并满足起飞、降落、休息等很多时间上的约束。找出满足所有限制条件的最优随机调度策略是一项非常困难的任务。

在此背景下，T E A M C O R E研究小组开发了IRIS系统[4]，并于2009年10月开始为所有国际航班的空中警察进行调度。由于纯策略的资源分配数量随航班数量以及空中警察数量呈指数增长，DOBSS 算法无法求解最优空中警察调度策略。IRIS系统使用更快的ASPEN算法[6]产生出每天数千架商业航班的空中警察调度方案。IRIS系统同时使用基于属性的偏好启发方法来确定Stackelberg博弈模型的支付函数。

海岸警卫队的巡逻

美国海岸警卫队（USCG）的任务包括维持海上安全、港口安全以及内河航道的安全。由于恐怖主义和毒品走私的威胁，这些地方面临的风险日益增加。美国海岸警卫队通过巡逻的方式来保护港口的基础设施。然而，有限的安全资源使海岸警卫队无法随时随地保护所有重要设施，攻击者有了可乘之机。为了协助美国海岸警卫队的资源分配，TEAMCORE研究小组设计了基于Stackelberg博弈模型的PROTECT系统[5]。

开发PROTECT系统的目的是帮助美国海岸警卫队在执行保护港口、水路、和海岸安全（合称PWCS）时提高效率。对PWCS的巡逻着眼于保护重点设施，由于资源所限，任何设施都无法获得全天候的保护，因此对资源配置的优化就变得至关重要。PROTECT系统同时考虑攻击者的观测能力和不同设施的价值，输出美国海岸警卫队巡逻的日程表，包括什么时候开始巡逻，每次巡逻经过哪些目标区域，以及在每个目标区域里执行的巡逻活动。

PROTECT系统有很多创新点。首先，它不像以前的系统那样假设攻击者是完全理性的；第二，为了提高效率，系统在寻找均衡和最优解时采取了更加紧凑的方式来表示攻击者的策略空间；第三，PROTECT系统通过真实的数据来评价其性能。PROTECT模型正被拓展到纽约的港口，并且可能被更多的美国港口采用。

城市运输系统安全

一些城市的交通系统要求乘客自觉购票乘车，却没有采取强制措施。以洛杉矶地铁为例，它每天运送约30万乘客，但每年逃票带来的损失预计为560万美元。洛杉矶警察局（LASD）雇佣一些工作人员在列车上或者站台上检票。由于巡逻检票的工作人员数量较少，不可能覆盖所有的列车和站台，因此洛杉矶警察局需要一些机制来设计检票人员的巡逻路线。如果巡逻检票的调度策略有比较固定的模式，那么逃票者可能会观察到这个模式并且利用它来逃票。目前洛杉矶警察局依赖人工制定巡逻日程。但是由于人工制定的调度策略通常有固定模式，而且日程的制定需要考虑很多复杂的因素，比如列车运行时间、发车间隔、日程长度等，因此制定调度策略的人工负担很重。

TRUST系统[6]将地铁系统巡逻问题抽象成领导者-跟随者的Stackelberg 博弈。领导者（洛杉矶警

图2　PROTECT系统从2011年4月起在波士顿港应用