基于知识图谱的漏洞知识库构建方法与设计方案

合集下载

构建知识图谱的详细步骤

构建知识图谱的详细步骤

构建知识图谱的详细步骤研究方向是知识图谱,需要整理数据集,所以这里想简单分享一下构建知识图谱的完整步骤,也算记录一下我的学习进程!网上说的最多的知识图谱构建的步骤就是:知识抽取、知识融合、知识存储但是在这些步骤之前我们还要先完成“构建模式、概念本体设计” 两个步骤,所以完整的步骤就是:构建模式、概念本体设计、知识抽取、知识融合、知识存储接下来,根据上面的步骤结合我自己整理数据的经验,详细讨论一下构建知识图谱的过程1.本体构建构建模式和概念本体设计也就是本体的构建,本体的构建一般包括两种方式,有自顶向下和自底向上两种方式。

自顶向下是先设计本体构建层,再将结构化知识加入知识库中,即先模式后数据;自底向上是先从公开数据集选择一些置信度较高的信息加入知识库,然后构建本体模式层,即先数据后模式。

2. 知识抽取我们构建知识图谱最终要的就是数据集,但是结构化的数据很少,大多都是半结构化数据和非结构化数据,所以需要将这些数据转化为结构化的数据,也就是三元组(主体,关系/属性,客体)知识抽取是从非结构化文本中抽取出三元组,说白了知识抽取就是一个将非结构化数据转化为结构化数据的过程。

知识抽取一般分为两种,一种是先抽取实体后抽取关系的流水线式的方法,一种是同时抽取实体关系,简单介绍一下这两种方法。

流水线抽取方法:这种方法很简单明了,就是先完成对实体的抽取,再去抽取实体之间的关系,或者实体的属性,但是一旦实体出现错误,那对应的关系和属性也会出错,即容易产生联级错误;联合抽取方法:不再把实体抽取和关系抽取分为两个独立的子过程,用的最多的就是先抽取头实体,后同时抽取关系和尾实体。

3. 知识融合知识融合分为实体消歧和共指消解实体消歧是解决一个实体具有不同意义的问题,如“苹果”既指水果,又指“苹果”公司;共指消解是解决不同实体具有相同的意义,例如“西红柿”和“番茄”,也称实体对齐。

常用的实体对齐方法有:•基于统计机器学习方法•基于文本向量距离计算相似度•基于神经网路的方法4. 知识存储知识存储目前主要有两种:RDF和图数据库Neo4jRDF:以三元组的形式存储在关系数据库,搜索效率低,查询语言为SPARQL;Neo4j:图数据库以图的形式存储,支持高效的图查询和搜索,查询语言为Cypher。

知识图谱的构建方法

知识图谱的构建方法

知识图谱的构建方法知识图谱的概念,来自于语义网络,根据 W3C的解释,语义网络是一张数据构成的网络,语义网络技术向用户提供的是一个查询环境,其核心要义是以图形的方式向用户返回经过加工和推理的知识而知识图谱技术则是实现智能化语义检索的基础和桥梁.传统搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率,然而,这种网页检索效率并不意味着用户能够快速准确地获取信息和知识,对于搜索引擎反馈的大量结果,还需要进行人工排查和筛选.1 知识图谱的定义与架构1.1 定义知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系.其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构通过知识图谱,可以实现 Web 从网页链接向概念链接转变,支持用户按主题而不是字符串检索,从而真正实现语义检索,基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页,就可以准确定位和深度获取知识.定义包含3层含义1.知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库.从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边.由此,知识图谱是对物理世界的一种符号表达.2.知识图谱的研究价值在于,它是构建在当前 Web基础之上的一层覆盖网络,借助知识图谱,能够在Web 网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识.3.知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来1.2 知识图谱的架构知识图谱的架构,包括自身的逻辑结构和技术架构逻辑结构可分为2个层次:数据层和模式层数据层 : 知识以事实(fact)为单位存储在图数据库模式层在数据层之上,是知识图谱的核心。

知识图谱构建与应用的方法与经验总结

知识图谱构建与应用的方法与经验总结

知识图谱构建与应用的方法与经验总结随着大数据和人工智能等技术的迅猛发展,知识图谱作为一种有效的知识表示和获取方式,逐渐成为各行各业的研究热点。

知识图谱的构建与应用具有广泛的应用前景,可以帮助我们更好地组织、管理和利用知识。

本文将对知识图谱构建与应用的方法和经验进行总结和探讨。

一、知识图谱构建的方法与技术知识图谱的构建过程主要包括三个关键步骤:信息抽取、知识组织与表示、知识关联与推理。

对于不同领域的知识图谱构建,可以采用不同的方法和技术。

下面将介绍几种常见的知识图谱构建方法。

1.信息抽取信息抽取是知识图谱构建的第一步,其目的是从大量的文本和数据中抽取出结构化的信息。

常用的信息抽取技术包括命名实体识别(NER)、关系抽取、事件抽取等。

这些技术可以帮助实现对实体、属性和关系的自动识别和提取。

2.知识组织与表示知识组织与表示是知识图谱构建的核心环节,其目的是将抽取得到的信息进行合理的组织和表示,形成有语义丰富的知识图谱。

常用的知识组织与表示技术包括本体建模、概念分类、属性定义等。

本体建模可以帮助构建高度可扩展的知识图谱,概念分类可以帮助实现知识的层次化组织,属性定义可以帮助描述实体和关系的属性特征。

3.知识关联与推理知识关联与推理是知识图谱构建的最后一步,其目的是通过对知识图谱中的实体和关系进行关联和推理,从而构建知识之间的桥梁和逻辑关系。

常用的知识关联与推理技术包括实体关联、关系推理、逻辑推理等。

实体关联可以帮助发现实体之间的共现关系,关系推理可以帮助发现隐含的关系,逻辑推理可以帮助实现知识的推理和推断。

二、知识图谱应用的方法与经验知识图谱的应用领域非常广泛,包括搜索引擎、智能问答、智能推荐、信息推送等。

下面将介绍几种常见的知识图谱应用方法和经验。

1.搜索引擎知识图谱可以通过提供丰富的实体、属性和关系信息来改进传统搜索引擎的用户体验。

例如,在搜索结果页面显示相关实体信息和属性信息,提供更多的上下文信息和相关推荐。

基于知识图谱的电力设备故障知识库构建方法

基于知识图谱的电力设备故障知识库构建方法
1、提高故障诊断和预测的准确性:通过对电力设备故障相关数据的分析和学 习,结合知识图谱的推理能力,可以快速准确地诊断和预测设备故障,有效降 低设备维修成本和停机时间。
2、促进知识共享和传承:电力设备故障知识库可以为不同领域的专家提供一 个交流平台,方便他们分享故障处理经验、维修技巧等知识,有利于知识的传 承和共享。
结果与讨论
通过构建电网故障处置知识图谱,本研究实现了以下目标:首先,对电网故障 处置知识进行了全面的梳理和分类,形成了完整的知识体系;其次,利用知识 图谱技术实现了故障处置知识的自动化表示和推理,提高了故障诊断和处置的 效率;最后,本研究为电网安全管理提供了新的思路和方法,有助于提高电力 行业的安全性和稳定性。
4、知识表示和存储
知识表示是将从文本中抽取的知识以图形化的方式呈现出来,例如采用三元组、 属性图等表示方式。同时,还需要将抽取的知识存储到知识库中,以便后续的 查询和使用。在知识图谱中,通常采用图数据库来存储和查询知识图谱,例如 Neo4j、JanusGraph等。
5、应用开发
最后,开发相关的应用来展示和使用知识图谱。具体来说,可以通过可视化技 术将知识图谱呈现给用户,例如采用图形化界面或者API等方式来展示知识图 谱中的信息和知识。同时,还可以将知识图谱应用于智能问答、推荐系统等领 域,提高应用的智能化水平和服务质量。
基于知识图谱的电力设备故障知识库构 建方法
目录
01 一、知识图谱与电力 设备故障知识库
二、构建电力设备故
02 障知识库的方法和步 骤
03 三、电力设备故障知 识库应用案例分析
04 四、未来展望
05 参考内容
随着电力设备的不断普及和应用,设备故障带来的影响也日益显著。为了有效 管理和解决电力设备故障问题,基于知识图谱的电力设备故障知识库构建方法 逐渐成为研究热点。本次演示将介绍知识图谱和电力设备故障知识库的基本概 念、构建方法以及未来发展趋势。

知识图谱构建方法及应用案例分析

知识图谱构建方法及应用案例分析

知识图谱构建方法及应用案例分析知识图谱是一种用于表示和组织知识的图形化模型,它能够以计算机可读的方式捕捉和存储知识之间的关系。

知识图谱的广泛应用领域包括社交网络分析、智能推荐系统、自然语言处理和智能问答等。

本文将介绍知识图谱的构建方法,并通过分析几个实际应用案例,展示其在不同领域的应用。

一、知识图谱构建方法1.1 知识抽取知识抽取是构建知识图谱的第一步。

它涉及从结构化和非结构化数据源中提取实体、关系和属性等知识元素。

常用的知识抽取技术包括命名实体识别、关系抽取、实体链接和属性抽取等。

命名实体识别通过识别文本中的名词短语来提取实体。

关系抽取旨在提取实体之间的关联性。

实体链接将命名实体与外部知识库中的实体关联起来。

属性抽取则是提取待建立知识图谱的实体的属性值。

1.2 知识表示知识表示是将抽取得到的知识元素转换为计算机可读的形式。

常用的知识表示方法包括本体模型和图模型。

本体模型利用概念、关系和属性等元素描述领域知识,其中OWL(Web Ontology Language)是一种常用的本体语言。

图模型则通过节点和边来表示实体和关系,例如利用图数据库来存储知识图谱。

1.3 知识融合知识抽取和知识表示往往面临多源、异构的数据。

知识融合旨在将来自不同数据源的知识元素进行整合和融合。

常用的知识融合方法包括同名实体消歧、关系合并和属性值归一化等。

同名实体消歧是为了解决不同数据源中同名实体的问题,通常通过上下文信息和实体属性来判断实体是否指代同一对象。

关系合并则是将来自不同数据源的关系进行合并。

属性值归一化是将不同数据源中的相似属性值进行统一,例如统一单位和单位转换。

1.4 知识推理知识推理是根据知识图谱中的已有知识,推断出潜在的知识或发现隐藏的关联。

常用的知识推理方法包括基于规则的推理、概率推理和统计推理等。

基于规则的推理通过设定规则,推断出新的知识。

概率推理通过概率模型计算不同事件之间的概率关系。

统计推理则是利用统计模型对数据进行分析和推理。

基于知识图谱技术的电力设备缺陷记录检索方法

基于知识图谱技术的电力设备缺陷记录检索方法

基于知识图谱技术的电力设备缺陷记录检索方法一、本文概述在当今电力系统管理中,电力设备的缺陷记录检索对于确保电网安全、稳定运行具有至关重要的作用。

随着信息技术的发展,知识图谱技术作为一种新兴的数据管理与分析工具,正逐渐在电力设备缺陷记录检索领域展现出其独特的优势。

本文旨在探讨如何利用知识图谱技术优化电力设备缺陷记录的检索过程,提高检索的效率和准确性。

本文首先对电力设备缺陷记录检索的背景和现状进行了详细的分析,指出现有检索系统存在的主要问题,如检索效率低、准确性不高等。

随后,本文重点介绍了知识图谱技术的原理和应用,以及其在电力设备缺陷记录检索中的潜在价值。

文章进一步提出了基于知识图谱技术的电力设备缺陷记录检索方法的整体框架,包括数据预处理、知识图谱构建、查询处理和结果呈现等关键步骤。

本文还通过实验验证了所提出方法的有效性。

实验结果表明,与传统的检索方法相比,基于知识图谱技术的电力设备缺陷记录检索方法在检索效率、准确性和用户友好性方面均有显著提升。

本文的研究不仅为电力设备缺陷记录检索提供了一个新的技术途径,同时也为知识图谱技术在电力系统管理领域的应用提供了有益的参考和实践案例。

二、知识图谱技术基础知识图谱(Knowledge Graph)作为一种结构化的数据表达模型,通过实体关系属性三元组的形式来组织和存储世界上的各种事实和信息。

在电力设备缺陷记录管理领域,知识图谱技术可以将复杂的设备信息、运行状态、缺陷类型以及维修历史等多元异构数据整合成一张相互关联的知识网络。

每个电力设备被视为一个实体,其关键属性如设备型号、生产厂家、安装时间等作为实体的属性值而设备之间的关系如连接关系、依赖关系等则通过预定义的关系类型加以描述。

设备的缺陷记录则表现为实体间的特殊事件或状态变化,其中包含了缺陷发生的时间、位置、原因分析、处理措施等相关信息。

知识图谱的优势在于能够利用语义关联性提高数据检索的准确性和效率。

在电力设备缺陷记录检索场景下,基于知识图谱技术可以实现快速定位设备历史缺陷模式、关联相似故障案例,并通过推理机制预测潜在风险,从而为设备维护决策提供有力的数据支撑。

知识图谱构建方法和应用指南

知识图谱构建方法和应用指南

知识图谱构建方法和应用指南知识图谱是一种基于语义关联的知识表示方法,它可以将信息与概念之间的关联关系以图形化的方式展示出来,为人们建立自动化智能系统提供了有力的支持。

本文将介绍知识图谱的构建方法和应用指南。

一、知识图谱构建方法1. 数据收集与清洗在构建知识图谱之前,首先需要收集相关领域的数据,并进行数据清洗。

数据来源可以包括结构化数据、半结构化数据以及非结构化数据,如各类数据库、网页、文本文档等。

数据清洗的过程包括去重、去噪、格式转换等,确保构建的知识图谱数据质量高。

2. 实体识别与属性抽取接下来,需要对数据进行实体识别和属性抽取。

实体识别是指从文本中识别出具体的事物,如人物、地点、组织等。

属性抽取是指从文本或其他数据中提取出与实体相关的属性信息,如人物的姓名、年龄、职业等。

这一步骤可以采用自然语言处理技术,如命名实体识别、关系抽取等。

3. 关系抽取与链接知识图谱的核心是实体之间的关联关系,因此需要进行关系抽取和链接。

关系抽取是指从文本或其他数据中提取出实体之间的关联信息,如人物之间的亲属关系、地点之间的空间关系等。

关系链接是指将不同数据源中的实体进行关联,从而构建起完整的知识图谱。

4. 知识表示与存储构建完成的知识图谱需要进行知识表示和存储。

知识表示是指将知识以适合机器处理的方式进行表示,如采用图形结构、语义网络等形式。

知识存储是指将知识图谱存储在数据库或其他存储介质中,以供后续的查询和应用使用。

二、知识图谱的应用指南1. 智能问答系统知识图谱可以为智能问答系统提供基础知识库,使其能够从知识图谱中获取准确、全面的信息,为用户提供精准的答案。

通过对知识图谱的查询和推理,智能问答系统可以实现更高效、更智能的问答功能。

2. 信息检索与推荐知识图谱能够为信息检索和推荐系统提供语义关联的支持,帮助用户快速找到所需信息。

通过将搜索关键词与知识图谱中的实体和关系进行匹配,可以提高检索结果的准确性和相关性。

同时,基于知识图谱的推荐系统可以根据用户的兴趣和上下文信息,为其推荐个性化的内容。

基于知识图谱的网络安全漏洞智能检测系统设计

基于知识图谱的网络安全漏洞智能检测系统设计

计算机测量与控制!"#"$!%"!%"!!"#$%&'()'*+%('#',&-!",&(".!!#,%!#收稿日期 "#"%#*#"$!修回日期 "#"%#)&*%基金项目 陕西省教育厅"#""年度一般专项科研计划项目!""+^#&)%"%作者简介 杜艺帆!&)**"&女&硕士研究生&助教%丛红艳!&)',"&女&博士生&教授%引用格式 杜艺帆&丛红艳!基于知识图谱的网络安全漏洞智能检测系统设计'+(!计算机测量与控制&"#"$&%"!%"),%'#!文章编号 &,'&$()* "#"$ #%##,%#*!!-./ &#!&,(", 0!1234!&&5$'," 67!"#"$!#%!#&#!!中图分类号 89%&&!!文献标识码 :基于知识图谱的网络安全漏洞智能检测系统设计杜艺帆& 丛红艳"!&_西北大学现代学院&西安!'&#&%#$"_西安工程大学新媒体艺术学院&西安!'&##$*"摘要 网络安全漏洞智能检测需要依赖大量的真实数据来进行分析&冗余数据与异常数据的存在会导致检测准确性下降$为保障网络系统稳定运行&提出基于知识图谱的网络安全漏洞智能检测系统设计研究$从结构*逻辑模型以及运行模式%个方面设计网络安全漏洞检测器&实现网络安全漏洞智能检测系统硬件设计$系统软件设计通过网络爬虫采集安全漏洞数据&去除冗余数据与异常数据&根据属性信息识别安全漏洞实体&获取安全漏洞属性信息关系&以此为基础&定义安全漏洞知识图谱表示形式&设计安全漏洞知识图谱结构&从而实现安全漏洞知识图谱的构建与可视化$以上述网络设计结果为依据构建网络安全漏洞智能检测整体架构&制定网络安全漏洞智能检测具体流程&从而获取最终网络安全漏洞智能检测结果$实验结果表明&在不同实验工况背景条件下&设计系统应用后的网络安全漏洞漏检率最小值为&_"%i&网络安全漏洞检测[&值最大值为)_(#&网络安全漏洞检测响应时间最小值为&O L&证实了设计系统的安全漏洞检测性能更佳%关键词 网络安全$智能化$漏洞挖掘$知识图谱$漏洞检测F'+57,"1L,&'..57',&F'&'<&5",/0+&'#1"(S'&>"(T/'<%(5&0N%.,'(*;5.5&5'+P*+'8",=,">.'87'[(*$:->c4M H2&&T.D E F J2B P H2"!&_;1@J J I J M=J R A N2&D J N6@V A L6>24S A N L46P&K4j H2!'&#&%#&T@42H$"_;1@J J I J MD A V=A R4H:N6&K4j H2>24S A N L46P J M8A1@2J I J B P&K4j H2!'&##$*&T@42H"9;+&(*<&)8@A426A I I4B A26R A6A164J2J M2A6V J N3L A1G N46P S G I2A N H W4I464A L N A I4A LJ2H I H N B AH O J G26J M N A H I R H6H M J N H2H I P L4L&H2RN A5 R G2R H26H2RH W2J N O H I R H6H1H2I A H R6J H R A1N A H L A42R A6A164J2H11G N H1P!/2J N R A N6J A2L G N A6@A L6H W I A J7A N H64J2J M2A6V J N3L P L6A O L&H 2A6V J N3L A1G N46P S G I2A N H W4I46P426A I I4B A26R A6A164J2L P L6A OR A L4B2W H L A R J232J V I A R B A B N H7@4L7N J7J L A R!8@A2A6V J N3L A1G N46P S G I2A N5H W4I46P R A6A16J N M N J O6@N A A H L7A16L J M6@A L6N G16G N A&I J B41H IO J R A I&H2RJ7A N H64J2O J R A4LR A L4B2A R6JH1@4A S A6@A@H N R V H N AR A L4B2J M6@A426A I I4B A262A6V J N3L A1G N46P S G I2A N H W4I46P R A6A164J2L P L6A O!8@A L P L6A OL J M6V H N A R A L4B21J I I A16L L A1G N46P S G I2A N H W4I46P R H6H6@N J G B@ V A W1N H V I A N L&N A O J S A L N A R G2R H26R H6H H2R H W2J N O H I R H6H&4R A264M4A L L A1G N46P S G I2A N H W4I46P A26464A L H11J N R42B6J H66N4W G6A42M J N O H64J2& H2RJ W6H42L L A1G N46P S G I2A N H W4I46P H66N4W G6A42M J N O H64J2N A I H64J2L@47L!Z H L A RJ26@4L&46R A M42A L6@A N A7N A L A26H64J2M J N OJ M6@A L A1G N46P S G I2A N H W4I46P32J V I A R B A B N H7@&R A L4B2L6@A L A1G N46P S G I2A N H W4I46P32J V I A R B A B N H7@L6N G16G N A&H2R6@A1J2L6N G164J2H2R S4L G H I4U H64J2J M L A1G N46P S G I2A N H W4I46P32J V I A R B A B N H7@H N A N A H I4U A R$Z H L A RJ26@A H W J S A2A6V J N3R A L4B2N A L G I6L&H2J S A N H I I H N1@46A16G N A M J N426A I I4B A26 R A6A164J2J M6@A2A6V J N3L A1G N46P S G I2A N H W4I464A L4L1J2L6N G16A R6JR A S A I J76@A L7A14M417N J1A L L M J N6@A426A I I4B A26R A6A164J2J M6@A2A65 V J N3L A1G N46P S G I2A N H W4I464A L&H2RJ W6H426@A M42H I426A I I4B A26R A6A164J2N A L G I6L J M6@A2A6V J N3L A1G N46P S G I2A N H W4I464A L!8@A A Y7A N4O A25 6H I N A L G I6L L@J V6@H6G2R A NR4M M A N A26A Y7A N4O A26H I1J2R464J2L&6@AO424O G O2A6V J N3L A1G N46P S G I2A N H W4I46P R A6A164J2N H6AJ M6@AR A5 L4B2A RL P L6A OH M6A N H77I41H64J24L&_"%i&6@AO H Y4O G O[&S H I G A J M6@A2A6V J N3L A1G N46P S G I2A N H W4I46P R A6A164J24L)_(#&H2R6@AO4245 O G ON A L7J2L A64O A J M6@A2A6V J N3L A1G N46P S G I2A N H W4I46P R A6A164J24L&O L&1J2M4N O42B6@H66@A R A L4B2A R L P L6A O@H L H J764O H I L A1G N46P S G I2A N H W4I46P R A6A164J27A N M J N O H21A!='0>"(8+)2A6V J N3L A1G N46P$426A I I4B A21A$S G I2A N H W4I46P O4242B$32J V I A R B A B N H7@$S G I2A N H W4I46P R A6A164J2!引言网络的飞速发展为人们生产与生活带来了极大的便利&但与此同时网络病毒传播速度也随之加快&网络安全问题日益严重%安全漏洞是造成网络安全问题的关键所在&其主要来源于网络系统脆弱性%随着网络的不断发展与普及&其在人们生产与生活中占据的地位逐渐上升&网络病毒也随之快速传播&网络安全正在经受着前所未有的威胁%若是网络安全防御措施不足&就会受到非法侵入&致使网络!投稿网址 V V V!0L01I P3U!1J O!!计算机测量与控制!第%"""""""""""""""""""""""""""""""""""""""""""""""""""""卷#,$!#关键信息被篡改*偷窃等&严重会造成网络系统的瘫痪&造成较大的经济损失&威胁国家与大众的信息与财产安全%由此可见&如何保障网络安全具有至关重要的现实意义%通过调查研究发现&目前制约网络发展的最大问题就是安全问题&由于网络本质上是,无政府-的公用平台&任何人均可以自由登陆&使得网络安全保障具备较多的不确定因素!漏洞"&为黑客提供了可乘之机%网络安全问题主要来源于系统的脆弱性&主要表现在管理脆弱性*技术脆弱性与系统脆弱性%其中&管理脆弱性主要发生在网络系统安全策略制定*实施*配置与控制过程中$技术脆弱性主要发生在硬件与软件设计过程中$系统脆弱性主要发生在安全防护设备运行过程中%由于上述网络系统脆弱性的存在&使得网络具有较多的安全漏洞&使得别有用心的人可以通过安全漏洞在未授权背景下访问或者破坏网络系统&对网络安全造成极大的威胁%任何网络安全问题均是由安全漏洞引起的&对其进行精准检测是提升网络安全的根本手段%网络安全漏洞检测是一个动态的过程&并且其难度会随着网络覆盖范围的扩大而增加%相较于发达国家来看&中国对于网络安全漏洞检测的研究较晚&但也取得了一定的研究成果%文献'&(在感知网络整体安全态势的基础上&应用黑盒遗传算法进行相应的模糊测试&选取适当的目标函数与测试参数&测试停止后输出结果即为网络安全漏洞检测结果$文献'"(应用数据预处理模块与协同分析模块对网络安全漏洞信息进行预处理与分析&以此为基础&利用D 5B N H O 算法匹配漏洞信息与已知的漏洞特征&从而实现网络安全漏洞的检测$文献'%(使用被动分簇算法明确簇首与网关节点&利用:[<模糊检测工具过采样安全漏洞样本&结合前向反馈网络和支持向量机构建安全漏洞判别模型&将待检测网络运行数据代入到判别模型中&输出结果即为网络安全漏洞检测结果%上述安全漏洞检测系统虽然能够实现安全漏洞检测功能&但是由于应用手段的自身缺陷&均存在着安全漏洞检测效果较差的问题&无法满足网络系统的发展需求&故提出基于知识图谱的网络安全漏洞智能检测系统设计研究%现有安全漏洞数据库具有信息单一*数据分散*数据结构各异等缺点&这是影响安全漏洞检测效果的关键因素%知识图谱的出现可以有效解决上述问题&其能够根据海量的安全漏洞信息构建安全漏洞知识图谱&对安全漏洞信息进行聚合分析&挖掘安全漏洞关联信息&可以为安全漏洞检测提供更多的信息支撑&从而提升安全漏洞检测整体性能%@!网络安全漏洞智能检测系统硬件设计作为网络安全漏洞智能检测系统的关键硬件&检测器主要由管理器*检测单元*通信器等部件构成&为了提升网络安全漏洞检测的精准度&对检测器结构*逻辑模型与运行模式进行合理*科学地设计&具体设计过程如下所示%@B @!网络安全漏洞检测器结构设计网络安全漏洞检测器结构如图&所示%图&!网络安全漏洞检测器结构示意图如图&所示&在设计的网络安全漏洞检测器结构中&通信器主要承担着安全漏洞数据*漏洞报表*控制指令*网络邮件等的传递任务&与用户*服务器*控制器等进行直接连接&可以实时将安全漏洞检测结果传输给用户与服务器&也可以实时将用户控制指令传输给控制器&保障设计系统的通信顺畅'$(%通信器上述功能主要是在Z ;-;J 135A 6的支撑下实现的&还需要遵循一定的数据格式与传输规则&其基础运作原理为;J 13A 6:9/函数&具体调用方案需要根据实际情况来制定'((%管理器主要作用于检测单元&决定着安全漏洞检测任务执行过程中检测单元如何调度&是检测器中的核心部件%管理器功能实现的关键是配置文件&其中记录了检测单元信息*系统访问权限信息等%当网络系统安全漏洞检测单元增加时&配置文件中也需进行相应的记录%另外&管理器与通信器*检测单元均是直接连接的&用于接收用户反馈的控制指令与检测单元的安全漏洞信息%当管理器接收到通信器传输的控制指令时&先对控制指令进行解译&再以此为基础制定检测单元的控制动作',(%当管理器接收到检测单元传输的安全漏洞信息时&不需要对其进行解译与分析&只需要将其直接转发给通信器即可%检测单元是网络安全漏洞检测器的基石&是实现网络安全漏洞智能检测功能的程序实体%标准情况下&一个检测单元对应着一种网络安全漏洞的检测&检测单元之间保持着相互独立的关系%若是存在新的安全漏洞&则应该采用9`\<语言对新的检测单元进行编制与添加%单一检测单元主要由注册部分*检测部分与卸载部分构成&其管理难度较低&只需要在安装过程中向管理器配置文件进行备份即可%上述过程完成了网络安全漏洞检测器结构的设计&并对构成部件进行了详细地描述与介绍&为检测器功能的实现奠定基础%@B A !网络安全漏洞检测器逻辑模型设计逻辑模型是网络安全漏洞检测器功能实现的主要依据&故此节在用户*网络系统*漏洞检测等多方需求背景下&设计网络安全漏洞检测器逻辑模型&具体如图"所示%!投稿网址 V V V!0L 01I P3U !1J O第%期杜艺帆&等)""""""""""""""""""""""""""""""""""""""""""""""""""""基于知识图谱的网络安全漏洞智能检测系统设计#,(!#图"!网络安全漏洞检测器逻辑模型示意图如图"所示&网络安全漏洞检测器逻辑模型主要由%个部分构成&分别为用户界面部分*检测调度部分与漏洞检测部分%其中&用户界面部分秉持着简洁易用的原则&为用户提供多种类型的操作方式&满足不同用户的需求%用户可以通过浏览器查询到网络安全漏洞检测结果及其相关信息''(%与此同时&高级用户还能根据自身需求对漏洞检测程序进行更改与完善&以此来提升网络安全漏洞检测整体性能%检测调度部分主要是基于安全漏洞数据库与网关传输漏洞检测请求来确定检测目标网络及其其他需求&制定检测单元调度策略&并将其传输给漏洞检测部分&为漏洞检测提供指导作用%漏洞检测部分主要是通过分布式检测单元对目标网络系统存在的安全漏洞进行检测*识别与预警&与此同时&判定目标网络系统的脆弱性等级&给出相应风险防范措施%根据不同网络用户的需求&编制不同形式的安全漏洞检测报告&并将其反馈给网络安全管理员&其收到反馈结果后&制定相应的安全漏洞补救措施&以保证网络系统的稳定运行&为用户提供更优质的网络环境%@B C !网络安全漏洞检测器运行模式设计常规情况下&检测器运行模式主要有两种&分别为单机检测模式与T +;模式%当检测器运行模式处于单机检测模式时&只需要管理员对相关参数进行合理配置&即可实现检测器的本地运行&判定网络系统是否存在安全漏洞%需要注意的是&检测器单机检测模式不涉及与服务器的通信过程$当检测器运行模式处于T +;模式时&涉及与服务器的通信过程&只有接收到服务器检测指令后才开启漏洞检测单元&漏洞检测结果通过通信方式反馈给网络系统&并将其存储于相应文件中&为后续安全漏洞检测结果查询提供便利'*(%在漏洞检测指令完成后&继续进入监控模式&直到网络用户下线为止%上述两种运行模式优势与缺陷并存&无法为检测器的稳定运行提供支撑%因此&此研究融合两种运行模式的优势部分&设计新的网络安全漏洞检测器运行模式&具体如图%所示%图%!网络安全漏洞检测器运行模式设计图如图%所示&通过单机检测模式与T +;模式的有效结合&可以增加网络安全漏洞检测器运行的安全性以及可靠性')(%上述过程从结构*逻辑模型与运行模式%个方面出发完成了网络安全漏洞检测器的设计&为最终安全漏洞智能检测的实现提供有力的硬件支撑%A !网络安全漏洞智能检测系统软件功能实现A B @!网络安全漏洞知识图谱构建安全漏洞知识图谱可以表示安全漏洞*网络实体*相关属性等之间的复杂关联关系&对其进行构建可以为后续网络安全漏洞检测提供更多的信息支撑&具体构建过程如下所示%"_&_&!安全漏洞数据采集与预处理安全漏洞数据采集与预处理是安全漏洞知识图谱构建的首要环节'&#(&也是至关重要的环节%常规情况下&安全漏洞数据主要以非结构化文本形式存在&例如D ]-*T ]`等漏洞数据库&每个漏洞数据库存储的数据种类存在着较大的差异性'&&(&使得安全漏洞数据表现形式*存储位置较为随机&为安全漏洞数据采集带来了较大的困难'&"(%针对上述安全漏洞数据特点&此研究选取网络爬虫对安全漏洞数据进行采集&具体如图$所示%以图$所示程序对网络安全漏洞数据进行采集&并将其整合为集合形式&记为("1)&&)"&/&)>2&其中&>表示的是网络安全漏洞数据的总数量%网络爬虫在安全漏洞数据采集过程中&容易受到网络环境*恶意程序等干扰&致使安全漏洞数据存在着冗余*层次逻辑混乱*异常等现象&不利于安全漏洞知识图谱的构建&故在安全漏洞知识图谱构建之前&需要对网络安全漏洞数据进行一定的预处理'&%(%计算网络安全漏洞数据集合中任意两个数据之间的相似度&表达式为%!)*&)+"")*A )+)*B )+B &!!&"式中&%!)*&)+"表示的是安全漏洞数据)*与)+之间的相似度$)*A )+表示的是安全漏洞数据)*与)+的交集$)*B )+!投稿网址 V V V!0L 01I P3U !1J O!!计算机测量与控制!第%"""""""""""""""""""""""""""""""""""""""""""""""""""""卷#,,!#图$!基于网络爬虫的安全漏洞数据采集程序图表示的是安全漏洞数据)*与)+的并集$&!表示的是安全漏洞数据相似度计算辅助参数&取值范围为#%&&需要根据网络安全状态实际情况进行科学地设置%以公式!&"计算结果%!)*&)+"为基础&判定安全漏洞数据是否为冗余数据&判定规则如下式所示)%!)*&)+""&)*&)+为冗余数据&删除其中一个%!)*&)+">&)*&)+为正常数据&1保留两个数据!""安全漏洞异常数据检测与删除也是其预处理中的关键所在'&$(%安全漏洞异常数据检测因子计算公式为)6-")*#0)1)!%"式中&6-表示的是安全漏洞异常数据检测因子$0)表示的是安全漏洞数据的平均值$1)表示的是安全漏洞数据的标准差数值%以公式!%"计算结果6-为基础&判定安全漏洞数据是否为异常数据&判定规则如下式所示)U 6-U (&)*为异常数据U 6-U &)*1为正常数据!$"式中&U 6-U 表示的是安全漏洞异常数据检测因子6-的绝对值%将检测到的冗余数据与异常数据进行删除处理&并将剩余数据进行重新整合&即可获得预处理后的网络安全漏洞数据集合&记为(W "1)W &&)W "&/&)W G 2&其中&G 表示的是预处理后网络安全漏洞数据的总数量'&((%上述过程完成了安全漏洞数据的采集与预处理&并获得了最终的网络安全漏洞数据集合(W "1)W &&)W "&/&)W G 2&为后续安全漏洞知识图谱实体的识别奠定坚实的基础%"_&_"!安全漏洞知识图谱实体识别安全漏洞知识图谱实体识别主要是针对安全漏洞实体进行识别&是知识图谱构建的主要依据之一%在网络运行实际情况下&每个安全漏洞均具备独一无二的/-&其对应的属性信息也存在着较大的差异性%由此可见&能够根据属性信息对安全漏洞知识图谱实体进行精准识别%常规情况下&安全漏洞属性信息主要包括漏洞风险数值*漏洞文件名称*漏洞编程语言*漏洞爆发点等&为了方便后续漏洞实体的识别&对属性信息进行统计&具体如表&所示%表&!安全漏洞属性信息统计表属性名称属性排序属性描述T ]`5/-%安全漏洞/-T ];;&安全漏洞危险等级9H 6@D H O A (安全漏洞文件名称<H 2B G H B A '安全漏洞源代码编程语言Z N A H 37J 426"安全漏洞爆发点E N H 42*安全漏洞粒度`26N P&#安全漏洞入口9G W I 4L @-H 6A$安全漏洞发布时间`Y 46)安全漏洞出口-A L 1N 4764J 2,安全漏洞相关描述如表&内容所示&每个安全漏洞均是由多个属性信息构成的&以此为基础&衡量未知安全漏洞与已知安全漏洞属性信息之间的相关系数'&,(&计算公式为)$!;*&\+""%!;*&\+"=$)-!("式中&$!;*&\+"表示的是未知安全漏洞属性信息集合;*与已知安全漏洞属性信息集合\+之间的相关系数$%!;*&\+"表示的是未知安全漏洞与已知安全漏洞属性信息的相似度$=表示的是属性信息的总数量$)-表示的是误差调整项&承担着提升相关系数精度的任务%以公式!("计算结果$!;*&\+"为基础&制定安全漏洞知识图谱实体识别规则&具体如下式所示)$!;*&\+".V #;*是知识图谱实体$!;*&\+"'V #;*1非知识图谱实体!,"式中&V #表示的是安全漏洞知识图谱实体识别阈值&其需要根据安全漏洞属性信息实际情况来设置%通过上述过程完成了安全漏洞知识图谱实体的精准识别&为最终知识图谱的构建做好充足的准备工作%"_&_%!安全漏洞知识图谱关系抽取在网络实际运行过程中&安全漏洞知识图谱主要存在$种依赖关系&分别为函数调用依赖关系*控制依赖关系*声明依赖关系与数据流依赖关系&其是知识图谱构建的基础与前提之一'&'(%因此&此节对上述关系进行描述与抽取%为了方便后续安全漏洞知识图谱关系的描述以及抽取&设置安全漏洞知识图谱任意两个节点为1&与1"&具体关系抽取过程如下所示)&"函数调用依赖关系抽取)当安全漏洞知识图谱节点1&被调用至节点1"边缘时&认定两者之间关系为函数调用依赖关系&将其记为1&!投稿网址 V V V!0L 01I P3U !1J O第%期杜艺帆&等)""""""""""""""""""""""""""""""""""""""""""""""""""""基于知识图谱的网络安全漏洞智能检测系统设计#,'!#/C C C ;4A1"$""控制依赖关系抽取)当安全漏洞知识图谱节点1"隶属于节点1&&并且需要在节点1&的帮助下才能进行相关操作时&认定两者之间关系为控制依赖关系&记为1&/C 4A1"$%"声明依赖关系抽取)当声明某变量过程中均涉及了安全漏洞知识图谱节点1&与1"&则表明两者之间关系为声明依赖关系&其是一种特殊关系&记为1&/C 9A1"$$"数据流依赖关系抽取)当安全漏洞知识图谱节点1&与1"之间存在特定路径&并且节点1&与1"变量定义一致&则表明两者之间关系为数据流依赖关系&记为1&/C C C A .A1"%依据上述描述在安全漏洞知识图谱节点中进行搜索*识别与抽取&为后续安全漏洞知识图谱可视化处理提供支撑%"_&_$!安全漏洞知识图谱可视化以上述安全漏洞知识图谱实体识别结果与关系抽取结果为依据&定义安全漏洞知识图谱表示形式&设计安全漏洞知识图谱结构&从而实现安全漏洞知识图谱的构建与可视化%此研究采用三元组表示安全漏洞知识图谱&表达式为Q "!(W &;&1"!'"式中&Q 表示的是安全漏洞知识图谱三元组表示形式$(W 表示的是安全漏洞数据集合$;表示的是安全漏洞知识图谱实体集合$1表示的是安全漏洞知识图谱关系集合%安全漏洞知识图谱主要包含两大结构&分别为漏洞实体结构与其他实体结构'&*(%其中&漏洞实体结构中包含着安全漏洞属性信息*基本信息等&其他实体结构中包含着网络安防实体*网络运行程序实体等%安全漏洞知识图谱构建结果如图(所示%图(!安全漏洞知识图谱构建结果示意图上述过程完成了网络安全漏洞知识图谱的构建与可视化&为网络安全漏洞智能检测系统的实现打下坚实的基础%A B A !网络安全漏洞智能检测功能实现以上述网络安全漏洞知识图谱构建结果与网络安全漏洞检测器设计结果为依据&构建网络安全漏洞智能检测整体架构&制定网络安全漏洞智能检测具体流程!检测器软件程序"&从而获取最终网络安全漏洞智能检测结果&为网络系统的稳定运行提供保障%网络安全漏洞智能检测整体架构如图,所示%图,!网络安全漏洞智能检测整体架构图如图,所示&网络安全漏洞智能检测主要依据知识图谱子图匹配算法实现&简单地说&就是在已知安全漏洞知识图谱."!D (W &E ;&E 1"匹配同构于待检测安全漏洞知识图谱Q "!(W &;&1"的全部数据子图'&)(%从本质角度出发&知识图谱是一个有向多标签图&顶点之间存在着多条边%与普通图谱相比较&知识图谱内部结构更加稠密&包含更多的关系信息%为了提升网络安全漏洞智能检测的时间效率&提出新的知识图谱子图匹配算法000[E X 85=H 61@算法&其主要划分为两个阶段&阶段一为[E X 8索引构造&阶段二为最优匹配序列获取%基于[E X 85=H 61@算法的网络安全漏洞智能检测程序如下所示%阶段一)[E X8索引构造%[E X8索引!流图索引"主要是基于漏洞数据匹配顶点对构造而成%其中&顶点对主要描述的是待检测安全漏洞知识图谱顶点N 到已知安全漏洞知识图谱顶点:的映射函数&记为'N &:(%需要注意的是&在漏洞数据匹配顶点对应用之前&需对其是否匹配进行精准验证&验证规则如下式所示)O &!N ""O &!:"O "!N &N W ""O "!:&:W "FN W <Q "!(W &;&1"&F :W <."!D (W &E ;&E 12)*"!*"式中&O &!N "与O &!:"表示的是漏洞数据匹配顶点N 与:对应的标签函数$O "!N &N W "与O "!:&:W "表示的是漏洞数据匹配边!N &N W "与!:&:W "对应的标签函数$N W 表示的是待检测!投稿网址 V V V!0L 01I P3U !1J O。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本技术涉及一种基于知识图谱的漏洞知识库构建方法,涉及网络安全技术领域。

本技术通过知识融合将多个数据源抽取的知识进行融合,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新,达到数据、信息、方法、经验以及攻防知识的融合,形成高质量的漏洞知识库。

在构建好基于知识图谱的漏洞知识库后,可根据用户的漏洞发现工作的具体要求,通过提供实时可视化交互接口进行展示、知识筛选、推荐漏洞发现路径等操作,实现交互式的漏洞发现。

通过该方法能够对软件系统、网络协议等进行高效的漏洞发现,具备与人之间的协同分析和自学习的能力,辅助用户更快的查找可能得安全漏洞新,实现更快更准地发现漏洞。

权利要求书1.一种基于知识图谱的漏洞知识库构建方法,其特征在于,包括以下步骤:步骤1:漏洞知识的收集;步骤2:对收集的漏洞知识进行提取和清洗;步骤3:对步骤2处理得到的漏洞数据实现知识图谱化。

2.如权利要求1所述的方法,其特征在于,步骤1具体为:从多个数据源获取计算机相关知识、网络安全相关知识、攻击规则、软件漏洞样本、网络威胁情报、攻击规则及漏洞数据;其中,攻击规则包含已经存在的攻击的详细信息,包括攻击名称、攻击类型、协议、攻击特点、攻击描述、严重性;漏洞数据包含已发现漏洞的详细信息,包括漏洞名称、漏洞描述、漏洞优先级、破坏方法、同源性特征;还使用人工标注的方法对样本软件进行漏洞标注,将漏洞存在的执行路径标记为脆弱路径,随后使用遗传算法进行脆弱路径制导测试,得到包含软件脆弱路径及测试用例的漏洞发掘样本数据。

3.如权利要求1所述的方法,其特征在于,步骤2具体为:将通过步骤1得到的数据首先进行归并、去重、归一化这些清洗处理;将分散的知识结构化为计算机可理解的知识库;还对原始数据进行的预处理和数据聚合、压缩,排序,删除重复信息、纠正存在的错误,并提供数据一致性处理。

4.如权利要求1所述的方法,其特征在于,步骤3中,将知识图谱作为最终产生的结构化知识库表现形式,将漏洞知识库中的知识看作一个五元组模型,该模型包含:概念、实例、关系、属性和规则;知识图谱用于描述真实世界中存在的各种实体或概念,其中,每个实体或概念用一个全局唯一确定的ID来标识,称为标识符,每个属性-值对用于表征实体的内在特性,而关系用于连接两个实体,描述它们之间的关联。

5.如权利要求4所述的方法,其特征在于,步骤3中,在知识图谱的构建中包括两个不同的阶段,第一阶段是从数据源中抽取知识的过程,称为主体抽取与属性抽取;第二阶段是将知识聚合的过程,称为关系抽取;第一阶段使用基于规则与机器学习的知识抽取方法从收集到的海量数据中抽取可用作于知识的概念信息。

6.如权利要求5所述的方法,其特征在于,所述第一阶段具体分为以下五个步骤:步骤3.1:对计算机漏洞领域的概念和概念之间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则;步骤3.2:基于步骤3.1中生成的规则对海量数据进行知识抽取,抽取出匹配概念和概念之间关系的文本,包括CVE编号、github源代码、svn信息泄漏、敏感文件、数据库配置文件、网站源码、敏感文件目录和邮箱命名规则;步骤3.3:基于步骤3.2中抽取出的匹配概念和概念之间关系的文本,对机器学习方法进行训练,从而得到更多的概念和概念之间的关系,并实时不断地抽取和生成的各种实体及实体间的关系,并提供实体下钻功能,所述实体下钻是指能够不断地以一个实体为中心,不断扩线分析出与之相关联的其他实体;步骤3.4:基于步骤3.3中得到的更多的概念和概念之间的关系,进行知识抽取,对抽取的结果进行标注,并对知识抽取时的精确率、召回率进行评判,将精确率、召回率作为评价标准;步骤3.5:重复步骤3.3和步骤3.4,直至所述评价标准达到预设的标准。

7.如权利要求5所述的方法,其特征在于,所述第二阶段的关系抽取的过程是进行实体之间关系的抽取,其中采用词序列复合核函数实现知识聚合,来最大化地利用多源信息,词序列复合核函数的思想是根据两个词序列中的公共子序列数量来衡量两者相似度子序列中可能包含间隔项,利用衰减因子为每个公共子序列设置不同的权重。

8.如权利要求1所述的方法,其特征在于,在步骤3之后还包括步骤4:提供漏洞知识库的查询支持。

9.如权利要求8所述的方法,其特征在于,步骤4具体为:对于在漏洞知识库查询的对象进行检索,并用关联图进行展示和分析,通过环形导航支持多维检索的无限不循环扩展,提供面向漏洞发现实战经验式和思维导图式的知识检索,即通过鼠标拖拽的方式,实现目标对象的知识浏览、关系分析、属性分析,结合直方图、时间轴、时间轮、数据流、网络分析,实现时间、空间、关系、网络的分析。

10.如权利要求2所述的方法,其特征在于,所述多个数据源包括各类百科网站的计算机相关词条、信息安全网站、开放Web应用安全项目、互联网自建网络安全响应中心、公开漏洞库、攻击规则库。

技术说明书一种基于知识图谱的漏洞知识库构建方法技术领域本技术涉及网络安全技术领域,具体涉及一种基于知识图谱的漏洞知识库构建方法。

背景技术安全漏洞(具体是指网络系统的安全漏洞)发现是一个涉及软件工程、信息安全、网络攻防等诸多学科领域知识的复杂工程。

安全漏洞涉及的知识种类繁多,包括涉及程序正向开发技术、设计模式、网络协议、程序调试以及攻防对抗领域等。

在漏洞知识库的构建中,从海量数据中准确识别漏洞相关的知识是关键环节,该环节方法的高效与否直接决定和影响漏洞知识库的知识质量和使用便利性。

知识图谱旨在描述真实世界中存在的各种实体或概念,以及它们之间的关联关系。

其中,每个实体或概念用一个全局唯一确定的ID来标识,用属性来描述实体的内在特性,用关系来刻画实体之间的关联。

知识图谱是人工智能的一个重要分支。

早期人工智能研究的主流是知识工程和专家系统,特别是基于规则的专家系统是研究的重点。

2012年,Google发布的知识图谱旨在实现更智能的搜索引擎,2013年以后开始在学术界和业界普及,并在智能问答、情报分析、反欺诈等应用中发挥重要作用。

知识图谱以语义网络作为理论基础,并且结合了机器学习,自然语言处理和知识表示和推理的最新成果,在大数据的推动下受到了业界和学术界的广泛关注。

知识图谱本质上是语义网络的知识库,从实际应用的角度出发可以简单地把知识图谱理解成多关系图,包含多种类型的节点和多种类型的边的图结构。

知识图谱用节点和关系组成图谱,为真实世界的各个场景直观地建模。

通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。

知识图谱对于人工智能的重要价值在于,知识是人工智能的基石,构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。

漏洞知识库中包括目标对象实体描述、漏洞成因特征库、漏洞基本信息、攻防专家知识信息、各种软件的缺陷信息等等。

比如漏洞成因特征库,主要描述每种漏洞成因特征描述方法的特点,抽象、整合不同漏洞特征的描述方式以及特征之间的相互关系,提供统一的漏洞成因特征的描述能力。

漏洞知识库还包括了专家形成的漏洞发现领域的专家知识信息,各种类型的漏洞基本信息、各种软件的缺陷信息、调试技巧信息以及攻防知识。

知识图谱的主要优势在于知识搜索、融合以及可视化展现上,为了让机器能够理解文本背后的含义,需要对可描述的事物(实体)进行建模,填充它的属性,拓展它和其他事物的联系,即构建机器的先验知识。

知识图谱的可用性依托于大数据的庞大资源以及逐步优化的搜索算法,给用户提供所需要的资源;复杂的语义环境,必然引出复杂的实体关系,在众多实体中,知识图谱会提取实体标签,比对资源语义,对实体进行分类、融合,乃至抽象,以此降低实体关联的难度,减少由于语义处理带来的混淆;知识图谱展现实体关系,为用户清晰的展现所需实体的属性及关联关系,推理用户的隐性需求,辅助进一步搜索操作。

技术内容(一)要解决的技术问题本技术要解决的技术问题是:如何实现一种面向漏洞挖掘人员的漏洞知识库构建方法。

(二)技术方案为了解决上述技术问题,本技术提供了一种基于知识图谱的漏洞知识库构建方法,包括以下步骤:步骤1:漏洞知识的收集;步骤2:对收集的漏洞知识进行提取和清洗;步骤3:对步骤2处理得到的漏洞数据实现知识图谱化。

优选地,步骤1具体为:从多个数据源获取计算机相关知识、网络安全相关知识、攻击规则、软件漏洞样本、网络威胁情报、攻击规则及漏洞数据;其中,攻击规则包含已经存在的攻击的详细信息,包括攻击名称、攻击类型、协议、攻击特点、攻击描述、严重性;漏洞数据包含已发现漏洞的详细信息,包括漏洞名称、漏洞描述、漏洞优先级、破坏方法、同源性特征;还使用人工标注的方法对样本软件进行漏洞标注,将漏洞存在的执行路径标记为脆弱路径,随后使用遗传算法进行脆弱路径制导测试,得到包含软件脆弱路径及测试用例的漏洞发掘样本数据。

优选地,步骤2具体为:将通过步骤1得到的数据首先进行归并、去重、归一化这些清洗处理;将分散的知识结构化为计算机可理解的知识库;还对原始数据进行的预处理和数据聚合、压缩,排序,删除重复信息、纠正存在的错误,并提供数据一致性处理。

优选地,步骤3中,将知识图谱作为最终产生的结构化知识库表现形式,将漏洞知识库中的知识看作一个五元组模型,该模型包含:概念、实例、关系、属性和规则;知识图谱用于描述真实世界中存在的各种实体或概念,其中,每个实体或概念用一个全局唯一确定的ID来标识,称为标识符,每个属性-值对用于表征实体的内在特性,而关系用于连接两个实体,描述它们之间的关联。

优选地,步骤3中,在知识图谱的构建中包括两个不同的阶段,第一阶段是从数据源中抽取知识的过程,称为主体抽取与属性抽取;第二阶段是将知识聚合的过程,称为关系抽取;第一阶段使用基于规则与机器学习的知识抽取方法从收集到的海量数据中抽取可用作于知识的概念信息。

优选地,所述第一阶段具体分为以下五个步骤:步骤3.1:对计算机漏洞领域的概念和概念之间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则;步骤3.2:基于步骤3.1中生成的规则对海量数据进行知识抽取,抽取出匹配概念和概念之间关系的文本,包括CVE编号、github源代码、svn信息泄漏、敏感文件、数据库配置文件、网站源码、敏感文件目录和邮箱命名规则;步骤3.3:基于步骤3.2中抽取出的匹配概念和概念之间关系的文本,对机器学习方法进行训练,从而得到更多的概念和概念之间的关系,并实时不断地抽取和生成的各种实体及实体间的关系,并提供实体下钻功能,所述实体下钻是指能够不断地以一个实体为中心,不断扩线分析出与之相关联的其他实体;步骤3.4:基于步骤3.3中得到的更多的概念和概念之间的关系,进行知识抽取,对抽取的结果进行标注,并对知识抽取时的精确率、召回率进行评判,将精确率、召回率作为评价标准;步骤3.5:重复步骤3.3和步骤3.4,直至所述评价标准达到预设的标准。

相关文档
最新文档