基于多数据源融合的医疗知识图谱框架构建研究
多源异构数据情境中学术知识图谱模型构建研究

多源异构数据情境中学术知识图谱模型构建研究1. 引言1.1 背景介绍学术知识图谱是一种以知识为中心的图形表示,它帮助研究人员在各种学术领域中发现、管理和利用知识。
在当今信息爆炸的时代,学术知识图谱的构建变得尤为重要。
由于学术领域的复杂性和多样性,单一数据源的知识图谱存在信息不足和局限性的问题。
基于多源异构数据构建学术知识图谱成为当前研究领域的一个热点问题。
多源异构数据包括了来自不同来源、不同领域和不同结构的数据,如学术论文、专利、项目资助等。
这些数据之间存在着丰富的关联和交叉,通过整合这些数据可以更全面地呈现知识之间的关系。
多源异构数据的整合涉及到数据的清洗、融合和统一表示等技术挑战,需要借助先进的数据处理和知识表示方法来实现。
构建基于多源异构数据的学术知识图谱模型具有重要的意义和挑战。
本研究旨在探索如何有效地整合、表示和融合多源异构数据,构建高质量的学术知识图谱模型,以提升学术研究的效率和质量。
通过本研究,可以为学术研究者提供更便捷的知识获取和交流平台,推动学术领域的发展和创新。
1.2 研究意义通过建立学术知识图谱模型,可以有效地整合来自不同学术领域、不同研究机构以及不同数据源的知识信息,实现知识的跨领域、跨机构、跨源的研究与应用。
学术知识图谱模型能够帮助研究人员更好地了解学科之间的关联与演化,发现新的知识点和研究热点,对于促进科学研究和学术交流具有积极的推动作用。
学术知识图谱模型还能够为学术信息检索、文献推荐、科研决策等方面提供更加精确、个性化的服务,促进学术研究的进步和创新。
通过构建多源异构数据情境中的学术知识图谱模型,可以更好地应对信息时代的挑战,推动学术研究的发展,促进知识的共享与传播。
【字数:320】1.3 研究目的研究目的是为了解决多源异构数据情境下学术知识图谱构建中的挑战和问题,提出一种有效的模型构建方法。
通过整合不同来源、不同类型的学术数据,构建一个全面、准确、可扩展的知识图谱模型,以实现学术领域知识的整合和共享。
电子病历系统中的医学知识图谱构建研究

电子病历系统中的医学知识图谱构建研究医学知识图谱是指基于医学领域的知识和概念之间的关系构建而成的一种图谱结构。
它以患者健康信息为基础,通过整合、归纳和表达医学领域的知识,帮助医生进行疾病诊断、治疗方案设计、药物选择等临床决策,同时也为医学教育和医疗研究提供了强有力的支持。
在电子病历系统中,构建医学知识图谱可以将医学知识形成结构化、可查询的形式,提供给医生进行临床决策的依据。
下面将从构建方法、应用领域和挑战等方面来探讨电子病历系统中的医学知识图谱构建研究。
一、构建方法医学知识图谱的构建需要依靠大量的医学文献、临床指南、电子病历数据等信息源。
首先,需要对这些信息进行清洗和标注,将其中的实体和关系进行标注和归类。
然后,使用自然语言处理(NLP)和机器学习等技术对文本信息进行结构化处理,提取出实体和关系之间的语义信息。
最后,将这些信息以图谱的形式存储,并进行可视化展示和查询。
二、应用领域电子病历系统中的医学知识图谱可以应用于多个领域,如下所示:1. 临床决策支持:医学知识图谱可以帮助医生在临床决策过程中快速获取相关知识,并为疾病诊断、治疗方案选择等提供支持,提高医生的工作效率和临床决策的准确性。
2. 医学教育:医学知识图谱可以作为学习工具,帮助医学生理解医学知识的关系和整体结构,提高学习效果和记忆力,并培养综合思维和分析问题的能力。
3. 医疗研究:医学知识图谱可以用于医疗数据的挖掘和分析,发现潜在的疾病关联和治疗模式,为医学研究提供新的思路和方法。
三、挑战电子病历系统中的医学知识图谱构建面临一些挑战,如下所示:1. 数据清洗与标注:医学文献和电子病历数据庞大且复杂,需要耗费大量的时间和人力对其进行清洗和标注,以获取准确的实体和关系信息。
2. 知识抽取与融合:医学领域的知识广泛而复杂,需要针对不同的知识源进行知识抽取和融合,以构建完整的医学知识图谱。
3. 知识更新与维护:医学领域的知识一直在更新和演进,医学知识图谱需要及时更新和维护,以保证其中的信息准确性和实时性。
基于多源数据的知识图谱构建技术研究

基于多源数据的知识图谱构建技术研究随着互联网的快速发展,人们每天需要处理的数据量越来越大,单一数据来源已经无法满足人们的需求,为此,基于多源数据的知识图谱构建技术应运而生。
本文将从以下几个方面对多源数据的知识图谱构建技术进行探讨和研究。
一、知识图谱的概念知识图谱是一种将实体、属性和关系之间的语义信息以图形化方式表达出来的知识表示方法。
简单来说,知识图谱是一张“知识地图”,它将关系、实体和属性之间的关联以图形化方式呈现,帮助我们更好地理解和分析各种复杂的关系。
知识图谱通常由三个部分组成:实体、属性和关系。
实体就是一些具体的事物,如人、物品、地点等;属性是实体所具有的某些特征,如一个人的年龄、性别等;关系则是不同实体之间的联系,如人和物品之间的购买关系、人和地点之间的居住关系等。
知识图谱在很多智能应用中都起到了非常重要的作用,比如语音识别、智能客服、搜索引擎等,它可以帮助机器更好地理解和处理自然语言,使得机器在某些任务上的表现比之前更加准确。
二、基于多源数据的知识图谱构建技术目前,建立多源数据的知识图谱并不断地扩展它已经成为了当代研究的热门技术之一。
基于多源数据的知识图谱构建技术的主要目的是从互联网中获取各种结构化和非结构化数据源,并将它们整合成一张知识图谱,以此从中发现出一些关联性更强、更有意义的知识点。
1. 数据来源的种类基于多源数据的知识图谱是从互联网上获取各种数据源,并将它们组织起来,这些数据源可以来自于各种不同的来源。
例如,文本数据、音频数据、视频数据、地理位置数据等,它们来自于社交媒体、新闻网站、电子商务网站、游戏等不同的应用场景。
2.多源数据的获取和整合在知识图谱的构建中,数据的获取和整合是非常关键的步骤。
在数据获取方面,可以利用各种采集工具来收集各种数据源,因此,各种数据格式的处理和转化也是非常重要的,为了使得不同格式的数据能够无缝整合,需要通过数据清洗和数据处理等方式进行调整。
3.实体识别和关系抽取在知识图谱中,实体识别和关系抽取是非常重要的步骤。
基于大数据技术的医学知识图谱构建方法

基于大数据技术的医学知识图谱构建方法随着大数据技术的快速发展,医学领域也逐渐开始应用大数据技术进行医学知识图谱的构建。
医学知识图谱是一种根据医学领域的知识和数据构建而成的结构化知识库,可以帮助医生在诊断、治疗和研究中更好地利用医学知识和数据。
本文将介绍基于大数据技术的医学知识图谱构建方法,包括知识图谱的构建过程、技术工具和应用前景。
一、医学知识图谱的构建过程1. 数据收集医学知识图谱的构建首先需要收集大量的医学数据,包括病例数据、治疗方案、药物信息、疾病信息等。
这些数据可以来源于医院的电子病历系统、医疗保险数据、科研机构的研究成果等。
还可以利用互联网上的开放数据集和医学文献数据库进行数据收集。
2. 数据清洗与整合在收集到数据后,需要对数据进行清洗和整合,去除重复数据和错误数据,将不同来源的数据进行整合,构建统一的数据模型。
还需要对数据进行标注和加工,使其能够被计算机理解和分析。
3. 知识表示与建模在整合好的数据基础上,需要对医学知识进行表示和建模。
这包括医学实体的抽取和医学关系的建模,将医学领域的实体如疾病、症状、药物等进行抽取并构建实体间的关系模型,以及利用知识图谱技术将这些实体和关系进行表示。
4. 知识推理与应用在构建完知识图谱后,可以利用知识图谱进行知识推理和应用。
通过对知识图谱进行查询和推理,可以帮助医生进行疾病诊断、治疗方案选择、药物作用预测等。
二、技术工具1. 数据挖掘技术数据挖掘技术可以帮助挖掘医学数据中的隐藏信息和规律,包括聚类、分类、关联规则挖掘、文本挖掘等。
这些技术可以帮助医学知识图谱的构建和知识的挖掘。
2. 自然语言处理技术自然语言处理技术可以帮助对医学文本进行语义理解和信息抽取,包括命名实体识别、关系抽取、实体链接等。
这些技术可以帮助将医学文本中的信息转化成结构化的知识图谱。
3. 图数据库技术图数据库技术是知识图谱的核心技术之一,可以帮助存储和查询大规模的图数据,包括知识表示、图匹配、图查询等功能。
医疗知识图谱构建方法与应用探讨

医疗知识图谱构建方法与应用探讨随着人们对健康的关注度增加,医疗领域也面临着巨大的挑战。
医疗知识图谱的构建和应用成为了解决医疗领域问题的一种重要方式。
本文将探讨医疗知识图谱的构建方法以及其在医疗领域的应用。
一、医疗知识图谱构建方法1. 数据收集和清洗构建医疗知识图谱的第一步是收集和清洗数据。
医疗领域的数据非常庞大和复杂,包括病历、医学文献、诊断规范等。
可以通过爬虫技术从医疗数据库、公开数据集以及互联网上收集数据,并对数据进行清洗处理,去除重复和无关的信息。
2. 实体和关系抽取在构建知识图谱之前,需要对数据进行实体和关系的抽取。
实体抽取是指从文本中识别出具有特定意义的实体,如疾病、药物、医院等。
关系抽取是指从文本中提取出实体之间的关系,如疾病与症状的关系、药物与副作用的关系等。
可以借助自然语言处理技术,如命名实体识别和关系抽取,来进行实体和关系的自动化抽取。
3. 知识表示和存储在抽取出实体和关系后,需要将其进行表示和存储,以便于后续的查询和推理。
知识表示可以采用图结构,将实体表示为节点,关系表示为边。
知识存储可以使用图数据库等技术,如Neo4j、TinkerPop等,来存储和管理知识图谱。
4. 知识扩充和更新构建医疗知识图谱是一个持续的过程,需要不断地扩充和更新知识。
可以通过自动化的方式从新的数据源中获取新的知识,并将其与现有的知识进行融合。
此外,还可以利用人工智能技术,如机器学习和深度学习,来自动化地扩充和更新知识。
二、医疗知识图谱的应用1. 疾病诊断和治疗辅助医疗知识图谱可以帮助医生在疾病诊断和治疗上提供辅助。
通过将病人的症状与知识图谱中的疾病和治疗关联起来,医生可以快速地找到可能的诊断和治疗方案,并做出准确的决策。
此外,医疗知识图谱还可以通过回答医生的问题或者提供相关的知识来支持医生的决策。
2. 医学研究和科学发现医疗知识图谱可以帮助医学研究人员进行科学发现和知识获取。
通过分析知识图谱中的实体和关系,可以发现疾病之间的关联、药物的作用机制等。
知识图谱构建及其在医疗行业应用研究

知识图谱构建及其在医疗行业应用研究随着大数据技术的快速发展,知识图谱作为一种新型的智能数据处理方式,越来越被各个行业所借鉴和应用。
在医疗行业中,知识图谱也被广泛应用于疾病诊断、药物研发、临床决策等方面,极大地提高了医疗行业的效率和质量。
一、知识图谱构建知识图谱的构建需要从数据收集和数据处理两个方面入手。
数据收集需要基于领域知识和数据挖掘技术获取相关数据源,并将其清洗、标注、验证,以保证数据的质量和准确性。
数据处理则需要基于自然语言处理、图论、机器学习等技术,将数据转化为一种计算机可读的结构化表示形式,再通过大规模图算法和分布式计算平台进行处理,最终生成一张有机的、富有内涵的知识图谱。
在知识图谱构建的过程中,还需要考虑如何处理不同来源、不同格式的数据、如何处理数据的重复和冲突、如何保证数据的实时性和更新性等问题。
此外,知识图谱的应用也需要考虑不同领域的语义差异、不同领域的标准规范等问题。
二、知识图谱在医疗行业中的应用1、疾病诊断知识图谱可以帮助医生快速、准确地找到可能的疾病、症状、病因等信息,为疾病诊断提供参考。
例如,医生可以通过输入病人的临床症状,系统可以快速查询出可能的疾病,并给出相应的排除诊断意见,这样可以大大提高病人接受诊断的速度和准确性。
2、药物研发知识图谱可以帮助药物研发企业快速定位和分析药物的适应症、作用机理、临床试验等信息,并快速筛选候选药物,提高药物的研发效率和成功率。
例如,通过分析药物作用机理、化学结构等信息,可以快速筛选出具备某些特定化学结构的化合物,这些化合物很可能具备同类药物中未发现的独特特性。
3、临床决策知识图谱可以帮助医生根据病人的基因型、临床表现、病史等信息,预测疾病的可能进程,给出治疗方案、手术方案等建议,促进临床决策的科学化和个性化。
例如,可以建立基于知识图谱的病人风险评估模型,根据个体的遗传背景、生活环境等因素,评估疾病的风险程度,以便病人更好地预防和治疗疾病。
基于多种数据源的中文知识图谱构建方法研究

基于多种数据源的中文知识图谱构建方法研究一、本文概述随着信息技术的迅猛发展,大数据时代的到来为知识图谱的构建提供了海量的数据源。
知识图谱,作为一种以图结构形式描述现实世界实体间复杂关系的大型语义网络,对于领域的发展具有深远影响。
它不仅有助于实现知识的有效组织、存储和查询,还能为自然语言处理、智能问答、推荐系统等多个领域提供强大的数据支撑。
本文旨在探讨基于多种数据源的中文知识图谱构建方法。
在深入研究现有知识图谱构建技术的基础上,结合中文语言特性和数据特点,提出了一种融合多种数据源的知识图谱构建框架。
该框架涵盖了数据收集、数据预处理、实体识别、关系抽取、知识融合以及知识存储等多个关键环节,并对每个环节的技术实现进行了详细阐述。
本文的研究不仅有助于提升中文知识图谱的构建效率和质量,还能为相关领域的应用提供有力支持。
通过综合运用多种数据源,可以更加全面地反映中文世界的语义信息,为智能化应用提供更加丰富的知识资源。
本文的研究成果也能为其他语言的知识图谱构建提供有益的参考和借鉴。
二、中文知识图谱的构建方法中文知识图谱的构建是一个系统而复杂的过程,涉及数据的收集、处理、融合和存储等多个环节。
基于多种数据源进行中文知识图谱构建,旨在整合不同来源的信息,提高知识图谱的覆盖率和准确性。
数据收集是构建知识图谱的基础。
中文知识图谱的数据来源广泛,包括结构化数据(如数据库、表格等)、半结构化数据(如百科、新闻等)和非结构化数据(如文本、图片等)。
针对这些不同类型的数据,需要设计相应的爬虫和抓取策略,确保数据的全面性和准确性。
数据处理是构建知识图谱的关键环节。
对于收集到的数据,需要进行清洗、去重、格式转换等操作,以提高数据的质量和一致性。
还需要利用自然语言处理(NLP)技术对文本数据进行实体识别、关系抽取等操作,以提取出结构化的知识。
在数据融合方面,中文知识图谱的构建需要解决实体对齐和关系融合等问题。
实体对齐是指将不同数据源中的同名实体进行匹配和合并,以提高知识图谱的一致性。
基于多来源文本的中文医学知识图谱的构建

㊀第52卷第2期郑州大学学报(理学版)Vol.52No.2㊀2020年6月J.Zhengzhou Univ.(Nat.Sci.Ed.)Jun.2020收稿日期:2019-08-22基金项目:国家社科基金重大资助项目(18ZDA315);河南省高等学校重点科研项目(20A520038);河南省科技攻关项目(192102210260);河南省科技攻关计划国际合作项目(172102410065)㊂作者简介:昝红英(1966 ),女,河南焦作人,教授,主要从事自然语言处理研究,E-mail:iehyzan@;通信作者:窦华溢(1994 ),男,河南周口人,硕士研究生,主要从事自然语言处理研究,E-mail:douhuayi@.基于多来源文本的中文医学知识图谱的构建昝红英1,㊀窦华溢1,2,㊀贾玉祥1,㊀关同峰1,2,㊀奥德玛2,3,㊀张坤丽1,㊀穗志方3(1.郑州大学信息工程学院㊀河南郑州450001;2.鹏城实验室㊀广东深圳518055;3.北京大学计算语言学教育部重点实验室㊀北京100871)摘要:中文医学知识图谱(Chinese medical knowledge graph,CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要㊂通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命名实体和实体关系的标注体系和规范;并开发了标注工具,在医学专家的指导下,选取106种高发疾病进行人工标注,命名实体一致率达到了87.3%,实体关系一致率达到了82.9%㊂在人工标注的基础上,进行实体及关系自动抽取,构建出的中文医学知识图谱CMeKG1.0版共包括6310种疾病㊁19853种药物(西药㊁中成药㊁中草药)㊁1237种诊疗技术及设备,关联到的医学实体达20余万,概念关系实例及属性三元组达100余万㊂所构建的中文医学知识图谱为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础㊂关键词:医学知识图谱;命名实体;实体关系;标注规范;知识图谱构建中图分类号:TP391.1㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)02-0045-07DOI :10.13705/j.issn.1671-6841.20193830㊀引言随着互联网技术的飞速发展,知识的存储和共享变得越来越便捷,随之而来的是知识总量的指数级增长,各领域的知识已不再是孤岛,而是在互联网的海洋中相互交融㊁交叉发展㊂自Google 公司提出 Knowl-edge Graph [1]后,这种可以绘制知识脉络㊁挖掘数据间的潜在关系㊁分析语义信息以及以图谱方式可视化地为用户提供知识信息的技术迅速引起了各领域的研究兴趣㊂知识图谱的前身是语义网[2],语义网致力于让计算机能够理解和处理文本中所表达的语义信息,从而支持网络环境下广泛有效的自动推理㊂而知识图谱作为知识载体,其最大的优势就是使知识可视化[3],让人们既能快速理清专业知识之间的逻辑脉络,也能把握住最关键的知识点,迅速找到自己需要的信息㊂目前,医疗领域是知识图谱重要的应用领域之一㊂在医学知识图谱研究领域,SNOMED-CT [4-5]㊁IBMWatson Health [6]等,都致力于构建一套全面统一的医学术语系统,来对大部分临床信息进行统一的标准化描述㊂目前的医学知识本体库主要有医学概念知识库LinkBase [7]㊁TAMBIS 本题库[8]等㊂一体化医学语言系统自动构建了医学知识库[9]㊂上海曙光医院构建了中医药知识图谱[10],利用自身优势,对大量的中医药数据和临床诊疗知识库进行了整合和利用㊂贾李蓉等[11]于2002年开始研制中医药学语言系统,目前已发展为包括13万多个概念㊁30余万术语以及100余万语义关系的大型语义网络㊂侯丽等[12]构建了基于本体的临床医学知识库,构建以知识节点为对象的疾病库㊁药物库㊁检查库三大医学知识库,并通过不同知识库中的知识节点建立关联㊂建立一个结构科学㊁层次清晰㊁覆盖全面㊁高度关联的大规模㊁高质量中文医学知识图谱,离不开大规模医疗语料库的支撑[13-14]㊂在构建过程中,本研究首先对语料进行了分析,提出了初步的医学知识图谱描述体系,而后在医学专家的指导下进一步完善标注规范,并对多来源文本进行了多轮人工标注以及自动抽取工作㊂构建了一个覆盖面广㊁知识描述准确㊁结构完备的中文医学知识图谱,为智慧医疗领域的广泛应用奠定郑州大学学报(理学版)第52卷了专业知识基础㊂1㊀知识图谱构建过程中文医学知识图谱的构建过程可分为两个阶段:一是描述体系设计;二是知识图谱构建㊂首先,我们调研了国内外权威的标准医学术语集,初步设计了概念分类体系,通过案例标注与分析,设计了关系分类体系,而后经过医学专家的评估,形成了医学知识图谱的描述体系㊂随后,通过从权威性㊁全面性和实用性等方面的考量,经过对比和整合,形成了多来源医学文本㊂对于这些非结构或半结构化的文本数据,采用了人工标注和自动提取两种方法相结合从中提取关系,其中自动提取使用了规则加tagging 模型的方法㊂对于抽取出的实体及实体关系,进行人工审核评估,构建医学知识图谱知识本体,并完成多来源数据的知识融合,从而构建出专业性强㊁内容丰富的中文医学知识图谱㊂整体构建框架如图1所示㊂图1㊀医学知识图谱构建框架Figure 1㊀Constructing framework of medical knowledge graph实体资源库的构建基于医学主题词表(medical subject headings,MeSH)㊁融合国际疾病分类[15](interna-tional classification of diseases,ICD-10)㊁解剖学治疗学及化学分类系统(anatomical therapeutic chemical,ATC)等医学术语为资源库中的实体㊂MeSH [16]是美国国立医学图书馆编制的医学主题词表,它是一部规范化㊁可扩充的动态性叙词表㊂ICD-10是国际疾病分类的第10个版本,是根据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统㊂ATC 是解剖学治疗学及化学分类系统,是世界卫生组织对药品的官方分类系统㊂实体资源库的构建不仅是本研究标注实体的依据,也是后续利用机器学习进行命名实体识别以及关系抽取的基础㊂为保证标注质量以及标注进度,本研究选取了常见的106种疾病进行人工标注㊂通过分析多来源医疗文本结构信息,按照其不同的类型进行分类,分别从病因㊁并发症㊁诊断步骤㊁鉴别诊断㊁流行病学㊁病史和查体㊁监测㊁预防㊁预后等多个维度对疾病进行了描述㊂在语料中经常会出现一句话里或一整段里没有提及该主题疾病的情况,这时就无法标注此种疾病的实体㊂为此,本研究对语料进行了预处理,以句号为特征,在每一句之前加上主题疾病的名字,并以@和原文做分割㊂如 患者可能有各种不典型症状,这些症状包括乏力㊁恶心㊁呕吐㊁腹痛以及晕厥㊂ 预处理后为 非ST 段抬高型心肌梗死@患者可能有各种不典型症状,这些症状包括乏力㊁恶心㊁呕吐㊁腹痛以及晕厥㊂2㊀知识图谱描述体系及标注规范本研究将实体分为12大类,分别为语义㊁疾病㊁部位㊁症状㊁检查㊁手术治疗㊁药物治疗㊁其他治疗㊁流行病6474㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建学㊁预后㊁社会学和其他,并使用不同的参考标准界定每一类实体涵盖的范围㊂实体之间的关系包括:语义㊁疾病-疾病㊁疾病-部位㊁疾病-症状㊁疾病-检查㊁疾病-手术治疗㊁疾病-药物治疗㊁疾病-其他治疗㊁疾病-流行病学㊁疾病-预后㊁疾病-社会学㊁疾病-其他共12个类型关系㊂具体关系类型如表1所示㊂表1㊀疾病类实体间常见关系类型Table1㊀Common㊀㊀命名实体标注的基本原则有:第一,不重叠标注,即同一段字符串不能标注为两个不同的实体;第二,不嵌套标注,即一个实体不能在另一个实体的内部;第三,实体要尽可能不含有标点符号及连接词(或㊁和㊁以及),主要目的是为了防止实体过长和实体嵌套㊂将疾病类实体作为核心,以疾病为入口,标注疾病与其他类实体和属性值(字符串㊁数字)之间的关系类型㊂对于非结构化的文本,实体关系经常跨句出现甚至跨段出现,所以标注关系时,不仅仅局限于一个句子范围内的实体关系,还包括跨段句子范围内的关系㊂3㊀知识图谱的构建3.1㊀知识图谱构建过程为了提升标注效率,开发了面向医疗文本的实体及关系标注平台㊂对于医疗文本中出现的实体,选择实体标签,选中对应的文字,即可完成实体标注㊂在完成实体标注后,可以选择进行关系标注,再依次选择关系标签所对应的第一个实体和第二个实体,即可完成两个实体间的关系标注㊂标注平台可以实现实体标注和关系标注的切换,同时提供了文件管理功能,方便进行多轮标注工作㊂第一阶段,在详细地分析了多来源医疗文本的特点之后,借鉴中文电子病历标注规范[17]的经验,本研究初步制定出了医学知识图谱描述体系结构,以此为基准,进行了3轮的试标注过程㊂试标注阶段主要目的在于收集标注中所发现的问题,经过和医学专家的讨论,进一步完善规范㊂与此同时,实体资源库的收集工作和标注平台的开发工作也在同步进行中㊂郑州大学学报(理学版)第52卷第二阶段,为了保证标注过程的准确性和一致性,本研究采取了多轮标注的方法㊂一人标注完成后,另一人进行二次标注,两次标注不一致和不确定的地方要记录下来,留待讨论会讨论,经过医学专家和老师的确认后,再由一标人返回语料中进行修改,形成最终的三标版本㊂在此过程中,根据标注人员的反馈,本研究也在不断地优化㊁更新标注规范,使其更加贴合语料自身特点㊂整体构建流程图如图2所示㊂图2㊀语料库构建流程图Figure 2㊀Flow chart of corpus construction3.2㊀知识图谱的节点描述知识图谱的描述形式为六元组,分别为实体1㊁关系㊁实体2,以及对每一元的约束或属性,表示为{entity 1,entity 1_property ,relation ,relation _property ,entity 2,entity 2_property },简记为{e 1,e 1_pro ,rel ,rel _pro ,e 2,e 2_pro }㊂CMeKG 使用百度开源可视化库Echarts 展示知识图谱,对于每一个实体,选择以该实体为主语的六元组进行显示,其中属性描述的三元可以为空,即六元组在实体和关系的属性都为空时会蜕化为三元组㊂如图3所示,连接同一节点的相同颜色节点代表相同的语义关系,整体效果呈现为以查询实体为中心,具有语义关系的相关实体发散至四周的网状结构,每个关系边的权重相等㊂4㊀构建结果及分析标注一致性用Kappa 值[18]和F 值[19]来表示㊂Kappa 值在情感极性分类的语料标注中应用较广,但在实体识别中,若把未标注的文本作为反例的话,则反例数量巨大而难以统计㊂此种情况下F 值接近于Kappa 值,故可使用F 值来对实体识别标注语料进行一致性评价[20]㊂具体做法是将三标者A 1的标注结果作为标准答案,计算一标者A 2的标注结果的精确度P 和召回率R ,进而计算F 值,计算公式为P =A 1和A 2一致的标注结果总数A 2的标注总数,R =A 1和A 2一致的标注结果总数A 1的标注总数,F =2ˑP ˑRP +R㊂㊀㊀确定实体一致性时,只有当实体文本㊁实体类型标签和起止位置均相同时,才认为实体标注是一致的;确定关系一致性时,只有当实体对的两个实体㊁关系名称和起止位置均相同时,才认为关系标注是一致的㊂文献[21]指出,标注一致性达到80%以上时,可以认为语料的一致性是可信赖的㊂最终,本研究标注的命名实体识别一致率达到了87.3%,实体关系一致率达到了82.9%,说明本研究的标注结果是可信赖的㊂共有两名医学专家和近二十名标注人员参与标注工作㊂共计完成标注3029448字㊁23475种实体概84㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建念㊁32530个实体关系三元组㊂去重后的实体数量如表2所示,关系数量如表3所示㊂表2㊀实体数量Table 2㊀Number of entities实体类型实体数量/个疾病5643部位670症状4590检查2808手术治疗683药物治疗2454其他治疗1283社会学3580流行病学854预后165其他745表3㊀关系数量Table 3㊀Number of relationships关系类型关系数量/条疾病-疾病5334疾病-部位966疾病-症状7729疾病-检查4401疾病-手术治疗858疾病-药物治疗4194疾病-其他治疗1645疾病-流行病学1042疾病-预后183疾病-社会学4567疾病-同义词753疾病-其他858㊀㊀以人工标注的106种疾病标注结果为基础,本研究还使用了规则加tagging 模型对745种其他疾病进行了自动抽取工作,共抽取出140224条实体关系,经过人工校对后,剔除57676条错误信息,剩余82548条关系,准确率为58.8%㊂因为医疗文本的非结构化信息比较复杂,所以自动抽取的准确率还有待进一步的提高㊂中文医学知识图谱(http:ʊ)展示界面如图3所示㊂图形化展示是中文医学知识图谱的重要部分,通过系统页面的首字母索引或者搜索框可以查询到各类疾病实体,并以疾病为中心放射性链接与之相关的各类实体及关系㊂图3㊀中文医学知识图谱展示界面Figure 3㊀Chinese medical knowledge graph display interface9405郑州大学学报(理学版)第52卷5 小结本文主要对中文医学知识图谱的标注进行了研究,具体从3个方面来进行展开:首先调研了国内外各类医学资源的整体情况,将其整合成多来源医疗文本作为标注文本;然后在分析语料库的结构基础上,和医学专家讨论制定出医学知识图谱描述体系,通过试标注给出初版标注规范;最后通过多轮迭代的方式标注医疗文本,并请医疗专家全程把控标注质量,以确保准确性,同时使用规则加机器学习的方法进行自动抽取,至2019年3月,构建了中文医学知识图谱CMeKG1.0版,包括6310种疾病,20余万种实体概念,100余万个实体关系三元组㊂目前来看,机器标注的准确率还有待进一步提升,同时人工标注集和海量的医学文本相比规模还是比较小,未来将继续研究如何进一步提高自动标注的准确率,并且根据妇产科学㊁儿科学等临床医学主要学科进一步扩充标注疾病㊂参考文献:[1]㊀WANG C Y,GAO M,HE X F,et al.Challenges in Chinese knowledge graph construction[C]ʊ31st IEEE International Con-ference on Data Engineering Workshops.Seoul,2015.[2]㊀ZHANG X L,DU C L,LI P S,et al.Knowledge graph completion via local semantic contexts[M].Database systems for ad-vanced applications.Cham:Springer International Publishing,2016.[3]㊀刘则渊,陈悦,候海燕.科学知识图谱方法与应用[M].北京:人民出版社,2007.LIU Z Y,CHEN Y,HOU H Y.Mapping of scientific knowledge:methods and applications[M].Beijing:Peopleᶄs Publishing House,2007.[4]㊀牟冬梅,张艳侠,黄丽丽,等.基于SNOMED CT和FCA的医学领域本体构建研究[J].情报学报,2013(6):653-662.MU D M,ZHANG Y X,HUANG L L,et al.Constructing medical ontology based on SNOMED CT and FCA[J].Journal of the China society for scientific and technical information,2013(6):653-662.[5]㊀AMARILLI A,GALÁRRAGA L,PREDA N,et al.Recent topics of research around the YAGO knowledge base[M].Cham:Springer International Publishing,2014.[6]㊀AUER S,BIZER C,KOBILAROV G,et al.DBpedia:a nucleus for a web of open data[M].Berlin:Springer Berlin Heidel-berg,2007:722-735.[7]㊀CEUSTERS W,MARTENS P,DHAEN C,et al.LinkFactory:an advanced formal ontology management system[J].Proceed-ings of interactive tools for knowledge capture(KCAP2001).Victoria B C,2001:75-204.[8]㊀STEVENS R,BAKER P,BECHHOFER S,et al.TAMBIS:transparent access to multiple bioinformatics information sources[J].Bioinformatics,2000,16(2):184-186.[9]㊀NADKARNI P,CHEN R,BRANDT C.UMLS concept indexing for production databases:a feasibility study[J].Journal of theAmerican medical informatics association,2001,8(1):80-91.[10]阮彤,孙程琳,王昊奋,等.中医药知识图谱构建与应用[J].医学信息学杂志,2016,37(4):8-13.RUAN T,SUN C L,WANG H F,et al.Construction of traditional Chinese medicine knowledge graph and its application[J].Journal of medical informatics,2016,37(4):8-13.[11]贾李蓉,刘静,于彤,等.中医药知识图谱构建[J].医学信息学杂志,2015,36(8):51-53,59.JIA L R,LIU J,YU T,et al.Construction of traditional Chinese medicine knowledge graph[J].Journal of medical informat-ics,2015,36(8):51-53,59.[12]侯丽,钱庆,黄利辉,等.基于本体的临床医学知识库系统构建探讨[J].医学信息学杂志,2011,32(4):42-47.HOU L,QIAN Q,HUANG L H,et al.Discussion on clinical medicine knowledge base system construction based on ontology [J].Journal of medical informatics,2011,32(4):42-47.[13]徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):116-122.XU L H,LIN H F,ZHAO J.Construction and analysis of emotional corpus[J].Journal of Chinese information processing, 2008,22(1):116-122.15㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建[14]张德政,谢永红,李曼,等.基于本体的中医知识图谱构建[J].情报工程,2017,3(1):35-42.ZHANG D Z,XIE Y H,LI M,et al.Construction of knowledge graph of traditional Chinese medicine based on the ontology [J].Technology intelligence engineering,2017,3(1):35-42.[15]SUNDARARAJAN V,HENDERSON T,PERRY C,et al.New ICD-10version of the Charlson comorbidity index predicted in-hospital mortality[J].Journal of clinical epidemiology,2004,57(12):1288-1294.[16]LIPSCOMB C E.Medical subject headings(MeSH)[J].Bulletin of the medical library association,2000,88(3):265-270.[17]杨锦锋,于秋滨,关毅,等.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562.YANG J F,YU Q B,GUAN Y,et al.An overview of research on electronic medical record oriented named entity recognition and entity relation extraction[J].Acta automatica sinica,2014,40(8):1537-1562.[18]JEAN C.Assessing agreement on classification tasks:the kappa statistic[J].Computational linguistics,1996,22(2):249-254.[19]HRIPCSAK G.Agreement,the F-measure,and reliability in information retrieval[J].Journal of the American medical infor-matics association,2005,12(3):296-298.[20]OGREN P,SAVOVA G,CHUTE C.Constructing evaluation corpora for automated clinical named entity recognition[C]ʊPro-ceedings of the12th World Congress on Health(Medical)Informatics.Marrakech,2008:28-30.[21]ARTSTEIN R,POESIO M.Inter-coder agreement for computational linguistics[J].Computational linguistics,2008,34(4):555-596.Construction of Chinese Medical Knowledge Graph Based onMulti-source CorpusZAN Hongying1,DOU Huayi1,2,JIA Yuxiang1,GUAN Tongfeng1,2,ODMAA Byambasuren2,3,ZHANG Kunli1,SUI Zhifang3(1.School of Information Engineering,Zhengzhou University,Zhengzhou450001,China;2.Peng Cheng Laboratory, Shenzhen518055,China;3.Institute of Computational Linguistics,Peking University,Beijing100871,China) Abstract:The Chinese medical knowledge graph(CMeKG)was a structured description of professional medical knowledge,which was also an actual need for various types of intelligent medical applications. With medical texts from multiple sources collected by this study,structural features of corpus were ana-lyzed;semantic features of medical knowledge were combined;the annotation system of medicine named entities and entity relations was formulated and the platform was developed accordingly.Under the guidance of medical experts,106high-incidence diseases were selected and labeled.The consistency rate of named entity and entity relationship were achieved87.3%and82.9%respectively.On the basis of manual anno-tation,the entity and relation were extracted automatically.Along with more than200000medical entities and over one million conceptual relationship examples and attribute triples,6310diseases,19853drugs (western medicine,Chinese patent medicine and Chinese herbal medicine),and1237diagnosis and treat-ment technologies were included in the CMeKG version1.0.Thus,A solid foundation could be laid by CMeKG in certain fields,such as medical question answering system and intelligent assisted diagnosis. Key words:medical knowledge graph;named entity;entity relationship;labeling specification;knowl-edge graph construction(责任编辑:方惠敏)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于多数据源融合的医疗知识图谱框架构建研究
作者:庞震刘剑
来源:《科学与信息化》2019年第35期
摘要随着科学技术的发展,我国逐渐进入到大数据时代,基于数据驱动的医疗辅助决策以及医疗健康知识挖掘受到人们的极大关注。
医疗知识图谱是医疗信息分析和知识服务的基础,在医疗人工智能和医疗信息检索中发挥着重要作用。
本文以医疗领域的实际应用需求为出发点,提出了多数据源融合的医疗知识图谱构建的理论框架。
关键词医疗知识图谱;多源数据融合;实体识别;实体链接;实体关系
引言
近年来,随着计算机科学与互联网技术的飞速发展,人们的生活方式发生了巨大的改变。
电子商务以及移动互联网技术的风起云涌,使得人们平时并不在意的一些生活数据正在以洪水之势从互联网的四面八方向各大网站及数据中心汇集,引发了数据规模的爆炸式增长。
受复杂网络系统和社会网络分析的引入以及信息可视化技术的突破发展,基因图谱、GIS和超文本的可视化影响,知识图谱被正式提出。
1 知识图谱概念
知识图谱是语义网络的一种表现形式,语义网络是指由数据构成的网络,是以信息为节点、关系为边的有向图,核心思想是可视化地展现结构化的信息和信息之间的逻辑关系。
谷歌高级副总裁艾米特·辛格博士提出,“构成这个世界的是实体,而非字符串”。
因此知识图谱在此基础上以现实世界中的“实体”为节点,以实体之间的关系为边,将现实世界不同种类的信息以关系的形式结合在一起。
通过知识图谱,可以获取知识和知识之间的逻辑关系,将抽象的知识可视化地展现出来,以及得到每一知识点全面的结构化信息[1]。
2 知识图谱的构建方法
2.1 多数据源融合的医疗知识图谱构建思路
融合多源数据的医疗知识图谱首先通过各个渠道获取医疗文本大数据,然后对各类数据采用XML 统一格式、进行数据清洗、分词和詞性标注,接着采用机器学习方法进行医疗实体识别及实体关系标注;然后以疾病为中心,挖掘其他实体与疾病之间的关系,并利用 RDF 和Neo4j 进行存储和呈现;针对不断增长的各类医疗大数据和实际应用需要,可以利用 Spark 技术
生成动态医疗知识图谱,最后在医疗知识图谱基础上,为临床辅助诊断决策和医疗健康问答系统提供医疗知识来源。
2.2 基于外部知识库的知识图谱构建方法
基于外部知识库的知识图谱构建方法,主要是以在线百科类网站的数据为研究数据的主要来源。
这些数据包含大量高质量的常识性知识,更新速度慢,并且具有一定的格式。
以互动百科为例,通过摘要抽取各种相关实体,通过目录模块内子目录对应的内锚链接获得各种相关实体概念的上下位关系;通过开放分类抽取实体所对应的类别;通过信息模块抽取实体所对应的属性-值对和实体-关系对。
通过类似互动百科中信息模块抽取实体属性-值和实体-关系对时,常用的一种重要方法是 AVP 知识抽取(Attribute-value PairsMining)。
类似地可以从其他的多个在线百科知识网站抽取数据,来弥补单个百科知识网站上抽取知识不足的情况。
百科类知识网站除了以上提及的中文在线百科互动百科之外,还有与互动百科并肩的百度百科,包含多种语言的全球在线百科维基百科。
Freebase 是另外一个重要的百科知识源,它包 3900 万多个实体和 18 亿条事实,占据着谷歌知识图谱数据来源的半壁江,规模上远胜于维基百科[2]。
2.3 医学知识融合
由于医学数据库中的知识来源复杂,存在知识质量良莠不齐、不同数据源知识重复、知识间关联关系模糊等问题,所以必须将来自不同数据源的多源异构、语义多样、动态演化的医学知识在同一框架规范下进行异构数据的整合、消歧、加工、推理验证、更新等,对知识进行正确性判断,去粗取精,达到数据、信息、方法、经验与人思想的融合,将验证正确的知识通过对齐关联、合并计算有机地组织成知识库.通过知识融合的定义可以看出,知识融合建立在知识抽取的基础上。
如何消除知识理解中的不确定性,发现知识的真值,并将正确的知识更新扩充到知识库中是知识融合研究中关注的重点。
2.4 中文医疗知识图谱表示及存储
知识图谱表示和存储是将医疗实体以及实体关系按照一定规范存储,为后续的医疗知识分析和知识服务做好准备。
目前较为广泛的数据描述模型有RDF以及最近兴起的图数据库两种存储方案。
在医疗知识图谱存储时,可以基于RDF语法,构建以疾病为中心,其他四类为属性的疾病——属性——关系三元组,以此存储实体识别及实体间关系。
每一个实体都有一个URL(Uniform Resource Locator,统一资源定位符)与之对应,通过URL就能跳转到相应的实体,实现实体数据间的链接。
3 知识图谱在医疗领域的应用
近年来,医疗卫生信息平台、医疗设备在医疗卫生机构迅速普及开来,同时产生了大量的医疗数据。
如何利用这些海量的医疗信息资源更好地为人们服务,已成为人们所关注的热点问
题。
知识图谱技术给解决这个问题,提供了一个新的技术手段。
知识图谱能够解决医疗大数据中的知识分散、异构、冗余和碎片化的问题,提供有效的整合和组织医疗知识的途径。
在医疗领域的知识图谱应用在目前取得的成果可以应用到其他领域中,例如,利用知识图谱识别互联网金融的欺诈行为;知识图谱与商业大数据分析结合,可以有效提取商业领域的知识单元,提供辅助情报分析;知识图谱与搜索引擎和智能问答的结合更加可以给我们的生活带来纯净的信息环境[3]。
4 结束语
综上所述,在医疗领域中,随着医学信息化水平的逐步深入,积累了大量医学数据,医疗数据的有效使用对精准医疗、疾病防控、研发新药、医疗费用控制、攻克顽疾、健康管理等工作都有着重要的意义。
构建医疗领域的知识图谱提供了一种从海量医学文本和图像中抽取结构化知识的手段,具有广阔的应用前景。
参考文献
[1] 徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,(4):589-606.
[2] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,(3):582-600.
[3] 袁旭萍.基于深度学习的商业领域知识图谱构建[D].上海:华东师范大学,2015.
作者简介
庞震(1985-),男,籍贯:北京;工程师,现就职单位:中国中医科学院西苑医院,研究方向:医疗信息系统项目管理。