中文知识图谱体系获取与服务
浅议将知识图谱融入查新工作以推动学科化服务

献报 道追 踪、 某一学科数据信 息的分析及数据挖 掘 、 科研成果 论 文 的引文分析 等多元化 发展[ ] 1, o 而这 一切 的根本 前提是查新 数 据 的科学性 、 全面性 、 客观性和权威性 。如何增强查新所得相关 文献 的科 学性 和权威性呢?有作者提 出将 数据挖掘技术应用 于
构 建科 技查 新质量 可靠 性评 价指标 体 系 ; 此外 , 存在 查新评 还 价指标必 须涵盖基本要素评价 、工作 流程及服务成果评价 和工 作效果评价三部分的观点[7 有作者还采用了文 献调研法 , 5] -。 分析 了解科技查新 中每一个工作流程 的操作规 范 ,然后通过专家 咨 询, 收集 、 析每位专 家的意见 和建议 , 分 对各个 主要影 响因素进 行分 析 、 筛选 , 最终得 到查新报 告质量评 价体系 的各 级指标 _ 。 8 ] 有作 者还针对 查新流程 中查新受理 、 文献 检索 、 报告撰 写 、 查新
数据 提供 给科技 人员 和科研 管理 部 门据此 进行对 比分 析 和评 价, 查新报告 应体 现理想的查全率和查准率 而不遗漏关键文献 。 虽然查新 工作开展 了 2 0多年 , 但还有提 升和拓展 的空 间 , 有的 查新 人员 已开始这方面 的探索 。比如说 , 有作者认 为 , 查新 工作 应该 不断创新 , 由单一 的文献检索 向研究项 目的可行 性分析 、 文
查新领域 , 有助于提 高查新工作效率 , 还能够通 过 Arw mi r st o h等 数据挖 掘软件发掘疾病 之间或者病 因与治疗之 间的新联 系 ] 。 而笔者则针对知识 图谱 可视 化软件应用 于查新 过程 中的可行性 进行 了一些思考 , 不妥之处请 同行指正。
知识图谱应用于学科知识服务初探知识讲解

②、知识图谱的应用推广
首先,现今图书馆的专职学科馆员还不普遍,大多 是兼职的形式,掌握知识图谱需消耗大量的成本。 其次,目前会提供知识图谱学科服务的机构也很少 ,利用知识图谱的图书馆用户就更少。这样就会在 一定程度上对知识图谱的推广造成困难。 最后,尤其现在国内对知识图谱的研究还处于起步 阶段,其研究成果不多,知识图谱技术与其可视化 效果的优化不易在短期内得到发展,这便降低了知 识图谱在学科知识服务中被用户接受的可能。
谢 谢!
1、契合学科知识服务的职责
学科馆员以开发专题信息资源为目的,深入学 科专业领域之中,针对用户的问题及其特定的环境 ,对某一学科的基本理论、历史和现状、学术前沿 、学术的主要领头人等方面进行深入的分析了解。 对无序繁杂的信息进行加工、分析、整理、重组, 完成知识的管理过程,为用户提供有效可靠的支持 知识应用和知识创新的服务。
④、数据质量
知识图谱应用于学科知识服务的障碍还包括: 获取的数据质量直接影响知识产品的质量。而在专 业领域中的高质量数据(可获取并有用的)大都以 普通形式出现,这就需要即将生产出来的数据也必 需以相同形式出现。
⑤、评价体系
任何一种机制,如果缺乏相应的质量评价指标 ,那么就会难以得到优化和发展。相应的质量评价 指标缺乏,既不能客观地反映知识图谱于学科知识 服务的进行现状,也不利于对其整体事业建设进行 宏观调控。
3 服务社会,扩大受众
学科社会化服务是学科知识服务的必经之路: 一方面可以使信息接受者增加,学科知识服务拓宽 服务面,增强知识传播效果。 另一方面,学科馆员在服务的同时,还可以深入实 践,在实践中完善理论,更加了解专业发展现状, 更好的把握研究趋势以及未来研发方向。
4 提高数据质量
随着知识图谱工具的提高,只有数据质量也提 高,才能真正使整体的学科知识图谱质量提高。只 有简洁规范的数据才是最佳的基础。这就要求利用 专门的数据库,对那些经过加工、整理的数据直接 进行利用,会取得最佳效果。
基于多来源文本的中文医学知识图谱的构建

㊀第52卷第2期郑州大学学报(理学版)Vol.52No.2㊀2020年6月J.Zhengzhou Univ.(Nat.Sci.Ed.)Jun.2020收稿日期:2019-08-22基金项目:国家社科基金重大资助项目(18ZDA315);河南省高等学校重点科研项目(20A520038);河南省科技攻关项目(192102210260);河南省科技攻关计划国际合作项目(172102410065)㊂作者简介:昝红英(1966 ),女,河南焦作人,教授,主要从事自然语言处理研究,E-mail:iehyzan@;通信作者:窦华溢(1994 ),男,河南周口人,硕士研究生,主要从事自然语言处理研究,E-mail:douhuayi@.基于多来源文本的中文医学知识图谱的构建昝红英1,㊀窦华溢1,2,㊀贾玉祥1,㊀关同峰1,2,㊀奥德玛2,3,㊀张坤丽1,㊀穗志方3(1.郑州大学信息工程学院㊀河南郑州450001;2.鹏城实验室㊀广东深圳518055;3.北京大学计算语言学教育部重点实验室㊀北京100871)摘要:中文医学知识图谱(Chinese medical knowledge graph,CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要㊂通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命名实体和实体关系的标注体系和规范;并开发了标注工具,在医学专家的指导下,选取106种高发疾病进行人工标注,命名实体一致率达到了87.3%,实体关系一致率达到了82.9%㊂在人工标注的基础上,进行实体及关系自动抽取,构建出的中文医学知识图谱CMeKG1.0版共包括6310种疾病㊁19853种药物(西药㊁中成药㊁中草药)㊁1237种诊疗技术及设备,关联到的医学实体达20余万,概念关系实例及属性三元组达100余万㊂所构建的中文医学知识图谱为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础㊂关键词:医学知识图谱;命名实体;实体关系;标注规范;知识图谱构建中图分类号:TP391.1㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)02-0045-07DOI :10.13705/j.issn.1671-6841.20193830㊀引言随着互联网技术的飞速发展,知识的存储和共享变得越来越便捷,随之而来的是知识总量的指数级增长,各领域的知识已不再是孤岛,而是在互联网的海洋中相互交融㊁交叉发展㊂自Google 公司提出 Knowl-edge Graph [1]后,这种可以绘制知识脉络㊁挖掘数据间的潜在关系㊁分析语义信息以及以图谱方式可视化地为用户提供知识信息的技术迅速引起了各领域的研究兴趣㊂知识图谱的前身是语义网[2],语义网致力于让计算机能够理解和处理文本中所表达的语义信息,从而支持网络环境下广泛有效的自动推理㊂而知识图谱作为知识载体,其最大的优势就是使知识可视化[3],让人们既能快速理清专业知识之间的逻辑脉络,也能把握住最关键的知识点,迅速找到自己需要的信息㊂目前,医疗领域是知识图谱重要的应用领域之一㊂在医学知识图谱研究领域,SNOMED-CT [4-5]㊁IBMWatson Health [6]等,都致力于构建一套全面统一的医学术语系统,来对大部分临床信息进行统一的标准化描述㊂目前的医学知识本体库主要有医学概念知识库LinkBase [7]㊁TAMBIS 本题库[8]等㊂一体化医学语言系统自动构建了医学知识库[9]㊂上海曙光医院构建了中医药知识图谱[10],利用自身优势,对大量的中医药数据和临床诊疗知识库进行了整合和利用㊂贾李蓉等[11]于2002年开始研制中医药学语言系统,目前已发展为包括13万多个概念㊁30余万术语以及100余万语义关系的大型语义网络㊂侯丽等[12]构建了基于本体的临床医学知识库,构建以知识节点为对象的疾病库㊁药物库㊁检查库三大医学知识库,并通过不同知识库中的知识节点建立关联㊂建立一个结构科学㊁层次清晰㊁覆盖全面㊁高度关联的大规模㊁高质量中文医学知识图谱,离不开大规模医疗语料库的支撑[13-14]㊂在构建过程中,本研究首先对语料进行了分析,提出了初步的医学知识图谱描述体系,而后在医学专家的指导下进一步完善标注规范,并对多来源文本进行了多轮人工标注以及自动抽取工作㊂构建了一个覆盖面广㊁知识描述准确㊁结构完备的中文医学知识图谱,为智慧医疗领域的广泛应用奠定郑州大学学报(理学版)第52卷了专业知识基础㊂1㊀知识图谱构建过程中文医学知识图谱的构建过程可分为两个阶段:一是描述体系设计;二是知识图谱构建㊂首先,我们调研了国内外权威的标准医学术语集,初步设计了概念分类体系,通过案例标注与分析,设计了关系分类体系,而后经过医学专家的评估,形成了医学知识图谱的描述体系㊂随后,通过从权威性㊁全面性和实用性等方面的考量,经过对比和整合,形成了多来源医学文本㊂对于这些非结构或半结构化的文本数据,采用了人工标注和自动提取两种方法相结合从中提取关系,其中自动提取使用了规则加tagging 模型的方法㊂对于抽取出的实体及实体关系,进行人工审核评估,构建医学知识图谱知识本体,并完成多来源数据的知识融合,从而构建出专业性强㊁内容丰富的中文医学知识图谱㊂整体构建框架如图1所示㊂图1㊀医学知识图谱构建框架Figure 1㊀Constructing framework of medical knowledge graph实体资源库的构建基于医学主题词表(medical subject headings,MeSH)㊁融合国际疾病分类[15](interna-tional classification of diseases,ICD-10)㊁解剖学治疗学及化学分类系统(anatomical therapeutic chemical,ATC)等医学术语为资源库中的实体㊂MeSH [16]是美国国立医学图书馆编制的医学主题词表,它是一部规范化㊁可扩充的动态性叙词表㊂ICD-10是国际疾病分类的第10个版本,是根据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统㊂ATC 是解剖学治疗学及化学分类系统,是世界卫生组织对药品的官方分类系统㊂实体资源库的构建不仅是本研究标注实体的依据,也是后续利用机器学习进行命名实体识别以及关系抽取的基础㊂为保证标注质量以及标注进度,本研究选取了常见的106种疾病进行人工标注㊂通过分析多来源医疗文本结构信息,按照其不同的类型进行分类,分别从病因㊁并发症㊁诊断步骤㊁鉴别诊断㊁流行病学㊁病史和查体㊁监测㊁预防㊁预后等多个维度对疾病进行了描述㊂在语料中经常会出现一句话里或一整段里没有提及该主题疾病的情况,这时就无法标注此种疾病的实体㊂为此,本研究对语料进行了预处理,以句号为特征,在每一句之前加上主题疾病的名字,并以@和原文做分割㊂如 患者可能有各种不典型症状,这些症状包括乏力㊁恶心㊁呕吐㊁腹痛以及晕厥㊂ 预处理后为 非ST 段抬高型心肌梗死@患者可能有各种不典型症状,这些症状包括乏力㊁恶心㊁呕吐㊁腹痛以及晕厥㊂2㊀知识图谱描述体系及标注规范本研究将实体分为12大类,分别为语义㊁疾病㊁部位㊁症状㊁检查㊁手术治疗㊁药物治疗㊁其他治疗㊁流行病6474㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建学㊁预后㊁社会学和其他,并使用不同的参考标准界定每一类实体涵盖的范围㊂实体之间的关系包括:语义㊁疾病-疾病㊁疾病-部位㊁疾病-症状㊁疾病-检查㊁疾病-手术治疗㊁疾病-药物治疗㊁疾病-其他治疗㊁疾病-流行病学㊁疾病-预后㊁疾病-社会学㊁疾病-其他共12个类型关系㊂具体关系类型如表1所示㊂表1㊀疾病类实体间常见关系类型Table1㊀Common㊀㊀命名实体标注的基本原则有:第一,不重叠标注,即同一段字符串不能标注为两个不同的实体;第二,不嵌套标注,即一个实体不能在另一个实体的内部;第三,实体要尽可能不含有标点符号及连接词(或㊁和㊁以及),主要目的是为了防止实体过长和实体嵌套㊂将疾病类实体作为核心,以疾病为入口,标注疾病与其他类实体和属性值(字符串㊁数字)之间的关系类型㊂对于非结构化的文本,实体关系经常跨句出现甚至跨段出现,所以标注关系时,不仅仅局限于一个句子范围内的实体关系,还包括跨段句子范围内的关系㊂3㊀知识图谱的构建3.1㊀知识图谱构建过程为了提升标注效率,开发了面向医疗文本的实体及关系标注平台㊂对于医疗文本中出现的实体,选择实体标签,选中对应的文字,即可完成实体标注㊂在完成实体标注后,可以选择进行关系标注,再依次选择关系标签所对应的第一个实体和第二个实体,即可完成两个实体间的关系标注㊂标注平台可以实现实体标注和关系标注的切换,同时提供了文件管理功能,方便进行多轮标注工作㊂第一阶段,在详细地分析了多来源医疗文本的特点之后,借鉴中文电子病历标注规范[17]的经验,本研究初步制定出了医学知识图谱描述体系结构,以此为基准,进行了3轮的试标注过程㊂试标注阶段主要目的在于收集标注中所发现的问题,经过和医学专家的讨论,进一步完善规范㊂与此同时,实体资源库的收集工作和标注平台的开发工作也在同步进行中㊂郑州大学学报(理学版)第52卷第二阶段,为了保证标注过程的准确性和一致性,本研究采取了多轮标注的方法㊂一人标注完成后,另一人进行二次标注,两次标注不一致和不确定的地方要记录下来,留待讨论会讨论,经过医学专家和老师的确认后,再由一标人返回语料中进行修改,形成最终的三标版本㊂在此过程中,根据标注人员的反馈,本研究也在不断地优化㊁更新标注规范,使其更加贴合语料自身特点㊂整体构建流程图如图2所示㊂图2㊀语料库构建流程图Figure 2㊀Flow chart of corpus construction3.2㊀知识图谱的节点描述知识图谱的描述形式为六元组,分别为实体1㊁关系㊁实体2,以及对每一元的约束或属性,表示为{entity 1,entity 1_property ,relation ,relation _property ,entity 2,entity 2_property },简记为{e 1,e 1_pro ,rel ,rel _pro ,e 2,e 2_pro }㊂CMeKG 使用百度开源可视化库Echarts 展示知识图谱,对于每一个实体,选择以该实体为主语的六元组进行显示,其中属性描述的三元可以为空,即六元组在实体和关系的属性都为空时会蜕化为三元组㊂如图3所示,连接同一节点的相同颜色节点代表相同的语义关系,整体效果呈现为以查询实体为中心,具有语义关系的相关实体发散至四周的网状结构,每个关系边的权重相等㊂4㊀构建结果及分析标注一致性用Kappa 值[18]和F 值[19]来表示㊂Kappa 值在情感极性分类的语料标注中应用较广,但在实体识别中,若把未标注的文本作为反例的话,则反例数量巨大而难以统计㊂此种情况下F 值接近于Kappa 值,故可使用F 值来对实体识别标注语料进行一致性评价[20]㊂具体做法是将三标者A 1的标注结果作为标准答案,计算一标者A 2的标注结果的精确度P 和召回率R ,进而计算F 值,计算公式为P =A 1和A 2一致的标注结果总数A 2的标注总数,R =A 1和A 2一致的标注结果总数A 1的标注总数,F =2ˑP ˑRP +R㊂㊀㊀确定实体一致性时,只有当实体文本㊁实体类型标签和起止位置均相同时,才认为实体标注是一致的;确定关系一致性时,只有当实体对的两个实体㊁关系名称和起止位置均相同时,才认为关系标注是一致的㊂文献[21]指出,标注一致性达到80%以上时,可以认为语料的一致性是可信赖的㊂最终,本研究标注的命名实体识别一致率达到了87.3%,实体关系一致率达到了82.9%,说明本研究的标注结果是可信赖的㊂共有两名医学专家和近二十名标注人员参与标注工作㊂共计完成标注3029448字㊁23475种实体概84㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建念㊁32530个实体关系三元组㊂去重后的实体数量如表2所示,关系数量如表3所示㊂表2㊀实体数量Table 2㊀Number of entities实体类型实体数量/个疾病5643部位670症状4590检查2808手术治疗683药物治疗2454其他治疗1283社会学3580流行病学854预后165其他745表3㊀关系数量Table 3㊀Number of relationships关系类型关系数量/条疾病-疾病5334疾病-部位966疾病-症状7729疾病-检查4401疾病-手术治疗858疾病-药物治疗4194疾病-其他治疗1645疾病-流行病学1042疾病-预后183疾病-社会学4567疾病-同义词753疾病-其他858㊀㊀以人工标注的106种疾病标注结果为基础,本研究还使用了规则加tagging 模型对745种其他疾病进行了自动抽取工作,共抽取出140224条实体关系,经过人工校对后,剔除57676条错误信息,剩余82548条关系,准确率为58.8%㊂因为医疗文本的非结构化信息比较复杂,所以自动抽取的准确率还有待进一步的提高㊂中文医学知识图谱(http:ʊ)展示界面如图3所示㊂图形化展示是中文医学知识图谱的重要部分,通过系统页面的首字母索引或者搜索框可以查询到各类疾病实体,并以疾病为中心放射性链接与之相关的各类实体及关系㊂图3㊀中文医学知识图谱展示界面Figure 3㊀Chinese medical knowledge graph display interface9405郑州大学学报(理学版)第52卷5 小结本文主要对中文医学知识图谱的标注进行了研究,具体从3个方面来进行展开:首先调研了国内外各类医学资源的整体情况,将其整合成多来源医疗文本作为标注文本;然后在分析语料库的结构基础上,和医学专家讨论制定出医学知识图谱描述体系,通过试标注给出初版标注规范;最后通过多轮迭代的方式标注医疗文本,并请医疗专家全程把控标注质量,以确保准确性,同时使用规则加机器学习的方法进行自动抽取,至2019年3月,构建了中文医学知识图谱CMeKG1.0版,包括6310种疾病,20余万种实体概念,100余万个实体关系三元组㊂目前来看,机器标注的准确率还有待进一步提升,同时人工标注集和海量的医学文本相比规模还是比较小,未来将继续研究如何进一步提高自动标注的准确率,并且根据妇产科学㊁儿科学等临床医学主要学科进一步扩充标注疾病㊂参考文献:[1]㊀WANG C Y,GAO M,HE X F,et al.Challenges in Chinese knowledge graph construction[C]ʊ31st IEEE International Con-ference on Data Engineering Workshops.Seoul,2015.[2]㊀ZHANG X L,DU C L,LI P S,et al.Knowledge graph completion via local semantic contexts[M].Database systems for ad-vanced applications.Cham:Springer International Publishing,2016.[3]㊀刘则渊,陈悦,候海燕.科学知识图谱方法与应用[M].北京:人民出版社,2007.LIU Z Y,CHEN Y,HOU H Y.Mapping of scientific knowledge:methods and applications[M].Beijing:Peopleᶄs Publishing House,2007.[4]㊀牟冬梅,张艳侠,黄丽丽,等.基于SNOMED CT和FCA的医学领域本体构建研究[J].情报学报,2013(6):653-662.MU D M,ZHANG Y X,HUANG L L,et al.Constructing medical ontology based on SNOMED CT and FCA[J].Journal of the China society for scientific and technical information,2013(6):653-662.[5]㊀AMARILLI A,GALÁRRAGA L,PREDA N,et al.Recent topics of research around the YAGO knowledge base[M].Cham:Springer International Publishing,2014.[6]㊀AUER S,BIZER C,KOBILAROV G,et al.DBpedia:a nucleus for a web of open data[M].Berlin:Springer Berlin Heidel-berg,2007:722-735.[7]㊀CEUSTERS W,MARTENS P,DHAEN C,et al.LinkFactory:an advanced formal ontology management system[J].Proceed-ings of interactive tools for knowledge capture(KCAP2001).Victoria B C,2001:75-204.[8]㊀STEVENS R,BAKER P,BECHHOFER S,et al.TAMBIS:transparent access to multiple bioinformatics information sources[J].Bioinformatics,2000,16(2):184-186.[9]㊀NADKARNI P,CHEN R,BRANDT C.UMLS concept indexing for production databases:a feasibility study[J].Journal of theAmerican medical informatics association,2001,8(1):80-91.[10]阮彤,孙程琳,王昊奋,等.中医药知识图谱构建与应用[J].医学信息学杂志,2016,37(4):8-13.RUAN T,SUN C L,WANG H F,et al.Construction of traditional Chinese medicine knowledge graph and its application[J].Journal of medical informatics,2016,37(4):8-13.[11]贾李蓉,刘静,于彤,等.中医药知识图谱构建[J].医学信息学杂志,2015,36(8):51-53,59.JIA L R,LIU J,YU T,et al.Construction of traditional Chinese medicine knowledge graph[J].Journal of medical informat-ics,2015,36(8):51-53,59.[12]侯丽,钱庆,黄利辉,等.基于本体的临床医学知识库系统构建探讨[J].医学信息学杂志,2011,32(4):42-47.HOU L,QIAN Q,HUANG L H,et al.Discussion on clinical medicine knowledge base system construction based on ontology [J].Journal of medical informatics,2011,32(4):42-47.[13]徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):116-122.XU L H,LIN H F,ZHAO J.Construction and analysis of emotional corpus[J].Journal of Chinese information processing, 2008,22(1):116-122.15㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建[14]张德政,谢永红,李曼,等.基于本体的中医知识图谱构建[J].情报工程,2017,3(1):35-42.ZHANG D Z,XIE Y H,LI M,et al.Construction of knowledge graph of traditional Chinese medicine based on the ontology [J].Technology intelligence engineering,2017,3(1):35-42.[15]SUNDARARAJAN V,HENDERSON T,PERRY C,et al.New ICD-10version of the Charlson comorbidity index predicted in-hospital mortality[J].Journal of clinical epidemiology,2004,57(12):1288-1294.[16]LIPSCOMB C E.Medical subject headings(MeSH)[J].Bulletin of the medical library association,2000,88(3):265-270.[17]杨锦锋,于秋滨,关毅,等.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562.YANG J F,YU Q B,GUAN Y,et al.An overview of research on electronic medical record oriented named entity recognition and entity relation extraction[J].Acta automatica sinica,2014,40(8):1537-1562.[18]JEAN C.Assessing agreement on classification tasks:the kappa statistic[J].Computational linguistics,1996,22(2):249-254.[19]HRIPCSAK G.Agreement,the F-measure,and reliability in information retrieval[J].Journal of the American medical infor-matics association,2005,12(3):296-298.[20]OGREN P,SAVOVA G,CHUTE C.Constructing evaluation corpora for automated clinical named entity recognition[C]ʊPro-ceedings of the12th World Congress on Health(Medical)Informatics.Marrakech,2008:28-30.[21]ARTSTEIN R,POESIO M.Inter-coder agreement for computational linguistics[J].Computational linguistics,2008,34(4):555-596.Construction of Chinese Medical Knowledge Graph Based onMulti-source CorpusZAN Hongying1,DOU Huayi1,2,JIA Yuxiang1,GUAN Tongfeng1,2,ODMAA Byambasuren2,3,ZHANG Kunli1,SUI Zhifang3(1.School of Information Engineering,Zhengzhou University,Zhengzhou450001,China;2.Peng Cheng Laboratory, Shenzhen518055,China;3.Institute of Computational Linguistics,Peking University,Beijing100871,China) Abstract:The Chinese medical knowledge graph(CMeKG)was a structured description of professional medical knowledge,which was also an actual need for various types of intelligent medical applications. With medical texts from multiple sources collected by this study,structural features of corpus were ana-lyzed;semantic features of medical knowledge were combined;the annotation system of medicine named entities and entity relations was formulated and the platform was developed accordingly.Under the guidance of medical experts,106high-incidence diseases were selected and labeled.The consistency rate of named entity and entity relationship were achieved87.3%and82.9%respectively.On the basis of manual anno-tation,the entity and relation were extracted automatically.Along with more than200000medical entities and over one million conceptual relationship examples and attribute triples,6310diseases,19853drugs (western medicine,Chinese patent medicine and Chinese herbal medicine),and1237diagnosis and treat-ment technologies were included in the CMeKG version1.0.Thus,A solid foundation could be laid by CMeKG in certain fields,such as medical question answering system and intelligent assisted diagnosis. Key words:medical knowledge graph;named entity;entity relationship;labeling specification;knowl-edge graph construction(责任编辑:方惠敏)。
中医药知识图谱构建

中医药知识图谱构建贾李蓉;刘静;于彤;董燕;朱玲;高博;刘丽红【摘要】在对知识图谱进行简要介绍的基础上,从数据来源、研究内容、图形化展示几方面探讨如何构建中医药知识图谱,实现中医药知识资源的有效整合,最后提出中医药知识图谱的应用前景。
%Based on introducing knowledge graph, the paper discusses how to construct Traditional Chinese Medicine ( TCM ) knowledge graph from the aspects of data sources, research contents and visualized display, so as to integrate TCM knowledge resources. It also puts forward the application prospect.【期刊名称】《医学信息学杂志》【年(卷),期】2015(000)008【总页数】4页(P51-53,59)【关键词】知识图谱;中医药;知识服务【作者】贾李蓉;刘静;于彤;董燕;朱玲;高博;刘丽红【作者单位】中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700【正文语种】中文【中图分类】R-058随着知识的爆炸式增长,计算机存储和处理能力的不断提升,信息的存储、分析、检索、可视化等技术的发展,一种以知识单元为基础,能有效获取知识、快速把握学科前沿领域的方法——知识图谱(Knowleglge Graph)悄然兴起。
2021知识图谱的数据来源、挖掘及更新维护范文2

2021知识图谱的数据来源、挖掘及更新维护范文 2001年维基媒体基金创建了维基百科,访问量排名世界第六,2012 年 12 月到2013 年 12 月期间,它损伤了近 10%即20 亿的页面访问量,其中英文版、德语版和日语版的浏览量分别下降了 12%、17%和 9%.虽然维基百科的管理员认为这其中可能存在统计错误,但是其他专家认为是去年 Google推出的知识图谱功能导致了维基百科访问量下降。
如果问题能在搜索页解决,那么就没必要去维基百科查找了。
随着近两年,LinkingOpen Data 等项目的全面展开,数量激增的语义 Web 数据源,大量 RDF 数据发布,互联网从仅包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体和实体之间丰富关系的数据万维网。
谷歌、百度、搜狗搜索引擎公司以此为基础构建知识图谱,改进搜索质量,语义搜索的序幕就此拉开。
什么是知识图谱?知识图谱的表示在搜索中的展现形式,知识图谱如何构建,如何在搜索中应用?知识图谱是谷歌在 2010 年收购的开放式数据库公司Metaweb 率先提出来的。
知识图谱也被称为科学知识图谱,它是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制展示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
搜索引擎中的知识图谱技术是以知识卡片(KnowledgeCard)的形式展现出来的。
在搜索关键词时,知识卡片会为用户提供更多与关键词相关的结构化内容信息,也就是说可以将搜索结果进行知识系统化,任何一个关键词都能获得完整的知识体系。
比如搜索“帕金森综合症”是一种什么病,传统的搜索结果里面会有一些诸如“XX 最近得了帕金森综合症”的新闻,或者是网友发帖提问“帕金森综合症到底是什么”帖子,又或者是一些治疗帕金森医院的信息或广告,其实你一一浏览这些网站对了解这个疾病帮助不大,这就大大降低了你获得知识的效率。
知识图谱构建与应用方法介绍与示例

知识图谱构建与应用方法介绍与示例知识图谱是一种用于描述和组织知识的技术,它可以将各种不同领域的知识整合在一起,形成一个结构化的知识网络。
知识图谱可以帮助人们更好地理解和利用知识,在许多领域具有广泛的应用前景。
本文将介绍知识图谱的构建方法和应用示例,帮助读者了解并应用这一强大的技术。
一、知识图谱构建方法1. 知识抽取:知识抽取是构建知识图谱的第一步,它包括从文本、数据库或其他数据源中提取结构化的知识。
常用的技术包括自然语言处理、信息抽取和实体识别等。
通过这些技术,我们可以从大量数据中提取出实体、关系和属性等信息,用于构建知识图谱的节点和边。
2. 知识表示:知识表示是将抽取得到的知识转化为计算机可以理解和处理的形式。
常用的表示方法有本体表示、三元组表示和图表示等。
本体表示使用本体语言(如OWL)定义概念和属性之间的关系,三元组表示使用主语-谓语-宾语的形式表示实体之间的关系,图表示使用节点和边的形式表示知识的结构。
3. 知识融合:知识融合是将从不同数据源中抽取得到的知识整合在一起,形成一个统一的知识图谱。
融合知识需要解决实体对齐、关系对齐和属性对齐等问题,常用的方法包括基于规则的匹配、基于语义的匹配和基于机器学习的匹配等。
4. 知识推理:知识推理是对知识图谱进行推理和推断,发现其中的隐藏知识和规律。
常用的推理方法包括规则推理、语义推理和统计推理等。
通过知识推理,我们可以发现新的关系、属性和实体,提高知识图谱的质量和可用性。
二、知识图谱应用示例1. 智能问答系统:知识图谱可以用于构建智能问答系统,帮助用户快速获取有关问题的答案。
通过将问题转化为图谱查询,系统可以在知识图谱中找到相关的实体和关系,并生成相应的回答。
例如,用户可以询问“谁是美国第一位女性总统?”,系统可以通过知识图谱回答“希拉里·克林顿是美国第一位女性总统”。
2. 智能推荐系统:知识图谱可以用于构建智能推荐系统,帮助用户发现符合其需求和兴趣的内容。
基于知识图谱的高校服务能力提升探索和研究

基于知识图谱的高校服务能力提升探索和研究文/孙兆群1,陆成松2(1.上海仪电人工智能创新院有限公司;2.上海海洋大学)摘要:本文在高校数据中台的基础上,构建基于知识图谱的高校服务能力服务平台,为数据中台提供更加完善的智能化处理单元,实现对高校数据中台的语义搜索与智能推荐,进而实现数据价值的有效挖掘与提取,改善用户搜索交互、提供搜索增项数据、筛选条件排序优化,将数据资产有效地转化为知识和数据价值,促进学校内部数据资产的价值挖掘,推动学校的数据资产应用和智能决策,为教学和学生管理工作提供更加智能、高效的服务。
本文的研究成果,具有很强的基础性和通用性,可应用在高校多种数据驱动的应用业务场景,如学涯规划、岗位匹配、招生咨询等,亦可在学生综合能力评价、学科发展潜力评估、教师教学质量评价等领域展开拓展。
关键词:资源调度;知识图谱;学涯规划;岗位匹配;招生咨询1.引言高校处于高端人才孵化、前沿科技策源、创新思维迸发的重要交汇点,肩负着人才培养、科学研究、社会服务、文化传承创新、国际交流合作等重要责任和使命,是国家科技创新体系的重要组成部分[1]。
学生作为高校教育活动的主要参与者,其学习和成长的过程情况与反馈,是判断高校服务水平优劣和促进高校服务能力提升的重要参考指标和依据。
坚持教育以学生为中心,以“发掘学生潜质、激发学生兴趣、指导学生学习、成就学生价值”为基本目标,探索基于数据驱动的新型人才培养和教育治理模式,对促进学生全面高素质发展和提升高校服务能级具有重要意义[2]。
互联网技术的迅猛发展,使人类依次经历了以文档互联为主要特征的“Web1.0”时代和以数据互联为特征的“Web2.0”时代,并正处于以知识互联为基础的“Web3.0”时代[3]。
近年来,在《国家中长期教育改革和发展规划纲要(2010—2020年)》[4]和《教育管理信息化建设与应用指南》等政策文件的指导下,高校在教学信息化、科研信息化、管理信息化等方面取得了显著的成果,学校基础数据、学生数据、教学数据、教职工数据、研究生数据、科研数据、财务数据、资产与设备数据等逐步汇聚。
面向中文基础教育知识图谱的关系抽取模型

第43卷第2期㊀2021年3月㊀湖北大学学报(自然科学版)Journal of Hubei University(Natural Science)㊀Vol.43㊀No.2㊀㊀Mar.2021收稿日期:20200928基金项目:国家自然基金项目(61977021)㊁国家重点研发计划(2017YFB1400602)㊁湖北省技术创新重大专项(2018ACA13)和湖北省教育厅青年人才项目(Q20171008)资助作者简介:单娅辉(1995),女,硕士生;张龑,通信作者,教授,主要研究方向为信息安全㊁数据库,E -mail:zhangyan@文章编号:10002375(2021)02021406面向中文基础教育知识图谱的关系抽取模型单娅辉,田迎,张龑(1.湖北大学计算机与信息工程学院,湖北武汉430062;2.湖北省教育信息化工程技术研究中心,湖北武汉430062;3.绩效评价信息管理研究中心(湖北大学),湖北武汉430062)摘要:在构建中文基础教育知识图谱过程中,使用远程监督的方法能够有效解决训练语料匮乏的问题,同时使用神经网络模型能够提升构建过程中关系抽取的准确率.为了缓解远程监督中引入的错误标签带来的影响,模型通过双向门限循环单元(bidirectional gated recurrent unit)获取双向上下文中的语义信息,同时引入句子层注意力机制,动态降低噪声数据的权重.在基于中文信息技术教材教辅和百度百科的基础上构建的知识库上的关系抽取实验表明,引入句子层注意力机制能够促进模型的关系抽取效果,模型的准确率相比于中文主流关系抽取方法提高了4%~5%,能更好地应用于知识图谱的构建.关键词:中文关系抽取;注意力机制;远程监督;基础教育;知识图谱中图分类号:TB324.1㊀㊀文献标志码:A㊀㊀DOI :10.3969/j.issn.1000-2375.2020.00.007著录信息:单娅辉,田迎,张龑.面向中文基础教育知识图谱的关系抽取模型[J].湖北大学学报(自然科学版),2021,43(2):214-219.Shan Y H,Tian Y,Zhang Y.A relation extraction model oriented to the knowledge graph of Chinese basic education [J].Journal ofHubei University(Natural Science),2021,43(2):214-219.A relation extraction model oriented to the knowledgegraph of Chinese basic educationSHAN Yahui,TIAN Ying,ZHANG Yan(1.School of Computer Science and Information Engineering,Hubei University,Wuhan 430062,China;2.Research Center of Educational Informatization Engineering and Technology,Hubei University,Wuhan 430062,China;3.Research Center of Information Management for Performance Evaluation,Hubei University,Wuhan 430062,China)Abstract :In the process of constructing a knowledge graph of Chinese basic education,the use of remotesupervision can effectively solve the problem of lack of training corpora,and the use of neural network modelscan improve the efficiency of relation extraction during the construction process.In order to mitigate the impactof incorrect labels introduced in remote supervision,the model obtains semantic information in a bidirectionalcontext through a bidirectional gated recurrent unit,while introducing a sentence-level attention mechanism todynamically reduce the weight of noisy data.The relationship extraction experiments on the knowledge basebuilt on the basis of Chinese information technology teaching materials and baidu encyclopedia show that theintroduction of sentence-level attention mechanism can promote the relationship extraction effect of the model.The mainstream relation extraction method is improved by 4%-5%,which can be better applied to the construction of knowledge graph.Key words :Chinese relation extraction;attention mechanism;remote supervision;basic education;knowledge graph第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型215㊀0㊀引言随着我国信息技术的发展,通过新兴技术来直接或间接影响传统教育教学方式,已成为教育信息化的新热点.2012年,Google提出 Google Knowledge Graph 后,知识图谱在各个领域受到了广泛的关注,其中教育领域知识图谱更是在近年来成为研究热点.在构建中文教育领域知识图谱的过程中,面对急剧增长的数据,中文实体关系抽取成为其中的难点之一.传统的关系抽取方法主要包括两类,一类是基于规则匹配的方法,另一类是基于深度学习的方法.其中基于规则匹配的方法是定义了一种表达实体关系的规则模版,然后在数据中找到与该模版相匹配的实体及关系.该方式对数据要求较高且灵活性很差[1],已逐渐被深度学习的方法所取代.基于深度学习的方法目前流行的包括有监督的方法和远程监督的方法[2].其中,有监督的关系抽取方法主要是利用深度学习中的神经网络模型能够自动学习文本的特征,改善了经典方法中需要人工特征选择的缺点[3].远程监督的关系抽取方法是将大量无标注的数据自动对准已标注的知识库来自动标注数据来提高关系抽取的效率.该方法的前提是,如果两个实体间存在已定义的某种关系,那么所有包含这两个实体的文本都存在该关系[4].Mintz等[5]提出使用Freebase知识库与维基百科中的文本来对齐,获取实体及其关系的三元组.在该前提下,基于远程监督的关系抽取能够自动获取大量的训练实例,但是同时也不可避免地存在许多噪声数据.王斌等[6]用远程监督的方法进行关系抽取时,通过采用LDA(latent dirichlet allocation)模型㊁对比类型相似度和对关键词进行模式匹配去噪.Surdeanu等[7]提出加入多标签来减少噪声数据对关系抽取性能的影响.Lin等[8]提出在加入注意力机制在训练过程中通过动态调整各实例的权重来降低噪声数据的权重,从而减少错误实例对关系抽取模型性能的影响.以上方式大多是基于英文语料或者中文通用语料上[9]提出的模型,而在中文教育领域,杨玉基等[10]提出在构建领域知识图谱过程中使用有监督㊁无监督㊁远程监督多种方法来进行关系抽取,最后使用大量人工标注来获取高质量数据,耗费时间精力.黄焕等[11]在构建java知识图谱的过程中采用人工定义关系类型,且在识别实体关系的过程中采用手工标注关系的方式,虽然保证了数据的准确性,但适用性不强.本研究提出的实体关系抽取模型适用于中文基础教育中的科目,将高质量的教材教辅通过文本处理成已标注的知识库,通过远程监督能够获取大量数据并自动标注,加入的句子层注意力更能有效减少噪声数据对于关系抽取性能的影响.1㊀远程监督构建关系语料库由于中文领域公开的可供使用的数据很少,而基础教育领域的就更少见,所以首先利用教育部发布的基础教育的教材教辅,将其转换成可供使用的电子文本;然后结合网络爬虫从百度百科上获取的网页数据,通过预处理得到关系实体对以及包含实体对的文本集;最后选取其中一部分数据作为训练数据对关系抽取模型进行训练,另一部分作为测试数据来检测模型关系抽取的效果.构建流程如图1所示.图1㊀构建流程1.1㊀构建信息技术知识库㊀基于教育部发布的基础教育中信息技术学科的教材教辅,利用OCR技术216㊀湖北大学学报(自然科学版)第43卷将图像中的文字转换成文本格式存储,使用词频-逆向文件频率[12](term frequency-inverse document frequency,TF-IDF)算法和TextRank [13]算法对文本集进行关键词抽取,TF-IDF 算法是一个统计词语在该文件中的重要程度的方法,其核心思想是词语的重要性与它在该文件中出现的次数成正比,同时与它在语料库中出现的次数成反比.TF-IDF 算法考虑了词语出现的频率等因素,但是没有考虑与其他词语的关联性,而TextRank 算法就考虑到了词语之间的关联程度.TextRank 算法起源于Google 团队的PageRank 算法,其核心思想是,如果网页节点代表一个字词,那么这个词语的重要性与连接其他词语的多少和与它连接的词语权值的高低成正比.分别使用以上两种算法对文本进行关键词提取,得到了 数据库 信息安全 信息资源管理 计算机病毒 等核心概念,但同时也得到了一些出现频率高,却不是核心概念的词,如 学生 方法 过㊀㊀㊀㊀程 等.结合信息技术领域专家的指导,得到最终的学科实体并且定义了基础教育领域信息技术中实体的2种属性关系: 同级 父级 .如表1所示,构建了包括2种属性关系及其对应的3563个实例的知识库.表1㊀关系及其对应实例关系名称实例父级<数据库,数据库管理>同级<音频,视频>1.2㊀构建关系实例集㊀在远程监督构建关系实例集中,如果我们文本集中的句子包含的实体对在知识库中有对应的关系,那么我们认为该句子可以描述此关系.以关系实体对<信息技术,传感技术,父级>为例,可以在文本集中找到包含 信息技术 和 传感技术 的句子:1)[传感技术]同计算机技术与通信一起被称为[信息技术]的三大支柱;2)[信息技术]包括[传感技术],通信技术和电子计算机技术等,将这两个句子分别提取出来,作为 父级 关系的两个实例, 信息技术传感技术父级传感技术同计算机技术与通信一起被称为信息技术的三大支柱 , 信息技术传感技术父级信息技术包括传感技术,通信技术和电子计算机技术等 ,为了方便模型训练,我们将关系实例的各个部分用空格符分割,这些关系实例构成我们使用的关系实例数据集.图2㊀模型训练流程2㊀关系抽取模型设计本研究提出一种面向中文基础教育知识图谱的关系抽取模型,基于权威教材教辅和远程监督构建的关系数据集,转化成词向量模型供模型训练,通过双向门限循环单元获得句子上下文语义,引入句子层注意力机制来动态降低句子噪声权重,提升了关系抽取模型的准确率.模型训练算法如图2所示.2.1㊀词向量映射训练㊀为了将数据转换成模型可识别的形式,我们需要将文本数据向量化.Mikolov 等[14]提出了分布式的词向量表征word2vec,即一个词用一个低维向量来表示,词与词之间的相似性可以通过向量之间的相关性表示,其中包括2个模型,连续词袋(Continuous Bag-of-Words,CBOW )模型和Skip-Gram 模型,由于Skip-Gram 模型在语义关系识别方面效果较好,所以本研究采用word2vec 中的Skip-Gram 模型来对词向量模型进行训练,使用知识库中所有的三元组来进行训练,其中模型参数设置的窗口数为5,向量维度为200.2.2㊀BI-GRU ㊀传统的循环神经网络通过权重矩阵使神经网络具备了记忆功能,但是由于梯度爆炸和梯度消失的存在,它不能记忆太前和太后的内容.GRU 网络是由Chung 等[15]对LSTM 网络(一种循环神经网络)进行改进得到的一种结构,由于门控机制,很大程度上弥补了梯度爆炸或梯度消失所带来的第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型217㊀图3㊀GRU 内部结构损失,同时它简化了LSTM 网络,只有更新门(update gates)和重置门(reset gates)两种门结构,因此参数更少,也更容易收敛㊂其内部结构如图3所示.其更新表达式为:h t =z t h t -1+(1-z t ) hᶄ(1)h t-1包含了前一时刻节点的相关信息,z t 表示更新门,hᶄ表示当前时刻节点的相关信息,主要是包含了当前的输入x t .从公式中可以得到,z t 能控制遗忘和记忆的信息量,它的取值范围为0~1,越接近1,代表 记忆 下来的前一时刻节点信息越多;越接近0则代表 遗忘 的越多.z t 计算表达式为:z t =σ(W z ㊃[h t -1,x t ])(2)σ为sigmoid 函数,这个函数使数据的取值范围为0~1来表示成门控信号,重置门r t 计算表达式为:r t =σ(W r ㊃[h t -1,x t ])(3)㊀㊀hᶄ计算表达式为:hᶄ=tanh(W ㊃[r t ∗h t -1,x t ])(4)上述公式中W z ,W r ,W 为权值矩阵,用于模型训练,x t 表示当前的输入信息.我们通过上一个节点传输下来隐状态的h t-1和当前输入的信息x t 来得到更新门z t 和重置门r t ,然后使用重置门r t 将重置之后的数据通过σ激活函数缩放到-1~1的范围,最后由更新门z t 对原本隐藏状态的选择性 遗忘 和对当前信息选择性 记忆.图4㊀Bi-GRU 内部结构为了能够捕获词语的前后特征,本研究采用双向GRU (Bi-GRU )网络作为模型的一部分来提高模型的性能,从而更好地进行关系抽取.Bi-GRU 的结构如图4所示.在每一时刻,模型的输入数据会同时经过两个方向相反的单向GRU,而后通过它们进行输出.2.3㊀句子层注意力㊀使用远程监督的方法构建实例数据集中,自动获取的实例有时候并不包含该关系,为了减少噪声数据的影响,本文引入了句子层注意力机制.对于含有相同实体对的m 个句子向量集合s ={s 1,s 2,s 3, ,s m },s i 为句子向量,句子向量为s 中所有句子的加权,其表达式T 为:T =ðmi =1k i si(5)其中,权重K i 表示句子S i 与对应关系R 的相关程度,其表达式为:k i =softmax (s i Ar )(6)其中,A 为初始化的加权对角矩阵,r 为对应关系R 的向量表示.3㊀实验与分析3.1㊀实验数据㊀由于目前还没有通用和权威的针对基础教育信息技术这一领域的公开数据集,因此本研究基于教育部发布的教材教辅采用远程监督的方法构建了关系实例数据集.针对基础教育知识图谱的特性,本文中所构建的语料包含2类属性关系: 同级 父级 ,包含了106332个关系实例.本研究实验随机选取数据集80%的关系实例数据作为训练数据,其余的20%的关系实例作为测试数据,图5为关系实例数据集片段.3.2㊀评估标准㊀本研究使用准确率(P Precision )㊁召回率(R Recall )㊁F 值(F1-score)作为模型的评估标准,来218㊀湖北大学学报(自然科学版)第43卷图5㊀关系实例片段评估关系抽取模型的效果.其计算公式如式(7)~(9)所示:P Precision =TP TP +FP(7)R Recall =TP TP +FN(8)F =2∗P Precision ∗R Recall P Precision +R Recall(9)其中,TP (true positive)表示测试集中该关系的正例被匹配到的数值,FP (false positive)表示测试集中该关系的正例未被匹配到的数值,FN (false negatives)表示测试集中该关系的负例被错误匹配的数值.3.3㊀实验结果及分析㊀为了验证本文中方法的有效性和适用性,设置3组实验进行对比.㊀㊀实验一:在远程监督构建数据的实验上,加入的句子层注意力机制能够减少噪声数据,为了验证去噪数据和未去噪数据关系抽取效果,对于两种关系类型,采用BIGRU 与BIGRU +Attention 模型进行对比实验.实验结果如表2所示.表2㊀BIGRU 与BIGRU +Attention 模型实验结果关系类型BIGRU BIGRU +AttentionPRF P RF同级74.21%73.55%73.88%83.18%82.41%82.79%父级74.33%73.62%73.97%83.11%82.45%82.78%㊀㊀从表2可以看出,加入了句子层注意力机制后,模型的实验结果指标均有提高.主要原因是句子层注意力机制能够减少训练语料的噪声数据,更有效地捕捉句子的特征,使得模型训练得更好,故关系抽取效果更好.㊀㊀实验二:通过神经网络进行远程监督的关系抽取模型中,PCNN +Attention 模型通过加入句子层注意力来减少噪声标注,对于两种关系类型,采用BIGRU +Attention 与PCNN +Attention 模型进行对比实验.实验结果如表3所示.表3㊀PCNN +Attention 与BIGRU +Attention 模型实验结果关系类型PCNN +AttentionBIGRU +AttentionP RF P RF同级78.41%77.52%77.96%83.18%82.41%82.79%父级78.62%77.75%78.18%83.11%82.45%82.78%㊀㊀从表3可以看出,在同样加入句子层注意力机制的远程监督方法中,相比于PCNN 神经网络,BIGRU 神经网络模型有着更高的准确率和召回率,模型提高了5%左右,这表明BIGRU 模型能够提升关系抽取的效果.实验三:由于中文教育知识图谱的实体关系不同于通用领域的实体关系,目前已知的一些中文教育领域知识图谱实体关系使用支持向量机(SVM),条件随机场(CRF)进行关系抽取,为了验证本文中关系抽取模型对于构建中文教育知识图谱的适用性,在相同条件下,采用SVM 和CRF 模型进行对比实验.实验结果如表4所示.表4㊀SVM 、CRF 与本文中模型实验结果关系类型SVM CRF 本研究模型P R F P R F P R F 同级79.31%79.66%79.48%80.12%80.32%80.22%83.51%82.76%83.13%父级80.02%79.33%79.67%80.38%80.45%80.41%84.44%83.57%84.00%㊀㊀从表4可以看出,本研究所提出的关系抽取模型在中文基础教育数据中的关系抽取的F 值更高,模型性能更好,适用性更强.主要原因是本研究加入的句子层Attention 机制能够减少数据中的噪声问题,同时双向GRU 能够解决SVM 模型在关系抽取的过程中丢失了词语位置信息的缺点.第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型219㊀4㊀结束语本研究针对中文基础教育知识图谱中的实体关系,提出一种基于注意力机制的远程监督关系抽取模型,为验证模型的性能,本研究以信息技术知识图谱为例,构建基于中文信息技术教材教辅的知识库并进行了对照试验,实验结果表明,相比于已知的知识图谱中实体关系抽取方法,基于注意力机制的关系抽取模型能有效提高关系抽取的准确率.后续工作将尝试使用该模型参与中文基础教育知识图谱的构建,提高知识图谱构建效率及准确率,由于中文基础教育领域的公开数据较少,数据前期处理工作量较大,本研究使用的数据不够全面,模型还未达到理想的抽取效果,后期将考虑采用更多更全面的数据,结合更丰富的人工特征,如词性等来改进模型.5㊀参考文献[1]陈金栋,肖仰华.一种基于语义的上下位关系抽取方法[J].计算机应用与软件,2019,36(2):216-221.[2]吴佳昌,吴观茂.基于依存关系和双通道卷积神经网络关系抽取方法[J].计算机应用与软件,2019,36(4):241-246.[3]鄂海红,张文静,肖思琪,等.深度学习实体关系抽取研究综述[J].软件学报,2019,30(6):1793-1818.[4]Riedel S,Yao L,Mccallum A.Modeling relations and their mentions without labeled text[C]//Proceedings of European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer-Verlag,2010:148-163. [5]Mintz M,Steven B,Rion S,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of Joint Conference of the Meeting of the ACL.Stroudsburg:Association for Computational Linguistics,2009:1003-1011. [6]王斌,郭剑毅,线岩团,等.融合多特征的基于远程监督的中文领域实体关系抽取[J].模式识别与人工智能,2019,32 (2):133-143.[7]Surdeanu M,Tibshirani J,Nallapati R,et al.Multi-instance multi-label learning for relation extraction[C]//Proc of the Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:455-465.[8]Lin Y,Shen S,Liu Z,et al.Neural relation extraction with selective attention over instances[C]//Proceedings of the54th Annual Meeting of the Association for Computational Linguistics,Berlin,Germany,2016:2124-2133.[9]张兰霞,胡文心.基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J].计算机应用与软件,2018,35(11):130-135.[10]杨玉基,许斌,胡家威,等.一种准确而高效的领域知识图谱构建方法[J].软件学报,2018,29(10):2931-2947.[11]黄焕,元帅,何婷婷,等.面向适应性学习系统的课程知识图谱构建研究:以 Java程序设计基础 课程为例[J].现代教育技术,2019,29(12):89-95.[12]田迎,单娅辉,王时绘.基于知识图谱的抑郁症自动问答系统研究[J].湖北大学学报(自然科学版),2020,42(5):587-591.[13]Mihalcea R,Tarau P.TextRank:bringing order into texts[C]//Proc of the Association for Computational Linguistics,2004.[14]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J/OL].arXiv PreprintarXiv:1301.3781,2013.[15]Chung J,Gulcehre C,Cho K,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[J/OL].arXiv:1412.3555,2014.(责任编辑㊀江津)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 知识服务
– Semantic Parsing – 知识推理
谢谢
规则所产生的训练语料规模: Top1+无最近邻 12.8 MB Top1+最近邻 12.8 MB Top5+无最近邻 25.4 MB Top5+最近邻 25.4 MB
在大数据环境下,细致的处理不再重要 训练语料量的增加比训练语料质的提升更为重要
知识服务
已有的知识服务:检索与问答
基于知识图谱的检索或问答的核 心问题:Semantic Parsing
Solution:建立框架?
• 是否需要建立知识体系的框架
– 已有的体系框架
• GeoNames/DBpedia Ontology/TexonConcept Ontology • KOS/
– 的翻译和扩展
• 体系覆盖度不足,局限于英文 • 细致化不足
– 百科知识描述体系的制订
Types
Chinese English
2000 1985 1984 2007 2007 2007
Manual
Common Sense Knowledge
Automatic
Common Sense Knowledge + Factual Knowledge
Crowding Sourcing
知识工程:三个层面问题
– 构建知识图谱不需要正确识别每个句子中的实体关系 – 充分利用网络数据的冗余特性
• 根据数据源、文本信息结构的置信度进行投票
• 中文 vs. 英文
– 中文文本缺乏严格的句法信息
• Yao Ming was born in 1980. • 姚明,1980,上海人,篮球运动员…….
海量数据下的实体关系抽取
• 这些开放式类别标签存在冗余、不规范的 问题,标签之间也缺乏关联
– 1980年、购房、房产、房地产……
目前的Taxonomy存在的问题
• 不同的知识资源采用不同的Taxonomy
• 类ogy Matching
• 建立体系间的Alignment
模板
思考
• NELL:
– 给定了Ontology,约束了关系的类别,很难发现未知的 实体关系
• University of Washington :
– 从句法结构判别实体关系,可以发现未知的实体关系 ,但是所抽取的都是关系的mention,缺乏对于关系语 义的确定
– 需要对于关系的语义进行挖掘
• 已有方法都是集中于英文,在中文方面表现如何
人物
87 79 119 62 11 8 7
地理
182 147 96 101 11
7 7
电影
260 109 327 87 21
4 3
动物
183 107 129 72
7 4 4
图书
104 36 76 26 17 10 9
816
37 30
747
3
318
478
半结构化 半结构化和非结构化文本的实体关系抽取非常重要
– 挖掘概念之间SameAs关系 – 评测:Ontology Alignment Evaluation Initiative
• 2004-2013
– Benchmarks (bibliographic references), Web directories, Anatomy (biomedical)
评测: QALD
面向复杂问句的知识问答
Who are the parents of the wife of Juan Carlos I?
– 问题分析:把自然语言问句转换成语义三元组的形式 – 资源映射:对Query Triple中的每个短语,确定其在知识库
中的对应资源 – SPARQL生成:对于不同类型的问题依据不同的模板生成
• 优点:可以表示比较丰富的概念关系 • 缺点:给推理带来困难,无法避免概念冗余
知识体系:三种组织形式(Cont.)
• 标签分类法
– Folksonomy
• 网络用户自发性定义的平面的、非层级的标签分类 • 优点:灵活,可以表达更为丰富的概念关系 • 缺点
– 缺乏层次性,难以揭示复杂的关系 – 自定义的标签缺乏语义精确性,标签缺乏组织与关联 – 给推理带来很大的困难
1,994,282 Instances of 874 different categories and relations
UW: Machine Reading
• TexRunner、ReVerb、WOE、 OLLIE
– 从Wikipedia Infobox获得关系名 – 通过在句法树上回标获得句法关系
– 信息块的识别(Record Identification) – 模板的学习(Pattern Learning) – 属性值的抽取(Attribute Value Extraction)
Infobox中的属 性名 身高 语言 国籍 体重 ……
抽取方法(续)
• 相对于工业界,学术界更加侧重于从纯文 本中抽取实体知识
• 优点:因为概念关系单一,方便于知识推理 • 缺点:无法表示概念关系的多样性
– Taxonomy
• 树状结构,上下位节点之间非严格的IsA关系,而是HypernymHyponym关系 – Places -> Milky Way Galaxy -> Solar Systems -> Sol -> Inner Planets -> Earth -> North America -> United States -> California -> Cupertino.
• 中国大百科全书出版社
知识获取
文本信息结构
• 结构化数据(Infobox)
– 置信度高 – 规模小 – 缺乏个性化的属性信息
• 半结构化数据
– 置信度较高 – 规模较大 – 个性化的信息 – 形式多样 – 含有噪声
• 纯文本
– 置信度低 – 复杂多样 – 规模大
抽取方法
• 结构化与半结构化文本信息(利用网页结构)
中文知识图谱:体系、获取与服务
中国科学院自动化研究所 模式识别国家重点实验室
赵军 刘康
什么是知识图谱
• The Knowledge Graph is a system that understands facts about people, places and things and how these entities are all connected.
• Formal Ontology vs. Lightweight Ontology – Formal Ontology: 大量使用公理 – Lightweight Ontology: 不用或很少使用公理
知识体系:几个术语(cont)
• 关系
– 层级关系Hypernym-Hyponym
• Is-a (Kind-of) • Part-Whole
知识体系 知识获取 知识服务
多数研究集中在这一层面
知识体系
知识体系:几个术语
• Ontology vs. Knowledge Base
– Ontology:共享概念化的规范,涉及概念、关系和公理三个要素 – Knowledge Base:服从于ontology 控制的知识单元的载体
– Ontology是蛋糕的模具,Knowledge Base是蛋糕
• 自然语言句子到知识库中概念和关系的映射
姚明到底有多高?
Semantic Parsing
• 传统semantic parsing
– 在一个限定的领域中做semantic parsing – Ontology规模小 – 基于关键词匹配或者人工书写模板
• CCG(Combinatory Categorial Grammar) • PCCG(Probabilistic Combinatory Categorial Grammar)
– 非层级关系
• Thematic roles 论旨角色 • Possession 领属 • Attribute 属性 • Casuality 因果 • ……
知识体系:三种组织形式
• 层级分类法
– Ontology (狭义)
• 树状结构,不同层节点之间具有严格的IsA关系 – Human activities -> leisure activities -> sports -> golf
SPARQL语句
Inference over the Web
• 关键难点
– 如何学习鲁棒的推理规则 – 如何推理、验证新的知识
小结
• 知识体系
– 何种知识体系是有效的? – 是否需要建立知识体系的框架?或者建立进行ontology matching,
或者Tag matching
• 知识获取
– 非结构化文本的实体关系抽取是构建知识图谱的重要组成部分, 目前的性能还未达到实用
• 回标产生的训练语料越准确,训练得到的模型就越准确?
– 增加两条规则以保证训练语料的正确性
• TopN规则(回标后选取实体1与实体2最近的N个句子)
– Top1 vs. Top5
• 最近邻规则(当一个句子中出现多个实体1与多个实体2,则取最近邻的那个 规则)
– 最近邻 vs. 无最近邻
– 用不同的训练语料训练抽取器
• 关键:概念之间的相似度计算 • 挑战
– Large-scale ontology matching and evaluation – Matching with background knowledge (Increase recall but hurt precision) – Multiple matchers and selection(Global Alignment) – Incorporating social information