2020年中国知识图谱行业研究报告

合集下载

国内基础教育人工智能技术应用的现状、热点以及趋势——基于近十年CNKI核心数据库的文献知识图谱分析

国内基础教育人工智能技术应用的现状、热点以及趋势——基于近十年CNKI核心数据库的文献知识图谱分析

第24期2020年12月No.24December,20200 引言近年来,国家对于人工智能的发展也越来越重视,2017年7月,国务院发布《新一代人工智能发展规划》,在该文件中明确指出了人工智能的发展对于教育行业发展的重要性。

2018年5月,教育部发布了《教育信息化2.0行动计划》,再次强调了发展智能教育的重要性,开启了智能教育时代。

2020年3月,美国高等教育信息化组织发布的《2020年地平线报告:教与学版》,再次强调了人工智能技术在教育中的重要作用。

1 数据来源与研究方法1.1 数据来源研究数据的收集来源于中国知网(CNKI )数据库,在高级检索页面中主题词设定为“人工智能”并含“教育”。

学科设定为“社会科学Ⅱ辑”中的社会科学理论与方法、社会科学及统计学、教育理论与教育管理、高等教育;“信息科技”中的无线电电子学、电信技术、计算机硬件技术、计算机软件及计算机应用和互联网技术。

时间跨度为2010年1月1日至2020年3月15日。

期刊来源选取“核心期刊”和“CSSCI ”。

共检索到914篇,剔除不符合主题的文献,共得到792篇作为研究样本。

1.2 研究方法本研究利用CiteSpace V 软件进行可视化分析,绘制了2010年以来国内人工智能教育的作者、机构合作图谱,关键词共现图谱等,对现有的文献进行定量和定性分析。

知识图谱是通过“图”和“谱”的双重特征与性质,基于科学知识对象显示其发展进程和结构关系,通过可视化知识图形和序列化的知识谱系,呈现知识元或知识群之间网络结构互动交叉演化或衍生等诸多复杂的关系。

本文除了采用文献研究法之外,还采用了对比分析法,通过对不同的文献进行对比分析,了解人工智能教育的应用现状以及特点。

摘 要:近年来,随着科技的发展,人工智能已经成为人们生活中不可忽略的一个部分。

在教育行业中,也有越来越多的教育单位选择使用人工智能技术开展教育工作,但是目前国内针对人工智能教育的应用却依旧存在一定的问题,亟待改善和解决。

领域知识图谱研究进展及其在水利领域的应用

领域知识图谱研究进展及其在水利领域的应用

第49卷第1期2021年1月河海大学学报(自然科学版)Journal of Hohai University(Natural Sciences)Vol.49No.1Jan.2021DOI :10.3876/j.issn.10001980.2021.01.005 基金项目:国家重点研发计划(2018YFC0407901);安徽省高等学校自然科学研究重点项目(KJ2019A1277)作者简介:冯钧(1969 ),女,教授,博士,主要从事数据管理㊁智能数据处理与数据挖掘㊁水利信息化研究㊂E⁃mail:fengjun@ 通信作者:杭婷婷,副教授㊂E⁃mail:httsf@引用本文:冯钧,杭婷婷,陈菊,等.领域知识图谱研究进展及其在水利领域的应用[J].河海大学学报(自然科学版),2021,49(1):26⁃34.FENG Jun,HANG Tinting,CHEN Ju,et al.Research status of domain knowledge graph and its application in water conservancy[J].Journal of Hohai University(Natural Sciences),2021,49(1):26⁃34.领域知识图谱研究进展及其在水利领域的应用冯 钧1,杭婷婷1,2,陈 菊1,王云峰1,王秉发1,张 涛1(1.河海大学计算机与信息学院,江苏南京 211100;2.无人机开发及数据应用安徽高校联合重点实验室,安徽马鞍山 243031)摘要:首先总结现有领域知识图谱的研究现状㊂其次,介绍领域知识图谱的发展趋势㊂然后,梳理水利领域知识图谱的构建难点,提出包含知识表示㊁抽取㊁融合㊁推理和存储等关键模块的水利领域知识图谱研究框架,并简要概括上述各模块的研究内容㊂最后,指出领域知识图谱构建存在的表示形式单一㊁抽取样本稀少㊁多源知识冲突㊁规则表示困难和数据管理低效等问题,认为合理化表示㊁准确全面抽取㊁实时性融合㊁可解释推理和高性能存储是下一步水利知识图谱的研究方向㊂关键词:领域知识图谱;水利领域;大数据;知识表示;知识抽取;知识融合;知识推理;知识存储中图分类号:TP391.1 文献标志码:A 文章编号:10001980(2021)01002609Research status of domain knowledge graph and its application in water conservancyFENG Jun 1,HANG Tinting 1,2,CHEN Ju 1,WANG Yunfeng 1,WANG Bingfa 1,ZHANG Tao 1(1.College of Computer and Information ,Hohai University ,Nanjing 211100,China ;2.Key Laboratory of Unmanned Aerial Vehicle Development and Data Application of Anhui Higher Education Institutes ,Maanshan 243031,China )Abstract :Firstly,this study summarized the current research status of the domain knowledge graph.Secondly,the development trend of the domain knowledge graph was introduced.Then,this study sorted out some difficulties in the construction of water conservancy knowledge graph,proposed a research framework including main modules such as knowledge representation,extraction,fusion,reasoning,and storage,and briefly summarized the research content of each module.Finally,the construction of domain knowledge graph encountered some problems,such as the single representation,the extraction sample sparse,the multi⁃source knowledge conflict,the rule representation difficulty,and the inefficient data management.Therefore,the rationalized representation,accurate and comprehensive extraction,real⁃time fusion,interpretable reasoning,and high⁃performance storage are regarded as the next research direction of water conservancy knowledge graph.Key words :domain knowledge graph;water conservancy;big data;knowledge representation;knowledge extraction;knowledge fusion;knowledge reasoning;knowledge storage随着人工智能研究的不断发展,人工智能的主要发展方向经历了从拥有快速计算和记忆存储能力的运算智能,到拥有视觉㊁听觉㊁触觉等感知能力的感知智能,正在迈向拥有理解和思考能力的认知智能㊂知识图谱和以知识图谱为代表的知识工程系列技术是认知智能的核心㊂知识图谱本质是一种揭示实体之间关系的语义网络,可以对现实世界的事务及其相关关系进行形式化描述[1],它强大的语义处理和互联组织能力,对有效描述数据间的关联关系进而打破信息孤岛的局面具有一定的现实意义㊂目前,在一些领域已经出现了面向领域的知识图谱,例如电影领域的IMDB [2]㊁生物医学领域的BMKN [3]㊁新闻领域的ECKG [4]㊁健康领域的SHKG [5]等㊂从已有的领域知识图谱看,构建领域知识图谱需要借鉴通用知识图谱的方法,同时还需要依靠特72第1期冯 钧,等 领域知识图谱研究进展及其在水利领域的应用定行业数据,具有特定的行业意义,领域知识图谱的构建是当前知识图谱研究的一个重要方向和趋势㊂随着水利信息化及其水利信息技术的发展,水利领域长期业务实践积累了实时监测㊁遥感遥测㊁水文气象㊁水利工程㊁社会经济等多源异构水利大数据,实现了水利监测从点到面的转变,从静态到动态的拓展㊂随着信息采集和传输技术的飞速发展和领域信息化的进程,领域数据不断更新,数据量日益增加,数据间语义不一致也屡见不鲜㊂多源异构数据呈现出海量㊁动态㊁内容多样㊁处理复杂的特点㊂如何让分布存储管理的㊁语义各异的数据能够互联,充分发掘领域数据价值,促进信息资源的高效利用,是推进智慧水利[6]的关键,也是水利信息资源查询推荐,语义搜索,智慧防汛[7⁃8]和智慧水资源管理[9]等应用的基础,对于提高水利领域智能化管理水平㊁辅助管理者进行决策分析具有非常重要的意义[10]㊂因此,水利领域知识图谱研究既具有重要的理论意义,也具有显著的实用价值㊂本文总结领域知识图谱构建的研究现状,包括构建方式㊁应用现状等方面的进展;介绍近年来领域知识图谱构建的发展趋势;对水利领域知识图谱构建工作进行展望,提出研究框架和具体的研究内容㊂1 领域知识图谱构建研究现状知识图谱按照覆盖范围可分为通用知识图谱和领域知识图谱㊂通用知识图谱面向通用领域,以常识性知识为主,其构建过程高度自动化㊂其关联的大多数是静态的㊁客观的㊁明确的三元组事实性知识㊂领域知识图谱面向某一特定领域,以行业数据为主,其构建过程半自动化㊂其关联的不仅包含静态知识,也涉及一些动态知识㊂本文主要探讨领域知识图谱构建㊂1.1 领域知识图谱的构建方式在领域知识图谱的构建方式方面,目前主要有自顶向下和自底向上2种构建方式㊂自顶向下方式是针对特定的行业,由该行业专家定义好顶层本体与数据模式,再将抽取到的实体加入到知识库中㊂国内外现有的本体建模工具以Protégé㊁PlantData为代表㊂Protégé是一套基于RDF(S),OWL等语义网规范的开源本体编辑器,拥有图形化界面,适用于原型构建场景㊂PlantData是一款商用知识图谱智能平台软件㊂该软件提供了本体概念类㊁关系㊁属性和实例的定义和编辑,屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建,使得建模更加便捷㊂自底向上方式主要依赖开放链接数据集和百科网站,从这些结构化的知识中进行自动学习,直接将抽取数据中发现的实体㊁关系以及属性合并到知识图谱中[11]㊂自顶向下的方法有利于抽取新的实例,保证抽取质量㊂而自底向上的方法则能发现新的模式㊂因此,目前大部分领域知识图谱的构建方式是自顶向下和自底向上相结合的方式㊂1.2 领域知识图谱的应用现状领域知识图谱通常用来辅助各种复杂的分析应用或决策支持㊂目前,在大多数领域中均存在领域知识图谱的应用㊂因为应用场景和应用目的不同,不同领域的应用形式也有所不同㊂下面将从知识应用的角度出发,介绍相关领域知识图谱的应用现状㊂a.电商知识图谱的应用㊂电商知识图谱的主要应用场景就是导购㊂导购就是让消费者更容易找到他想要的东西㊂为此,电商知识图谱学习了大量的行业规范与国家标准,对一些专业词汇进行了更细致的解决㊂另外,它还可以从公共媒体和专业社区中识别出近期热词㊂当消费者输入相关热词之后,可以出现跟热词相关的商品㊂与此同时,电商知识图谱还可以通过场景构建,实现与场景相关的商品推荐㊂b.医疗知识图谱的应用㊂医疗知识图谱的主要应用包括医疗过程智能辅助㊁医学科研以及患者服务等方面㊂其中医疗过程智能辅助是通过医疗知识图谱实现临床辅助决策㊁合理用药等智能服务㊂医学科研是基于医疗知识图谱,辅助医务工作者实现疾病风险预测㊁药物研发等应用服务㊂患者服务是根据患者过去的就医记录以及相关的医疗知识,为患者提供健康知识推送和健康评估等日常服务㊂c.企业知识图谱的应用㊂企业知识图谱通过异常关联挖掘㊁最终控制人等方式为行业客户提供风险管理㊂其中异常关联挖掘是通过路径分析㊁关联探索等操作,挖掘企业之间的异常关联,减少企业经营风险和资金风险㊂最终控制人是寻找持股比例最大的股东,最终追溯至自然人或者国有资产管理部门,向行业用户提供更准确的智能服务㊂d.创投知识图谱的应用㊂创投知识图谱主要应用包含知识检索和可视化决策支持㊂其中知识检索是由机器完成用户搜索意图识别,向用户提供准确检索答案㊂可视化决策支持是通过图谱可视化技术对公司82河海大学学报(自然科学版)第49卷的全方位信息,投资机构的投资偏好等进行展示,为投融资决策提供支持㊂总的来说,知识图谱与各行业的深度融合已经成为一个重要趋势㊂在这一过程中,涌现出一系列的领域应用,可以解决行业痛点问题㊂2 领域知识图谱构建的发展趋势领域知识图谱构建的主要过程包括知识表示㊁知识抽取㊁知识融合㊁知识推理和知识存储等5个方面㊂尽管目前相关原理和应用都已经取得了较好的成果,但仍在快速发展之中㊂近年来,领域知识图谱的发展趋势发生了一系列的变化,主要表现在:a.在知识表示方面,现阶段一般采用三元组表达事实知识㊂但是,在决策㊁推理等相关应用中,需要依赖于大量专家知识㊁动态知识进行辅助判断,而专家知识的表示已经超出了常规知识表示的范畴㊂在大数据的赋能下,知识表示的重心将逐步过渡到动态知识是必然趋势㊂b.在知识抽取方面,现阶段的研究主要集中在纯文本信息抽取方面㊂在训练样本较为丰富的情况下,基于神经网络的抽取模型可以取得较好的抽取效果㊂但是,领域知识多数处于小样本㊁零样本以及面向开放域的抽取环境下,知识抽取的重心将逐步过渡到小样本㊁零样本信息抽取是必然趋势㊂c.在知识融合方面,现阶段的研究主要聚焦于知识融合过程中的某一部分或者只关注知识融合的模式,冲突检测㊁实体对齐㊁属性对齐和属性真值发现过程的研究缺乏连续性㊂另外,随着大量新增知识的更新,知识融合的重心将逐步过渡到新增知识的实时融合是必然趋势㊂d.在知识推理方面,现阶段的研究主要采用基于规则㊁逻辑的方法挖掘领域图谱中隐含的知识或纠正错误的知识㊂但是,该方法对规则的依赖度高㊂图神经网络是连接主义与符号主义的有机结合,不仅使深度学习模型能够应用在图这种非欧几里德结构上,还为深度学习模型赋予了一定的因果推理能力[12]㊂知识推理的重心将逐步过渡到面向图结构的深度推理是必然趋势㊂e.在知识存储方面,现阶段一般利用传统的关系型数据库存储领域知识图谱㊂但是,针对低选择性㊁复杂查询效率低的问题,知识存储的重心将逐步过渡到分布式RDF查询优化是必然趋势㊂3 水利领域知识图谱构建3.1 水利领域知识图谱构建的难点a.在水利知识表示方面,领域应用不仅需要静态知识,也需要动态知识㊂如何对抽取出来的静态知识和动态知识进行合理表示是当前面临的主要技术难点㊂另外,有很多知识和事实有时间和空间条件,从时空纬度扩展知识表示也是需要解决的技术难点㊂b.在水利知识抽取方面,纯文本信息抽取是当前面临的主要难点㊂部分文本抽取算法在公共数据集上取得了较好的实验结果,但普遍存在应用到水利领域中扩展性不好等问题㊂难点在于如何根据领域知识图谱的小样本特性,构建基于小样本的有效模型㊂c.在水利知识融合方面,主要存在以下难点:(a)实体对应不准确,同一实体名在不同数据源中常含有歧义,数据源中存在严重的多源指代问题[11];(b)不同数据源关于相同实体的相同属性存在表述差异[13];(c)不同数据源为同一实体的同一属性提供的属性值存在冲突[11]㊂d.在水利知识推理方面,由于现有水利领域的应用需要高准确性地从图谱中获取信息,因此基于描述逻辑和规则的推理方法能有效用于水利知识推理㊂难点在于如何设计基于一阶谓词逻辑的推理规则用于知识推理㊂e.在水利知识存储方面,主要存在以下难点:(a)随着水利数据不断丰富,RDF数据规模日益增加,现有的集中式数据管理系统难以满足对大规模RDF数据的存储和查询性能需求,需要高性能的分布式数据管理系统[14]来实现对大规模RDF数据的存储㊁索引和查询处理;(b)现有的分布式数据管理系统,对特定类型的查询进行了优化[15],但对水利领域常涉及的低选择性㊁大直径查询的查询效率低;(c)现有的分布式数据管理系统不能动态适应工作负载[16]的变化㊂3.2 水利领域知识图谱的总体框架为解决上述水利领域知识图谱构建研究的5个难点,并实现建立水利领域知识图谱的目标,本文提出了第1期冯 钧,等 领域知识图谱研究进展及其在水利领域的应用如图1所示的研究框架㊂在该研究框架下,首先对水利知识表示进行研究,建立2种不同的表示形式;其次,针对不同类型的水利数据,研究相对应的水利知识抽取方法;然后,研究了水利知识融合和推理的具体方法;最后,在充分利用水利大数据和相关存储技术的基础上,对水利领域知识进行存储,支撑相关应用㊂图1 水利领域知识图谱构建研究框架Fig.1 Modeling framework of domain knowledge graph in water conservancy3.3 水利领域知识图谱构建的研究内容水利领域知识图谱的构建流程可以被归纳为5个模块,即水利知识表示㊁水利知识抽取㊁水利知识融合㊁水利知识推理以及水利知识存储㊂水利知识表示是将水利知识表达成计算机可存储㊁可计算的结构化知识㊂水利知识抽取可以从大量结构化㊁半结构化和非结构化的水利数据中提取知识要素㊂水利知识融合可以消除实体㊁关系㊁属性与对象之间的歧义,并为水利知识图谱更新旧知识或补充新知识㊂水利知识推理是在已有水利知识的基础上进一步挖掘隐含知识或者缺失事实,从而丰富㊁扩展水利知识库㊂水利知识存储是设计有效的存储模式来支持对水利数据的有效管理㊂3.3.1 水利知识表示三元组是知识图谱的一种通用表示形式[17],由2个具有语义连接关系的水利实体和实体间关系组成,是水利知识的直观表示㊂三元组的基本形式主要包括(实体1,关系,实体2)和(实体,属性,属性值)等㊂概念主要指水利对象类,例如水资源分区㊁流域分区㊁湖泊㊁测站㊁河流㊁水库及水电站等;实体是知识图谱中的最基本元素,例如湖西区㊁长江流域㊁汾湖㊁吴江水厂㊁太浦河㊁青山水库㊁龙头水电站等;关系存在于不同实体之间,例如属于㊁位于㊁流入㊁包含等;属性主要指对象可能具有的特征及参数,例如湖泊代码㊁湖泊名称㊁跨界类型等;属性值指对象特定属性的值,例如FH407㊁FHBA1B00000M㊁跨省等㊂表1 太湖描述的三元组表示Table 1 Triple representation of Taihu Lake 基本形式实体1关系实体2(实体1,关系,实体2)太湖流域太湖流域太湖流域太湖流域包括包括包括包括苏南地区杭嘉湖地区上海市大陆部分宣城的小部分地区基本形式实体属性属性值(实体,属性,属性值)太湖流域太湖流域太湖流域太湖流域太湖流域太湖流域太湖流域太湖流域总面积水面积河道总长河道密度地形地势河道比降水流流速 3.69万km 25551km 212万km 3.3km /km 2碟状平坦小缓慢通过一个全局唯一的ID 号来标识实体,实体间内在特征通过属性属性值来进行刻画,实体之间的关联通过关系来描述㊂三元组的存在表示一个已有的事实㊂例如关于太湖的描述为:太湖流域包括江苏省苏南地区㊁浙江省杭嘉湖地区㊁上海市大陆部分(不含崇明㊁长兴㊁横沙三道)和安徽省宣城的小部分地区,总面积3.69万km 2㊂流域水面积5551km 2;河道总长约12万km,河道密度达3.3km /km 2㊂流域地形呈周边高㊁中间低的碟状地形,地势平坦,河道比降小,水流流速缓慢㊂太湖的描述可以通过表1的三元组进行表示㊂所有三元组合可以并构成一个图(图2),其中节点表示实体,有向边表示实体之间的关系,不同的关系边的标签不同㊂3.3.2 水利知识抽取在水利信息技术飞速发展的今天,水利知识大量存在于水利信息系统的结构化数据㊁半结构化的表格㊁网页以及非结构化的文本数据中㊂针对不同类型的水利数据,采用不同的知识抽取方法㊂对于结构化数据,研究基于D2R 技术的知识图谱构建方法,利用信息系统中的结构化对象数据,抽取出静态对象及其相关关92河海大学学报(自然科学版)第49卷图2 水利知识表示示意图Fig.2 Schematic diagram of knowledge representation in water conservancy系㊂结构化数据抽取如图3(a)所示,基本步骤包括:(a)通过分析关系型数据库判断可以建立联系的2张表是否有外键关联㊂如果没有外键关联,需要人工设置外键或者在映射文件中写入外键㊂(b)建立了外键关系之后,将2张表映射成RDF 之后就可以实现语义互联㊂通过上述一系列操作,可以将2个实体之间存在的关系进行合理表示㊂对于半结构化数据,利用包装器将分布在互联网上半结构化的HTML 页面中的属性和属性值抽取出来㊂半结构化数据抽取如图3(b )所示,基本步骤包括:(a)HTML 页面清洗及解析㊂将页面转换为DOM 树形结构㊂(b)页面去噪㊂去除页面中与主题信息无关的其他信息㊂(c)包装器自动生成㊂自动获取需求信息节点的XPath 路径,定义规则模板,结合XPath 路径表达式实现抽取规则的自动构造㊂通过上述一系列操作,可以抽取出与实体有关的属性和属性值信息㊂对于非结构化数据,利用基于远程监督和神经网络的方法抽取出水利文本中的知识㊂非结构化数据抽取如图4(c)所示,基本步骤包括:(a)采用远程监督的方法利用知识库自动生成标注数据,再通过离群点检测的方法去除其中的错误标注㊂(b)采用基于监督学习的神经网络方法,先在标注好的数据上进行训练,再对未标注的数据进行测试,抽取出未标注文本中包含的实体和它们之间的关系㊂通过上述一系列操作,可以补充知识图谱中所需要的一些静态知识和动态知识㊂3.3.3 水利知识融合鉴于百科类网站具有一个页面围绕一个实体进行描述㊁页面组织结构相对统一㊁信息质量相对较高的特点,百科类网站成为领域知识库进行知识融合的主要数据来源[18],其信息框中的关于实体的属性-属性值对是对该页面实体信息的高度提炼㊂对不同百科中描述相同实体的知识卡片进行融合,可以获得关于水利对象的更全面㊁质量更高的知识㊂针对前述关于多知识库融合的难点,研究基于中文维基百科㊁百度百科㊁互动百科的知识卡片的水利知识融合方法㊂图4所示为水利知识融合流程㊂通过基于多特征的命名实体消歧㊁基于词典的属性对齐和基于贝叶斯分析的属性真值发现模块,消除实体㊁关系㊁属性及其对象之间的歧义,最终获得跟水利对象有关的属性及相应的属性值㊂图5是三大百科以及本地知识库对于水利对象 太湖”融合后的查询结果㊂蓝色的方块代表初步形成的水利领域知识图谱,红色的方块代表中文维基百科,黄色的方块代表百度百科,绿色的方块代表互动百科㊂从 太湖”的融合结果可以看出,本地水利领域知识图谱提供的信息资源具备良好的行业覆盖面和行业深度,为水利知识图谱的构建提供了核心支撑㊂中文维基百科则更多地从专业领域对其进行描述,提供的更多是较严谨的知识㊂百度百科和互动百科的知识卡片存在很多重复,且覆盖的属性更符合普通大众的娱乐需要,如关于太湖的适宜游玩季节㊁建议游玩时长㊁门票价格等㊂3.3.4 水利知识推理知识推理旨在从图谱已有的知识推理得到新的事实[19]㊂由于水利知识来源多样化,水利知识和数据的收集局限于终端采集方式而缺乏整体性,需要结合水利知识推理方法,来对相关知识进行补充㊂例如,水利领域知识图谱中存在由不同数据源得到的2个三元组:(太湖,出口,太浦闸)和(太浦闸,属于,太浦河),可以利用知识推理来获取新的事实知识(太湖,流入,太浦河)㊂目前主要的领域知识推理的方法有:基于规则推理的方法[20]㊁基于本体推理的方法[21⁃22]㊁基于表示模型的方法[23⁃25]㊁基于神经网络的方法[26]㊂通过对水利领域的业务需求进行分析,可以发现水利领域知识图谱需要为即时查询㊁决策提供支撑,因此决定了水利领域知识图谱构建的高准确性要求㊂另外,水利领域知识图谱的层次性较强,根据管理单位㊁地理空间㊁河网管网的分层关系可以在实际应用场景中将图谱切分,以降低搜索空间㊂结合水利知识图谱存在的高准确性要求和可切分特点,最适合的知识推理方法是基于规则推理的方法㊂该方法通过结合现有的一些水利领域知识,手工定义一些推理规则,去服务水利知识推理㊂其具体过程如下:(a)在概念层,通过一阶谓03第1期冯 钧,等 领域知识图谱研究进展及其在水利领域的应用图3 水利知识抽取示意图Fig.3 Schematic diagrams of knowledge extraction in water conservancy13河海大学学报(自然科学版)第49卷图4 水利知识融合流程Fig.4 Flow chart of knowledge fusion in waterconservancy图5 水利知识融合示意图Fig.5 Schematic diagram of knowledge fusion in water conservancy表2 水利知识推理规则Table 2 Rules of knowledge reasoning in water conservancy 编号推理规则含义1(河流,流入,水库),(水电站,属于,水库)→(水电站,位于,河流)水电站在水库所在的河流上2(泵站,拥有,取水口),(泵站口,位于,湖泊),(湖泊,属于,流域分区)→(取水口,属于,流域分区)取水口属于泵站所在湖泊的流域分区3(桥梁,位于,河段),(河段,属于,河流)→(桥梁,横跨,河流)桥梁横跨河段所属的河流词逻辑表示定义相关推理规则㊂(b)在实例层,再通过实例去实例化推理规则,找到符合推理规则的关系事实㊂表2为部分推理规则及其相关含义㊂3.3.5 水利知识存储水利知识存储的优化目标是减少冗余数据的存储,提高查询的效率㊂为了达到上述目标,采用以下处理手段:(a)针对集中式系统难以满足对大规模水利RDF 数据的存储和查询处理的问题,采用了一个无共享的集群,以分布式的方式处理大规模RDF 数据㊂(b)针对水利领域涉及的低选择性㊁大直径查询效率低,对查询工作负载伸缩性差的问题,研究了基于垂直划分和哈希划分的混合关系存储模式㊂通过监控查询工作负载中的频繁模式,使用频繁模式指导水利RDF 数据进行增量重划分,以提高对查询工作负载的伸缩性㊂(c)通过设置代价评估模型,进行代数优化和连接顺序优化,从而优化分布式查询的效率㊂水利知识存储流程如图6所示㊂该流程首先对经过质量评估后的水利知识进行基于主语的哈希划分形成三元组表(TT);然后,对哈希划分后的三元组表进行垂直划分,形成只包含主语-宾语列的垂直划分表(VP);最后,通过查询监控器监控查询工作负载,挖掘频繁模式,对频繁模式所对应的垂直划分表进行半连接计算,形成频繁谓词扩展垂直划分表(FP⁃ExtVP)㊂上述不同类型的表都以Parquet 格式存储到集群的各23。

国际村落景观研究发展与趋势——基于知识图谱分析

国际村落景观研究发展与趋势——基于知识图谱分析

2021·01我国地域辽阔,气候变化多样,经过历史的沉淀和演变,各个地域逐步形成了千姿百态的村落景观。

这些村落景观也是不同时代、不同地域文化变迁综合的象征。

在全国城镇化进程不断加速的今天,村落景观文化也受到了巨大的冲击和破坏。

早在19世纪60年代末,第二次工业革命发生后,西方国家的工业快速发展,人口快速增长,城市加速扩张,历史村落景观面临着诸多方面的冲击。

此时,国外一些国家的学者就已经开始对村落景观进行多层面的、系统性的研究[1]。

由于自然学科与人文学科在彼此的发展道路上出现了一定的交集,针对景观开展的人文性研究在逐渐增加。

国外研究者有的通过关注生态功能,联合地理、社会及人类等多种综合型学科来进行村落文化景观保护的相关研究[2]。

有的学者通过对景观规划理论与方案的研究,来实现村落自然环境与生态的保护[3-4],并针对多目标村落土地利用规划与景观生态设计提出了新思想和方法论[5]。

大量文献反映出国外学者通过上述研究方法和视角,注重结合景观文化与传统村落中的生态功能问题,非常值得国内研究人员借鉴和思考。

然而,基于中国知网CNKI 数据库对村落景观进行检索,可以发现其近年来的研究内容主要集中在相关政策层面的梳理、村落景观的物质层面的保护以及相关实证项目案例的辨析,对于全球范围内该领域的研究趋势的分析还是缺乏关注和研究。

为了更好地把握和认识村落景观近20年来的研究进展和基本框架,探寻未来国际视野下村落景观领域的研究趋势、前沿和热点,本研究基于Web of Science 数据库资源,通过文献计量学方法针对村落景观研究领域的有关文献进行量化分析,以此为该领域的后续研究的开展提供参考。

一、数据来源与分析方法(一)数据来源本文检索村落景观的数据范围来源于美国的科学情报研究所(Institute for Scientific Information )出版的Web of Science 数据库中的文献。

我国尿素行业研究知识图谱分析

我国尿素行业研究知识图谱分析

2021,31(2)郭和刚 我国尿素行业研究知识图谱分析 櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴毷毷毷毷综 述评 论我国尿素行业研究知识图谱分析郭和刚 中国成达工程有限公司 成都 610041摘要 以中国知网2010~2020年尿素行业相关文献为数据源,采用citespace软件进行技术领域和研究热点可视化分析,发现近十年我国尿素行业研究共形成了尿素工艺、尿素装置(装备)两个重点技术领域,尿素工艺技术领域的研究热点为二氧化碳汽提法、水溶液全循环法和尿素增值技术;尿素装置(装备)技术领域的研究热点为尿素合成塔和尿素水解解吸系统。

目前我国尿素行业正处于创新发展、转型升级的关键时期,需要提高行业整体技术水平、环保水平和优化产品结构。

关键词 尿素 工艺 装置 知识图谱郭和刚:高级工程师。

2005年毕业于四川大学应用化学专业。

从事化工工艺设计及工程咨询工作。

联系电话:(028)65537113,18010657113,E-mail:guohegang@chengda com。

我国粮食产量的增加与氮肥施用存在正相关关系[1],其中尿素是我国粮食增产和不断发展的重要基础。

虽然尿素生产是一门古老而传统的生产技术,但大型尿素生产装置的工程配套技术却是尖端技术工程化的结晶。

分析近年来我国尿素行业相关文献,厘清领域内的研究热点及其演化,有利于掌握尿素相关技术的发展动态,对提高尿素行业整体技术水平、环保水平和优化尿素相关产品结构有重要的指导意义。

1 研究数据与方法以“尿素生产”为研究主题在中国知网进行文献检索,检索时间范围为2010~2020年,共检索出3500篇期刊论文,作为本研究样本文献。

Citespace是由美国陈超美教授[2]研发的一款学术动态追踪软件,运用文献计量学的方法,从大量文献中给出热点技术领域及其研究趋势和演化方向,并以可视化图谱的方式加以呈现。

2 知识图谱分析基于3500篇文献生成的知识图谱见图1。

可见近十年我国尿素行业共形成了尿素工艺、尿素装置(装备)两个重点技术领域。

基于知识图谱的电网工程建筑信息模型质量检查方法

基于知识图谱的电网工程建筑信息模型质量检查方法

基于知识图谱的电网工程建筑信息模型质量检查方法目录一、内容描述 (2)1.1 研究背景 (2)1.2 研究意义 (3)1.3 文献综述 (4)二、知识图谱理论基础 (5)2.1 知识图谱概述 (6)2.2 知识图谱构建方法 (7)2.3 知识图谱应用领域 (9)三、电网工程建筑信息模型概述 (9)3.1 电网工程建筑信息模型定义 (10)3.2 电网工程建筑信息模型特点 (11)3.3 电网工程建筑信息模型作用 (12)四、基于知识图谱的电网工程建筑信息模型质量检查方法 (13)4.1 质量检查指标体系构建 (15)4.1.1 数据准确性指标 (16)4.1.2 数据完整性指标 (17)4.1.3 数据一致性指标 (18)4.1.4 数据及时性指标 (19)4.2 基于知识图谱的质量检查流程 (20)4.3 质量检查算法设计与实现 (21)4.3.1 关系抽取算法 (22)4.3.2 实体识别算法 (24)4.3.3 图谱匹配算法 (25)4.4 质量检查结果可视化展示 (25)五、案例分析 (26)5.1 案例背景介绍 (28)5.2 基于知识图谱的质量检查过程 (29)5.3 检查结果分析与改进措施 (30)六、总结与展望 (31)6.1 研究成果总结 (32)6.2 研究不足与局限 (33)6.3 未来研究方向展望 (34)一、内容描述随着智能电网和电力物联网的快速发展,电网工程建筑信息模型(BIM)在工程设计、施工及运营维护中的应用日益广泛。

BIM模型质量参差不齐,严重影响了项目的顺利进行和后期运维的效率。

开展基于知识图谱的电网工程建筑信息模型质量检查方法研究,对于提高BIM模型质量、保障电网工程建设质量具有重要意义。

本文的研究成果为电网工程BIM模型的质量检查提供了新的思路和方法,有助于提高电网工程建设质量和管理水平,为智能电网的发展奠定坚实基础。

1.1 研究背景随着科技的发展和城市化进程的加快,电网工程建筑信息模型(BIM)在电力行业中的应用越来越广泛。

中国科学技术大学首次实验实现最优量子纠缠态检验

中国科学技术大学首次实验实现最优量子纠缠态检验

n C tinfo security网域动态2020年第8期\_________________________________________________________________________________________________________“2020CCF中国信息系统战略研讨会(FISS)”在贵阳召开2020年7月3日,由中国讨算机学会(CCF)主办,中国计算机学会信息系统专业委员会、贵州大学和贵州省计算机学会承办的“2020CCF中国信息系统战略研讨会(FISS)暨信息系统专委会工作会议”在贵阳成功召开。

会议采用线上线下同步的方式进行,线下进行现场报告,线上通过腾讯会议和Bilibili平台进行实况直播,高峰时参与人数超过8000人。

会议由CCF信息系统专委会秘书长、天津大学王鑫教授主持。

开幕式上,贵州大学计算机科学与技术学院院长秦永彬教授致欢迎辞。

他首先介绍了学院的基本情况,对参会嘉宾、专委会各位委员以及参会人员表示热烈欢迎。

随后,CCF信息系统专委会主任、东北大学于戈教授代表专委会致辞。

本次CCF-FISS会议同时也是CCF信息系统专委会走进高校系列学术报告会的第1期,围绕信息系统与知识图谱进行,邀请周傲英教授、王昊奋研究员、赵翔副教授作特邀学术报告。

来自高校、科研机构和企业的近300名参会代表通过腾讯会议在线参与。

华东师范大学副校长、“智能+”研究院院长、数据科学与工程学院院长周傲英教授以“数据赋能企业数字化转型”为主题,重点探讨了在大数据时代,如何理解数据价值,如何通过数据推动企字化转型。

同济大学“百人计划”王昊奋特聘研究员以“基于KG的认知智能中台思考及产业化实践”为题,围绕知识图谱中台概念,分享了金融、军工、传媒等行业从知识平台到认知智能中台转变升级的相关案例,介绍了统一知识表示及存储、人机协同数据建模、敏捷智能应用构建架构等关键际国防科技大学信息系统工程重点实验室赵翔副教授以“大规模知识图谱自动构建”为主题,围绕传统知识抽取方法的不足,引入联合抽取策略,并结合基于知识平移的约束,提高知识获取效率和精度。

(2023)中国知识图谱行业研究报告(一)

(2023)中国知识图谱行业研究报告(一)

(2023)中国知识图谱行业研究报告(一)
中国知识图谱行业研究报告
概述
•2023年中国知识图谱市场规模有望突破100亿元
•知识图谱是指利用图谱模型来表示知识的一种知识表示方法•目前国内知识图谱产业正在经历快速发展阶段
技术趋势
•基于知识图谱的智能问答系统将逐渐取代基于搜索引擎的问答方式
•基于知识图谱的智能客服系统将成为企业数字化转型的重要组成部分
•知识图谱与人工智能、区块链等技术的结合将会带来更多的应用场景
市场前景
•教育领域:利用知识图谱打造个性化、智能化的教育平台
•医疗领域:利用知识图谱构建医疗知识库和智能辅助诊断系统•金融领域:利用知识图谱加强风险控制和客户管理
行业热点
•知识图谱数据可视化工具的研发
•知识图谱自动化构建技术的提升
•知识图谱标准化和融合技术的发展
未来展望
•未来几年内,中国知识图谱市场有望保持高速增长态势
•知识图谱产业将成为人工智能发展的重要支撑
•未来,知识图谱将成为企业数字化转型的重要基础设施之一
主要挑战
•知识图谱数据的质量和规模问题
•知识图谱应用场景的局限性问题
•知识图谱行业标准和规范的缺失问题
发展策略
•加强知识图谱相关人才的培养和引进
•加强知识图谱产业生态建设,促进行业标准化和融合
•推动知识图谱技术与其他技术的深度融合,拓展应用场景
结语
中国知识图谱产业正处于高速发展期,面临诸多机遇和挑战。

未来,随着技术的成熟和应用场景的拓展,知识图谱将会为各个行业带来更多的智能化解决方案,推动数字化转型和经济发展。

审计质量研究综述

审计质量研究综述

审计质量研究综述———基于Citespace知识图谱分析王佳丽吴晓琳(通讯作者)卫萌周通新疆科技学院摘要:注册会计师审计是提升资本市场会计信息可信度的重要制度安排,审计质量也历来受到理论与实务界的关注。

本文利用Citespace 知识图谱分析方法,对近三十年来注册会计师审计质量研究文献(选取CNKI 数据库中核心期刊)进行梳理。

通过从发文量变化趋势、作者知识图谱、关键词共线等,分析审计质量的基本发展脉络及热点趋势,对未来研究提出展望,以期为相关领域学者提供一定的文献参考。

关键词:审计质量;知识图谱;研究综述CPA Audit plays an important role in improving the credibility of accounting information in the capitalmarket and the audit quality has traditionally drew great attention from both theoretical and practical circles.In the paper,by using Citespace,all the research literature on the CPA Audit Quality (selected from the CNKI database )from the past 30years will be sorted out.By analyzing keywords,volume of the publications and author's knowledge usw.to identify the trend of the audit quality and hot topics,give an outlook on the further research and provide literature reference in the relevantfield.Audit Quality;Knowledge Map;Research Review 一、引言注册会计师审计是维护市场经济秩序、提高信息质量的重要制度安排。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

9
多源异构的数据来源
结构化和半结构化数据的抽取是搭建基础,非结构化数据抽 取的发展将拓宽知识图谱的应用边际
知识抽取是搭建知识图谱过程中至关重要的一环,也是目前评判知识图谱优劣性的标准之一。知识抽取所处理的信息往往 是明确的事实性信息,信息源通常分为已有关联数据库的结构化数据、如表格和列表类的半结构化数据,以及如TXT格式 的文本类非结构化数据,前二者可以通过D2R(DRF格式转换器)、包装器(格式解析工具)等工具完成处理,而文本类 非结构化数据需要通过自然语言处理的相关技术进行知识抽取,所有数据最终都要通过处理转化为标准数据供图谱使用。 随着生物识别和物体识别等AI技术的应用,指纹库、人脸库、车辆库等数据库逐步建立,对于非结构化数据的知识抽取将 不再局限于文本,所搭建的知识图谱维度将会更丰富,应用场景更加垂直下沉。

3
知识图谱技术概述
1
中国知识图谱市场概述
2
中国知识图谱细分市场分析
3
中国数据智能代表企业案例展示
4
4
人工智能技术分类和趋势
三种流派的融合应用,使人工智能向想象更进一步
人工智能是对一类能够实现机器模拟智慧生命某些特征的技术统称,从学术上可以分为,对人类已有知识进行组织编辑的
• 2019年,小米小爱同学3.0上线, 以百科图谱为中心,外接垂类知识 图谱和小米业务图谱,三元组规模 达300亿
1950
1970
1990 2000
2012
~
基础概念阶段
来源:艾瑞根据公开资料自主研究绘制。
©2020.3 iResearch Inc.
专家系统阶段 Web 1.0阶段 Web 2.0阶段
• 2012年,Google提งสมุดไป่ตู้别的三元组集合
• 2017年,阿里巴巴知识图谱首次 曝光,已包含百亿级别核心商品信 息的三元组集合
• 2017年,腾讯AI Lab在美国国家 标准与技术研究院(NIST)主办 的2017年国际知识图谱构建大赛 获得冠军
应用落地成为主旋律,缺位行业逻辑和理论概念的连接主义,往往找不到最佳的应用场景而止步于浅层尝试,在此背景下,
人工智能技术应当走向融合,符号主义需要连接主义提供强大的计算支撑,连接主义需要符号主义的逻辑指导,二者又共
同作用于行为主义,充当机器人的大脑和“记忆宫殿”,在多种技术综合利用下的垂直领域智能解决方案才是当今最符合
6
知识图谱概念定义
是一种描绘实体间关系的语义网络,是认知智能的必要基础
知识图谱是一种描绘实体之间关系的语义网络,是人工智能重要研究领域——知识工程的主要表现形式之一。知识图谱通 过RDF(三元组),既“实体 x 关系 x 另一实体”或“实体 x 属性 x 属性值”集合的形式,以人类对世界认知的角度,阐 述世间万物之间的关系,通过NLP技术、图计算、知识表示学习等手段,将非线性世界中的知识信息结构化,以便机器计 算、存储和查询,起到赋予机器人类认知的效果 ,是人工智能技术走向认知的必要基础。
人工智能与生产力的关系
人工智能
感知智能
• 计算机视觉 • 语音识别 • ……
生产力
认知智能
行为智能
• 计算机视觉 • 语音识别 • ……
指导
知识生产力
• 计算机视觉 • 语音识别 • ……
劳动生产力
• 计算机视觉 • 语音识别 • ……
来源:艾瑞根据公开资料自主研究绘制。 ©2020.3 iResearch Inc.
过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经过实体对齐,加入数据模型,形成标准的知识表示,
过程中如产生新的关系组合,通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合,最终形成
完整形态上的知识图谱。
知识图谱结构拓扑图
应用中知识不断扩充和修订
结构化数据
半结构化数据 非结构化数据
据规范,再抽取数据的“自顶向下型”和先抽取实体数据,再逐层构建本体的“自底向上型”两种模式,前者适用于场景
较为固定,存在可量化行业逻辑的领域,如金融、医疗、法律等;后者适用于新拓展的,有大量数据积累,行业逻辑难以
直接展现的领域。总体而言,搭建知识图谱从数据源开始,经历了知识抽取、知识融合、知识加工等步骤。原始的数据通
知识图谱的发展历程
启蒙期(1950-1977年)
成长期(1977-2012年)
发展期(2012年-今)
• 1955年,加菲尔德提出了将引 文索引应用于检索文献的方法
• 1965年,普赖斯等人提出用引 文网络来研究当代科学发展脉 络的方法
• 1968年,奎林提出语义网络的 概念,是一种用图来表示知识 的结构方式
生物 控制论
工程 控制论 自组织
系统

5
人工智能技术应用本质
认知智能使AI触及生产核心,知识图谱决定认知智能的起点
人工智能与互联网或5G等技术本质上存在差别,后者解决的是信息的发出、传递、接收与反馈的闭环问题,而人工智能的 本质是进行生产力升级,因此评判人工智能使用的是否有价值,要看其技术应用是否贴近生产核心。人类生产力可以归类 为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能、认知智能和行为智能,后两者更与生产力相对应。 以计算机视觉、语音识别为代表的感知智能应用深度学习,在算力与数据的支撑下突破了工业红线,实现了机器对于自然 界具象事物的判断与识别,但仅仅如此并没有触及核心生产环节,所以也就限制了其商业应用半径。当人们使用机器能识 别更多事物的时候,自然而然的引发了,对事物背后的事理,理解、分析和决策的深层次需求,认知智能呼之欲出。认知 智能核心解决的问题是对人类文明抽象概念的识别与联想,通过自然语言处理(NLP)技术对文字内容在语义上进行初步 认知和自动抓取,经由知识图谱对概念间的关系属性进行联结、转换,从而对人类社会生产、生活行为进行描绘,实现业 务规范梳理、生产流程可视化、人际关系挖掘等代表应用,这与注重经验、逻辑和方法论累积的知识生产力产生了直接对 应,而与劳动生产力相对应的行为智能同样需要知识的指导,所以认知智能的发展才是人工智能回归本质的表征,而搭建 知识图谱是认知智能可以参与生产的基础锚点。
知识图谱以RDF形式阐述万物关系
实体
关系
另一 RDF
知识图谱RDF(三元组)形式
来源:艾瑞根据公开资料自主研究绘制。 ©2020.3 iResearch Inc.
知识图谱结构
自然世界

7
知识图谱发展历程
三个时期五个阶段奠定了现代知识图谱的雏形
知识图谱发展至今可以总结为三个时期和五个阶段。1950-1977年是启蒙期,包含了基础概念阶段和专家系统阶段的开端, 这一时期文献索引的符号逻辑被提出并且应用;1977-2012年是知识图谱不断演变的成长期,包含了大部分专家系统阶段 和Web 1.0和2.0阶段,在此期间出现了很多如WordNet、Cyc、Hownet等大规模的人工知识库,知识工程成为了人工智能 重要的研究领域,2012年,Google正式提出的知识图谱概念,开启了现代知识图谱的序章;2012年至今是知识图谱的发 展期,中国企业开始入局,以BAT为代表的科技公司依托自身业务,在搜索引擎、电商、医疗等领域开始应用知识图谱技 术,解决办法服务商们也从大数据赛道中脱颖而出,将知识图谱技术拓展到安防、金融、教育等更多领域,让AI跳出感知 智能的商业局限,向解决各产业生产环节中的核心痛点更进一步。
在面对数据多样、复杂,孤岛化,且单一数据价值不高的应用场景时,存在关系深 度搜索、规范业务流程、规则和经验性预测等需求,使用知识图谱解决方案将带来 最佳的应用价值。
2019年涵盖大数据分析预测、领域知识图谱及NLP应用的大数据智能市场规模约为 106.6亿元,预计2023年将突破300亿元,年复合增长率为30.8%,其中2019年市 场中以金融领域和公安领域应用份额占比最大。
市场期待的方向。
人工智能三大流派分类与融合趋势
连接主义
符号主义
行为主义
机器学习
深度学习
智能语音 计算机视觉 自然语言理解
……
来源:艾瑞根据公开资料自主研究绘制。 ©2020.3 iResearch Inc.
知识图谱 知识工程
专家系统
启发式算法
控制论
智能机器人系统 信息理论 控制理论
神经系统
控制逻辑 计算机 智能控制系统
知识图谱阶段

8
知识图谱结构
建设本体模型和实体数据库是知识图谱结构的核心
知识图谱从逻辑上可以分为概念层和数据层,数据层指以三元组为表现形式的客观事实集合,而概念层是它的“上层建
筑”,是经过积累沉淀的知识集合。建设中以本体模型和实体数据库为核心,根据二者的建设顺序又分为先定义本体和数
随着整体市场数据基础的完善和需求唤醒,大数据智能领域规模持续走高,但在行 业可落地性和理性建设的限制下,预计市场增速将呈现下降趋势,期间咨询性需求 将会大量出现,从整体发展来看增速处于良性区间,对真正有价值的公司和产品有 正向意义。
来源:艾瑞根据公开资料自主研究绘制。 ©2020.3 iResearch Inc.
符号主义、通过数学理论公式推导聚类和预测问题的连接主义,以及利用机器模仿生物活体行为的行为主义三个流派,分
别以知识工程、机器学习和仿生机器人为时代代表,而知识图谱就是新一代知识工程的具体体现。2012年,深度学习在计
算机视觉和智能语音上产生重大突破,打开了人工智能商业化的大门,使得连接主义一度成为人工智能的代名词,但随着
自然语言处理(NLP)
NLP技术其实也是一种识别,是 对人类文明符号——文字在语义 上的初步认知
知识图谱
知识图谱能实现的是通过概念间 的关联进行联结、转换,从而对 人类社会生产、生活行为进行描 绘,如业务规范、生产流程、人 际关系等
语义识别 语义识别
相关文档
最新文档