基于本体的专利摘要知识抽取

合集下载

基于本体和语义距离的DBpedia领域知识抽取方法

基于本体和语义距离的DBpedia领域知识抽取方法

收稿日期:2017⁃11⁃02
修回日期:2017⁃12⁃28
基金项目:国家自然科学基金(51271033);国家自然科学基金(71271076);河北省自然科学基金(F2018208116);河北省科技计划(16210312D);河
题 提 取 算 法 获 得 用 于 抽 取 领 域 知 识 的 种 子 关 键 词 集 。 在 直 接 链 接 子 图 语 义 距 离 算 法 中 ,添 加 能 够 代 表 边 指 向 性 权 值 的 参
数,用于领域知识的抽取,并基于本体和字符串相似度比较的筛选策略对抽取的知识进行筛选。通过实验表明,该方法不仅
Abstract:The linked open data(LOD)contains huge amounts of different domain knowledge,and most of the approaches to extract the specific domain knowledge require manual intervention. A method of extracting domain specific knowledge from DBpedia based on domain ontology is proposed to extract the domain knowledge automatically. The domain ontology,Wikipedia and topic extraction algorithm are used to obtain the seed keyword set for domain knowledge extraction. The parameter representing the side ⁃ directivity weight is added into the direct linked subgraph semantic distance algorithm to extract the domain knowledge. The screening scheme based on ontology and character string similarity comparison is used to screen the extracted knowledge. The experiment results show that the proposed method can obtain perfect extraction performance,and needn ′ t select keywords or perform manual participation in the screening process artificially,which can greatly save people ′ s time and effort.

基于领域本体和主题划分的多文档自动摘要研究的开题报告

基于领域本体和主题划分的多文档自动摘要研究的开题报告

基于领域本体和主题划分的多文档自动摘要研究的开题报告一、研究背景和意义随着信息技术和互联网的不断发展,人们获取信息的方式越来越多样化,其中文本资料是人们获取信息最重要的途径之一。

但是,随着数据量的增长和信息量的爆炸式增长,对于人们来说,快速且准确地从大量文本中抽取关键信息变得越来越困难。

因此,自动文本摘要技术成为研究的热点之一。

目前,自动文本摘要技术已经有了很多的研究。

常见的自动文本摘要方法包括基于统计的方法、基于机器学习的方法、基于知识图谱的方法等。

其中,基于领域本体和主题划分的自动文本摘要方法是近年来受到广泛关注的一种方法,可以更加准确地提取文本中的关键信息,具有很高的实用价值。

因此,本研究拟通过建立领域本体和主题划分,构建基于领域本体和主题划分的自动文本摘要模型,提高对大量文本信息的处理速度和准确度,为各领域的研究者和实际工作中的信息分析提供辅助。

二、研究内容和方法(一)研究内容1. 构建领域本体:建立本体是建立基于领域本体和主题划分的自动文本摘要模型的首要任务,本研究将基于现有文献和实际应用需求,选择适合领域的本体编辑软件,搭建出合理、具体、完整的领域本体。

2. 利用主题划分算法提取主题:将文本数据划分为多个主题,利用主题划分算法挖掘文本中的主题关键词,为后续自动文本摘要提供支持。

3. 构建自动文本摘要模型:基于领域本体和主题划分算法,构建自动文本摘要模型。

具体的,选择合适的文本预处理方法,使用基于机器学习算法的模型结合本体实现文本分类、数据归纳,再结合主题划分算法,提取文本中主题关键词,实现自动文本摘要。

(二)研究方法1. 构建领域本体的方法:采用本体编辑软件,利用文本挖掘技术,收集有关领域的专业词汇和概念,并利用本体编辑器实现领域本体的构建。

2. 利用主题划分算法提取主题的方法:采用主题模型,如LDA (Latent Dirichlet Allocation)模型,实现对文本的主题划分和关键词提取。

知识抽取国内研究现状分析

知识抽取国内研究现状分析

知识抽取国内研究现状分析冯青文【摘要】知识抽取在网络资源组织与建设中不可或缺.在知网上选取2008-2016年知识抽取研究的文献期刊共计100篇,并对其进行分类,分为技术工具、概念理论、应用和其他相关4类.通过对各类进行归纳总结,分析其数据和内容上的差异和趋势,从而对知识抽取国内研究的整体现状进行评估和分析.【期刊名称】《常州信息职业技术学院学报》【年(卷),期】2017(016)002【总页数】5页(P32-36)【关键词】知识抽取;技术;应用;理论;现状【作者】冯青文【作者单位】郑州大学信息管理学院河南郑州450001【正文语种】中文【中图分类】G202知识抽取是信息资源建设中的关键环节,一直以来被众多学者所关注,研究方向多种多样,包括概念理论的研究、技术方法、应用等多个方面。

通过文献计量分析和对文献内容的研究,揭示了知识抽取研究的现状,尤其是近两年,热点多集中在知识融合、知识库的建立、在各个领域中的应用等。

通过对国内知识抽取研究的现状进行分析,同时提出了知识抽取未来研究的重点。

知识抽取(Knowledge Extraction)是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。

即是指基于给定的本体从文本中抽取与既定本体相匹配的知识内容。

随着网络和计算机的发展,信息资源更新速度快且数量庞大,其中蕴含着丰富的可用知识和很高的研究价值。

在这样的大数据且信息资源低密度的前提下,知识抽取具有很大的研究意义。

这些网络化、数字化的信息资源的存在形式大多是自由、半结构化或者非结构化的,信息数量繁杂且实时更新,而知识抽取则能够利用相关技术和方法从信息中抽取出用户所需要的知识,从而实现信息资源的有效利用。

首先,知识抽取也是重点研究的领域之一,如自然语言处理、语义web、机器学习、知识工程、知识发现、文本挖掘等相关领域。

其次,文献处理的力度可以通过知识抽取从篇章层次细分到句段层次,从而实现文献在知识单元上的组织、管理以及利用。

一种改进的基于本体的Web信息抽取

一种改进的基于本体的Web信息抽取

中 图分类号: 95 N4
种 改进 的基 于本体 的 We b信 息抽 取
柳佳 刚,陈 山,黄 樱
( 湖南工学院计算机科学系 ,衡阳 4 10 ) 202

要 : We 页面信息项本体定义为基础 , 单个样本 页面信息项路 径进行启发式学 习, 以 b 对 对所有样本页面集 中信息块路径进行归纳学 习,
[ yw r s nomaine t cin o tlg ;nu t eerig D c me t jcMoe( M) Ke o d ]ifr t x at ; noo y idci ann ; o u n et dl o r o vl Ob DO
1 概述
采用本体( tlg ) Onoo y技术精确定义 We b资源 中共享 的词 汇 , 用 知识 表 示 技 术 实 现 We 源 的 自动推 理 已成 为 语 义 利 b资 We l研究 的一个重要方向。基于本体 的 We 息抽取 关键 bJ b信 是建立本体模型和基于本体 的 We b信息抽取规则 。本体 的构 建过程中,领 域特性表现得极其 明显 ,建立领 域本体 的过程 需要领域专家 的参与 ,过程复杂 、周期 较长 。因此 ,简化 J
g t t e a e so f r a i n e ta t n c n b a tt n a c r t l . e c sr c i n o t l g y a t ma i a sn eW e a e fl rn h o s o , h a fi o r n m t x r c i a e p r i c u ae y Th on t to n o o y b u o tc p i g t b p g ti g t e n ie o o i o u r h i e

基于领域本体的信息抽取系统的设计与实现

基于领域本体的信息抽取系统的设计与实现

b y i h no main e ta t n rtiv ls se d o n t e ifr to xrci ere a y tm.Thspa e nto uc d s me b sc c nc ps a o tman b d d man man b d n ic sd s me o i p ri r d e o a i o e t b u i o y。 o i i o y a d d suse o ma pn eains ewe n te d man p ig rlto b t e h o i man bo y a h no ain e ta to a d a e lz d te h n s td man man b d n ti nomain i d nd t e ifr to xr cin n h s r aie h a d e o i i o y i hs ifr to m e ta t n p ooy e s se a d h sa pid t sd manman b d n te ifr t n e ta to xrci rttp y tm n a p l hi o i i o y i h no mai xr cin. o e o
・18・ 5
价 值工程
基 于领 域本体 的信息抽取 系统 的设计 与实现
De i n o n o ma i n Ex r ci n S se Ba e n Do i a n Bo y sg fI f r t t a t y t m s d o ma n M i d o o
0 引言
和难点 , 备受世界很 多国家的重视 。在信息检索和抽取f 1 等领域 中, 论与术语本身含义是相容的, 不会产 生矛盾。 最大单调可扩展性 : ④ 本体发挥着越来越不可缺 少的作用。 息抽取是把文本里包含的信 即向本体中添加通用或专用 的术语时 ,不需要修改其己有 的内容。 信 息进行结构化处理 , 变成表格 一样 的组织形式。输入信息抽取系统 ⑤最小承诺 : 即对待建模对象给 出尽可能少的约束。⑥最小编码偏 的是原始文本 , 出的是 固定格式的信 息点。信息点从各种各样 的 差 : 输 本体 的建立应尽 可能独立于具体的编码语 言。⑦使用多样的概 文档中被抽取 出来 , 然后 以统 一的形式集成在一起。这就是信 息抽 念层次结构实现多继承机制。⑧尽可能使 用标准化的术语名称。 22领域本体的构建步骤 在 实际的构建过程 中,根据问题 领 _ 取 的主要任务。基于领域本体的信息抽取系统 , 以实现让用户得 可 形成多种构建本体 的方法。目前 , 知识工程界 到具有个性化 的信息服务 , 同时通过领域本体为信息源提供相 应的 域和具体工程 的不同,

基于应急案例本体的信息抽取的研究及应用的开题报告

基于应急案例本体的信息抽取的研究及应用的开题报告

基于应急案例本体的信息抽取的研究及应用的开题报告一、研究背景随着社会的不断发展和科技的不断进步,大规模突发事件不断出现,给人们的生命财产造成了严重威胁,因此如何快速地获取大规模突发事件中的活动信息成为了研究的热点。

本体作为描述领域知识的一种模型,具有可重用性强、一致性好等优点,目前已被广泛应用于领域知识表示和智能化应用中。

因此基于应急案例本体的信息抽取研究成为了当前较为热门的研究方向,其对快速响应、精准预测做出应急反应具有重要意义。

二、研究目的本研究旨在设计一套基于应急案例本体的信息抽取模型框架,以实现对大规模突发事件中的活动信息的自动化快速获取和分析,以此提升应急反应和预测的准确度和及时性,进一步提高应急管理的水平和效率。

三、研究内容和方法研究内容主要包括以下方面:1.通过调查分析得到应急事件的相关领域知识,并利用OWL Description Logic对其进行建模,构建应急案例本体。

2.分析应急事件的信息来源,整合多种信息抽取技术如自然语言处理、机器学习等技术手段,设计基于本体的信息抽取模型。

3.将信息抽取模型与本体进行融合,实现信息抽取到本体的转换,完成应急事件中相关活动的自动化识别与抽取,并进行存储和管理。

研究方法主要包括文献研究、调查问卷、本体构建和信息抽取模型的设计与实现。

四、预期成果本研究的预期成果包括:1.构建完整的应急案例本体,实现对应急事件中的相关领域知识的描述。

2.设计并实现基于应急案例本体的信息抽取模型,实现对应急事件中的相关活动信息的自动化获取和分析。

3.实现将信息抽取到本体的转换,并进行存储和管理,为应急反应和预测提供支持。

五、研究意义本研究的意义在于:1.提高应急管理的效率和水平,实现对大规模突发事件中活动的快速响应和预测。

2.较好地结合本体和信息抽取技术,对相关领域知识和事件信息进行智能化处理,为后续的应用提供基础和支持。

3.为自然语言处理和机器学习等领域的技术研究提供参考和借鉴。

基于本体的HACCP体系知识获取与知识表示

库 等 。 危 害 分 析 与 关 键 控 制 点 ( z r An l HAcCP流 通 实
过 程 , 细 分 析 了 H ACCP体 系 应 用 指 南 , 仔 将 H ACCP体 系 的 建 立 分 为 七 个 主 要 步 骤 ① 关 键 控 制 点 ( P) 制 定 相 应 的 需 要 控 制 CC ,
学 知 识 进 行 表 示 , 立 了 几 何 学 本 体 知 识 建
动 式 获 取 ( 域 专 家 通 过 知 识 编 辑 器 储 存 领 知 识 ) 交 互 式 获 取 ( 断 与 人 交 流 和 理 解 、 不 知 识 ) 自 主 式 知 识 获 取 ( 统 自 动 从 已 有 、 系
的 资 料 书 本 中 抽 取 知 识 ) 通 过 以 上 几 种 方 。
摘 要 : 文 借 助 本 体 鳊 辑 工 具 P o , 完 了基 于 本 体 的 知 识 获 取 与 知 识 表 示 , H c 体 系知 识 转 化 为 该 领 域 本 体 用 R / W1 本 r t g6 研 6 将 Ac P DF O

的形 式进行 描 述 , 对其概 念 , 性 关 系 以及 工作 流程 进行 表 示 , 并 属 掏建 了一 个 HA c 本 体 知 识 库 为 领 域 知 识 服 务 自 然 语 言 处 理 . 例 推 理 提 cP 案
国外联 合 国粮 农组 织 ( FAO) 0 1 起 开 自2 0 年
展 农 业 本 体 服 务 ( rc lu a Ontlg S Ag iut r l oo y
evc , r ie AOS 计 划 的 研 究 。 ) AOS 目 目 前 构 项
造 了 三个 领 域 的原 始 本 体 , 渔 业 本 体 、 即 食 品 安 全 领 域 本 体 和 食 物 、 养 与 农 业 的 本 营 体 。 aip i1园 艺 学 领 域 本 体 , 学 本 体 U M la p s ] 医

如何进行专利的提炼和挖掘

如何进行专利的提炼和挖掘提炼和挖掘专利是指从大量专利文献中筛选出具有价值和创新性的专利,并从中获取有用的信息和技术。

这是一个复杂的过程,需要科学方法、专业知识和技能。

下面是实施这一过程的一些建议。

1.制定明确的目标:在开始专利提炼和挖掘过程之前,您应该明确自己的目标。

是找到与您的研究领域相关的专利,还是寻找具有商业化前景的创新技术?确保您知道自己想要找到什么,这样才能更有针对性地进行专利。

2.学习专利分类系统:专利分类系统是按照主题和领域对专利进行分类的一种标准化方法。

了解并熟悉专利分类系统可以帮助您更快地找到您感兴趣的专利内容。

常见的专利分类系统包括国际专利分类系统(IPC)和美国专利分类系统(USPC)。

4.进行合适的检索:在专利时,您应该选择合适的检索策略和方法。

可采用关键词法,利用与您研究领域相关的关键词进行检索。

此外,还可以利用分类号进行检索,通过选择与特定主题和领域相关的分类号来缩小结果的范围。

5.分析检索结果:一旦完成了专利检索,您需要对检索结果进行分析。

首先,评估检索结果的相关性,查看每个检索结果的摘要和说明,以确定它们是否与您的目标相关。

然后,评估检索结果的创新性和价值,查看专利的声明范围和权利要求,确定是否有其他专利已经提出了类似的技术或解决方案。

6.筛选和提纯专利:在分析检索结果的基础上,您需要筛选和提纯专利。

首先,删除与您目标无关的专利,只保留与您的研究领域相关的专利。

然后,评估专利的质量和创新性,选择具有较高商业化潜力和实用价值的专利进行进一步研究。

7.进行专利分析:在筛选和提纯专利后,您可以进行专利分析。

专利分析是一种评估专利技术和商业价值的方法。

您可以对专利进行技术评估,了解其技术细节和优势;还可以对专利进行商业评估,了解其市场潜力和商业化前景。

8.获取有用的信息和技术:最后,您可以从挖掘的专利中获取有用的信息和技术。

您可以利用专利文献中的技术细节和解决方案,为自己的研究和创新提供参考和灵感。

中国科学技术信息研究所国家自然及社科基金资助项目统计分析

中国科学技术信息研究所国家自然及社科基金资助项目统计分析高凤云【摘要】结合中国科学技术信息研究获得国家自然科学基金和国家社会科学基金资助项目分析,认为国家科学基金项目促进了学科研究水平,培养了一批科研骨干和学术带头人.并对提高承担重大基金项目能力、强化过程及结题后跟踪管理提出建议.【期刊名称】《科技管理研究》【年(卷),期】2014(034)005【总页数】4页(P241-244)【关键词】中国科学技术信息研究所;国家自然科学基金;国家社会科学基金;资助项目;统计分析【作者】高凤云【作者单位】中国科学技术信息研究所,北京100038【正文语种】中文【中图分类】G311;C19国家自然科学基金及国家社会科学基金项目代表了我国自然科学及社会科学界最高研究水平,竞争激烈,无论是高等院校,还是科研院所都将基金立项作为检阅自身科研实力的重要指标。

在获得基金项目资助后,如何科学有效地管理好,促进本单位科研水平、人才培养和学科建设上一个新台阶,是广大科研管理人员面临的一项重要课题。

本文根据中国科学技术信息研究2001—2012年期间获得的国家自然科学基金及国家社科基金资助项目及论文产出情况进行统计分析,揭示中信所在获得国家科学基金资助方面的优势,以期获得更多启示。

1 资助情况近年来,中国科学技术信息研究为提升学科研究水平,制定了相应的管理办法及措施,使我所近几年获得国家科学基金资助项目有了新的突破。

首先依靠政策导向,对获得基金资助项目负责人,按资助经费的5%给予一次性奖励;对未获资助项目的申报人也给予一定的奖励,充分调动了广大科研人员的积极性。

另外,设立预研基金项目,拨专款鼓励年轻科研人员为申报国家科学基金开展预研究。

同时强化科研管理,注重国家自然科学基金及国家社会科学基金项目申报,由科研管理部门组织集中申报,并组织所内专家对项目申请书进行评议,提出修改意见,提高了申请项目的命中率。

由表一所示,自2001年以来,中国科学技术信息研究所共获得国家自然科学基金立项14项,国家社会科学基金立项19项。

基于本体的智能答疑系统研究与实现的开题报告

基于本体的智能答疑系统研究与实现的开题报告一、选题背景随着信息技术的发展,人们对智能化、自动化工具的需求越来越高。

智能问答系统是其中的一种,它可以通过语言、图像等方式与人交互,根据用户提供的问题或需求,快速、准确地给出回答或建议。

智能问答系统被广泛应用于客服、教育、医疗、金融等领域,受到了广泛的关注和应用。

本体是一种知识表达工具,可以用来描述事物之间的关系和属性,支持机器推理、查询等操作。

基于本体的智能问答系统将知识本体化,把知识以本体的形式表达出来,借助本体推理机进行逻辑推理、答案生成等操作,提高了系统的准确性和智能化程度。

因此,本次研究选择基于本体的智能答疑系统作为研究对象,旨在提高智能问答系统的准确度和智能化程度,使其更好地服务于人们的需求。

二、研究目的和意义本体作为一种知识表达工具,可以将知识形式化、结构化,使得机器可以理解和处理。

基于本体的智能问答系统具有以下优势:1. 知识表达更加准确:基于本体的智能问答系统将知识形式化、结构化,可以更准确地表示知识,避免了自然语言的歧义和模糊性。

2. 知识推理更加智能:本体推理机可以通过对本体的自动推理,将用户提出的问题与本体中的知识进行匹配、推理,生成更加智能、准确的答案。

3. 知识更新更加方便:本体可以方便地进行知识修改和扩充,保证系统的知识库始终更新。

基于本体的智能答疑系统在教育、医疗、金融等领域,可以为用户提供更加便捷、准确的答疑服务,提高了知识服务效率和质量,具有良好的应用前景和社会价值。

三、研究内容和方法本研究将基于本体的智能问答系统作为研究对象,主要研究内容包括:1. 构建领域本体:选取特定的领域进行知识建模,构建本体模型。

2. 实现本体推理机:基于Jena或OWL-API等本体推理引擎,实现本体推理机,对本体中的知识进行推理。

3. 答案生成算法研究:通过对用户问题的分析和处理,结合本体推理结果,生成准确的答案或建议。

研究方法主要包括:1. 知识抽取和建模:收集和整理特定领域的知识,将知识形式化、结构化为本体模型。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于本体的专利摘要知识抽取*姜彩红乔晓东朱礼军(中国科学技术信息研究所北京100038)=摘要>采用知识工程的方法,对/新能源汽车0中文专利摘要进行研究分析,提出一个基于本体的中文专利摘要抽取模型。

通过构建相应的本体、收集相关的词表、撰写相应的规则,并利用这些规则对专利摘要进行知识抽取结果,抽取结果辅助完成专利知识库的自动构建。

即就如何组织非结构化信息以及如何自动构建知识库进行尝试,验证基于本体对专利摘要进行知识抽取的可行性。

=关键词>知识抽取本体专利摘要知识库=分类号>TP391Ontology-based Patent Abstracts.Know ledge ExtractionJi ang Ca i hong Q iao X i aodong Zhu L ij un(I nstitute of Sc i entif i c and T echnical Inf or m ati on of Ch i na,Beiji ng100038,China)=Abstract>This paper ana l yzesChinese patent abstract about alternative energy vehicles by way o f kno w ledge engineeri ng m et hod,and puts for w ard an Ontology-based kno w ledge extract i on model for Chi nese pate nt a bstracts.M ain stages i n bu ildi ng the m odel include:to constr uct a correspondi ng O ntology,to collect a rel ate d word list,to w rite correspondi ng rules.These r ules ar e utilized to extract underlyi ng kno w ledge i n patent a bstracts.The result aids i n the auto m at i c construc-t i on of patent kno w ledge base.Th i s pa per is an atte mpt on ho w to organize unstr ucted i nfor mati on a nd on ho w to auto matica-l l y c onstr uct a kno w ledge base,and verifies t he feasi b ility of Ontology-based patent a bstracts.kno w ledge extraction.=K eywor ds>Kno w ledge e x traction Onto l ogy Patent abstract Kno w ledge base1引言随着计算机技术的普及和I nter net的迅猛发展,数字化的文档信息总量呈指数级增长。

在这些信息中,非结构化的信息又占90%以上。

这些文档中所包含的知识既不能被自动化系统使用,也不能被人以很方便的方式进行管理,这就意味着这些知识很难得到捕获、共享和重用。

如何从这些非结构化的文档中抽取出某类特定的信息,以一定的语义关系组织起来并保存于知识库(K no w ledge Bases,KB)中以供更好的利用,即实现非结构化信息的知识抽取(K no w ledge Extract i on,KE),正是本文研究的问题。

知识抽取在信息抽取(Inf or m ati on Extracti on,I E)[1]之上。

传统的信息抽取系统仅仅能识别出某些特定的实体,却没有将这些实体按照一定的语义关系组织起来。

因此,这些被识别出来的信息往往只是一些分散的信息片段,无法形成一项完整的知识,不能直接供用户使用,没有具体的实用价值。

知识抽取克服了信息抽取的上述缺陷,不但从文本中识别出特定的实体信息,并且将这些信息以一定的语义关系组织起来,形成知识并存入知识库收稿日期:2008-11-24*本文系/十一五0国家科技支撑计划/知识组织系统的集成及服务体系研究与实现0(项目编号:2006BAH03B06)、中国科学技术信息研究所重点工作项目/汉语科技词系统建设与应用工程(新能源汽车领域)0(项目编号:2008KP01-3-1)和中国科学技术信息研究所/特色数据库建设及自主知识产权关键技术研发(面向深度分析的领域专利信息特色资源库)0(项目编号:2008KP01-7-1)的研究成果之一。

中,从而实现知识的共享和重用,达到面向用户需求的目的,而这正是知识抽取的最终目的[2]。

2国外知识抽取相关研究现状调研本文作者对国外几个著名的知识抽取项目进行了调研,结果如下:(1)南安普敦大学的A rt EquAKT项目[3]使用自然语言处理技术自动地从在线文档中抽取有关艺术家的生活和工作信息,将这些信息自动地输入事先设计的领域本体中,根据用户的需求从知识库中抽取和构建信息,从而自动产生艺术家的生平传记。

A rt EquAKT 使用了自然语言处理技术来抽取关系,使用了本体来帮助处理语义信息,使用了GATE来实现实体识别,使用了W or dN et来实现术语扩展。

知识抽取工具搜索W e b文档,并提取与给定的类目结构相匹配的知识。

知识抽取工具以其可读格式提供知识,并将这些知识存储在知识库中。

(2)英国的AKT项目[4]的目标是开发和提供一系列技术来解决知识工程和知识管理领域的6个基础瓶颈,包括知识获取、知识建模、知识重用、知识检索、知识发布和知识维护,为知识生命周期建立一套完整的方法,其中知识获取主要采用知识抽取技术,从大量的无结构的数据中,抽取出结构化的具有明确语义的知识。

在项目中采用了一系列的组件技术(3Store、AKT ResearchM ap、AKT-Bus、ANN I E、Adapt i va等)来解决知识生命周期中所遇到的各种问题。

(3)欧盟的SEKT项目[5]目标是开发和利用知识技术并以此来推动下一代的知识管理(NGK M)。

下一代的知识管理系统将包括自动的知识抽取、根据用户需要进行知识打包和传递、基于语义的知识分析。

SEKT认为阻挡NGKM系统被广泛应用的障碍是知识建模和知识标注。

SEKT的三个核心技术是:本体和元数据技术(O M T)、人类语言技术(H u m an L a nguage Tec hno l ogies)以及知识发现(KD)。

这三项技术将一起被应用,用于创建一系列半自动化的工具,以实现O n-to l ogy的创建、Ontology中M etadata的导入、Ontology和相关M etadata的演化维护,SEKT架构将建立在国际标准之上,并且也会对新兴的语义W eb标准产生影响。

(4)新加坡的W e b信息抽取和合成智能检索代理项目[6]的目标是建立一个智能检索代理原型来执行W eb上的信息抽取和合成。

系统使得最终用户可以从多个W eb站点上抽取相关信息,并将信息整合成多文档摘要。

这一项目主要使用了两种技术:信息抽取、信息整合;多文档文本摘要技术。

大多数的W e b搜索引擎和智能检索代理只能识别W e b上的潜在的相关文档,而不能够明确地从文档中抽取相关信息,目前所建立的信息抽取系统需要大规模的训练集,且只能够让专家使用。

通过对国外这些项目的调研,作者发现,所有这些项目都使用了本体技术,利用本体定义的语义关系来组织识别出来的实体信息,形成完整的知识并在此基础上完成对知识库的构建。

而作者通过对国内的几个知识组织项目的调研发现,国内将本体技术应用于知识抽取过程的项目较少,因此作者希望通过借鉴国外的研究成果,对利用本体技术实现中文知识抽取做一个探索。

3基于本体的中文专利摘要知识抽取系统模型3.1抽取原理本文通过对/新能源汽车0中文专利摘要的阅读和分析,提出了一种专利摘要内容判别原则,即专利摘要的内容可以分为如下5个部分:对专利的全局判断(包括所属技术领域的判断、用途或目的等)、专利采用或舍弃的方法或技术、专利的工作原理(包括连接接触、驱动控制或自动工作等)、专利的组成结构以及专利人对专利的评价(包括正面性能的增加、负面性能的减少或优秀性能的保持等)等。

通常,一篇专利的摘要信息就是由上述5项内容或者是这5项内容中的其中几项构成,用户只要好好把握这5项内容,就基本上把握了这篇专利的主要信息。

本文的任务就是抽取出专利摘要中的上述5项内容。

基于本体的知识抽取系统的目的就是将非结构化的专利摘要信息结构化,并将以一定的语义关系组织起来其存入知识库中,从而实现知识库的自动更新。

3.2抽取流程基于本体的中文专利摘要抽取系统有4个主要的功能模块:数据转换模块、中文分词模块、本体构建模块以及知识抽取模块。

系统流程图见图1。

(1)数据转换模块数据转换模块的功能主要是用于对语料的收集。

图1 基于本体的中文专利摘要抽取系统示意图本文用于抽取的语料来自/新能源汽车0方面的中文专利数据库,通过数据转换模块,将数据库中的860条/新能源汽车0中文专利转换成一个包含860篇TXT 文档的文档集,每个文档的内容由一项专利的名称及对应的专利摘要组成。

(2)中文分词模块根据抽取任务的需要,所有专利摘要文档必须先经过分词处理。

本系统的中文分词模块是在中国科学院分词软件I CTCLA S 的基础上,对其进行二次开发[7],实现了对整个文档集进行批量分词的功能,为实现系统的后续功能做准备。

(3)本体构建模块本文的任务就是将专利摘要中的上述5项内容抽取出来,并且以一定的语义关系组织起来存放入知识库中。

本文根据上述专利内容判别原则,构建出一个专利本体,用来将抽取出来的内容以一定的语义关系组织起来。

¹本体构建工具本文选择P rot g _3.4_be ta(以下简称P rot g )作为本体的构建工具。

P ro t g 是斯坦福大学医学院的医学情报学研究组用Java 语言开发研制的本体构建工具,拥有图形化的用户界面,支持中文的编辑和输出,使用起来简单方便[8]。

º本体构建原理根据上述专利内容判别原则,并参照/新能源汽车0中文专利数据库,本文构建出一个新能源汽车专利领域的中文本体,用来提供一定的语义关系,将识别出来的实体以该语义关系组织起来。

图2是该专利本体在P rot g 中的显示。

图2 专利本体在Prot g 中的显示其中,在专利这个大类下面,创建了两个子类:专利外部信息和专利内部信息。

相关文档
最新文档