基于多策略融合的专利术语自动抽取
基于TValue融合领域度的术语抽取法

a nd Fi e l d ho o d I nt e g r a t i o n
YANG Ya n a , LI U S he n g q i
( 1 . P o s t a l S a v i n g s Ba n k o f Ch i n a , B e i j i n g , 1 0 0 0 7 0 , C h i n a ; 2 . Ch i n a P a t e n t I n f o r ma t i o n Ce n t e r , Be i j i n g , 1 0 0 0 8 8 , Ch i n a )
o n t h e iv f e a t t r i b u t e s o f TVa l u e . Th e v a l ue o f AVa l u e i s c o mp u t e d b y t h e s i x a t t r i b u t e s o f t h e s t r i n g s b a s e d o n
域的贡 献。 关键词 : 术语抽取 ,术语 识别 ,数 据挖掘 ,领域 度 中图分类号 :T P 3 9 1 . 1 , G 3 0 6 . 0
Au t o ma t i c Te r m Ex t r a c t i on Ba s e d o n Ad v a nc e d TVa l ue
情 报工程
I S S N: 2 0 9 5 . 9 1 5 X
TECHNOL O GY J NTEL LI GENCE ENG I NEER J NG
l SSN: 2 0 9 5 — 9 1 5 X V o 1 . 1 No. 5 2 5 . 3 1 Oc t 2 01 5
作者简介 :杨雅娜和刘胜奇与第一作者贡献相同 , 为并列 第一作 者。 杨雅娜 ( 1 9 8 6 一) , 本科 , 研究方向:专利分析 、 银行风险管理。 刘胜奇 ( 1 9 7 8 一),博士 。高级工程 师,研究 方向:知 识管理 、可视 化、创新管理 。 s h e n g q i l i u @1 2 6 . c o m。
基于BERT嵌入BiLSTMCRF模型的中文专业术语抽取研究

基于BERT嵌入BiLSTMCRF模型的中文专业术语抽取研究一、概要随着自然语言处理技术的不断发展,中文专业术语抽取已经成为了研究的热点。
本文提出了一种基于BERT嵌入BiLSTMCRF模型的中文专业术语抽取方法。
该方法首先使用BERT模型对文本进行特征提取,然后将提取到的特征输入到BiLSTMCRF模型中进行序列标注。
通过对比实验,我们发现该方法在中文专业术语抽取任务上取得了显著的性能提升。
同时我们还对模型进行了调优和改进,以进一步提高其性能和鲁棒性。
本文的研究为中文专业术语抽取提供了一种有效的解决方案,具有一定的理论和实际应用价值。
1. 研究背景和意义随着自然语言处理技术的不断发展,文本挖掘和信息抽取已经成为了学术界和工业界的热点问题。
在众多的自然语言处理任务中,专业术语抽取是一项具有重要意义的任务。
专业术语是指在特定领域内具有特殊含义和用途的词汇,它们在文本中的出现频率较低,但对于理解文本内容和进行知识推理具有重要价值。
因此研究如何从大量的非结构化文本数据中自动抽取专业术语,对于提高文本分析的效率和准确性具有重要的理论和实际意义。
然而现有的专业术语抽取方法仍然存在一些局限性,首先这些方法主要针对单个领域的专业术语抽取,对于跨领域的专业术语抽取仍存在困难。
其次现有的方法往往需要人工提取特征或设计复杂的模型结构,这增加了算法的复杂性和计算成本。
此外现有方法在处理长文本和多义词等问题时也存在一定的局限性。
2. 相关工作概述在自然语言处理领域,文本挖掘和信息抽取一直是一个重要的研究方向。
针对中文专业术语抽取问题,研究者们提出了许多方法,如基于规则的方法、基于统计的方法和基于机器学习的方法等。
这些方法在一定程度上提高了专业术语抽取的准确性和效率,但仍然存在一些局限性,如对未登录词的处理不足、对长文本的处理能力有限以及对于歧义词汇的处理不够准确等。
近年来随着深度学习技术的快速发展,基于BERT等预训练模型的中文专业术语抽取方法逐渐成为研究热点。
基于百科资源的多策略中文同义词自动抽取研究(1)

基于百科资源的多策略中文同义词自动抽取研究*陆 勇 章成志 侯汉清摘 要 采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路。
综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点。
实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中。
未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵。
图1。
表6。
参考文献13。
关键词 信息抽取 中文同义词 同义词抽取 百科语料库分类号 G35ABST RACT Th e auto m atic extracti on ofCh i n ese s ynony m s p l ays an i m portan t ro l e i n i n for m ation retri eval and se m anti c resou rce constru cti on.Based on anal yz i ng and co m pari ng t h e d i ff eren t tec hn iques of s ynony m extraction,t h is paper propos es a m u lti strategic m ethod cons i sti ng of litera l s i m il ari ty al gorith m,pattern match i ng al gorithm and Page Rank algorit hm to extract Ch i nes e synonym s from encycl oped i a resources.Them et h od s upports any do m ai n and is ab le t o extract synony m s i n various exp ress i on s.The res u lt of experi m en ts i nd i cates that t he m et hod is f eas i b l e and practica,l and at t he sa m e ti m e,it is su it ab le to extract s yn ony m s i n other languages.1fi g.6tabs.13refs.K EY W ORDS Synony m s extraction. Ch i n ese synonym s. In f or m ati on ex tracti on. Encycl op ed i a kno w l edge. CLASS NUM BER G351 引言在信息检索和语义资源构建领域,同义词主要是指一个或多个能够相互替换、表达相同概念的词或词组,其并不考虑词汇的感情色彩和语气,与语言学上严格定义的同义词相比,它的含义要宽泛一些。
一种混合策略的领域术语自动抽取方法

一种混合策略的领域术语自动抽取方法闫琪琪;张海军【摘要】本文提出了一种规则与统计相结合的方法,针对计算机领域术语综合其领域术语特征和统计特征。
算法在语料词性标注基础上,在原有词串扩展算法上糅合领域术语部件和领域术语特征获取候选术语。
综合统计特征C-MI实现候选术语过滤。
实验证明,算法能有效提高术语抽取的正确率和抽取效率。
【期刊名称】《电子制作》【年(卷),期】2015(000)008【总页数】2页(P50-51)【关键词】术语部件;术语自动抽取;本体【作者】闫琪琪;张海军【作者单位】新疆师范大学计算机科学技术学院乌鲁木齐 830054;新疆师范大学计算机科学技术学院乌鲁木齐 830054【正文语种】中文术语是针对特定领域科学知识的语言结晶,术语集中体现和负载了一个学科领域的核心知识。
“信息革命”背景下的海量数据给术语学的研究带来了前所未有的困难,以计算机技术为依托的术语自动抽取技术应运而生。
中文术语抽取不仅是自然语言处理中的一项基础课题,而且在知识管理领域的本体构建研究中也有重要的应用。
目前国内外术语自动抽取方面开展了大量的工作,形成三类术语自动抽取方法:(1)语言学方法,主要利用上下文特殊的语法结构、词法和句法信息等识别术语。
此方法有准确率高、处理过程简单、计算量小的特点,但存在语言规则复杂抽取难度大的缺点。
(2)统计方法,从概率意义上衡量多字单元是否为术语。
统计特征有两类,一是术语单元性即术语作为独立的语言单位具有稳定的语言结构;二是术语领域特性,术语与特定领域之间的相关程度。
此方法适用于大规模文本、容易实现自动化且可移植性强。
(3)混合方法,此方法结合了规则和统计方法的优点,一定程度上克服了规则和统计方法的不足,是目前领域研究的主要方向。
如李丽双以统计机器学习CRFs模型为依托,融合词性、词典、领域频率等术语特征。
目前术语自动抽取研究中特征融合已经成为一种趋势。
本文提出一种术语部件扩展算法,以术语部件为扩展原点,结合领域术语长度规则和领域构词规则,从领域语料中获取候选术语,使用C-MI 统计特征实现候选术语过滤,目的是有效的抽取领域中的单词术语和词组型术语。
基于百科资源的多策略中文同义词自动抽取研究

w rs 并不属 于 同义词 的范 畴。面 向信息 检索 od)
1 引 言
的中文同义 词 主要 分为 学名 与 俗名 、 全称 与简 称、 新称与 旧称 、 型号 或代号 、 中英文译 词 、 字母
在信息检 索 和语 义资 源 构建 领 域 , 同义词 缩略词 、 音译 词等 。反 义词 ( 对义 词 ) 包含 所 主要是指一个 或 多个 能 够相 互替 换 、 达 相 同 的概 念互 不相容 , 描述 的主题 相 同, 表 但 通常 也被 概念的词或词 组 , 并 不考 虑词 汇 的感 情 色彩 视 为 一种 特 殊 的 同 义 词 。 其 和语气 , 与语 言学 上严格 定义 的同义词 相 比. 它
a g r h t xr c i e e s n n msfo e c c o e i e o r e .T e meh d s p o n o i n sa l o e ta t lo i m o e ta t t Ch n s y o y r m n y lp d ar s u c s h t o u p  ̄sa y d man a d i b e t x r c
中文 同义 词的 自动识 别和 获取在 中文 信息
的含义要宽泛一些 。同义词 的主要 特征是 它们 处理 、 信息 检 索等 领域 中应 用 十分 广 泛。例 如 在语义上具 有相 似性 , 但相 似性 并 不等 同于相 提 高文献 数据 库 和 网络检 索 的效 率 , 现检 索 实
多策略融合的搭配抽取方法

多策略融合的搭配抽取方法多策略融合的搭配抽取方法是一种有效的语言处理技术,旨在从大规模文本数据中自动抽取出有意义的搭配短语。
搭配是指一组在特定语境下经常一起出现的词或短语,其整体意义不完全等于各个成分的简单叠加。
搭配的抽取对于自然语言处理任务如机器翻译、信息检索和文本分类等具有重要的作用。
本文将介绍一种基于多策略融合的搭配抽取方法,以解决传统方法在抽取效果和泛化能力上存在的问题。
在传统的搭配抽取方法中,主要采用基于统计特征的方法,如互信息、点互信息等,通过计算词与词之间的共现频率或相关度,来判断它们是否构成搭配。
然而,这些方法往往只考虑了局部的词语关联性,忽略了上下文信息和语义关联性,导致抽取的搭配结果不准确或有歧义。
为了解决这一问题,研究者们提出了多策略融合的搭配抽取方法。
多策略融合的搭配抽取方法综合利用了基于统计特征的方法和基于语义特征的方法,通过一系列策略的融合,提高了搭配抽取的准确性和泛化能力。
具体而言,该方法包括以下几个步骤:第一步,基于统计特征的策略。
在这一步中,利用统计模型计算词与词之间的共现频率、互信息等特征,从而判断它们是否构成搭配。
这一策略主要用于初步筛选可能的搭配短语,过滤掉一些无关的词语组合。
第二步,基于语义特征的策略。
在这一步中,利用词向量模型计算词语之间的语义相似度,从而判断它们是否具有语义关联性。
通过引入语义特征,可以进一步提高抽取结果的准确性和泛化能力。
第三步,基于上下文特征的策略。
在这一步中,利用上下文信息来判断词语之间是否构成搭配。
通过考虑词语的前后文环境,可以更好地理解其搭配关系。
这一策略可以解决传统方法中忽略上下文信息的问题。
第四步,策略融合。
在这一步中,综合考虑各个策略的结果,通过加权融合的方式得到最终的搭配抽取结果。
权重的确定可以根据实验结果进行优化,以达到最佳的抽取效果。
通过以上多策略融合的搭配抽取方法,可以有效地提升搭配抽取的准确性和泛化能力。
与传统方法相比,该方法综合考虑了统计特征、语义特征和上下文特征,充分利用了不同层面的信息,使得抽取结果更加准确、可靠。
机器翻译中的术语自动抽取与翻译技术研究
机器翻译中的术语自动抽取与翻译技术研究一、引言随着全球化的发展,语言是人们交流的基础。
然而,不同的语言之间的障碍成为了不同国家之间交流合作的难点。
机器翻译技术的快速发展解决了这个问题。
机器翻译技术充分利用机器学习算法,将源语言文本转化为目标语言文本,从而实现不同语言之间的有效沟通。
然而,在机器翻译的实现过程中,术语自动抽取和翻译技术成为了实现高质量机器翻译的重要因素。
本文将深入探讨机器翻译中的术语自动抽取和翻译技术,分析其技术原理和应用情况。
二、机器翻译中的术语自动抽取技术术语是某一特定领域内专业术语的统称,是一种语言特征。
术语的准确翻译对机器翻译的质量有着决定性的影响。
因此,在机器翻译过程中,术语自动抽取技术成为了一个非常重要的环节。
术语自动抽取技术是利用自然语言处理技术,在语料库中自动获取文本中的术语的技术。
其主要流程包括语料库收集、分词、词性标注、命名实体识别等步骤。
在这些步骤中,命名实体识别是术语自动抽取的关键部分。
命名实体识别是指通过模型和规则,自动识别和提取出文本中具有一定实体含义的词汇,包括人名、地名、组织机构名称、时间、数量、货币、专业术语等。
术语自动抽取技术的应用可以大大提高机器翻译的翻译质量。
例如,在医学领域,机器翻译需要准确翻译各种医学术语,而这些术语很难人为收集和整理。
如果采用术语自动抽取技术,可以自动从医学文献中抽取术语并进行翻译,从而提高机器翻译的准确性和效率。
三、机器翻译中的翻译技术翻译技术是机器翻译的核心部分,影响机器翻译的翻译质量和速度。
目前,机器翻译中常用的翻译技术有统计机器翻译技术和神经机器翻译技术。
下面将分别介绍这两种技术。
1. 统计机器翻译技术统计机器翻译技术是机器翻译的传统技术,其基本思想是将源语言与目标语言之间的映射关系表示为一个概率模型,并通过学习模型参数来实现机器翻译。
统计机器翻译技术分为基于短语和基于句子的方法。
基于短语的方法将句子分成若干短语,翻译其中每个短语,再整合翻译结果得到最终的翻译结果。
基于领域知识的术语自动提取技术研究
基于领域知识的术语自动提取技术研究随着信息技术的发展,信息爆炸的时代已经来临。
因此,文本自动化处理技术在信息处理中扮演着越来越重要的角色。
其中,术语自动提取技术是文本处理技术中的一种重要的技术方式。
术语自动提取技术指的是在一篇文章中,自动识别和提取出文本中具有特定含义的单词或短语,比如法律文件、医学专业文献、科技报告等等领域知识。
这些术语的自动提取可以极大地提高信息处理的效率,让人类在信息海洋中更快捷地获取自己所需的知识和信息。
因此,基于领域知识的术语自动提取技术的研究具有重要的理论和实践意义。
一、领域知识要实现术语自动提取技术,我们需要深入了解领域知识的概念。
领域知识指的是特定领域内的专业专项知识。
例如,医学领域的疾病相关数字、分子生物学领域的蛋白质结构等等。
其中,领域知识包含了各种领域的术语、定义、关系和规则等信息。
这些信息可以用于自动化处理领域内的文本。
了解领域知识有助于我们更好地理解术语的含义和上下文关系,从而提高术语自动提取技术的准确性和效率。
二、术语的定义在进行术语自动提取之前,我们需要定义什么是术语。
通常,术语是指一组单词或短语,可以用来表达某个专门领域的特殊含义。
术语主要有两个特点:一是在特定领域内有一定的专业性和独特性,二是可以用通用单词或短语来解释其含义。
例如,计算机科学领域中的“算法”、“数据结构”等就是具有明确定义和特殊含义的术语。
当我们在进行术语自动提取时,需要从大量文本中挖掘出这些术语,以便进行后续的文本处理。
三、术语自动提取技术术语自动提取技术是一种基于文本自动化处理技术的方法,主要用于从文本中自动化提取出领域内的术语。
其主要过程包括:(1)预处理领域内的语料库,例如删除无用标点符号和停用词等;(2)建立文本的语义模型,例如采用词向量模型进行表示;(3)使用机器学习方法,例如支持向量机(SVM)和神经网络(NN)等,训练文本模型,以便自动从文本中提取出领域内的术语;(4)对于提取出的术语进行后续处理,例如形态学的分析、语义分析和关联分析等。
基于多策略融合的中文术语抽取方法
基于多策略融合的中文术语抽取方法
周浪;史树敏;冯冲;黄河燕
【期刊名称】《情报学报》
【年(卷),期】2010(029)003
【摘要】中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能.【总页数】8页(P460-467)
【作者】周浪;史树敏;冯冲;黄河燕
【作者单位】南京理工大学计算机科学与技术学院,南京,210094;北京理工大学计算机学院,北京,100081;北京理工大学计算机学院,北京,100081;北京理工大学计算机学院,北京,100081
【正文语种】中文
【相关文献】
1.基于多策略的领域本体术语抽取研究 [J], 何琳;
2.基于多策略的专业领域术语抽取器的设计 [J], 杜波;田怀凤;王立;陆汝占
3.基于多策略的专业术语抽取处理技术的研究 [J], 田怀凤
4.基于多策略融合的专利术语自动抽取 [J], 周绍钧;吕学强;李卓;都云程
5.融合多策略的军事领域中文术语抽取研究 [J], 张乐;唐亮;易绵竹
因版权原因,仅展示原文概要,查看原文内容请购买。
专利本体中术语及术语间关系抽取研究的开题报告
专利本体中术语及术语间关系抽取研究的开题报告一、研究背景随着科技的发展,专利申请量也越来越大,每个领域都有大量的专利文献。
在这些专利文献中,术语的重要性不言而喻。
术语是专业领域的专有名词,具有一定的语义和上下文关系,因而良好的术语提取与术语间关系抽取是专利技术分析的必要步骤。
目前,大多数的术语提取和抽取方法都是针对文本的,但对于专利文献中特殊格式的内容(如草图、法律声明、特殊标识符等)难以有效解析和利用,使得结果的准确性和实用性大打折扣。
因此,本研究旨在探究基于图像识别和自然语言处理技术相结合的方法,有效提取专利文献中的术语及术语间关系,为后续的专利分析提供更加准确和全面的信息基础。
二、研究目的和意义1. 提高专利技术研发效率:由于专利文献往往十分复杂,包含大量的专业术语和技术内容,因此在专利技术研发中,需要耗费大量时间和人力将文本信息进行整理和分类。
本研究通过术语提取和术语间关系抽取,可以快速准确地获得文本信息,提高技术研发的效率。
2. 提高专利分析的准确性:专利技术分析需要识别专业术语和技术关系,抽取关键技术点。
本研究旨在提供一种更加全面、准确的分析方法,为企业和研究机构提供更加可靠的技术分析结果,减少技术风险。
3. 产业转型升级:本研究将为科技创新和产业升级提供有力支撑,推动技术创新和产业转型升级,增强中国在技术领域的竞争力。
三、研究方法本研究将采用以下方法:1. 图像处理技术:将专利文献转化为图像文件,提取专利文档中的特征元素,并通过图像处理技术获得特殊格式内容的位置信息。
2. 自然语言处理技术:提取文本中的专业术语和技术关键点,并抽取术语间的关系。
3. 知识图谱构建:通过将抽取出的术语和关系进行处理和分析,建立专业领域的知识图谱,为专利技术分析提供基础支持。
四、研究内容及计划1. 研究数据来源:本研究将选取同一领域的专利文献作为研究对象,使用Python爬虫技术从专利数据库中获取研究数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PATENT TERM AUTo. EXTRACTI oN BASED oN M ULTI — S TRATEGY I NTEGRATI oN
Z h o u S h a o j u n L t i X u e q i a n g L i Z h u o D u Y u n c h e n g
第3 2卷 第 2期
2 0 1 5年 2月
计 算机 应 用与软 件
Co mp u t e r Ap p l i c a t i o n s a nd S o f t wa r e
Vo l I 3 2 No . 2
Fe b.2 01 5
基 于 多策 略 融 合 的专 利 术语 自动 抽 取
( B e i j i n g K e y L a b o r a t o r y o f I n t e r n e t C u l t u r e a n d Di g i t a l D i s s e mi n a t i o n R e s e a r c h , B e i j i a g I n f o r m a t i o n S c i e n c e a n d T e c h n o l o g y U n i v e r s i t y , B e j i i n g 1 0 0 1 0 1, C h i a) n
i n t e fe r r e n c e o f g e n e r a l w o r d s o n p a t e n t t e ms r e x t r a c t i o n, w e p r o p o s e r e s p e c t i v e l y t h e P a g e Ra n k i d e a — b a s e d S T Ra n k we i g h t c a l c u l a t i o n a l g o r i t h m ,t h e p a t e n t t e m s r d i s t i n c t i o n c o mp u t a t i o n t e c h n i q u e a n d t h e we i g h t — d r o p p i n g me t h o d u s i n g Ho w n e t s e me me i n f o ma r t i o n,t h e a b o v e me t h o d s a r e t h e n i n t e g r a t e d t o e x t r a c t t h e p a t e n t t e ms r .P a t e n t l i t e r a t u r e s o f s e n s o r i f e l d a r e c h o s e n f o r e x p e i r me n t , t h e p r e c i s i o n s o f t o p 一 1 4 0 0 a n d t o p 一 1 6 0 0 l e v e l a r e 8 O. 5 % a n d 7 9 . 7 % r e s p e c t i v e l y .i n c r e a s i n g I I . 4 % a n d 9 . 5 % i n c o n t r a s t t o t h e r e s u l t o f C S+C C +C D me t h o d .T h e e x p e i r me n t a l r e s u l t s p r o v e t h e e f f e c t i v e n e s s o f t h i s mu l t i — s t r a t e g y i n t e ra g t i o n me t h o d . Ke y wo r d s P a t e n t t e r m T e m r e x t r a c t i o n P a g e R a n k T e r m d i s t i n c t i o n S e me me i n f o r ma t i o n
a s s o c i a t e d r e l a t i o n s h i p b e t w e e n p a t e n t t e ms r a n d t h e s e n t e n c e s w h e r e t h e y a r e ,t h e i n i l u e n c e s b e t w e e n t h e a d j a c e n t p a t e n t t e ms r a n d t h e
中 图分 类 号
专利 术语
术语抽 取
P a g e R a n k 术语 区别度
A
义原信 息
T P 3 9 1 . 1
文献 9 6 9 / j . i s s n . 1 0 0 0 - 3 8 6 x . 2 0 1 5 . 0 2 . 0 0 7
周绍钧 吕学强 李 卓 都云程
( 北京信息科技大学网络文化与数字传播 北京 市重点 实验室 北京 1 0 0 1 0 1 )
摘
要
专利术语 自动抽取是知识抽取 与文本 挖掘的关键环节。在构建专 利文献停 用词表 以及 提取特定 规则 的基 础上 , 抽取候
选专利术语 ; 通过分析专利术语与其所在句子 的关联 关系、 相邻专利术语之 间的影 响以及常识 性词语对 专利术语抽 取的干扰 , 分别 提 出基 于 P a g e R a n k思想 的 s T R a n k权 重计算方法 、 专利术语 区别度 计算方法以及知 网义原信息 降权方 法, 并融合上述方法对专利 术 语进行抽取 。采用传感器领域 的专利 文献进行 实验, 在t o p 一 1 4 0 0、 t o p 一 1 6 0 0级别 上正确率 为 8 0 . 5 %、 7 9 . 7 %, 相对 比 c s+c c+c D方 法分别提 高 了 1 1 . 4 %、 9 . 5 %。实验结果证 明该 多策略 融合 方法的有效性。 关键词
Ab s t r a c t P a t e n t t e r ms a u t o — e x t r a c t i o n p l a y s a n i mp o r t a n t r o l e i n k n o w l e d g e e x t r a c t i o n a n d t e x t mi n i n g .I n t h i s p a p e r we e x t r a c t c a n d i d a t e
p a t e n t t e m s r o n t h e b a s i s o f c o n s t r u c t i n g t h e s t o p — w o r d s i n v e n t o r y o f p a t e n t l i t e r a t u r e s a n d s p e c i i f c ul r e s e x t r a c t i o n .Th r o u g h a n a l y s i n g t h e