基于知网的中文信息结构抽取

合集下载

一个基于概念的中文文本分类模型

一个基于概念的中文文本分类模型

一个基于概念的中文文本分类模型苏伟峰李绍滋厦门大学计算机科学系厦门361005摘要本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐,进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。

关键词文本分类概念《知网》全信息一、引言在过去几年中随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。

对资料进行管理一个很常见的方法就是对它们系统地进行分类。

显然,用人工对文本材料进行分类的过程是通读所有文章,然后再对它们进行归类保存。

当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,如何运用计算机进行自动分类成了许多人的研究方向。

一般而言,文本分类方法可分为两个类型:基于外延方法的分类方法:这种类型的分类方法不关心文本的语义,根据文本的外在特征进行分类。

最常见的方法是基于向量空间模型(V ector Space Module)的方法,该方法的思想是:把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的距离,来判定文本之间的相似程度。

采用该模型的文本分类方法一般步骤是:先通过对训练语料的学习对每个类建立特征向量作为该类的表征,然后依次计算该向量和各个类的特性向量的距离,选取距离大小符合域值的类别作为该文本所属的最终类别。

这种方法有了很多的应用,但是其不足之处也是显而易见的:1.正确率一般只能达到80%,且很难进一步向上发展2.对于不同体材的文本,则其归类正确率更是大打折扣。

基于语义的分类方法:这种类型的分类方法采用全部或部份理解文本的语义而进行归类。

主要可以分为以下三类:1.基于词的归类技术文本的语义是基于概念之上的,而词是概念的基本构成单位,从文本抽取出能反映出该文本的关键词,通过对关键词归类而进行归类,显然这种方法产生的归类其实并不是真正通过语义来进行归类,属于较早采用的技术。

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。


见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。

比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。

2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。

3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。

常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。

这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。

基于相邻词的中文关键词自动抽取研究

基于相邻词的中文关键词自动抽取研究

基于相邻词的中文关键词自动抽取研究【摘要】文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用。

在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法。

在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助。

【关键词】相邻词;关键词抽取;信息检索关键词是对文档的主题和主要内容的精炼概括。

中文关键词自动抽取的研究伴随着信息检索的发展不断地进行。

关键词自动抽取技术有着多方面的应用,包括文本分类、文本聚类、相关反馈、词表的自动丰富、新词热词的获取等等。

1.中文关键词抽取相关研究工作概述中文关键词自动抽取有过不少研究工作,前人采用的方法主要包括3种:①在字的级别上采用统计方法;②经过自动分词,在词的级别上利用词典、句法分析、词性标注等自然语言处理方法;③字级别和词级别的结合,统计方法和自然语言处理方法的融合。

但中文关键词自动抽取技术尚不够成熟,实验中获得的精度不够高,因而仍需要进一步研究才可能真正实用。

本文介绍的工作即为在前人研究工作基础上进行的改进。

2.基于相邻词的关键词抽取算法词t的相邻词指的是对句子进行分词后,在t之前的一个词和之后的一个词。

例如对“中文关键词抽取算法”分词后得到“中文/关键词/抽取/算法”,那么“关键词”的相邻词即为:“中文”(称为“前邻”)和“抽取”(称为“后邻”)。

显然,由于词可能出现在句首或者句尾,因此前邻和后邻有可能是空。

对文档中每个词t的相邻词的频繁程度进行考察,从而判断词t及其相邻词是否需要合并以成为语义完整的关键词。

对所有候选关键词计算权重,得到最重要的若干个关键词作为结果返回。

本文提出的算法对单篇文档自动抽取关键词。

关键词是文档中最重要的几个词,概括了文档的主题和主要内容。

文档中词的重要性通常可以用词在该文档中的出现频率(TF)和在大规模语料库中出现该词的文档篇数来衡量(一般使用词的文档频率倒数IDF)。

基于《知网》的中文信息结构消歧研究

基于《知网》的中文信息结构消歧研究
相似度计算消歧法 ; 最后 针 对 不 同优 先 级 的 中文 信 息 结 构 集 设 计 了不 同消 歧 流 程 。 实验 结 果 证 明 消歧 正 确 率 达 到 了 9 % 以上 。 0 关 键 词 :知 网 ; 中文 信 息 结 构 ; 消歧 ; 图相 容度 ; 义 相 似 度 语
中 图分 类 号 :TP 9 31 , 文献 标 识 码 :A
Zhe ngz u, e an 45 011,Chi ho H n 0 na;
2 De a t n fM a h ma is h n z o a h rS Co lg . p rme t t e tc ,Z e g h u Te c e ’ o l e,Z e g h u He a 5 0 4,Ch n ) e h n z o , n n4 0 4 i a
Ab ta t src : PCh ne eM e s i s sageSt ucur r t eDat b e,a n i po t n o po n n owN e ,c n bet e t d a ul a as sa m r a tc m ne ti H t a r a e sa r e
第 2 6卷
第 4期
中文信息 学报
J OURNA L OF CHI NES I ORM ATI E NF ON PROCE S NG S I
V o1 26. No. 4 .
21 0 2年 7月
J 1,2 1 u. 0 2
文 章 编 号 : 0 30 7 ( 0 2 0 —0 30 1 0 -0 7 2 1 ) 40 4 —7
ba e it a tc la lc ton I h spa er he Chi e e m e s ges r t e r is l o m eie nd t n di de s n o pr c ia pp ia i . n t i p ,t n s s a t ucur s a e fr ty f r z d a he vi d l

基于知识图谱的国内关键词抽取技术研究

基于知识图谱的国内关键词抽取技术研究

基于知识图谱的国内关键词抽取技术研究随着知识图谱的发展和应用,关键词抽取技术也逐渐受到了广泛关注。

关键词抽取技术是指从文本中提取出具有代表性的词语或短语,对于文本分析、信息检索等领域都有非常重要的作用。

本文将以国内为例,探讨基于知识图谱的关键词抽取技术的研究现状和发展趋势。

知识图谱是一种用于描述实体、属性、关系及其语义关联的语义网络图。

在知识图谱中,实体即具有独立存在意义的事物,属性表示实体的某些特征,关系表示实体之间的联系。

知识图谱的建立可以提供一个统一的数据结构,便于信息的联通和集成。

关键词抽取技术是一种自然语言处理技术,它可以从文本中自动提取出关键信息。

关键词抽取技术可以帮助用户快速获取文本的主题和关键信息,有助于信息搜素和文本分类。

基于知识图谱的关键词抽取技术则是将知识图谱与关键词抽取技术相结合,利用知识图谱中的实体、属性和关系等语义信息,进行文本的理解和分析,从而提取出文本中的关键信息。

目前,国内在基于知识图谱的关键词抽取技术上已取得了一些进展。

以下是几个代表性的研究项目和成果:1. 网络热点话题关键词提取与评价该项目旨在通过对网络热点话题的关键词提取和评价,帮助用户快速了解和把握网络舆情。

该项目采用了基于WordNet的语义相似度计算方法,将网络热点话题中的关键词与WordNet中的同义词和概念相匹配,从而得到话题的主题和关键词。

2. 基于知识图谱的文本分类方法研究该项目通过将知识图谱中的实体和关系与文本中的词语和句子相匹配,建立知识图谱与文本之间的映射关系,从而实现文本的自动分类。

该方法不仅可以提高文本分类的准确性,还可以帮助用户更好地理解文本中的内容。

3. 基于多源知识的情感分析与关键词提取该项目利用了多个知识资源,包括情感词典、实体词典、属性词典、关系词典等,实现了对文本的情感分析和关键词提取。

该方法可以很好地处理一些难以处理的问题,例如命名实体的识别和关系的抽取,从而提高了关键词抽取和情感分析的效果。

基于《知网》的中文信息结构消歧研究

基于《知网》的中文信息结构消歧研究

基于《知网》的中文信息结构消歧研究张瑞霞;庄晋林;杨国增【摘要】《中文信息结构库》是《知网》的重要组成部分之一,可以作为中文语义分析的规则库,对其进行消歧是实际应用的基础之一.因此,该文首先对中文信息结构进行了形式化描述;接着对其进行优先级划分;然后根据其构成形式提出了四种不同的消歧方法:即词性序列消歧法、图相容匹配消歧法、图相容度计算消歧法、基于实例的语义相似度计算消歧法;最后针对不同优先级的中文信息结构集设计了不同消歧流程.实验结果证明消歧正确率达到了90%以上.%The Chinese Message Structure Database, as an important component in HowNet, can be treated as a rule base for Chinese semantic analysis. The disambiguation of Chinese message structures is the first step in bring the base into practical application. In this paper, the Chinese message structures are firstly formalized and then divided into different priority levels. Afterwards,, four diverse disambiguation approaches are proposed, including the syntax list judgment, the graph compatibility matching, the graph compatibility computation and the semantic similarity computation based on examples. Finally, different disambiguation processes are designed according to the different priority levels. Experimental results prove the accuracy rate of the disambiguation yields more than 90%.【期刊名称】《中文信息学报》【年(卷),期】2012(026)004【总页数】8页(P43-49,60)【关键词】知网;中文信息结构;消歧;图相容度;语义相似度【作者】张瑞霞;庄晋林;杨国增【作者单位】华北水利水电学院信息工程学院,河南郑州450011;华北水利水电学院信息工程学院,河南郑州450011;郑州师范学院数学系,河南郑州450044【正文语种】中文【中图分类】TP3911 引言语义分析在中文信息处理领域中占有重要地位,特别是随着一些知识库和语义分析理论的成熟,使得语义分析的自动化成为可能。

中国知网CNKI数据库检索教程

中国知网CNKI数据库检索教程

生成检 索报告
基于一次检索的结果提供的统计报表 信息,为您生成判断检索结果价值的 检索报告,帮助您从全局的角度了解 检索的修正或补充检索 词的不足。点击其中的某一个相似词,系统 自动执行以该词为关键词的检索
相关词:有助于重新构造 更加有效的查询,从而减 少多余检索步骤
精确模糊匹配检索
• 精确匹配: • 例如检索作者:张凯,则只能检索出“张 凯”发表的文献。 • 模糊匹配: • 例如检索作者:张凯,则把“张凯蛟”、 “张凯”等作者发表的文献检索出来。
中英文扩展检索
• 对于内容检索项,检索词输入检索词后, 可勾选“中英文扩展检索”功能,系统将 自动使用该检索词对应的中文扩展词和英 文扩展词进行检索,帮助用户查找更多更 全的中英文文献。
• 工具书——输入关键词,在工具书中查找解释。可查找各种专业辞典、 百科全书、图谱、手册、中文词典、中外翻译词典等工具。 • 学者检索——根据学者姓名、学者单位、研究方向、发表文献的关键 词、获资助国家科研基金等信息查找学者,以便用户跟踪和了解关注 学者的发文和研究进展情况。 • 概念搜索——查找某一个学术概念的定义、解释、相关文献发表情况 等信息。概念型知识元既可以查询概念在工具书中的解释,相关概念, 也可以查询最近学者的解释、被使用的规律、主要引用的文献/作者等。 • 数字检索——可查找与数值、统计数据相关的各种信息,提供数字知 识和统计数据搜索服务。数值知识元查询科技/社科数值类知识。 • 翻译助手——提供专业术语或句子的中英文互译,搜索专业词汇的中 英文例句,翻译知识元可以对中英文句子进行翻译,其专业词汇数量 巨大,而且动态更新,性能超越传统的工具书和电子词典。 • 图形搜索——搜索学术文献中出现的图形。 • 表格搜索——搜索学术文献中出现的表格。

基于知识图谱的国内关键词抽取技术研究

基于知识图谱的国内关键词抽取技术研究

基于知识图谱的国内关键词抽取技术研究摘要:关键词抽取是信息检索、文本分类和自然语言处理等领域的关键任务之一。

本文提出了一种基于知识图谱的关键词抽取技术,旨在提高关键词抽取的准确性和可靠性。

该方法首先利用文本挖掘技术从大规模的中文文本中抽取出实体和关系,并构建知识图谱。

然后,通过分析知识图谱中实体之间的关系,提取出重要的关键词。

实验结果表明,该方法在关键词抽取任务上具有很高的准确性和可靠性。

关键词:知识图谱;关键词抽取;文本挖掘1. 引言随着互联网的快速发展,信息爆炸现象日益严重,如何从大规模的文本数据中快速准确地提取出关键信息成为了一个重要的研究问题。

关键词抽取是信息检索、文本分类和自然语言处理等领域的一个关键任务。

传统的关键词抽取方法主要基于词频、文本密度等统计指标,缺乏对文本背景的深层次理解,容易产生误判和错误的结果。

近年来,随着知识图谱的研究与应用的不断深入,基于知识图谱的关键词抽取方法逐渐成为新的研究热点。

知识图谱是一种用于表示和推理知识的图形模型,具有丰富的实体和关系信息,可以很好地表达文本语义和相关性。

利用知识图谱来进行关键词抽取可以有效地提高抽取结果的准确性和可靠性。

2. 方法介绍本文提出的基于知识图谱的关键词抽取方法主要包括以下步骤:(1)文本挖掘:从大规模的中文文本中利用文本挖掘技术抽取出实体和关系信息。

文本挖掘技术主要包括实体识别、关系抽取等方法。

通过这一步骤,可以将文本中的实体和关系抽取出来,并构建知识图谱。

(2)知识图谱构建:通过分析上一步得到的实体和关系,构建一个基于知识图谱的模型。

知识图谱中的节点表示实体,边表示实体之间的关系。

知识图谱的构建可以利用图数据库等工具来实现。

(3)关键词抽取:通过分析知识图谱中实体节点之间的关系,提取出重要的关键词。

关键词的重要性可以通过计算实体节点的中心度、PageRank值等指标来衡量。

3. 实验评估本文在一个标准的关键词抽取数据集上进行了实验评估。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于《知网》的中文信息结构抽取1董强郝长伶董振东中国科学院计算机语言信息工程研究中心北京 100083E-mail: support@HowNet-Based Extraction of Chinese Message StructuresQiang Dong Changling Hao Zhendong DongResearch Center of Computer & Language Information Engineering, CAS, Beijing, 100083E-mail: support@Abstract: The Chinese message structure is composed of several Chinese fragments which may be characters words or phrases. Every message structure carries certain information. We have developed a HowNet-based extractor that can extract Chinese message structures from a real text and serves as an interactive tool for building large-scale bank of Chinese message structures. The system utilizes the HowNet Knowledge System as its basic resources. It is an integrated system of rule-based analyzer, statistics based on the examples and the analogy given by HowNet-based concept similarity calculator. Keyword: Chinese message structure; Knowledge Database Mark-up Language (KDML); parsing; chunk;1 引言近年来,语块分析(chunk parsing )或被称为浅层句法分析(shallow parsing)或部分句法分析(partial parsing)等语言处理方法成为语言技术研究的一个热点。

其中印欧语言在这方面的研究已经取得了一定的成果,但是对于中文的语块分析则相对落后。

其中主要的原因在于:相对于印欧语言,中文没有那么丰富的形态变化,中文的词类与句法功能不是一一对应的,中文的词、短语、句子之间的界限是模糊的。

除此而外,甚至可能是更重要的原因在于:中文的结构更加依赖于语义的制约。

本文提出中文信息结构这样的概念,并据此构建了基于知网的中文信息结构抽取器。

该抽取器从中文的语义出发,以知网知识系统作为其基础资源。

中文信息结构抽取器的功能主要包括两个方面:(1)构建、管理和维护《知网-中文信息结构库》的数据;(2)是分析并抽取真实文本中的中文信息结构。

其技术关键是:第一,它对于中文的词、词组、短语进行一体化的处理;第二,它主要是基于语义的。

第三,它是基于规则匹配和基于大规模实例库及相似度比较的结合。

中文信息结构抽取器利用已有的中文信息结构的模式与实例编写规则,再利用这些规则到真实的文本中抽取所需的中文信息结构来构建更大规模的中文信息结构库。

2 中文信息结构信息结构(message structure)是由两个或两个以上的字、词或短语构成,句法和语义合理,并传达了特定信息的结构。

该结构内不含有介词、助词、连词、标点。

该结构内部允许呈递归形态。

信息结构是信息理解(message understanding)的基础。

信息结构是依赖于特定语言的,不同的语言可以表达相同的信息,但有着不同的信息结构。

试以"通缉犯"这样一个词语为例。

其中有两个基本单元“通缉”和“犯”,“通缉”为动词,“犯”为名词,因此从句法结构看是V+N 的定中结构;从语1基金项目:国家自然科学基金项目60372064;国家语言文字应用“十五”项目YB105-50义关系结构看,前者是“行为动作”,后者是“受事”;而信息结构不仅能反映“行为动作”和“受事”之间的关系,而且还能够反映出是“这是一个人,这个人是被通缉的对象,他是一个有罪的人(“有罪”这一信息是含在“通缉”这一词语中的)”。

中文信息结构是中文中句法和语义合理的一个语言片段,它可能是传统被认定的词语,也可能是一个比词语更大的语言片段。

中文信息结构的描述对象是:由中文词语所表述的概念。

《知网》规定了最基本的运算单元是:万物、部件、属性、属性值、事件、时间和空间等7大类。

(a)万物平民-百姓,车-辆,运动员-们,桌-椅,赵-大夫,杨-队,大学-老师,海外-房地产-投资-公司,电影-演-员,采访-者,外交-界,物理学-家,食蚁-兽,手术-室,美食-城,西药-房,设备-保护-装置,洗涤-剂,豆瓣-酱,长-袖-衫,大-黄-狗,锦绣-河山,金-光,酸-梅,业余-棋手,一-本-杂志(b)部件头-顶,脸-部,腹-腔,科-室,手-套,熊-腰,文章-段落,牙-根,树-枝,杏-仁,山-顶,句-首,屋-脊,桌-面,车-身,笔-套,学校-各处室,鸡-腿,尖-下颌(c)属性浓-淡,安-危,高-度,通畅-性,员工-人数,药-效,地球-籍,温-差,氧气-消耗-量,出生-率,社会-环境,警-民-关系,主要-特点,本届-会议(d)属性值朱-红,没-水平,高-性能,双-色,可-悲,防-洪,耐-寒,翠-绿,中-高级,银-灰,深-蓝,更加-重要,功能-正常,不-称职,干-干-净-净,快-起来,软-下去,十-七,第-五,三-分之-二,百分之-十(e)事件安排-工作,卖-书,参观-学校,供应-部队,植-树,订-计划,新闻-报道,物价-检查,药品-生产,拜-寿,爱好-体育,爱-看书,称-重,恢复-军籍,度过-难关,中断-比赛,禁止-吸烟,爱-漂亮,睡-三小时,打-牌,非常-爱护,两-年-写-四-本,深-感,怒-斥,盗-墓(f)时间道光-三十-年,公元前-368-年,四-月,六-号,第五-天,六-点,1939年-9月,1月-24日,今天-凌晨,上午-九时,12月9日-星期四,八时-三十分,明天下午-五点,四个星期-内,本世纪-末期,上午八时-整(g)空间江西-省,加拿大-多伦多,辽宁-本溪,厦门-湖里区,北京-广渠门大街,香颐路-宁宜小区,秀水园-1-号,6号楼-5-号,中山北路-三-段,丽都-饭店,中山-公园,闪光-点,战争-地点,网-上,古-国现在有很多人在做中文命名实体辨识(Chinese Named-entity Recognition)的工作,在中文命名实体辨识中的主要是抽取人名、地名、组织机构名、时间、数量等[4][5],而中文信息结构不仅涵盖了这些内容,并且其涉及的范围较目前流行的中文语块更宽泛。

我们研究中文信息结构的出发点是:既然我们已经认定了世界上只有7大类概念,我们将通过对于中文信息结构的研究来发现中文是如何表达或描述这些概念的。

下面我们就“万物”这个类别,在展开一点加以说明。

中文在描述“万物”时,都采用了哪些结构呢?试看下面的例子。

(a)描述“万物”作为成员角色及其整体的关系其中的一个结构(简化)是:(组织/场所) [来源整体] <-- (人,职位),如:公司-总经理,图书馆-馆员,小卖店-老板娘,社科院-院长,内科-主任(b)描述“万物”作为被领属物其中的一个结构(简化)是:(地方,专) [限定] <-- (组织)美国-国会,美-军,中国-人大,俄-杜马,台湾-情治单位,以色列-摩萨德,德国-央行(c)描述“万物”作为施事角色及其行动的关系其中的一个结构(简化)是:(事件,行动) <-- [施事] (人/拟人),如:公诉-人,捕蛇-人,侦察-兵,救生-员,采购-员,收货-人,来京务工-人员,辍学-生(d)描述“万物”作为被支配角色(如受事等)及其行动的关系其中的一个结构(简化)是:(事件,行动) <-- [受事/成品受事/内容/对象/领属物] (万物),如:雇-员,展-品,弃-婴,保护-区,在押-犯,进口-货,废弃-机场,参考-资料,处理-对象(e)描述“万物”作为销售场所及其所销售物品的的关系其中的一个结构(简化)是:{(物质) [领属物] <-- <事件,行动,买>} <-- [处所] (组织/场所),如:书-店,鞋-店,银-楼鞋帽-店,中药-店,西药-店,西饼-店,床上用品-商店,自行车-行(f)描述“万物”作为成品及其材料的的关系其中的一个结构(简化)是:(材料/无生物) [材料] <-- (人工物),如:蔗-糖,草-席,玻璃-杯,葡萄-酒,塑钢-门窗,柏油-马路,汉白玉-栏杆,皮蛋瘦肉-粥,(g)描述“万物”作为成品及其材料的的关系其中的一个结构(简化)是:{(材料/无生物) [材料] <-- (制造/辫编)} <-- [成品受事] (人工物),如:铝-制-品,毛-织-品,全棉-织-品,豆-制-品,玻璃-制-品,纯羊毛-织-物,(h)描述“万物”作为销售场所及其所销售物品的的关系其中的一个结构(简化)是:{(属性值)/(数量值) [修饰] <-- (部件)} <-- [整体] (物质),如:金-发-女郎,白-胡子-老头,圆-领-衫,高-领-衫,长-把儿-铁锹,独-臂-英雄,双-缸-洗衣机,3 中文信息结构抽取器的规则与模块根据我们多年建设知网和中文信息结构库的实践,我们可以肯定中文词语间的组合主要基于语义。

在我们的中文信息结构库2000版中,中文信息结构(基于语义的)有271个,但与之对应的句法结构仅58个。

下面的结构在句法上都是N+V的结构,但它们的语义结构是很不同的:货物-运输(受事),铁路-运输(手段),汽车-运输(工具),春节-运输(时间),海洋-运输(处所),人们-运输(施事)等。

如果仅仅将它们捆绑在一起(如树库所为)或者仅仅把它们分类为主谓、定中等结构(如传统语言学的语法所为),对于信息处理都是不够的。

因此,中文信息结构抽取器主要采用了基于语义的方法。

我们在中文信息结构抽取器中构建了一系列的语义规则与模块。

图1所显示的是我们的抽取器工作的一个结果,即根据一条有关“时间结构”的语义的规则,来抽取“当天上午十点”这一类型的信息结构。

图1:中文信息结构抽取器概况3.1 规则与模块的形成在中文信息结构抽取器中,我们构建了一系列的规则与模块来实现对中文信息结构的抽取。

相关文档
最新文档