wordnet关系词
WordNet介绍-服务计算汇报PPT

同义关系(构成Synsets) 反义关系(指针!) 上位关系(指针@) 下位关系(指针~) 整体关系(名词、指针#m/#s/#p) 部分关系(名词、指针%m/%s/%p) 蕴含关系(动词、指针*) 因果关系(动词、指针>) 近似关系(形容词、指针&)
Note: 形容词如果是 动词分词,用 指针(<)指 向该动词; 副词如果由形 容词的派生而 来,用指针 (\)指向。
地球饶着太阳转,自然会有寒来暑往的四季交替 自然奥秘 {自然、必然、一定、必定} {自然、天然}
Example
WordNet中的词汇组织关系
• 语义关系
– 语义关系由指针标出 – WordNet按语义关系(词义之间的关系)组织 – 词义可用同义词集合表示
语义关系看做同义词集合之间的一些指针
– 语义关系是双向的 – 语义关系的名称承担双重角色
WordNet中的词汇组织关系
• 同义关系
– WordNet 用同义词集表示概念,最重要的关系就 是同义关系。 – 如果两种表达方式在语言文本中相互替代而不改变 其意义,则着两种表达就是同义的。
{heavy, weighty, ponderous} 重的
{light, weightless, airy}
WordNet中的词汇组织关系
• WordNet的名词
– 名词的语义元素
• 25个起始概念:一般性概念,作为独立的层次结构 • 各领域的名次数量不等,互不排斥 • 大体覆盖了明确的概念和词汇范围
{act, action, activity} {natural object} {natural phenomenon} {artifact} {attribute, property} {plant, flora} {possession} {cognition, knowledge} {communication} {quantity, amount} {relation} {feeling, emotion} {food} {state, condition} {substance} {location, place} {time} {animal, fauna} {person, human being} {body, corpus} {process} {event, happening} {shape} {group, collection} {motive}
基于WordNet的情感词库构建研究

基于WordNet的情感词库构建研究情感词库是自然语言处理中的重要组成部分,通常用于文本情感分析、情感极性判断以及舆情分析。
WordNet是一种常用的语义网络,可以通过它来构建情感词库,本文主要介绍基于WordNet的情感词库构建研究。
一、WordNet简介WordNet是由普林斯顿大学的心理学家George Miller教授领导的一项项目,它是一种英语词汇数据库,用于自然语言处理和语义计算。
WordNet将英语单词分解为词义,每个词义都与一个或多个单词相关联。
这些词义之间以及单词之间都存在着语义关系,比如同义词、反义词、上位词、下位词等等。
二、情感词库介绍情感词库(Sentiment Lexicon)是包含情感极性和情感强度等信息的一组单词或短语列表。
情感词库可以帮助计算机自动分析文本的情感倾向,以此为根据来进行情感分类、情感极性判断、舆情分析等工作。
情感词库的构建通常需要基于人工标注和机器学习技术。
传统的构建方法在标注大量的文本后,利用MMI(最大相互信息)或PMI(点间互信息)等方法计算情感单词或短语准确率。
但是这种方法对人的时间和精力的要求太大,也不够灵活。
因此开始使用WordNet构建情感词库。
三、基于WordNet构建情感词库的方法基于WordNet的情感词库构建方法主要分为两种:查找词性和语义相似度。
1. 查找词性在WordNet中,每个单词在其定义中有多个释义和词性标记:名词(Noun)、动词(Verb)、形容词(Adjective)和副词(Adverb)。
在这种情况下,可以使用名词、动词、形容词和副词标记,选择有情感信息的单词。
然后借助WordNet上语义关系(如同义词、反义词、上位词、下位词等)来扩展情感词库。
例如,将“love”作为基本情感词,利用同义词“adore”,反义词“hate”,上位词“comfort”、下位词“hug”等扩展情感词表。
2.语义相似性利用WordNet关系结构中词之间的关系,计算两个单词之间的语义相似性,从而将与情感相关的单词添加到情感词库中。
WORDNET与HOWNET之比较

WORDNET与HOWNET之比较作者:张笛来源:《青年文学家》2011年第13期摘要:本文在对Wordnet和Hownet进行简单介绍的基础上,从理论基础,设计原理与建设方法,目的与应用这三个大方面进行了比较。
从而找出两个系统的相似之处和差异,以期对自然语言处理有所帮助。
关键词:Wordnet;Hownet ;比较;语义作者简介:张笛,临沂大学外国语学院讲师,语言学。
近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。
各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。
例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典——中文概念辞书(CCD)和董振东、董强的Hownet(知网)。
Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
现在两者都被放在网上,供人们使用,并且可以参与他们的完善、扩展和发展。
所以,本文拟把二者放在一起进行比较研究,找出两个系统的相似之处与差异,取长补短,以期为自然语言处理寻求一个较为完善的语义关系系统。
一、理论基础首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。
其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。
但二者的理论基础不同之处也很多。
Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。
Hownet的最重要的理论基础是它的哲学。
WordNet2.1 功能简介

love, passion -- (any object of warm affection or devotion; "the theater was her first love"; "he has a passion for cock fighting";)
=> object -- (the focus of cognitions or feelings; "objects of thought"; "the object of my affection")
*> Somebody ----s something
*> Somebody ----s somebody
Sense 2
love, enjoy -- (get pleasure from; "I love cooking")
EX: They love him to write the letter
Sense 3
HAS PART: trait -- (a distinguishing feature of your personal nature)
HAS PART: character, fiber, fibre -- (the inherent complex of attributes that determine a persons moral and ethical actions and reactions; "education has for its object the formation of character"- Herbert Spencer)
love -- (be enamored or in love with; "She loves her husband deeply")
WordNet简介

WordNet简介2008-01-05WordNet简介· 对于WordNet来说,10年后来清点清点得失似乎是合适的。
每个参与其事的研究人员都真诚地感受到它的缺点,并且他们从未觉得这是一个“完工”了的项目。
事实上,WordNet仍在继续发展中。
· "WordNet: An Electronic Lexical Database"一书分三部分,16章。
第一部分从第1章到第4章,前3章分别介绍WordNet中的名词,形容词,动词,第4章介绍WordNet的设计细节及相关软件的情况(这主要是由普林斯顿大学认知科学实验室的研究人员写的);第二部分和第三部分主要是由普林斯顿认知科学实验室之外的参加WordNet研究工作的研究人员撰写的。
第5章和第6章描述了WordNet的改进;第7章从形式化的概念分析的角度描述了WordNet;第8到第16章讨论了WordNet的各种不同应用。
(一)计算机与词库(computers and lexicon)· 一个人即使不接受把人脑比作计算机的隐喻,也一定同意,计算机提供了一个良好的模式演练场,通过它,人们可以测试各种关于人类认知能力的理论模型。
· 越来越多的人认识到,一个大的词库对自然语言理解,人工智能的各方面研究都具有重要的价值。
· 对大规模机器可读词典的需求同时也带来许多基础问题。
首先是如何构造这样一个词库,是手工编制还是机器自动生成?第二,词典中应包含什么样的信息?第三,词典应如何设计,即信息如何组织,以及用户如何访问?实际上,这些问题涉及到词典的编纂方法,词典的内容,词典的使用方式这一系列非常基础的问题。
(二)构造词库数据库(constructing the lexical database)· 构建词典的两种基本方式:自动获取 / 手工编制。
手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制。
wordnet介绍

)作为一般词典的WordNet (WordNet as a dictionary)· WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。
在同义词集合中包含对这些同义词的定义。
对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。
(七)WordNet中的关系(relations in WordNet)·不同句法词类中的语义关系类型也不同,比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy(整体部分)关系。
名词的meronymy关系下面还分出三种类型的子关系(见“WordNet 中的名词”部分)。
(八)网球问题(the tennis problem)· WordNet是基于同义性和反义(对义)性来描述词语和概念之间的各种语义关系类型的。
由于WordNet的注意力不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。
例如,WordNet中没有将racquet(网球拍)、 ball(球)、net(球网)等词语以一定方式联系到一起。
Roger Chaffin在一封私人信笺中,曾把这类问题称为“tennis problem”(网球问题),指的就是如何把racquet、ball、net、court game (场地比赛);或者把physician(内科医生)跟hospital(医院)联系到一起。
这对电子词典来说,是一个挑战。
已经有一些相关的研究工作在探索如何从WordNet 中包含的词汇和概念之间的语义关系,来推导出话题信息。
Hirst和St-Onge描述了一种所谓的“词汇链”(lexical chain)的应用方法。
“词汇链”是在基于名词的语义关系构成的上下文中的名词的序列。
WordNet简介

WordNet的词汇组织结构
➢同义词集(Synsets)
Example:
❖ 地球绕着太阳转, 自然会有寒来暑往的四季交替 ❖ 自然奥秘 {自然、必然、一定、必定} {自然、天然}
B.4
WordNet的词汇组织结构
词汇(Words) 、同义词集、语义(Senses)的数量
POS Unique Strings Synsets Total Word-Sense Pairs
Noun 109195
75804
134716
Verb
11088
13214
24169
Adjective 21460
18576
31184
Adverb 4607
3629
5748
Totals 146350 111223
195817
B.5
WordNet的词汇组织结构
多义词信息(1)
词 性 单义词和语义
名词
94685
动词 形容词
5920 15981
副词
3820
总计
120406
多义词
14510 5168 5479 787 25944
多义词语义
40002 18221 15175 1900 75298
B.6
WordNet的词汇组织结构
多义词信息(2) 词 性 平均词义(包括单义词) 平均词义
名词
1.23
2.75
动词
B.18
WorNet 中词语间的关系
动词蕴涵关系(entailment) 、动词的上位关系 (hypernymmy) 、方式关系(troponymy)、因果关系 (cause relation)
wordnet使用教程

Wordnet是一个词典。
每个词语(word)可能有多个不同的语义,对应不同的sense。
而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。
例如,“publish”是一个word,它可能有多个sense:1. (39) print, publish -- (put into print; "The newspaper published the news of the royal couple's divorce"; "These news should not be printed")2. (14) publish, bring out, put out, issue, release -- (prepare and issue for public distribution or sale; "publish a magazine or newspaper")3. (4) publish, write -- (have (one's written work) issued for publication; "How many books did Georges Simenon write?"; "She published 25 books during her long career")在第一个sense中,print和publish都是lemma。
Sense 1括号内的数字39表示publish以sense 1在某外部语料中出现的次数。
显然,publish大多数时候以sense 1出现,很少以sense 3出现。
WordNet的具体用法NLTK是python的一个自然语言处理工具,其中提供了访问wordnet各种功能的函数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
English Chinese list of wordnet-related terms 3.3.1A 各类词网|B 词义关系|C 词类及其他术语|D 语意属性A 各类词网Bilingual Wordnet (Bi-WN) 双语词网Chinese Wordnet (CWN) 汉语词网EuroWordNet (EWN) 欧语词网WordNet (WN) 词网(特指Princeton WN)B 词义关系antonym 【反义词】antonymy反义关系autoantonymy反义多义(关系)autohyponymy下位多义(关系)hypernym【上位词】泛称词hypernymy上位关系hyponym 【下位词】特指词hyponymy 下位关系holonym整体词holonymy整体-部份关系meronym部份词meronymy部份-整体关系metonym 转指词metonymy 转指关系near-synonym 近义词near-synonymy 近义关系polysemy 【多义性】synonym 【同义词】synonymy同义关系taxonomy 分类架构troponym方式词troponymy方式关系C 词类及其他术语adjective 【形容词】adverb 【副词】agreement 【对谐】,一致性algorithm 【算法/算法】ambiguity 歧义associations 关联attributes 【属性】auxiliary verbs 助动词basic-level categories 基层范畴,底层范畴buffers 【缓冲区】case propagation 格位相沿,格位沿袭categories 范畴causative 【使动】cause relation 因果关系cause 原因change-of-state verbs 易态动词collocations 【连用语】common nouns 普通名词component-object meronyms组成部份(关系)compounds 复合词concepts概念conceptual semantic relation 概念语意关系concordances【关键词(前后文)排序】,汇编connectivity 连结性constraints 【限制】context 【语境】,上下文co-occurrence 共现count nouns 可数名词cousins in hyponyms 特指亲属,下位亲属data mining 数据挖掘database 数据库decomposition 分解derived adverbs 衍生副词descriptive adjectives 描述性形容词determiners 限定符dictionaries 辞典disambiguation 排歧distance in lexical trees 词汇树间距domain-specific knowledge 特定领域知识,领域知识encyclopedic knowledge 百科全书知识,通识知识entail 蕴涵entailment 【蕴涵】entry 词条euphemisms 委婉用法exceptions 例外factive叙实familiarity index 熟悉度索引frames 【框架】frequency 频率functional hyponymies功能性上位词functions 功能gadability具层级性gender 性别glosses 注释gradable 可分级的gradation/gradability/gradable 层级head synsets同义词集主语hierarchies 层级homographs 同形异义词,同形词idioms 【成语】intension 内涵Inter-Lingual-Index (ILI) 中介索引intransitive verbs 不及物动词IS-A relations 【IS-A关系】lexical chains 词链Lexical Conceptual Structure (LCS) 【词汇概念结构】lexical knowledge link (LKL) 词汇知识链接lexical relation 词汇关系lexical subordination 词汇从属lexical superordination词汇上属lexical tree (LexTree) 词树lexicon 【词汇库】词汇malapropism 近音误用;近音误用词markedness有标mass nouns 物质名词meaning extension 意义延伸meaning facet(s) 义面meaning 意义metaphor 【隐喻】metaphoric extension 隐喻延伸modeling 模型制作;模制models 模型morphology 构词法nano-hyponymynominalization 【名物化】noun 【名词】ontology 本体架构parsing 【剖析】;分析;解析participial adjectives 分词形容词part-of-speech (POS) 【词类】phrases 【词组】proper nouns 专有名词quantifiers 数量值questions and answers 问答repetition 重复resultative结果satellitesynsetsschema analysis 基架分析schema 基架semantic concordance (database) 语意汇编(数据库)semantic distance 语意距离semantic domain 语意范畴semantic field 【语意场】semantic opposition 对立语意semantic tags 语意标记sense disambiguation 词义厘清sense 词义subordination 【从属】stative verbs 状态/况动词synset同义词集syntactic classes 语法词类tags 【标记】thesaurus 【同义词辞典】topical clustering 主题丛聚topic 话题topic continuity话题延续training 训练;练习transitive verbs 及物动词unaccusativity非宾格;宾主格unergative verbs 唯(被)动动词;作动词verb 【动词】verb alternations 动词句型替换verbs of action 行动动词weights 加权word 【词】word association 词汇关联word distance 词义距离wordnet词网D 语意属性go topaccount 簿册addictive 嗜好物adverbial 副状affairs 事务age 年龄agent 施事agreement 条约aircraft 飞行器animal 禽兽animate 生物appearance 外观area 面积army 军队artifact 人工物aspiration 意愿attire 装束attitude 态度attribute 属性bacteria 微生物beast 走兽beneficiary 受益者bill 票据bird 禽boundary 界限building 建筑物cause 原因celestial 天体character 文字chemical 化学物classifier 单位词clothing 衣物cloud 云coagent合作施事color 颜色comment 评论community 团体component 部件computer 计算机concentration 浓度concession 让步condition 条件conjunction 并列connective 关联词content 内容contrast 对比countenance 表情crop 庄稼dampness 湿度degree 程度demeanor 风度density 密度depth 深度descriptive 描写direction 方向disease 疾病distance 距离divergence 分歧document 文书drinks 饮品duration 时段duty 责任earth 大地edible 食物electricity 电emotion 情感emphasis 强调entity 实体event 事件expenditure 费用experience 感受experiencer 经验者facilities 设施fact 事实feeling 情绪fineness 粗细fire 火fish 鱼flora 花草food 食品form 形状frequency 频率fruit 水果fund 资金furniture 家具gas 气体hardness 硬度height 高度house 房屋human 人humanized 拟人ice 冰implement 器具inanimate 无生物information 信息insect 昆虫institution 机构instrument 工具kind 类型knowledge 知识land 陆地language 语言law 律法length 长度letter 信件lights 光liquid 液体livestock 牲畜location 位置location 处所machine 机器manner 方式mark 标志material 材料means 手段measurement 量度medicine 药物mental 精神metal 金属method 方法modality 语气modifier 描述money 货币music 音乐natural 天然物negation 否定news 新闻occupation 职位organization 组织paper 纸张part 部分particle 助词partof部分patient 受事phenomena 现象place 地方plans 规划plant 植物possession 领属possessor 领有者posture 姿势price 价格problem 问题process 过程property 属性publications 书刊purpose 目的quality 质量quantity 数量range 幅度readings 读物,读数reason 道理regulation 规则relationship 关系restrictive 限定result 结果rights 权利room 房间scene 景象scope 范围sequence 次序sex 性别shape 物形ship 船situation 状况size 尺寸sky 空域slope 坡度software 软件sound 声音source 来源space 空间speed 速度state 状态static 静态stationery 文具stone 石style 风格supplement 递进symbol 符号system 系统target 目标taste 味道temperature 温度tense 时态,时式text 语文,文本thickness 厚度thing 万物thinking 思想thought 念头thunder 雷tightness 松紧time 时间tool 用具transition 转折treasure 珍宝tree 树unit 单位vegetable 蔬菜vehicle 交通工具volition 意向,意志(力)volume 容积water 水waters 水域wealth 财富weapon 武器weather 气象weight 重量whole 整体width 宽度wind 风wood 木。