国外语义分析理论

国外语义分析理论
国外语义分析理论

国外的相关研究非常丰富,涌现了大量的语义分析理论。主要有语义场理论(Semantics Field)语义场是语义学中的一个新概念,由某些共同语义特征的一群词类聚而成的场,如表示颜色的词:红色、绿色、黑色、紫色、白色等它们都有共同的义素【+颜色】,便组成了语义场中的“颜色场”。语义场理论是德国语言学家特里尔(J.Trier)最先提出来的(何三本、王玲玲1995:101)语义场理论的主要观点包含两个方面:首先,语言中的词汇,有些词在语义上是相互联系的,它们构成了一个完整的系统,处在同一个网络,这些词在一个统称的统辖下,构成了一个语义场。最后,由于语义场的存在,我们想要准确的知道一个词的含义,必须了解这个词在语义场中和其他词的关系,这个词在语义场中处于什么的地位。

颜红菊《语义场理论的认知拓展》(2007)中认为:语义场理论体现的是结构主义语言学观点,语义场理论的意义不仅在于揭示了词义的系统性,也为语言研究提供了新的视角。义素分析理论(componential analysis)义素是构成词义的最小意义单位,义素分析理论是指把同一语义场的一群集合在一起,从义素的角度进行分析、对比与描写的方法。有些西方学者认为义素完全是主观的东西,没有客观的基础,德国的比尔维施(M.Bierwisch)认为“义素并不是语言词汇的一部分,而只是理论上的元素,是为了描写某种语言的各个词汇成分之间的语义关系而假设出来的”。乌尔曼认为:“义素是意义的基本要素”。20世纪40年代,丹麦语言学家叶姆斯列夫(L.Hjelmslev)提出了义素分析的设想,50年代,美国人类学家,特别是朗斯伯里(F.G.Lounsbury)和古德内夫(W.H.Goodenough),受到雅克布逊(R.Jakobson)提出的音位学里区别性特征的分析方法的启示,在研究亲属词的含义时提出了义素分析法。到了60年代初,卡茨、福德将义素分析方法用来为生成转化语法提供语义特征,很快受到现代语义学界的重视。(贾彦德《汉语语义学》)

配价理论(Valency Theory)配价”是当今语法理论体系中最重要的问题之一,配价语法,是五十年代由法国语言学家特思尼耶尔(Lucien Tesniere)提出来的。他于1953年出版的《结构句法概要》(Esquisse dune syntaxe structu-rale),就使用了“配价”这一概念;1959年问世的《结构句法基础》(Elements desyntaxestructurale)则标志着配价语法论的形成。德国在配价语法研究上是最有成就的,有成就的配价学者,如博林克曼(HennigByinkmann)、艾尔本(Johanne Erben)、赫尔比希(Gerhard Helbig)、邦茨欧(Wilhelm Bondzio)以及恩格(Ulrich Engel)、舒马赫(Helmut Schumacher)。

格语法(Case Grammar)是美国语言学家菲尔墨(C.J.Fillmore)在60年代中期提出来的着重探讨句法结构与语义之间关系的一种语法理论和语义学理论。

题元理论(Theta-Theory)进入80年代中期以后,题元理论(Thematic Theory)以及用该理论对语言现象进行分析已成为现代语言学的一大热点,最早明确提出“题元角色”(Theta Role)等概念的是Gruber在20世纪60年代开始使用的术语,题元角色是Chomsky在管约论(Government and Binding Theory)中使用的术语,题元角色是关于句子参与者的语义角色的(认知语言学文献称为semantic roles)。

语义网络(Semantic Network)语义网络是自然语言理解及认知科学领域研究中的一个概念,70年代初由西蒙(R.F.Simon)提出,用来表达复杂的概念及其之间的相互关系,是一个有向图,其顶点表示概念,而边则表示这些概念间的语义关系,从而形成一个由节点和弧组成的语义网络描述图。语义网络多应用于计算机研究。

框架语义学

把字句的语义特征

“把字句”的语义分析 孙志景 我们这里所要讲的句式指的是一种比较有特色的动词性谓语句——把字句。把字句是用介词“把”将谓语动词支配关涉的对象提到动词前面的句子,它是现代汉语中很重要、很有特色的句式。其形式是“主语+(把+宾语)+谓词性词语”。 在现代汉语中,句子是语言运用的基本单位,它由词、词组(短语)构成,能表达一个完整的意思,如告诉别人一件事,提出一个问题,表示要求或者制止,表示某种感慨,表示对一段话的延续或省略。句子和句子中间有较大停顿。它的结尾应该用上句号、问号、省略号、或感叹号。 我们这里所要讲的句式指的是一种比较有特色的动词性谓语句——把字句。把字句是用介词“把”将谓语动词支配关涉的对象提到动词前面的句子,它是现代汉语中很重要、很有特色的句式。其形式是“主语+(把+宾语)+ 谓词性词语”。把字句强调的是对某物的处理结果。把字句是一种有特色的句子,那么这种句式到底有什么特点呢?第一,谓语动词大多数是表动作的及物动词,并且在语义上能支配把字后边的词语。及物动词一般后面都可以接宾语。例如:他把书看完了。“看”是及物动词,在语义平面“书”是“看”的受事。当然,这里的“书”可以被“看”所支配。又例如:“我踩到了石头”一句就不能改成了把字句,这里的“踩”对“石头”没有支配能力。第二,谓语动词(特别市单音节词)的后面或前面通常都有一些别的词语。例如:他把作业做完了。动词“做”的后面加了“完了”一词,表示一种结果,作业完成了。同时,又例:我把论文认真地审查了一遍。这个句子中,谓语动词前面加了“认真地”修饰动词,表明一种态度;而谓语动词的后面也加了“一遍”表示一种频率或者一个量。当然,有些谓语动词本身含结果意义,如“采纳、接受、拒绝、说服”等,这类动词如果前面有某些状语,后面可以没有别的词语。例如:董事会已经把她的建议采纳了。“已经”一词表示一种完成的结果,同时 采纳也有一定的结果含义,那么动词后面可以不用加词语。第三,“把”字后面的词语所代表的事物一般是定指的,是上下文出现过或交际双方都知道的。上例中的“作业、话、论文”都是定指的。有时候“把”字后面的词语包含有“一个、几个”之类的词语,但说话人认为所指的对象或范围仍是明确的。例如:我们把一个强大的中国带入了二十一世纪。这里的“中国”这个当然是特指,而后面的“一个”也是特指的,是大家都知道的,所表示的物象是明确的。第四,如果句中有否定副词或助动词,则出现在“把”字前面。例如:他没有把话说清楚。这里的“没有”要放在把字的前面。其实,看到这个特点,我想起了英文中的一个词“think”,跟我们这个把字句的这个否定特点很相似,都是将否定词放在前面。 前面都是在讨论“把”字句一些特点,下面我们就要讲讲把字句的作用。首先,语用表达的需要:强调动作的处置结果。这种把字句有不用把字的相对格式。例如:他推翻了原计划。//他把原计划推翻了。把字句就是把大家的焦点聚焦在句末,聚焦在谓语动词上,是大家能够更好地理解句意。在这个例子中强调的是已然的处置结果推翻了。又例:我明天可以看完这本书。//我明天可以把这本书看完。这里强调的是未然的处置结果看完。当然,也有一些“把”字句强调动作的致使结果,这种把字句的谓语中心通常是不及物动词或形容词。例如:繁忙的工作把他累垮了。其次,是在使用过程中结构上的需要。同时它们没有其相对格式。这里,有三种情况:第一,动词紧接着补语,不允许宾语将它跟动词隔开,这种情况一般用把字短语。例如:他把自行车放在车棚里。(“放”与“在……”关系密切)。第二,动词带双宾语,其中的一个或两个宾语都比较复杂,放在一起累赘拖沓,这种情况一般用“把”字把直接宾语提前。例如:我们把那封最后的通牒式的信退还给了他们。第三,动词后有“为、

词义的分析与描写

第七节词义的分析与描写 学习要点 1. 掌握义素分析法的特点及其作用 2.了解辅助性的语素析义法以及构词析义法 3. 掌握解释现代汉语词义的四种基本方法 4. 能够比较准确地描写词语的意义 一、语义场 1、语义场是指语义的类聚,是借用物理学“场”(物质存 在的一种基本形态)的概念而来的。 语义场强调的是一个词跟全体词在语义上存在着密切的 联系,语义场必须在一个共同语义要素的支配下组成。例如: 家畜(共同义素) 牛、羊、马、猪、骡 同一词语可以依据不同的语义要素归入不同的语义场。 ?多义词根据不同的义项一般可以归入多个不同的语义场。 2、义素分析与语义场 根据语义要素建立语义场,大的语义场下面可以分出小的语 义场,义素分析法必须在最小的语义场里进行。例如: 儿子、女儿——血缘语义场 哥哥、弟弟 姐姐、妹妹 ?同一语义场的词语相互依存、相互制约,一个词义范围的 扩大或缩小都会受到周围词语的影响。 二、义素分析 ?义素的确立过程就是对一个词义进行分析的过程。 ?一个词义包含许多的义素,而义素的提取只注意那些在一组对比中有区别作用的意义要素。 (一)义素的提取 1.必须提取跟其他词有区别作用的义素。例如: “父亲”的区别义素是 [ + 男性 + 血亲 + 长一辈 + 父系 ], 这四个义素是有区别作用的本质性义素,只要其中一个义素不 同,或再加上别的一两个义素就可以与其他的词语区分开来: 母亲: [ - 男性 + 血亲 + 长一辈 + 母系 ] 舅舅: [ + 男性 + 血亲 + 长一辈 + 母系 ] 姑姑: [ - 男性 + 血亲 + 长一辈 + 父系 ]

姨娘: [ - 男性 + 血亲 + 长一辈 + 母系 ] 姨父:[ + 男性–姻亲 + 长一辈 + 母系 ] 2.要提取的应该是最小义素。例如: 习惯、习气、陋习、积气 长期形成不易改变贬义行为作风习惯 + + - + - 习气 + + + - + 陋习 + + + + - 积习 + + + + ++ 最小义素是相对的,是建立在“有区别价值”的基 础上的,也就是说要寻找最小的有区别价值的义素。 如上面这组词如果把第二个义素换成“稳定”的,就 不如“不易改变”来得恰当,因为“不易改变”除了 含有“稳定”义外,还有“改变很困难”的意思。 3.要找出一组词的共同义素,这样就能使有关的辩析建立在共 同的意义基础上。例如: 蓄谋、合谋、密谋、阴谋 “考虑”是一般的思考,范围又显得过宽。 “策划”除了思考外,还含有要作出决定、付诸行动的意义。 挑选“策划”作为“蓄谋”四个词的有区别价值的共同义素, 这样就能使义素分析进行得更准确、简洁。 (二)义素分析法的作用 提取义素到什么程度要看能否达到区别词语意义的目的。 义素分析法在分析词义的内部构成,以及词义的类聚、组 合、比较、变化、系统的关系上具有很强的实用价值。人们往 往可以根据一个共有的义素来建构一个词群。例如: 滴:[+液体 +落下 +一点一点地] 变换其中的一个或几个义素就成了“浇”“流”“迸” “溅”“淋”“喷”“溢”“漫”“滋”等。 三、语素析义法 汉语里的复合词是由两个以上的语素构成的。语素义跟词 义存在着千丝万缕的关系,我们完全可以通过语素义来了解词 义。语素相同的词构成了同族词。 以“人”为例,形成四组词群: 前族词:人民、人名、人马、人类、人力、人称、

情感分析简述

情感分析简述 分类:NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处 (https://www.360docs.net/doc/b614674704.html,/s/blog_48f3f8b10100irhl.html)。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(https://www.360docs.net/doc/b614674704.html,/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(https://www.360docs.net/doc/b614674704.html,/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则/无监督学习

语义分析

语义分析 1.语义分析? 机器机和人不一样的地方是人可以直接理解词的意思,文章的意思,机器机不能理解。 人看到苹果这两个字就知道指的是那个圆圆的,挺好吃的东西,搜索引擎却不能从感性上理解。但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析。 可参考:https://www.360docs.net/doc/b614674704.html,/dispbbs.asp?boardID=2&ID=74541 2.为什么要使用语义分析? 我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文。然而,中文本身的特点决定它与西语之间巨大的区别,所以从汉语信息处理的需要看,当前急迫需要突破的是语义问题。 可参考: https://www.360docs.net/doc/b614674704.html,/dicksong2008/blog/item/88fb751e9ac9501a4134 17f4.html 2.1中文与西语不同决定我们无法采用西语的架构体系来处理中文,具体区别在于: 西语词间有间隔,汉语词间无间隔。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。 例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。 “我是一个学生”,分词的结果是:“我是一个学生”。中文分词就成了计算机处理的难题。 汉语形态不发达,句尾没有形态标记。英语动词、名词很清楚,加上词尾可以是副词;西语有时态,过去式、现在式等等非常清楚,中文则依靠词语或者依靠自己的判断来确定时态。 同音字多增加了机器识别的难度。 汉语语义灵活,由于形态不发达,所以语序无规律。在一次学术会议上,一位著名的人工智能专家说:“按…主-谓-宾?或…名-动-名?这一规则,计算机可显出…牛吃草?,也可显出…草吃牛?。从语法格式上看,…草吃牛?也不错,但这句话是说不通的。 人依靠自己的经验可以判断,机器如何来判断呢?

语义分析与双语词典-Read

语义分析与双语词典 南京大学钱厚生 语义分析(semantic analysis)是双语词典编纂过程中最主要的语言分析。它不仅与释义的科学性和准确性有着直接的关系,而且与双语词典结构设计有着密切的联系。积极吸收语义学研究成果,应用新的语义分析方法,对双语词典编纂很有益处。 一、词典语义分析对象 语义分析, 笼统地讲是对语言单位的意义进行分析。对于词典编纂工作来说, 语义分析就是对词语的意义作出科学的分析。 广义上讲,词语的意义包括词汇意义(lexical meaning)、语法意义(syntactic meaning)、语体意义(stylistic meaning)、语用意义(pragmatic meaning)、文化意义(cultural meaning)等。狭义上讲,词语的意义主要指词汇意义。 在词典编纂过程中, 语义分析的首要对象是词汇意义。语义分析的本质就是词义分析(lexical semantic analysis)。至于语法意义、语体意义、语用意义和文化意义, 则是语法分析、语体分析、语用分析和文化分析的对象。所有这些语言分析项目既有联系,又有区别,应当分别探讨,不要混淆。 一般认为,词汇意义包括外延(denotation)和内涵(connotation)两项内容。严格地讲,内涵属于文化意义范畴,应当通过语言文化分析来解决。因此,双语词典语义分析要先集中在与词汇外延相关的意义成分。 外延意义(denotative meaning)又称指称意义(referential meaning)、认知意义(cognitive meaning)或概念意义(conceptual meaning),是词汇意义的核心部分。外延意义的把握直接关系到双语词典释义的准确性,而准确性恰恰是双语词典的生命线。对被释词语外延的界定过宽或过窄都会造成词典释义方面的失误。因此,在双语词典编写过程中,编者必须对源语词目和对应词的外延进行反复对比分析,选择最佳匹配。 二、义素分析与双语词典 语义分析方法多种多样。义素分析,又称语义成分分析(componential analysis),是语义学著作和词典学著作中经常讨论的一种。这种分析方法的基本思想是词义是由各种义素(sememe)组合而成的,正像语音是由若干音素(phoneme)构成一样。当然,语言的义素要比音素复杂得多。 义素是词语最基本的意义单位。词语的意义大多是由若干个义素组成的。例如,英语“man”的意义是 [+HUMAN] [+ADULT] [+MALE]这三个义素的总和, 即男性成年人;“woman”的意义是 [+HUMAN] [+ADULT] [–MALE], 即女性成年人;“boy”的意义是[+HUMAN] [–ADULT] [+MALE], 即男性未成年人;“girl”的意义是 [+HUMAN] [–ADULT] [–MALE],即女性未成年人。可用下列语义矩阵表示: HUMAN ADULT MALE man + + + woman + + - boy + - + girl + _ _

基于潜在语义分析的JAVA类库检索方法

文章编号:10035850(2006)03004302 基于潜在语义分析的Java类库检索方法Java Class Library Retrieval Method based on Latent Semantic Analysis 刘 磊 (大连理工大学软件学院 大连 116023) 【摘 要】为了更精确、有效地检索Jav a类库,应用潜在语义分析的理论,设计了基于潜在语义分析的Java类库的检索方法,提高了对Java类库的检索质量。基于潜在语义分析的理论和方法可以适用于大多数的检索系统,对提高检索系统的检索精确性有很大的帮助。 【关键词】潜在语义分析,信息检索,Jav a类库检索方法 中图分类号:T P312 文献标识码:A ABSTRACT Fo r sear ching in jav a class libr ary mo re accur ately,this paper designs a r etr ieval method o f jav a class librar y based on L SA(L at ent sem ant ic A naly sis)o n the basis of semantic ana ly sis theor y.T his method impr oves t he sear ching quality of jav a class librar y and can be used in mo st of sear ching system,and is helpful to impro ve the sear ching accur acy o f retr iev al sy st em. KEYWORDS L SA,infor matio n retr iev al,java libr ary ret riev al method 信息的检索一直是大家研究的热门话题,人们对如何实现快捷准确的搜索功能进行了广泛的研究。本文探讨搜索对象Java类库是Java开发平台提供的开发文档,也是学习Java语言的主要文档。Jav a类库有着非常规则的结构,这对非常熟悉Java的开发人员来说是非常便利的,但是对于初学者来说,如何找到相应类的介绍却是非常困难的。所以快速高效率的Java类库检索方法有一定的现实实用价值。 传统的查询方法基于文本关键字的向量空间模型VSM(Vector Space M odel),是用m个关键字维构成的文档向量D i={d1i,d2i,...,d mi}表示文档集中的一个文档,并基于此进行文档过滤,检索的处理。它将非结构化的文本表示成向量的形式,使得各种数学处理成为可能。它的优点是简单、快捷。但是向量空间模型关于词间相互独立的假设很难满足,文中出现的词往往存在一些相关性,在某种程度上影响计算结果,同时,这种基于关键字的处理方法主要依据词频信息,两个文本的相似度取决于它们拥有的共同词汇的数量,因而无法分辨自然语言的语义模糊性[2]。 参考文献[1]中采用了上面的VSM方法表示Java 类库各可复用模块的语义,本文采用基于潜在语义分析的Java类库检索方法,对其进行改进。 潜在语义分析的出发点就是文本中词与词之间存在某种联系,及存在某种潜在的语义结构,这种潜在的语义结构隐含在文本中词语的上下文使用模式中,因此采用统计计算的方法,对文本进行分析,寻找这种潜在的语义结构,不需要确定语义的编码,仅依赖于上下文中事务的联系,并用语义结构表示词和文本,达到消除词之间的相关性简化文本向量的目的。 三维潜在语义空间示例如图1 所示。 传统的空间向量方法假设词语语义是相互独立的,每个词语被看作向量空间中的一个正交基本向量,实际上词语之间存在着很强的关联性及出现“斜交”的现象,影响文本处理的结果。LSA利用这种关联性,通过对文本集中词语的上下文的使用模式进行统计转换,获得一个新的、低维的语义空间[3]。SVD是目前普遍使用的典型的LSA空间构造方法。它通过对文本集的词-文本矩阵的奇异值分解计算,提取k个最大的奇异值及其对应的奇异矢量构成新矩阵来近似表示原文本集的词条-文本矩阵。具体步骤如下: 首先,构造一个训练集m*n词条-文本矩阵A=[a ij]mn,其中a ij=L(i,j)*G(i),L(i,j)是单词i在文本j中的局部权重,G(i)是单词i在文本集中的全局权重,m为提取单词数,n为文本数。 其次,对A进行截取SVD分解(设m>n, rank(A)=r,存在k,k

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法 很有用,请好好学习之。 北语之声论坛专业精华转贴 现代汉语语法的五种分析方法是语法学基础里 很重要的一个内容,老师上课也会讲到,我在这 里把最简略的内容写在下面,希望能对本科生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵:一. 中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓

语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[ ]标注状语,用< >标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)我们║五个人一组。(2)我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。 局限性: 1.在一个层面上分析句子,

层次性不强; 2.对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。 封建思想必须清除。≠思想清除。 3. 一些由于句子的层次关系 不同而造成的歧义句子无法分析; 如:照片放大了一点儿。咬死了猎人的狗。 二. 层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。

语义场与词义的类聚

第五章语义场与词义的类聚 问题定位: 义项与义素分析是对词义的微观分析,是就词的某一个意义本身而言;语义场与词义的类聚是对词的宏观把握,讨论的是词与词之间的语义关系。 目的要求 1.掌握语义场的定义与性质; 2.掌握语义场的类型; 3.掌握同义词的辨析方法; 4.把握反义词的特征与不平衡性等问题。 一、什么是语义场(P275) 定义---语义场是指义位形成的系统。即通过不同义位的对比,根据它们的共同特点或关系划分出来的类别。属于同一语义场的各个义位含有共同的义素,表明它们同属于一个语义场,同时又含有一些区别义素表明彼此间的差别。 例如:椅子凳子沙发(类义义场) 共同义素:坐具;区别义素:+[靠背]+[弹簧] 二、语义场的性质 1.系统性 属于同一个语义场中的词,它们在意义上是互相依存和互相限制的。也就是说要确定一个词的范围,必须首先比较这个词与同一义场的其他词在意义上的联系,以及这个词在语义场中所占的位置。一般说来在一个语义场中,每增减一个词,这个场所包括的词就要作相应的调整。 例如:爱人 【爱人】原指“恋爱中的一方”;后指“丈夫或妻子”。 分析:“恋爱”一词的词义发生了转移,其原义由“朋友”“对象”代替,导致“朋友”“对象”各增加一个义项。 【朋友】①彼此有交情的人。②指恋爱的对象。

【对象】①行动或思考时作为目标的人或事物。②特指恋爱的对方。 分析:“朋友”“对象”各增加了一个义项,构成一个语义场。“爱人”与“丈夫”“妻子”构成一个语义场,并使“妻子”“丈夫”的使用频率减弱。当前随着“先生”“太太”“老公”“老婆”等词语的流行,爱人的使用频率也有所降低。 图示: 【爱人】原义:恋爱中的一方——朋友、对象(增加义项替补) (转移)现指:丈夫或妻子——丈夫、妻子//先生、太太、老公、老婆 注:【爱人】①丈夫或妻子。②指恋爱中男女的一方。(《现代汉语词典》83与96版) 又如:哥哥姐夫姐姐嫂子 在城市多以“哥哥”代替“姐夫”,以“姐姐”代替“嫂子”,相应“哥哥姐姐”的指称范围增大,“姐夫嫂子”的使用频率减低。 2.层次性 任何一种语言的语义场都存在着大小不同的结构层次: 语义总场--若干子场--……最小子场 例如: 交通工具:水陆 陆路(火车/电车/三轮车/自行车/汽车)——卡车/轿车/客车等 空中 drinks(饮料):beverages(茶类):tea(茶)/coffee(咖啡) wines(酒类): claret(红葡萄酒)/hock(白酒)3.民族性 语义场的划分要受到社会的(包括社会状况、社会认识、风俗习惯等)和语言的(交际需要、语言系统等)多种因素的制约,从而具有民族特点。目前语义场研究较为深入的领域是颜色词与亲属词。比如颜色词的划分标准有较大差异,有的按色泽的深浅划分,有的按光谱的长短划分。据某些学者考察,美洲印地安语中的那伐霍语(navajo)不区分蓝和绿,黑色用两个词表示,灰和棕用一个词表示。又如云南的德昂语有“红、黄、蓝、白、黑”等词,但无上位词“颜色”。

浅层语义分析

自动浅层语义分析 车万翔,刘挺,李生 (哈尔滨工业大学计算机学院信息检索实验室,哈尔滨 150001) E-mail: {car, tliu, lisheng}@https://www.360docs.net/doc/b614674704.html, 摘要 全自动的语义分析一直是自然语言理解的主要目标之一。通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义角色标注是浅层语义分析的一种实现方式,具有定义清晰,便于评价的优点。本文描述了浅层语义分析现有的语料库资源,各种分析方法,以及我们的工作等。并提出了对该任务一些难点问题的解决方案和对浅层语义分析发展的一个初步展望。 关键词:自然语言理解;浅层语义分析;语义角色标注; Shallow Semantic Parsing Wanxiang Che, Ting Liu, Sheng Li (Information Retrieval Lab, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001) Abstract: Automatic semantic parsing is one of the main tasks for the natural language understanding. The natural language sentences can be translated into formal language by deep semantic paring. Consequently computer and human beings can communicate with each other freely. In order to achieve the dream, people have done lots of efforts for many years. However the results are not up to much. Shallow semantic parsing is a simplified form of deep semantic parsing. It only labels the constituents with semantic roles which have direct relation with the predicate in a sentence. The semantic roles include Agent, Patient, Temporal, Locative and so on. In addition, it can give great support to many NLP applications, such as information extraction, question and answering, machine translation and so on. Semantic role labeling (SRL) is one kind of shallow semantic paring. It is currently a well defined task with a substantial body of work and comparative evaluation. In the paper, we investigate the corpus for SRL, the paring methods, and our previous work. At last, some proposals to solving the difficulties in shallow semantic parsing and some future work are given. Kerwords: Natural language understanding; Shallow semantic parsing; Semantic role labeling

第五章_词义

第五章词义 第一节词汇和词义 一、词汇的定义 词汇是一种语言里全部词语的总和。词汇不论指什么样的范围,总是个表示集合体的名称,绝不能用来表示个别的词。 词汇同语音、语法比较起来是最敏感、最容易变化的。 二、词义 (一)词义的定义 语言的意义非常复杂,总的说可以分为两类。由词的语法关系产生的意义叫作语法意义,由人们对现实现象的反映以及由此产带来的人们对现实现象的主观评价,叫作词的词汇意义,简称词义。 词义是客观对象的反映,客观存在的事物是词义形成的基础。 (二)词义的构成 1.理性意义 词的理性意义,也叫词的物质意义,是指客观事物在人脑中概括反映后所形成的意义。这是词义的核心部分,是词义的基础。 2.词的附加色彩 词的附加色彩包括表情色彩、语体色彩和联想色彩。 表情色彩就是说话者对所谈论对象的评价和态度,有褒有贬有中立。 语体色彩是语言使用受言语环境制约而产生的。在语言体系的同义手段中,有的适用于书卷语体,有的适用于艺术语体,有的适用于谈话语体,有的适用于科学语体等等。 联想色彩是从词汇意义的联想而产生的。 三、词义的基本特征 (一)概括性 (二)模糊性

When the last of my fellow-passengers had gone, I put down my paper, stretched my arms and my legs, stood up and looked out of the window on the calm summer night through which I was journeying, nothing the pale reminiscence of day that still lingered in the northern sky. A .G .Gardiner: A Fellow-Traveller 当我的最后一个旅伴下车后,我放下报纸,伸伸手脚,站起来眺望旅途窗外那沉寂的夏季的,注视着那白日的暗淡余晖仍都留在北方的天空。 (三)全民性 四、词义成分分析 (一)义素分析的定义 1.义素的定义 词义的义素分析就是直接从语词的意义下手,把语词的意义分解为若干个意义元素,从而寻找出语词意义结构单位的描写单位。 2.怎样进行义素分析 义素分析就是把语义分割成最小的对立成分,从而描写语义的相互关系。 “父亲”:[+男性+直系亲属+长辈] “母亲”:[+女性+直系亲属+长辈] “儿子”:[+男性+直系亲属+晚辈] :[+男性+旁系亲属+长辈] 分析一组词的语义成分,可以采取列语义成分矩阵的方式。用竖标表示语义单位,横标表示语义成分,两标相交点用+—表示。 汉语中表示各种长辈亲属关系的语义矩阵: [男性][旁系][长辈][父方][父方兄弟][母方兄弟][兄长]叔叔+-+++- 伯伯+-++++ 姑夫+-++— 舅父+-+-+ 姨父+-+-—

在线词频、语义、情感分析工具试用心得

根据之前在@数据化管理 微博那里看到的一些在线效率工具,来试用一下。首先就从在线词频、语义、情感分析工具开始吧。 @数据化管理 推荐了三个网站,分别是图悦、大数据搜索与挖掘平台和腾讯文智。 以新浪微博“英国公投决定脱欧 新浪正实时解读”的直播页面为试用对象,地址 为https://www.360docs.net/doc/b614674704.html,/zt/l/v/news/ygtogt2016/ ①图悦:https://www.360docs.net/doc/b614674704.html,/ 初始页面背景是黑色的,看着不舒服,页面换肤后变成白底还可以接受。 左边文本栏可输入待分析的文本,也可以直接复制链接,很人性化。贴入要分析的网页地址,点击分析出图,右边就获得了分析结果。、 结果显示有多种模式,下面截图显示的是默认的热词权重图-标准模式。热词词频图是每个热词后面带括号显示词频,比较乱,不好看。微信模式是圆形的显示框变成扁椭圆式,地图模式是显示框为中国地图的轮廓。 可以导出EXCEL,列明分析出来的关键词、词频和权重。 ②大数据搜索与挖掘平台:https://www.360docs.net/doc/b614674704.html,/nlpir/ 看上去功能比较强大,同样可以输入网页URL进行文本抓取。分析结果分为多个板块: 分词标注:可以对词语的词性进行分类分析,发现新词

实体抽取:对文本的实体类型和实体内容进行分析,下图是图表效果,●代表实体类型,●代表实体内容。另外还有文本效果,内容是一样的,效果不如这个好看,就不截图了。 词频统计:按照名词、动词、形容词分类显示词频,有柱状图和折线图两类图表,鼠标停留在某个词上会显示词频数量。 文本分类:似乎是对文本所讨论的问题进行归类,猜哒。 情感分析:不太明确是啥意思 -。-,什么叫正面,什么又叫负面呢,特定人物又是谁?

语义分析的一些方法

语义分析的一些方法 语义分析的一些方法(上篇) 5040 语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。 工作这几年,陆陆续续实践过一些项目,有搜索广告,社交广告,微博广告,品牌广告,内容广告等。要使我们广告平台效益最大化,首先需要理解用户,Context(将展示广告的上下文)和广告,才能将最合适的广告展示给用户。而这其中,就离不开对用户,对上下文,对广告的语义分析,由此催生了一些子项目,例如文本语义分析,图片语义理解,语义索引,短串语义关联,用户广告语义匹配等。 接下来我将写一写我所认识的语义分析的一些方法,虽说我们在做的时候,效果导向居多,方法理论理解也许并不深入,不过权当个人知识点总结,有任何不当之处请指正,谢谢。 本文主要由以下四部分组成:文本基本处理,文本语义分析,图片语义分析,语义分析小结。先讲述文本处理的基本方法,这构成了语义分析的基础。接着分文本和图片两节讲述各自语义分析的一些方法,值得注意的是,虽说分为两节,但文本和图片在语义分析方法上有很多共通与关联。最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用,并展望一下未来的语义分析方法。

1 文本基本处理 在讲文本语义分析之前,我们先说下文本基本处理,因为它构成了语义分析的基础。而文本处理有很多方面,考虑到本文主题,这里只介绍中文分词以及Term Weighting。 1.1 中文分词 拿到一段文本后,通常情况下,首先要做分词。分词的方法一般有如下几种: ?基于字符串匹配的分词方法。此方法按照不同的扫描方式,逐个查找词库进行分词。根据扫描方式可细分为:正向最大匹配,反向最大匹配, 双向最大匹配,最小切分(即最短路径);总之就是各种不同的启发规则。 ?全切分方法。它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问 题。下图是一个示例,对于文本串“南京市长江大桥”,首先进行词条检索(一般用Trie存储),找到匹配的所有词条(南京,市,长江,大桥,南京市,长江大桥,市长,江大桥,江大,桥),以词网格(word lattices)形式表示,接着做路径搜索,基于统计语言模型(例如n-gram)[18]找到最优路径,最后可能还需要命名实体识别。下图中“南京市长江大桥” 的语言模型得分,即P(南京市,长江,大桥)最高,则为最优切分。 图1. “南京市长江大桥”语言模型得分

义素分析法分析“看的方式”语义场

义素分析法分析“看的方式”语义场 摘要:“看的方式”的语义场可以归为同义语义场。通过义素分析的方法,并写出 每个词的基本义的义素表达式,来分析该语义场内的词之间的异同。词不仅有理 性意义还有感性意义,通过感性意义能更好的区别和运用同义词。 关键字:义素分析法,同义词辨析,看的方式 一、义素分析法在同义词辨析中的运用 同义词辨析一直以来都是语言研究的重要方面,不仅是在语言研究,还是在 语言运用中,甚至在语言的教学中都具有特殊的意义。义素分析法是准确描写和 掌握词义的有效方法。词义并不是一个整体,而是有若干层次的结构,义素是构 成词义的最小意义单位。将义素分析法引入对外汉语词汇教学,可以对词义的微 观层面进行准确有效的分析,把词义分割成若干个义素的组合,不仅有利于准确 掌握同义词之间的大同小异,还能提高人们对语言的运用能力,有利于第二语言 学习者在语言学习中理解两个及两个以上抽象的同义词,加深对汉语词汇的理解 和运用。 本文主要通过义素分析法来分析比较“看的方式”的语义场,来说明义素分析 法在同义词比较中的运用。运用义素分析法的表达式来研究“看的意义相同或相近的词”。本文研究的看的方式词有:看、望、顾、瞪、瞥、瞅、盯、窥、伺、瞟、瞰。 二、“看的方式”的语义场义素分析的方法和步骤 1.确立语义场 语义场是通过不同词之间的对比,根据它们词义的共同特点或关系划分出来 的类。同义语义场相当于一些论著中讲的一组广义的同义词(即不包括等义词),它所包括的各个义位间大同小异。所谓的同,表现为基本义相同或者是基本义有 一部分相同。所谓的异,就是附加义不同,或者是基本义有一部分不同,又或是 不只是基本义有一部分不同附加义也不一样。“看的方式”语义场内的词是眼部动 作描写都有“用眼睛看”这一基本义项,因此,这些看的方式词都可以看作是“看” 这个词的同义词。那么“看的方式”就构成了一个眼部动作的同义语义场。根据义 素分析法的分析并通过表达式的比较,可以准确的辨析出同义语义场内各个词之 间的细微区别,有利于第二语言的学习。 2.通过义素的具体对比分析“看的方式:看、望、顾、瞪、瞥、瞅、盯、窥、伺、瞟、瞰”的异同。 这些字从现代汉语词典第七版中查到“看的方式”词的意义如下所示: (1)看: [动] 使视线接触人或物:~书|~电影|~了他一眼。 [动] 观察并加以判断:我~他是个可靠的人l你~这个办法好不好。 [动] 取决于;决定于:这件事能 不能成功全~你了|飞机能否准时起飞,要~天气如何。 [动] 访问;探望:~望|~朋友。 [动] 对待:~待|另眼相~|别拿我当外人~。 [动] 诊治:王大夫把我的病~好了。照料:照~l衣帽自~。 [动] 用在表示动作或变化的词或词组前面,表示预见到某 种变化趋势,或者提醒对方注意可能发生或将要发生的某种不好的事情或情况: 行情~涨|别跑!~摔着!|~饭快凉了,快吃吧。 [助] 用在动词或动词结构后面, 表示试一试(前面的动词常用重叠式):想想~I找找~|等一等~l评评理~先做几 天~。 (2)望: [动] 向远处看:登山远~|一~无际的稻田。观看;察看:~风!观~|~ 闻问切。探望:拜~|看~。盼望;希望①:~子成龙l~准时到会。盼头;希望②:

相关文档
最新文档