文本排歧语义图式的自动获取与选择
11_语义消歧

统计语义优选
中文文本信息处理的原理与应用
统计语义优选(续1)
思想:统计语义角色在语义之间出现频度的信息,这 只有当所有关系的出现互不相 样在解释一个句子的时候选择最常见的语义组合。
关的时候,这项计算才正确, 在讨论选择限制的时候,限制被描述成逻辑形式中篇章变量之间的一 显然这是不可能成立的,但 元和二元关系,借助一个标注好语义信息的语料库,我们能收集 是这项技术依然很有用 到所有这些关系频度的统计信息。先假定有足够的数据,根据这 些数据,可以准确的算出每个关系的值。我们用每个子成分出现 概率的乘积来计算每个特定解释的出现概率。也就是说,如果一 n PROB ( LF ) = ∏ PROB ( Ri ) 个逻辑形式(LF)包含n个关系R1,…,R2,那么 i =1 然后我们再进一步,研究计算二元关系概率的方法。通过比较某些三 元组(reln head arg)出现的次数和它的中心成分出现的次数, 可以算出该三元组的概率:
中文文本信息处理的原理与应用 第十一章 语义消歧
授课人:迟呈英 教授 辽宁科技大学软件学院
问题的提出
语义解释过程中,如何处理一词多义的情况? 语义解释过程中,如何消除句子的不同部分进行组 合带来的歧义?
中文文本信息处理的原理与应用
主要内容
选择限制法消歧 语义网络 统计词义消歧 统计语义优选
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
选择限制法(续3)
逻辑形式产生了,就可以用选择限制检查它所包含
的一元和二元的语义关系集,利用约束满足算法。
本例中READS1选择限制如下: (AGENT READS1 PERSON)——AGENT必须是人。 (THEME READS1 TEXTOBJ)——THEME必须是一个 TEXTOBJ对象。 很明显,本例利用选择限制可以得到: types(p1)= ARTICLE/TEXT types(d1)= DISHWASH/PERS 歧义得以消除
歧义研究的视角和方法

歧义研究的视角和方法周明强【摘要】现代汉语歧义研究已近60年,考察其研究的视角和方法主要有结构的(层次分析、变换分析)、语义的(语义关系、语义特征、语义指向分析)、信息处理的("潜在歧义""制约"与"优选"的分析)、语用的(歧义度、语用、语境歧义分析)、认知的(意象图式、实验、实证、倾向性分析)等.要揭示歧义的现实性还可从社会语言学的视角进行言语社区和语言变异的分析.【期刊名称】《浙江外国语学院学报》【年(卷),期】2010(000)004【总页数】11页(P26-35,72)【关键词】歧义研究;视角;方法【作者】周明强【作者单位】浙江外国语学院,人文学院,浙江,杭州,310012【正文语种】中文【中图分类】H030近 60年来的汉语歧义研究有过三次重大变化:一是研究重心由句法结构的研究转向语义,对用句法手段无法分化的歧义现象进行分析,弥补了单纯从句法结构上研究歧义的不足。
二是研究重心从句法、语义的角度转向语用,引进语境理论,更好地说明了歧义形成和消解的条件。
三是研究重心从交际语用转向认知。
这三次变化形成了结构、语义、语用和认知四个不同层次的研究视角。
语言的使用是社会的,歧义的研究还须有第五个层次——社会的层次,即社会语言学视角的言语社区和语言变异的研究。
朱德熙说:“一种语言语法体系里错综复杂和精细微妙之处往往在歧义现象里得到反映。
因此分析歧义现象会给我们许多有益的启示,使我们对于语法现象的观察和分析更加深入。
”[1]259歧义问题的讨论是从语法分析开始的,分析方法受结构主义理论影响最深。
在结构主义视角下的歧义分析,重视揭示语言的线性组合与语义产生的非线性 (意义产生有层次)之间的矛盾。
20世纪 50-60年代,美国结构主义语法与转换生成语法分析方法被引入到现代汉语语法研究中来,给歧义研究也带来了活力和生机。
70年代以后,随着结构主义语法、转换生成语法、格语法、配价语法等语法理论在国内广泛被接受,层次分析法和变换分析法被广泛地用到了歧义结构的分析中来。
知识图谱中的语义关系抽取

知识图谱中的语义关系抽取在现代信息时代,随着人们对信息的需求和获取逐渐增加,人们对于信息的高效管理和利用需求也越来越迫切。
而在自然语言处理领域,知识图谱是一种用于描述和处理自然语言中相关知识的一种有效手段。
其中,语义关系抽取是知识图谱中的一个重要环节,能够直接决定知识图谱的质量和可用性。
本文将详细探讨知识图谱中的语义关系抽取技术,从其定义、应用场景、抽取方法等几个方面进行论述。
一、语义关系抽取的定义语义关系抽取,是指从自然语言文本中识别和提取出概念之间的语义关系,例如上位下位(Hyponymy)、同义词(Synonymy)、组成成分(Part-Whole)、时间序列(Temporal Relations)等。
而这些语义关系的提取对于实现知识图谱的构建和应用都有着重要的意义。
因此,语义关系抽取也成为了知识图谱构建中最为关键的一个环节。
二、语义关系抽取的应用场景语义关系抽取可以在许多自然语言处理任务中应用。
例如:1、信息检索和问答系统在信息检索和问答系统中,通过语义关系抽取技术,可以从大量的文本数据中准确地找到相关实体之间的语义关系,提高答案的质量和精度。
2、知识图谱构建语义关系抽取是构建知识图谱的一个重要环节。
自然语言文本中隐含大量的实体、关系,通过语义关系抽取,可以将这些实体和关系构建为知识图谱,使得知识的结构化表示能够更加准确和全面。
3、信息抽取语义关系抽取还可以用于信息抽取中。
在文本中,有许多信息关系是通过各种语义关系联系在一起的,通过将这些语义关系提取出来,可以从大量的文本数据中提取出相关的信息。
三、语义关系抽取的方法目前,语义关系抽取技术主要可以采用以下几种方法:1、基于语法规则的方法基于语法规则的方法主要是通过语法分析技术,对文本进行分析,提取实体和关系之间的句法结构,并从中抽取出实体间的语义关系。
这种方法的优点是可以应用于较为复杂的句子结构,其缺点是对于句法结构较为简单的语言,效果不太理想。
面向真实文本的汉语词义排歧系统

面向真实文本的汉语词义排歧系统【摘要】:在自然语言处理(NLP)中,词义排歧(WordSenseDisambiguation)一直是研究的重点和难点,对其他的语言信息处理任务具有重要的理论和实践意义。
词义排歧任务是一项“中间任务”,其本身并不是一个终结,而是完成其它自然语言理解任务所必不可少的,它的研究成果可以直接应用于句法分析、机器翻译、文本处理和语音识别等自然语言处理系统。
本文的主要工作是研究获取支持词义排歧的知识的方法,并在此基础上建立一个面向真实文本中实词的汉语词义排歧系统。
主要从以下几个方面进行了研究:1.词义排歧知识的获取:词义排歧知识的获取是词义排歧的关键问题。
在分析词义排歧所需的知识以及知识资源中提供的知识的基础上,本文研究了知识自动获取的方法。
并以在线知识系统《知网》(2000)作为知识源,通过分析《知网》中的义原间的关系,自动建立了动态角色列表库、事物与属性关系库和动态实例库等一系列支持排歧的知识库。
2.词义排歧系统的设计和实现:通过获取的句法信息、频率信息、概念间的角色关系、搭配信息以及词的联想、上下文语义(聚类)和选择限制等信息,提出一个词义排歧模型,并抽取56,000词次的新闻文本语料,尝试对其中的实词(名词、动词、形容词)进行词义排歧。
模型主要包括词性过滤器、局部分析器和搭配实例库等。
在此基础上我们进行了系统的设计和实现。
3.词义排歧系统的评测:我们以新闻文本语料作为评测语料,语料涉及到政治、体育、农业、科技等几个方面。
文本语料首先经过山西大学的分词与词性标注系统进行处理,然后作为我们系统的输入对象。
评测结果表明排歧系统对于汉语真实文本的排歧是有效的,其准确率可达到80%左右。
本文通过知识获取建立起一个多种语言知识相结合的词义排歧模型,实验结果表明,排歧效果良好。
【关键词】:自然语言处理词义排歧多义词真实文本《知网》关系【学位授予单位】:山西大学【学位级别】:硕士【学位授予年份】:2003【分类号】:TP391.12【目录】:1引言8-181.1课题的提出及其意义8-91.2国内外研究发展9-161.2.1词义排歧方法的研究现状9-141.2.2相关的词义排歧系统介绍14-161.3本文的工作16-171.4论文的组织17-182基于《知网》的知识库的获取18-262.1《知网》18-212.1.1《知网》简介18-192.1.2《知网》中的词类分布19-212.2基于《知网》的知识库的获取21-262.2.1词库212.2.2动态角色列表库21-232.2.3事物与属性关系库232.2.4义原关系23-242.2.5动态实例库24-263面向真实文本的汉语词义排歧系统26-373.1相关的工作26-273.2面向真实文本的汉语词义排歧模型27-353.2.1预处理过程27-283.2.2词性过滤器28-293.2.3基于实例的词义排歧29-333.2.4局部分析器33-343.2.5词义颗粒度的选取34-353.2.6基于频率统计的方法与特定词的选择限制353.2.7排歧过程中不同知识的交互作用353.3人工标注与后处理35-363.4知识库管理36-374词义排歧系统的评测37-434.1评测标准37-384.2实验及结果评测38-434.2.1词义排歧实验38-414.2.2评测分析41-435结束语43-455.1结论435.2论文的局限性435.3进一步的工作与展望43-45致谢45-46参考文献46-50附录50-53附录一:动态角色列表库结构50-51附录二:事物与属性关系库结构51-52附录三:排歧结果示例:52-53附录四:排歧系统部分实验结果:53 本论文购买请联系页眉网站。
语义分析的工作原理

语义分析的工作原理语义分析(Semantic Analysis)是自然语言处理领域中的重要研究方向,其主要目标是理解自然语言中的语义信息,并对其进行进一步的处理和分析。
本文将介绍语义分析的工作原理,讨论其主要方法和应用领域。
一、概述语义分析是自然语言处理中的核心任务之一,其主要目标是从文本中提取意义,理解語言和信息之間的關聯。
与传统的基于语法的分析方法不同,语义分析注重从文本中获取更深层次的含义。
其应用广泛,包括情感分析、问答系统、机器翻译等。
二、方法和技术1. 词义消歧词义消歧(Word Sense Disambiguation)是语义分析的一个关键步骤。
在自然语言中,一个词可能有多个不同的意义,而词义消歧的任务就是确定在特定上下文中该词的正确含义。
常用的方法包括基于知识库、统计方法和机器学习等。
2. 句法分析句法分析(Syntactic Parsing)是另一个与语义分析密切相关的任务。
它的主要目标是确定一句话中的各个词语之间的句法关系,从而提供给语义分析更准确的输入。
句法分析方法包括依存句法分析和短语结构分析等。
3. 语义角色标注语义角色标注(Semantic Role Labeling)是一项关键任务,它用于识别和标注句子中的谓词与各个论元之间的语义关系。
通过语义角色标注,我们可以更好地理解句子中不同成分之间的作用和关系。
4. 实体识别实体识别(Named Entity Recognition)是一项重要的任务,旨在识别和提取文本中的特定实体,如人名、地名、组织名等。
实体识别在文本理解和信息提取中具有重要意义,为语义分析提供了重要的输入信息。
5. 语义关系抽取语义关系抽取(Semantic Relation Extraction)是指从文本中抽取出不同实体之间的语义关系。
通过语义关系抽取,我们可以获得更深层次的语义信息,从而实现更高级别的语义分析。
三、应用领域1. 情感分析情感分析(Sentiment Analysis)是一种常见的语义分析应用,用于识别和分析文本中的情感倾向,如正面、负面或中性。
基于语义角色标注的文本特征抽取方法实用指南

基于语义角色标注的文本特征抽取方法实用指南随着自然语言处理技术的不断发展,文本特征抽取在信息检索、文本分类、机器翻译等领域中发挥着重要作用。
语义角色标注是一种将句子中的每个单词或短语与其在句子中扮演的语义角色相对应的任务。
本文将介绍基于语义角色标注的文本特征抽取方法,帮助读者更好地理解和应用该技术。
一、语义角色标注的概念和原理语义角色标注是一种将句子中的单词或短语划分为不同的语义角色的任务。
这些语义角色可以是“施事者”、“受事者”、“时间”、“地点”等。
语义角色标注的目标是为了更好地理解句子中每个成分的语义功能。
该任务通常通过机器学习算法来实现,其中最常用的是条件随机场(CRF)和支持向量机(SVM)。
二、基于语义角色标注的文本特征抽取方法1. 词性特征抽取词性是指词语在句子中所扮演的语法角色,如名词、动词、形容词等。
通过对句子进行词性标注,并将不同词性作为特征,可以帮助我们更好地理解句子的结构和语义。
例如,在文本分类任务中,名词可能是关键特征,而动词可能是不重要的特征。
2. 依存关系特征抽取依存关系是指句子中不同单词之间的语义关系。
通过对句子进行依存分析,并将不同依存关系作为特征,可以帮助我们更好地理解句子的语义。
例如,在情感分析任务中,主谓关系可能是关键特征,而宾语关系可能是次要特征。
3. 语义角色特征抽取语义角色标注的本质就是将句子中的每个成分与其在句子中的语义角色相对应。
通过对句子进行语义角色标注,并将不同语义角色作为特征,可以帮助我们更好地理解句子的语义。
例如,在问答系统中,问题中的动词可能是关键特征,而回答中的名词短语可能是次要特征。
4. 上下文特征抽取上下文是指句子中当前单词周围的其他单词。
通过将当前单词及其上下文作为特征,可以帮助我们更好地理解句子的语义。
例如,在命名实体识别任务中,当前单词的前一个单词和后一个单词可能是关键特征。
三、基于语义角色标注的文本特征抽取方法的应用1. 信息检索通过对查询语句进行语义角色标注和特征抽取,可以提取查询语句中的关键信息,从而提高信息检索的准确性和效率。
语义三元组提取-概述说明以及解释
语义三元组提取-概述说明以及解释1.引言1.1 概述概述:语义三元组提取是一种自然语言处理技术,旨在从文本中自动抽取出具有主谓宾结构的语义信息。
通过将句子中的实体与它们之间的关系抽取出来,形成三元组(subject-predicate-object)的形式,从而获得更加结构化和可理解的语义信息。
这项技术在信息检索、知识图谱构建、语义分析等领域具有广泛的应用前景。
概述部分将介绍语义三元组提取的基本概念、意义以及本文所要探讨的重点内容。
通过对语义三元组提取技术的介绍,读者可以更好地理解本文后续内容的研究意义和应用场景。
1.2 文章结构本文将分为三个主要部分,分别是引言、正文和结论。
在引言部分,将从概述、文章结构和目的三个方面介绍本文的主题内容。
首先,我们将简要介绍语义三元组提取的背景和意义,引出本文的研究对象。
接着,我们将介绍文章的整体结构,明确各个部分的内容安排和逻辑关系。
最后,我们将阐明本文的研究目的,明确本文要解决的问题和所带来的意义。
在正文部分,将主要分为三个小节。
首先,我们将介绍语义三元组的概念,包括其定义、特点和构成要素。
接着,我们将系统梳理语义三元组提取的方法,包括基于规则的方法、基于统计的方法和基于深度学习的方法等。
最后,我们将探讨语义三元组在实际应用中的场景,包括知识图谱构建、搜索引擎优化和自然语言处理等方面。
在结论部分,将对前文所述内容进行总结和展望。
首先,我们将概括本文的研究成果和亮点,指出语义三元组提取的重要性和必要性。
接着,我们将展望未来研究方向和发展趋势,探索语义三元组在智能技术领域的潜在应用价值。
最后,我们将用简洁的语言作出结束语,强调语义三元组提取对于推动智能化发展的意义和价值。
1.3 目的本文的目的是介绍语义三元组提取这一技术,并探讨其在自然语言处理、知识图谱构建、语义分析等领域的重要性和应用价值。
通过对语义三元组概念和提取方法的讨论,希望能够帮助读者更好地理解和应用这一技术,提高对文本语义信息的理解和利用能力。
《知网》语义关系图的自动构建
系 , 建 可 计 算 的 汉 语 词 汇语 义 资 源 , 文 提 出 了 通过 构 建语 义 关 系 图整 合 各 种 语 义 资 源 的 方 法 , 构 该 并在 《 网 》 实 知 上
《 网 》 义 关 系 图 的 自动 构 建 知 语
王 宏 显 周 强 。 邬 晓 钧 。 , ,
(.清 华 大 学 电子 工 程 系 , 京 10 8 ; 1 北 0 0 4
2 .清 华 信 息 科 学 技 术 国 家实 验 室 技 术创 新 与 开 发 部 语 音 和 语 言 技 术 中 心 清 华 大 学 信 息 技 术 研 究 院 语 音 和 语 言 技 术 中心 , 京 1 0 8 ) 北 0 0 4
N e e or se c o e tb n re tr c d a h c nc p y e t s,a d t e a i ea ins i shide t e n t e e re . I r rt x r c her — i n hes m ntcr lto h p i d n bew e h ntis n o de O e ta tt e lt s p b t e hec nc p si ai hi e we n t o e t n HowNe ,wefr tr - tu t r hec c p nt e n o c nc p re on t is e s r c u et on e te r sit o e tte s,a d t n e ta tt e i n he x r c h
维普资讯
文本阅读中的图式理论
信息 , 而是积极地把新信 息同 图式表征 的旧知识加 以联系 ( 鲁忠
认 知 心理 学 强 调 读 者 的创 造 活动 , 本 意 义 取 决 于 读 者 带 给 文
历史、 文化及心理 设想 , 让读 者不愿 接受从而 产生极 度厌倦 的情
感, 但痛苦过后又重 获新生 , 时候的感觉 就是“ 这 极乐” 。这 两种 阅读 文本 时的愉悦感很大程度上摧毁 了作者 的原创性 , 尤其 是读 者感 受到极乐 时的顿悟使得对文本统一的理解受到挑战。 法国文学理论大师 罗兰 ・巴特将 文本分 为可读性 文本 与可 写性文本 。在 可读性文本面前 , 读者 按照既定 的阅读方 式被动地 接受文本 , 只是传统意义上 固定意义 的消 费者 。而可写 性文本让 读者有机会成为生产者 , 主动参 与意义 的制作 。这种理 想的文本 没有固定 的起点 , 以 自几个 不 同的入 口进入 , 可 但这些 入 口没有
现代 图式理论是在 吸收 了ຫໍສະໝຸດ 性 主义关 于心理结构 的思想 和
经 验 主义 关 于 过 去 经验 对 心 理 具 有 积 极 影 响 的 观点 , 在 心 理 表 又
者不再是统治文本 意义 的上帝 , 文字一旦 被写下 , 其意 义该如何 阐释是作者无法控制的。作者所有形而上 的地位被 剥夺一空 , 站 在一个语 言不停 穿梭 、 义 来 回游走 的十 字路 口( e e ,99 意 Sl n 18 : d 7) 9 。在 《 文本 的快乐》 , 中 巴特提到了“ 快乐” 极乐” 快乐 ” 和“ 。“ 是符合读者文化习惯的舒适 的阅读体验 ; 而作品若打碎 了读 者的
英语情态动词语义排歧中的知识发现研究
英语情态动词语义排歧中的知识发现研究作者:李洪波于建平来源:《电脑知识与技术》2019年第12期摘要:该文以形式观念分析理论为支撑,以属性结构偏序图为工具,探讨英语情态动词语义排歧中的知识发现,提出进行英语情态动词的知识发现分的五个层次和五个视角。
五个层次为:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层;五个视角为:语义模式识别,语义规则提取,特征选择优化,句法与语义互动关系,属性重要度分析。
该文提出的情态动词语义排歧中知识发现框架,既可以其他复杂语义词的知识发现,也可以应用到机器翻译和其他自然语言处理领域。
关键词:模式识别;规则提取;特征选择优化;句法语义互动;属性重要度分析中图分类号:TP311 文献标识码:A文章编号:1009-3044(2019)12-0181-051前言知识发现是指从数据集中提取有效的、新颖的、潜在有用的、可理解的模式的非平凡过程[1]。
随着大数据时代的来临,知识发现引起了各领域、各学科的关注,如工业[2]、农业[3]、生物医学[4]、网络舆情[5]等等。
从纷繁的数据中发现知识,已成为是人工智能领域的重要工作之一[6]。
作为一种有潜力的获取新颖、有用、可理解知识的方法,知识发现也被应用到语言学和自然语言处理领域 [7],知识发现是挖掘语言背后隐性知识的有效方法。
语义排歧一直是自然语言处理领域的热点问题,复杂语义词—英语情态动词的语义排歧更是棘手问题。
近年来,英语情态动词语义排歧領域有很多开拓性的研究,于建平教授等分别研究了基于神经网络、支持向量机、朴素贝叶斯概率、模糊 c 均值聚类、自适应神经网络模糊推理系统以及属性偏序图的英语情态动词的语义排歧[8-13],笔者也从不同视角对英语情态动词语义排歧进行了知识发现研究[14-18]。
纵观前期研究成果,研究或止于高精确语义排歧模型的建立,或局限于某个单独视角研究语义排歧中的知识发现,因此,本文在总结前期研究的基础上,提出英语情态动词语义排歧中知识发现的基本框架,为以后情态动词的知识发现研究提供借鉴。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2007,43(31)1引言机器翻译中,歧义讨论多集中在词句,鲜有文章涉猎到文本[1]。
立足于微观的传统语义图式虽具有可释性,却难以跨越句法和文本的鸿沟。
不同于句法歧义,文本歧义分析是动态多向的语义调节过程,是读者将作者铺设在作品中的歧义进行匹配、优选和解读的过程。
如何发挥计算机优势量化文本中的歧义现象是本文的立足点。
文本语义排歧并不是强调文本非歧义性,相反,歧义的存在却能推动情节发展。
句法和文本排歧有着根本的区别:前者为实现语义传递避免歧义产生;后者为凸显主题鼓励歧义存在。
文本语义排歧中的“排”不是“排除”而是“排列”,即按照文本主旨排列歧义,以便于通过量化进行分析。
计算机辅助下进行的文本歧义排列,以及语义顺序和匹配过程分析要求文本排歧图式包括文本和读者这两个相关因素。
本文以英语文本为例探讨歧义排列时语义图式的正确性和相关性,即具有读者参与的文本歧义是否能推动情节的发展,以及这种推动是否源自于读者和文本的互动性。
2文本排歧语义图式的构建语义图式强调认知的流程化,即用流程图解释理解的顺序性和选择性[2]。
传统语义图式因其自身的局限性解释范围只限于词句层面,而文本语义图式则基于此将读者理解度设为相关变量进行讨论,即读者认知模式在先后理解上会产生非一致性的读者期待,并和文本顿悟点在匹配上具有顺序性;而且形成的读者期待在认知纠错系统控制下具有选择性。
这种顺序性和选择性需要在构建的理论框架中得到验证。
2.1传统语义图式的局限性对语义图式的讨论最早始于认知心理学。
Bever[3]首倡认知层级图式。
尽管语言是符号系统的信息处理模式受到连接主义的挑战,但用流程图方法将语言认知处理过程符号化更有利于分析语义的传递过程。
Gagne[4]的模型可用来分析词句理解时的心理认知过程,即通过利用“短时记忆”和“长时记忆”的不断对照和互促推动来阐释语义的往返性。
这个过程可以用计算机进行分析,即通过量化比照不同词句的召回率来确定出现歧义的可能性比值[5]。
“对语篇的理解更多依赖的是句间的关联而不是其中某个词的意义[6]。
”微观的计算机应用虽然能够解释一些词句歧义出现的原因,但却难以用于文本歧义分析,根本在于它忽略了作品和读者的互动性,即忽视了读者对句间、段间意义的理解。
2.2文本语义图式的互动性利用计算机解读文本歧义,也需要统计召回率的大小。
它的权值应该维持在一个特定范围之内。
权值过大,超出读者认文本排歧语义图式的自动获取与选择于屏方,杜家利YUPing-fang,DUJia-li鲁东大学汉语言文学院/外国语学院,山东烟台264025ChineseInstituteofLudongUniversity/ForeignLanguagesInstituteofLudongUniversity,Yantai,Shandong264025,ChinaE-mail:yupingfang68@126.comYUPing-fang,DUJia-li.Automaticreceptionandselectionofsemanticschemafortextualpresentationofambiguity.ComputerEngineeringandApplications,2007,43(31):169-171.Abstract:BymeansofadetailedanalysisofthedramaticallychangeablesituationinAFarewelltoArmsbetweenCVandTRR,thecorrectnessandrelevanceofthesemanticschemaraisedinthisarticleareverified.Itisprovedthatthereader-involvedtextualambiguitycanshowtheabilitytomotivatethedevelopmentofplot,andtheabilitybasicallyresultsfromtheautomaticallymatchingorderandreader-involvedchoicesofwrong-correctingmonitorsystembetweenareader’sexpectationsandtextualin-sightpoints.Keywords:text;ambiguity;TextualRecallRatio(TRR);semanticschema;Glostextualvalue摘要:通过对AFarewelltoArms中章节值和文本召回率值拉锯式攀升状态的分析,验证了文本排歧语义图式的正确性和相关性:具有读者参与的文本歧义推动了情节的发展,而这种推动源自于读者期待和文本顿悟点自动匹配的顺序性和读者纠错控制的选择性。
关键词:文本;歧义;召回率;语义图式;文位赋值文章编号:1002-8331(2007)31-0169-03文献标识码:A中图分类号:TP391基金项目:2006年教育部人文社会科学重点研究基地重大项目(No.06JJD740007)。
作者简介:于屏方(1971-),女,博士,研究方向:应用语言学;杜家利(1971-),男,硕士,研究方向:篇章语义学。
ComputerEngineeringandApplications计算机工程与应用1692007,43(31)ComputerEngineeringandApplications计算机工程与应用章节12…4041页码13…215217单词数量102119…15098句数212…617多音节数47…25L51.009.92…25.005.76H3.925.88…1.335.10fogindex21.976.32…10.534.35表1文本《永别了,武器》fogindex值一览表知理解能力,文本难以实现基本的可读性功能;权值过小,难以调动读者阅读兴趣,文本艺术性将难以保持。
文本歧义具有认知理解的顿悟性,是认知意识流的“语义短路”;对它的理解符合认知效应提取的顺序性,是缺省模式的破旧立新;读者理解过程中的语义纠错机制遇到认知顿悟点后能适时启动,既是先期理解的终结同时又是再次理解的开始[7]。
针对文本歧义特征,本文在Gagne[8]认知图式基础上,通过改进来分析文本歧义。
文本排歧过程主要是以“读者认知模式”为中心展开。
当“读者前期理解”和提取的认知原型模式对照相符时,读者会按照提取模式构想文本后续情节和结果,直到“文本顿悟点”出现。
“文本顿悟点”证明“读者前期理解”的错误性,并迫使读者认知纠错机制启动,使其返回到“提取、对照”阶段按照提取顺序重新确定,直到顺利通过“文本顿悟点”。
这种带来缺省模式破旧立新的顺序性,是利用计算机排歧的根本理论依据。
通过计算机进行文本排歧不光需要相对宏观的理论支撑,更需要具体量化,实现以其为辅助的“定性-定量-定性”的循环论证。
2.3验证文本语义图式的理论构建文体学开文本量化之先河,学者多尝试用公式展开讨论。
如AD=1fogindex=10.4(L+H)[9](1)AD(AccessibilityDegree)为语义接受度;fogindex是衡量英语词句难易的尺度;L指每句包含单词的量;H指每百单词所含多音节词的量(多音节词指屈折变化外3个或以上音节的单词)。
fogindex数值越高,接受度AD越低,产生歧义的可能就越高。
即,文本歧义与接受度AD成反比,与fogindex成正比例关系。
意识流通性CSC(ConsciousStreamCirculation)是指在理解文本时的语义实现程度,与文本歧义成反比例关系。
文本歧义是认知理解和语义变化现象,本身不具有数值标注的可能。
为了量化,设定文本召回率TRR(TextualRecallRatio)来代表歧义出现的频率值。
TRR=1AD×1CSC=[0.4(L+H)]×1CSC(2)章节值CV(ChapterValue)的递增是绝对值的递增,文位赋值GV(GlostextualValue)则是相对值的递增,两者乘积构成文本功能结构值TFSV(TextualFunction&StructureValue):TFSV=GV×CV(3)当TFSV增大时,文本内容增加,章节数量增大,读者语义调节不断变化,代表歧义变化的TRR值也增大,而读者理解文本的语义意识流通性CSC反而因为歧义存在而变小,即CSC与TFSV成反比例关系:CSC=1TFSV=1GV×CV(4)TRR量化公式可变化为:TRR=1AD×1CSC=(fogindex)×TFSV=[0.4(L+H)]×(GV×CV)(5)文本歧义是功能随着结构变化促使读者不断调整语义认知理解的过程。
因此,利用文本召回率和章节数作为纵横轴所形成的系统可用于分析章节递增所带来的文本歧义的动态变化。
3基于英语文本的量化运用文本排歧语义图式及理论公式属宏观研究,只有在具体运用中才能得到验证。
下面以世界图书出版社西安公司2000年出版的ErnestHemingway的AFarewelltoArms为样本进行文本排歧语料分析。
3.1fogindex值的计算AFarewelltoArms中L和H值采用统计学随机方法计算,即抽取奇数页最后100个词作为被试(以自然句为基准),然后根据公式(1)计算出fogindex值。
该文本共有41章,217个奇数页(含插图6页1),各章L、H和fogindex值取平均数。
根据公式(5)可知,在fogindex和CV值确定后,文位赋值GV则是唯一变量,它的变化决定文本召回率的值域。
3.2文位赋值(GV)的标注文位是义位在文本层面的具体体现。
文位赋值GV是表示功能的文位所代表的值。
文本中文位呈层级排列,表现主题的核心文位高居上层并统领各自分属文位。
如在AFarewelltoArms中“永别武器”和“永别爱情”主题形成两个上层文位并统领各自语义场。
随着文本推进,两场时有交叉,各文位所对应的功能值也发生变化,具体讨论如下:1、2章是铺垫,介绍文本的基本要素,赋值为1。
3、4章是文本的推进延长。
虽然主要人物开始出现,但仍属前期准备,赋值为3。
5-13章是情节发展的初级阶段,虽然也有小的情节变化,例如,初尝爱情、感受战争等,但这些相对两个主题来说都还是初级阶段,此间的爱情和战争情节也还是主题展现的初期,所以,将第5-13章赋值为5。
14-29章是故事发展的快速成长期,战争方面:腿伤愈合、奉命回营、目击撤退、身陷囹圄,每次都向永别武器主题推进;爱情方面:温情再现、感悟真谛、谈婚论嫁、直抵巅峰,每次都推动永别爱情主线发展,所以各章赋1插图页所有数值均为零。