词汇分布语义的语言学基础分析

合集下载

语言学中的语义分析

语言学中的语义分析

语言学中的语义分析语义分析是语言学中的一个重要分支,旨在研究语言中的意义和语义关系。

它涉及到词汇、短语和句子的意义以及它们之间的联系。

通过语义分析,我们可以更好地理解和解释语言的含义,从而更有效地进行交流和沟通。

一、语义的定义和作用语义是指语言中的意义。

在语言学中,意义是指词语、短语和句子所传达的信息和概念。

语义分析的目的就是要揭示这些意义并研究它们之间的关系。

语义分析的重要性在于它可以帮助我们理解语言的含义,从而更好地理解和运用语言。

语义分析对于语言理解和交流至关重要。

当我们理解一句话时,我们不仅仅是理解其中的词汇和语法结构,更重要的是理解其所传达的意义。

例如,当我们说“我饿了”,我们并不只是在表达我们的饥饿感,而是在请求食物或寻求帮助。

通过语义分析,我们可以更准确地理解对方的意图,避免误解和混淆。

二、语义分析的方法和技术语义分析涉及到多种方法和技术,包括词义消歧、语义角色标注和语义关系分析等。

这些方法和技术旨在揭示语言中的意义,并将其转化为计算机可以理解和处理的形式。

词义消歧是语义分析的重要技术之一。

它解决了一个词可能有多个意义的问题。

例如,单词“银行”既可以指金融机构,也可以指河岸。

通过上下文和语境的分析,我们可以确定其具体的意义。

词义消歧在自然语言处理和机器翻译等领域有着广泛的应用。

语义角色标注是另一个重要的语义分析技术。

它旨在识别句子中的谓词和其相关的论元,并确定它们之间的语义关系。

通过语义角色标注,我们可以更好地理解句子的结构和意义。

例如,在句子“小明吃了一个苹果”,语义角色标注可以将“小明”标注为施事者,将“吃”标注为动作,将“苹果”标注为受事者。

语义关系分析是语义分析的另一个重要方面。

它研究句子中不同成分之间的关系,如动词和宾语之间的关系、名词和形容词之间的关系等。

通过语义关系分析,我们可以更好地理解句子的结构和意义,并进行更准确的语言理解和生成。

三、语义分析的应用领域语义分析在自然语言处理、信息检索、机器翻译等领域有着广泛的应用。

语义的名词解释语言学概论

语义的名词解释语言学概论

语义的名词解释语言学概论在语言学领域中,语义是指语言单元(例如词汇、短语和句子)所携带的意义。

它研究语言中的意义如何被表达、理解和解释。

通过分析语义,我们可以更好地理解语言的含义和功能,从而揭示人类在沟通中的思维方式和意图。

首先,语义与词汇密切相关。

词汇是语言中最基本的意义单位,而语义则涵盖了词汇的含义以及它们之间的关系。

举个例子,单词“apple”在英语中表示“苹果”。

这个含义是通过人们共同理解和约定形成的,因此,语义研究关注的是词汇与其指称之间的联系。

另一个与语义密切相关的概念是语义角色。

语义角色是一种揭示谓词和句子成分之间关系的框架。

它帮助我们理解动作是由哪个实体执行的,以及动作的影响对象是谁。

比如,在句子“Mary ate an apple”,谓词“ate”表示动作,它的语义角色包括“主语”(Mary)和“宾语”(apple)。

通过分析语义角色,我们可以更准确地理解句子的语义结构。

此外,语义还涉及到概念与认知之间的关系。

概念是人们对客观事物的心理表示,而在语言中,概念通过词汇和句子来表达和传达。

通过研究语义,我们可以了解人们是如何通过语言来构建和传递各种概念的。

概念与语言之间的相互作用关系使得语义成为理解人类思维和语言的重要途径。

在语义研究中,还有一些重要的理论和方法。

其中之一是逻辑语义学,该理论探索语言中的逻辑关系,研究推理和说理。

逻辑语义学通过形式化的方式来描述和分析句子的真值条件,从而系统地研究语义。

另一个重要的研究方法是语义分析。

语义分析是通过计算机技术和自然语言处理来解析和理解语言的意义。

通过自动地处理和分析大量的语言数据,语义分析可以帮助我们更深入地理解语言的含义和用法,从而在自然语言处理、机器翻译和信息检索等领域得到应用。

最后,语义的研究还涉及到跨文化和语言之间的比较。

不同的语言和文化对于事物的理解和分类方式可能存在差异,这也影响了语义的表达和理解。

通过比较不同语言之间的语义系统,我们可以了解人类对世界的不同认识方式,拓展我们对语义的认识。

《语言学概论》复习知识点——汇总

《语言学概论》复习知识点——汇总

《语言学概论》复习知识点——汇总一、语言学的定义与研究对象1.语言学的定义及与其他学科的关系2.语言的定义与特点3.语言学的研究对象:语言符号、语音、词汇、语法、语义、语用等二、语音学1.音素与音素的分类2.语音的基本概念:发音器官、发音过程、音素与音位等3.语音的分类与描述方式:音库、国际音标等4.语音变体:音位变体、变体规律等三、词汇学1.词的定义及词的层次结构:词汇、形态、语素等2.词的分类:实词与虚词、实词的分类等3.词的构成过程:派生、复合、转化等4.词义与词义关系:同义、反义、上下位、隐喻、类比等5.词的语法功能:词类、语法关系等四、语法学1.句子的定义与分类:从句、疑问句、陈述句等2.句法的基本概念:短语、成分、汉语的基本句型等3.句法关系与句法结构:并列、从属、修饰等4.句法规则与句法分析:形式语法、语义角度的句法分析等5.语法现象的分析与解释:形式语法与功能语法的对比、语法规则、语法的普遍性、语法的可及性等五、语义学1.语义的定义与特点2.词义的构成与分类:词汇意义、语法意义、逻辑意义、上下文意义等3.语义关系与语义角色:同义、反义、上下位、隐喻、类比、关联等4.语义现象的分析与解释:语义成分的划分与关系、语义的可及性、语义的派生与转化等六、语用学1.语用学的定义与研究领域2.语言交际与语言交际行为:意图、目的、合作原则等3.言外之意与言外之行:言外之意的表示方式、言外之行的示例等4.语用现象的分析与解释:语言行为、语用规则、语用的多样性等七、语言学研究方法与分支学科1.语言学研究的方法论:描述性研究、实证研究等2.语言学的分支学科:应用语言学、对比语言学、历史语言学、社会语言学等3.参考书目和领域动态:《现代语言学导论》、《实用语义学》、《语法学》等这些都是《语言学概论》中的重要知识点,希望以上内容对您的复习有所帮助。

语言学中的语义学与句法分析

语言学中的语义学与句法分析

语言学中的语义学与句法分析语言是人类交流的重要工具,通过语言可以传达信息、表达思想、分享知识。

而语言学作为研究语言的学科,涵盖了许多不同的领域,其中包括语义学和句法分析。

本文将探讨语言学中的语义学和句法分析,并探讨它们在理解和分析语言中的重要性。

一、语义学:理解语言的意义语义学是研究语言中词汇和句子意义的学科。

它关注的是语言中的意义构成和表达方式。

在语义学中,有两个重要的概念:词汇语义和句子语义。

1. 词汇语义词汇是语言中的基本单位,每个词汇都有其独特的意义。

词汇语义研究的是词汇的意义,包括词的定义、义项、义域等。

例如,词汇“猫”表示一种动物,而词汇“跑”表示一种动作。

通过研究词汇的意义,我们可以理解和解释词汇在句子中的作用和意义。

2. 句子语义句子是由词汇组成的,而句子语义研究的是句子的意义。

句子意义的构成涉及到句子中各个词汇之间的关系和句子的结构。

句子语义的研究可以帮助我们理解句子的真实含义,而不仅仅是字面意义。

例如,句子“他是个天才”可以理解为对某人的赞美,而不仅仅是字面上的描述。

语义学的研究方法包括语义分析、语义关系的建立和语义推理等。

通过语义学的研究,我们可以更好地理解和解释语言中的意义,从而更好地理解和使用语言。

二、句法分析:揭示语言的结构句法分析是研究句子结构和句子成分之间的关系的学科。

它关注的是句子的组成和句子中各个成分的作用。

句法分析的目标是揭示语言的结构和规则,从而帮助我们理解和分析句子的组成和意义。

1. 句子结构句子结构是指句子中各个成分之间的关系和顺序。

句子结构可以通过语法规则和句法树来表示。

语法规则是描述句子结构的规则,而句法树是通过树状图的形式来表示句子结构的工具。

通过句子结构的分析,我们可以了解句子中各个成分的作用和关系。

2. 句子成分句子成分是构成句子的基本单位,包括主语、谓语、宾语等。

每个句子成分都有其特定的语法角色和功能。

通过句子成分的分析,我们可以理解句子中各个成分的作用和意义。

语言学中的语义理解与语言表达研究

语言学中的语义理解与语言表达研究

语言学中的语义理解与语言表达研究语义理解与语言表达是语言学中两个重要的研究方向。

语义理解涉及对语言中词汇和句子的含义进行分析和解释,而语言表达则关注如何通过语言传达准确的信息和意图。

本文将分别介绍语义理解和语言表达在语言学研究领域的重要性以及相关的研究方法和应用领域。

一、语义理解在语言学中的重要性语义是研究语言意义的学科,语义理论主要解决的问题是如何描述和解释语言单位(词、句子)的意义。

语义理解对于理解和解释语言的含义、进行有效的交流和沟通起着重要的作用。

1.1 词汇语义理解的研究词汇是语言中最基本的语义单位,词汇语义理解研究是语义学的重要组成部分。

通过分析和解释词汇的意义,可以帮助我们理解句子和段落的意义。

传统的词汇语义理解方法主要基于词典和语境进行解释,但随着语义计算和自然语言处理的快速发展,如今也可以利用机器学习和人工智能等技术进行自动的词汇语义理解。

1.2 句子语义理解的研究句子是语言中的基本单位,句子语义理解是语义学的关键研究方向。

句子的语义理解涉及对句子含义的分析和解释,包括句子的逻辑结构、语法成分和语义关系等。

句子语义理解的研究可以应用于机器翻译、信息检索和自动问答等领域,提高机器对语言的理解能力和语义推理能力。

二、语义理解的研究方法语义理解的研究方法主要包括语义分析、语义推理和语义表示等。

2.1 语义分析语义分析是语义理解的基础,通过分析语句的语法成分和上下文语境,确定句子的语义含义。

语义分析方法包括结构分析、语义角色标注和词义消歧等。

结构分析通过分析句子的句法结构,确定句子中词语之间的语法关系;语义角色标注则通过标记句子中的语义角色,如施事者、受事者和动作等;而词义消歧则是通过上下文推断词语的具体意义。

2.2 语义推理语义推理是指通过推理和推断,从已知信息中推导出新的语义信息。

语义推理方法包括逻辑推理、推理规则和神经网络等。

逻辑推理主要基于逻辑学原理,运用比较直观的推理规则进行推理;推理规则则是根据已有语义知识和规则,通过推理推导出新的语义信息;而神经网络则通过构建复杂的神经网络模型,从大规模数据中学习和推理语义信息。

语言学基础知识点

语言学基础知识点

语言学基础知识点语言学是对人类语言的系统性研究,涉及语言的结构、使用和习得等方面。

它是一门复杂而精密的学科,需要掌握一系列基础知识点。

本文将介绍语言学的基础知识点,包括语言分类、语音学、语法学和语义学等内容。

一、语言分类语言是人类与世界沟通交流的工具,按照语言之间的关系,可以将语言分为以下几类:1. 语系分类:语系是指由共同祖源的语言所构成的系统,常见的语系有汉藏语系、印欧语系、阿尔泰语系等。

2. 语族分类:语族是指由同一远古时期的原始语所发展而来的一组语言,常见的语族有汉藏语族、印欧语族、阿尔泰语族等。

3. 语支分类:语支是指在一个语族内具有一定程度关系的一组语言,比如在汉藏语族中,汉语是其中的一个语支。

4. 语言类型分类:根据语言的语法结构,可以将语言分为屈折语、孤立语、辅助语等类型。

二、语音学语音学是研究语音的学科,包括音位、音韵和音系等内容。

1. 音位:音位是指在一种语言中能够区分意义的最小语音单位。

不同语言的音位差异很大,比如汉语有四个声调,而英语则没有。

2. 音韵:音韵是指研究语音的组织和规律的学科,包括音位的组合、音变规律等。

3. 音系:音系是指一个语言中所有音位的总体组织结构,可以通过音标来表示。

不同语言的音系差异很大,比如英语和法语的音系就有很大的不同。

三、语法学语法学是研究句子结构和组织的学科,包括句法、词法和语用学等内容。

1. 句法:句法是研究句子结构的学科,包括短语结构、句子成分等。

不同语言的句法结构也有很大差异,比如汉语的主谓宾结构,英语的主谓宾结构。

2. 词法:词法是研究词的形态和构词规律的学科,包括词的分类、词性等。

不同语言的词法规律也有所不同,比如汉语的词性很多,英语的词性相对简单。

3. 语用学:语用学是研究语言使用的学科,包括语境和语用的关系、指称和概括等。

语用学关注的是语言的真正意义和用途。

四、语义学语义学是研究词义和句义的学科,包括词义学和句义学等内容。

1. 词义学:词义学是研究词的意义和用法的学科,包括词义的构成、词汇关系等。

语义特征分析法

语义特征分析法
Word2Vec
通过训练神经网络,将词转化为固定维度的向量,形成语义特征。
特征匹配与分类
相似度匹配
比较文本间的相似度,如余弦相似度、 Jaccard相似度等。
分类器
使用机器学习算法对文本进行分类, 如朴素贝叶斯、支持向量机、神经网 络等。
结果评估与优化
01
准确率、召回率、F1值:评估分类结果的性能指标。
深度学习技术可以结合传统的语义特征分析 方法,形成更为强大的语义特征分析模型, 提高语义特征分析的精度和泛化能力。
深度学习技术还可以应用于多模态 语义特征分析,将不同模态的数据 进行融合,进一步提高语义特征分 析的准确性和全面性。
多模态语义特征分析
多模态语义特征分析是指将不同 模态的数据进行融合,以提取更
产品评价
02
分析用户对产品的评价和反馈,了解产品的优点和不足之处。
品牌形象评估
03
评估品牌在公众心目中的形象和声誉,为企业决策提供依据。
06 语义特征分析法的未来发 展与挑战
深度学习与语义特征分析法的结合
深度学习技术为语义特征分析提供了强 大的工具,能够自动提取高层次的语义 特征,提高了语义特征分析的准确性和 效率。
02
采用分布式计算和并行化技术 可以提高大规模语义特征分析 的计算效率和可扩展性。
03
利用高效的降维技术和特征选 择方法可以降低大规模语义特 征分析的维度和计算复杂度, 提高分析效率。
THANKS FOR WATCHING
感谢您的观看
02
交叉验证:通过将数据集分成训练集和测试集,评估
模型的泛化能力。
03
特征选择与优化:根据性能指标,选择或优化特征,
提高分类效果。

6语言学概论第五章语义和语用提纲

6语言学概论第五章语义和语用提纲

6语⾔学概论第五章语义和语⽤提纲第五章语义和语⽤【内容简介及重点】主要要掌握词义的聚合和组合的种种情况,要能通过具体的材料认识并正确运⽤词汇的⼀般特点。

第⼀节词汇和词义⼀词和词汇1.1 词汇1.1.1 概念(1)词汇是⼀种语⾔中词的总汇,是语⾔的建筑材料。

不同语⾔的词汇系统各⾃独⽴,有⾃⼰的特点。

因为:a.什么样对意义与什么样地语⾳结构在⼀起构成⼀个词,在不⽤语⾔的词汇中是不同的。

b.⼀个词可以只有⼀个意义,但也可以有⼏个意义。

c.甲语⾔中⽤⼀个词来标志的⼀定范围的事物,在⼄语⾔中却要⽤两个或两个以上的词来分别标志;反过来,⼄语⾔的⼀个词所标志的事去在甲语⾔中却要⽤词的组合来标志。

(2)词是⼀种语⾔建筑材料的单位,也就是造句时能⾃由运⽤的最⼩单位。

词是构成语⾔词汇的单位。

(3)语⾔的词汇可以分成基本词汇和⼀般词汇两⼤部分,⽽“语⾔的词汇中的主要东西就是基本词汇”。

从表达概念意义的⾓度看,⼀种语⾔词汇的范围要⼤于词的范围。

1.1.2 基本词汇(1)语⾔中有这样⼀些词,它们标志着与⼈们世世代代的⽇常⽣活关系密切的事物,如⽇常接触的⾃然现象、⼈的器官和肢体、亲属、⽅位和时令、数⽬、某些劳动⼯具以及与⽇常⾔⾏有关的现象等等。

(2)基本词的特点全民常⽤,稳固,有构词能⼒是基本词汇的主要特点。

(3)斯⽡迪⼠核⼼词斯⽡迪⼠核⼼词列表(Swadesh list),是由美国语⾔学家莫⾥斯·斯⽡迪⼠在1940年代到1950年代提出的⼀个列表。

他从统计学的⾓度⽤分析不同的语⾔(以印欧语系语⾔为主),从⽽得出⼀个约莫有200字的核⼼词列表。

他认为,基本上所有语⾔的词汇都应该包含这⼆百多个词语;⽽另⼀⽅⾯,只要认识这⼆百多个词语,亦可以利⽤该种语⾔作最基本的沟通。

1.1.3 ⼀般词汇语⾔词汇中的基本词汇以外的词构成语⾔对⼀般词汇。

(1)特点与基本词汇相⽐,⼀般词汇的特点是:它不是全民性常⽤的,或者虽然在短时期内为全民所常⽤,但不稳固,它所包括的词⼀般没有构词能⼒或构词能⼒⽐较弱。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

词汇分布语义的语言学根底分析一、引言自然语言处理是人工智能领域极其重要也极具挑战的争论方向,属于计算机科学与语言学的穿插学科。

它将抽象的人类语言转换成适合计算机处理的形式,从而建立语言、学问与客观世界之间的可计算关系。

自然语言处理的核心,是让机器具备理解各种语言形式〔词汇、短语、句子、篇章等〕内在含义的力气。

词汇是自然语言的根本单位,词汇的语义表示因此也成为自然语言理解的根本问题之一。

传统上,人们承受人工构建语义词典和语义学问库的方式来表达词汇语义①。

但人工标注的方式本钱昂扬,掩盖面亦有限,难以获得大规模高质量的标注数据。

随着深度学习技术的进展和文本数据的爆炸式增长,利用机器学习算法在大规模语料上对词汇表示进展抽象和学习,成为当前词汇语义表示的主流方法。

这种表示方法又称分布语义,它通过对语料的学习,将符号表示的词汇转化为数学表示的向量,使得词汇具有语义可计算的力气,已经在智能搜寻、语音识别、机器翻译、诗歌创作、古文断句、信息过滤、意图理解等领域得到了广泛使用②。

尽管词汇分布语义在应用上取得了很大的成功,然而也应当看到,对其背后的语言学机理,我们还缺乏全面的生疏。

我们要问,这种通过对语料的学习而自动获得的分布语义,本质上是一种什么样的语义?它能否涵盖词汇的完整意义?这种语义表示的潜力和局限又是什么?我们认为,要答复这些问题,需要结合相关的语言学理论来深化思考。

本文试图从语言学学说史的角度打量词汇分布语义的理论根底,并以在海量《人民日报》语料库上训练得到的词汇分布语义作为实证分析的依据③,以厘清词汇分布语义在自然语言处理领域的潜力和边界,并为自然语言理解模型的构建和应用供给的思路。

二、意义即使用:词汇分布语义的语言哲学根底词汇的意义理论是语言哲学的两个根本问题之一④。

什么是词义?对这个问题的争论,最早可追溯至古希腊时期对“词”与“物”的关系之辩,即名实之争。

“逻各斯〔logs〕”学说的提出者,古希腊哲学家赫拉克里特〔Heraclitus〕主见“本质说”,认为名称与它所代表的事物之间的联系是不行分割的,名称包含了事物的本质⑤。

与此相反,德谟克里特〔Democletus〕主见“商定说”,认为名称与事物之间的联系并非由事物的本质打算,而是商定俗成的⑥。

后来柏拉图〔Plato〕在他的《对话录》中提出了“语词是命名〔naming〕”的折中观点,认为事物的意义在于名称和事物之间的自然联系,但这种内在联系会随着时间推移而减弱。

柏拉图的同学亚里斯多德则坚决主见名实分别,认为名称不是自然赐予的,而是商定俗成的具有意义的声音,在成为一种符号时才成为名称⑦。

公元二世纪语言学的亚历山大里亚学派〔theAlexandrians〕也传承了这一观点⑧。

古希腊哲学家关于名实关系的争论,对中世纪以后的语言哲学学说,产生了极其深远的影响。

意义的指称论〔referentialtheoryofmeaning〕即秉持“商定说”的名实分别观点,认为词的意义就是词所指的对象。

近代英国哲学家、规律学家密尔〔l〕把名称分为专名和通名,其中通名既有外延又有内涵,外延表示所指称的事物,而内涵表示所指事物的特性,即意义⑨。

德国哲学家弗雷格〔G.Frege〕进一步进展了指称论,在1892 年发表的《论意义和所指》一文中,弗雷格对符号的意义和所指〔一译“意谓”〕做了明确区分。

他以望远镜观看月亮来比方:月亮是所指,望远镜物镜中的影像是意义,视网膜上的图像是意象,意义介于所指和意象之间,既不是所指对象本身,也不像意象那样主观,而是一种客观的存在⑩。

指称论的另一位代表人物罗素〔B.A.W.Russell〕则提出,应将语词分为专名和摹状词,专名的意义就是所指称的对象,摹状词的意义由所组成的语词的意义确定輥輯訛,罗素的意义理论被称为“规律指称论”,并深刻影响了他的同学维特根斯坦,早期维特根斯坦就认为,名称和对象之间存在直接的对应关系,名称所指的对象就是名称的意义輥輰訛。

由上可知,指称论者虽然在具体观点上有所差异,但都主见语言是对世界的反映,词汇的意义在于所指称的世界中的事物。

但是,指称论是以名称为范例来对待词汇的,而词汇并不都是名称,很多词汇的意义,要依据上下文甚至社会语境才能确定。

后期维特根斯坦就否认了自己早期的指称论观点,在后期著作《哲学争论》中,他提出“意义即用法”的观点,他说:“一个字词的意义是它在语言中的用法。

”輥輱訛例如,作为路标的箭头符号之所以能够指路,是由于人们使用它,依据它的指向行走,正是使用赐予箭头符号以意义。

依据维特根斯坦的观点,词汇的意义受到语言使用规章的制约,因此必需争论语言玩耍的规章,这种思路被称作意义的使用论〔usetheoryofmeaning〕,并直接促使人们对词的用法进展阅历性争论。

意义的使用论被多个语言学派所吸取和承受,但“使用”这一概念过于空泛,不少语言学家给出了更为明确的关于“词义”的阐述。

语言学伦敦学派的创始人弗斯〔J.R.Firth〕说:“词汇的意义取决于搭配”,认为意义存在于词汇消灭的上下文之中,上下文可以挂念理解词义。

輥輲訛英国语言学家克鲁斯认为:“一个词项在各种语境中遇到的全部正常关系称为它的语境关系〔contextualrelations〕,…,词的意义是由它的语境关系构成的。

”輥輳訛用词的上下文信息来表达词的意义,与传统语义学和乔姆斯基〔A.N.Chomsky〕的生成语法理论形成了鲜亮比照,但在实践中却有很强的可操作性。

我们以汉字“埙”为例,假设一个人并不清楚这个字的含义,但告知他这个字在如下的文本中消灭輥輴訛:〔1〕正是周敏在城墙头上吹动了埙,声音沉缓悠长,呜呜如夜风临窗。

(贾平凹《废都》)〔2〕它的外形有椭圆形、圆形、橄榄形不等,大多由陶土烧制而成,所以又叫陶埙。

〔华社闻文本〕〔3〕假设不会吹笛,埙和箫都成,曲风应是悠扬轻远的。

〔剧本《武林外传》〕那么,依据“埙”这个词在上下文中的分布,不难推断出它的意义:“一种陶制的吹奏乐器”。

由此可见,假设给定足够多的上下文,就能够利用分布统计方法来刻画每个词的含义。

词汇分布语义各种模型的根本思想,正是通过机器学习算法来学习词汇在大规模文本语料中的分布模式,从而获得词汇的语义表示。

在各具特色的词汇分布语义学习模型中,Word2Vec 神经网络模型是较有影响力的一种輥輵訛。

本文承受Word2Vec 的Skip-Gram 算法对《人民日报》语料进展训练,然后将得到的词向量降到3 维〔原参数设为256 维〕,再检索“埙”的语义近邻分布,结果如以下图1 所示。

由图1 中词汇的空间分布,可以得到更多关于“埙”的语义学问,例如,由“编钟”、“篪”、“古琴”、“青铜器”等近邻词可以推断,“埙”应是一种远古乐器。

可见,词汇分布语义实质上是通过词汇在空间中的位置来表达语义的。

自然语言本质上是符号化的,而在分布表示框架下,符号表示的词汇最终被转换成了数学表示的向量,这种转换具有格外重要的意义,由于在转为数学向量之后,词汇语义变得可计算甚至可推理了。

例如,通过向量计算,可以觉察“埙”与“箫”的距离要明显小于它与“架子鼓”的距离,也就是说,“埙”在语义上要更接近“箫”。

同时,这种语义距离还具有可推理的性质,例如,通过计算,我们可以得到类似于“吹奏乐器-埙=打击乐器-架子鼓”这样的语义推理结果。

那么,通过空间距离来表达词汇语义,是否符合人类对概念的认知规律呢?我们可以从认知语言学的角度对待这个问题。

温格乐〔F.Ungereer〕认为,概念构造是体验性的〔embodied,一译“具身”〕,语义的形成,很大程度上源于我们的身体体验輥輶訛。

认知语言学的代表人物莱考夫〔koff〕指出,隐喻是人类语言的普遍现象,是人类认知和思维的本质輥輷訛。

格雷迪(E.J.Grady)的根本隐喻理论认为,儿童在概念认知的早期,能学会数百个可被辨识的根本隐喻,根本隐喻又进一步构成了简洁隐喻輦輮訛。

莱考夫总结分析了约50 条根本隐喻,其中格外重要的一条就是“相像是近〔similarityiscloseness〕”,该隐喻是人类对挨近的相像对象进展观看而获得的根本阅历,说明人类的思维会将实体概念映射到空间,而相像的概念在空间中的距离也相近輦輯訛。

莱考夫认为,人类正是通过“相像是近”这一根本隐喻来进展概念层面的抽象思维。

由此可见,用词汇在向量空间中的位置来表示词汇,用词汇间的空间距离来表示词汇的语义相像度,可以从认知语义学中找到理论依据。

三、句段与联想:词汇分布语义的两类上下文词汇分布语义通过空间距离表达语义相像程度,而这种距离正是通过对词汇在语料中的“使用”模式进展统计,由学习模型自动习得的。

因此,有必要打量词汇的“使用”指的是什么?以及对“使用”的不同定义得到的词汇语义有何区分?瑞士语言学家索绪尔〔F.D.Saussure〕是现代语言学的奠基者輦輰訛。

索绪尔认为,语言是一套具有价值的符号系统,符号的价值在于对不同功能的区分,而这种区分是不能脱离系统而存在的。

依据索绪尔的观点,作为语言符号系统的一局部,词汇不仅具有意义,而且具有价值,词汇的价值由它与其他词的关系打算,索绪尔将这种关系分为两类:句段关系和联想关系輦輱訛。

句段关系是指话语中各个要素挨序排列结成的线条性关系,其特征是有序的,在现场的〔法语inpraesentia〕輦輲訛,例如,语词中构字成词,连词成句,集句成段等都属于句段关系;联想关系的特征是无序的,非现场的〔法语inabsentia〕,可替换的輦輳訛。

下面以一个简洁例子来说明句段关系和联想关系,如以下图2 所示。

在这个例子中,“李白”和“诗人”属于句段关系,“李白”和“杜甫”则属于联想关系。

索绪尔指出,整个语言机构都无外乎对这两种关系的运用。

从这个角度来看,词汇分布语义模型对语义的学习,最终可以归结为对这两种关系的学习。

句段关系是词汇的横向组合,通过对固定的语言单元内〔如句子、段落、篇章〕词汇的共现关系〔co-occurrence〕的建模,可以刻画词汇的分布语义。

例如,我们统计词汇在上述3 个句子中的共现次数,如下表1 所示。

不难看出,“李白”和“诗人”的共现频率最高,因此语义上更为接近。

具有联想关系的词汇不在同一现场共现,但具有相像的上下文语境,且一般能够相互替换。

例如,我们依据上述语料可以构建一个词词共现矩阵,如下表2 所示。

可以看出,“李白”和“杜甫” 虽然不在同一个句子中消灭,但拥有相像的上下文〔即“唐代、诗人”〕,因此语义相像度较高。

固然,上述例子仅是一个简洁例如,但假设依据海量的语料来构建词汇的共现矩阵,无疑可以表达更为丰富全面的语义。

这个共现矩阵的规模通常会很大,潜语义分析、非负矩阵分解、典型相关分析等自然语言处理领域的分布语义技术,通过不同的途径对共现矩阵进展降维,从而得到词汇的潜在分布语义。

相关文档
最新文档