【经管类】第六章 语料库研究方法概要
语料库与批判话语分析

语料库与批判话语分析语料库与批判话语分析引言:在当今社会,语言作为人类交流和思维的重要工具,对于理解和解释社会现象具有重要意义。
语料库语言学的兴起为研究者提供了大量真实语言数据,为批判话语分析提供了新的方法和视角。
本文将介绍语料库语言学的基本概念和研究方法,探讨其在批判话语分析中的应用,并分析语料库与批判话语分析相互关系的影响。
一、语料库语言学的基本概念和研究方法1.1 语料库的定义和特点语料库是指收集、处理和存储大量真实语言数据的电子数据库。
它具有大规模、现实性和多样性的特点,能够反映出语言的真实使用情况。
1.2 语料库的分类和构建方法语料库可以根据不同的目的和需求进行分类,如平衡语料库、话语语料库、专门领域语料库等。
在构建语料库时,可以采用手工收集和整理、网络爬虫自动获取和语音转文本等方法。
1.3 语料库语言学的研究方法语料库语言学主要运用计量分析和基于实例的方法,借助计算机技术和统计学手段,对语料库中的语言数据进行分析和研究,揭示其中的规律和特点。
二、批判话语分析的基本理论和方法2.1 批判话语分析的概念和发展批判话语分析是一种关注权力关系、社会结构和话语行为关联的研究方法,主要关注社会现象中的权力分配和话语实践的社会经济政治背景,揭示其中的潜在权力话语关系。
2.2 批判话语分析的理论框架批判话语分析可基于不同的理论框架进行研究,如弗洛伊德的精神分析理论、马克思主义和结构主义等。
这些理论框架提供了对话语背后的权力关系和语言运作机制的理解。
2.3 批判话语分析的研究方法批判话语分析采用定性和定量分析相结合的方法,结合问卷调查、访谈、观察和语料库分析等,揭示社会现象中的权力话语关系。
三、语料库在批判话语分析中的应用3.1 语料库对批判话语分析的启示语料库提供了大量真实的语言数据,对批判话语分析的理论和方法提供了有力的支持和证据。
它揭示了社会现象中的隐性权力话语关系。
3.2 语料库分析在话语权力分析中的作用通过对语料库中的话语进行分析,可以揭示权力话语在不同社会群体之间的分布情况,找出话语实践中的权力不平等现象。
语言学研究方法

语言学研究方法语言学是一门研究语言的学科,它涉及到语言的结构、历史、发展以及语言在社会中的作用等方面。
而要进行语言学的研究,就需要运用科学的方法和技巧来获取语言相关的数据,并进行分析和解释。
因此,语言学研究方法是语言学研究中至关重要的一部分。
首先,语言学研究方法中最常用的方法之一是田野调查。
田野调查是指语言学家深入到语言使用者的日常生活环境中,通过观察和记录语言使用者的语言行为来获取语言数据。
这种方法可以帮助语言学家了解语言的实际使用情况,包括语音、语法、词汇等方面的特点。
通过田野调查,语言学家可以获取到丰富的语言数据,为后续的研究提供重要的基础。
其次,实验研究也是语言学研究中常用的方法之一。
实验研究通常通过实验室控制变量的方法,来观察和测量语言现象,以验证某种语言规律或理论。
例如,语音学家可以通过实验研究来探究语音的产生机制,语法学家可以通过实验研究来验证某种语法规则的普遍性。
实验研究可以帮助语言学家深入理解语言现象的本质,揭示语言规律和规则。
此外,比较研究也是语言学研究中常用的方法之一。
比较研究通过对不同语言或不同语言现象进行比较,来揭示它们之间的共性和差异。
比较研究可以帮助语言学家了解不同语言系统的特点,推断语言的起源和发展,以及语言之间的相互影响。
通过比较研究,语言学家可以拓展对语言多样性和语言普遍性的认识,促进语言学理论的发展。
最后,语料库研究也是语言学研究中常用的方法之一。
语料库是指收集和整理的大规模语言数据的库,语言学家可以通过对语料库的分析来揭示语言的使用规律和特点。
语料库研究可以帮助语言学家获取到大量的语言数据,从而更加客观地了解语言的特点和变化。
同时,语料库研究也可以为语言技术的发展提供重要的支持和数据基础。
综上所述,语言学研究方法包括田野调查、实验研究、比较研究和语料库研究等多种方法。
这些方法各有特点,可以相互补充和印证,为语言学的研究提供丰富的数据和理论支持。
通过不断地探索和运用这些方法,可以促进语言学理论的发展,深化对语言的认识,推动语言学研究不断向前发展。
语料库研究基本方法PPT课件

几个常用术语 2
☺ Semantic prosody is instantiated when a word such as CAUSE co-occurs regularly with words that share a given meaning or meanings, and then acquires some of the meaning(s) of those words as a result. This acquired meaning is known as semantic prosody. (Stewart 2010)
第17页/共26页
语料库研究的基本方法 3
☺ Both approaches almost always involve a comparion of some kind.
第18页/共26页
语料库研究的基本方法 3
☺ Sizes of corpora in comparison (Rayson 2003)
is believing.
第2页/共26页
语料库语言学的性质 1
☺the Wax Argument: He considers a piece of wax; his senses inform him that it has certain characteristics, such as shape, texture, size, color, smell, and so forth. When he brings the wax towards a flame, these characteristics change completely.
第3页/共26页
语料库语言学的性质 1
语料库研究方法概述

语料库研究方法概述
2012 语料库与外语研究研修班
Explanatory research
–interrelationship between words
–IR between phraseologies –IR between genres
Method
– Compare & contrast the wordlist (of the observed text or corpus) against the wordlist of the reference text or corpus (larger);
– Observe and group the words within a classification framework;
2012 语料库与外语研究研修班
Descriptive research
–single text –text vs. text –people vs. text
语料库研究方法概述
2012 语料库与外语研究研修班
Research questions
1. How many different word forms are used in the text? How many running words are used? What is their distribution?
2012 语料库与外语研究研修班
基于语料库方法是一种验证程序 语料库驱动方法是一种发现程序
语料库研究方法概述
2012 语料库与外语研究研修班
理据:任何感知都是推断 Any perception is but inferencing.
国内语料库研究综述

国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。
通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。
本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。
关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。
自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。
近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。
本文将重点探讨国内语料库研究的现状、成果及未来研究方向。
研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。
随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。
目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。
2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。
在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。
在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。
在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。
然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。
例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。
此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。
3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。
专业的语料库语言分析

专业的语料库语言分析语料库是指大量收集并整理起来的自然语言文本资源的集合。
在语言学和计算机科学领域,语料库是进行语言学研究和自然语言处理的重要基础。
语言分析是对语料库中的文本进行系统地处理和研究的过程。
本文将探讨专业的语料库语言分析的方法和应用。
一、语料库的构建与特点语料库的构建是一个相对复杂的过程,需要采集、整理、标注和存储大规模的文本数据。
常见的语料库类型包括平行语料库(Parallel Corpus)、单语语料库(Monolingual Corpus)和特定领域语料库(Specialized Corpus)等。
语料库的特点有多样性、真实性和大规模性。
多样性指语料库中的文本来自于不同的语言、文体和主题领域,能够涵盖各种文本类型的特征。
真实性指语料库中的文本是真实的语言数据,具有一定的时效性和可靠性。
大规模性指语料库中包含大量的文本数据,可以提供足够的样本数量进行分析和研究。
二、语料库语言分析的方法专业的语料库语言分析需要结合语言学和计算机科学的方法和技术。
以下是一些常用的语料库语言分析方法:1.词汇频率分析通过统计语料库中词汇的频率和分布情况,可以了解到不同词汇在语言中的重要性和使用情况。
词汇频率分析可以对文本进行关键词提取、词汇排序和热点话题挖掘等。
2.搭配分析搭配是指一组词在语境中经常一起出现的现象。
通过对语料库中的搭配进行分析,可以了解到词汇之间的搭配规律和固定搭配的使用频率。
搭配分析可以帮助改进词汇的搭配选择和提高语言表达的准确性。
3.句法分析句法分析是对语料库中句子结构和语法关系的分析。
通过句法分析,可以了解到句子的句法结构、成分之间的关系和句法规则的应用情况。
句法分析可以帮助理解句子的语法结构和语义含义,对翻译、文法教学和机器翻译等领域具有重要意义。
4.样式分析样式分析是对语料库中文本样式和表达方式的分析。
通过样式分析,可以了解到文本的体裁和风格特点、修辞手法和篇章结构等。
样式分析可以帮助提高写作能力和文本理解能力,对文学研究和科技写作等领域具有重要价值。
语料库常用统计方法

语料库常用统计方法在当今信息爆炸的时代,语料库作为一种大规模的语言数据集,对于语言学研究、自然语言处理、翻译研究等领域都具有重要意义。
而要从海量的语料中提取有价值的信息,就需要运用各种统计方法。
接下来,让我们一起深入了解一些语料库常用的统计方法。
一、词频统计词频统计是语料库分析中最基础也最常见的方法之一。
简单来说,就是计算某个词在语料库中出现的次数。
通过词频统计,我们可以了解到哪些词在特定的语料中使用最为频繁,哪些词相对较少出现。
例如,在一个关于科技新闻的语料库中,“人工智能”“大数据”等词可能会有较高的词频,而在一个文学作品的语料库中,“情感”“风景”等词可能更常见。
词频统计不仅能帮助我们快速把握语料的主题和重点,还能为词汇的重要性排序提供依据。
为了进行词频统计,首先需要对语料进行预处理,包括分词、去除标点符号和停用词(如“的”“了”“啊”等常见但对语义影响不大的词)。
然后,通过编程语言(如 Python)中的相关库(如 collections 库)或者专门的语料库分析工具(如 AntConc),可以轻松实现词频的计算和排序。
二、词汇多样性统计词汇多样性是衡量语言丰富程度的一个重要指标。
常见的词汇多样性统计方法包括类符/形符比(TypeToken Ratio,简称 TTR)和标准化类符/形符比(Standardized TypeToken Ratio)。
类符指的是语料库中不同的单词,形符则是单词出现的总次数。
TTR 就是类符数量除以形符数量。
例如,一个包含100 个单词的文本,其中不同的单词有 50 个,那么 TTR 就是 05。
然而,TTR 会受到文本长度的影响,文本越长,TTR 往往越低。
为了克服这一问题,标准化类符/形符比通过对文本进行分段计算 TTR,然后取平均值来得到更稳定和可靠的结果。
词汇多样性统计对于比较不同作者、不同文体、不同语言的文本特点具有重要意义。
一般来说,文学作品的词汇多样性往往高于科技文献,而高水平的作者通常能够在作品中展现出更高的词汇多样性。
语料库研究综述

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:
(1)异质的(Heterogeneous):
没有特定的语料收集原则,广泛收集并原样存储各种语料;
(2)同质的(Homogeneous):
只收集同一类内容的语料;
(3)系统的(Systematic):
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二中国语料库建设的基本情况
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是19年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
B. 确定可靠的分类体系和操作方案
C. 选定或建立合适的语料库
D. 选定合适的语料库处理工具
E. 相关语言特征的标注和提取
F.
统计分析
G. 数据的解释
H. 得出结论
A. 提出研究假设
研究假设:是对有关自变量(independent variable)和因变量 (dependent variable)之间关系的一种预测(prediction)
G. 数据的解释
统计分析后,可以发现两个语料库之间存在显著差异 或某种相关性
结合理论和前人的相关研究成果,对所得数据作出解 释
对于同样的数据,不同的研究者基于不同的理论对数 据作出不同的解释,重在自圆其说。
H. 得出结论 结论一般只有两种可能性 假设成立或不成立
2. 语料库研究方法的局限性及研究创新
专用语料库处理工具:处理特定格式的语料库(如XML格式) 自行开发的专用语料库工具:特定研究目的
E. 相关语言特征的标注和提取
生文本(词汇、搭配、语义韵等) 自动或手工标注(词性标注、句法标注、错误标注等) 标注之后,提取相关特征所出现的频数、语境等相关
信息。频数分析是进一步分析的基础。
Smadja:又加入了搭配词的词性信息。 搭配统计需要计算:在线性序列中的位置分布;3)搭 配词与节点词在语法关系上的互相选择 问题:到这一步也只是能获得两个词的搭配序列(多 个词?)
5) CIA (Contrastive Interlanguage Analysis) A. 定义:通过对比本族语与学习者的英语运用,对比差异来判断 学习者的典型困难和不足,从而作为进一步补偿教学的依据。
C. 选定或建立合适的语料库
中国英语学习者语料库 英国国家语料库 比较:观察语料库(observed corpus)
参照语料库(reference corpus) *用于比较的两个语料库应该在尽可能多的维度上具有一
致性。(中国学生的英语作文与美国英语口语×)
D. 选定合适的语料库处理工具
通用语料库处理工具:功能全面,处理纯文本(AntConc, WordSmith Tools)
对语料库进行分析之前无任何假设 对语料库中的所有例证进行穷尽性分析和归类,得出
有关语言使用情况的假设乃至结论。 基本程序“观察—假设—归纳—理论整合” 探索/描述法(exploratory/descriptive)
2)基于语料库的方法(corpus-based approach)
A. 提出研究假设
例: 假设一:被动语态是学术英语的重要特征; 假设二:被动语态的使用频率与学习者作文的质量有关
B. 确定可靠的分类体系和操作方案
分类:同样的事物可以采用不同的分类方法 操作化:选择合适的方式对某种概念性的东西进行测量,进行量
化研究。适用于大多数实证研究。 例: 被动态可分为长被动结构(带by+施动者)和短被动结构 也可以按其中的助动词是否有be动词来分 The road is being repaired. He got injured in an accident.
由研究者根据以往的语言研究成果或对语言的认识,首先提出假 设,然后到语料库中去验证假设。
假设是否成立取决于语料库中的语言实例 一些传统的概念和理论被进一步验证或延伸 以概率为基础,是统计学和实证研究方法在语料库语言学领域的
具体应用 验证假设法(hypothesis-testing)
3)语料库驱动的方法(corpus-driven approach)
1)学科属性及定位问题 人文学科 or 自然科学 是否已达到独立学科的地位
2)语料库驱动方法 or 基于语料库的方法 以往语言学研究模式:我的思想、我的框架、我的例
子(例子为理论服务,甚至临时想出来一个) Sinclair主张“干净文本原则”,对语料附码不以为然 Tognini-Bonelli提出语料库驱动这一主张,排斥使用先
验的理论和分类框架进行语料库研究的方法,提倡从 语料中获得理论和分类依据
语
3) 语料库分析的层次及设计问题 目前研究:局限于词语及短语水平
话语 文本群落
文本 句子 词语、短语、音韵句法 形态
4)词语搭配统计及相关问题
(learn)
搭配词
共现频数
总频数
Z值
knowledge 136
489
34.693
第六章 语料库研究方法概要
1. 语料库研究方法简介
语料库语言学是20世纪50年代就流行的,以实证和统计为主要手 段的研究方法
根据研究中对语料库依赖程度的不同,分为:
1)语料库指导的方法(corpus-informed approach) 2)基于语料库的方法(corpus-based approach) 3)语料库驱动的方法(corpus-driven approach)
1)语料库指导的方法(corpus-informed approach)
Michael McCarthy在多年编写教学材料过程中,倡 导:对语料库进行分析,得到各种词语、搭配和结 构在预料库中的出现频率、使用场合、语体等信息, 然后在这些信息的指导下编写合适的教学材料。
2)基于语料库的方法(corpus-based approach)
we
538
8099
22.929
English
153
1170
22.335
to
403
9918
9.254
问题:只获得了在某一个设定的跨距内词语同现的大
致印象 ,无法确切知道某一个搭配词与节点词的横向
位置关系(位置、方向)。
u
Wordsmith Tools: 标注了每一个搭配词在节点词左右 位置上的分布。
F. 统计分析
卡方检验(不需标准化,也可比较) 对数似然率(不需标准化,也可比较) 相关性分析 频数标准化处理(normalization),得到标准化频率,然后进一步比较和分
析 聚类分析(cluster analysis) 对应分析(correspondence analysis) 相关分析(correlation analysis) 多元回归(multiple regression)