语料库研究基本方法
专业的语料库研究方法

专业的语料库研究方法在语言学和应用语言学领域,语料库研究方法被广泛应用于研究语言的使用、语言变化、语言习得等方面的问题。
语料库是指由大量的语言样本组成的电子化语言数据库,通过收集、整理和分析这些语言样本,语料库研究方法可以提供大量准确的语言数据,从而更好地揭示语言的规律和特点。
本文将介绍一些专业的语料库研究方法,帮助读者了解如何有效地利用语料库进行语言研究。
一、语料库建设与管理语料库的建设是语料库研究的第一步。
首先,需要确定研究的范围和目标,确定应收集的语言样本类型,比如口语、书面语、特定领域的语言等。
然后,可以通过采集实地语料或者利用网络语料等方式进行数据收集。
数据收集过程中,需要注意样本的多样性和代表性,以确保语料库的可靠性和有效性。
建立好语料库后,需要进行合理的管理和组织。
可以采用专业的语料库管理软件,如AntConc、WordSmith等,对语料进行整理和归类。
同时,为了方便后续的检索和分析,可以为语料库添加标注和元数据,如句子划分、词性标注、句法分析等。
二、语料库中的数据分析方法1. 频率分析频率分析是语料库研究中最基本的分析方法之一。
通过统计语料库中的词频、短语频率等信息,可以揭示语言的常用词汇、固定搭配等规律。
常用的频率分析工具包括词频统计、共现分析等。
2. 语篇分析语篇分析是对语料库中篇章结构和语用特点的分析。
可以通过查看语料库中的句子、段落等单位,分析其结构、主题线索、修辞手法等,从而揭示语言的篇章结构和文体特点。
3. 跨语言比较语料库研究方法也可以用于跨语言比较。
通过对不同语言语料库的对比分析,可以揭示不同语言间的差异和相似之处。
这种比较可以是同一类型语料的对比,也可以是不同类型语料的对比,如中英文的比较。
4. 语言变化分析语料库研究方法还可以用于研究语言的变化。
通过收集不同时期的语料库数据,可以比较不同时期的语言使用情况,揭示语言的历史演变和变化趋势。
此外,也可以通过语料库研究方法分析语言的变异现象,如方言、社会语言等。
基于语料库和 语料库驱动的研究方法

分歧与前景展望
The neo-Firthians: aim to build theory from scratch, completely free from pre-corpus theoretical premises; base theories exclusively on corpus data; often reject corpus annotation (as a precorpus theoretical commitment).
‘Corpus-as-theory’: corpus linguistics is a separate sub-field of linguistics and that there is no role in corpus linguistics for theories of language that do not emerge from the study of corpus data.
语料库研究方法的起源
语言研究方法 基于直觉:理性主义的方法 内省数据 基于实证:经验主义的方法 诱发数据 真实数据
基于语料库的研究方法
University College London Univ. of Lancaster, Univ. of Oslo, Univ. of Bergen The Survey of English Usage (1950’s) London-Lund Corpus (Svartvik 1990), LOB, FLOB, Frown, BNC, ICE B. Aarts, J. Aarts, Aijmer, Baker, Biber, Greenbaun, Johansson, Leech, Mair, Quirk, Svartvik Methodologists
语料库研究方法在话语研究领域的应用综述

2252020年42期总第534期ENGLISH ON CAMPUS语料库研究方法在话语研究领域的应用综述文/孟 莹话语研究提供一些参考意见。
一、语料库与话语研究的核心特征许家金在其著作《语料库与话语研究》中指出,语料库研究的核心特征可概括为“用”“量”“器”“聚”四个方面。
“用” 即尊重语言事实和关注用法。
语料库研究以对语言使用的充分描写为根本。
“量”主要是指需要通过“量化”的分析方法进行语言学研究。
“量”在统计上,主要通过频次得以体现。
根据语料库研究的基本思想,语言属于概率性现象。
Halliday认为概率性是对语言实例的模仿,也是一种理论构念,并且这种构念体现为一种“聚合”或是“共现”关系,我们称之为“聚”。
不论是语言成分之间的关联,还是语言成分与社会学变量之间的共选关系,最终都要通过概率统计以及语料库分析工具来揭示,即“器”。
在这四项特征中,“用”“量”“器”涉及语料采集、语言特征的量化统计分析及语料库工具的运用,它们都与研究方法紧密相关,而“聚”则体现语言学理论的最终归宿。
话语研究现已成为一个独立的语言学分支学科,批判性话语分析学者倡导使用“话语研究”(discourse study)这一概念来代替“话语分析”(discourse analysis)。
The Handbook of引言语料库研究与话语研究之间存在天然的亲和力和兼容性。
不难发现很多语料库学者同时也是话语研究专家,例如Paul Baker、Douglas Biber、Michael Hoey等。
究其根本,语料库与话语研究都关注自然语言,并且都将语义研究作为重要目标。
语料库和话语研究的融合,一方面能为揭示话语意义提供丰富的语言例证和强大的分析方法;另一方面,语料库中的词汇共现、语言特征共现等创新思路为话语研究增添了理论维度。
另外,在语料库领域的代表性期刊International Journal of Corpus Linguistics 和Corpora 上总能见到较多的话语研究论文,而在话语语用研究期刊Discourse Studies 和Journal of Pragmatics 上,也有相当比重的研究采用的是语料库方法。
语言的语料库建设:利用语料库进行语言研究和教学

03
利用语料库进行语言研究
基于语料库的词汇研究
词汇的统计与分析
• 词频:统计词语在语料库中的出现次 数 • 词性分布:分析词语在不同词性中的 分布情况 • 词汇搭配:研究词语之间的组合关系 和搭配规律
词汇的变异与演变
• 词义变异:分析词语在特定语境中的 意义变化 • 词形演变:研究词语在不同历史时期 的形式变化 • 词汇创新:探讨新词的产生、发展和 传播过程
DOCS SMART CREATE
语言的语料库建设:利用语料库进行语言研究 和教学
CREATE TOGETHER
DOCS
01
语料库的基本概念与重要性
什么是语料库及其发展历程
01
语料库的定义
• 语料库是一个大型、有代表性的 文本集合 • 用于语言研究、教学和自然语言 处理等领域
02
语料库的发展历程
语料库的整理与标注
语料库的整理方法
• 数据分类:将文本数据按照主题、体裁、来源等进行分类 • 数据存储:将整理好的数据归档、备份,便于后续使用 • 数据维护:定期更新、维护语料库,确保数据的时效性和准确性
语料库的标注方法
• 词性标注:为文本中的每个词分配词性标签 • 句法标注:为文本中的每个句子分配句法结构标签 • 语义标注:为文本中的每个词分配语义角色标签
语料库在语言测试中的应用
语料库辅助语言测试
• 测试题设计:利用语料库提供真实、具有挑战性的测试题 • 评分标准:根据语料库制定客观、公正的评分标准 • 测试反馈:通过语料库提供详细、准确的测试反馈,帮助学生提高语言能力
语料库驱动语言测试
• 测试模式:利用语料库开发多样化、个性化的语言测试模式 • 测试评估:通过语料库进行全面、持续的测试评估,了解学生的学习进度和需求 • 测试资源:提供基于语料库的丰富、实用的测试资源,满足不同学生的测试需求
微博语料库的建立与应用研究

微博语料库的建立与应用研究第一章:引言在当今互联网时代,人们通过网络传播信息和意见已经成为一种普遍的社会现象,并且得到了广泛应用。
微博作为一种新兴的社交媒体,被越来越多的人们关注。
微博语料库的建立与应用研究,因此显得异常重要和实用。
第二章:微博语料库的概念语料库是指用于语言研究的大规模文本数据。
微博语料库则是以微博为载体的语言数据集合。
微博是指一种新兴网络社交媒体,特点是信息量大、传播速度快、消息范围广。
微博语料库的建立意在提供一个集中的、可供研究的语言资料库,方便语言学家和社会学家进行有针对性的研究。
第三章:微博语料库的建立方式微博语料库的建立需要收集、整理和清理大量的微博数据。
首先,需要设置数据收集范围,并搜集符合条件的微博数据;其次,需要进行数据清理,进行语料库中数据的筛选;最后,整理数据成为便于使用的格式,建立数据档案。
第四章:微博语料库的应用研究微博语料库可以用于多种领域的研究,包括语言学、社会学、心理学、大数据分析等方面。
利用微博语料库分析网络舆情,提升政府部门的治理能力,是当前政治学研究的一个重点。
同时,通过分析微博用户的行为,可以更加深入地了解社交网络之间的互动方式,为社会学研究提供了新思路和方法。
第五章:微博语料库的亟待解决的问题微博语料库的建立和应用仍然存在不少问题。
首先,微博网络存在很多敏感信息和虚假信息,处理数据的时候需要去除干扰数据,提高数据的可信度。
其次,由于微博用户的隐私保护,微博的公开数据可能存在很多限制,需要通过征得用户同意等方式获得数据。
最后,还需要进一步完善微博语料库的格式,以提高使用的便捷性,并且建立一个公共的微博语料库,提供给广大科研工作者使用。
第六章:结论微博语料库的建立和应用,为当前语言大数据分析提供了重要的工具和思路。
但是,微博语料库的建立需要认真对待,而优化语料库的应用效果和结果,需要不断探索和努力。
在不断研究和实践的过程中,相信微博语料库会成为自然语言处理技术、文本挖掘技术等多个领域的重要资源库。
社会语言学的研究方法

社会语言学的研究方法田野调查是社会语言学研究中最常用的方法之一、研究者通过实地走访社会群体,进行面对面的采访和观察。
调查对象可以是不同地域、不同社会经济背景或不同年龄层的人群。
调查者可以根据自己的研究目的制定调查问卷或话题,通过与被调查者的互动和观察来收集语言数据。
田野调查的优点在于可以收集到真实的语言使用情境和细节,但是由于调查者的主观性因素会对结果产生影响,因此需要注意数据的客观性和解读的准确性。
问卷调查是另一种常用的社会语言学研究方法。
研究者会准备一份问卷,通过网络、邮件或面对面的方式发放给被调查者。
问卷中的问题通常与语言使用、语言态度、语言变体等相关。
问卷调查的优点在于可以同时调查大量的被调查者,帮助研究者获得更全面的数据。
但是受访者可能对问卷内容有偏见或回答不准确,因此需要研究者在设计问卷时注意问题的合理性和准确性。
语料库研究是社会语言学中的另一个重要方法。
语料库是指系统地搜集和整理大量的语言样本,以供研究者进行分析。
语料库研究可以通过收集书面文本、语音录音、网络数据等方式建立。
通过分析语料库中的语言数据,可以揭示语言使用的规律和变异。
这种方法的优点在于可以在不同时间和地点的语言使用中发现相似和变异现象,帮助研究者了解语言的演变和变化。
但是语料库研究需要投入大量的时间和人力,对数据的处理和分析要求高,因此需要专业知识和技能的支持。
社会网络分析是社会语言学研究中的一种比较新的方法。
研究者通过构建社会网络图,分析人际关系、社会结构和信息传播等与语言使用相关的特征。
通过探究社会网络中的人际关系,可以了解语言传播和变异的特点。
社会网络分析的优点在于可以揭示语言的社会背景和社会因素对语言变异和变体的影响。
但是这种方法需要收集和分析大量的数据,对统计学和网络科学有一定的基础要求。
语言变异和变体研究是社会语言学研究中的重要内容之一、研究者关注不同人群和社会群体之间语言使用的差异和变化。
通过比较和分析不同语言变体的特征,可以了解不同群体的社会地位、身份认同和文化背景等。
如何利用语料库辅助语言教学与研究(BNC)

如何利用语料库辅助语言教学与研究(BNC)一、绪言语料库是专门用于语言材料检索和统计的工具,包括为某一目的而收集的大量电子文本(加标注或未加标注)和专门的语料检索和管理程序。
其最大的特点是能快速提供大量真实的语言材料并进行相关统计(如词频和搭配词等),已广泛运用于词典、教材、语法书和词汇表等的编纂及语言研究中。
然而,语料库在日常外语课堂教学和学生自主学习中并没有得到广泛运用,至少在中国是如此。
这一方面是由于对语料库在教学中的运用缺乏有力推广,加价格、市场等因素使得购买商用语料库有难度,自己建设语料库又需花费较大精力,另一方面人们对如何获取网上免费语料库资源缺乏了解。
语料库在日常英语课堂教学和学生自主学习中能够起到多种作用。
作为一种高效的语言检索工具,它所提供的大量真实语言实例能提示从构词、词短语到句法结构乃至语篇几乎所有语言单位的语言生态(language ecology),包括语境、搭配规律、使用频率、语义和语用等。
语料库的获得和个人建设虽然面临诸多困难,但幸运的是,开放的互联网为广大英语教师和英语学习者提供了接触和使用语料库的机会。
二、网络语料库的运用1.英语单语语料库目前,语料库运用于日常英语课堂教学的主要还是英语单语语料库,互联网上的情况也是如此。
网上有许多大型通用语料库(单语)提供在线检索,其免费服务虽功能有所限制,但已能满足中学英语教学和学生自主学习的需求。
如1亿词次的英语国家语料库(BNC)(/)和5600万词次的柯林斯在线词库(Collins Wordbanks Online)(www. Collins./corpus/CorpusSearch.aspx)。
二者均是当今较权威的英语语料库,其语料语域广泛,有较好代表性,且均做了词性赋码(Part-of-speech tags)。
这些在线检索提供通配符功能(wildcard)、连续和非连续的词组或搭配检索功能(word combination),并能指定检索词词性,功能强大,检索方便,可在日常中学英语教学中加以运用。
网络语言数据分析与语料库构建研究

网络语言数据分析与语料库构建研究随着互联网的高速发展,网络语言已成为人们生活中不可缺少的一部分。
在日常生活中,人们随时使用网络语言与他人进行交流,如微博、微信、QQ等社交媒体平台上的文字内容。
这些内容具有时效性、高度个性化、表意简洁等特点,不仅反映了人们的网络行为和社交心理,也给语言研究者提供了宝贵的语料库资源。
而对于研究网络语言,数据分析和语料库构建则是非常重要的研究手段。
一、网络语言数据分析数据分析是对统计数据的处理和解读,是研究网络语言的基础。
通过数据分析,研究者可以挖掘出大量语言现象、规律和趋势,也可以揭示出人们在使用网络语言时存在的问题。
1. 使用词频分析词频分析是指统计一定数量的文字内容中各词语的出现次数,以了解某特定语言环境中的词汇使用情况。
以微博为例,通过分析微博文本中出现次数最多的词语,可以了解热点话题、大众关注的问题等。
2. 利用情感分析情感分析是指对某段文字的情感色彩进行识别和判断,包括正面、中性和负面三种情感。
通过情感分析,可以了解人们对某一事物的态度和情感倾向,反映人们的情感上的需求和期望。
3. 进行话题分析话题分析是指对指定主题或领域的网络文本做出全面明确的解读和阐述。
通过话题分析,可以了解某一领域或社群内的讨论热点和重点问题,深入分析社交网络中的话题演变规律和趋势。
二、网络语言语料库构建语料库是指对某一类型或一类语言材料的搜集、记录和建立。
在网络语言研究中,语料库是非常重要的研究手段。
通过语料库的构建,可以更加全面、详尽地了解网络语言在不同时间段内的使用情况、规律与趋势。
1. 网络数据收集与整理网络语言语料库的构建首先要获取网络数据,这一环节包括数据筛选和数据整理两个步骤。
数据筛选需要根据研究的需求、数据的来源、时间和地域等因素来选择数据,有效减少无用数据的添入。
数据整理则是将采集的数据整理为格式标准、规范完整的语料库。
2. 设计语料库结构与属性在语料库构建的过程中,设计语料库的结构与属性是非常重要的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
woman ver, this implies that she is not beautiful
at all in the traditional sense of female beauty,
but rather that she is mature in age, has large
☺ 内省数据(introspective data): rationalism ☺ 实验数据(experimental data): empiricism ☺ 真实数据(anthentic data): empricism
语料库语言学的性质 123
☺ 语料库语言学提倡真实数据 ☺ 我们不排斥其他数据类型
语料库语言学的性质 123
☺ 即便在语料库语言学阵营之中
☺ Corpus-driven: minimum theory-reliance. Exclusive reliance on corpus data for all theories
☺ Corpus-based: Reliance on corpus data for hypothesis-testing
几个常用术语
123
☺ Corpus
☺ Corpus linguistics
几个常用术语
123
☺ Token, type, lemma
The little boy looked at the other boys.
几个常用术语
123
☺ Collocation is defined as a sequence of words
语料库研究基本方法
中国外语教育研究中心 梁茂成
主要内容
123
☻ 语料库语言学的性质
☻ 几个常用术语
☻ 语料库研究的基本方法
语料库语言学的性质 123
☺ 理性主义与经验主义
☺ Rationalism: I think therefore I am. ☺ Empiricism: My mind is a ‘blank slate’. Seeing
☺It is a fundamental part of the scientific method that all hypotheses and theories must be tested against observations of the natural world, rather than resting solely on reasoning and intuition.
语料库语言学的性质 123
☺ Science is considered to be methodologically empirical in nature.
☺ Corpus linguistics is empirical in nature.
语料库语言学的性质 123
☺ 语言研究中的数据类型
☺However, it seems that it is still the same thing: it is still a piece of wax, even though the data of the senses inform him that all of its characteristics are different.
语料库语言学的性质 123
☺the Wax Argument: Therefore, in order to properly grasp the nature of the wax, he cannot use the senses. He must use his mind. Descartes concludes:
is believing.
语料库语言学的性质 123
☺the Wax Argument: He considers a piece of wax; his senses inform him that it has certain characteristics, such as shape, texture, size, color, smell, and so forth. When he brings the wax towards a flame, these characteristics change completely.
☺ Corpus-referenced/informed: Occasionally resorting to corpus data for illustrations
语料库语言学的性质 123
☺ 我们坚决反对不顾语言事实的任何论断
☺ No introspection can claim credence without verification through real language data (Teubert 2005).
☺“ And so something which I thought I was seeing with my eyes is in fact grasped solely by the faculty of judgment which is in my mind.
语料库语言学的性质 123
☺Empiricism: Empiricism emphasizes those aspects of scientific knowledge that are closely related to evidence, especially as discovered in experiments.
which co-occur more often than would be
expected by chance.
☺ a big smoker
☺ a strong smoker
☺ a hard smoker
☺ a heavy smoker
☺ a furious smoker
几个常用术语
123
☺ It is quite possible, in fact, to describe a