语料库研究方法概述
语料库语言学研究综述

在此后 的20年 ,语料 研究 方 法几乎 名誉 扫地 而 (Key—word in context)的 索 引程 序来 分 析处 理
事实上 。以 自然 语料 为基 础 的语 言研 究并 未完 语料的。从语料库中提取 的例句可以很容易地
全终止 。1959年 ,R.Quirk着手 建立 了 旨在 收集 按不同的目的进行更有意义的组合 ,以便于进
一 、 语 料 库 语 言 学 的发 展 历 史
Chomsky转 换 生 成 语 法 的兴 衰 时 间为 参 照 。 Chomsky之前 的语 言 研 究 ,如 l9世 纪 和 2O世 纪 早 期 的儿童 语言 学 的研究 主要 是 以父母 详 细记 录孩子 的话语发展为基础 的 这些原始语料 ,时 至今 日仍是许多学者 的研究内容的主要来源之 一 。 另 外还 有美 国早 期强 调 语料 获取 的 自然性 和语料 分析 的客 观性的结构 主义语言学家 F. Boas和E.Sapir等人 ,都 曾使用过 以语料库为基 础 的研 究方 法
年 。以N.Francis和 H.Kucera为 首 的语 言 学 家 如 可发 现 interested与介 词 in的搭 配 中 ,interest—
和计 算机 专 家建 成 了 当今 最 早 的 机读 语 料 ed indoing something是 最 常 用 的 表 达 方 式 。此
大量 的风格 题材 各异 的语 料作 为对 英语 口语 和 行 分 析 。例 如 :通 过对 按关 键词 右边 第一 个单 词
书面语进行系统描写的基础的《英语用法》语库 的字母 顺序 排列 的所 有例 句进 行分 类 。我们 可
(Survey of English Usage,简 称 SEU)。 [ ]】961 以查 找 和发 现 以关键 词 开 始 的所 有 词 组 搭 配 ,
语料库

Background Information语料库的概念语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。
语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。
它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。
语料库的分类按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus);按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus);按语料的来源,又可分为口语语料库和书面语语料库;按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus)In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe.A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus ispart-of-speech tagging, or POS-tagging, in which information about each word's part of speech (verb, noun, adjective, etc.) is added to the corpusin the form of tags. Another example is indicating the lemma (base) form of each word. When the language of the corpus is not a working language of the researchers who use it, interlinear glossing is used to make the annotation bilingual.Terminology:双语或多语语料库Bilingual or multilingual corpus机器翻译技术machine translation technology双语词典编纂技术bilingual lexicography technique跟踪研究工作follow-up study设计、采集、编码和管理design, collection, coding and managementTranslation Version:关于双语或多语语料库的研究目前大致可分为三类:The research on bilingual or multilingual corpus can be divided into three categories currently:一是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,现在已经出现了许多对齐双语或多语语料的程序或工具;First is the study of bilingual corpus alignment technology .The scholars at home and abroad propose various strategies and methods about it. There have been a lot of procedures or tools of bilingual or multilingual corpus alignment at present.二是研究双语语料的各种应用,如在基于统计的机器翻译技术、基于实例的机器翻译技术,双语词典编纂技术中,双语语料库都发挥着十分重要的作用;Second is the all kinds of applications on the research of bilingual corpus . For example, bilingual corpus play an important role in the statistics-based machine translation technology, example-based machine translationtechnology and bilingual lexicography technique.三是双语语料库的设计、采集、编码和管理问题。
语料库语言学

语料库语言学维基百科语料库语言学(英语:corpus linguistics)是基于语言运用的实例(即语料库)的语言研究。
语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。
语料库最初由手工完成,而现在主要是由计算机自动完成。
语料库语言学家相信,可靠的语言分析需建立在新鲜的语料、自然的语言环境,和最小的实验干扰之上。
在语料库语言学中,语料标注的意义众说纷纭,从约翰·辛克莱[1]主张最少量的标注,并允许文本“为自己说话”,到“英语用法调查组”(设在伦敦大学学院)[2]鼓励更多的标注,并认为它是通向更完备和严谨的语言理解的道路。
目录∙ 1 历史∙ 2 方法∙ 3 参考文献o 3.1 引用o 3.2 期刊o 3.3 书籍∙ 4 外部链接∙ 5 参见现代语料库语言学的一个里程碑是亨利·库切拉和W.纳尔逊弗朗西斯在1967年出版的《当代美语的计算分析》(Computational Analysis of Present-Day American English)一书。
该项工作基于对布朗语料库的分析,布朗语料库是一个精心编制的美国英语语料库,规模约有一百万词次。
库切拉和弗朗西斯将这些语料用于各种计算分析,获得了丰富和多样化的成果,该成果结合了语言学、语言教、心理学、统计学、和社会学元素。
另一关键出版物是1960年伦道夫·夸克的《当代英语语法》(Towards a description of English Usage)[3],在这本书中他介绍了“英语用法调查”项目(The Survey of English Usage)。
此后不久,波士顿出版商霍顿米夫林邀请库切拉为其新的美国传统英语字典提供百万词次,三线引文的来进行词典编纂。
《美国传统英语字典》创新地将规定性元素(应如何使用语言)和描述性元素(语言实际上是如何被使用)结合在了一起。
其他出版社纷纷效仿。
语料库基本知识

.
6
计算语言学
◦ “计算语言学是研究用机器来处理自然语言的学科。它是由信息技
术和语言学交叉而成的”(CuS:1)。SLP没有直接提出计算语言 学的确切定义。SLP的作者在开篇借用了Stanley Kubrick科幻片中 的人物HAL,HAL是一个通晓英语的机器人。作者引入HAL的目 的在于说明,为了构建这样一个可与人通过自然语言进行交流的机 器人,需要哪些知识和技术:语言理解方面有语音识别和自然语言 理解(包括唇读技术),表达方面需要自然语言生成和语音合成, 另外HAL也需要信息检索、信息提取和推理方面的技能。而解决这 些问题一般涉及以下学科:自然语言处理,计算语言学,语音识别 和合成。SLP的作者将这三者合起来称为语音及语言处理,除了以 上HAL所用的这些技能外,SLP也囊括了其他重要的语言处理领域, 如:拼写校正、语法检查和机器翻译。
.
42
语言设定
.
43
.
44
(如逗号、句号等) 包括在内,但这一点有例外,如数字3.1415925 和整数的千分位分隔符(如100,000) 中的逗号等。
为了便于统计,对英语进行分词时通常在以上我们所说的“ 形符” 后加空格,使得他们与文本中的其他形符或符号分离开来。
.
11
类符(type)作为一个统计量,指语料库文本中任何一个独特的词形(word form)。换言之,在一个文本中,重复出现的形符只能记作一个类符。
◦ 都可以对语言学的语音、词汇、句法和语义等层面进行
统计和研究。
.
8
联系: ◦ 统计语言学和计量语言学都是利用统计方法来实现对语言成
分的统计,计量语言学以发现语言成分或语言成分间的数学 规律为目标。而统计语言学以所统计的语言特征在统计学上 显著和不显著为目标。
专业的语料库构建方法

专业的语料库构建方法语料库是语言学研究中重要的工具之一,它是指用来收集、储存和研究自然语言的一大批语言材料。
构建一个专业的语料库需要遵循一定的步骤和方法,本文将介绍一些常用的语料库构建方法。
一、语料库的收集与选择语料库的质量对研究结果的准确性和可靠性有重要影响,因此在构建语料库时需要注意收集和选择合适的材料。
一般来说,语料库可以从以下几个途径进行收集:1. 书面语料:可收集包括书籍、期刊、报纸等印刷媒体中的文本资料。
这些书面语料具有标准化、规范化的特点,适用于研究文学、新闻、法律等领域。
2. 口语语料:可通过录音或录像等方式收集口语资料,如面对面的采访、会话记录等。
口语语料更贴近实际语言使用,适用于研究口语交际、语音学等领域。
3. 网络语料:可以利用网络搜索引擎收集互联网上的文本资料。
网络语料丰富多样,涵盖各个领域,但需要注意筛选,排除垃圾信息和重复内容。
二、语料库的清洗与标注语料库收集完毕后,需要进行数据清洗和标注,以提高数据质量和可利用性。
1. 数据清洗:清洗过程包括去除非文本信息(如HTML标签、图片等),去除重复文本和噪音,统一编码格式等。
2. 数据标注:标注可以根据需要进行不同级别的标注,如词性标注、句法标注、命名实体识别等。
标注过程需要借助专业的工具和标注规范,确保标注的准确性和一致性。
三、语料库的存储与管理构建好的语料库需要进行存储和管理,以便后续的查询和分析。
1. 存储方式:语料库可以选择将原始文本存储在本地服务器或云端服务器上。
根据语料库的规模和需求,选择适当的存储方式。
2. 数据管理:建议使用数据库管理系统对语料库进行管理,以便进行高效的数据查询和管理操作。
数据库管理系统可以根据语料库的特点和需求选择合适的工具和技术。
四、语料库的利用与分析语料库构建完成后,可以进行各种形式的利用和分析。
1. 词频统计:通过词频统计可以了解词汇的使用情况,找出高频词汇和低频词汇,有助于研究词汇的分布和语言的特点。
语言学中语料库建设与分析的使用教程

语言学中语料库建设与分析的使用教程语料库是语言学研究中非常重要的资源和工具,它是基于大规模的语言数据收集而建立的。
通过分析语料库,我们可以获得关于人类语言特征和规律的有力证据。
本文将介绍语料库的建设过程以及如何使用语料库进行语言学分析。
一、语料库建设1.确定研究对象和目标:首先需要明确研究的语言对象,是某种自然语言、特定领域的语言还是特殊类型的语言文本。
确定研究目标是什么,比如分析词汇使用、句法结构、语义关系等。
2.收集语料:语料可以通过各种途径获得,比如从书籍、报纸、杂志、互联网等获取文本数据。
保证语料的丰富性和多样性非常重要,这样才能更好地反映真实语言的特征。
3.清洗和整理语料:获得语料后,需要进行清洗和整理,去除冗余信息,确保语料的质量和一致性。
清洗后的语料应该是可读、可搜索和可分析的。
4.标注和注释:为了更好地分析语料,我们需要对语料进行标注和注释,比如词性标注、句法分析、语义角色标注等。
这样可以使得语料更加结构化,方便后续的语言学分析工作。
二、语料库分析1.词频统计分析:使用语料库可以对词汇进行频率统计,从而了解某种语言的常用词汇和词汇使用的变化。
可以计算词频、词形等指标,还可以利用词云图等可视化方式呈现词汇分布。
2.语义关系分析:通过语料库可以分析词汇之间的语义关系,比如同义词、反义词、上位词等。
可以通过共现分析、关键词共现网络等方法进行语义关系的挖掘和识别。
这种分析可以帮助我们更深入地理解词汇的用法和语义内涵。
3.句法分析:语料库可以进行句法分析,以了解句子的结构和成分之间的关系。
可以使用依存句法分析、成分句法分析等方法,进一步研究句子的组成和句法规律。
4.语言变异与变化分析:通过分析语料库可以揭示语言的变异与变化规律,比如不同地区、社会群体、年代之间的语言差异。
可以进行方言分析、历时比较研究等,了解语言变异的原因和机制。
5.语域分析:语料库可以用于分析特定领域的语言使用,比如科技领域、医学领域、法律领域等。
话语分析导论:理论与方法
话语分析导论:理论与方法概述话语分析是一门研究语言使用和话语结构的学科,它关注的是人们在交流中使用的具体语言实践。
话语分析在语言学、社会学、心理学和人类学等学科中有着广泛的应用。
本文将介绍话语分析的基本理论和研究方法。
话语分析的理论基础话语分析的理论基础包括对话语结构、语言交际和社会语言学等方面的研究。
其中,话语结构理论认为话语是由一系列不同单位构成的,这些单位包括句子、词组、音节和音位等。
语言交际理论研究了人们在语言使用中涉及的各种交际行为和技巧,如话语转移、话语修饰和话语间引起的语序变化等。
社会语言学研究了语言在不同社会环境中的使用和变化。
话语分析的方法话语分析可以使用多种方法来研究语言使用和话语结构。
其中,主要包括以下几种方法:语言样本分析法语言样本分析法是最常见的研究方法之一,它通过收集并分析实际语言使用的样本来揭示话语中的规律和特点。
研究者可以选择不同种类的语言样本,如书面语、口头语或电子文本等,然后使用分析工具来分析样本中的语言特征,如词汇使用、语法结构和语气等。
对话分析法对话分析法是一种研究对话或会话中话语结构和语言使用的方法。
研究者可以使用录音设备或视频记录对话过程,并对对话内容进行详细分析。
通过对对话中的交互行为、转话、插话和反应等进行分析,可以了解人们在对话中如何交流和使用语言。
语料库分析法语料库分析法是一种使用语言数据库进行研究的方法。
研究者可以建立一个包含大量实际语言使用样本的语料库,然后使用计算机工具来分析这些样本中的语言特征和规律。
语料库分析法可以提供大量的语言数据,并允许研究者通过统计方法来揭示话语中的共现关系和趋势。
语言实验法语言实验法是一种通过实验来研究语言使用和话语结构的方法。
研究者可以设计各种实验任务,如填空题、配对题和判断题等,来测试人们在特定语言环境中的语言能力和语言习惯。
通过实验结果的分析和比较,可以了解不同语言环境对话语结构和语言使用的影响。
结论话语分析作为一门研究语言使用和话语结构的学科,为我们了解语言交流和社会语言学提供了重要的理论和方法。
语料库语言学
1959-1991年语料库研究项目统计表
语料库语言学的主要研究内容
• 语料库的建设与编纂 • 语料库的加工和管理技术 • 语言研究中语料库的使用 • 语料库在计算语言学中的应用
语料库设计和编纂中的问题
• 语料库设计和编纂的出发点是:如何使得在其基础上开展 的语言调查是合理的和可靠的。因此Kennedy(1998)指出 了语料库设计师所面临的最基本问题:这个语料库所采集 的语言数据是否真正代表了某种期望的语言或语体。在语 料库的建设和编纂过程中应考虑的问题包括:
• (1)数据的区别性特征:语料库语言学数据以其验证性、大数
量性、自动化、计量性等特征有别于其它类型的数据。
• (2)特征性分析技术:包括频数统计、词语索引分析、搭配分
析、词从、主题词等。
• (3)自下而上与自上而下兼用的精密分析过程 :经典语料
库语言学研究中的归纳与推演,数据观察与理论讨论,往往 是层层展开,步步深入,穷尽一切可能,逐渐逼近,到达结论。
语言研究中语料库的使用
1.言语研究: (1)语言学理论 。
(2)语言史研究。 (3)句法、词法及自动语法分析。
2.词汇研究: 编纂词典及工具参考书。 3.语义学 4.语用学和话语分析(很少) 4.社会语言学 5.心理语言学 6.外语教学
语料库语言学在计算语言学中的应用
• 20世纪90年代以来在自然语言处理(NLP)和计 算语言学的研究中,语料库方法和统计语言模型 迅速崛起,成为主流技术。主要用法如下: 1)汉语文本中交集型切分歧义的研究 2)汉语基本名词短语识别研究 3)基于结构词义空间的汉语词义排歧模型
语料库研究方法的局限性
• (1)语料库语言学理论尚需要体系化和简约化。 • (2)其研究思路和方法存在一定的分歧。 • (3)分析方法和技术需要进一步突破 • (4)语料库研究的应用尚需要更深入的探讨。
语料库语言学
• 1)2010 首届广外应用语言学论坛。由广东外语 外贸大学外国语言学及应用语言学研究中心于 2010 年9 月24-25日成功举办了备受瞩目的首届 广外应用语言学论坛。语料库语言学首次以独立 议题的形式提出。会议包括:1.语料库的资源共 享;2.双语语料库建设,我国单语语料库很多, 还没有高质量的英汉双语语料库;3.语料库促进 外语教学发展。外语学习者语料库等在外语教学 中的应用,推动外语教学的发展;4.语料库语言 学的现状和未来。桂诗春肯定了语料学对外语教 学的积极作用,并大力提倡资源共享,互助互利。
• 自 2010 年10 月29 日,首次中国外语教育研 究中心“语料库语言学沙龙”(Corpus Research Group)在北京外国语大学成功举 行之后,分别举行了2010 年秋季,2011 年春 季,2011 年秋季2012 年四期有关语料库语言 学研究的名家及学者的交流活动。沙龙由语言 学界的相关大家,许家金、文秋芳、冯志伟、 王克非,熊文新等参与讲座,对语料库语言学 的研究发展具有启发式的引导。 • 1.语料库建设。文秋芳的“学习者语料库的创 建与研究”。在介绍国内研究现状的同时,还 重点分析了语料库语言学研究方法的优势和局 限。
2.发展
• 语料语言学受行为主义的影响下,从60年代开始 发展,迄今已经有近五十年的历史。 • 语料库在发展的初期,只进行词的一般分析,如 词频统计等,后来增加了词的语法属性标注(如, 词性等),直到现在,人们越来越开始重视对语 料库作不同层次的标注,如:语音、构词、句法、 语义以及语用等层次的标注。 • 语料语言学在其发展的初期并没有引起太大的共 鸣,但是现代语料语言学已经得到越来越多人的 承认,其应用也越来越广泛,从语言分析、语言 教学、词典编撰到人工智能等领域都开始应用语 料库。
语料库语言学的理论与实践应用
语料库语言学的理论与实践应用一、概述语料库语言学是近年来发展迅速的一门跨学科研究领域,重要性越来越被学界所认识。
语料库语言学的本质是将语言学方法论与计算机技术相结合,通过对大规模自然语言数据的应用和分析,揭示出语言规律的一门系统性的研究方法。
其应用代表着信息时代对语言学的新需求,也使得语言学研究具有了新的维度和框架。
二、理论1. 语料库概念语料库即语言学语料库,是指收集并存储语言数据以供语言学分析研究的资源库。
语料库的建设需要考虑多方因素,如语料来源、规模等,不同规模的语料库对于研究目的的影响不同。
2. 语料库语言学的基本理念语料库语言学的基本理念是:基于语言数据来研究语言规律。
这种基于数据的方法论与传统语言学的理论研究有显著的不同,它强调对现代实际语言数据的原样研究,强调数据的实证性,尽量消除主观臆想和理论预设的影响。
3. 语料库分析方法语料库分析方法是语料库语言学的独特研究方法之一,包括自动标注、统计分析、文本筛选等多种技术。
此外,语料库语言学还借鉴了其他学科的方法论,如信息检索技术、机器学习技术等等。
三、应用1. 语言教学语料库语言学对语言教学的改革和提升作出了重要贡献,它为语言教学提供了更为科学的方法和工具。
语料库语言学的应用将语言教学从传统的重视规则和笔记转向注重实践和交流。
利用现代语料库,教师可以更好地掌握语言使用规律,为学生提供优质的教育资源。
2. 自然语言处理自然语言处理是语料库语言学的另一个应用方向,它是指计算机对自然语言进行理解和处理的技术。
自然语言处理研究的目的是建立能够理解自然语言的计算机系统,从而实现更好地人机交互。
语料库语言学提供了大量的实际语料数据,这使得自然语言处理的算法和模型更加实际可行。
3. 翻译工具语料库语言学的应用还可以扩展到翻译工具中,翻译人员可通过语料库中的翻译文本进行检索,获取大量语言实例。
这大大提高了翻译节奏和质量,也减轻了专业词汇记忆和翻译选择问题的困扰。