语料库的发展历程

合集下载

语料库语言学简史

语料库语言学简史语料库语言学及语料库方法的作用在今天已不容忽视，但是语料库语言学的发展却经历了一段长期曲折的过程。

以1957年Chomsky《句法结构》的发表为界，此前的语料库研究被语言学界广泛称为“早期的语料库语言学”；从上世纪50年代至80年代语料库语言学进入低谷；从80年代开始，语料库语言学迎来了它的“复苏期”。

1 早期的语料库语言学利用真实语言资料进行研究，是词汇学家和语法学家的优良传统。

早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary，将前人收集资料的最好方法作了总结，他所编的英语词典含15万条以上的引证说明，可见其所收集的资料库已相当可观。

Oxford English Dictionary于1928年完成，所用的引证达400多万条，卡片1100多万张，还专门出版了中古英语手稿与文章350册，供编写OED时参考。

Webster’s New International Dictionary第二版的编写参照了100多万条引证，第三版于1961年付印时，新旧引证共达1000多万条。

英语语法大师Jesperson在编写《英语语法大全》（1909-1949）时，所使用的卡片数目多达30至40万张。

（王建新，1998：52）20世纪40年代，美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法（corpus-based methodology），后来的结构主义语言学家更是如此。

只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。

下面是早期语料库语言学的一些主要研究领域：1．1 语言习得研究19世纪70年代，语言学家就系统地对幼儿语言习得进行了研究。

这些研究都基于父母对幼儿话语及时记录的日记材料。

即使在现代，基于原始语料的语言习得研究也没有停止（Ingram，1978）。

在以日记材料为语料的研究风行过后（通常认为从1876年至1926年），语言习得的研究主要表现为下面两种方式：（1）以大量的、不同年龄段的儿童为语言素材的来源（informant），进行语言发展和成熟的研究；（2）以少量的儿童为语言素材的来源，长期跟踪记录他们使用的语言而进行的历时研究（McEnery，Wilson，2001：3）。

语料库分析演讲稿范文

尊敬的各位领导、各位老师、亲爱的同学们：大家好！今天，我很荣幸站在这里，与大家共同探讨语料库分析这一激动人心的研究领域。

语料库，作为语言研究的宝库，为我们提供了前所未有的研究机遇。

接下来，我将从语料库的定义、发展历程、应用领域以及未来展望等方面，为大家展开一场关于语料库分析的盛宴。

一、语料库的定义与起源首先，让我们来了解一下什么是语料库。

语料库，顾名思义，就是收集了大量语言数据的数据库。

这些数据可以是文本、语音、图像等多种形式，它们涵盖了人类语言使用的各个方面。

语料库的起源可以追溯到20世纪50年代，当时，随着计算机技术的飞速发展，人们开始尝试将语言数据存储在计算机中，以便于进行语言研究和教学。

二、语料库的发展历程1. 初创阶段（20世纪50-70年代）：这一阶段的语料库主要是以人工收集和整理为主，规模较小，应用范围有限。

2. 发展阶段（20世纪80-90年代）：随着计算机技术的进一步发展，语料库的规模和种类不断扩大，应用领域也日益广泛。

这一阶段，语料库的收集和整理开始采用自动化手段，提高了语料库的构建效率。

3. 成熟阶段（21世纪至今）：如今，语料库已经成为语言研究的重要工具，其应用领域不断拓展，包括自然语言处理、机器翻译、语言教学等。

三、语料库的应用领域1. 自然语言处理：语料库为自然语言处理提供了丰富的语言数据，有助于提高语言模型的准确性和效率。

2. 机器翻译：语料库为机器翻译提供了大量的双语语料，有助于提高翻译质量。

3. 语言教学：语料库为语言教学提供了丰富的教学资源，有助于提高教学效果。

4. 语言学研究：语料库为语言学研究者提供了大量实证数据，有助于揭示语言现象的规律。

5. 社会语言学：语料库为研究社会语言现象提供了有力支持，有助于揭示语言与社会之间的关系。

四、语料库的未来展望1. 语料库规模将进一步扩大：随着互联网和大数据技术的不断发展，语料库将收集到更多、更丰富的语言数据。

2. 语料库种类将更加多样化：除了传统的文本语料库，还将出现语音语料库、图像语料库等多种类型的语料库。

语料库语言学研究综述

在此后的２０年，语料研究方法几乎名誉扫地而（Ｋｅｙ—ｗｏｒｄｉｎｃｏｎｔｅｘｔ）的索引程序来分析处理
事实上。以自然语料为基础的语言研究并未完语料的。从语料库中提取的例句可以很容易地
全终止。１９５９年，Ｒ．Ｑｕｉｒｋ着手建立了旨在收集按不同的目的进行更有意义的组合，以便于进
一、语料库语言学的发展历史
Ｃｈｏｍｓｋｙ转换生成语法的兴衰时间为参照。Ｃｈｏｍｓｋｙ之前的语言研究，如ｌ９世纪和２Ｏ世纪早期的儿童语言学的研究主要是以父母详细记录孩子的话语发展为基础的这些原始语料，时至今日仍是许多学者的研究内容的主要来源之一。另外还有美国早期强调语料获取的自然性和语料分析的客观性的结构主义语言学家Ｆ．Ｂｏａｓ和Ｅ．Ｓａｐｉｒ等人，都曾使用过以语料库为基础的研究方法
年。以Ｎ．Ｆｒａｎｃｉｓ和Ｈ．Ｋｕｃｅｒａ为首的语言学家如可发现ｉｎｔｅｒｅｓｔｅｄ与介词ｉｎ的搭配中，ｉｎｔｅｒｅｓｔ—
和计算机专家建成了当今最早的机读语料ｅｄｉｎｄｏｉｎｇｓｏｍｅｔｈｉｎｇ是最常用的表达方式。此
大量的风格题材各异的语料作为对英语口语和行分析。例如：通过对按关键词右边第一个单词
书面语进行系统描写的基础的《英语用法》语库的字母顺序排列的所有例句进行分类。我们可
（ＳｕｒｖｅｙｏｆＥｎｇｌｉｓｈＵｓａｇｅ，简称ＳＥＵ）。［］】９６１以查找和发现以关键词开始的所有词组搭配，

语言的语料库建设：利用语料库进行语言研究和教学

03
利用语料库进行语言研究
基于语料库的词汇研究
词汇的统计与分析
• 词频：统计词语在语料库中的出现次数 • 词性分布：分析词语在不同词性中的分布情况 • 词汇搭配：研究词语之间的组合关系和搭配规律
词汇的变异与演变
• 词义变异：分析词语在特定语境中的意义变化 • 词形演变：研究词语在不同历史时期的形式变化 • 词汇创新：探讨新词的产生、发展和传播过程
DOCS SMART CREATE
语言的语料库建设：利用语料库进行语言研究和教学
CREATE TOGETHER
DOCS
01
语料库的基本概念与重要性
什么是语料库及其发展历程
01
语料库的定义
• 语料库是一个大型、有代表性的文本集合 • 用于语言研究、教学和自然语言处理等领域
02
语料库的发展历程
语料库的整理与标注
语料库的整理方法
• 数据分类：将文本数据按照主题、体裁、来源等进行分类 • 数据存储：将整理好的数据归档、备份，便于后续使用 • 数据维护：定期更新、维护语料库，确保数据的时效性和准确性
语料库的标注方法
• 词性标注：为文本中的每个词分配词性标签 • 句法标注：为文本中的每个句子分配句法结构标签 • 语义标注：为文本中的每个词分配语义角色标签
语料库在语言测试中的应用
语料库辅助语言测试
• 测试题设计：利用语料库提供真实、具有挑战性的测试题 • 评分标准：根据语料库制定客观、公正的评分标准 • 测试反馈：通过语料库提供详细、准确的测试反馈，帮助学生提高语言能力
语料库驱动语言测试
• 测试模式：利用语料库开发多样化、个性化的语言测试模式 • 测试评估：通过语料库进行全面、持续的测试评估，了解学生的学习进度和需求 • 测试资源：提供基于语料库的丰富、实用的测试资源，满足不同学生的测试需求

国内语料库研究综述

国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状，并探讨未来研究方向。

通过分析相关文献资料，文章总结了国内语料库研究的主要成果、不足之处，并提出了针对性的建议。

本文旨在为语料库研究领域的学者提供参考，以推动国内语料库研究的发展。

关键词：语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。

自20世纪中期以来，语料库在国外得到了广泛应用，并在多个领域取得了显著的成果。

近年来，随着国内语言学、计算语言学等学科的快速发展，语料库在国内的研究和应用也逐渐受到重视。

本文将重点探讨国内语料库研究的现状、成果及未来研究方向。

研究现状1.国内语料库的发展历程和现状自20世纪80年代起，国内开始出现一些小型语料库的建设和研究，如国家语委现代汉语通用词库等。

随着计算机技术的不断发展，90年代中后期以来，国内开始大力推进语料库的建设和研究，涉及的领域也日益广泛。

目前，国内已经建立了一系列不同规模、不同类型的语料库，如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。

2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用，如语言教学、词典编纂、语言政策研究等。

在语言教学领域，语料库可以提供真实的语言材料和语境，有助于提高语言学习者的兴趣和理解能力。

在词典编纂领域，语料库可以提供大量的实例和用法，有助于提高词典的准确性和实用性。

在语言政策研究领域，语料库可以提供真实的语言使用情况和发展趋势，有助于制定科学的语言政策和发展规划。

然而，国内基于不同领域语料库的研究成果尚不够丰富，且在某些领域还存在着研究空白。

例如，针对特定领域的语料库建设和研究尚不够深入，部分领域的语料库仍存在着规模较小、代表性不足等问题。

此外，针对语料库在二语习得、语言演化等领域的研究尚不够充分。

3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。

语料库研究学术源流考

五、探究命门学说在现代中医理论中的应用
1、指导临床实践：在现代中医临床中，命门学说仍然是指导临床实践的重要理论之一。根据命门学说，中医采用补肾壮阳、调理脏腑的方法治疗各种疾病，如慢性疲劳综合征、不孕不育、月经不调等，取得了显著的疗效。
2、养生保健：命门学说还广泛应用于养生保健领域。它强调阴阳平衡和天人合一，指导人们注重整体观念和辨证施治的原则，提出了饮食调理、运动锻炼、情志调摄等方面的具体方法。
3、促进了中西医结合：命门学说与现代医学的结合，促进了中西医结合的发展。例如，现代医学中的肾上腺皮质激素疗法，与命门学说中的壮阳思想有异曲同工之妙。
四、分析命门学说源流演变的核心因素
1、文化背景：命门学说的形成与发展受到中国传统文化的影响。在儒家 “中庸”思想和道家“无为而治”的思想影响下，命门学说强调阴阳平衡和天人合一，注重整体观念和辨证施治。
六、阐述命门学说的优势和不足之处
1、优势：命门学说强调了人体内部脏腑、经络之间的整体性和协调性
2、不足之处：虽然命门学说具有很多优势
总之，命门学说作为中医学的重要组成部分，具有悠久的历史和丰富的内涵。
感谢观看
参考内容
命门学说作为中医学的重要组成部分，对于理解人体的生理功能、诊断和治疗疾病具有重要意义。本次演示将从命门学说的基本概念、源流演变过程、对中医理论的影响等方面进行考述，以便更好地传承和发扬这一独特的医学理论。
一、什么是命门学说？
命门学说主要探讨的是人体生命的根本和阴阳平衡的问题。它认为，命门是人体生命的源泉，是元气汇聚的地方，也是脏腑、经络等生理功能的基本单位。命门学说强调以阴阳平衡为原则，通过调节人体各器官的功能，达到维持人体健康的目的。
2、计算机科学领域

国内基于语料库的批评话语分析研究综述

国内基于语料库的批评话语分析研究综述一、本文概述随着语言学研究的深入发展，批评话语分析（Critical Discourse Analysis, CDA）作为一种重要的语言学研究方法，在国内语言学界逐渐受到广泛关注。

本文旨在综述国内基于语料库的批评话语分析研究的现状和发展趋势，以期为相关研究提供有益的参考和启示。

本文将简要介绍批评话语分析的基本理论框架和研究方法，阐述其在语言学研究中的重要地位和作用。

本文将重点回顾和分析国内基于语料库的批评话语分析研究的主要成果和贡献，包括研究主题、研究方法、研究数据等方面的内容。

在此基础上，本文将探讨当前研究中存在的问题和不足，并展望未来的研究方向和发展趋势。

通过本文的综述，我们希望能够为国内批评话语分析的研究者提供全面的研究视角和深入的理论思考，推动国内批评话语分析研究的进一步发展。

本文也期望能够引起更多学者对批评话语分析的关注和兴趣，共同推动语言学研究的深入和创新。

二、国内批评话语分析的发展历程批评话语分析（Critical Discourse Analysis, CDA）作为一种语言学研究方法，自20世纪70年代末在西方兴起以来，逐渐受到国内外学者的关注。

在中国，批评话语分析经历了从引进介绍到自主研究的发展历程，成为语言学领域的一个研究热点。

早期的研究主要集中在翻译和介绍西方的批评话语分析理论和方法，如Fairclough的三维分析框架、Wodak的话语-历史分析方法等。

这些研究不仅为国内学者提供了理论支撑，也为后续的实证研究奠定了基础。

随着研究的深入，国内学者开始结合中国的社会文化背景，对批评话语分析进行本土化改造。

他们运用批评话语分析的理论框架，分析中国的社会问题，如贫富差距、性别歧视、环境污染等。

这些研究不仅揭示了社会问题的语言表征，也提出了相应的解决策略。

近年来，随着语料库语言学的发展，基于语料库的批评话语分析逐渐成为国内研究的新趋势。

学者们利用大规模语料库，对特定话题或事件进行定量和定性分析，揭示其背后的社会、政治和文化因素。

我国语料库研究发展历程分析

收稿日期：０１— ４—１２１００
２０００年以后，国内基于语料库的研究逐年增加，２０到０２
年各类期刊共发表论文２篇。从研究的角度来看，８一个明
作者简介：郑玉荣（９５，，１６一）女黑龙江哈尔滨人，教授，从事应用语言学研究；（９２，，江哈尔滨人，师，栾岚１８一）女黑龙讲从事应用语言学研究；王丽丽（９０，，１８一）女黑龙江巴彦人，讲师，从事应用语言学研究。
定了３７篇文章，０作为本文综述性研究的基础。
一
１篇文章中，分为介绍或概述性质的文章，３大部如王建新的
３篇文章分别介绍了语料库语言学发展史上的几个重
要阶段和我国在语料库语言学研究方面的部分进展，国国英
家语料库（ｒｉａｏａＣｒｕ）ＢｉｓＮｔｎｌｏｐｓ的设计与内容。冯跃进、ｔｈｉ汪腊萍介绍了英特网上可免费使用的科比德在线演示版及相关应用软件系统，呼吁 “ 广大英语教育者和研究人员应及早熟悉如何开发网上语料库资源并予以充分使用 ” 。这一阶段也有几例实证性研究，如何安平采用ＯＰＣ（ｘｏｄＣｎｏａｃｒｇａ电脑软件系统对大型英语口语ＯｆｒｏｃｒｎｅＰｏｒｄｍ）
和鬲
／Ｙ
我国的语料库语言学研究始于２纪８０世０年代中期，杨惠中主持建成的国内第一个语料库《上海交大科技英语语料
．．
▲
。
／＼
３
ቤተ መጻሕፍቲ ባይዱ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

CORPUS LINGUISTICS
0.2 发展历史与现状
语料库语言学的发展历史，大致可以分为两个时期：
计算机化以前时期，可称之为传统语料库时期计算机化以后时期，可称之为现代语料库时期
20世纪 50年代Chomsky的影响第一代（1970－ 80年代）第二代（1980－ 90年代）第三代（1990年代） ?第四代（21世纪）
0.2.2 计算机化的语料库（现代语料库）
第二代语料库
朗文语料库(Longman Corpus Network)
商用语料库，建于上个世纪80年代由三个大的语料库组成
朗文 /兰开斯特英语语料库（Longman/Lancaster English Language Corpus，即 LLELC）朗文口语语料库（Longman Spoken Corpus，即 LSC）朗文英语学习者语料库（Longman Corpus of Learners’ English ，即 LCLE）
CORPUS LINGUISTICS
0.1 语料库语言学的定义语料库（corpus,复数形式为corpora），顾名思义就是存放语言材料的仓库（或数据库）。而语料库语言学则是一种以语料库为基础的语言研究方法，它包含两层含义：
— 利用语料库对语言的某个方面进行研究，也就是说“语料库语言学”不是一个新学科的名称，而仅仅反映了一个新的研究手段。 — 依据语料库所反映出来的语言事实对现行语言学理论进行批判，提出新的观点或理论。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库（现代语料库）
第二代语料库
COBUILD语料库（Collins Birmingham University International Language Database）英国国家语料库国际英语语料库
CORPUS LINGUISTICS
CORPUS LINGUISTICS
0.2.2 计算机化的语料库（现代语料库）
第三代语料库
TELRI——跨欧洲语言资源基础建设学会(Trans-European Language Resources Infrastructure) http://telri.nytud.hu/
– 1995年由欧洲共同体（ European Commission）提供经费支持创立，其总部挂靠在德国曼海姆的德语研究所（IDS），负责人 Wolfgang Teubert ； 2000年以后挂靠在英国的伯明翰大学语料库语言学研究所 – 目的是为商业机构、研究团体和大学提供研发平台，为自然语言处理提供单语种和多语种的语言资源 – 主要任务是协调欧洲的多语言信息处理和多语言语料库的建设 – 已建成柏拉图（Plato）的《理想国》（ Politeia）多语语料库、计算工具和资源的研究文档TRACTOR（ Research Archive of Computational Tools and Resources）、以及欧洲语言词库 EUROVOCA
CORPUS LINGUISTICS
0.1 语料库语言学的定义
语料库的哲学基础

近二十年以来，基于语料库的统计分析研究越来越多。这种统计研究被称为是经验主义的，或者说是基于统计的，与理性主义相对而言。理性主义又说是基于规则的。我们认为：理性主义说到底也是经验主义，是使用语言的个人的一生的语言经验的积累。
CORPUS LINGUISTICS
0.2 发展历史与现状
英国伦敦大学学院(University College London )的语言学家夸克（ Quirk）开创了新一代的语料库。他在1959年建立英国英语口语和书面语的“英语用法调查”（the Survey of English Usage，简称SEU）语料库的计划，目的是要对英语进行全面的描写。 1961年，弗朗西斯（N. Francis）和库塞拉（H. Kucera）为首的一批语言学家和计算机专家汇集在美国的布朗大学合作建成了世界上最早的机读语料库，即布朗语料库（Brown Corpus）。 1975年，斯沃特威克（Svartvik）与他在隆德大学的同事把SEU 语料库中的口语部分转变为计算机可读的形式，最后建立了“伦敦 —隆德英语口语语料库”（LLC）。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库（现代语料库）
第一代语料库
布朗语料库（Brown Corpus） LOB语料库（The Lancaster-Oslo/Bergen Corpus） LLC语料库（London-Lund Corpus of Spoken English）兰开斯特/IBM英语口语语料库（Lancaster /IBM spoken English corpus)
——引自张普教授的幻灯片
CORPUS LINGUISTICS
0.1 语料库语言学的定义
语料库的分类
用途：通用语料库、专用语料库；介质：文字语料库、声音语料库；语体：书面语语料库、口语语料库；时间：共时语料库、历时语料库；状态：静态语料库、动态语料库；语种：单语语料库、双语语料库、多语语料库；平行语料库、非平行语料库；母语语料库、外语学习者语料库；处理程度：生语料库、熟语料库。
为教学目的而编制的书面语料库和词表
陈鹤琴《语体文应用字汇》，商务印书馆，1928年。做过两次统计，第一次统计使用了六种材料，包含 554,478个汉字的语料，得出不同汉字4261个；第二次使用包含34,818个汉字的语料，得出与4261个汉字相异的汉字458个。
CORPUS LINGUISTICS
CORPUS LINGUISTICS
为什么要学习语料库语言学?
语料库语言学已经成为语言研究的主流
——J. Thomas et al, 1996
语料库研究正酝酿着对语言学理论和研究方法的重大突破
——J. Svartvik, 1996
Corpus research has become a key element of almost all language study .
——美国 Lexis-Nexis 公司的机储文件已经达到15亿件，有 1.5万亿字符，并且以每周950万件的速度递增
动态监控语料库
——国际互联网上，英国COBUILD语料库每周向电子邮件用户发送 Word Watch（词语监察）的邮件，报告社会用语的动态变化情况
……
CORPUS LINGUISTICS
主要目标之一是编纂英语学习词典，为外国人学习英语服务规模达到 5000万词级
CORPUS LINGUISTICS
0.2.2 计算机化的语料库（现代语料库）
第三代语料库
特大型语料库
1. 2. 3. 4. 语料：从单语种到多语种。数量：从百万级到千万级再到亿级和万亿级。加工：从词法级到句法级再到语义和语用级。文本：从抽样到全文。
0.2.2 计算机化的语料库（现代语料库）
第三代语料库
ACL/DCI美国计算语言学学会数据采集计划
美国计算语言学学会(The Association for Computational Linguistics, 即 ACL)倡议的数据采集计划 (Data Collection Initiative, 即 DCI)，其宗旨是向非赢利的学术团体提供语料，用标准通用置标语言 SGML统一置标，以便于数据交换(Liberman, M.Y. 1990)
CORPUS LINGUISTICS
0.2.2 计算机化的语料库（现代语料库）
第三代语料库
UPenn树库（宾州树库）
由宾夕法尼亚（Pennsylvania）大学计算机系的 M. Marcus主持，到 1993年完成了近 300万词的英语句子的句法结构标注。 2000年由 LDC（语言数据协会）发行了UPenn的中文树库（规模较小，仅包含10万词，4185句）
——Wolfgang Teubert , 24 October 2004
……
CORPUS LINGUISTICS
0.1 语料库语言学的定义
“根据篇章材料对语言的研究称为语料库语言学。 ” （ K. Aijmer & B. Aitenberg, 1991） “基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。”（ T. McEnery & A. Wilson, 1996） “以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。”（ D. Crystal, 1991）
CORPUS LINGUISTICS
UPenn树库（宾州树库）示例
CORPUS LINGUISTICS
UPenn树库（宾州树库）示例（续）
CORPUS LINGUISTICS
0.2.2 计算机化的语料库（现代语料库）
第三代语料库
ELRA——欧洲语言资源学会 (European Language Resources Association) (/) – 1995年在卢森堡成立，开展以语言技术为主的语言资源收集、监测、评估、鉴定、宣传、开发与利用工作，定期召开语言资源与评估国际学术会议(LREC, Language Resources and Evaluation Conference)，出版会刊《语言资源与评估》，力求语言资源建设和评估的科学化
CORPUS LINGUISTICS
0.2.2 计算机化的语料库（现代语料库）
第三代语料库
语言资源联盟(Linguistic Data Consortium) 1992年在美国宾夕法尼亚大学(University of Pennsylvania)建立，它的目的是构建、收集和发布用于研发的语音和文本数据库、词典以及其他资源该联盟提供了一种可供大规模发展和普遍的共享用于语言工程技术研究的资源的新机制，目前已经拥有超过100个公司、大学和政府机构会员单位。为197个会员机构源自458个非会员机构提供了数据 (/)