语料库语言学和教学35页PPT
语料库语言学与教学

3.运用语料库进行外语研究:方法和实例 3.1 分析词语的方法
3.1.1 不同语域词频差异的调查 3.1.2 根据搭配调查语义差异 3.1.3 根据搭配调查语义韵差异
3.2 学习者中介语的调查 3.2.1 学习者与本族语者之间的对比 3.2.2 不同母语背景学习者之间的对比 3.2.3 不同层次学习者之间的对比
语料库建库原则
表1.“英语用法调查”语料库 (I)原始书写语料(100篇) (A)印刷品(46) (B)非印刷品(36) 人文科学 6 ┌ 想象性 连续书写品┤ 自然科学 7 └ 资讯性 教学 6 ┌ 一般新闻 4 ┌亲密 报刊┤ 社交书信┤平等 └ 专门报导 4 └疏远 文书 4 ┌平等 非社交书信1┤ 法律 3 └疏远 论说文 5 日记 散文小说 7 (C)口语(18) ┌资讯性 剧本 4 谈话┤ └想象性 正式演说(经转写) 3 故事 广播新闻 3 5 6 6 4 4 4 4 4 4 2 2
4
语料库建库原则
语料库的主要用途之一是发现语言的主要的和典 型的用法。 一般用途语料库的语料随机地取自各种来源,在 语域方面尽量避免偏向,例如Brown语料库在语域 上分为15个类别(新闻报导、社论、新闻评论、 宗教、技能和爱好、学术和科技、各类小说和幽 默等等)。 语料采集方式最根本的目的在于尽可能保证所采 集的语料具有代表性,保证所收录的语料最大程 度地涵盖具体语言在诸如语体、语域、地域变体、 作品年代、作者性别、题材类型等多方面的比例 合理性,进而保证建成后的语料库能囊括具体言 语行为的普遍规律性。 5
9
3.1 分析词语的方法
3.1.1 不同语域词频差异的调查 Rundell就曾利用BNC的口语部分调 查发现: began在书面语中出现的次数几乎 是 started的两倍,而在口语中出现的频率 要比started低得多。
语料库的研究PPT

词类标注
句法树库 已完成5000万字词语切分和词类标注语料库
201308041041 0109
语料库标注加工
语料库加工软件系统
分词词表
201308041041
0109
现代汉语词语切分歧义数据库
歧义点,歧义类型,歧义消解结果 基于国家语委语料库 2002, 863项目 1亿字 基于国家语委语料库选材原则 网络电子文本为主 段落级XML标注
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
201308041041 0109
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
201308041041
0109
设计样本分布
科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 201308041041 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
201308041041
语言学概论ppt课件完整版

句法学
研究句子结构的学科,包括短语结构、句子成分、句 子类型等。
语义学
研究语言意义的学科,包括词义、句义和篇章意义 等。
语用学
研究语言使用的学科,包括言语行为理论、会话含义理论 和礼貌原则等。
语言学研究方法论
描写方法
通过对语言现象的详细描写,揭示语言的内在规 律和结构特点。
04
句子结构与句法理论
句子成分与功能分析
主语和谓语
句子的核心成分,表达基本的陈述关系。
宾语和补语
句子的补充成分,完善句子的语义内容。
定语和状语
句子的修饰成分,描述或限制句子中的其他成 分。
短语类型和层次关系
名词短语
以名词为中心词的短语,包括定 中短语、联合短语等。
动词短语
以动词为中心词的短语,包括状 中短语、动宾短语等。
介词短语
由介词及其宾语构成的短语,表 示时间、地点、方式等关系。
层次关系
短语内部各成分之间的结构关系, 如并列关系、偏正关系等。
句法变换与生成语法简介
句法变换
通过改变句子成分的位置或添加某些成分来改变句子的结构,但不改变句子的基本意思。常见的句法变换 有主动句变被动句、肯定句变否定句等。
生成语法简介
语言接触和融合现象举例
1 2
语言的借用 不同语言在接触过程中,常常会发生词汇的借用 现象,如英语中的“tea”借自汉语。
语言的混合 在语言接触中,有时会产生语言的混合现象,形 成新的语言或方言,如克里奥尔语。
3
语言的融合
当两种语言长期密切接触时,可能会发生语言的 融合现象,产生一种新的语言,如罗曼语族中的 法语、意大利语等。
语料库语言学

我们认为较为准确全面定义:
语料库(corpus 或corpora [复数]) :是指按 照一定的语言学原则, 运用随机抽样方,收 集自然出现的连续语言运用文本或话语片 段而建成的具有一定容量的大型电子文本 库。
语料库语言学:在文本语料的基础上进行 语言研究的一门学科。
语料库语言学的研究对象
语料库语言学是以语料库中收集储存的真实语言材 料做为唯一的研究对象,以语言现象出现的概率为 依据。因此,语料库语言学为语言学研究提供了一 种全新的研究思路。一个合格的语料库必须以电子 计算机为载体来存放语言材料,这些存放在电子计 算机中的语言材料是在语言的实际使用中真实出现 过的。因此,它们可以如实地反映语言现象,克服 语言学家观察语言现象时的主观性。
(7)语料库语言学与语用学和语篇分析。语料库 常常是把话语从上下文或语篇中分离出来,因此
其所收语料在很大程度上脱离了上下文或社会背
景,而语用学和语篇分析对于场景和上下文又具
有一定的依赖性。故以语料库为基础的语用或语
篇研究相对较少,但语料库为这些领域所作的贡
献是不可否认的。语用学及相关领域的研究通常 是以会话为基础的,如伦敦—伦特语料库 (London - Lund Corpus) 和柯林斯出版公司与伯 明翰大学联合开发的“英语库”( The Bank of Eng2lish ,简称BOE) ,前者收集的是日常会话, 后者的口语部分包括日常会话会议、讨论、采访、 电台广播等。
3、语料库语言学与辞典编纂
语料库不仅能够提供更完备和详尽的关于词义和 词汇搭配的信息,而且利用语料库中的频率统计 可以直观的反映词汇用法的使用情况。如英国考 林斯出版社和伯明翰大学编辑出版的《国际通用 词典》在很大程度上打破了词典编撰的传统,从 词条的选定及解释、用法到释义的先后顺序等都 依据了由2亿词次的COBUILD语料库中统计出的 频率。由于语料库的素材来自实际使用的语言, 利用其素材作为词典的例句更具真实性和准确性。 利用语料库编撰词典不仅能反映语言的真实变化, 而且编撰周期也会大大缩短。
语言学ppt课件

文化对语言的影响
文化背景影响语言使用
不同的文化背景会影响人们的语言使用。例如,不同民族或社会对于礼貌、谦虚、尊重等方面的文化价值观 不同,因此在语言使用上也会有所不同。
语言学ppt课件
目录
CONTENTS
• 语言学概述 • 语音学 • 词法学 • 句法学 • 语用学与社会语言学 • 语言与文化的关系
01
语言学概述
语言学的定义与研究对象
定义
语言学是研究人类语言的科学,探 讨语言的性质、结构、演变以及语 言与思维、文化、社会等的关系。
研究对象
语言学的研究对象包括语音、语法、 语义、语用等方面,以及语言在社 会文化背景下的运用和变化。
语言学的研究方法
田野调查法
通过实地观察和记录语言使用情 况,收集第一手语言材料。
文献研究法
利用历史文献和现代语言学著作, 对语言进行系统和深入的研究。
实验法
通过设计和实施语言实验,验证 语言学理论和假设。
比较法
对不同语言或同一语言的不同变 体进行比较,揭示语言的共性和
差异。
语言学的发展历史
结构主义语言学时期
会话含义的推导
通过合作原则、礼貌原则等推导会话含义。
社会语言学的研究对象与内容
社会语言学的研究对象
研究语言在社会中的使用、变化和发展的学科。
社会语言学的研究内容
包括语言变异、语言规划、语言与性别、语言 与年龄等。
社会语言学的研究方法
包括田野调查、语料分析、实验等。
语言变异与语言规划
01
语料库

语料库语言学
• 语料库语言学是一门新型科学,它指的是在文本语料的基 础上进行语言研究的一门学科。
• 基于语料库分析的主要特点: 1.具有实验性,分析自然语言文本中语言使用的实际模式。 2.搜集大量的真实文本(语料库),以语料库作为分析基础。 3.使用计算机的自动与交互技术进行分析。 4.使用定量与定性分析的技术。
• 词汇联结:一个单词与其他单词之间存在强的联结模式, 比如词的搭配。
• 语法联结:一个语法结构与相关语境中的语法特征之间存 在强的联结模式,比如名词化在学术语域和对 话语料中的分布。
• 词汇-语法联结:单词与语法结构之间存在的联结。这种 关系的研究主要有两方面:单词与语法 环境之间的关系;语法结构和单词环境 之间的关系。
语篇结构特征
• 语篇结构特征的研究: 1.语篇连贯和衔接的语言的分析 2.不同类型的语篇的描述和比较 3.语篇中从句间修辞关系的描述和比较 …
书面语篇与口语语篇 医学论文和生态学论文 …
语言变异
• 语料库与语言变异研究指通过使用语料库来观察单词的频 度、单词的意义和用法等变异参数,来研究语言的地域差 异、性别差异、社会群体差异、语域差异等。
L/O/G/O
语料库语言学
Contents
1 语料库和语料库语言学
2
语料库的发展
3
语料库的应用
4
结语
语料库
• 语料库:大规模自然语言文本的集合。 • 现代的语料库是指存放在计算机里的原始语料文本或经过加
工后带有语言学信息标注的语料文本。
双语语料库
北大计算语言学 研究所的双语语 料库
哈尔滨工业大学 的英汉双语语料 库
语料库语言学与中国外语教学

语料库语言学与中国外语教学一、本文概述本文旨在探讨语料库语言学在中国外语教学中的应用及其影响。
语料库语言学是一门基于大规模真实语言数据的语言学研究方法,近年来在外语教学领域逐渐受到广泛关注。
本文首先简要介绍语料库语言学的基本原理和发展历程,然后重点分析语料库语言学在中国外语教学中的实际应用情况,包括语料库的建设、教学资源的开发、教学方法的创新等方面。
通过对相关文献的梳理和案例的分析,本文旨在揭示语料库语言学在中国外语教学中的重要作用,以及面临的挑战和问题,并提出相应的建议和思考。
通过本文的阐述,希望能够促进语料库语言学在外语教学领域的进一步发展和应用,提高外语教学的质量和效率。
二、语料库语言学基础语料库语言学是一门以语料库为基础,运用计算机技术和统计学方法,对自然语言进行定量和定性研究的学科。
语料库,即大规模、结构化的语言数据集合,为语言研究提供了丰富而真实的材料。
语料库语言学的兴起,改变了传统语言学研究过分依赖直觉和个别例子的状况,使得语言研究更加科学、客观和全面。
语料库语言学的基础包括语料库的构建、标注和检索。
语料库的构建需要遵循一定的原则和标准,确保语料的代表性、平衡性和真实性。
标注则是对语料进行加工处理,为其添加额外的信息,如词性、句法结构等,以便后续的分析和检索。
检索则是语料库使用的关键环节,通过特定的检索工具和策略,研究者可以快速定位到所需的语言材料,进而进行深入的分析。
在中国外语教学中,语料库语言学的应用具有广阔的前景。
一方面,语料库可以为外语教学提供丰富的教学材料,帮助教师更加直观地了解语言的实际使用情况,从而指导学生的语言实践。
另一方面,语料库语言学的研究方法也可以用于评估学生的语言水平,为教学反馈提供科学依据。
语料库还可以用于辅助教材编写、课程设计等多个方面,推动外语教学的创新与发展。
语料库语言学为语言研究提供了新的视角和方法,其在外语教学中的应用具有广阔的前景。
随着语料库规模的不断扩大和技术的不断进步,语料库语言学将在外语教学中发挥更加重要的作用。
中外语料库语言学源流PPT课件

– Pattern grammar (local grammar) – Collostruction – Lexical grammar (natural grammar, real grammar) – Lexical priming (textual colligation) – Longman grammar: Biber et al. grammar register
• @be • #n •*
returns all inflectional forms of ‘be’ returns all nouns refers to any single word
14
• a * of => a * of • It be ADJ that => It @be #adj that • Noun noun compound => #n #n • Bi-nominal => #n and #n • Passive =>
3
PowerConc
• Size: 1.5MB, compressed package less than 1MB
• Installation: Doesn’t require any installation. • OS: Works only on Windows now.
4
Design principles for PowerConc
\S+_VB\S+\s(\S+_[RXPJDN]\S+\s)*\S+_V\S*N
15
Limitation
• speed • A concordancer without applying indexing • can't process texts larger than a few million