语料库建设及使用专题研修班
语料库课程(一)笔记

标注必须基于科学、合理的分类体系 1. 与研究目的相关 2. 分类的穷尽性 3. 各子类不应该相互重叠 4. 关于“其他”类(应该是最小类)
标注的常见类型
标注集/赋码集(tagset)是标注中所使用的代 码集,是对分类体系的操作化。 Tagset: A collection of tags (or coldes) in a tagging scheme. Caution: A tagset usually adheres to a particular decriptive …
理据
我们对真实世界的理解表达为知识 知识表现为不同的语义场 语义场表现为各种词语场 各种词语场实现为各个词群(单词或短语) 特定话题触发独特词群 具有特定话题的文本包含独特词群,该词群一 般不在其它话题中出现
因此
某个特定话题的文本包含的独特词群具有异常 高频 参照语料库代表了某一类型语言运用的常态 对比两个词表,可以提取那些超常高频的词群
8.2上午
(二)李文中 主题词分析
分析文本时注意备份,把需分析的语料放入 新建的文件夹中。 练习:使用语料: 04Academic/4Genres_RAW/Four_Genres/01 _General_corpora/Data
1. 创建2个对比文件夹,用PowerGREP转换 格式,并把text放入这2个文件夹
比什么:条件控制
控制相似变量 突出差异焦点
描述
观察文本 具有明确主题的完整文本或一致主题的文本集 参照语料库 具有足够的代表性 足够大 同质语料
主题词表 观察文本 参照语料库
8.2上午
关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究沈锐1,黄薇2(1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100)【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。
【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。
本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。
中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。
中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。
无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。
在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。
因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中小规模的语料库。
一、需求分析和框架设计语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。
半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。
语料库课程(一)笔记解析

基本观点
词汇中心教学法坚持以词项(lexis)单词短 语结构为基本单位的语言观;重视频率在大缸 设计及教学中的作用;词汇中心教学法本质上 采取的是交际法,它强调将词项置于真实语言 素材中,并贯穿于真实任务中加以学习。同时 提倡学生自主的发现式学习。
Step1 打开Sub-corpus creator,导入seccel(只能导入 单个文件夹),显示文本文件,勾选case sensitive(区 分大小写),file contains “T1=”,获得男生/女生文本,保 存生成子库。
Step2 用PowerConc对两个子库进行比较。
2 趋势
small & specific
标记(mark-up)与标注
Sinclair和他的clean text policy (Sinclair认为语料库语言学应摒弃旧理论一切重来)
语料库语言学界对标注的态度(大部分研究者认为应该标 注),世界最大的语料库Bank of English可以进行词类检 索。
标注的主题
1. 人工标注 (Brown语料库) 2. 机器标注(准确率97-98%)
Step1:新建文件夹1:observeText 新建文件夹2:referenceCorpus
Step2:安装PowerGREP Step3: 设置PowerGREP (preferencegeneral,勾选1、2空格)
Step4: 格式转换(UTF-8转换成ANSI):
1) 找到04Academic,单击右键,出现search with PowerGREP(若有子文件,选第search subfolders)
语言学习观:行为主义 (行为主义)
语料库

词汇教学 Variable various
语法教学
关于which 的问题 •哪些例句显示which不是用做关系代词, 根据是什么? •哪些例句中的which可以用that 替代? •为什么有的例句中的which 不能用that来替代?
particular text?
After class…
Assessing learning
What are the typical problems encountering our learners?
Grammar Use of word Use of idioms and collocations Use of patterns Spoken and written discourse translation
How should I design exercises, quizzes, and other follow-up activities based the real language data?
How should I deal with grammar, lexis and patterns? How should I know which words are unique to a
向等) of a word?
Before class…
Specific questions for classroom teaching
How many words are used in a text (or a collection of texts), and how often?
学习者语料库在高中英语写作教学的应用

学习者语料库在高中英语写作教学的应用佘泽群引言英语写作是英语语言输出的重要方式,英语写作水平是反映高中生英语学习成果的重要手段之一。
《普通高中英语课程标准》的语言能力目标要求学生能有效地使用书面语表达意义和进行人际交流。
然而学生写作成绩一直是英语教学中“扶不起的阿斗”,与高中英语课程标准的目标要求存在差距。
语料库是应用计算机技术对海量自然语言材料进行处理、存储,以供自动检索、统计分析的大型资料库。
随着信息技术的进步,语料库建设呈现多元化发展趋势,学习者语料库也应运而生,为语言研究与教学做出了巨大的贡献。
高中教学作为学生进入大学前的基础教育,应当紧跟最新的教学技术和方法。
因此如何结合语料库的运用,提高英语写作的教学效果,成为值得探索的问题。
一、学习者语料库发展历史及应用学习者语料库的发展历史并不长,作为语料库发展的分支,起步虽晚,但发展速度较快,并在语言研究和语言教学方面发挥着重要且独特的作用。
(一)学习者语料库的发展学习者语料库是指非母语学习者的口头和书面语料库,是当今语料库建设中的一股新生力量。
在我国比较有影响力的语料库有中国学习者英语口语语料库和中国英语教育语料库。
前者由卫乃兴和杨慧中两位教授建立而成,主要侧重口语语料的收集和编写,语料主要来源于学生大学英语四级考试时的口语录音。
后者是一个大型综合语料库,由华南师范大学何安平教授主持建立,语料包括课堂教学,课堂回话及初高中学习者口笔语等内容。
(二)学习者语料库在外语教学的应用学习者语料库运用于外语教学主要可以分为两种:间接运用和直接运用。
间接运用是指将基于学习者语料库的中介语研究发现应用到外语教学中,针对学习者语言特点及学习困难,有效干预教学大纲制定、教材编写、教案设计、课堂模式设计等一系列外语教学过程。
直接运用是指直接将语料库资源运用于课堂之中,用语料库进行分析,师生通过语料库进行语料分析,发现语言使用特点,解决教学中的难题。
另一种直接应用的方法是教师自行开发具有针对性的小型学习者语料库。
英语语料库建设及应用研究:现状与趋势

英语语料库建设及应用研究:现状与趋势叶章勇【摘要】田野语言学(field linguistics)已取代沙发里的语言学(armchair linguistics)成为现代语言学研究的主流,语料库成为语言学研究及语言工程不可或缺的基础资源,国外在英语语料库研究方面起步较早,已形成完善的语料库研究规范,我国在借鉴国外经验的基础上结合我国国情及英语学习者实际对英语语料库建设、语料库语言学、语料库翻译学等方面开展了广泛的研究并取得丰硕成果.基于对国内外英语语料库建设现状及趋势的研究,我们应当在今后的英语语料库建设中更高程度地凸显其跨学科性,更多地关注语料库建设规范化、多模态化及智能化.【期刊名称】《宁波广播电视大学学报》【年(卷),期】2014(012)001【总页数】5页(P31-35)【关键词】英语语料库;现状;趋势【作者】叶章勇【作者单位】宁波职业技术学院浙江宁波315800【正文语种】中文【中图分类】H312一、引言自17世纪以来,由于受经验主义 (empiricism)影响,由内省法主导的传统“沙发里的语言学”(armchairlinguistics)(Charles J.Fillmore 1992:35)走入低谷,语言研究开始重视研究自然发生的语料,大量收集真实语言数据,在客观分析语言现象的基础上进行相关实证研究。
这种基于真实语料的语言研究在19世纪得到了进一步发展,人们尝试运用类似于自然科学研究方法收集真实语言数据,进行描述及探讨,重构语言之间的谱系关系。
20世纪初,受实证主义和行为主义思潮的影响,这种欧洲传统被美国结构主义语言学继承,经验主义在语言研究中逐渐占据主导地位。
经验主义认为:语言学研究的主要素材是语料,而大量收集某种语言中自然出现的语言实例,对研究该语言不仅是必要的,也是充分的 (Geoffrey Leech 1991:8)。
这种研究方法需要大量收集某种语言中的语句,组成一个语料库。
语料库翻译学课题与进展

语料库翻译学课题与进展一、本文概述《语料库翻译学课题与进展》一文旨在全面梳理和探讨语料库翻译学领域的最新研究动态与发展趋势。
随着信息技术的飞速发展和语料库规模的日益扩大,语料库翻译学在语言学和应用翻译领域中的重要性日益凸显。
本文首先介绍了语料库翻译学的基本概念、研究范围及其对传统翻译理论的影响,接着重点分析了当前语料库翻译学的主要研究课题,包括语料库建设、翻译共性研究、机器翻译与语料库翻译学的结合等。
在此基础上,文章还评述了近年来语料库翻译学的最新进展,如基于语料库的翻译教学研究、多语种语料库的构建与应用等。
文章对语料库翻译学未来的发展趋势进行了展望,以期为相关领域的研究者和实践者提供有益的参考和启示。
二、语料库翻译学的主要课题语料库翻译学作为一个新兴的研究领域,其课题丰富多样,涵盖了翻译理论、翻译实践、翻译教学和翻译技术等多个方面。
以下是语料库翻译学的主要课题:翻译等价与语料库研究:此课题旨在通过语料库分析,探究不同语言之间翻译等价的实现方式。
通过对大量平行语料的分析,研究者可以深入了解源语言和目标语言之间的对应关系,揭示翻译等价的内在规律。
翻译普遍性与语料库研究:此课题关注的是翻译过程中普遍存在的规律和模式。
通过对大量翻译语料的统计分析,可以发现翻译过程中常见的词汇、短语和句子结构等,从而揭示翻译的普遍性特征。
翻译风格与语料库研究:此课题主要研究翻译作品的风格特征。
通过对语料库中的翻译作品进行风格分析,可以揭示不同翻译家或翻译流派在翻译过程中的风格差异,为翻译风格的定量研究提供新的视角。
语料库在机器翻译中的应用:随着人工智能技术的发展,机器翻译已成为语料库翻译学的一个重要应用领域。
此课题主要研究如何利用语料库提高机器翻译的准确性和效率,探索机器翻译的新方法和新技术。
语料库在翻译教学中的应用:语料库翻译学也为翻译教学提供了新的资源和手段。
此课题主要研究如何利用语料库辅助翻译教学,提高学生的翻译能力和水平,推动翻译教学的创新和发展。
PowerGREP在外语词汇教学中的应用——以数据驱动学习为理念

助作用 , 得外语 教 师借 助于语 料 库 以及 检 索和 文本处 理工 具 进行 教 学大 纲 设 计 、 材 开发 、 据 驱动 学 习 使 教 数
以及学 习者 中介 语语 料分 析 。
基金项 目: 本文为广东省 21工程 三期重点 学科建 设—— “ 1 全球化背景下的外 国语 言文学研究” 子项 目( 编号 G U S2 1 —07 的部分研 D F 1 ~1 5)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库建设及使用专题研修班时间:2014年11月8-9日地点:上海海事大学2C305(计算机实验室)主讲人:北京外国语大学中国外语教育中心梁茂成李文中许家金一、基本概念1.为什么欧洲对语料库语言学会有如此大的兴趣呢?在美国占统治地位的Chomsky语言学的研究焦点是句法,它感兴趣的是哪些句子是可能的(What is possible?),追求的是语言理论的“解释力”,例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的,但语料库语言学对此却没有兴趣。
因为实际上没有人会这样说。
语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的(What is probable?),这和统计学中的概率有关,不是可否的问题,而是多少的问题,也就是语言的使用问题。
2.一个小型文本集并不是真正意义上的语料库。
真正意义上的语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。
可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。
语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。
3.文本:文本可以保存生(raw)语料,即未经任何标注的语料,称为生文本(rawtext)。
文本中也可以保存经过人工或自动标注的语料,这种文本称为标注文本(annotated text)。
文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。
4.经人工或自动处理后,原来的生文本获得了“增值”(Leech 1991),文本中所包含的多种信息可以通过语料库分析软件提取出来,为人们分析和研究语言提供大量的实证数据。
然而,Sinclair等并不主张对文本进行标注,倡导干净的文本(clean text),这样我们在观察语言时才可以脱离现有理论的束缚。
5.形符(token)是一个语言单位。
语料库语言学中一般将it’s视为两个形符。
总形符数是语料库容量的最常用的测量单位。
如英国国家语料库约有1亿个词,说的就是该语料库中包含有约1亿个形符。
6.类符(type)指不重复计算的形符数。
换言之,在一个文本中,重复出现的形符只能记作一个类符。
以美国作家Gertrude Stein的作品Sacred Emily中的诗句Rose is a rose is a rose is a rose.为例,这句中共有10个形符,而类符只有3个(即rose, is, a)。
据此,我们可以计算这个句子的类符/形符比(type-token ratio, TTR,又称为形次比),即TTR=(3/10)*100%=307.类符/形符比是衡量文本中词汇密度(lexical density)的常用方法。
然而如果文本中有大量的功能词(function words,如the、a、of等)反复出现,文本每增加一个词,形符就会增加一个,但类符却未必会随之增加,这样,文本越长,功能词重复的次数也就越多,类符/形符比也就会越低。
常用的补救方法是用标准化类符/形符比(standardized type-token ratio)来计算词汇密度。
计算方法是,计算每个文本每1,000词(1,000词是参考值,可根据文本的长度进行适当调整)的类符/形符比,将所得到的若干个类符/形符比进行均值处理,最终得到的数值即为标准化类符/形符比。
8.概率(probability)是语料库语言学中最重要的基本概念之一。
语料库语言学的目标之一是解释各种语言现象是否可能发生及其发生概率的大小(参见Kennedy 1998: 270).语料库语言学有两大支撑点,其一是大量的真实语言使用实例,其二是统计学理论及方法,这使得语料库语言学十分有别于基于“理想的本族语者”的直觉的研究方法。
9.频率(frequency)是语料库语言学中最重要的概念之一。
我们可以降学习者语料库中某词的使用频数、学习者语料库容量、本族语者语料库中该词的使用频数、本族语者语料库的容量共4个数值输入四格列联表,通过卡方检验来确定该词在学习者语料库中是否被过多使用(overused)或过少使用(underused)。
10.索引(concordance)又称“语境中的关键词”(key word in context, KWIC),指的是运用索引软件(concordancer)在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。
11.搭配(collocation)并不是某个词语单方面的行为,我们至少应该从两个词语各自的出现频数(occurrences)和共现频数(co-occurrences)两方面来考察搭配的强度。
据此,人们提出了互信息(MI/mutual information)、MI3、Z-score、对数似然率(log-likelihood)等众多测量搭配强度的方法。
12.与搭配相关的另一个概念是“类联接”(colligation)。
类联接关注的同样也是“结伴关系”。
与搭配不同的是,类联接所关注的“结伴关系”不再局限于词汇层面,而上升到词类乃至语法层面,如形容词经常与名词构成类联接。
13.多词序列(MWE/multiword expressions)又称多词单位(MWU/multiwordunits)、复现词组(recurrent word combinations)等。
研究表明,本族语者往往是整块地提取预先存放在大脑中的多词序列,这样才得以把更多的认识资源用于内容整合、句法加工等方面。
在对单语语料库进行研究时,人们常常借助于语料库分析工具,提取和分析出现频率最高、具有较完整的意义的那些多词序列,近年来谈论较多的短语学(phraseology)主要探讨的就是这个主题。
在对平行语料库进行研究时,人们开始关注对应单位(corresponding units,或称翻译单位[translation units]),试图为语言对比和机器翻译提供一种新的方法。
14.很多词看起来并不带有明显的感情色彩。
然而人们通过对索引行的观察发现,有些词貌似中性词汇,但当它们与某些特定词汇为伴构成搭配或类联接时,会产生一些联想意义(如褒贬、好恶等)。
如cause一旦后接宾语,就往往会产生一种不良的联想意义,这便是我们说的语义韵(semantic prosody)。
15.正则表达式(regular expressions,简称regex或regexp)是计算机汇编语言中的一种技术,用于匹配文本中的字符串(如词、短语、电子邮件地址等)。
考虑到有些词英式英语和美式英语的拼法不同,还存在动词的各种屈折形式,在对赋码语料的检索和文本清洁过程中,我们就不得不使用正则表达式了。
16.词性赋码指根据文本中的上下文信息,自动标注文本中所有词的词性的过程。
即,利用现有的计算机程序,可以在文本中各类名词、动词、形容词等所有词之后加上对应的标签,以方便检索和语言处理。
17.元信息(metadata)即关于信息的信息。
语料库的主要信息载体是文本,而标注即是关于文本的信息。
元信息标注为语料库检索和分析提供查询条件和依据。
利用元信息对语料库进行检索,是语料库的一种高级运用,如利用元信息设定语料的条件,由一个大型语料库快速构建一个子语料库,或者在一个语料库中查找符合设定条件的文本。
二、语料库研究基本范式:1.基于语料库的方法(corpus-based approach)。
基于语料库的方法并不反对也不试图推翻传统的语言理论,也不排斥研究者的直觉。
而是由研究者根据以往的语言研究成果或对语言的认识,首先提出假设,然后到语料库中去验证假设。
假设是否成立取决于语料库中的语言实例。
在这种研究中,一些传统的概念和理论被进一步验证或延伸。
基于语料库的研究方法以概率为基础,是统计学和实证研究方法在语料库语言学领域的具体应用。
2.语料库驱动的方法(corpus-driven approach)。
这种方法主张,我们在对语料库进行分析之前并无任何假设,通过对语料库中的所有例证进行穷尽的分析和归类,得出有关语言使用情况的假设乃至结论。
语料库驱动的研究方法的基本程序是“观察—假设—归纳—理论整合”。
(摘自:梁茂成、李文中、许家金,2010,《语料库应用教程》。
北京:外语教学与研究出版社。
)三、语料库软件;1.BFSU PowerConc(检索工具)例:\上海海事大学_WORKSHOP\Tools\01检索工具\01BFSU PowerConc 1.0.beta21c\Sample_texts2.TreeTagger for Windows自动词性赋码器(标注工具)(生文本须放在TreeTagger_3_English的文件夹下,标注好的文件在TAGGED文件夹下)3.BFSU Qualitative Coder(标注工具)例:\上海海事大学_WORKSHOP\Tools\02标注工具\BFSU Qualitative Coder 1.2\CLEC_sample(备注:上述语料库为大学生英语语料库(CLEC)中的四级作文语料库)4.Yacsi 0.96_汉语分词标注工具(修改计算机时间到2011年或以前)5.元信息(metadata)的设置与添加:在template中的两个<HEADER>之间添加元信息,然后再用Headappend(标注工具)添加。
6.Sub-corpus creator(检索工具):建子语料库例:\上海海事大学_WORKSHOP\Data\02_Learner_corpora\MICUSP7. 用Abbey Aligner对齐文本(文本处理)后保存为TMX格式,在EditPad Pro (文本处理)中:○1清除所有英语、汉语:首代码+.*?+尾代码(注意勾选Regular Expression和Dot Matches Newline)○2除去剩余标签:<[^>]+>(若只除去标签,那就得到mixed版本)○3除去空行:^\s+[\r\n]+○4Options—Line Numbers:检查中英文行数是否一致。
○5另存为:文件名”…EN/ZH.txt”,保存类型改为txt。
再将编码改成:ANSI(注意保存到文件夹parallel,因为BFSU ParaConc软件只支持ANSI编码文本,不支持Unicode编码文本。
)例:\上海海事大学_WORKSHOP\Data\03_More_texts\《中国哲学简史》英语、中文8.BFSU ParaConc(检索工具):用来检索平行双语语料库:9. Keywords Plus(检索工具,可以用来计算loglikelihood):用来比较两个语料库,一个是观测语料库(observed corpus,如\上海海事大学_WORKSHOP\Data\02_Learner_corpora\WECCL_sample),一个是参考语料库(reference corpus,如\上海海事大学_WORKSHOP\Data\01_General_and_native_corpora\NESSIEv1.0)。