语料库课程(一)笔记解析

合集下载

专业的语料库使用技巧

专业的语料库使用技巧语料库是在语言学和应用语言学研究中非常重要的工具。

它是大规模文本的集合，可以用来研究语言的使用情况和规律。

对于语言学研究者、翻译人员、教师和学生来说，掌握语料库的使用技巧是必不可少的。

本文将介绍一些专业的语料库使用技巧，帮助读者更好地利用语料库进行学习和研究。

一、选择合适的语料库选择合适的语料库是使用语料库的第一步。

不同的语料库有不同的特点和用途，因此我们需要根据具体的需求选择合适的语料库。

常见的语料库包括：1. 综合性语料库：这些语料库收录了各种类型的文本，涵盖了不同的话题和领域。

例如，BNC（British National Corpus）是一个英语综合性语料库，适合于对英语的整体使用情况进行研究。

2. 学科专业语料库：这些语料库针对特定学科的使用情况进行了收集和整理。

例如，法律语料库和医学语料库分别用于研究法律和医学领域的语言使用。

3. 历时语料库：这些语料库收录了不同时期的文本，可以用来研究语言的演变。

例如，COHA（Corpus of Historical American English）是一个用来研究美国英语历史演变的语料库。

二、设置搜索条件在使用语料库进行检索时，我们需要设置适当的搜索条件，以便找到所需的文本。

以下是一些常用的搜索条件：1. 词汇：我们可以输入一个或多个词汇，以搜索包含这些词汇的文本。

还可以设置搜索词的位置（如句首、句中、句末）和词性（如名词、动词、形容词等）。

2. 短语：除了单个词汇，我们还可以搜索特定的短语。

短语搜索可以通过添加引号来实现，以确保搜索结果仅包含完整的短语。

3. 上下文：为了更精确地定位所需的文本，我们可以指定搜索词的上下文。

上下文可以是一个特定的句子、段落或文档。

4. 语言特征：语料库通常提供一些基于语言特征的搜索选项，如词频、词汇搭配、句法关系等。

这些选项可以帮助我们更深入地了解和研究语言的使用。

三、分析搜索结果搜索结果的分析是使用语料库的关键步骤之一。

第4章：自然语言语料库与词汇知识库

No.95, Zhongguancun Beijing 100080, ChinaNLPR4.1 基本概念NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR 4.1 基本概念输入输出处理模块大规模语言数据：•模型参数训练•知识获取NLP中知识库包括：•词汇语义库语言数据库或知识库•词法、句法规则库•常识库等等NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR 4.1 基本概念语料库(corpus)¾语料库(corpus)就是存放语言材料的仓库（语言数据库）。

基于语料库进行语言学研究－语料库语言学(corpus linguistics)NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学根据篇章材料对语言的研究称为语料库语言学。

－[Aijmer, 1991]基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。

－[McEnery, 1996]以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。

－[Crystal, 1991] NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR 4.1 基本概念两种解释：不是新术语：利用语料库对语言的某个方面进行研究，或者发现某些规律性知识。

是新术语：对现行语言学理论进行批评，提出新的理论。

NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR 4.1 基本概念“语料库语言学已经成为语言研究的主流。

基于语料库的研究不再是计算机专家的独有领域，它正在对语言研究的许多领域产生愈来愈大的影响。

”－J. Thomas等人为祝贺语料库语言学的主要奠基人和倡导者G. Leech六十岁生日而出版的语料库语言学研究论文集的开场白[丁信善，1998]。

NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学研究的内容：语料库的建设与编纂语料库的加工和管理技术语料库的使用NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR4.2 语料库技术的发展NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR 4.2语料库技术的发展三个阶段20世纪50年代中期之前：早期¾语料库在语言研究中被广泛使用：语言习得、方言学、语言教学、句法和语义、音系研究等NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义NLPR 4.2语料库技术的发展1957～20世纪80年代初期：沉寂时期¾1957年Chomsky的《句法理论》及其以后一系列著作的发表，根本改变了语料库语言学的发展状况。

常见语料库使用入门

8
公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC)：/ 03.美国当代英语语料库(COCA)：/ 04.美国近当代英语语料库(COHA)：/coha/ 05.英国国家语料库(BNC)：/bnc/ 06.柯林斯英语语料库(BOE)：/wordbanks/ 07.英国英语语料库(SEU)：http: ///english-usage/ 08.澳大利亚英语语料库（ACE）：http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC)：http: ///
词性标记句法标记词义标记篇章指代标记韵律标记 ……
材料/工具准备阶段
若只是要词频数据，则生语料库足够， word/wps或txt记事本都可以建立word/wps 的“查找替换”工具即可， txt记事本的“编辑-查找”工具也行。
生语料库加工标注
熟语料库
“宏”
39
个人语料库创建
生语语料库
熟语语料库
3
语料库及其分类
第二节公共语料库检索
4
公共语料库检索
统计频率
基于检索
查找例句
参数设置
带着问题
收集证据
验证分析
5
公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料：.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献：.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库：http://124.207.106.21:8080/ 04.国家语委现代汉语语料库：/retrieval/index.html 05.树图数据库：.tw/ 06.语料库语言学在线： 07.北京大学CCL语料库：/Yuliao_Contents.Asp

北京外国语大学语料库语言学考博参考书目导师笔记重点

学科、专业研究方向
名称
研究领域
初试考试科目
外国语专业科目一
专业科目二
050211
语料库语
语料库语言学
外国语言学
言学应用语言学/语料库语言
及应用语言（013 外
学
学
研中心）
语料库语言学
英语
应用语言学（外研中心）
语料库研究语料库语言学
三、关于北京外国语学院考博注意事项
（一）报考类别，包括以下两种类型： ①非定向：录取后没有保持人事关系的正式工作单位，读博期间个人人事档案及户口转入学校
第二阶段：专题整理和讲解在第一阶段的基础上，由专业课老师带领整理重要常考的学科专题，进行各个知识模块的深化和凝练。以专题为突破口夯实并灵活运用理论知识。第三阶段：时事热点和出题人的论著对出题老师的研究重点，最新论文成果和重要的上课的笔记课件进行讲解。对本专业时政热点话题进行分析，预测有可能出现的题型和考察角度。第四阶段：历年真题演练和讲解对历年真题进行最深入的剖析：分析真题来源、真题难度、真题的关联性，总结各题型的解题思路、答题方法和技巧。全面提升学员的答题能力，把前面几个阶段掌握的理论知识转化为分数。第五阶段：模拟练习及绝密押题就最新的理论前沿和学科热点结合现实的热点进行拔高应用性讲解。开展高强度模拟考试，教会考生怎么破题，怎么安排结构，怎么突出创新点等答题技巧。结合最新的内部出题信息和导师信息进行高命中押题。
5、经济上要有一定的支撑。包括人际关系费用，找该校的对口复习资料费用，报辅导班的费用，考试费等等，该花的最好不要省，只要是对考博成功有利的。因为这些钱对于博士生出来后的待遇来说太微不足道了。（二）专业课如何复习
对待专业课的认识，有些考生以为自己学了这么多年本专业，甚至发表了不少文章，专业课应该没问题了，从而放松了对自己专业课复习的要求。其实现在博士录取时，各个环节都不能放松。即使及格了，如果成绩较低，总分排名靠居后，也会影响导师对自己的印象。提高专业课的复习效率，育明考博告诉大家可以分为以下两个阶段：

语料库语言学解析

Categories:
1. Editorial metadata(编辑元数据）
2. Analytic metadata（分析元数据） 3. Descriptive metadata（描写元数据）
4. Administrative metadata（管理元数据）
Categories of Metadata
SAY 1 2 3 4 say says said saying
Freq. 20 15 9 2
Keywords and Key sequences
Compared （对比）；Frequency （频率）； Extracting （筛选）
Reference corpus （参照语料库）
A transcript of medical consultation医学讨论会手稿（口语）
Corpus Linguistics
语料库语言学
Presented by: Song Chao Wang Zeyu Li Zhanyu
Outline
Chapter I: Introduction
Chapter II: Analyzing Corpus Data
Chapter III: Current Issues in Corpus Linguistics
Focus of Corpora
The corpora above mainly focus on the collection of general English in use. Specialised corpora : represent a particular mode of discourse eg:1)Bergen Corpus of London Teenage Language (COLT) ; dominate academic discourse eg: 2)Michigan Corpus of Academic Spoken English (MICASE) and 3)British Academic Spoken English corpus (BASE) Another category of corpora captures the language use of language learners. eg: 1)Cambridge Learner Corpus, 2)Longman Learners’ Corpus, 3) International Corpus of Learner English (ICLE), 4) Vienna-Oxford International Corpus of English (VOICE), 5) English as a Lingua Franca in Academic Settings (ELFA)

语料库笔记

语料库简单DIY 第一讲语料库--语料库语言学的工具主讲叶城日本国立广岛大学综合科学研究中心计算机辅助语言教学博士一年联系方式: QQ 47354211 E-mail: sery2004@在语言学QQ群里面混迹了多年，经常潜水走马观花似的看着群里面的朋友们针对语料库提出各种各样的问题和困惑，总结起来，大家的问题无非离不开对于语料库的理解，应用，以及研究。

不过，因为群里面的朋友大多数都是文科的文学，语言学，以及对外汉语专业。

对于计算机辅助语言研究，语料库语言学等概念接触的机会并不是很多。

加上群里的女性朋友居多，她们对于电脑操作系统本身的使用都存在诸多头疼的问题，就更不要提数据量超大的语料数据库了。

本人不是计算机专业的毕业生，本科是日语专业，硕士是比较语言学，博士是计算机辅助对日汉语教学。

所以对于语料库本身的程序和数据库，认识只是停留在应用和架设阶段，实在说不清楚里面很多细节的问题，也请朋友们原谅。

我有说的不对的地方，欢迎来信或者QQ群里直接批判，我一定虚心接受。

谢谢！首先，我们来个扫盲活动，把对于语料库的认识梳理清楚。

第一个内容：语料库是干嘛的？CORPUS =The body of written or spoken material upon which a linguistic analysis is based .这里的CORPUS就是我们说的语料库，它实际上也等于CORPSE或者Dead Body。

就是死尸的意思。

好奇怪，这里怎么搞个死尸进来呢？其实这个概念是在构造主义时期1956年由英国的语言学会提出来的。

他们认为，人类研究语言的时候，需要诸多实体例子，这样的例子最好是最纯净的，最朴实的，甚至是最低俗低劣但是最普及的。

并且我们需要一个庞大的地方放置我们日常的言行，报纸杂志上刊登的新闻，以及各种各样的文学体裁等等。

而放置这些语言信息的地方，则被称为没有活力没有变化没有生机勃勃，像停尸房一样的地方----语料库。

构建语料库的方法

构建语料库的方法《构建语料库的超酷方法，独家分享！》嘿，宝子！今天我要跟你唠唠构建语料库这个超有用的事儿，就像我要把我压箱底的独家秘籍传给你一样，可别外传哦（开个小玩笑啦）。

一、明确语料库的用途（这就像确定目的地一样重要）首先呢，你得知道为啥要构建这个语料库。

是为了写学术论文，还是搞创作写小说，或者是为了学习外语呢？比如说我有一次想写个科幻小说，结果我构建语料库的时候，都不知道要收集啥，后来发现我连科幻小说里常见的一些科学术语、星际旅行的词汇都没搞清楚，就瞎收集，那肯定不行啊。

就像你要去旅游，你得先知道你要去海边还是山里吧。

要是为了学术论文，那就要围绕你研究的领域，像我一朋友研究古代历史的，他构建语料库的时候就专门收集古代文献、考古报告这些相关的语料。

二、确定语料的来源（找食材的过程）这一步就像我们做饭找食材一样。

来源可多啦。

1. 书籍去图书馆或者网上找相关的书籍。

如果你是搞文学创作，那各种经典小说、散文都是你的宝库。

我有次构建关于爱情主题的语料库，就从《霍乱时期的爱情》《简·爱》这些书里扒出了好多超感人的句子和词汇。

2. 网络资源这可是个大宝库。

各种新闻网站、博客、论坛啥的。

不过要小心筛选哦，就像你在菜市场买菜，有些菜看着新鲜，其实可能有农药残留呢。

比如你要构建关于时尚的语料库，时尚博主的文章就很有用，但有些小网站可能会有错误信息。

像我之前在一个不靠谱的小论坛上找美食语料，结果好多错字，还把一些食材名字都写错了，差点闹笑话。

3. 学术数据库（如果是学术用途）学校或者机构的学术数据库里有很多专业的研究论文、报告。

这些就像高级食材，特别适合学术研究这个“大餐”。

三、收集语料（开始疯狂囤货啦）现在开始把你找到的语料收集起来。

可以用笔记软件，像印象笔记就超好用。

你可以把文字复制粘贴进去，要是看到纸质书上的好内容，那就打字输入进去呗。

我刚开始的时候可傻了，我看到一本超棒的诗集里的句子想放进语料库，我就手抄，抄了半天，手都酸了，后来才发现可以拍照识别文字，再稍微修改下就好，真是笨死了。

语料库基础知识

/yingyong/courses/corpusbase.htm语料库研究与应用综述语料库研究与应用综述一概述语料库通常指为语言研究收集的、用电子形式保存的语言材料，由自然出现的书面语或口语的样本汇集而成，用来代表特定的语言或语言变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。

人们通过语料库观察和把握语言事实，分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。

有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous ）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous ）：只收集同一类内容的语料；（3）系统的（Systematic ）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized ）：只收集用于某一特定用途的语料。

除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual ）、双语的（Bilingual ）和多语的（Multilingual ）。

按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。

语料库建设中涉及的主要问题包括：（1）设计和规划：主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

（2）语料的采集：主要考虑语料获取、数据格式、字符编码、语料分类、文本描述，以及各类语料的比例以保持平衡性等。

（3）语料的加工：包括标注项目（词语单位、词性、句法、语义、语体、篇章结构等）标记集、标注规范和加工方式。

Chapter 1b

对于语言学的研究可以追溯到古希腊时期。

公元前五到四世纪，希腊著名哲学家苏格拉底、伯拉图、亚里斯多德在他们的研究中对语言的研究就站和大地位。

伯拉图的一篇《对话》，《克雷特里斯》（Cratylus）讨论到词为什么具有意义。

克雷特里斯认为：一个对象的名称是由于它的性质而产生的所以语言自然而然地具有意义。

赫莫吉尼斯：反对这种观点，认为名称之所以能指称生物是由于惯例的原因，也就是语言使用者达成的协议。

然后苏格拉底论述两种观点的有缺点。

他说，一个句子分成两部分，名词部分和动词部分。

亚里斯多德是古希腊最著名的哲学家、思想家。

他在《解释篇》、《修辞学》、《诗学》等著作中讨论了有关语言的问题。

他认为：由于形成于惯例，因为名称没有天然产生之理。

语言的词汇只是这些思想的标记。

他进一步讨论名词部分和动词部分，指出名词没有时间成分，而动词有时间成分。

斯多噶派是盛行于公元前四世纪的一批哲学家和逻辑学家。

（他是亚里斯多德的反对者）他们区分了五大词类：名词、动词、连词、冠词和关系代词。

提出“白板说”“自然说”。

亚历山大大帝建立了两个殖民地：埃及亚历山大、土耳其帕加马，亚里斯多德将自己的藏书都赠给了亚历山大，许多学者来此定居从事科学研究成了有名的亚历山大学派、帕加马学派。

辩论的开始围绕：自然界是如何构成的，自然界的运动情况如何反映到人类语言之中？（公元300--146）斯拉克思《语法科学》总结了亚历山大派的语法研究工作，在第一部中进行了语音研究语法部分他认为词汇分8种。

名词、动词、冠词、代词、介词、副词、连词，分词。

文艺复兴前只是对古希腊和拉丁语的研究，14，15 世纪开始将语言学范围扩大。

开始对希伯来语阿拉伯语的研究。

因为《圣经》原文是希伯来语。

古罗马与古希腊来往已久，公元前三世纪罗马帝国征服希腊城之后，希腊科学文化直接影响罗马的发展。

罗马帝国西部拉丁语是官方语言，东部希腊语事官方语言。

希腊的文化科学乘机而入。

著名语言学家瓦罗将语言研究分为三大部分：词源学、形态学、句法学。

从语料库中挖掘知识-北语1

语言信息处理与汉语知识研讨会，2010/5/29-30，北京语言大学从语料库中挖掘知识Mining Knowledge from Corpus冯志伟提要：本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作，如，汉语名词语法功能的研究，20种语言中心词居前与中心词居后的分布研究，汉语复杂网络的研究。

这些工作都是在汉语依存树库的基础上进行的。

本文也简要地介绍了国外从语料库中获取非语言学知识的研究。

20世纪90年代以前，从事计算语言学系统开发的绝大多数学者，都把自己的目的局限于某个十分狭窄的专业领域之中，他们采用的主流技术是基于规则的句法-语义分析，尽管这些应用系统在某些受限的“子语言”（sub-language）中也曾经获得一定程度的成功，但是，要想进一步扩大这些系统的覆盖面，用它们来处理大规模的真实文本，仍然有很大的困难。

因为从自然语言系统所需要装备的语言知识来看，其数量之浩大和颗粒度之精细，都是以往的任何系统所远远不及的。

而且，随着系统拥有的知识在数量上和程度上发生的巨大变化，系统在如何获取、表示和管理知识等基本问题上，不得不另辟蹊径。

这样，就提出了大规模真实文本的自动处理问题。

1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议（即COLING'90）为会前讲座确定的主题是：“处理大规模真实文本的理论、方法和工具”，这说明，实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。

为了实现战略目标的转移，需要在理论、方法和工具等方面实行重大的革新。

1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议（TMI-92）上，宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。

所谓“理性主义”，就是指以生成语言学为基础的方法，所谓“经验主义”，就是指以大规模语料库的分析为基础的方法。

从中可以看出当前计算语言学关注的焦点。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

论溯源与反思，《中国外语教育》（4）：3845.
基本观点
词汇中心教学法坚持以词项（lexis）单词短语结构为基本单位的语言观；重视频率在大缸设计及教学中的作用；词汇中心教学法本质上采取的是交际法，它强调将词项置于真实语言素材中，并贯穿于真实任务中加以学习。同时提倡学生自主的发现式学习。
Step1 打开Sub-corpus creator，导入seccel（只能导入单个文件夹），显示文本文件，勾选case sensitive（区分大小写），file contains “T1=”，获得男生/女生文本，保存生成子库。
Step2 用PowerConc对两个子库进行比较。
2 趋势
small & specific
标记（mark-up）与标注
Sinclair和他的clean text policy （Sinclair认为语料库语言学应摒弃旧理论一切重来）
语料库语言学界对标注的态度（大部分研究者认为应该标注），世界最大的语料库Bank of English可以进行词类检索。
标注的主题
1. 人工标注（Brown语料库） 2. 机器标注（准确率97-98%）
Step1:新建文件夹1：observeText 新建文件夹2：referenceCorpus
Step2：安装PowerGREP Step3: 设置PowerGREP （preferencegeneral,勾选1、2空格）
Step4: 格式转换（UTF-8转换成ANSI）：
1) 找到04Academic，单击右键，出现search with PowerGREP(若有子文件，选第search subfolders)
语言学习观：行为主义（行为主义）
教学实施方案：句型操练
两大教学法之二：交际法
语言观组活动
What and how
教什么怎么教
词汇中心教学法
The Lexical Approach 许家金，2009，词汇中心教学法的交际观：理
8.2上午
（一）梁茂成手工标注
1）自动标注 TreeTagger
word_Pos word-Pos_Lemma(原形)
2) 手工标注: BFSU Qualitative Coder
语料库的手工标注
BFSU Qualitative Coder 1.1 1）根据codelist，修改制定需要的mycodelist 2）打开BFSU Qualitative Colder 3) 打开需标注的.txt文档，导入mycodelist，进行手工标注 4）BFSU中可做统计（点statistics，跳出网页） 5）保存为.txt文档后，用powerconc检索分析，如：检索<LIT> free hand</LIT>
Why concordancing? 上下看强形式搭配，左右看综合分析用法。
基本概念 type （独特词形），token，KW/SW/Node word span (一个span可视作一个mini text) collocates (观察从collocationcolligationsemantic meaning) cotext, context, co-occurrence(同现)，recurrence(复现)
基本观点
然而，由于过分依赖频率信息，语言观和语言教学完全基于词项，将词汇中心教学法嫁接于任务型教学且缺乏创新，归纳式的自主。。。
实例演示
新闻英语教学设计以新闻英语常用动词教学设计为例 powerConc with China Daily Political new 2011
Words cluster as people do
e.g. Search: no attempt 用法 Regex: \bno\b\s\battempts?(ed/ing)\b 观察collocation and co-occurrence
作业：hair: 单数与复数的隐喻 body metaphor
出结果后，点击keyness，出现load Ref.wordlist，导入 academicOnewordlist, count ④自设主题词临界值，如前20词，按照by value进行比较。
理据
我们对真实世界的理解表达为知识知识表现为不同的语义场语义场表现为各种词语场各种词语场实现为各个词群（单词或短语）特定话题触发独特词群具有特定话题的文本包含独特词群，该词群一
replace
e.g.replace：空格1不填，空格2填 ST$，出现从1开始排序的新文件名。
3. 文本清理，元信息标记、语言学标记
8.1下午
（三）梁茂成语料库的标注
标注与干净文本原则标注的常见类型词性标注手工标注
标注与干净文本原则
标注（annotation）： The process of applying additional information to corpus data.
contrastive studies 3 建库准备
建库原则，文本收集，文本分类，文本处理，标记（外部信息），标注（annotating notes, 语言学标注）
e.g. <Year>1990</Year><Sex>Male</sex>
8.1下午
（二）许家金语料库采集与整理
1. 基本要素
① Text format: . txt ② Filename: short&alphanumeric(字母数字组
得出结论： reporting verbs：
said told added
检索make，2-gram词表
make +adj
教学实施要点
真实语言材料，真实语境频率优先原则（材料的编排与选择）归纳式、发现式学习
8.2上午
（二）李文中主题词分析
分析文本时注意备份，把需分析的语料放入新建的文件夹中。
练习：使用语料： 04Academic/4Genres_RAW/Four_Genres/01 _General_corpora/Data
1. 创建2个对比文件夹，用PowerGREP转换格式，并把text放入这2个文件夹
合，不超过8词，不用汉字，不出现空格） ③ encoding ANSI：英语，汉语
三种格式： UTF8：平行语料库 Unicode：其他语言
④ versions of corpora: RAW, POS, with metadata
2. 批量文件名修改
insert
SuperbBatchRenamer
般不在其它话题中出现
因此
某个特定话题的文本包含的独特词群具有异常高频
参照语料库代表了某一类型语言运用的常态对比两个词表，可以提取那些超常高频的词群
比什么：条件控制
控制相似变量突出差异焦点
描述
观察文本具有明确主题的完整文本或一致主题的文本集
参照语料库具有足够的代表性足够大同质语料
① 打开PowerConc, 导入referencecorpus进行N-gram统计，结果save到PowerConc根目录下，命名为 academicOnewordlist.
② 打开academicOnewordlist, 删除前4行，保存。 ③ 再打开PowerConc，导入observetext，N-gram，count，
标注的客体
1. 语音与音调的标注 2. 词性标注（part-of-speech tagging） 3. 句法标注（parsing，斯坦福大学做的较好） 4. 语义标注（semantic tagging） 5. 错误标注（error tagging 学习者语言，人工） 6. 停顿标注等。。。
标注的常见类型
④ context
二、为什么要研究语料库语言学
1）使语言学研究更具科学性 2）可验证，不是玩具 3）大数据，更具说服力 4）enables you to look at a lot of language at once
8.1上午
（二）李文中
Brown-Raw 语料库范例 Span 跨距（KWIC，一般左5右5）检索排序(sort)，以necessarily为例，观察得出结论：经常与not连用。
标注必须基于科学、合理的分类体系 1. 与研究目的相关 2. 分类的穷尽性 3. 各子类不应该相互重叠 4. 关于“其他”类（应该是最小类）
标注的常见类型
标注集/赋码集（tagset）是标注中所使用的代码集，是对分类体系的操作化。
Tagset: A collection of tags (or coldes) in a tagging scheme.
<by value>: datamin10, 即过滤掉频率<10的词 <by Regex>: I\S+|C\S+表示介词+连词 √ exclude 表排除
不勾选表示选中 “Save distribution” 保存分布信息，即按文本单独保存。
8.1下午
（一）李文中
1. 标注信息的添加与使用
e.g. 用PowerConc检索 dataleanerseccl 问题：男生与女生在口语中使用情态动词有无差异
8.1上午
（三）许家金
PowerConc设计原则 most powerful least effort doing more with less
基本操作
N-gram list：n词词表 Hits：相当于 Token概念 Items：相当于Type概念 Size：包括单词、符号、数字 Filter mode：过滤掉不需要的