COCA语料库操作 演示.ppt
BNC语料库使用说明ppt课件

37ቤተ መጻሕፍቲ ባይዱ
38
39
40
BYU-BNC词性附码的使用
1)查询多义词特定的词性,如for 2)某个词前/或者后面特定词性的若干搭配
词, 如confidence 前的形容词 3)词性附码放置的位置 Words或者context处
41
将BNC KWIC制作成mini text
10
图2.1.2-1
•规则:输入名词的话用正则表 达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
11
图2.1.2-2
White+名词的短语
12
2.1.3 输入通配符(wildcards),如分别输入 un*ly和r?n*,结果如图2.1.3-1和.2.1.3-2
如在Fiction和Newspaper子数据库中 passionate后面可以跟任何名词的词及频率, 分别如两图(2.3-1和2.3-2)
26
图2.3-1
图2.3-2
27
但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
28
34
2.4.3 搜索近义词 如:搜索beautiful的所有近义词(如图
2.4.3-1)
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
35
再如:搜索动词clean的所有近义词,如下 图:
图2.4.3-2
36
当然可以进一步搜索与clean语义相近的动 词+the+名词的词组,[[=clean]].[v*] the [n*] 如下图:
常见语料库使用入门

8
公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC):/ 03.美国当代英语语料库(COCA):/ 04.美国近当代英语语料库(COHA):/coha/ 05.英国国家语料库(BNC):/bnc/ 06.柯林斯英语语料库(BOE):/wordbanks/ 07.英国英语语料库(SEU):http: ///english-usage/ 08.澳大利亚英语语料库(ACE):http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC):http: ///
词性标记 句法标记 词义标记 篇章指代标记 韵律标记 ……
材料/工具准备阶段
若只是要词频数据, 则生语料库足够, word/wps或txt记事本 都可以建立word/wps 的“查找替换”工具 即可, txt记事本的“编辑-查 找”工具也行。
生语料库 加 工 标 注
熟语料库
“宏”
39
个人语料库创建
生 语 语 料 库
熟 语 语 料 库
3
语料库及其分类
第二节 公共语料库检索
4
公共语料库检索
统计频率
基 于 检 索
查找例句
参 数 设 置
带着 问题
收集 证据
验证分析
5
公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料:.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献:.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http://124.207.106.21:8080/ 04.国家语委现代汉语语料库:/retrieval/index.html 05.树图数据库:.tw/ 06.语料库语言学在线: 07.北京大学CCL语料库:/Yuliao_Contents.Asp
常见语料库使用入门_图文

10 公共语料库检索
小问题:
一种语言现象我们至少得收集多少条语料呢?
500 徐杰教授认为,语料多多益善,至少应收集
条。
大数定律(Law of Large Numbers): 指在随机试验中,每次出现的结果不同,但是大量重复
试验出现的结果的平均值却几乎总是接近于某个确定的值。
11 公共语料库检索
抽样与调查
9 公共语料库检索
国外18个知名英语语料库
10.LLC口语语料库: http://khnt.hit.uib.no/icame/manuals/ 11.COBUILD语料库:/Corpus/CorpusSearch.aspx 12.ICE东非等分库:/english-usage/ice/avail. htm 13.ARCHER语料库:/english/degree_programs. asp 14.CEECS语料库:http://www.eng.helsinki.fi/varieng/main/corporal.htm 15.SCTS语料库:http: /// 16.VOICE语料库:http: //www.univie.ac.at/Anglistik/voice/ 17.ELFA语料库:http: //www.uta.fi/laitokset/kielet/engf/research/elfa/ 18.朗曼语料库:http: ///dictionaries/corpus/index.html
40 个人语料库创建
熟语料库加工阶段
可以采用这个工具
双 击 打 开 软 件
41 个人语料库创建 熟语料库加工阶段
检 索 式 示 例
公共语料库的检索说明
——以BCC语料库为例
18 公共语料库检索
COCA语料库操作 演示.ppt知识讲解

图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.5-1
图2.1d的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏
5. 结果栏
3. 子语料库 4. 最小匹配
6. KWIC 栏
2. 主要搜索功能
• 2.1 搜索words、phrases、lemmas、 wildcards和其他更加复杂的字词
• 2.1.1 输入单词“mysterious” (图2.1.1-1): • 得到相关结果(图2.1.1-2):在各子库中的频
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以un-开头、-ed结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
COCA 语料库界面查询输入说明(修订)

1. COCA界面的字符串查询(WORD(S))处输入词示例内容的说明
输入词示例
作用
说明与技巧
Jumbo或
soft landing
查具体的词或短语
也可以输入长字符串(9词以下)
borrow/lend
简单对比两个词的使用频率
SECTION 2=FIC
查smart的同义词在报纸和小说中的使用情况
查beautiful的同义词与flower的同义词搭配的情况
small
little
[nn*]
0/3各
RELEVANCE
查small和little后面3个词内的名词使用对比情况
ground.[n*]
floor.[n*]
[j*]
3/0
RELEVANCE
各查ground和floor作名词时前面3个词内的形容词使用对比情况
查is被缩写为’s情况的句式结构
’s在本语料库中可以被视为一个词单独查询,即,和前面的单词要空格且输成‘s,其它缩写形式也是用类似方法查询
it is [v*] that
或we [vv*] that
查句式结构
选择CHART显示可以看出第一个是学术结构,是口语的8.5倍;第二个结构口语中最常用
to [v*] or not to [v*]
dis* [v?d]
查第一个词以dis开头,
下一个词为过去式结构
(注意与上面的区别)
查到district had, disease was, disease had等
*ly.[j*]
查以ly结尾的形容词
仅查ly结尾的词作形容词使用情况
美国当代英语语料库(COCA)使用介绍要点

COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
在美国当代英语语料库(COCA)如何查词

在美国当代英语语料库(COCA)如何查词.doc 在美国当代英语语料库(COCA)如何查词摘要:美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库。
该语料库的语料来自1990-2012年,每年更新,检索功能强大,是最佳的英语学习助手。
本文以sorry为例介绍了如何在美国当代英语语料库中查询单词及对单词sorry的检查与研究结果。
关键词:美国当代英语语料库,平衡语料库,sorryAbstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark avies of Brigham Young University,and it is used by tens of thousands of sers every month (linguists,teachers,translators,and other searchers).COCA is also related to other large corpora that we have created.The corpus contains more than 450 million words of text and isqually divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012.Key words: the Corpus of Contemporary American English,parallel corpus,sorry中图分类号:H319.3文献标识码:A文章编号:1006-026X(2013)12-0000-02一、引论美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿以上,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库,且与其他所建语料库相连。
最新常用在线语料库使用简介PPT课件

字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 显示方式 2. 关键词输入栏 5. 结果栏
3. 子语料库 6. KWIC 栏 4. 最小匹配
2. 主要搜索功能
• 2.1 搜索words、phrases、lemmas、 wildcards和其他更加复杂的字词 • 2.1.1 输入单词“mysterious” (图2.1.1-1): • 得到相关结果(图2.1.1-2):在各子库中的频 率,每百万词使用的频率 • 若对图2中的相应条块进行点击,那么就可 以看到KWIC,如图2.1.1-3 (以点Fiction的 条块为例):
规则:在WORDS的方格里输入[=beautiful],表示和beautiful语义 相近的所有形容词。
• 再如:搜索动词clean的所有近义词,如下图:
图2.4.3-2
• 当然可以进一步搜索与clean语义相近的动词+the+ 名词的词组,[[=clean]].[v*] the [n*] 如下图:
图2.4.3-3
思考:
• 1)如何查询多义词特定的词性的KWIC,如for 作连词或介词等? • 2)如何查询某个词前/或者后面特定词性的若干 搭配词, 如confidence 前的形容词? • 3)词性附码应放置在什么位置?
杨百翰大学COCA语料库使用说明
1. 杨百翰大学COCA语料库简介
Corpus of Contemporary American English (1990-2012)能在线免费提供 400+ million 词,在线网 址为:/coca/ 但需要用电子邮箱注册才能使用,对不同使用者有 不同层次的要求,对最低层的使用者,每天可检索100 次,共10000个KWIC 行。 通过这个网址: 还可以搜索 到以下语料库:
规则:在WORDS里输入: smile.[n*],表示作为名词smile; 在COLLOCTES里输入: [j*]表示其前后出现形容词的语境。
Confidence前使用的常用形容词 图2.2-3
• 2.3 搜索在子语料库(register)内(或之间)出 现的频率(或比较)(不同语域中的用法) • 如在Fiction和Spoken子数据库中 passionate后面可以跟任何名词的词及频率, 分别如两图(2.3-1和2.3-2)
图2.1.4-1
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
图2.1.4-2
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2): • 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以 un- 开头、 -ed 结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。
图2.4.2
规则:在WORDS的方格里分别输入woman和man,再在 COLLOCATES方框里输入[j*],选在左3,表示前面3个跨 距内所有的形容词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图2.4.3-1)
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
图2.1.2-2
White+名词的短语
• 2.1.3 输入通配符 (wildcards),如分别输入 un*ly和r?n*,结果如图2.1.3-1和.2.1.3-2
图2.1.3-1
图2.1.3-2
• 2.1.4 输入lemma(即一个单词的单复数、 时态等所有形式),若要得到sing这个单词 的所有形式,可以如下图所示(图 2.1.4-1 )
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.1-1
图2.1.1-2
使用chart 显示
图2.1.1-3
• 2.1.2 输入词组“white+名词” (图2.1.2-1) • 得到的结果都是white后面跟的名词短语 (图2.1.2-2),检索表达式为:white [n*]
图2.1.2-1
注意:选LIST
规则:输入名词 的话用正则表达式: [n*];动词: [v*]; 形容 词: [aj*]; 副词: [av*] ….. 既可以直接输入, 也可以从POS LIST 栏选择 对于“[n*]”,可 选择 “noun. All+”
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):