常见语料库使用入门
语料库基础知识

/yingyong/courses/corpusbase.htm语料库研究与应用综述语料库研究与应用综述 一 概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous ):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous ):只收集同一类内容的语料;(3)系统的(Systematic ):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized ):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual )、双语的(Bilingual )和多语的(Multilingual )。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:(1) 设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
专业的语料库分析方法

专业的语料库分析方法语料库是语言学和计算语言学中非常重要的研究资源,它是一种大规模的语言数据集合,通过对其中的文本进行分析,可以揭示语言使用的规律和特点。
本文将介绍一些专业的语料库分析方法,以帮助读者更好地理解和利用语料库进行研究。
一、语料库获取与构建语料库的获取是进行语料库分析的第一步。
目前,常见的方式包括手动构建语料库和利用自然语言处理技术从互联网上抓取文本数据。
手动构建语料库需要多人合作,通过收集、整理和标注文本数据,构建一个具有代表性的语料库。
这种方式对数据质量要求较高,但可以获得更加精细和专业的语言资源。
另一种方式是利用自然语言处理技术从互联网上抓取文本数据构建语料库。
这种方式可以获取大规模的文本数据,但需要对数据进行清洗和预处理,以确保数据的准确性和一致性。
二、语料库标注与注释语料库中的文本数据需要进行标注和注释,以便后续的分析和研究。
常见的语料库标注方法包括词性标注、句法分析、命名实体识别等。
词性标注是将每个单词与其所属的词性进行对应,句法分析则是分析句子的结构和成分。
命名实体识别可以识别出文本中的人名、地名、机构名等实体。
通过标注和注释,可以使语料库的数据更加有结构和可利用,为后续的分析提供基础。
三、语料库查询与分析语料库的查询和分析是通过提出特定的问题或假设,从语料库中获取相关的语言数据,并进行统计分析和语言学研究。
常见的语料库查询方法包括关键词查询、语境查询和词汇共现分析。
关键词查询可以指定一个或多个关键词,从语料库中检索包含这些关键词的文本。
语境查询则可以指定一个词的上下文环境,寻找与该词相关的语言现象。
词汇共现分析可以通过统计某个词与其他词之间的共现频率,揭示词汇之间的语义关系。
通过语料库查询和分析,可以得出一些关于语言使用规律和特点的结论,为语言研究和自然语言处理技术的发展提供依据。
四、语料库分析的应用领域语料库分析方法在多个领域具有广泛的应用。
下面简单介绍几个主要的应用领域:1. 语言学研究:语料库分析为语言学提供了大量真实的语言数据,可以揭示不同语言现象的规律和特点,如词汇使用频率、句法结构、语义关系等。
语料库学习资料

Use corpus to improve EFL TG.
Find larger amount of examples for tg. points Find out sequence of tg. points in different level of textb. Identify important features of tg. points for demonstration Develop multi-moful data from 黄皮书语料免费下载网址: /download/gzenglish/yuliao.zip 《入门》书光盘 …4u\教材语料在线检索
Whole book download from:
…4u\corpus & grammar\natural grammar
Case demon: plain sailing
For detail: 何安平,2010,语料库的“教学加工”发展综述 [J] 中国外
语
Observe & analyze concordances(2)
Look for attitude or pragmatic selection Case of “CAUSE” in 《入门》\Data\chapt.4\cause&lead Categorize of collocates into pragmatic category Form a pattern like “CAUSE + unpleasant things” Reflection on EFL teaching and learning How to use concordance to distinguish confusing words or phrases LOOK,SEE & WATCH in J book How to highlight feature(s) of gram. item or vocab. item in real use PLACE in S book
美国当代英语语料库(COCA)使用介绍

• 2.3 搜索在子语料库内(或之间)出现的频率 (或比较)(不同语域中的用法)
• 如在Fiction和Newspaper子语料库中passionate 后面可以跟任何名词的词及频率,分别如两图 (2.3-1和2.3-2)。
图2.3-1
图2.3-2
COCA主要功能(三)
• 但是也可以之间对两者子语料库中它们出现频率 的对比,操作:分别选择section 1&2,如下图(图 2.3-3):
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。 • 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
COCA主要功能(二)
• 如:跟在 “smile前面的形容词” (图2.2-2)
规则:在words里输入: smile.[n*],表示作为名词的smile; 在collocates里输 入: [aj*]表示其前后出现形容词的语境。
Confidence前使用的形容词 图2.2-3
COCA主要功能(三)
COCA主要功能(四)
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:在words的方格里分别输入hot和warm,再在collocates 方框里输入[nn*],表示后面所跟任何名词。当然也可以比较在 某个子语料库中出现的频率比较。
POS LIST
verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
BNC语料库使用说明ppt课件

37ቤተ መጻሕፍቲ ባይዱ
38
39
40
BYU-BNC词性附码的使用
1)查询多义词特定的词性,如for 2)某个词前/或者后面特定词性的若干搭配
词, 如confidence 前的形容词 3)词性附码放置的位置 Words或者context处
41
将BNC KWIC制作成mini text
10
图2.1.2-1
•规则:输入名词的话用正则表 达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
11
图2.1.2-2
White+名词的短语
12
2.1.3 输入通配符(wildcards),如分别输入 un*ly和r?n*,结果如图2.1.3-1和.2.1.3-2
如在Fiction和Newspaper子数据库中 passionate后面可以跟任何名词的词及频率, 分别如两图(2.3-1和2.3-2)
26
图2.3-1
图2.3-2
27
但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
28
34
2.4.3 搜索近义词 如:搜索beautiful的所有近义词(如图
2.4.3-1)
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
35
再如:搜索动词clean的所有近义词,如下 图:
图2.4.3-2
36
当然可以进一步搜索与clean语义相近的动 词+the+名词的词组,[[=clean]].[v*] the [n*] 如下图:
常见语料库使用入门

8
公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC):/ 03.美国当代英语语料库(COCA):/ 04.美国近当代英语语料库(COHA):/coha/ 05.英国国家语料库(BNC):/bnc/ 06.柯林斯英语语料库(BOE):/wordbanks/ 07.英国英语语料库(SEU):http: ///english-usage/ 08.澳大利亚英语语料库(ACE):http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC):http: ///
词性标记 句法标记 词义标记 篇章指代标记 韵律标记 ……
材料/工具准备阶段
若只是要词频数据, 则生语料库足够, word/wps或txt记事本 都可以建立word/wps 的“查找替换”工具 即可, txt记事本的“编辑-查 找”工具也行。
生语料库 加 工 标 注
熟语料库
“宏”
39
个人语料库创建
生 语 语 料 库
熟 语 语 料 库
3
语料库及其分类
第二节 公共语料库检索
4
公共语料库检索
统计频率
基 于 检 索
查找例句
参 数 设 置
带着 问题
收集 证据
验证分析
5
公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料:.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献:.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http://124.207.106.21:8080/ 04.国家语委现代汉语语料库:/retrieval/index.html 05.树图数据库:.tw/ 06.语料库语言学在线: 07.北京大学CCL语料库:/Yuliao_Contents.Asp
王陆语料库用法

王陆语料库用法
王陆语料库(Wanglu Corpus)是一个面向中文自然语言处理任务的大规模语料库,由复旦大学计算机科学技术学院王宇教授团队创建和维护。
该语料库包含了来自不同领域和来源的中文文本,可用于词法分析、句法分析、语义分析、情感分析等多种自然语言处理任务的研究和开发。
使用王陆语料库的一般步骤如下:
1. 下载语料库:可以通过复旦大学计算机科学技术学院王宇教授团队的官方网站或相关科研平台下载王陆语料库。
2. 数据预处理:根据具体任务的需求,对语料库进行预处理操作,如去除标点符号、转换为小写、分词等。
3. 数据划分:将语料库按照一定比例划分为训练集、验证集和测试集,以便进行模型训练和评估。
4. 特征提取:根据任务需要,从语料库中提取出合适的特征,如词频、词向量、句法结构等,作为模型输入。
5. 模型训练与评估:根据任务的不同,选择合适的机器学习或深度学习模型,并使用训练集进行模型训练和参数调优,然后使用验证集进行模型选择和调整,最后使用测试集评估模型的性能。
6. 应用与优化:将训练好的模型应用到实际场景中,根据具体应用需求进行优化和改进。
需要注意的是,王陆语料库是一个研究资源,使用时需遵守相应的使用协议和版权规定。
此外,根据任务的具体需求,还可以结合其
他的语料库和工具进行进一步的数据处理和模型开发。
语料库基本知识

.
6
计算语言学
◦ “计算语言学是研究用机器来处理自然语言的学科。它是由信息技
术和语言学交叉而成的”(CuS:1)。SLP没有直接提出计算语言 学的确切定义。SLP的作者在开篇借用了Stanley Kubrick科幻片中 的人物HAL,HAL是一个通晓英语的机器人。作者引入HAL的目 的在于说明,为了构建这样一个可与人通过自然语言进行交流的机 器人,需要哪些知识和技术:语言理解方面有语音识别和自然语言 理解(包括唇读技术),表达方面需要自然语言生成和语音合成, 另外HAL也需要信息检索、信息提取和推理方面的技能。而解决这 些问题一般涉及以下学科:自然语言处理,计算语言学,语音识别 和合成。SLP的作者将这三者合起来称为语音及语言处理,除了以 上HAL所用的这些技能外,SLP也囊括了其他重要的语言处理领域, 如:拼写校正、语法检查和机器翻译。
.
42
语言设定
.
43
.
44
(如逗号、句号等) 包括在内,但这一点有例外,如数字3.1415925 和整数的千分位分隔符(如100,000) 中的逗号等。
为了便于统计,对英语进行分词时通常在以上我们所说的“ 形符” 后加空格,使得他们与文本中的其他形符或符号分离开来。
.
11
类符(type)作为一个统计量,指语料库文本中任何一个独特的词形(word form)。换言之,在一个文本中,重复出现的形符只能记作一个类符。
◦ 都可以对语言学的语音、词汇、句法和语义等层面进行
统计和研究。
.
8
联系: ◦ 统计语言学和计量语言学都是利用统计方法来实现对语言成
分的统计,计量语言学以发现语言成分或语言成分间的数学 规律为目标。而统计语言学以所统计的语言特征在统计学上 显著和不显著为目标。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三点基本认识:
A.必须是实际使用中真实出现 过的语言材料;
B.须以计算机为必要载体;
C.材料分析加工后才有用。
2021/3/7
CHENLI
4
2 语料库及其分类
语料库
按用途
按时效性
按语体
按语种
按是否 母语
按是否 被标注
通专 用用 语语 料料 库库
2021/3/7
共历 时时 语语 料料 库库
书口 面语 语语 语料 料库 库
2021/3/7
CHENLI
11
8 公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC):/ 03.美国当代英语语料库(COCA):/ 04.美国近当代英语语料库(COHA):/coha/ 05.英国国家语料库(BNC):/bnc/ 06.柯林斯英语语料库(BOE):/wordbanks/ 07.英国英语语料库(SEU):http: ///english-usage/ 08.澳大利亚英语语料库(ACE):http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC):http: ///
2021/3/7
CHENLI
10
7 公共语料库检索
我国21个知名语料库
15.浙江师范大学的历史文献语库:/xueke/hyywzx/xkjj.htm 16.中科院计算所语料库:/corpus/query_process.php 17.中文语言资源联盟:/xyzy.htm 18.SKETCHENGINE多语言语料库: 19.LIVAC共时语料库:/ 20.红楼梦汉英平行语料库:/hongloumeng/ 21.北京语言大学BCC语料库:/
CHENLI
带着 问题 收集 证据
8
5 公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料:.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献:.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http://124.207.106.21:8080/ 04.国家语委现代汉语语料库:/retrieval/index.html 05.树图数据库:.tw/ 06.语料库语言学在线: 07.北京大学CCL语料库:/Yuliao_Contents.Asp
PPT背景图片:/beijing/ PPT图表下载:/tubiao/
优秀PPT下载:www.1p pt.co m/ xiazai/
PPT教程: /powerpoint/
Word教程: /word/
Excel教程:www.1ppt.c om/excel/
主要部分
第一节
语料库及其分类
第二节
公共语料库检索
2021/3/7
第三节
个人语料库创建
CHENLI
2
2021/3/7
第一节 语料库及其分类
CHENLI
3
1 语料库及其分类
语料库(corpus):存放语言材 料的仓库。
现代的语料库是指存放在计算 机里的原始语料文本或经过加 工后带有语言学信息标注的语 料文本的汇集。
单双多
语语语
语
/
语
料平料
库行库
语
料
库
CHENLI
母外 语语 语学 料习 库者
语 料 库
生熟 语语 语语 料料 库库
3 语料库及其分类
2021/3/7
CHENLI
6
2021/3/7
第二节 公共语料库检索
CHENLI
7
4 公共语料库检索
基 于 检 索
2021/3/7
统计频率
参
查找例句
数
设
置
验证分析
资料下载:www. 1ppt.co m/zilia o/
PPT课件下载:www.1p pt.co m/ kejian/
范文下载:www. 1ppt.co m/fan wen/
试卷下载:www.1ppt.c om/shiti /
教案下载:www. 1ppt.co m/jiao an/
PPT论坛:www.1ppt .cn
2021/3/7
CHENLI
9
6 公共语料库检索
我国21个知名语料库
08.北京大学《人民日报》标注语料库: 09.北京语言大学的语料库:/kych/H.htm 10.清华大学TH-ACorpus:/ainlp/source.htm 11.山西大学语料库:/homepage/cslab/sxuc1.htm 12.台湾南岛语典藏:.tw/Formosan/ 13.闽南语典藏:.tw/ 14.香港城市大学LIVAC共时语料库:/search.php
常见语料库使用入门
——语言研究中的小技能get√
华中师范大学语言研究所2015级 秦志君
2021/3/7
CHENLI
1
0 PPT模板下载:/moban/ 行业PPT模板:/hangye/
节日PPT模板:www.1p pt.co m/ jieri/
PPT素材下载:/sucai/