五_语料库汇总

合集下载

语料库术语汇编

语料库术语汇编

语料库术语汇编语料库术语汇编:Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词A WL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLA WS/Constituent Likelihood Automatic Word-tagging System CLA WS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格embedded annotation 嵌入式标注Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值。

语料库

语料库

国家语委现代汉语语料库介绍国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。

国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。

国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。

一、国家语委语料库的组成国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。

具体类别如下:1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律。

(2)历史:历史、考古、民族。

(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗。

(4)经济:工业经济、农业经济、政治经济、财贸经济。

(5)艺术:音乐、美术、舞蹈、戏剧。

(6)文学:小说、散文、传记、报告文学、科幻、口语。

(7)军体:军事、体育。

(8)生活2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。

3.综合类语料由应用文和难于归类的其他语料两部分组成。

应用文使用很广泛,主要及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等(3)司法文书:诉讼、辩护词、控告信、委托书等(4)商业文告:说明、广告、调查报告、经济合同等(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等(6)实用文书:请假条、检讨、申请书、请愿书等。

国家语委现代汉语语料库的数据量包括新增的1000万字新语料已经达到了1亿字,已经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料以及1992~2002时间段的部分语料。

二、国家语委语料库建设的主要科研成果如下:1)5000万字带有分词和词性标注的汉语语料2)语料库加工规范3)1000万字新语料,语料库总规模达到1亿字4)词语切分和词性标注软件5)100万字(5万句)句法树库6)树库加工规范8)树库标记集规范9)语料库词语切分和词性标注软件10)语料库校对加工工具软件11)语料库质量检查工具软件12)语料库例句检索工具软件13)语料查询与统计工具软件14)语料库管理工具软件15)树库句法分析器软件16)树库校对软件17)相关研究论文三、国家语委语料库的应用目前,国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部863计划课题智能中文信息处理平台、中文信息处理应用基础研究项目以及973计划课题中文语音语言资源联盟项目等多个科研项目提供了支持,为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务,也为东芝(中国)研发中心、富士通研究院等企业提供了高质量的汉语语料资源。

现代汉语连续口语语音语料库-现代汉语自然语音语料库

现代汉语连续口语语音语料库-现代汉语自然语音语料库

2008/12/05
文獻語料庫─自然語音語料收集與處理工作坊
35
大綱
語料蒐集 語料處理與標記 語料分析與應用
2008/12/05
文獻語料庫─自然語音語料收集與處理工作坊
34
元音圖(朗讀語料)
2008/12/05
文獻語料庫─自然語音語料收集與處理工作坊
36
元音圖(「到」/tau/)
2008/12/05
2008/12/05
文獻語料庫─自然語音語料收集與處理工作坊
25
標記系統
1. 語音部分標記系統
特殊音韻現象 無法或難以辨識的語音 不順暢的語流 受其他方言或言語影響
2. 非語音部分標記系統
人聲:非語音但確定由人所發出的聲音,例 如: 笑聲、咳嗽聲、呼吸聲…。
非人聲:室內雜音。
2008/12/05
文獻語料庫─自然語音語料收集與處理工作坊
29
語音標記軟體 - Praat (3/3)
語音標記軟體 - Praat (2/3)
►功 能 : 1. 語音的採集、分析&標記; 2. 合成語音; 3. 擷取聲學參數; 4. 可編寫script增加功能。
2008/12/05
文獻語料庫─自然語音語料收集與處理工作坊
現代漢語自然語音語料庫
大綱
語料蒐集 語料處理與標記 語料分析與應用
2008/12/05
文獻語料庫─自然語音語料收集與處理工作坊
3
語料庫簡介
語料內容
收集時間 語料長度
現代漢語連續 口語對話語音語料庫
(Mandarin Conversational Dialogue
Corpus, MCDC)

5_语料库的构建

5_语料库的构建
中文文本信息处理的原理与应用
汉语语料库(续1)
宾州(Pennsylvania)大学语料库(UPenn Tree Bank)
/~treebank/home.html )
美国宾州大学计算机系M.Marcus 教授主持 2000年完成第一版中文树库,约10万词次,4185个句 子 例子: 原始句子:他还提出一系列具体措施的政策要点。 词性标注:他/ PN 还/ AD 提出/ VV 一/ CD 系列/ M 具体/ JJ 措施/ NN 和/ CC 政策/ NN 要点/ NN 。/PU
语料库分类
按来源分类
口语语料库/书面语语料库
按语言分类
单语语料库/双语语料库
按加工方式分
– 单语
原始语料库/切分标注语料库/句法树库/语义标注 语料库/…
– 双语
篇章对齐语料库/句子对齐语料库/词语对齐语料/ 库/结构对齐语料库
中文文本信息处理的原理与应用
语料库收集、整理和应用
中文文本信息处理的原理与应用
C/C++ Java
PerlBiblioteka /Python在该语言中用正则表达 式没有在Perl里面用起 来容易
Prolog
内置的数据库功能和能够方便地处理 缺少Perl的方便处理正 复杂的数据结构的特点,使得Prolog 则表达式的功能 在某些方面表现得相当优秀 中文文本信息处理的原理与应用
语料库语言学中常用技术(续2)
宾州大学树 库
美国 Pennsylvania大 学1980年代末 开始发起
中文文本信息处理的原理与应用
关于语料库
语料库基本概念 国外语料库概况 汉语语料库建设情况
中文文本信息处理的原理与应用
汉语语料库

语言学常用语料库

语言学常用语料库

语言学常用语料库
语言学常用语料库有很多,以下是一些常用的语料库:
1. Brown语料库:美国布朗大学语言学部于1960年代编制的语料库,是英语语料库中最早的、最著名的语料库之一。

2. Penn Treebank语料库:由宾夕法尼亚大学开发的语料库,主要用于句法分析和语言学研究。

3. CoNLL语料库:共享任务(Conference on Computational Natural Language Learning)所使用的语料库,包括各种语言的语料。

4. Europarl语料库:包括欧洲议会会议的多种语言翻译版本,用于机器翻译和跨语言研究。

5. Google语料库:由Google搜索引擎收集的大规模网络文本语料库,可用于研究自然语言处理和文本挖掘等领域。

6. Corpus of Contemporary American English (COCA):包括当代美国英语的语料库,涵盖了各种不同类型的文本。

7. British National Corpus (BNC):出版物、广播和会话等来源的英国英语语料库,是英国英语的重要资源。

这些语料库提供了大量的文本数据,可用于研究不同语言的语
言学现象,如词汇使用、语法结构和语义等。

它们对于语言学研究和自然语言处理的发展起着重要作用。

语言学常用语料库

语言学常用语料库

语言学常用语料库
以下是一些语言学常用的语料库:
- Brown语料库:这是一个基于英语的语料库,包含了1961年至1979年间推广的1,000,000个单词的样本,覆盖了各种文体和题材。

- COCA(Corpus of Contemporary American English):这是一
个覆盖美国当代英语的语料库,包含了1990年至今的一亿多
个单词样本。

- BNC(British National Corpus):这是一个覆盖英国英语的
语料库,包含了1980年代至1993年间的一亿个单词样本。

- CHILDES(Child Language Data Exchange System):这是一
个收集婴儿和儿童语言数据的数据库,用于研究儿童语言发展。

- Penn Treebank:这是一个标注了句法和语义信息的英语语料库,用于自然语言处理研究。

- EuroParl语料库:这是一个包含欧洲议会会议记录的多语言
语料库,可以用于研究多语言对比和机器翻译。

- COrE(Corpus of English):这是一个以英语为基础的多样
化语料库,包含了来自不同国家和地区的语言样本,用于研究语言变体和语言接触。

- WALS(World Atlas of Language Structures):这是一个收集了世界各地不同语言结构的数据库,可以用于跨语言比较和语言学理论研究。

这些语料库可以通过在线平台或特定的研究机构访问和获取。

使用语料库可以帮助语言学家进行语言研究、语言分析和理论构建。

语料库的类型

语料库的类型

语料库的类型[作者:李文中转贴自:Corpora and the ELT点击数:97 文章录入:neilruan ]语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。

语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集,为语言学分析提供基础”(OED)。

语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。

语料库是按照明确的设计标准,为某一具体目的而集成的大型文本库(Atkins and Clear,1992:1-16)。

Renouf认为,语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf, 1987:1)。

Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须分析足量的自然英语(或其它语言)文本,以便基于观测频率(observed frequency)进行合乎实际的预测。

因此,就需要依靠可机读的电子文本集,即可机读的语料库”(Leech, 1987:2)。

综上所述,语料库具有以下基本特征:1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的,语料库的开发具有明确而具体的研究目标。

如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。

2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。

所收集的语料必须是语言运用的自然语料(naturally-occurred data)。

3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。

英汉语料库汇总

英汉语料库汇总

1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大2.大学英语学习者口语语料库 COLSEC (5万) 上海交大3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学4.中国英语专业语料库 CEME (148万) 南京大学5.中国英语学习者口语语料库 SECCL (100万) 南京大学6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大7.硕士写作语料库 MWC (12万) 华中科技大学9.平行语料库汉英平行语料库 PCCE 北外10.南大-国关平行语料库南京大学11.英汉文学作品语料库;外研社12.冯友兰《中国哲学史》汉英对照语料库13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所15.柏拉图(Plato)哲学名著《理想国》的双语语料库16.英汉双语语料库(15万对) 中科院软件所17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学20.双语语料库(5万多对) 北京大学计算语言学研究所21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾23.特殊英语语料库中国英语(China English)语料库河南师范大学24.军事英语语料库(Corpus of Military Texts) 解放军外语学院25.新视野大学英语教材语料库上海交通大学26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学27.现代汉语语料库(1983年,2000万字) 北京航空航天大学28.中学语文教材语料库(1983年,106万8000字) 北京师范大学29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所32.大型中文语料库(5亿字,10分库) 北京语言文化大学33.现代汉语语料库(1亿字) 清华大学34.汉语新闻语料库;(1988年,250万字) 山西大学35.标准语料库(2000年,70万字)36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学37.现代自然口语语料库中国社会科学院语言所38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所39.北京大学汉语语言学研究中心的三个语料库现代汉语语料库/yuliao.asp?item=1古代汉语语料库/yuliao.asp?item=2汉英双语语料库/yuliao.asp?item=3/printthread.php?t=2742汉语语料库使用权限国家语委语料库(http://219.238.40.213:8080/CpsQrySv.srf)”虽说是通用型平衡语料库,但不能完全免费使用;北京语言大学的汉语语料库(http://202.112.195.8)语料产出时间较早,且不能完全免费使用;北京大学汉语语言学研究中心语料库(现代汉语子库)”(/YuLiao_Contents.Asp)规模最大,逾亿字,但取样极不均衡,多半为文学作品;台湾“中央研究院”Sinica Corpus也是可免费使用的平衡汉语语料库。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 什么是语料库
1 什么是语料库
London-Lund英语口语语料库样例: ^what a_bout a cigar\ette# . / *((4 sylls))* / *I ^w\on't have one th/anks#* - - - / ^aren't you .going to sit d/own# - / ^[/\m]# - / ^have my _coffee in p=eace# - - - / ^quite a nice .room to !s\it in ((actually))# / *^\isn't* it# / *^y/\es#* - - - /
3 语料的收集与加工——加工
构建大型标注语料库直接促进了NLP技术的发展: Brown语料库直接促使基于统计的词性标注模型HMM和标注算法
Viterbi的提出和完善; Upenn树库为基于统计的句法分析技术提供了训练素材; 作为统一的训练和测试平台,评估各类NLP算法的性能。
3 语料的收集与加工——加工
语料库中各类文本的比例均衡 原则
专业语料库的建设应有专业领 域的专家参与
3 语料的收集与加工——编码
语料库的编码 问题提出:资源共享时的差异化 语料文件的统一规范:
TEI计划(Text Encoding Initiative) LDC要求其提交的语料库遵循SGML规范(Standard Generalized
1 什么是语料库
London-Lund英语口语语料库部分标记:
语料库的分类 生语料库:未经加工的,没有任何切分、标注标记的原始语料库 熟语料库:经过加工,带有切分、标注标记的语料库
1 什么是语料库
语料库的分类: 口语语料 书面语料
共时语料 历时语料
平衡语料 专门语料
3 语料的收集与加工——收集
语料的收集 ——语料文件的大小 取样收集:将语料库中文件所包含的词数限制在一定范围内;选取长
文语料的片段 原样收集:按原始文件大小原样收入语料库
——存储无问题;建库时需要考虑长文件的处理速度、对硬件性能的 要求
3 语料的收集与加工——收集
语料的收集 ——语料的选取标准 精品原则 有影响力原则 随机挑选原则 高流通度原则 典型性原则 易于获得原则 具有统计样本意义原则 符合语言规范原则
Mark-up Language) CES标准(Corpus Encoding Standard)
3 语料的收集与加工——编码
CES标准:
3 语料的收集与加工——编码
CES编码的语料中使用的标记需要进行说明——DTD (Document Type Definition)
3 语料的收集与加工——编码
监控语料 样本语料
语料库的分类:
生语料库:未经加工的,没有 任何切分、标注标记的原始语 料库
熟语料库:经过加工,带有切 分、标注标记的语料库
1 什么是语料库
语料库与语言知识库: 语料库:以语言的真实材料为基础来呈现语言知识,反映语言单
位的用法和意义,基本以知识的原始形态表现——语言的原貌; 语言知识库:由专家从大量的实例中提炼、抽象、概括出来的系
2 语料库的发展
第二代(1980-90年代) COBUILD语料库
2000万词级
Longman语料库
建于1980年代,由英国Birmingham大学 与Collins出版社合作完成,规模达2000 万词次,基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评
建于1980年代,包括三个语料库:LLELC语 料库(Longman/Lancaster英语语料库)、 LSC语料库(Longman口语语料库)、 LCLE(Longman英语学习语料库);目标 是编撰英语学习词典,为外国人学习英语服 务,词典规模达5000万词次
语料库中存放的是在实际使用中真实出现过的语言材 料;
语料库是以计算机为载体承载语言知识的基础资源; 真实语料需要经过分析、处理和加工,才能成为有用
的资源。
1 什么是语料库
北京大学计算语言所富士通人民日报标注语料库样例:
历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w
特点:千万词级,词典编纂
2 语料库的发展
第三代(1990年代至今) ACL/DCI语料库
美国计算语言学会倡议发起“数据采集 计划” ,由宾州大学M.Liberman主持,保存语 料原始文本形式以及SGML标注信息
UPenn树库 LDC
美国Pennsylvania大学80年代末发起;1993年,完成了对近 300万英语词的句子语法结构标注;2000年发布中文树库第一 版(10万词,4185个句子,325 data files(新华社语料));2004 年发布中文树库4.0版(404,156 words, 664,633 Hanzi, 15,162 sentences,and 838 data files(大陆、香港、台湾语料))
大型国际组织(联合国、欧盟) 双语社会(加拿大、新加坡、香港)
3 语料的收集与加工——收集
语料的收集 ——语料文件的数据格式 文件格式:.doc,txt,pdf,ps,rtf 采用纯文本文件格式存放语料,便于计算机处理 采用关系数据库组织语料,直接利用数据库的检索、统计等功能 要考虑字符编码方式
语料库加工工具——用计算机软件辅助建库
3 语料的收集与加工——加工
双语(平行)语料库的对齐: 段落对齐 句子对齐 词对齐 短语对齐
双语(平行)语料库的句子对齐: 原文句子译文句子:确定源语言文本中哪个/些句子和目标语言文本
中哪个/些句子互为译文
3 语料的收集与加工——加工
3 语料的收集与加工——加工
五 语料库
1 什么是语料库 2 语料库的发展 3 语料的收集与加工 4 语料库的应用 5 小结
1 什么是语料库
语料库(corpus):存放语言材料的仓库 现代的语料库是指存放在计算机里的原始语料文本 或 经
过加工后带有语言学信息标注的语料文本。 关于语料库的三点基本认识:
1 什么是语料库 2 语料库的发展 3 语料的收集与加工 4 语料库的应用 5 小结
3 语料的收与加工
建库之前应考虑: 语料库的应用目标 语料库的规模 语料库的实施 语料库的可扩展性 软硬件兼容性 ……
3 语料的收集与加工
双语语料库: 双语平行语料库:语料库中的文本构成译文关系
,因而对齐的可能性越高。
考虑不同的句子配对模式下的距离:
d(x1,y1 ; 0,0)
d(x1,y1; x2,0)
d(x1,0 ; 0,0)
d(x1,y1; 0,y2)
d(0,y1; 0,0)
d(x1,y1;x2,y2)
两个文本的最小距离可如下计算:
D(i,j) = min
D(i,j-1) + d(0,tj ; 0,0) D(i-1,j) + d(si,0; 0,0) D(i-1,j-1) + d(si,tj ; 0,0) D(i-1,j-2) + d(si,tj ; 0,tj-1) D(i-2,j-1) + d(si,tj ; si-1,0) D(i-2,j-2) + d(si,tj ; si-1, tj-1)
LDC语言数据联合会,有163 个语料库 (包括Text 和 speech)
2 语料库的发展
中文树库示例: 他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策
/NN 要点/NN 。/PU
特点:超大规模(上亿词级)/ 标准编码体系 / 深度标注 / 多语种 / NLP应用
随机变量δ~N(0,1)
此时句子Si与Tj对齐的可能性就可以表示为条件概率:
P(Match)为常数;P(δ|Match)根据下式进行估计: δ服从标准正态分布N(0,1),P(|δ|) 可通过查标准正态函数分布表或数
值计算得到。
取对数:
记D(i,j) = Score(si,tj),D(i,j)是对两个句子对齐可能性的一个评估,可 以理解为两个句子之间的距离。值越低,表示两个句子之间距离越近
——用于机器翻译、双语词典编撰… 双语比较语料库:将表述同样内容的不同语言文本收集到一起,这些
不同语言文本之间不构成翻译关系 ——用于语言对比研究 ——较少,英语国际语料库(100万词规模,收集全球许多英语变体 语言的文本)
3 语料的收集与加工——收集
语料的收集 —— 获取语料的途径 纸质媒介 人工录入 光学扫描、OCR软件 电子语料:光盘语料 + 互联网语料 双语平行语料库:
(1) (1)+ (2);(2) (3)
两种语言的句子间对齐模式(x句:y句, x=1,2,…;y=1,2,…)
双语句子对齐的方法:
基于长度(length-based)的对齐方法
纯粹基于句子的长度来估计对齐可能性; 资源要求少,算法效率相对较高 基于词(word-based)的对齐方法
平均准确率 在90%以上
一般要依赖词典资源,算法效率相对较低
3 语料的收集与加工——加工
Gale & Church 基于长度的对齐方法: 定义了六种配对模式,在实际UBS语料库的分布频度为:
3 语料的收集与加工——加工
任一个双语句子对( Si, Tj ),S表示原文,T表示译文
S中任意一个字符在T中所对应的字符数是个随机变量X~N(c,V2) 由此定义随机变量δ来度量两个句子之间的长度差距关系:
相关文档
最新文档