现代汉语语料库建设及深加工项目总结报告

合集下载

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目【摘要】这篇文章旨在探讨高速铁路英汉双语语料库建设项目，首先介绍研究背景和研究目的。

正文部分包括高速铁路英汉双语语料库的建设、语料库内容、以及语料库在实际应用中的价值。

文章还会讨论建设项目的方法和步骤，以及可能面临的挑战。

结论部分将对文章内容进行总结，并展望未来研究方向。

通过这篇文章，读者将能够深入了解高速铁路英汉双语语料库建设项目的重要性和意义，以及其中所涉及的关键内容和挑战。

【关键词】高速铁路、英汉双语、语料库、建设项目、研究背景、研究目的、正文、内容、应用价值、方法、步骤、挑战、总结、展望未来。

1. 引言1.1 研究背景高速铁路英汉双语语料库建设项目是在当前信息化时代背景下的重要举措。

随着中国高速铁路的不断发展壮大，人们对高速铁路相关信息的需求也日益增加。

目前针对高速铁路的英汉双语语料库却相对匮乏，无法满足人们对于高速铁路信息的准确获取和理解需求。

通过建设高速铁路英汉双语语料库，可以收集整理包括列车时刻表、运行状态、车站信息等在内的丰富信息资源，为用户提供更为全面、准确的信息查询和阅读服务。

通过对高速铁路的英汉双语语料进行整理和分类，可以为高速铁路领域的专业研究和教学提供可靠的语言素材和参考资料。

建设高速铁路英汉双语语料库不仅有利于提升高速铁路信息的传播效率和质量，更能促进高速铁路领域的研究和学术交流。

在信息化和全球化背景下，构建这样一份跨语言、跨文化的语料库对于推动高速铁路行业的发展具有重要意义和深远影响。

1.2 研究目的研究目的是为了搭建一个高速铁路英汉双语语料库，以满足日益增长的高速铁路领域专业人士和学习者的语言学习和研究需求。

通过收集、整理和分析高速铁路相关的英文和中文文本，建立起一个包含丰富多样语料的数据库，为高速铁路领域的语言学研究提供有效的支持。

通过语料库的构建，也可以促进中英文之间的文化交流和理解，推动高速铁路领域的国际合作与交流。

通过对高速铁路英汉双语语料库的建设工作，可以探索和提高自然语言处理技术在高速铁路领域的应用效果，为相关技术的进一步发展提供更多的实践基础和研究资源。

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究沈锐1，黄薇2(1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100)【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法，重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路，并阐明了该语料库在对外汉语教学和研究中的应用价值。

【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。

本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。

中介语是心理语言学中第二语言习得的一种研究模式，其将语言学习者置于观察中心，去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。

中介语理论自20世纪60年代末出现并发展至今，虽然时间并不长，但越来越受到语言学家以及一线教师的关注。

无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料，因而通过信息化手段收集和整理语料变得十分迫切。

在对外汉语教学中，通过建设和使用母语非汉语学习者的汉语中介语语料数据库，可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料，并对语料属性、词汇、语法等单位进行计算机处理，以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取，可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。

因此，我们提出了建设汉语中介语语料库的课题，由于语料库建设是一项浩大的工程，限于人力物力条件，本文讨论的是中小规模的语料库。

一、需求分析和框架设计语料库建设不能盲目进行，首先要进行调研，对语料库的应用需求进行分析。

半自动化的语料库构建是目前语料库建设的主流技术，目的是在确保语料库质量的前提下，减少人工参与的比例，增加自动化程度，目标是在较短时间内建设一个有一定规模，质量可靠、可扩充、成本低，能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。

现代汉语语料库加工规范

现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。

第一步是对原始语料进行切分和词性标注。

1994年制订了《现代汉语文本切分与词性标注规范Ｖ1.0》。

几年来已完成了约60万字语料的切分与标注，并在短语自动识别、树库构建等方向上进行了探索。

在积累了长期的实践经验之后，最近又进行了《人民日报》语料加工的实验。

为了保证大规模语料加工这一项重要的语言工程的顺利进行，北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范Ｖ2.0》（征求意见稿）。

因这次加工的任务超出词语切分与词性标注的范围，故将新版的规范改名为《现代汉语语料库加工规范》。

制订《现代汉语语料库加工规范》的基本思路如下：⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” （以下简称为“分词规范”）保持一致。

由于现在词语切分与词性标注是结合起来进行的，而且又有了一部《现代汉语语法信息词典》（以下有时简称“语法信息词典”或“语法词典”）可作为词语切分与词性标注的基本参照，这就有必要对“分词规范”作必要的调整和补充。

⑵ ⑵ 小标记集。

词性标注除了使用《现代汉语语法信息词典》中的26个词类标记（名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w）外，增加了以下3类标记：①专有名词的分类标记，即人名nr，地名ns，团体机关单位名称nt，其他专有名词nz；②语素的子类标记，即名语素Ng，动语素Vg，形容语素Ag，时语素Tg，副语素Dg等；③动词和形容词的子类标记，即名动词vn（具有名词特性的动词），名形词an（具有名词特性的形容词），副动词vd（具有副词特性的动词），副形词ad（具有副词特性的形容词）。

北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范俞士汶段慧明朱学锋孙斌(北京大学计算机系，北京大学计算语言学研究所北京 100871)摘要：北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。

加工项目除词语切分和词性标注外，还包括专有名词（人名、地名、团体机构名称等）标注、语素子类标注以及动词、形容词的特殊用法标注。

这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。

发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉，更广泛地向专家、同行征询意见，以便进一步修订。

关键词：现代汉语；语料库；词语切分；词性标注；规范中图分类号：TP391The Basic Processing of Contemporary Chinese Corpus at Peking UniversitySPECIFICATIONYU Shi-wen DUAN Hui-ming ZHU Xue-feng Bing SWEN(Institute of Computational Linguistics, Peking University, Beijing, 100871) Abstract: The Institute of Computational Linguistics, Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names, place names, organization names and so on), morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had been made beforehand and was being perfected while in use. We are hereby making an introduction to the SPECIFICA TION through this publication, thus inviting the comments from all the experts and our colleagues for the improvement of it.Keywords: contemporary Chinese; corpus; word segmentation; part-of-speech tagging; specification⒈ 前言关于汉语语料库的全面情况，冯志伟教授的文章已有详细介绍[1]。

对外汉语领域语料库应用情况研究与探索

对外汉语领域语料库应用情况研究与探索语料库语料丰富，对语料库中语料的统计分析，可以为对外汉语提供很多有价值的研究材料。

本文收集了近几年对外汉语领域使用语料库辅助研究的文献，归纳出语料库在研究汉语学习者习得情况、研究汉语语言现象、汉语教学工具书信息来源、回馈课堂教学等方面的作用。

传统语料库在对外汉语领域未尽其用，游离于课堂教学之外，真正适用于对外汉语课堂教学的语料库还有待研发和建立。

标签：语料库对外汉语课堂教学语料库是由大量语言实际使用的信息组成，专供语言研究、分析和描述的语言资料库，简而言之，就是存放语料的仓库。

语料库存放的语料丰富而有序，研究者利用计算机可以从数百万的语料中调出某个词、短语或者句子的实例，简捷方便。

在真实语境中，语言符号的意义不是完全确定、一成不变的，随机性特点显著，因此通过收集大量的真实语言素材，对其进行统计分析，得出语言在实际应用中的内在规律就显得十分必要。

近些年来，从事对外汉语教学工作者对语料库在对外汉语领域的教学研究和理论研究方面所起到的作用有了更深刻的认识，新的针对对外汉语领域的语料库不断地被研发和使用，使得传统的研究语言的依靠直觉经验的方法被量化的统计方法所取代。

一、对外汉语语料库的研发与使用概况北京语言大学崔希亮教授主持开发了“HSK动态作文语料库”，该语料库是针对母语非汉语的外国人设立的，是以他们参加的高等汉语水平考试（HSK高等）的作文考试为语料来源，收集了1992年以来历年高等汉语水平考试的全部作文答卷，并随着汉语考试的不断进行，语料的不断增加，语料库不断得到充实。

语料库由原始语料库、考生信息库、字信息库、词信息库、句信息库、篇章信息库以及各种计算机辅助程序构成。

语料库1.0版收入语料10740篇，约400万字；语料库1.1版语料总数达到11569篇，共计424万字。

运用该语料库，可以进行多方面的研究，例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、汉语本体研究等等。

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目1. 引言1.1 项目背景高速铁路英汉双语语料库建设项目的项目背景是由于中国高速铁路建设的快速发展和“一带一路”倡议的推动，越来越多的外国友人来中国参观交流。

由于语言障碍，很多外国友人在了解和体验中国高速铁路发展的过程中遇到了困难。

为了更好地促进中外友好交流，建设一个涵盖高速铁路相关信息的英汉双语语料库尤为重要。

目前，虽然已经存在一些高速铁路相关的英汉翻译资料和论文，但这些资料散落在各个领域，不够系统和全面。

建设一个高速铁路英汉双语语料库，将大大提升外国友人了解中国高速铁路的便利性和准确性。

通过这个项目，我们可以让外国友人更加直观深入地了解中国高速铁路的建设成就和发展态势，促进各国在高速铁路技术和运营管理方面的交流与合作。

这也为中国高速铁路行业的国际化发展提供了一定的支撑和参考。

1.2 项目目的项目目的是为了促进高速铁路英汉双语语料库的建设和完善，以提供给研究人员、教育机构和企业使用。

通过建立这样一个语料库，可以为高速铁路领域的英汉翻译提供更多可靠的语言材料，提高翻译质量和效率。

该项目旨在促进中英两国在高速铁路技术领域的合作与交流，促进技术创新和知识传播。

通过建设高速铁路英汉双语语料库，还可以促进高速铁路行业人才的培养和专业知识的传承，为高速铁路的发展做出贡献。

该项目的目的是促进中英两国在高速铁路领域的合作与交流，提高高速铁路领域的翻译质量和效率，促进技术创新和知识传播，同时也为高速铁路行业的发展和人才培养做出贡献。

1.3 研究意义高速铁路英汉双语语料库建设项目的研究意义主要体现在以下几个方面：建设这样一份英汉双语语料库可以为高速铁路相关领域的信息检索、翻译和语言教学提供重要支持。

在高速铁路建设的过程中，涉及到大量的技术规范、施工方案、安全管理等内容，这些内容需要在不同语言之间进行准确的传递和理解。

通过建设英汉双语语料库，可以帮助相关工作者更方便地获取到这些信息，提高工作效率。

现代汉语语料库建设及深加工项目总结报告

a6写作时间；a7书刊名称；a8编著者； a9出版社； a10所在省；
a11出版日期；a12期号； a13版次(初版印数)； a14本版印数；
a15总印数； a16总页数； a17开本；
a18选择方式；
a19起止页数；a20样本字数；a21样本总字数；a22文章总字数；
a23简繁体； a24抽样文章。
科研成果在多个方面体现了创新性和先进性
该语料库样本的平衡性，体现在历时的时间平衡和共时的分布平衡等方面；
该语料库是目前最大规模的现代汉语标注语料库，时间跨度最大、类别分布最广；
语料库加工、检索、统计、管理形成了一整套完整的软件系统，等等。
国家语委现代汉语语料库加工遵循国内外信息处理领域通用的语料库加工路线，重视为语言学研究服务，采用机助人校的加工方式，通过开发语料库切分标注、校对、质量检查等软件工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集规范》等语料库建设规范。为兼容不同词语颗粒度，专门建立了层次化结构化的分词词表，分词词表的词条数量超过88000条。
结构化词表示例：
标注语料库主要词类分布频率表：
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用，提供语言学、计算语言学、对外汉语教学等研究者和外国留学生作各种常规查询，包括字、词搭配、例句抽取、句型、句法结构、某种历时的研究。
2) 提供计算语言学研究的各种统计数据，例如字频、词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同，研究相适应的评测标准，提供标准测试集。充分发挥语用所在资源（国家级）、标准、规范上的权威性和协调作用，体现公允性、引导性和先进性。

语料库研究与综述

语料库研究与综述语料库研究与应⽤综述⼀概述语料库通常指为语⾔研究收集的、⽤电⼦形式保存的语⾔材料，由⾃然出现的书⾯语或⼝语的样本汇集⽽成，⽤来代表特定的语⾔或语⾔变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语⾔的实际使⽤情况。

⼈们通过语料库观察和把握语⾔事实，分析和研究语⾔系统的规律。

语料库已经成为语⾔学理论研究、应⽤研究和语⾔⼯程不可缺少的基础资源。

语料库有多种类型，确定类型的主要依据是它的研究⽬的和⽤途，这⼀点往往能够体现在语料采集的原则和⽅式上。

有⼈曾经把语料库分成四种类型：（1）异质的（Heterogeneous）：没有特定的语料收集原则，⼴泛收集并原样存储各种语料；（2）同质的（Homogeneous）：只收集同⼀类内容的语料；（3）系统的（Systematic）：根据预先确定的原则和⽐例收集语料，使语料具有平衡性和系统性，能够代表某⼀范围内的语⾔事实；（4）专⽤的（Specialized）：只收集⽤于某⼀特定⽤途的语料。

除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。

按照语料的采集单位，语料库⼜可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式，还可以分为平⾏（对齐）语料库和⽐较语料库，前者的语料构成译⽂关系，多⽤于机器翻译、双语词典编撰等应⽤领域，后者将表述同样内容的不同语⾔⽂本收集到⼀起，多⽤于语⾔对⽐研究。

语料库建设中涉及的主要问题包括：（1）设计和规划：主要考虑语料库的⽤途、类型、规模、实现⼿段、质量保证、可扩展性等。

（2）语料的采集：主要考虑语料获取、数据格式、字符编码、语料分类、⽂本描述，以及各类语料的⽐例以保持平衡性等。

（3）语料的加⼯：包括标注项⽬（词语单位、词性、句法、语义、语体、篇章结构等）标记集、标注规范和加⼯⽅式。

（4）语料管理系统的建设：包括数据维护（语料录⼊、校对、存储、修改、删除及语料描述信息项⽬管理）、语料⾃动加⼯（分词、标注、⽂本分割、合并、标记处理等）、⽤户功能（查询、检索、统计、打印等）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

要维护语料库（国家级）和标准、规范的权威性和协调作用，还必须实时跟踪国内外语言学和计算语言学的最新研究成果，不断考虑相对稳妥的更新规范、语料库及语料库加工方法，保持其公允性、引导性和先进性。
语料库的加工、应用及推广
1) 网络有偿或无偿使用，提供语言学、计算语言学、对外汉语教学等研究者和外国留学生作各种常规查询，包括字、词搭配、例句抽取、句型、句法结构、某种历时的研究。 2) 提供计算语言学研究的各种统计数据，例如字频、词频、句型句法结构统计、人名地名用字统计。 3) 根据各种中文信息处理的方法和流派的不同，研究相适应的评测标准，提供标准测试集。充分发挥语用所在资源（国家级）、标准、规范上的权威性和协调作用，体现公允性、引导性和先进性。
语料库加工设想
提供各种常规查询界面，响应各种特殊查询需求。 2) 生成各种基于语料库的统计数据。 3) 提供各种常规评测标准及测试集，响应各种特殊需求的测试集。 4) 跟踪国内外语言学和计算语言学研究，不断考虑相对稳妥的更新规范、语料库、语料库加工方法。
语料库的推广
总结现有语料库的成绩，及时推广语料库的应用成果，争取国家继续立项，以便有更大的投资，保证国家语料库和国家规范的权威性、先进性，走可持续发展道路。
在国家语委平衡语料库加工过程中，应该努力形成一系列的可以作为国家标准的规范。对于现有不同的规范之间应力求调和，尽可能使用普遍认同的标记，以便各个中文信息处理系统能够使用统一的规范和标准。已经制定、颁布和立项研究的规范有分词词表规范、词性标记集规范、分词标注规范、短语标记集规范、短语标注规范、语义标记集规范、语义标注规范等。
《信息处理用现代汉语词类标记集规范》起草单位：教育部语言文字应用研究所。
一、项目起止时间，计划执行情况，最终完成情况
本课题于2003年1月启动，2005年1月完成课题全部目标，各项指标均达到或超过了课题任务书的规定。
二、项目研究的主要内容和实际达到的研究目标
7000万字语料的分词和标注。完成7000万字语料的词语切分和词性标注工作。语料切分标注错误率经过校对后控制在万分之五以下。
语料库应用设想
1) 网络有偿或无偿使用，提供语言学、计算语言学、对外汉语教学等研究者和外国留学生作各种常规查询，包括字、词搭配、例句抽取、句型、句法结构、某种历时的研究。
2) 提供计算语言学研究的各种统计数据，例如字频、词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同，研究相适应的评测标准，提供标准测试集。充分发挥语用所在资源（国家级）、标准、规范上的权威性和协调作用，体现公允性、引导性和先进性。
《信息处理用现代汉语词类标记集规范》起草单位：教育部语言文字应用研究所。
基础（二）信息处理用现代汉语词类标记集规范
国家社科基金 “九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信息处理用现代汉语词类标记集规范”（项目编号：97@yy001-4）的基础上完成，进一步得到国家语委十五重大项目《现代汉语语料库建设》子课题“国家语委核心语料分词及词性标注加工”（项目编号：WT200104）的支持。
现代汉语语料库要面向国内外的长远需要，选材要有足够的时间跨度，语料应抽样合理、分布均匀、比例适当，科学地反映现代汉语全貌；在建立现代汉语语料库的同时，还应着手研究和制定有关语料库的统一规范和技术标准，以推动汉语语料库的建设。根据以上的用途和要求，现代汉语语料库定位为系统型通用语料库，总计7000万汉字。语料库建成后，拟每年增补350万字的新语料。
语料时间分布
时间跨度为1919年～2002年，以近20年的语料为主。
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000
500000 0
年份
语料领域分布：
13个大类，40多个小类，100多个详细分类。
30000000
25000000
基础（二）信息处理用现代汉语词类标记集规范
《信息处理用现代汉语词类标记集规范》的制定在国家社科基金 “九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信息处理用现代汉语词类标记集规范”（项目编号：97@yy001-4）的基础上完成，进一步得到国家语委十五重大项目《现代汉语语料库建设》子课题“国家语委核心语料分词及词性标注加工”（项目编号：WT200104）的支持。
20000000
15000000
10000000
5000000
0
文学艺术医药卫生军体
社会科技天文地理行政文书
字数
经济农林
报纸历史
海洋气象实用文书
行政公文司法文书
其他生化工业商业文告
政法数理生活礼仪辞令
国家语委语料库的语料样本包括24个详细信息：
a1总号； a2分类号； a3样本名称；a4类别； a5作者；
100万字语料树库建设。在标注语料库的基础上完成100 万字的树库建设。
a6写作时间；a7书刊名称；a8编著者； a9出版社； a10所在省；
a11出版日期；a12期号； a13版次(初版印数)； a14本版印数；
a15总印数； a16总页数； a17开本；
a18选择方式；
a19起止页数；a20样本字数；a21样本总字数；a22文章总字数；
a23简繁体； a24抽样文章。
本项目研究的基础
基础（一）国家语委现代汉语语料库
我国从1990年开始筹备建立大型的国家级语料库——国家语委现代汉语语料库，该语料库由国家语言文字工作委员会主持，组织语言学界和计算机界的专家学者共同建立。
共识：
现代汉语语料库应是一个大型的通用的语料库，应以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务方面；现代汉语语料库作为国家级语料库，在语料可靠、标注准确等方面应具有权威性，在汉语语料库系统开发技术上应具有国际领先水平；