语料库与语料库建设
专业的语料库研究方法

专业的语料库研究方法在语言学和应用语言学领域,语料库研究方法被广泛应用于研究语言的使用、语言变化、语言习得等方面的问题。
语料库是指由大量的语言样本组成的电子化语言数据库,通过收集、整理和分析这些语言样本,语料库研究方法可以提供大量准确的语言数据,从而更好地揭示语言的规律和特点。
本文将介绍一些专业的语料库研究方法,帮助读者了解如何有效地利用语料库进行语言研究。
一、语料库建设与管理语料库的建设是语料库研究的第一步。
首先,需要确定研究的范围和目标,确定应收集的语言样本类型,比如口语、书面语、特定领域的语言等。
然后,可以通过采集实地语料或者利用网络语料等方式进行数据收集。
数据收集过程中,需要注意样本的多样性和代表性,以确保语料库的可靠性和有效性。
建立好语料库后,需要进行合理的管理和组织。
可以采用专业的语料库管理软件,如AntConc、WordSmith等,对语料进行整理和归类。
同时,为了方便后续的检索和分析,可以为语料库添加标注和元数据,如句子划分、词性标注、句法分析等。
二、语料库中的数据分析方法1. 频率分析频率分析是语料库研究中最基本的分析方法之一。
通过统计语料库中的词频、短语频率等信息,可以揭示语言的常用词汇、固定搭配等规律。
常用的频率分析工具包括词频统计、共现分析等。
2. 语篇分析语篇分析是对语料库中篇章结构和语用特点的分析。
可以通过查看语料库中的句子、段落等单位,分析其结构、主题线索、修辞手法等,从而揭示语言的篇章结构和文体特点。
3. 跨语言比较语料库研究方法也可以用于跨语言比较。
通过对不同语言语料库的对比分析,可以揭示不同语言间的差异和相似之处。
这种比较可以是同一类型语料的对比,也可以是不同类型语料的对比,如中英文的比较。
4. 语言变化分析语料库研究方法还可以用于研究语言的变化。
通过收集不同时期的语料库数据,可以比较不同时期的语言使用情况,揭示语言的历史演变和变化趋势。
此外,也可以通过语料库研究方法分析语言的变异现象,如方言、社会语言等。
《2024年蒙古语语料库建设的有关问题》范文

《蒙古语语料库建设的有关问题》篇一一、引言随着信息技术的飞速发展,自然语言处理技术在全球范围内得到了广泛的应用。
蒙古语作为世界上重要的语言之一,其语料库的建设显得尤为重要。
本文旨在探讨蒙古语语料库建设的意义、所面临的问题及可能的解决方案。
二、蒙古语语料库建设的意义蒙古语语料库的建立对于蒙古语言的研究、教学、翻译以及人工智能技术的发展具有重要意义。
首先,语料库为语言研究者提供了丰富的语言资源,有助于揭示蒙古语的语法规则、词汇特点及语言演变规律。
其次,对于蒙古语言的教学,语料库可以提供真实、地道的语言材料,帮助学生更好地掌握蒙古语的听说读写能力。
此外,蒙古语语料库还可以为翻译工作提供高质量的翻译资源,促进蒙古文化的传播与交流。
最后,对于人工智能技术的发展,蒙古语语料库的建立有助于提高自然语言处理系统的性能,推动人工智能在蒙古语领域的应用。
三、蒙古语语料库建设所面临的问题尽管蒙古语语料库的建设具有重要意义,但在实际建设过程中仍面临诸多问题。
首先,由于蒙古语的特殊性,如词汇丰富、语法结构复杂等,使得语料库的构建难度较大。
其次,缺乏统一的规范和标准,导致语料库的建设存在较大的差异性和不规范性。
此外,语料库的建设需要大量的资金和人力资源投入,而目前相关投入尚显不足。
同时,如何保证语料库的持续更新与维护也是一个亟待解决的问题。
四、解决蒙古语语料库建设问题的策略针对上述问题,本文提出以下解决策略:1. 加强研究,提高技术:通过深入研究蒙古语的语法、词汇等特点,提高语料库建设的技术水平。
同时,借鉴其他语言的成功经验,结合蒙古语的实际情况,制定合适的语料库建设方案。
2. 制定统一规范和标准:制定蒙古语语料库建设的统一规范和标准,明确语料库的构建方法、数据格式、标注规则等,以规范和指导语料库的建设工作。
3. 增加投入,整合资源:政府、企业和高校等应加大对蒙古语语料库建设的投入力度,整合各方资源,形成合力推进语料库的建设工作。
《语料库建设和应用》课件

CATALOG
DATE
ANALYSIS
SUMMARY
《语料库建设和应用 》ppt课件
目录
CONTENTS
• 语料库简介 • 语料库建设 • 语料库应用 • 语料库的未来发展 • 总结与展望
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
01
语料库简介
语料库的定义
语料库是一种语言数据的集合,用于 存储自然语言文本或话语的样本,以 便进行语言研究和分析。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
04
语料库的未来发展
语料库的规模和多样性
总结词
随着信息技术的不断发展,语料库的规模和多样性将得到进一步提升。
详细描述
随着数据存储能力的提升和信息获取渠道的增多,未来的语料库将覆盖更广泛的领域和内容,不仅在 规模上实现大幅度增长,而且将更加注重多样性的提升,包括语言种类、领域、话题、语体等方面的 多样性。
语料库通常由大量真实的、未经过处 理的文本构成,这些文本可以是书面 语或口语,来自不同的领域和语境。
语料库的类型
单语语料库、双语语料库 、多语语料库。
通用语料库、专用语料库 。
小型语料库、中型语料库 、大型语料库。
按照规模
按照目的
按照语言
语料库的作用
提供语言研究的基础数据
支持语言分析
语料库为语言研究提供了大量真实、丰富 的语言数据,是语言学、自然语言处理等 领域研究的基础。
机器翻译
翻译质量评估
利用语料库对机器翻译的质量进行评估,通 过对比人工翻译和机器翻译的差异,不断优 化机器翻译的算法和模型。
课程评估中的语料库建设与分析技术

课程评估中的语料库建设与分析技术随着教育领域的发展,课程评估逐渐成为教育改革和教育质量保障的重要环节。
而在这个过程中,语料库建设与分析技术也逐渐受到关注并得到应用。
本文将从两个方面来探讨语料库在课程评估中的应用:语料库建设与分析技术。
一、语料库建设语料库是指一个特定领域内的大规模文本数据库,其中包括了丰富的文本材料、词汇和语言用法。
对于课程评估来说,建设针对性的语料库可以帮助我们更好地了解学生和教师在课堂上的表现和需求,从而更好地改进教育质量。
例如,对于英语课程,我们可以建设教育领域内的英语语料库,通过收集整理已有的教材、学生作业、教师讲义等文本材料,来指导教师选取更贴合学生需求的教材,或者针对性地加强某些语法点的教学,从而提高英语课程的教学效果。
语料库建设需要一定的技术和人力投入,而随着科技的不断发展,语料库建设的难度不断降低,对于教育分析和评估来说,建设对应领域的语料库是十分必要的一步。
二、语料库分析技术语料库分析技术是指基于语料库的数据分析方法,可以帮助我们更好地了解课堂教学的情况和趋势,从而为教育改革和教育质量保障提供数据支撑。
例如,对于语文课程,我们可以通过语料库分析技术来评估学生在阅读理解和写作方面的表现。
针对学生的作文,我们可以通过分析语料库中的同类型作文,来找出学生文章中的问题,并提出针对性的修改意见。
这样可以帮助学生更好地理解自己文章中存在的问题并加以改进。
此外,语料库分析技术还可以帮助教师发现和解决课堂教学中存在的问题,例如分析学生的阅读能力和口语表达能力等,从而针对性地调整课堂教学内容和教学方法。
这样可以提高教学效果,让学生得到更好的教育和帮助。
总体而言,语料库在课程评估中的应用是一个十分重要的环节。
通过语料库建设和分析技术,我们可以更全面地了解学生和教师在课堂上的表现和需求,从而更好地改进教育质量和教学效果。
因此,在今后的教育改革和教育质量保障中,我们应当注重语料库建设和分析技术的应用,以达到更好的教育效果和教育质量。
语料库语言学与壮语语料库的建设

语料库语言学与壮语语料库的建设摘要:本文通过介绍语料库语言学的发展与应用,指出了建设壮语语料库的意义,阐述了建设壮语语料库的建议,以及壮语语料库的附码标注,包括标注应遵循的原则,可参考的标注模式和可标注类型,旨在促进壮语语料库的研究与发展。
关键词:语料库语言学壮语语料库建设语料库语言学是对以语篇语料为基础的语言进行研究的一门学科,也是一种研究方法。
四十多年来,语料库语言学不断扩大研究范围,取得了丰硕成果,巩固并提高了自己在语言学界的地位。
尤其是运用不断更新的计算机技术建立的语料库,规模大、功能多、检索方便,使语言研究的手段和方法发生了巨大变化,对语言学理论探索也产生深远的影响。
近年来在语言学界和言语工程界的共同努力下,我国在汉语语料库和中文信息处理技术方面取得了令人瞩目的进步。
我国少数民族语料库和信息技术方面也有了一部分成果。
1991年国内出现了“现代蒙古语文数据库”和蒙古文语料库的词类标注系统——ayimag。
中国社会科学院民族研究所完成了1994年立项的社科基金项目——中国少数民族语言文字多媒体数据库。
另外藏文、朝鲜文、壮文、满文等也在操作系统、电子出版系统、数据库建设等方面有了比较大的发展。
而在壮语语料库的建设方面,我认为还可以有更好的发展。
一、语料库语言学的发展语料库语言学在其发展初期并没有引起太大的共鸣。
计算机的发展促进语料库建设手段不断实现现代化和自动化,语料库在语言教学和研究中所能发挥的作用越来越大,从语言研究、语言教学、语言测试、词典编纂到人工智能等领域都开始应用语料库。
现代语料库语言学开始得到越来越多人的重视。
由于语料库搜集了大量的人们实际使用的语言,而且可根据各种研究需要通过计算机快速加以处理,故语料库为语言研究开辟了广阔的研究领域。
语料库语言学开始是以英语作为研究对象的,现在已发展到英、法、德、西、日、汉、蒙语等20多个语种。
语料库语言学的发展可分为两大时期:计算机化以前的语料库和计算机化的语料库。
语言的语料库建设:利用语料库进行语言研究和教学

03
利用语料库进行语言研究
基于语料库的词汇研究
词汇的统计与分析
• 词频:统计词语在语料库中的出现次 数 • 词性分布:分析词语在不同词性中的 分布情况 • 词汇搭配:研究词语之间的组合关系 和搭配规律
词汇的变异与演变
• 词义变异:分析词语在特定语境中的 意义变化 • 词形演变:研究词语在不同历史时期 的形式变化 • 词汇创新:探讨新词的产生、发展和 传播过程
DOCS SMART CREATE
语言的语料库建设:利用语料库进行语言研究 和教学
CREATE TOGETHER
DOCS
01
语料库的基本概念与重要性
什么是语料库及其发展历程
01
语料库的定义
• 语料库是一个大型、有代表性的 文本集合 • 用于语言研究、教学和自然语言 处理等领域
02
语料库的发展历程
语料库的整理与标注
语料库的整理方法
• 数据分类:将文本数据按照主题、体裁、来源等进行分类 • 数据存储:将整理好的数据归档、备份,便于后续使用 • 数据维护:定期更新、维护语料库,确保数据的时效性和准确性
语料库的标注方法
• 词性标注:为文本中的每个词分配词性标签 • 句法标注:为文本中的每个句子分配句法结构标签 • 语义标注:为文本中的每个词分配语义角色标签
语料库在语言测试中的应用
语料库辅助语言测试
• 测试题设计:利用语料库提供真实、具有挑战性的测试题 • 评分标准:根据语料库制定客观、公正的评分标准 • 测试反馈:通过语料库提供详细、准确的测试反馈,帮助学生提高语言能力
语料库驱动语言测试
• 测试模式:利用语料库开发多样化、个性化的语言测试模式 • 测试评估:通过语料库进行全面、持续的测试评估,了解学生的学习进度和需求 • 测试资源:提供基于语料库的丰富、实用的测试资源,满足不同学生的测试需求
语料库的分类、创建和检索简述

语料库的分类
语料库的分类
根据不同的标准,语料库可以分为多种类型。常见的语料库类型包括: 1、通用语料库:包含来自不同领域、不同语言的语料,适用于广泛的研究和 应用领域。
语料库的分类
2、专业语料库:针对特定领域或专业构建的语料库,例如医学、法律、金融 等。
3、口语语料库:包含口头语言 材料,如录音、口语表达等。
二、图像分类技术
另外,降维技术也可以用于图像分类。降维技术可以将高维的图像特征降维 到低维的空间,从而使得分类更加简单和高效。常用的降维技术有PCA、t-SNE和 autoencoder等。
三、图像语义检索与分类技术的 研究现状
三、图像语义检索与分类技术的研究现状
近年来,图像语义检索和分类技术的研究取得了显著的进展。在图像语义检 索方面,研究者们提出了多种基于内容、语义相似度和向量空间模型等方法。在 图像分类方面,SVM、神经网络和降维技术等算法的应用取得了重要突破。
一、图像语义检索技术
图像语义检索是指通过自然语言描述或者用户提交的查询关键词,从图像库 中检索出与查询相关的图像。近年来,研究者们提出了多种图像语义检索的方法。
一、图像语义检索技术
基于内容的图像语义检索是通过分析图像的内容,提取出图像的特征,然后 根据这些特征进行检索。例如,可以通过提取图像的颜色、纹理、形状等特征进 行检索。另外,还可以利用深度学习技术,如卷积神经网络(CNN)来提取图像 的特征,提高检索的准确性。
语料库的创建
此外,为了便于语料库的管理和检索,需要构建语料库的索引和词典。索引 可以记录每个单词在语料库中出现的位置和频率,而词典则包含了单词的语义信 息和语法信息等。最后,语料库的创建还需要注意保证数据的安全性和隐私保护。
专业语料库建设

专业语料库建设随着信息技术的不断发展和应用,语料库建设逐渐成为语言学和应用语言学研究中的重要领域。
专业语料库是指针对特定领域或专业培训需求而构建的语言资源库。
本文将讨论专业语料库建设的重要性、方法和应用。
一、专业语料库的重要性专业语料库在多个领域中发挥着重要作用。
首先,它为语言学研究提供了有效的数据源。
研究人员可以通过专业语料库对特定领域中的语言现象进行深入研究,揭示其中的规律和特点。
同时,专业语料库也为应用语言学提供了强大的支持。
通过分析该领域的实际语言使用情况,可以为专业培训和语言教学提供参考,提高语言学习者的语言能力和专业素养。
二、专业语料库的建设方法1. 语料收集和筛选专业语料库的建设首先需要收集大量的相关语料,并加以筛选。
语料可以来源于不同的文本类型,例如专业书籍、学术论文、专业新闻等。
筛选时需要考虑语料的质量和代表性,确保语料库能够准确反映该领域的语言使用情况。
2. 数据标记和标注在构建专业语料库时,常常需要进行数据标记和标注。
数据标记是指对语料进行分词、词性标注等处理,以便后续的分析和应用。
标注是指对语料进行添加注释或标记,用于特定任务的需求,如命名实体识别、语法分析等。
数据标记和标注的准确性和一致性对于语料库的质量至关重要。
3. 数据存储和管理专业语料库的建设还需要进行数据存储和管理。
为了方便使用和检索,语料库的数据应该结构化存储,并建立合适的索引和标签。
同时,为了保护语料的版权和隐私,需要制定相应的数据使用政策和权限管理措施。
三、专业语料库的应用专业语料库的建设和应用有助于多个领域的发展。
首先,它在专业培训中起到了重要作用。
通过分析专业领域的语料,可以制定详细的培训计划和教学内容,提高学习者的专业知识和语言能力。
其次,专业语料库可以支持翻译和文本处理任务。
通过对大规模语料的处理和分析,可以提高机器翻译和文本自动处理系统的性能和效果。
此外,专业语料库还有助于学术研究和语言技术的发展,为相关领域的创新提供支持。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库与语料库建设语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。
3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。
4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。
5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。
6、语料库既是一种研究方法,乂代表着一种新的研究思维。
二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。
尤其是在20世纪50年代中期,在语言研究中占主导地位的是重语言材料的经验主义。
这种学术氛圉无疑促进了对语料的重视。
1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。
但在当时这项浩大的工程是通过手工的方式完成的。
20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。
乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并不能确切的反映语言能力。
2、语料的不充分性。
他们认为自然语言句子的数量是无限的,语料库的规模即使再大也无法穷尽所有可能的句子,因此“任何自然语料都是偏颇的”。
在此后的长达20年的时间里理性主义在欧美一直占有统治地位,语料库研究一度陷入低谷。
但在此期间仍有些语言学家凭着非凡的勇气继续不懈地从事语料库研究。
最早的计算机语料库布朗语料库(Brown Corpus), 1961年山纳尔逊(F. Nelson)和库切拉(H. Kucera)建立。
布朗语料库容量为100 万词,收集了60年代有代表性的美国英语语料,语料选自各种出版物,建库时照顾到了各种文体的平衡,严格按照随机原则抽样,是一个标准语料库。
布朗语料库是第一个现代语料库,它对于后来的语料库的发展具有重要的影响。
1975年,Jan Svartvik 始创建伦敦一一隆德语料库(London-Lund Corpus),这两个语料库堪称现代语料库的开山鼻祖。
20世纪80年代以来,在相对沉寂了近20年之后,语料库研究重新萌发了生机,迅速得到发展。
语料库研究的迅速发展基于以下三个方面的原因:首先,具有语言学基础。
在英国语言学研究中,实证主义从弗斯到韩礼德再到辛克莱一直被传承了下来,实证主义的基石是对可观察的对象进行研究,作为人们外部行为的语言运用是可观察的、可黑的依据,而人们内在的语言能力是不可直接观察的,只能通过语用实例进行推断。
语料库是在随机采样的基础上收集的有代表性的真实语言材料的集合,是语言运用的样本。
如果样本具有代表性,采样具有随机性,且样本的量乂足够大,则可以认为样本就是总体的真实代表;样本具有总体的统讣特征,研究语料库中的语言材料即近似于研究语言本身。
语料库中的语言材料都是人们实际使用的语言材料,因此语料库语言的研究结果具有可黑性和真实性。
强大的技术支持是语料库迅速发展的乂一原因。
主要体现在以下三个方面:一、以计算机为主导的硬件技术的发展。
PC机的兴起、计算机计算速度的高速增长、存储介质的开发、存储容量的剧增都为讣算机语料库的建设发展提供了技术保障。
二、讣算机网络的发展为语料库的发展和应用提供了有利条件。
首先,大量的文献和文件具有电子文本形式在网上传播,为语料库语料的获得提供了便利条件;其次,大量语料库成为在线语料库,允许用户在网上实时使用;再者,研究者和用户能够在网上就语料库及时交流经验和看法。
三、可以共享的语料库索引软件的开发。
如今的索引软件大多已不是专为某一个语料库单独设讣与开发的,而是能够应用于各种类型其至不同语种的语料库。
语料库迅速发展的第三个原因是需求的增长。
在语料库的应用领域,不断增长的用户群体和不断扩大的应用领域进一步体现了语料库的应用价值。
其应用包括传统领域、扩展领域和新兴领域。
传统领域包括自然语言处理、语法分析和辞典编纂等,扩展领域包括教材的组织编写、机器翻译、语言识别和语言对比;新兴领域包括语言教学、数据驱动语言学习、中间语对比分析研究、多媒体讣算机辅助教学、在线语料库。
在上述因素促动下,语料库建设迅速发展,相继出现了一批语料库,如,LOB 语料库(Lancaster-Oslo-Bergen Corpus) > COBUILD 语料库、国际英语语料库(The International Corpus of English ,简称ICE)、赫尔辛基历史英语语料库(The Helsinki Corpus of Historical English)及各不同语种、不同用途类型的语料库。
三、语料库的建设与开发(一)总体设计首先语料库的建设U的要明确,建库的LI的决定着语料的选取。
如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库(CLEC)建库LI的是:1、通过分析中国英语学习者写作中典型错误及其与学习者中间语发展的内在关系,为中国外语教学,尤其是英语写作教学,提供积极反馈;2、对学习者语料库与英语本族语语料库进行对比分析。
语料库的规模设计。
在规模上,只要条件允许,应该是语料库的规模越大越好。
就语料库发展趋势来看,建立固定规模的语料库并非语料库发展的大趋势,因为语言本身是动态发展的,语料库也应当是动态的,可以不断扩充的。
语料库的内容。
如果说规模是针对量的问题,那么,内容就是要解决质的问题。
对于内容,最根本的是要真实,它包括两个方面,1、要收集实际使用中的文本,而不能是研究者杜撰的;2、要收集符合条件的文本。
如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。
(二)具体实施1、语料的搜集现代计算机技术和网络资源使得语料库语料的获得变得方便容易。
传统的语料库建设,语料输入工作极为浩繁,基本上靠手工键盘输入和扫描输入,费时费力,且容易出现错误,需要校对。
如今大量的在线语料资源、光盘资料、因特网资源,包括新闻、邮件列表、电子邮件等,使语料库的建设和扩充变得非常快捷方便。
当然,用于不同研究LI的的语料库对其语料来源可能要求不同,会影响到语料的釆集。
2、抽样语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡,要考虑每一文类、体裁、语域、主题类型等的抽样比例。
乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性。
U 前,讣算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。
决定语料代表性的主要因素是样本的抽样过程和语料量的大小。
语料库一般采用随机抽样方法。
一种做法是在抽样前首先确定抽样的范围,再就是确定语料的分层结构,进行分层抽样,如把语料按文类(如小说、新闻报道、科学论文、法律文书、诗歌、散文等)和信道(如书面语和口语)进行分层抽样。
在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽样。
3、语料库的加工文本输入讣算机后,一般需要进行一些加工,主要包括语料的标识和语料的赋码。
1)语料库的标识标识主要分两类:一类是对文本的性质和特征进行标识,另一类是对文本中的符号、格式等进行标识。
如CLEC语料库标注了以下主要信息,包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。
第一类标识是必要的,因为它们可以用来对文本进行必要的分类,为灵活提取文本进行各类LI的研究提供便利,而且它们可以标注在文本开头或者作为另一个文件保存,丝毫不破坏语料的完整性和原始性。
至于第二类标识可以视研究和应用的LI的而定。
但不管怎样,保存一份未标识的原文本是很有必要的。
2)赋码一些研究不需要赋码语料库,而有些研究需要赋码语料库。
当前,语料库的赋码主要有两类:一类是词类码,乂称语法码;另一类是句法码。
词类赋码就是对文本中每一个词标注词类属性,这项丄作通常是在传统语法对词类的划分的基础上进行的,只是分类适应要求做得更细。
如在LOB语料库中以NN代表普通名词的单数形式,以NNP代表以大写字母开头的普通名词的单数形式,如Englishman ,以NNS代表普通名词的复数形式,如desks,以VB代表动词的基本形式,如write、see,以VBD代表动词的过去式,如wrote、saw,以VBG 代表动词的现在分词形式,如reading、eating ,以VBN代表动词的过去分词形式,如written、seen,等等。