常用语料库软件的应用 - 上海交通大学翻译与词典学研究中心
语料库在英语语言研究方面的应用

语料库在英语语言研究方面的应用作者:熊玲莹来源:《校园英语·上旬》2017年第02期【摘要】目前,社会正处于经济一体化过程中,英语语言在人们进行沟通交流时应用最为广泛,可谓一项最为基本的语言技能。
故而,对英语语言进行相关研究可以适应时代发展和需求,是语言研究工作者较为热衷的一个课题。
而在对英语语言进行研究时,语料库是必备工具并且目前得到了较多的应用,为更好的研究英语语言立下了汗马功劳,也为较好的研究英语语言提供了很多创新理念。
故而,在当今时期下,进行英语语言研究的时候,探究语料库的作用有着重要的意义,鉴于此,笔者总结了此文。
【关键词】语料库英语语言研究应用最近几年,伴随着发展迅猛的计算机技术,在研究语言学的时候,语料库起到了较为明显的作用,其不仅为更好的进行语言研究提供了推进力,更为其研究提供了丰富可用的资料,从而不断的推进了英语语言研究的进展。
而在本文中,笔者就浅谈下在研究英语语言时语料库的相关应用。
一、语料库涵义及特点1.涵义。
所谓语料库,顾名思义,首先是一个数据库,这个数据库的作用就是对语料进行存放。
具体而言,就是应用相关的计算机工作,科学的对语言资料进行分析和筛选,然后进行相应的计算机方法加工,最终将其采用电子模式进行保存的一类文本库,其可以为语言的研究提供相应的资料来源,在进行语言研究的时候,其可谓是第一手的查找资料。
2.特点。
(1)特点之真实性。
这个特点也就是说在整理和筛选语言资料的时候,要立于实际,不能凭空臆想,所有的资料都要从生活实际当中获取,其代表的是人类现实的实际言语活动。
(2)特点之代表性。
在收集语言资料的时候,尽管来源十分可靠,但是不能将所有的语言事实进行全面的囊括,故而,就语言研究者而言,在收集的时候,要选择某个时期具有代表性的资料,从而将相关的语言特征充分显示出来,也增大语料库的规模,丰富其内容。
(3)特点之运用灵活性。
就计算机技术而言,不仅有着检索作用,处理能力也十分强大,研究者在进行语言研究的时候,要充分利用其这一功能,从而实现在尽量短的时间中处理尽量多的文本材料,使得自身效率大大提高。
Web语料库在外语听力教学中的应用

Web语料库在外语听力教学中的应用随着技术的不断进步和发展,Web语料库在外语教学中的应用已经成为了一种趋势,越来越多的教师和学生开始重视Web语料库在外语听力教学中的应用。
本文将从以下几个方面来阐述Web语料库在外语听力教学中的应用。
一、Web语料库简介Web语料库是通过互联网获取的一种文本语料库,语料库通常包含语音、文本和图片等多种类型。
在Web语料库中,可以找到各种各样的数据,如各种类型的文章、论文、新闻报道等。
这些语料库可以被用来研究语言的使用、语言习得等方面。
二、Web语料库在外语听力教学中的应用1.帮助学生提高听力技能Web语料库可以帮助学生提高英语听力技能,因为它提供了各种类型、各种场景的英语听力材料。
学生可以通过Web语料库来听取不同类别的材料,如新闻报道、科技杂志等,从而提高自己的听力技能。
2.帮助学生锻炼听力速度和技巧Web语料库中包含了各种不同的语速和语调,学生可以通过此来锻炼听力速度和技巧。
并且听取不同速度、不同难度的听力材料,还可以帮助学生逐渐适应外国人的语速和语调。
3.提供面向主题的听力教材Web语料库可以提供面向特定主题的听力教材,以满足学生的需要。
比如,学生可以选择听取关于运动、文化等特定主题的材料,以满足自己的学习需求。
4.通过Web语料库提高听力教学的效率Web语料库将听力课程从传统的教材和作业中解放出来,让听力材料不再是单一的。
而且,它还可以帮助老师更加便捷地查找合适的听力材料,以适应不同的教学需求。
三、Web语料库在听力教学中的案例以下是一些Web语料库在听力教学中的案例,这些案例将有助于我们更好地理解Web语料库在听力教学中的应用。
1.使用Youtube上的视频进行听力教学老师可以通过在YouTube上查找有关课程的视频来进行听力教学。
这些视频可以是各种类型的,比如科技、音乐、纪录片、电影和卡通等。
学生可以在自己的电脑或智能手机上观看这些视频。
老师可以根据学生的教学需求,修改视频的播放速度并添加字幕以帮助学生理解。
《基于语料库的莎士比亚戏剧汉译研究》读书笔记模板

1.4本书的研究内容、研究意义和研究方法
1.4.1本书的主要研究内容 1.4.2本书的研究意义 1.4.3本书的研究方法
2.1引言
2.2中英文语料的选 择与输入
2.3语料的预处理
2.4语料的分词和标 注
2.5语料的平行 对齐
2.6小结
3.1引言
3.2翻译共性的概念 及分类
3.3显化的实证研究 3.4隐化的实证研究
5.2.1人际意义的定义 5.2.2人际意义的分类
5.4莎剧中情态助动词的汉译研究——以“can”为例
5.4.1引言 5.4.2情态系统与情态类型 5.4.3情态的表达 5.4.4研究设计 5.4.5莎剧中“can”的汉译归类 5.4.6情态助动词“can”的汉译异同及原因分析 5.4.7小结
5.5莎剧中“good”的评价意义再现研究
6.4莎剧中颜色词概念隐喻的汉译研究
6.4.1引言 6.4.2莎剧中颜色词概念隐喻及其汉译 6.4.3莎剧中颜剧中话语标记“well”的汉译研究
6.5.1引言 6.5.2话语标记“well”的功能 6.5.3研究步骤 6.5.4莎剧中话语标记“well”的应用及其汉译 6.5.5小结
5.5.1引言 5.5.2评价意义 5.5.3梁译本与朱译本中“good”的评价意义再现 5.5.4梁译本和朱译本中级差意义再现差异的动因 5.5.5小结
5.6莎剧中“lord”的人际意义再现研究
5.6.1引言 5.6.2称呼语的人际意义 5.6.3研究设计 5.6.4莎剧汉译本中“lord”人际意义的再现 5.6.5梁译本和朱译本中“lord”人际意义再现的动因 5.6.6小结
基于语料库的莎士比亚戏剧汉 译研究
读书笔记模板
01 思维导图
语料库在国内英语词汇教学应用的二十年

语料库在国内英语词汇教学应用的二十年作者:彭娅丽来源:《亚太教育》2016年第30期摘要:笔者以中国知网(CNKI)1996—2015年核心期刊中有关语料库应用于外语教学研究的47篇论文为基础,从基于语料库的教学资源、英语课堂教学、英语教学研究三个方面对论文进行梳理、研究和分析,从研究内容,研究角度和研究方法3个方面,总结出语料库应用于外语教学情况和问题,以启示未来基于语料库的词汇教学研究和实践。
关键词:语料库;英语词汇教学;国内研究中图分类号:H319.3文献标志码:A文章编号:2095-9214(2016)10-0098-02一、引言词汇是语言学习的基础,具有极其重要的作用。
Harmer提出:“ 如果说语法结构是语言的骨骼的话,词汇则是语言的器官和血肉。
” 然而目前中国的英语课堂,采用单一的以教师为中心的词汇教学法,先朗读,再介绍单词的意义和用法,简单列举几个例句,最后由学生造句进行练习。
这种方法只单纯追求词汇量增长,而忽视了词汇的质量和深度,轻视语义的运用。
学生记忆了很多单词,但在写作或说话时仍只能运用有限的词汇,并造成词汇误用、超用或少用。
词汇知识包括哪些内容, Nation提出并扩展了多维词汇知识框架。
他从接受性和产出性两个维度指出词汇知识包括九方面:发音、拼写、词性、形意关联、概念指向、语义联想、语法形式、搭配、使用语境的制约等。
吴霞和王蔷也把词汇量的大小和对词义的了解深度看作衡量学生词汇能力的两个重要尺度。
词汇广度是指学习者所掌握的词的数量。
词汇深度指学习者对于词汇深层次知识的掌握,包括对一词多义语义网络的了解和掌握以及对词汇搭配能力的了解和对词义之间细微差异的敏感性。
20世纪60年代后,语料库建设突飞猛进,为词汇教学提供了新思路。
Tim Johns首次提出数据驱动学习(DDL)的观点,认为学生可以通过观察真实语言,掌握词汇意义和语法规则。
Renouf和Sinclair提倡以短语结构为纲的英语教学,专门利用大型语料库来研究英语词汇的搭配结构。
平行语料库在翻译教学中的运用

- 59 -校园英语 / 高等教育研究平行语料库在翻译教学中的运用萍乡学院/赖康生 陈永国【摘要】英汉双语平行语料库在英汉翻译教学中扮演着非常重要的角色,它能够为翻译教师在翻译课堂中提供许多鲜活的、典型的翻译例句。
它在解决教师缺乏与翻译技巧紧密结合的翻译例句等方面提供了其他翻译工具无法解决的帮助。
本文通过研究如何在翻译课堂中合理使用平行语料库使翻译课堂重新充满活力。
【关键词】平行语料库 翻译教学 运用一、国内高校翻译教学现状为了了解我校翻译教学现状,笔者制作了120份关于我校英语翻译教学满意度调查问卷,在外国语学院13级的6个英语本科班大三学生群体中发放,发放120份问卷,回收120份问卷,对回收的问卷进行整理统计、分析,发现我校翻译教学存在如下问题:从表1我们可以看出,53.3%的学生认为翻译课堂教学中教师的主要目的是以传授翻译技能为主,56.7%的学生认为翻译教师在备课中充分考虑到了教学内容,学生情况和教学方法三大要素。
53.3%的学生认为教师教学环节较完善,时间安排较好;50%的学生认为家作和课后练习数量较少,56.7%的学生认为翻译老师从未根据学生的具体翻译能力分不同层次进行作业安排。
45.8%的学生认为老师对所布置的作业偶尔进行一次认真的批阅,31.7%的学生认为教师能够及时有效地检查和批阅所布置的作业。
由此我们可以得出,学生对于老师所布置的作业的数量和批改态度不是很满意,翻译教师布置作业较少,批改次数较少,所布置的作业内容也没有考虑到难易度的区分。
从表2我们可以发现,35%的学生认为翻译老师使用传统教学方法,不征求学生意见去改进教学方法;更为严重的是55.8%的学生认为老师的教学方法单一,以讲授为主,照本宣科;52.5%的学生认为老师善于使用各种教学手段,特别是多媒体、网络等现代教育技术手段。
50.8%的学生认为老师会组织大家一起课堂讨论。
综合以上数据分析,大多数翻译教师依然使用的是较为传统的翻译教学方式:教授翻译技巧,布置翻译练习,核对练习答案。
语料库与英语教学

语料库与英语教学
赵鸿雁 hongyan_z@ 上海交通大学外国语学院
1
contents
I II
语料库简介
语料库研究成果与外语教学
学习者语料库数据的利用 语料库使用演示
III
IV
2
I. 语料库简介
语料库语言学是一种全新的研究思路。它以真 实的语言数据为研究对象,从宏观的角度对大 数量的语言事实进行分析,从中寻找语言使用 的规律。
7
语料库的种类
1.通用语料库:British National Corpus(1亿) 2.专业语料库:JDEST(100万),古汉语语料库 (3000万) 3.监控语料库:Corpus of Contemporary American English(3.6亿) 4.口语语料库: Corpus of Spoken American English(25万) 5.学习者语料库: International Corpus of Learner English(每个子库20万) 6.平行语料库:联合国文件数据库( 80万份六种语 言平行文档)
much routine in policy. These are t twenty years know that these are ce between the two phrases -- are ermore, if two parties (usually, but personal is broader than, and does r facilities are advertised, they may overs all accommodation and does ldren's facilities, for example, does remember that past performance is
口译语料库在口译教学中的应用
语言文学研究口译语料库在口译教学中的应用徐谦谦(上海应用技术大学外国语学院,上海201418)摘要:基于口译语料库的研究方法是口译研究的一种主8方法,借助语料库研究方法研究口译教学具有重大意义。
本文从口译教学特点及当前口译教学存在的问题出发,探究口译语料库在提供口译训练材料、辅助口译译前准备、辅助口译记忆训练等方面的具体应用。
关键词:口译语料库口译教学口译记忆训练1.引言语料库口译研究始于,1998年Shlesinger发文"Corpus-Based Interpreting Studies as an Offshoot of Corpus-Based Translation Studies"。
Shlesinger在文中提出可以借鉴语料库语言学对词汇密度、语篇特征、类符-形符比等描写手段及语料库翻译学利用平行语料库和可比语料库的方法开展口译研究。
国际知名出版公司Peter Lang出版了迄今第一本语料库口译研究专题论文集《拓荒语料库口译研究}(Breaking Ground in Corpus-Based Interpreting Studies)(陈菁,2014)。
目前国外已建成两个大型口译语料库即日本名古屋大学建立的CIAIR口译语料库和意大利博洛尼亚大学建立的EPIC (欧洲议会口译语料库)。
国外研究建型专门用途口译语料库,如Meyer(2008)建立K6语料库来研究交传和同传中对人名的;Petite(2008)建立语料库专门研究同传中的纠正机制(Repair Mechanism);Cencini(2000)建立电视口译语料库(Television Interpreting Corpus);Fumagalli(1999-2000)建类比和对应语料库研究英一意时事特点。
甲芳(2017)出目前国已建成的个口译语料库:外国语大学文秋芳教授及其团队建立PACCEL-S(Parallel Corpus of Chinese EFL Learners-Spoken);上海交通大学胡开宝及其团队建立CECIC(Chinese English Conference Interpreting Corpus)(包括三个库:会汉英平行语料库、会英语语料库、英平行语料子库);香港理工大学及其团队建立BICCSL(Hong Kong Bilingual Interpreting Corpus on Contem porary Social Life);英国利大学及建立CEIPPC(Corpus of Chinese-English Interpreting for Premier' s Press Conference)(后来被拓展为CEICO(Chinese-English Interpreting Corpus Online))o国内外文,基于语料库的口译研究具在类口译语料库建应用、口译语料库研究方法、口译和、口译语料写和方法、于建口译语料库进行口译语言特征和口译、口译教学等方。
基于语料库的汉日语词汇对译研究——以“特地”“特意”与“わざわざ”等词的翻译为例
基于语料库的汉日语词汇对译研究—以''特地”"特意”与等词的翻译为例◎石俊摘要:"特意""特地"与等词在词典或教学中,一般解释为相互对应,可以互译。
但事实上,并非如此。
本文通过对中日对译语料库①的调查、统计和分析,考察中日两种语言中“特地"“特意"与“;等词的对应关系,探讨他们在使用方法、语义、语用及文化上的异同。
关键词:特地特意中日语料库对比分析一、问题的提起“特地”“特意”是现代汉语中一组常用同义副词。
无论吕叔湘的《现代汉语800词》②,还是近年出版的《现代汉语常用词汇表(草案)》③,均把这两个词作为最基本的常用词汇收录其中。
这两个词汇不仅频繁出现在中国国内的中小学语文教科书和对外汉语教学中级以上教材中,“特意”还被列为新HSK汉语水平考试5级所要求掌握的词汇。
与“特意"“特地”对应的日语词汇是“初芒力F'、“七<属日本语能力测试N3、N2级所要求的基本词汇,相信中国的日语学习者对之并不陌生。
但我们常常会听到下面一些说法。
例如就曾有中国的日语学习者满面笑曆地对自己的日本外教说道:X"今日C总空逹先生Q会1/、^来却被外教纠正道此处不应该使用学生不解,我们中国人不是常说“老师,我今天特意来看您”么?而且词典里就是这么解释的。
果然,在几乎所有的汉日•日汉词典中,都明确标注了“特地”“特意”的日语释义为,力芒力g,“特很多词典还罗列了相关用例。
如三省堂的《超級心沙中日辞典》中就有“鏈来看你。
/速逹君Q会Z乙来5”;讲谈社《中日辞典第三版》《岩波中国语辞典》《东方中国语辞典》等,也都有类似用例:“我是便意来看望你的。
/私君広会1/1来尢<7)疋。
”这位中国学生的“今日瓜业业先生人会1/、^来求。
尢。
”不就是完全根据辞典解释的照猫画虎么?还有就职于日本企业的中国员工亦因这个词,受过客户的提醒:X“OO会社①王-cTo矽泳様总J2自空:迎元卜乙参。
常用语料库软件的应用
双语语料的对齐: 方式和 方法-2
• 初始对应: 源语、目标语文本段对齐,word下完成校 对。这一步最重要。
• Paraconc可以考虑添加s标记。 • 对齐: 软件对齐。如aligner,paraconc;Trados,
OmegaT • Trados商业使用最为广泛 • Déjà vu易操作 • Omega T免费,更易操作,但只能单用不能基于
web
微型教学语料库的创建和 使用
• 建库目的和内容
o 针对学生翻译习作 o 反映学生个体和总体特征 o 翻译技巧和翻译评估相结合 o 提取信息方便 o 易于操作
• 使用Excel基本满足此类要求
序的headadder,txtmarker。其实除噪是执 行一些替换性的操作(see next slide)
语料文本的基本处理: 主 要处理方式-4
• $line=~s/\s\n/\n/g; #matching and replacing all • $line=~s/(.)\n/$1 /g; #matching and replacing all • $line=~s/[\r\n]/##/g; #matching and replacing all • $line=~s/\*//g; #matching and replacing all • $line=~s/^\s*$//g; #matching and replacing all • $line=~s/\\s{0,}/\s/g; #matching and replacing all • $line=~s/\\s\n/\n/g; #matching and replacing all • $line=~s/\Z\n/##/g; #matching and replacing all • $line=~s/ +/ /g; #replace more whitespaces with just one • $line=~s/\s+(#{2,})/$1/g; #matching and replacing all
语料库语言学与ChatGPT在翻译研究中的应用
语料库语言学与ChatGPT在翻译研究中的应用语料库语言学和ChatGPT都是自然语言处理领域的重要研究方向,它们在翻译研究中也有广泛的应用。
语料库语言学是指利用自然语言语料库进行语言学研究的方法。
通过收集和管理大量的语言数据,人们可以从中提取出各种有用的信息,比如语言结构、语法规则、词汇使用、语言习惯等等。
这些信息对于机器翻译来说尤为重要,因为它们可以被用来训练机器翻译模型,提高翻译的准确性和流畅度。
ChatGPT是一种基于TmnSfOrmer架构的神经网络模型,它可以通过大量的语言数据进行无监督学习,从而生成高质量的文本。
在翻译研究中,ChatGPT可以用来生成机器翻译结果的上下文,提高翻译的连贯性和自然度。
在实际应用中,语料库语言学和ChatGPT也经常被用来解决机器翻译的一些问题。
比如,当机器翻译遇到生词或固定搭配时,可以利用语料库语言学中的知识,通过上下文信息来推测其含义,从而更加准确地翻译。
另外,在机器翻译中,ChatGPT也可以用来生成对话式的翻译结果,让翻译更加灵活自然。
总之,语料库语言学和ChatGPT在翻译研究中具有非常重要的应用价值,可以帮助提高机器翻译的准确性、流畅度和自然度。
一、语料库语言学与ChatGPT的意义(一)语料库语言学的意义语料库语言学是指通过对自然语言的真实使用形成的大规模语言数据进行分析和研究,以便更好地理解语言现象和规律的学科领域。
语料库语言学的出现为语言研究提供了丰富而可靠的实证研究材料,尤其是在计算语言学和自然语言处理领域研究中得到了广泛应用。
通过语料库语言学的研究,可以获得领域特定的词汇、语法结构和文化背景等信息,进而提高机器翻译、文本分类、信息检索等自然语言处理任务的准确性和效率。
(二)ChatGPT的意义ChatGPT是由OPenAl团队开发的基于TranSformer编码器-解码器架构的生成式预训练语言模型。
该模型通过对大规模语料库数据进行训练,可以实现对自然语言的生成与理解任务,如问答、摘要生成、对话生成等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库的基本特征-2
• 语料库可以视为结构合理的语料文件的集合。往往以 数据库形式存在(如文件夹)。这是语料库建库工作 中最重要的部分,也是最耗时费力的部分。 • 语料数据库建成之后,就可以从库中提取信息,称为 检索。检索效果高低要看能否充分运用检索手段,但 最终依赖语料库本身能提供多少可能性。 • 检索结果的处理需要技巧,事关处理的质量和效率。
语料数据的后续处理-2
• 重复词项计算 • Facotor analysis (SPSS) • Correlation analysis (SPSS)
平行语料库辅助翻译应用
• 基本思路:已有翻译为参照,为当下翻译提供参考; 建立术语库,使术语统一成为可能。 • CAT的主体部分是TM和Term Database • CAT软件:Trados,Deja vu,雅信,(免费) OmegaT • Trados商业使用最为广泛 • Déjà vu易操作 • Omega T免费,更易操作,但只能单用不能基于 web
语料文本的基本处理:主 要处理方式-2
• Word中的替换、Macro的使用 • 其他语料文本处理工具的使用(Editplus)
语料文本的基本处理:主 要处理方式-3
• 规范语料文件的生成:无噪音、符合预期的加 工规范(标记充分)。 • Header • <p>|<s> • POS • 存储格式(txt|xml) • 辅助软件的使用:通常会包含包含文本除噪程 序的headadder,txtmarker。其实除噪是执 行一些替换性的操作(see next slide)
语料文本的基本处理:主要处理方式-1
• 语料的最常用存储方式是纯文本,纯文本顾名思义就是 只有文字,不支持任何其他字符格式,如粗体、斜体、 下划线、表格框,等等。语料以这种方式存储占用空间 极小,且几乎所有检索软件都支持。 • 将语料以这种方式存储只是检索的操作,更重要的是让 存储的文本内容规范,格式尽量一致,而且没有乱码, 不必要的空格和软回车、硬回车,等等文本噪音。要做 到这些,就需要对语料进行按部就班的处理。使用 Microsoft Word可以对文本进行处理。
语料库的制作和应用
2014.7.14
CONTENTS
• • • • • • • 语料库的基本特征 语料抽样:理论与抽样操作 语料文本的基本处理:主要处理方式和实现方式 双语语料的对齐:方式和方法 语料检索:基本检索和高级检索(普通、正则和term list) 双语语料检索:基本检索和高级检索 语料数据后续处理:z-score; log-likelihood; factor analysis; correlation; keyness • 微型教学语料库的创建和使用 • 翻译课堂教学用双语语料的制作和应用
语料库的基本特征-1
• Computer-readable: txt, xml, html, doc, pdf • Consistency: o his mother; his mother; his\nmother • Annotation: o 我们_r; 我们/r; 我们<r>; <w pos=“r”>我们</w> • Header: o 有关文本的元信息,涉及文本的作者、文体、出版时间等 o <LANGUAGE>Chinese</LANGUAGE><SL>English</SL><TITLE> MeiGuoShi</TITLE><TRANS>WeiYeChou</TRANS><CATEGORY >1</CATEGORY><STYLE>3</STYLE><GENRE>G</GENRE><PUBL ISHER>Shangwuyinshuguan</PUBLISHER><TIME>1929</TIME>< ERA>B</ERA><SIZE>23052</SIZE> • 相对完整的语料文件范本
微型教学语料库的创建和 使用
• 建库目的和内容
o o o o o 针对学生翻译习作 反映学生个体和总体特征 翻译技巧和翻译评估相结合 提取信息方便 易于操作
• 使用Excel基本满足此类要求
翻译课堂教学用双语语料 的制作和应用
• 建库目的:翻译教学;自学 • 设计要求:
o 方便呈现多样译文; 便于对比; 方便评注; o 不需要句对齐,段对齐即可
双语语料检索:基本检索 和高级检索
• Paraconc中的双语高级检索:正则表达式检索
• 满足某些研究需要的正则表达式检索:历时语料 库检索平台 omegaT检索
语料检索小结
• 正则表达式的检索功能有些使用通配符也能做到,但有些则 是通配符检索无法实现的。实际检索时发现,在词汇层面, 汉语的叠词以及隔词重复的精确检索只能使用正则表达式, 使用通配符也能勉强检索,但无法精确检索;在句子层面, 正则表达式能使准确的句段长度检索和严格的句段内部结构 检索成为可能。 • 正则表达式的使用看上去有些繁琐,但只要肯花点时间熟悉 元字符的意义,使用起来也比较方便,它还有助于提高检索 的准确性和效率,进而提高语言研究的质量。
语料文本的基本处理:主 要处理方式-4
• • • • • • • • • • $line=~s/\s\n/\n/g; #matching and replacing all $line=~s/(.)\n/$1 /g; #matching and replacing all $line=~s/[\r\n]/##/g; #matching and replacing all $line=~s/\*//g; #matching and replacing all $line=~s/^\s*$//g; #matching and replacing all $line=~s/\\s{0,}/\s/g; #matching and replacing all $line=~s/\\s\n/\n/g; #matching and replacing all $line=~s/\Z\n/##/g; #matching and replacing all $line=~s/ +/ /g; #replace more whitespaces with just one $line=~s/\s+(#{2,})/$1/g; #matching and replacing all
语料文本的基本处理:主 要处理方式-5
• 添加metadata后的语料样态
语料文本的基本处理:主要处理方式-6
双语语料的对齐:方式和 方法-1
• 对齐就是源文和译文对应。翻译语料的主要特征是对齐。 • 对齐的语言层级: o 段对齐 o 句对齐 o 段对齐中的句对齐 • 对齐方式不同,与创建语料库的目的有关。比如,如果仅仅 用于辅助翻译,就可以采用句对齐。而要用于翻译研究,就 需要考虑段落层面的语言使用信息,如衔接、话语标记等。 对齐软件有很多,CAT类软件、Paraconc、专门软件。
语料数据的后续处理-1
• 语料检索的目的是发现问题,而语料库检索发现的问题主要 表现在频次、频率上。语料库的这一长处必须充分发挥,才 称之为语料库语言研究。 • 频次、频率典型表达为数字,处理数字问题关系到研究结论 的可信度,需要使用一些处理方法,常用的处理方法有: o 频率对比:特定的词、词丛、词性赋码串;使用WS或 Antconc中keyness工具对比词表、词丛表 o 搭配强度计算:Z-score o 频率差异显著性计算:log-likelihood计算 • 一般说来,词表对比的结果可以重新标注用于分类处理
语料检索:基本检索和高级检索-1
• • • • • • • • • 检索与语言使用的范畴、特征 曲折变化:move, moves, moving, moved 派生:move, movement 词性:move(v.), wove(n.); in, at, on, over, upon, from 人称:I, me, we, us 短语、组合能产:a lot of, a part of, a cup of, a piece of 结构能产:give me a book; send his father a message V NP NP ; V NP NP 语言使用的特征决定了检索不太可能是token,许多情况 下要检索到type,或者需要词性线索。
语料抽样:理论与抽样操 作
• 有代表性、结构合理的语料文本集合,但不是任意搜集的文本数据库, 也不是越大越好,而是“finite-sized body of machine-readable text”,语料库通常有抽样框架。一般说来,处于研究的需要,语料宜尽 量平衡,这样就不能照单全收,需要考虑从中抽取一部分。抽取多少, 如何抽取,这个问题可以说众说纷纭。 o Brown/LOB:分层抽样,大小一致;分层抽样如文学中小说占35%, 散文占8%,戏剧占2%。2nd generation corpora: The Corpus di Italiano Scritto o BNC:大小不一(max:40,000 words);25%/75%(lit./inf.) o ENPC: 40%/60%(non-lit/lit);S. Johansson Size: 2.6 million words Language: English, Norwegian; Number of texts/samples: 100 orig., 100 transl. Period: 1975–1995 • 抽样字数及分配 语料取样计算
双语语料的对齐:方式和 方法-2
• 初始对应:源语、目标语文本段对齐,word下完成校 对。这一步最重要。 • Paraconc可以考虑添加s标记。 • 对齐:软件对齐。如aligner,paraconc;Trados, dejavu,bitext2tmx。前两者提供段对齐和句对齐; 后三个软件一般只提供句对齐。