语料库与翻译研究

合集下载

基于语料库的翻译教学研究

基于语料库的翻译教学研究

基于语料库的翻译教学研究
随着全球化的加速以及中外交往的不断增强,中文翻译已成为最为重
要的跨文化交流方式之一。

然而,在中文翻译教学中,传统的课堂教学方
法难以满足日益增长的翻译需求。

随着互联网和计算机技术的飞速发展,
语料库翻译成为一种新的翻译教学方式,为学生提供了更为实用和高效的
翻译实践经验。

语料库翻译是指利用大规模的平行语料库来进行翻译学习,通过分析
语料库中的句子构造、单词搭配、语法结构等,让学生了解不同语言之间
的差异和奥秘,从而提高其翻译技能。

与传统的翻译方法相比,语料库翻
译具有以下几个优点:
1.实用性强。

语料库翻译能够迅速提供学生所需的大量平行语料库,
使学生能够更好地了解翻译的实际应用情况,提高其翻译水平和适应能力。

2.掌握语言的特点和规律。

通过对语料库的分析,学生可以更好地掌
握词语的搭配和使用规则,从而更准确地把握翻译的精度和流畅度。

3.提高效率。

语料库翻译可以快速地进行批量翻译,并且能够自动检
测翻译的准确性和合理性,同时还能提供更详细的反馈和纠错建议,以帮
助学生快速修正错误。

由此可见,语料库翻译教学不仅可以提高学生的实际翻译技能,还可
以更好地帮助学生了解语言的规律和特点,从而更好地应对复杂多变的翻
译任务。

因此,未来中文翻译教学应该更多地融合语料库翻译的方法和技术,以更好地培养具有实际应用能力和创新潜力的翻译人才。

语料库翻译学研究内容

语料库翻译学研究内容

研讨五语料库翻译学1. 什么是语料库翻译学?2. 语料库翻译学的理论基础?3. 语料库翻译学的研究内容?4. 什么是翻译共性?根据研究课题的来源,语料库翻译学的研究领域分为三类。

第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。

基于语料库的文学翻译研究以文学翻译作品的文本分析为基础,研究文学翻译理论与实践的相关课题。

这些课题具体为: 1) 意象和人物形象的再现与变形,2) 文学风格的再现与重构,3) 文学翻译的创造性,4) 译者风格,5) 文学作品空白和未定性的翻译,6) 文化负载词的翻译,7) 误译和漏译研究。

基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析,揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。

目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于翻译规范和历史语境关注不够。

事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。

此外,翻译是一种特殊的社会文化行为,受特定规范的制约。

这些规范因时代或文化的差异而不同。

利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。

另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。

这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。

应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法( contextualization) 的应用。

这些共性为语料库在翻译史研究中的应用提供了作为空间。

以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。

前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。

基于语料库的翻译研究方法探析

基于语料库的翻译研究方法探析

基于语料库的翻译研究方法探析摘要:语料库方法注重实证研究,强调数据统计和理论分析的有机结合,是一种行之有效的语言研究方法。

文章分析了语料库语言学的研究方法,回顾了基于语料库的翻译研究,同时展望了语料库翻译研究的发展前景。

关键词:语料库;研究方法;翻译研究实践是社会存在和发展的基础,是认识发生和发展的基础,也是社会科学研究的方法论基础。

语料库方法以真实存在的语言实践为基础,强调数据统计和理论分析的有机结合,是一种行之有效的语言研究方法。

近年来,利用语料库方法进行的翻译研究成为热点,文章分析了语料库研究方法,回顾了基于语料库法的翻译研究成果,并展望了翻译语料库研究的发展前景。

一、语料库研究方法语言研究历来重视语言材料的充分收集、整理和分析。

根据语言材料的采集和使用途径,现代语言学研究的方法主要有三种,即内省法(introspection approach)、诱导法(elicitation approach)和语料库研究法(corpus-based approach)。

内省法认为人的语言能力是天生的,研究者本人的语感和直觉是语言现象是否合乎语法、有无歧义的权衡尺度。

内省法根据少数的语言事实提出某种规则和原则,强调语言的无限生成能力,研究对象既包括实际使用的句子,也有语言学家虚构的句子。

但内省法脱离了语言使用的社会环境,忽视了语言的社会属性,遭到语言学家的质疑。

诱导法是一种社会调查方法。

通过控制变量的方法,采用实地或问卷调查的方式,诱导受试者对句子或句子中某个成分做出判断。

诱导法把语言看作交际的工具,强调语言的社会属性,研究对象为实际使用的语言。

但这种方法易受调查规模、受试者的水平差异等因素的影响。

语料库研究法也是一种着眼于语言运用的研究方法。

这一方法依靠计算机操作存储系统和相关软件,收录不受外界影响的真实语言材料,基本手段是概率统计。

在广泛收集语料的基础上进行统计分析,得出语言运用的概率信息,之后以概率信息为指导,分析真实的语言材料。

翻译语料库在高校英语专业翻译课程教学中的应用策略研究

翻译语料库在高校英语专业翻译课程教学中的应用策略研究

翻译语料库在高校英语专业翻译课程教学中的应用策略研究一、引言1. 提高学生的翻译效率翻译语料库可以为学生提供大量的翻译实例和相关的语境信息,帮助他们更好地理解翻译的语言环境。

通过研究语料库中的翻译实例,学生可以更快地掌握翻译技巧,提高翻译的效率。

2. 增强学生的语言感知能力语料库中的翻译实例丰富多样,可以帮助学生了解不同语境下的翻译表达方式,增强他们的语言感知能力。

通过对语料库的研究,学生可以更好地领会不同语言之间的差异和联系,提高跨文化交际能力。

3. 提高学生的专业素养1. 引导学生正确使用翻译语料库在翻译课程的教学中,教师应该引导学生正确使用翻译语料库。

学生需要了解如何检索和筛选语料库中的信息,找到与自己翻译任务相关的实例。

学生需要学会如何分析语料库中的翻译实例,领会其中的翻译技巧和语言特点。

学生需要掌握如何将语料库中的信息应用到自己的翻译实践中,提高翻译质量和效率。

2. 结合实际翻译任务进行教学设计在翻译课程的教学设计中,教师可以结合实际的翻译任务,引导学生使用翻译语料库进行翻译实践。

通过让学生在实际的翻译情境中使用语料库,可以帮助他们更好地掌握翻译技巧,提高翻译能力。

实际的翻译任务也可以激发学生的学习兴趣,增强他们的学习动力。

3. 注重课堂实践教学1. 教师要具备一定的语料库应用能力在翻译课程的教学中,教师应该具备一定的语料库应用能力,能够熟练运用不同类型的翻译语料库,为学生提供有效的指导和支持。

教师需要不断提升自己的语料库应用能力,了解最新的翻译语料库工具和资源,为学生提供更好的教学服务。

2. 学校要加强翻译语料库资源建设为了提高翻译课程的教学质量,学校需要加强翻译语料库资源建设,为学生提供丰富多样的语料库资源。

学校可以购买或开发专门的翻译语料库工具,建立翻译语料库资源平台,为学生提供更好的学习支持。

在翻译课程学习过程中,学生应该注重翻译语料库的使用和积累,多多利用语料库进行翻译实践,不断提高翻译能力。

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义
科技・ 探索・ 争I 乌
S c 科 i e n c e & 技 T e c h 视 n o l o g y 界 V i s i o n
项目 与 ■
浅析语料库对于翻译研究的意义
陈 丹
( 辽 东学 院 , 辽宁 丹东 1 1 8 0 0 0 )
【 摘 要】 基于语料库 的翻译研究在 当 今 已进入一个全新模 式, 多种语料库被开发 应用在人工翻译和机 器翻译等 实践领域 当中。本文对语 料库的概念以及某些种类语料库在翻译活动中具体 实用情况做 出分析 . 揭示语料库对于翻译研究的意义。
【 K e y w o r d s ] C o r p u s ; T r ns a l a t i n g ; b i l i n g u a l c o pu r s ; P a r a l l e l c o r p u s
“ 语 料库” 的英 语单词 c o r p u s 来源于拉 丁语 . 意思 是 b o d v . 有“ 全 集” 的含义 , 即“ 语料的集合 ” 。 有 的学者认为语料库是基于形式和 目的 的存储于电子数据库中的文本集合 .是描述 自然发生语 言的集合 : 也 有人认 为它是按照 明确 的语言 学标准选择并排序 的语 言运 用材料的 汇集 , 旨在用作语言的样本 。国内语料库学者杨惠中对语料库的定义 做了较为详细的界定。他指 出, “ 语料库是指按照一定的语言学原则 . 运用 随机抽样方法 . 收集 自然 出现 的连续的语言运用文本或话然 的语言 不同于普通的文本数 据库 , 它的设计和建设是 以系统的理论语言学原则 为依 据 , 并且具有 明确 的目的性 。语料库的结 构严格依照既定程序设定 . 以一定研究 目 的为基础 , 按学科或语 篇类型分类存储 。语料库 中的语料必须符合科 学的语言研究 , 语料可以随机抽取或按统计学方法采集 。 语料库 的类型和分类标 准很多 按用途分 . 语料库可分为通用语 料库 ( g e n e r a l c o pu r s )  ̄专用语 料库 f s p e c i a l i z e d C O r p u s ) : 按语 料选 取时 间 ,语 料库 可 分为 历 时语 料 库 f d i a c h r o n i c c 0 r p u s )和 共 时语 料 库 ( s y n c h r o n i c c o pu r s ) ; 按不 同结构 .语料库可分为平衡语料库( b a l a n c e d c o pu r s ) 和 自然 随机结构语料库 ( r a n d o m s t mc t u r e c 0 r p u s 1 : 按语料库 的性 质 ,语料库可分 为原始语料 库 f r a w c o pu r s 1和标注语料库 ( a n n o t a t e d c o pu r s ) ; 按语言种类 , 语料库 可分为单语语料库( m o n o l i n g u a l c 0 r p u s ) 、 多 语语料库( m u h i l i n g u a l c o p r u s )  ̄ 语语料库( b i l i n g u a l c 0 pu r s ) 等 传统上 . 语料库在翻译中往往作为辅助性 的工具 随着计算机技 术的飞速发展和翻译研究的不断深入 . 语料库 已经成 为翻译理论和 翻 译实践中不可或缺 的“ 利器 ” 尤其是在人工 翻译 和机 器翻译等应用领 域。 料进行标 注,就可进一步将它运用于解决语法或语义上的翻译问题。 比较语料库( C O m p a r a b l e c 0 r p o r a ) 的研 究可应 用于很 多领域 。在文学研 究或翻译 中 . 不同语料库的对比可 以揭示一个作者在写作中或译者在 翻译过程中所体现 出的个人风格 . 这有利于我们对文学作 品的把握。 机器翻译 的 目 标就是应 用计 算机辅助或代替人来从 事复杂及枯 燥的翻译 活动 机器翻译是最早的利用计算机来进行的非数字化 的应 用. 也是 自然语言处理的计算机应用之一 。现 阶段许多人一直在研究 完善利用双语对应语料库实现机器 翻译 由于传统的基于规则 和词典 的机器翻译系统往往不能生成适合特定语境 的通顺译句 . 人们希望利 用双语对应库 大量提取实用的翻译例句 。例如 , 在汉译英时我们可 以 把每个 中文句子跟其英文 翻译 句连接起来 . 反 之亦 然 . 这样就形成 了 大规模的翻译例句语料库。当人们用机器翻译时 . 软件可 以 自 动快速 的搜索类似翻译 后来人 们把对齐 的词汇 和词组 翻译 应用于机器翻 译, 试图在大规模双语对应语料库 中提取各级语言单位 的翻译 。 近年来 . 多语尤其是双语对应语料库 开始 引起语 言学界 和翻译界 的高度重视 . 各种对应库 的建设和相关研究都在进行 中。对具体文本 翻译而言 . 最重要 的应该是双语 ( 或多语 ) 平行/ 对应语料库 。 其优点在 于平行, 对应语料库可大量存储 同一语篇 的两种或多种语言 的互译译 文, 并对对应语料加 以词性 、 句法和语义信息等标注 。 有 了这样的语料 库. 利用特别研 制的检索工具 . 可探究一 种语言 的词集 ( s e t s f o w o r d s ) 或语法特征 . 可在对齐语句 中检索一种语 言及其外语对应成分 , 这种 对齐和检索过程简单易行 在收集对应语料 以建立双语对应语料库 的过程 中 . 也要 注意一些 问题 。 比如翻译质量问题。 翻译人员的水平 参差不齐 , 有些译文质量不 太高 . 甚至有错误 如果在语料库 中收入这类文章 . 将影响其所包涵的 翻译知识的可靠性 , 会对基于这些语料库的研 究产生负面影 响 。另外 还有选择语料问题 如果想要用于研究整体语言 . 则要建立尽量平衡 的语 料库 . 如果想要用 于研 究语言 的某一个侧 面 . 如特殊语 体 、 题 材 等, 则要收集大量的有关语料 . 以便包含尽可能多的那一方面的词 汇、

国内语料库翻译学研究的名与实

国内语料库翻译学研究的名与实

国内语料库翻译学研究的名与实xx年xx月xx日contents •引言•语料库翻译学的理论基础•语料库翻译学的实践应用•语料库翻译学的名与实•语料库翻译学面临的挑战与对策•结语目录01引言研究背景与意义语料库翻译学研究的重要性和必要性随着全球化的深入推进和翻译技术的不断发展,翻译学研究面临着新的挑战和机遇。

语料库翻译学研究作为翻译学研究的一个重要分支,能够借助现代信息技术手段,为翻译研究提供大量真实、可靠的语料数据,为深入探讨翻译现象、提高翻译质量和效率奠定了基础。

国内外语料库翻译学研究现状及问题虽然语料库翻译学研究已经取得了一定的进展,但仍存在诸多问题和不足之处,如缺乏标准化、系统化的理论框架和方法论指导,对翻译实践的指导作用不够显著等。

因此,本研究旨在深入探讨语料库翻译学研究的理论和实践问题,为推动翻译学研究的深入发展提供参考。

研究目的与问题研究目的本研究旨在构建一个基于语料库的翻译学研究框架,明确语料库翻译学研究的概念、范围、方法和应用领域,分析语料库翻译学研究的现状、问题和发展趋势,为推动语料库翻译学研究的深入发展提供理论支撑和实践指导。

研究问题本研究将围绕以下问题展开探讨:什么是语料库翻译学研究?语料库翻译学研究的概念、范围和方法是什么?如何运用语料库翻译学研究理论指导翻译实践?语料库翻译学研究存在哪些问题和发展趋势?本研究将采用文献调研、理论分析和实证研究相结合的方法,通过收集和阅读国内外相关文献,总结和梳理语料库翻译学研究的理论和实践成果,运用理论分析框架对语料库翻译学研究进行深入探讨,同时结合实证研究案例,对语料库翻译学研究的应用效果进行验证。

本研究将按照以下结构展开论述:语料库翻译学研究的基本概念和范围、语料库翻译学研究的方法、语料库翻译学研究的现状和问题、语料库翻译学研究的应用领域和案例分析、语料库翻译学研究的发展趋势和未来研究方向等。

研究方法研究结构研究方法与结构02语料库翻译学的理论基础语料库翻译学是一种基于语料库数据,研究翻译现象、翻译规律、翻译应用和翻译历史的综合性学科。

第3课 语料库与翻译研究

第3课 语料库与翻译研究

「我们无从得知因果之间的关系,只能得知某些事物总是会连结在
一起,而这些事物在过去的经验里又是从不曾分开过的。我们并不 能看透连结这些事物背后的理性为何,我们只能观察到这些事物的 本身,并且发现这些事物总是透过一种经常的连结而被我们在想象 中归类。」(Hume, 1740)
Rationalism vs Empiricism :
display search result as graphs quickly see distribution across text categories retrieve collocations based on words, lemmas, or part-of-speech tags
来自搜索引擎检索的结果
来自 BYU 语料库检索的结果
来自 BYU 语料库检索的结果
来自 BYU 语料库检索的结果
来自 Sketch Engine(BNC语料库)检索的结果
来自 Sketch Engine(BNC语料库)检索的结果
本章主要内容
1.语料库思想产生的背景 2.语料库的发展历史、概念方法及问题思考 3.语料库的类型及用途 4.语料库检索工具
Svartvik
Brown Corpus
• 始建于 1960 年代初,W.N.Francis 和 H.Kucera 发起 • 美国 Brown 大学建立,主要代表当代美国英语, 规模100万词次
• 世界上第一个根据系统性原则采集样本的标准语
料库
LOB Corpus
• 始建于1970年代初,由英国 Lancaster 大学著名语言学家 Geoffrey Leech 倡议 • 挪威 Oslo 大学 Stig Johansson 主持完成,规模与 Brown 语料库相当 • 主要代表当代英国英语 • 安装在挪威Bergen大学挪威人文科学计算中心

基于语料库的翻译与中国形象研究内涵与意义

基于语料库的翻译与中国形象研究内涵与意义

在国际语境下,术语翻译对于国家形象建构至关重要。本次演示将以语料库为 基础,对“普通话”概念词在国际化进程中的使用进行实证研究,旨在探讨其 作用。
关键词和内容选择
在本次研究中,我们选择了“普通话”作为关键词,并收集了与之相关的文本 内容。
构建语料库
为了更好地进行研究,我们根据关键词和内容构建了一个语料库。该语料库包 含了各种类型的文本,如新闻报道、学术论文、社交媒体帖子等,时间跨度为 2010年至2020年。
参考内容
随着全球经济一体化的深入,企业外宣翻译在企业形象构建和国际交流中的作 用日益凸显。然而,当前企业在外宣翻译及形象语义构建方面仍面临着诸多挑 战。本次演示基于语料库对企业外宣翻译与企业形象语义构建进行深入研究, 旨在发现现状、问题与难点,为企业的国际交流与形象构建提供指导。
企业外宣翻译是一种将企业信息、文化、产品等内容以目标语言翻译出来的传 播方式,其主要服务于企业形象的构建和宣传。然而,在实践中,企业外宣翻 译却常常出现诸如语言错误、文化误解等问题,影响企业形象的有效传播。为 解决这些问题,我们需要对企业外宣翻译的现状进行深入研究。
总之,企业外宣翻译与企业形象语义构建是企业在全球经济一体化背景下必须 面对的重要课题。通过不断提高翻译质量、深入了解目标受众需求、优化传播 策略,企业将能够更好地传递自身信息、塑造良好形象,进一步拓宽国际市场。
引言
随着语料库语言学的兴起,基于语料库的译者风格研究逐渐成为翻译界的热点。 这种研究方法有助于我们深入了解译者的翻译思想和风格,进而评估译文的质 量和接受度。本次演示将探讨基于语料库的译者风格的内涵,并探究对其进行 研究的路径和方法。
研究发现,两位译者分别采用了不同的翻译方法和策略。其中一位译者倾向于 直译,尽量保留原文的语言风格和文化元素;另一位译者则更注重意译,强调 译本的可读性和目标读者的理解。此外,研究者还发现两位译者在处理文化专 有项时都遇到了一些困难,导致译文出现了一些误译和省略。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• In Locke or Hume, on the contrary, the base of the pyramid is on the solid ground of observed fact, and the pyramid tapers upward, not downward; consequently the equilibrium is stable, and a flaw here or there can be rectified without total disaster.
Rationalism vs Empiricism
• The difference of method, here, may be characterized as follows: • In Locke or Hume, a comparatively modest conclusion is drawn from a broad survey of many facts, whereas in Leibniz a vast edifice of deduction is pyramided upon a pin-point of logical principle.
• B: • •He has all of the primary facts that he needs, in the form of a corpus of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment he is busy determining the relative frequencies of the eleven parts of speech as the first word of a sentence versus as the second word of a sentence. (Fillmore 1992)
• • • • •
单语语料库 •mono-lingual corpus •仅收录一种语言的语料 •BNC,CBE Cobuild,BROWN •TEC英语翻译语料库
• 多语语料库 • •两组或两组以上不同语言的单语语料库构 成,各单语语料库以相似的设计标准建立 • •平行语料库、类比语料库 • •北京大学的CCL汉英双语语料库、北京外 国语大学的中英双语在线(CEO) • •ICE(International Corpus of English)国 际英语语料库
• 在认识方法上,理性主义的“自明原则+演 绎”方法与自然科学中的数学公理方法有 密切联系; • 经验主义的“经验+归纳”方法与自然科 学中的观察实验方法有密切联系。
• A: • •He sits in a deep soft comfortable armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits up abruptly shouting, “Wow, what a neat fact!”, grabs his pencil, and writes something down. (Fillmore 1992)
• 1)动词establish常见类连接研究 • 2)从语法角度来看,动词establish是及物动词(有object栏,表示 establish可以直接跟宾语)。 • •3)从语义角度来看,根据词频高低,与动词establish共现的名词 object栏排在前10位的分别为:relation、relationship、committee、 system、links、principle、contact、reputation、center和group; subject栏排在前10位的分别为:government、company、act、 treaty、case、authority、council、law、agreement和group。可见, 动词establish作为“建立、组建”一意,表示建立关系、组织和法律 权威方面的内容,而非建立某种“实体”。 • •4)从搭配角度来看,用于修饰动词establish的副词有well、already、 firmly、clearly、newly和recently等等; • •5)从语义韵角度来看,与establish共现的词汇均为中性,可以得出 establish一词含有中性语义韵。
• 类连接是词语搭配研究中的一个是平等关系,而是更为高一级的抽象. • 类连接是关于词语组合类别的抽象表述,是词语搭配发生于其中的语法 结构和框架; • 词语的典型组合则是指在语篇中生成一定的非成语意义且以特定的语 法形式有机组合使用的一个词语序列 • 这就是搭配 • 搭配中所出现的词汇也并非是任意的,但受类连接的制约,而且也要受 搭配的限制.词语的搭配属于该词类连接的具体表现 • 一个类连接代表了一个搭配类 • V+N 就是一个类连接.它代表一类搭配 • LEARN ENGLISH COMMIT SUISIDE
• 语义韵(semantic prosody) • •语义韵是一种特殊的搭配现象, 指的是某些词项 由于经常和具有某种语义特征的语言单位共现而 产生的一种语义特征。 • •语义韵大体可分为分为积极(positive)、中性 (neutral)和消极(negative)三类。 • 在消极语义韵里,节点词所吸引的搭配词几乎都 是些具有强烈或鲜明消极语义特点的词项,它们 赋予节点词及其语境一种强烈的消极语义氛围 (commit,got)。积极语义韵情况正好相反,节 点词的搭配词几乎都是些具有积极语义特点的词 项,由此形成一种积极语义氛围(achieve)。
• 在现代语言学的意义上,对语料库的认识 至少应该包含如下三点:(1)语料库中存放 的是在语言的实际使用中真实出现过的语 言材料;(2)语料库是以电子计算机为载体 承载语言知识的基础资源; (3)真实语料需要 经过分析、加工、处理,才能成为有用的 基础资源。
• •1957年,Noam Chomsky 发表了Syntactic Structure。 • •Chomsky 指出语料库的不足之处: • •Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list. (Chomsky 1958: 159)
• •1960年,英国伦敦大学的Randolph Quirk搜集了 当时人们使用的书面和口头材料,形成了英语用 法调查语料库(Survey of English Usage Corpus)。 • •在20世纪60初,美国Brown 大学的Nelson Francis 和Henry Kucera召集了一些语料库语言 学家,建设Brown语料库(Brown Corpus of American English)。 • •Brown语料库是世界上首个用于语言学研究的计 算机可读语料库。
• 词语搭配是词与词结伴使用的语言现象,搭配伙 伴间相互吸引,相互期待和相互预见。某些搭 • 配词项的搭配行为显示了一种特殊的趋向,它们 习惯性地吸引某一类具有相同或相似语义特点的 词项与之构成搭配,由于这些具有相同或相似语 义特点的搭配词习惯性地,循环往复地与节点词 在文本中共现,节点词也就被染上了有关的语义 特点,整个跨距内也就弥漫了一种特殊的语义氛 围,这就叫语义韵
• • • • •
语言研究中的数据类型 •内省数据(Introspective data) •诱导数据(Elicited data) •语料数据(Corpus data) Is the word quiver intransitive or not?
• Corpus,复数:Corpora • •(corpse) • •语料库源于拉丁词“Corpus‖,本意为 “body‖。顾名思义,语料库便由是一个一 个语言的“body‖组建而成的。
• 词频统计 • •词频统计:某个词语在特定料库中出现的 次数或频率。词频越高,越常用。 • 语境共现 • •KWIC——Keyword in Context • •将关键字以高亮形式显示在屏幕中央,两 边分别为该关键词的上下文语境。便于对 比关键词使用的语境。
要完整了解词语的意义,需要从其语境、类 链接和语义韵三个方面综合考虑。 • • • • 类连接(Colligation) •词语的使用模式 •搭配(Collocation) –词语的典型组合(learn English, commit suicide, etc) • –区别于成语(idiom)意义 • •类联接是词语搭配中的语法结构和框架
语料库的分类
• • • • • • • • • • • • • • • (选取时间)历时语料库(diachrcmiccorpus) 共时语料库(synchronic corpus) (加工深度)标注语料库(annotated corpus) 非标注语科库(non-annotated corpus) (语料结构)平衡结构语料库(balance structure corpus) 自然随机结构语料库(random structure corpus) (用途)通用语料库(general corpus) 专用语料库(specialized corpus) (表达形式)口语语料库(spoken corpus) 文本语料库(text corpus) (动态更新程度) 参考语料库(reference corpus) 监控语料库(monitor corpus) (语种划分)单语种语料库(mono-lingual corpus) 多语种语料库(multilingual corpus)
相关文档
最新文档