浙江大学肖忠华语料库session 1-45页精品文档
HZAU CQPweb 简明使用手册.doc

农科英语语料库网络检索平台HZAU CQPweb 使用手册登录网址:http://211.69.132.28用户名:test 密码:test本手册分为如下几个部分:本手册分为如下几个部分:1.平台登陆界面:介绍平台登陆方式和基本界面;2.检索方式:介绍简单检索和复杂检索模式下输入检索词的格式,及得到检索结果后的后续操作,3.功能介绍:介绍HZAU CQPweb可实现的基本功能,包括:标准查询、限定条件查询、词形匹配查询、生成词频表、生成关键词表;重点介绍了随机抽样、频率分解、分布展示、排序、搭配查询等功能;4.功能拓展举例:以问答的方式举出操作实例,帮助使用者了解如何利用语料库解决实际问题;5.术语中英文对照表;6.附录-Claws7.词性赋码集和基本通配符1.平台登陆页面介绍CQPweb(Corpus Query Processor)是语料库在线检索平台,HZAU CQPweb是华农师生共建的农科英语论文语料库(总计:738.2 万词),属第四代网络语料库工具。
语料库的三层架构(见下图):第一层是农科专业期刊论文语料库Journal article,收录英语母语者发表的期刊论文838篇,共553.7万词。
第二层是汉语母语学习者语料库Learner article,收录农科专业的硕士生、博士生撰写的、完整的农科SCI论文手稿379篇,共184.5万词。
这两个语料库构架一样,均由按照章节部分和学科分类的两个子库构成:章节子库按照英语名称缩写命名,包含摘要(ABS)、引言(INT)、方法(MET)、结果(RET)、讨论(DIS)、结论(CON) 6个库,章节部分子语料库主要用于写作教学研究。
学科子库按照汉语拼音首字母缩写命名,包含植物科学(ZWKX)、动物科学(DWKX)、生命科学(SMKE)、园艺林学(YYLX)、农业经济(NYJJ)、农业工程(NYGC)、水产科学(SCKX)、食品科学(SPKX)、资源环境(ZYHJ)9个学科子库。
汉语语料库的建设及其在汉语教学中的应用(精华)

汉语语料库的建设及其在汉语教学中的应用(精华)汉语语料库的建设及其在汉语教学中的应用*俞士汶北京大学信息科学技术学院北京大学计算语言学研究所1. 引言语言学家历来重视第一手语言资料的获取和运用。
在个人计算机普及以前,语言学家只能靠手工用卡片收集少量的典型的资料。
所以,中国前辈语言学家曾感叹他们是在用小本钱做大买卖。
计算语言学把传统的语言学研究同自然语言信息处理技术结合起来,为语言学的发展、为语言教学研究注入了新的活力。
计算语言学(Computational Linguistics)这个专业术语自 1960 年代在文献中出现以来[1],这门学科已经有了40 多年的发展历史。
1990 年代,语料库语言学异军突起,这是计算语言学发展历史上的一个重要的里程碑。
由于计算机以及应用技术(电子排版、因特网等等)的发展,大规模的电子文本唾手可得,自然语言处理技术专家有了从大规模真实文本中获取语言知识(词频、词义、词语搭配、句子结构规则等等)的物质基础,基于大规模语料库的统计语言模型(如:n 元语法、隐马尔可夫模型、向量空间模型等)在诸如词性标注、文本分类等语言工程中的成功应用[2]更加有力地推动了语料库语言学的发展,至今仍是方兴未艾。
语料库语言学发展的基础设施是由大规模真实文本资料构成的语料库。
可以引用以下事实作为语料库价值的佐证。
2002 年 3 月,中国教育部和国家语委发布《第一批异形词整理表》时,李行健先生解释了整理异形词所遵循的三个原则:通用性、理据性、系统性。
并进一步说明:“通用性怎么确定呢,就是用计算机做词频统计。
”这项词频统计工作是应用计算机技术、选用1995 年至2000 年6 年共计1.5 亿字的《人民日报》语料作为对象进行的。
如果没有理解错,笔者以为李行健先生所做的“词频统计”是仅仅针对预先收集到的几百组(最多不过1500 组)异形词进行的。
即使针对性如此明确,在中文文本中统计这些异形词的时候,仍会遇到困难。
语料库研究基本方法PPT课件

几个常用术语 2
☺ Semantic prosody is instantiated when a word such as CAUSE co-occurs regularly with words that share a given meaning or meanings, and then acquires some of the meaning(s) of those words as a result. This acquired meaning is known as semantic prosody. (Stewart 2010)
第17页/共26页
语料库研究的基本方法 3
☺ Both approaches almost always involve a comparion of some kind.
第18页/共26页
语料库研究的基本方法 3
☺ Sizes of corpora in comparison (Rayson 2003)
is believing.
第2页/共26页
语料库语言学的性质 1
☺the Wax Argument: He considers a piece of wax; his senses inform him that it has certain characteristics, such as shape, texture, size, color, smell, and so forth. When he brings the wax towards a flame, these characteristics change completely.
第3页/共26页
语料库语言学的性质 1
语料库翻译学讲习班语料库翻译学概论PPT课件

Shanghai Jiao Tong University
三、国外现状
2.语料库翻译Байду номын сангаас究迅速发展时期
2)语料库翻译学论著的发表与出版
翻译共性研究: 支持翻译共性假设:Maeve & Olohan,2000:141-158; Gloria Corpas Pastor、Ruslan Mitkov、Naveed Afzad&Viktor Pekar,2007 质疑翻译共性研究方法:Dorothy Kenny,2001; Silvia Hansen&Elke Teich,2002 质疑翻译共性假设: Silvia Hansen&Elke Teich,2002;Jacobus Marais& Jacobus Naude,2007:156
3)语料库应用对译学研究的意义
语料库语言学与描写性译学均强调基于直接观察 的真实语言素材,采取描写和实证的方法,在真 实的社会文化环境中研究实际语言现象,并对其 进行概括和解释。这些契合之处为语料库语言学 与描写性译学的融合提供了必要条件。
语料库可以为描写性译学提供大量真实语料,并 为大规模语料的分析和翻译行为的描写提供重要 的物质基础,从而促进描写性译学的发展。两者 相互融合并最终形成语料库翻译学。
Shanghai Jiao Tong University
一、引言
我们天天都在看人民来信,怎么满足他们的愿望, 实现他们的要求呢?
We are reading letters from our people every
day and we are doing our best to satisfy
1.发展阶段划分
语料库翻译研究引介时期(1999—2004):介绍国外翻 译研究语料库的类型和具体应用(廖七一,2000;丁树 德,2001;柯飞2002;王克非,2004),国外翻译共性 和译者风格研究(张美芳,2002;胡显耀,2004)。
语料库语言学语汇编V20

教学语料库
Phraseology
短语学、短语
Phraseological uni t/seque nee
短语单位/序列
Phraseological profile
短语概貌
Plain text
纯文本
POSgram
赋码序列、码串
POS seque nee
赋码序列、码串
POS taggi ng/Part-of-Speech taggi ng
搭配词;搭配
Collocability
搭配强度、搭配力
Collocati on
搭配、词语搭配
Collocati onal stre ngth
搭配强度
Collocati onal framework/frame
搭配框架
Collocational profile
搭配概貌
Collocati onal n etwork
一次词
Header/Text head
文本头、头文件
Hidden Markov model (HMM)
隐马尔科夫模型、隐马模型
Historical corpus
历时语料库
HowNet
知网
ICTCLAS
中科院汉语分词系统
Idiom prin ciple
习语原则、成语原则
Idiomaticity
习语性、地道程度
多维分析、多维度分析法
Meaning by collocati on
搭配辨义
Metadata
元信息
MF/MD approach/multi-feature/multi-dime nsi onal an alysis
国内语料库翻译研究综述

国内语料库翻译研究综述【摘要】语料库辅助(corpus-assisted)翻译研究始于英国学者mona baker,近些年我国相关学者应用这一新范式对翻译理论及实践进行了多方面的探讨,本文基于近十年《中国翻译》期刊上发表的全部共16篇有关语料库翻译研究的学术论文进行归纳总结,得出其研究的内容主要可分为六个方面:翻译普遍性、翻译实践与教学研究、翻译语料库创建与应用、译者风格、书评、综合概述。
启发当代语料库翻译的实体建设及理论深化研究。
【关键词】语料库翻译;《中国翻译》;研究综述1.引言1993年,英国学者mona baker 发表了“语料库语言学与翻译研究:启示和应用”一文,将语料库研究方法引入翻译研究,此文标志着语料库翻译研究的开端。
国内的语料库翻译研究始于杨惠中教授1993年发表的“语料库语言学与机器翻译”一文,几乎与国外同时起步。
如今,国内的研究已经走过了20个春秋,也有了长足的发展。
本文就《中国翻译》这一cssci核心期刊进行人工检索,获得近十年全部有关语料库翻译研究的学术论文共16篇,文献表明:近些年国内相关学者应用这一新范式对翻译理论及实践进行的探讨,主要包括以下六个方面:翻译普遍性、翻译实践与教学研究、翻译语料库创建与应用、译者风格、书评、综合概述等。
2.语料库辅助翻译理论与实践的主要研究方向不可否认,语料库就像一个显微镜,它能使我们更客观,更具体地去探究翻译这一复杂人类交际活动。
当然,我们也应该看到,尽管语料库翻译研究为我们提供了对大量真实翻译文本的客观描述,但方法本身并不提供对翻译现象的解释。
对语料库翻译理论与实践的研究需要在更广泛、更细致的基础上不断地加深。
2.1翻译普遍性(translation universals)“翻译普遍性,是指翻译语言作为一种客观存在的语言变体,相对于原语语言或目标语原创语言从整体上表现出来的一些规律性语言特征。
”(baker,1993:243) baker和oolhan等人先后揭示的翻译共性主要是:简化、显化、范化。
从语料库中挖掘知识-北语1
语言信息处理与汉语知识研讨会,2010/5/29-30,北京语言大学从语料库中挖掘知识Mining Knowledge from Corpus冯志伟提要:本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作,如,汉语名词语法功能的研究,20种语言中心词居前与中心词居后的分布研究,汉语复杂网络的研究。
这些工作都是在汉语依存树库的基础上进行的。
本文也简要地介绍了国外从语料库中获取非语言学知识的研究。
20世纪90年代以前,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。
因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。
而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。
这样,就提出了大规模真实文本的自动处理问题。
1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。
为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。
1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。
所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。
从中可以看出当前计算语言学关注的焦点。
Chp-04
4第章语料库与语言知识库电话:+8662554263北京市海淀区中关村东路95号邮编:100190+86-6255 4263邮编: cqzong@44.4.1 1 基本概念NLPR, CAS-IA 2010-3-21宗成庆:《自然语言理解》讲义41 4.1 基本概念处理模块输入输出大规模语言数据:•模型参数训练•知识获取NLP 中知识库包括:•词汇语义库•词法、句法规则库•常识库等等语言数据库或知识库NLPR, CAS-IA 2010-3-21宗成庆:《自然语言理解》讲义44.4.1 1 基本概念❑语料库(corpus)()●语料库(corpus)就是存放语言材料的仓库(语言数据库)。
●基于语料库进行语言学研究-语料库语言学(corpus linguistics)corpus linguisticsNLPR, CAS-IA 2010-3-21宗成庆:《自然语言理解》讲义44.4.1 1 基本概念❑语料库语言学◆根据篇章材料对语言的研究称为语料库语言学。
-[Aijmer, 1991]◆基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。
-[McEnery, 1996]◆以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。
言的假说的方法称为语料库语言学-[Crystal, 1991] NLPR, CAS-IA 2010-3-21宗成庆:《自然语言理解》讲义44.4.1 1 基本概念❑两种解释:不是新术语:利用语料库对语言的某个方面进行研究,或者发现某些规律性知识。
是新术语:对现行语言学理论进行批评,提出新的理论。
NLPR, CAS-IA 2010-3-21宗成庆:《自然语言理解》讲义44.4.1 1 基本概念“语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
”-J. Thomas等人为祝贺语料库语言学的主要J Th奠基人和倡导者G. Leech六十岁生日而出版的语料库语言学研究论文集的开场白[丁信善,1998]。
研究性教学方法在高职“综合英语”课程教学中的探索与实践
语 ” 程 教学 存在 着 教学 方法 单调 、陈 旧和教 学手段 滞 后等 课 问题 针对 这 些 问题 ,结 合高 职 院校 “ 合英语 ” 程 教学 综 课 的特 点 ,不断 探讨 和 改革 教学方 法 和手 段 , 对研 究性 教 学方 法在 高职 “ 综合 英语 ” 课程 教 学中 的应用 进行 了探索 与实 践 ,
析 结果 。
[] 5 张鸽 . k t n i : 具在词汇搭配 和同义词辨析教学 上的鹿 S e h E gn I c e =
" [] 外语 电化 教学,2 0 2 .P 5 7 . 】 J. 0 8( ) 7 - 8
在 教师 利川 该 方法 进行 词 教 学的 同时 , 也赴赴 教会 学 , 如何 利州 该 方法 进行 自主 学 习 , I ! 这对 提 高学 生 的探 索学 习
[ 关键 词] 究 教 法; 合 语 教 实 研 性 学方 综 作为 高职 院校 英 语专 业学 生 的职业 基 综 课
础课 程 , 学 生获取 英 语语 言 规则 系统 知识 和英 语交 际 能力 是 言 的能 力为 日标 , 出教 学 内容的 实用 性和 针对 性 。 为 此 , 突 ” 在 “ 合英 语 ” 程 教学 调查 分析 的基 础上 ,发现 “ 合英 综 课 综
l f guphe e t r ‘‘ fu fn rf ahes ’ i
2 当前高职高专 “ . 综合英语 ”课程教学方法存 在的 问题分析
传 统 的 “ 合 英 语 ”课 程 教 学 一直 以教 师为 教 学 的 中 综 心 ,学 生被 动 的接 受知 识 , 种 单一 的教 学方 法制 约 了 “ 这 综
[ ] 雷. 1蔡 基于语 料库 的英语 词汇 自主学 习实验研 究 [] 宿州学 院 J.
英国国家语料库BNC在英语词汇教学中的应用
英国国家语料库BNC在英语词汇教学中的应用【摘要】本文以作者的高中英语词汇教学实践为基础,阐述在高中英语教学过程中如何借助英国国家语料库BNC实现有效的词汇教学。
该文旨在通过实例展示BNC语料库在英语词汇教学中的应用,拓宽学生英语学习渠道,建立探究式、自主式英语词汇学习模式提供有力的依据,实现英语学科核心素养的培养目标。
【关键词】高中英语;词汇教学;英语国家语料库BNC一、引言语料库(corpus)指的是“A collection of naturally occurring language text, chosen to characterize a state or variety of a language. ”(Sinclair,1991)。
中国学者对corpus也有自己的解释“语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或话语片段而建成的具有一定容量的大型电子文库。
”(赵俊峰等,2010)在计算机技术的发展之下,语料库自上世纪50年代开始发展,在其发展初期,仅对词语进行一般分析,如词频统计等,之后增加了对于词语的语法属性标注,例如:词性。
语料库发展到现在,使用者们越来越重视对例如:语音、构词、句法、语义以及语用层面的标注。
随着计算机技术的普及以及网络技术的飞速发展,计算机在外语学习中的辅助作用越来越显著。
英语语料库在英语学习者和使用地道的语言中起着不可估量的作用。
经过近70年的发展和提升,语料库语言学无论在理论上还是技术上都已趋于成熟,得到了越来越多的专家认可,其应用范围也趋于广泛,涉及语言分析、语言教学、词典编撰到大数据、人工智能等领域。
语料库应用于外语教学已有30多年时间,英国伯明翰大学语言学专家Tim Johns于1994年提出数据驱动型学习方法(Data-Driven Learning, DDL),指的是语言学习者运用语料库数据和教育语料库的方法自主进行语言学习的过程。