俄语语料库的标注

合集下载

语料库在俄语教学中的应用探究

语料库在俄语教学中的应用探究

语料库在俄语教学中的应用探究摘要:近几年伴随语料库语言学发展,语料库也在各个方面发挥重要作用。

其中,平行语料库及类比语料库的研究与应用为语料库语言学中关键点,本文主要探讨这两类语料库在俄语教学中的应用及其意义。

关键词:平行语料库;类比语料库;俄语教学;应用及意义1 绪论20世纪80年代以来,语料库建设发展加快。

特别是最近几年,世界范围内语料库的建设呈现出迅猛的发展势头,在世界各地建立了一些大型采集各种语料、不同层次、包含多种标注信息、以不同方式进行标注的语料库。

在我国,由于俄语语料库建设难度极大,致使对其探讨和研究起步和发展较其他语种晚。

目前我国俄语界主要使用俄罗斯国内自建的语料库,如:大型俄语单语语料库——“二十世纪俄文报刊语料库(Комьютерный корпус текстов русских газет конца XX века,简称КГТ)”、俄罗斯国家语料库(НКРЯ),其中后者也是迄今为止规模最大、使用频率最高的俄语语料库。

语料库(корпус)是语料库语言学研究的基础资源,同时也是俄语教学有利的辅助工具。

语料库语言学研究者J.Leech在十年前曾提出“教学是科研的自然延伸”,在信息时代,教师不再是课堂掌控者,尤其在学生语言学习过程中,教师成为组织者,导航者,促进者和合作研究者。

语料库作为应用于词典编纂,语言教学,传统语言研究的大规模电子文本库,以真实文本为依据呈现语言的特点和规律,显示出较强的可信度。

因此越来越受到外语教学与语言学研究界的重视。

随着中俄关系的不断发展,特别是“一带一路”的提出,国内俄语教学水平日渐提高,对其有重要作用的俄语语料库的建立也应做到普及化。

现如今中俄两国之间外交日益密切,两国商业、教育界、学术界的之间的联系不断加强,大众对语料库类型的需求也从单纯的学术应用演变到了更加专业的范围。

语料库的促进作用并不只在于提高学习者的水平,更在于促进两国各行各业之间的交流往来,不同分类的平行语料库提供给不同的受众多类型的学习资料,是了解两国文化的重要途径。

俄语语法学习素材:俄语前缀的使用方法之一

俄语语法学习素材:俄语前缀的使用方法之一

俄语语法学习素材:俄语前缀的使用方法之一авиа…… (复合词前一部分)表示"航空"、"飞机"之意,如:авиадвигатель 航空发动机. авиаписьмо航空信. авиа-связь航空通讯(联络). авиаспорт 航空体育(运动).авто……(复合词前一部分)表示"汽车"之意,如:автодеталь汽车零件. авторефрижератор冷藏汽车.авто1……(复合词前一部分)表示1)"自动"之意,如:автодоение自动挤奶. автокартограф自动(地图)制图仪. 2) "自动推进"、"自(己)行(走)"之意,如:автовагон(轨道)动车. автогрейдер自动平路机.авто2……(复合词前一部分)表示"本身"、"本人"之意,如:автогамия自体繁殖. автогравюра自画自刻的版画.агит…… (复合词前一部分)表示"宣传"、"鼓动"之意,如:агиткампания宣传运动. агитфильм宣传(影)片.агро…… (复合词前一部分)表示"农业"、"农艺"之意,如:агропункт农艺站. агрошкола农业学孝?агробиолог农业生物学家. агрозоотехника农业畜牧学.аква…… (复合词前一部分)表示"水"之意,如:акватехника水生生物养殖技术. аквасоединение含水化合物.альфа……(复合词前一部分)表示"α"之意,如:альфа-лучи α射线. альфа-частицы α粒子. альфа-распад α衰变.анти……前缀〕表示"反"、"敌对"、"反抗"、"对抗"、"防"之意,如:антигегемонист反霸权主义者. антикоррозия防蚀;防锈. антипротон反质子. антитуберкулѐзный抗结核(菌)的.антропо……(复合词第一部)表示人、人类之意арт……(复合词前一部分)表示"炮"、"炮兵"之意,如:артдивизион 炮兵营. артогонь 炮火. артучилище 炮孝архи…… 前缀〕表示"最"、"头等"、"头号"之意,如:архиплут 头号骗子手. архимиллионер 头等百万富翁. архиопасный 最危险的.астро……(复合词前一部分)表示"天体"、"星"、"天文"之意,如:астроботаника 天体植物学. астрогнозия 星学.аэро…… (复合词前一部分)表示"航空"、"空气"之意,如:аэрофотоаппарат航空摄影机. аэрогеофизика航空地球物理学. аэробиология高空生物学. аэрогидромеханика空气流体力学.баро……(复合词前一部分)表示"气压"之意,如:баротравма气压伤. барохирургия气压外科(学).без……前缀〕⑴构成形容词,表示"没有"之意,如:безногий 无腿的. безработный 失业的. ⑵构成结尾为-ие, -ье, -ица 的名词,表示"无"、"不足"之意,如:бесправие 无权. безлесье 无森林;缺少森林.безъ……前缀〕=без……, 用在元音е, ю, я前,如:безъязычный 不能说话的.бело……或бело- ……(复合词前一部分)表示1)"白"之意,如:беловолосый 白发的. бело-сине-красный 白、蓝、红色的. 2)"反革命"之意,如:белобандиты 白匪.бензо……(复合词前一部分)表示"汽油"之意,如:бензосклад汽油库. бензопила油锯.бес…… 前缀〕=без……,用在清辅音之前,如:беспокровный无遮盖物的,无外皮的. бескаркасный无构架的,无骨架的.библио……(复合词前一部分)表示"书"、"图书"之意,如:библиомания藏书癖.био……(复合词前一部分)表示"生"、"生命"、"生物"之意,如:биосфера生物层. биостанция生物实验所.блиц……(复合词前一部分)表示"闪电般"之意,如:блицпоход 闪电式行军. блицтурнир 闪电式比赛.блок……或блок-……(复合词前一部分)表示1)"区截"、"闭塞"之意,如:блокпост〈铁路〉闭塞(信号)所,区截信号室. блок-аппарат〈铁路〉闭塞机. 2)"构件"、"组合件"之意,如:блок-бокс装配好的分构件.бое……(复合词前一部分)表示"战斗"之意,如:боеготовность 战斗准备.。

语料库中语料的标注

语料库中语料的标注

语料库中语料的标注董爱华【摘要】In the application of corpora, annotation is a must to ESP text analysis, learner’s language analysis and bilingual translation study. To guarantee the validity of the research results based on corpora, annotation of the corpora must be accurate. This paper starts from introducing the principles, methods and patterns of annotation, then it tries to analyzehow to control the quality of annotation from several aspects, and it also aims to help the corpora users to test the quality of a certain corpus.%在语料库应用过程中,ESP文本分析、学习者语言分析及双语翻译研究等都要用到标注。

语料库语料标注的准确性是基于语料库的学术研究结果可靠性的前提。

文章介绍了语料库标注的原则、方法模式,并分析了控制标注质量的相关因素,目的是为标注语料库的使用者检验标注质量提供帮助。

【期刊名称】《北京印刷学院学报》【年(卷),期】2016(024)005【总页数】4页(P67-70)【关键词】语料库标注;原则;方法;模式;质量【作者】董爱华【作者单位】北京印刷学院外语部,北京102600【正文语种】中文【中图分类】H0从现代语料库语言学的角度来看,语料库应该具备三个方面的基本条件,即样本的代表性、规模的有限性和语料的机读化[1]。

俄罗斯文献引用格式

俄罗斯文献引用格式

俄罗斯文献引用格式Литература一词用Times New Roman四号字,上空一行,居中。

一般情况下应至少开列出15本(篇)以上的引用书目(文章)。

中俄文参考书目的比例为8:7。

(1)俄文书目的著录格式:作者姓名,如:КузнецовА. В.作者姓名后空一格,写作品标题,如作品系某一书,则在作品标题后点俄文句号。

句号后写出出版地,出版社名,出版年代(出版地、出版社名、出版年代之间用俄文逗号连接)。

如:КузнецовА. В. Русскийязыкиязыковаяличность. М., ДиалогМГУ, 1998.如引文引自某一书或某一杂志中的一篇文章,则在作者姓名后空一格,写文章名称,文章名称加句号后加双斜线// ,然后写书或杂志名,加句号并空格后写出版地、出版社名(杂志可不写出版地、出版社名)、出版年代(份)。

如:ГоловановаА. В. Квопросуокатегорииценностииеёрепрезентациивязыке.// Языкикультура. Волгоград, Перемена, 2003. ГоловановаА. В. Квопросуокатегорииценностииеёрепрезентациивязыке. // Русскийязыквшколе. 2003. № 5.引用页码。

如正文中的括号标出时此处不必再加。

(2)中文书目的著录格式:1)专著注录格式:作者,书名,版本(版本为第一版时可省略),出版地,出版社,出版日期.2)文的注录格式:作者,题目名称//期刊名称,出版年,卷(刊)号。

参考文献部分字体采用Times New Roman 小四号字。

如:刘润清,西方语言学流派,北京,外语教学与研究出版社,1999。

吴国华,论世界语言图景 //外语学刊,2003年第2期。

基于语料库的“Поднебесная”一词的定量分析——使用情况及

基于语料库的“Поднебесная”一词的定量分析——使用情况及
, g g

p y


r efer s n io n h e wo rd to C h in a i n R us s i a po t ent i all y enri chi n t he s tud o f R uss ia n o of C h ina g y p ubl ic p


以俄
用 情况
“ ”
罗 斯 国 家语 料 库 的 报 刊 语 料 库 为 例 该 词 共 出 现 的

23
次 中有
1Байду номын сангаас



次都被 用 来 指 代 中 国 而 该 词 原本 的

n〇 fH e 6e cH aa

在词 典 中 是 置于



n 〇 RH e6 e cHMf t

同 汇 意义 却是 天 下 全世 界


使用情 况

文化心理

内涵

语料库 定 量 分 析
; ;

K ey W or ds
e ec a ;
us a e cu l t u ra l s c ho lo i c a l co nn o ta t i o n co r us a n al si s n〇 AH 6 H n g p y qu an tit a tiv e y g p
笔者 在 参 与 复 旦 大学 俄 罗 斯 涉华 舆 情 研 究 项



时 发 现 不 管 是 俄 罗 斯 的 官 方 媒 体 还 是 非 官方媒
, ,

俄语国家语料库的标注系统

俄语国家语料库的标注系统
A d v i s o r y G r o u p an L g u a g e E n g i n e e r i n g S t a n d a r d s . 专 家 顾 问 团
标 注 最 成功 、 最 具 代表 性 , 层次 和 质量 最 高 。 和汉 语 一样 ,
俄 语 也 是 世 界 上 最 复 杂 的 语 言 之 一 .研 究 俄 语 纯 文 本 的
( p a 3 M e T K a H ] I H a H H o T a u H 且 , a n n o t a t i o n o r t a g g i n g ) ,标 注后 ,
结构 。它不仅 重新定 义 了S G ML 语言 的一些 内部值 和参数 ,
去掉 了大量很 少用 到的功能 , 而 且 允 许 自定 义 标 记 , 因此 它
标 注经验 , 可以更好地 为建设 国内语料 库提供 参考和借鉴 。
关键词 : 俄 语 国 家语 料 库 标 注 语 料 库


引 言
X ML 语 言是S G ML 语 言 的一 个 子 集 . 也 用 于 标 记 电 子 文 本 的
在创建语 料库时 , 需要 对收集来 的普 通文 本进行 处理 , 即在纯 文本文件 中添加表 示文本 基本信 息或 文本单 位语 言 特征 的特殊符 号或符号 串 ,这 些符号 或符号 串称 为标记 或 附码 ( T 3 r , t a g ) 。为语 料库纯文本 添加标记 的过 程称为标 注
( 二) 语 料 库 标 注 的基 本 模 式
文本包 含 的信 息 由隐性 变 为显性 ,利用相 应 的检 索 系统可 以最 大限度地 使用语 料库 .语 料库 的有效 使用依 赖 于纯文

现代汉语语料库加工规范——词语切分与词性标注

现代汉语语料库加工规范——词语切分与词性标注

现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。

第一步是对原始语料进行切分和词性标注。

1994年制订了《现代汉语文本切分与词性标注规范V1.0》。

几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。

在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。

为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。

因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。

制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。

由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。

⑵ ⑵ 小标记集。

词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。

语料库标记与标注以中国英语语料库为例

语料库标记与标注以中国英语语料库为例

语料库标记与标注以中国英语语料库为例一、本文概述本文旨在探讨语料库标记与标注的重要性及其在中国英语语料库中的应用。

我们将简要介绍语料库的定义和类型,以及标记与标注在语料库建设中的作用。

接着,我们将以中国英语语料库为例,详细阐述语料库的标记与标注过程,包括标记符号的选择、标注规则的制定以及标注质量的控制等方面。

在此基础上,我们将进一步探讨语料库标记与标注对于语言研究、自然语言处理以及机器翻译等领域的影响和应用价值。

我们将总结当前语料库标记与标注研究中存在的问题和挑战,并展望未来的发展趋势和研究方向。

通过本文的阐述,我们希望能够加深对语料库标记与标注的理解,推动中国英语语料库的建设和发展,为相关领域的研究提供有益的参考和启示。

二、语料库的基本概念与分类语料库(Corpus)是以电子形式存储的语言材料的集合,通常包括文本、音频或视频等形式的语言数据。

语料库语言学是语言学的一个分支,专注于利用语料库进行语言研究。

在语料库语言学中,语料库被视为一种研究工具,可用于描述语言的实际使用情况,揭示语言的规律,以及评估语言教学和自然语言处理的效果。

语料库可以按照不同的标准进行分类。

按照语料库的来源,可以分为原生语料库(native corpus)和编译语料库(compiled corpus)。

原生语料库是直接收集的自然语言文本,如新闻报道、文学作品、社交媒体帖子等。

编译语料库则是由多个不同来源的文本经过整理、清洗和标注后形成的。

按照语料库的内容,可以分为通用语料库(general corpus)和专用语料库(specialized corpus)。

通用语料库包含各种类型的文本,旨在反映语言的整体使用情况。

专用语料库则针对某一特定领域或主题,如医学、法律、科技等领域的语料库。

按照语料库的处理程度,可以分为生语料库(raw corpus)和标注语料库(annotated corpus)。

生语料库是未经处理的原始文本,而标注语料库则对文本进行了各种形式的标注,如词性标注、句法标注、语义标注等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



俄 语语 料 库 的 标 注
范时 , 还要 注 意处 理好 四个 方 面 的关 系 , : 细 标 注 即 详
( 包括文本语料库 、 词汇库 、 言语语料库) 的建设 、 语言
知识 的处 理工 具 ( 式语 法 、 记 语 言 、 种 软件 )语 形 标 各 、 言工 程系 统 的评 估 资 源 和工 具 等 。C S C r u n E ( op sE — cdn tn ad 语料 库 编 码 标 准 ) E o igSad r, 是 AGL s的一 E
关键词 : 俄语语料库 、 标注 、 俄语 国家 语料库
[ 中图分类号]H3 5
[ 文献标识码]A
[ 文章编号] 0 25 1 (0 2 0 —0 80 10 —5 0 2 1 ) 20 3 —7
骤。语料库的有效利用在很大程度上依赖于语料库
0 .引言
标 注 的层 次 和质量 , 对语 料 库进 行 标 注 不仅 是 利 用计
语 料库建 设 的技术 规 范 , TE 相 兼 容 , 目标 是 建 与 I 其 立一 套 能被 广 泛 承 认 的语 料 库 标 注 模 式 。世 界 公 认 为典 范 的英 国 国 家语 料库 ( NC 使 用 的就 是 S B ) GML 和X ML语 言 , 拉夫 语 语 料 库 的典 范 —— 捷 克 国家 斯 语 料库 ( 础 ) 也使 用 了它 们 , 国“ 我 国家 现 代 汉语 语 料 库管 理 系统 ” 国 内率 先 使用 XML语 言 组 织 的 大 是 型语料 库 。可 以说 , 世界 上新 建 和 在 建 的语 料 库使 用
21年 0 02 5月
第 3卷 1
第 2 期
中国俄语教学 py C C KM讶  ̄ b K BKIT E 3 I , A ' I
Ⅳ 诸 2 012 . r
T 3 № 2 . 1
俄 语 语 料 库 的 标 注
黑龙江大学 安徽财经大学 陈 虹

提要 : 标注是语料库 的主要特征 , 其层次和质量决定着语料库 的有效利用程度 。俄语 语料库 的标注原则是 最大 限 度 的方便 标注者和使用者 ; 其标注模式是结合俄语 自身的语 言特点 , 在接受 TE 和 E L S等国际标准的基 础上进行 l AG E 的必要 的扩展 。以 四个有代表性的大型俄语语料库为参照可 以知道 , 目前俄 语语料 库标 注的主要 类型有 元信息标 注 、 词性 标注 、 原形标注 、 句法标注和语义标注 。
和简单标注的关系 ; 通用性 和专用性 的关系 ; 原则性
和 灵 活性 的关 系 ; 绝对 性 和模糊 性 的关 系 。 实 际上 , 论 是 G L eh的 标 注 七 原 则 , 是何 无 . ec 还
婷婷 改 进 的标 注 七 原则 和 应 注 意 处 理 好 的 四方 面关
部分 , 它规定 了语料库 的总体结构 、 语言信息标记等
以国 内核 心期 刊 1 9 - 2 0 9 4 0 6年 语 料 库研 究 状 况 进行
的代表人物之一 , (93 2 5 8 ) 他 19 :7— 1 首先提 出了语 料 2
库标 注应 该 遵 循 的七 个 基 本 原 则 。 国 内学 者 何 婷 婷 (0 3 7—7对 G L eh的 语 料 库 标 注七 条 基 本 原 20 :47) . ec
算机资源对语料进行批量处理和检索 、 对语言进行多
近 二三 十年 来 语 料 库 语 言 学 已经 成 为 国 内语 言 学 的研 究热 点 , 初期 的理 论 引介 发展 到 目前 的实 践 从 应 用 与理论研 究 相结合 的 良性 研究 模 式 。然 而 , 俄语 界 的语 料库 研究 沉寂 滞 后 , 注点 比较单 一 。国 内俄 关 语 界对 语料 库 的研究 可 以归 纳 为两 个 方 向 : 一 是 继 其 维 度和 多层 面研 究 的 基 础 , 是 语 料 库 语 言 学 、 算 也 计
英 国著名语 言 学 家 G L eh是 当今 语 料 库 研 究 . ec
技术 ; 二是 宏 观 讨 论 了俄语 语 料库 的 理论 问 题 , 其 例 如许 汉成 (0 5 阐明 了俄 罗斯 语 料 库 的分 类方 法 , 20 ) 介 绍 了俄语 国家 语料 库 的概 况 和查 询 方法 , 臻 (0 7 王 20 )
承俄罗斯计算语 言学 的传统 , 在工程语 言学 、 机器翻
译 等 语 言 学 数 理 领 域 取 得 了 一定 成 就 , 如 易 绵 竹 例 (0 7 、 兴 尚 (0 9等 学者 引介 了俄 罗 斯计 算 语 言 20 )傅 2 0)
学方 面 的研究 成果 , 探讨 了俄 罗斯 机 器 翻译 的理论 和
则进 行 了整 理 、 充 和 综 合 , 计 算 机 可 读 、 处 理 、 扩 从 可
的统 计数 据为 依据 , 瞻望 了 国 内俄 语 语 料库 未 来 的发
可 理解 的角度 出发 , 出 了 自己 的七 条 基 本 原则 , : 提 即
展方 向。这两方 面的研究虽然在俄语语料库研究 的 框架 内, 但远离语料 库建设和语料 库应用等热 点问 题, 建设可以公开使用俄语语料库 的工作以及开展基 于俄语语料库的应用研究仍然任重道远。
语料 库标 注 是 建 设 语 料 库 的重 要 基 础 和关 键 步
38
() 1原始语料和标注符号的数据独立性原则 ;2 语料 ()
标 注 的公 开性 原 则 ;3 语 料 标 注 的 通 用 性 原则 ; 4 () () 语料 标 注 的折衷性 原则 ;5语 料 标 注 的 一致 性 原 则 ; () () 6标注 符号 的确 定性 原 则 ;7用 户 知情 权 原 则 。此 () 外, 何婷 婷 (03 7—9 认 为在 制 定 语 料 库 的标 注 规 20 :77 )
语 言学 关 注 和研 究 的重 要 课 题 之 一 。本 文 拟 以 四个 具 有代 表性 的大 型俄语 语 料库 为 参 照 , 究俄 语 语 料 研
库 的文 本标 注原 则 、 式 、 模 理论 基 础 及 类 型 , 以供 国 内 学 界未 来在 建设 俄语语 料 库时借 鉴 。
1 .俄语 语料库 的 标注原பைடு நூலகம்则
相关文档
最新文档