藏语语料库词语分类体系及标记集研究

合集下载

【国家社会科学基金】_分词标注_基金支持热词逐年推荐_【万方软件创新助手】_20140813

2012年序号 1 2 3 4 5 6 7
科研热词隐马尔科夫模型自动分词类比语料库研究方法检索彝文历时语料库
推荐指数 1 1 1 1 1 1 1
2013年序号 1 2 3 4
科研热词词法分析自动标注自动分词彝文年序号 1 2 3 4 5 6 7 8 9
推荐指数 1 1 1 1 1
2010年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
科研热词推荐指数词语搭配 1 词类标注 1 词类体系 1 词典 1 藏语语料库 1 自动识别 1 索引 1 短语分析 1 班智达 1 现代汉语 1 标注 1 查询接口 1 条件随机场模型 1 效度 1 并列式四字格 1 平行语料 1 四字格 1 分词碎片 1 分词 1 信息抽取 1 中文信息处理 1 《现代汉语词典》(第5版) 1
2014年科研热词隐马尔科夫模型词性标注自动分词楚辞图解树库句本位语法古文分词临时造词中文信息处理推荐指数 1 1 1 1 1 1 1 1 1
2008年序号 1 2 3 4 5 6 7 8 9 10
科研热词语义评分函数规则统计语言模型统计短语字段消歧规则形式标志全切分交集型歧义
推荐指数 1 1 1 1 1 1 1 1 1 1
2009年序号 1 2 3 4 5
科研热词马尔可夫标注模型粗分模型双数组trie树索引分词标注全切分
2011年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
2011年科研热词问答系统问句索引问句理解问句检索词类词典规范藏语语料库藏文虚词短语搭配标记集标注对齐双语语料分词标注信息处理推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

藏语动词语法信息库构建研究

［作者简介】羊本才让（９４，藏族）青海贵德人，１８一）男（，硕士研究生，主要从事藏文信息处理方面的研究．
一３７ ຫໍສະໝຸດ 设计的．藏语知识库的构建就像是为计算机如何处理藏文的问题而提供必要的、可靠的数据库一样，计
算机最终从所提供的语言知识库的结构、特征与符号、语法信息等相关信息处理藏文．语言知识库，根据各类语言语法特征的不同而可以构建口语知识库、面语知识库、书语音知识库和
参考数据．另外，统的编纂词典的方法是要从每本书里收集各类字词条，传然后把它整理成词典．而运
用这些语言知识库编纂词典非常方便，我们再也不用像传统的做法一样毕生的精力都用在词条的整理上，而根据计算机提供的语言信息直接梳理条目即可．因此，笔者认为构建语言知识库有以下五点意义：能够满足为计算机处理藏文提供语言信息的需求． ① ②可以从计算机的角度对语料进行词汇和词频统计，从而考察和分析藏语文． ③能为研制机器词典和编纂字词典提供一个详实的参考数据． ④能为
建．藏语语法信息库的建设更是目前藏文信息处理领域最为薄弱的环节之一．实际上，语言知识库的构建是自然语言处理系统的一个重要组成部分，其规模与质量是藏文信息处理成败的关键所在．藏文信
息处理是计算语言学、语料库语言学等各种学科的综合知识汇集在一起的新学科，它在理论和方法上对我们提出的要求也是具有挑战性的．要想把藏文信息处理推向一个新的高度、新的水平，那么语言知识
第３２卷总第８３期
２０１１年９月

初中藏文信息处理中自动分词方法研究

初中藏文信息处理中自动分词方法研究作者：格桑来源：《杂文月刊·教育世界》2016年第08期西藏自治区昌都市洛隆县初级中学【摘要】藏文分词是藏文信息处理领域的一项不可缺少的基础性工作，也是智能化藏文信息处理的关键所在。

在藏文分词的研究过程中藏文分词的准确性，直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。

本文借鉴汉语的分词理论和方法，提出符合藏文特性的分词方法，以及歧义字段切分和未登录词识别等相关问题，并举例说明。

【关键词】信息处理藏文分词分词方法藏文分词是藏文信息处理中一项不可缺少的基础性工作。

从文本的输入系统（如智能语句输入法、语音输入、手写输入），到文字处理（如文本校对）以及语音合成、文本检索、文本分类、自然语言接口、自动文摘等，无处不渗透着分词系统的应用，它是藏文信息处理重要基础之一。

众所周知，英文以词为单位，以空格隔开。

计算机可以容易地理解英文单词。

而藏文句子中，词与词之间没有明显的分隔符（如空格）。

藏文以字（音节字）为单位，连字成句才能描述一个完整的意思。

而对由词组成的藏文句子，必须通过藏文分词技术才得以理解。

把藏文的音节字序列切分成有意义的词，是藏文分词的研究工作。

通过研究和分析藏文分词的概念以及国内外相关成果，本文系统地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技术方法，结合藏文自然标记断句、以格助词来为分块、块内匹配与统计相结合的分词方法，提出了藏文自动分词方法、格助词的识别方法、交集型和组合型歧义的识别方法及未登录词识别方法。

进而提出了藏文自动分词的基础理论知识及分词技术方法。

一、制定藏语词性标记集规范为了使藏文与汉文信息处理同步，建立统一的中文多文种信息处理平台，本项研究借鉴北京大学现代汉语词类及词性标记集规范、语料库词性标记集，制定了藏语词性标记集规范。

语料库的分类

语料库的分类一、介绍语料库是指用于语言学研究的大规模文本数据集合，是自然语言处理（NLP）领域的重要资源之一。

通过对语料库的分类和应用，可以帮助我们更好地理解和分析自然语言现象，提高机器对语言的理解能力和处理效果。

本文将介绍几种常见的语料库分类及其应用。

二、基于文本来源的分类1. 平衡语料库平衡语料库是指从各个领域、不同类型的文本中均匀采样得到的语料库。

这类语料库可以用于构建通用的语言模型，对各种领域的文本进行处理和分析。

2. 领域特定语料库领域特定语料库是指针对某一特定领域的语言样本进行收集和整理的语料库。

比如医学领域的语料库可以用于医学文本的分类、信息抽取和实体识别等任务。

3. 实时语料库实时语料库是指根据实时产生的文本数据构建的语料库，例如社交媒体上的实时文本。

这类语料库可以用于情感分析、事件检测和舆情分析等任务。

三、基于语言类型的分类1. 单语语料库单语语料库是指只包含一种语言的文本数据集合，例如中文语料库、英文语料库等。

这类语料库可以用于机器翻译、语言模型训练等任务。

2. 双语对照语料库双语对照语料库是指包含两种语言的文本数据集合，例如中英文对照语料库。

这类语料库可以用于机器翻译、跨语言信息检索等任务。

3. 多语语料库多语语料库是指包含多种语言的文本数据集合，例如欧洲各国的语料库。

这类语料库可以用于跨语言信息检索、语言联系研究等任务。

四、基于文本属性的分类1. 口语语料库口语语料库是指包含口语化文本的语料库，例如电话对话、社交媒体文本等。

这类语料库可以用于语音识别、对话系统等任务。

2. 书面语语料库书面语语料库是指包含书面语文本的语料库，例如新闻报道、学术论文等。

这类语料库可以用于文本分类、信息抽取等任务。

3. 平行语料库平行语料库是指包含相同内容但使用不同语言表达的文本对，例如中英文平行语料库。

这类语料库可以用于机器翻译、句子对齐等任务。

五、应用领域1. 机器翻译语料库是机器翻译系统的重要训练数据来源，通过对平行语料库的分析和建模，可以提高机器翻译的准确性和流畅度。

基于知识反馈的藏文词性标注研究

基于知识反馈的藏文词性标注研究作者：洛桑嘎登仁增多杰来源：《计算机时代》2018年第07期摘要：藏文词性标注是藏文信息处理的首要问题。

以条件随机场模型为基本框架，首先构建398万词条（78.5M）的词性标注模型，然后对条件随机场模型的标注结果进行修正，归纳总结基于藏文自身语言特征的标注规则，形成词性标注规则知识库。

详细分析模型构建过程中所选取的每个特征项对标注结果的影响，最终确定最优特征模板。

实验结果表明，本文提出的基于知识反馈的藏文词性标注方法可以显著提高词性标注效果，准确率达到98.75%，已基本满足实际使用。

关键词：藏文；词性标注；知识反馈；条件随机场中图分类号：N34 文献标志码：A 文章编号：1006-8228（2018）07-73-03Abstract： Tibetan part-of-speech tagging is the the most important problem in Tibetan information processing. In this paper， based on the basic framework of Conditional random fields （CRFs）， a part-of-speech model with 3.8 million entries is constructed. The model is modified according to the Tibetan grammar characteristics. The optimal characteristic template is finally determined by analyzing the influence of each characteristic selected in the construction of the model. Experimental results show that the method proposed in this paper can significantly improve the effect of Tibetan part-of-speech tagging. The accuracy reaches 98.75%.Key words： Tibetan； part-of-speech tagging； knowledge feedback； CRFs0 引言词性标注（part-of-speech，POS）是根据句子的上下文信息确定词的类型，是自然语言处理中一项非常重要的基础性工作，被广泛应用于信息检索、机器翻译、语义理解等领域[1]。

藏语传统辞书词目编排法探析

西藏研究Tibetan Studies2028年2月第8期No. 8Feb. 2028藏语传统辞书词目编排法MN完么才旦（西南民族大学中国语言文学学院，四川成都210242［关键词］藏语；传统辞书；词目；编排［摘要］藏语传统辞书不仅历史悠久、种类丰富，而且在词目编排时采用了许多与其他语言的辞书截然不同的方法。

早期的《翻译名义大集》等综合类辞书及《藻饰词论•长寿藏》等词藻类专业辞书，均使用了按语义分类词目的类序编排法。

随着藏语正字辞书的出现，编纂者开始采取以字母表为顺序的词目编排方法。

到1634年强巴林巴•索朗朗杰在编纂《词语分别显明庄严》时，已经使用了非常严谨地按字母顺序编排词目的方法。

另外，藏语传统辞书在编排词目时还运用了数序编排法、前置辅音编排法、上置辅音编排法、元音顺序编排法等藏语辞书独有的词目编排方法。

［中图分类号］G255.2 ［文献标识码］A ［文章编号］1002 - 0023 （ 2221）21 -2 28 - 12藏语传统辞书在漫长的发展过程中，形成了双语对照、正字、辞藻、新旧词汇对照等辞书形式。

由于收词内容与使用范围的差异，不同类型的辞书在词目编排方法上也不尽相同。

纵观世界辞书发展的历史，世界各民族语言的辞书,首先出现的都是以语义分类排列（気叭卵QR 卽号&4）词目的辞书，人们在查阅辞书时不像现在这么方便。

随着时代的发展，世界各民族语言辞书中先后出现形序编排法（增＜第&4）①和音序编排法（q R 訥L&4）②等词目编排方法，大大提高了人们使用辞书查阅资料的便捷性和实用性。

历代先贤编纂了大量优秀的经典辞书著作，藏语传统辞书亦是遵循这样的发展轨迹。

本文以几部著名的藏语传统辞书为例，对藏语传统辞书的词目编排规律做初步探讨。

一、义序编排法纵览世界各种语言的辞书编纂史，最初多是按语义分类编排词目的辞书。

“从公元前七世纪在亚述编写的苏末文亚述文双语难字表”③7］，到2世纪编纂的《尔雅》，再到6世纪编纂的《翻译名义大集 4•網电）＞［2］和《语合二卷（x I go.＜勺4）》7〕等,无一不是参照语义来分类和排列词目① 形序编排法一般指根据文字书写形体的结构特征来编排辞书条目的方法，包括笔画检字法和部首检字法等，例如:古代汉文辞书在编排词目时会根据汉字的结构,分出偏旁部首,并按照部首的笔画顺序排列词目，《说文解字》《康熙字典》等采用的均是形序编排法。

央金藏文分词系统

1央金藏文分词系统史晓东*2卢亚军**3*厦门大学人工智能研究所 361005E-mail：**************.cn**西北民族大学科研处 730030E-mail：*****************摘要：藏文分词是藏文信息处理的一个基本步骤，本文描述了我们将一个基于HMM的汉语分词系统segtag移植到藏文的过程，取得了91%的准确率。

又在错误分析的基础上，进行了训练词性的取舍、人名识别等处理，进一步提高了准确率。

关键字：藏文分词、自然语言处理、HMMA Tibetan Segmentation System – YangjinXiaodong Shi*, and Yajun Lu***Institute of Artificial Intelligence, Xiamen University, Xiamen 361005, China**Northwest University for Nationalities, Lanzhou 730030, ChinaAbstract: We described the porting of a Chinese segmentation system to handle Tibetan. The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small. We also described more processing upon error analysis which led to further improvement.Keywords:Tibetan Segmentation, natural language processing, HMM1 引言随着少数民族语言（主要是藏、维、蒙）到汉语的机器翻译研究逐渐进入人们的视野实验，相关的少数民族语言基础法分析工具也亟待完善。

藏语重叠词及联绵词构词规律新探

藏语重叠词及联绵词构词规律新探藏语重叠词及联绵词构词规律新探在探讨藏语构词规律时，我们不得不提到藏语中常见的重叠词及联绵词。

重叠词和联绵词在藏语中既是一种基本的词汇形式，又是一种重要的语法现象。

对于学习和理解藏语的人来说，探究这些词汇形式的构词规律是十分有意义的。

本文将深入探讨藏语重叠词及联绵词的构成规律，以帮助读者更好地理解和应用这些词汇形式。

一、重叠词构成规律的初步认识重叠词是藏语中一种特殊的词汇形式，指的是将一个完整的词重复出现两次，通过重复的方式来表达某种含义。

重叠词一般由两个相同的音节组成，例如“拉巴拉巴”、“扎西扎西”等。

重叠词的构成规律基本上可以归纳为以下几点：1. 重叠的音节必须相同且相邻，例如“拉巴-拉巴”，不能出现“拉巴-扎西”这样的组合。

2. 重叠词的意义是通过重复来加强或强调原词的含义，例如“拉巴拉巴”表示非常高兴，强调了高兴的程度。

3. 重叠词在句子中可以作为形容词、副词或者名词使用，根据上下文的不同，可能会有不同的变化。

通过以上初步分析，我们可以看出重叠词在藏语中具有一定的语法特征，并且其构成规律比较固定。

理解这些构成规律对于准确地理解和运用重叠词是非常重要的。

二、联绵词构成规律的进一步探究联绵词是一种比较特殊的词汇形式，在藏语中用来表达两种或多种意义的词语连接在一起。

联绵词的构成规律较为灵活，可以通过一些特定的构词方式来形成。

以下是一些常见的联绵词构成规律：1. 组合型联绵词：两个或多个完整的词汇通过结合形成新的词语，例如“嘎-嘎巴”、“艺-术贡”等。

2. 并列型联绵词：两个或多个完整的词汇通过并列关系连接在一起，例如“红-黄色”、“美-丽”等。

3. 组分型联绵词：将一个完整的词汇分为两个或多个部分，然后通过连接形成新的词语，例如“姐-妹”、“儿-童”等。

通过联绵词的构成规律，我们可以看到其灵活性和多样性。

在实际运用中，可以根据需要将不同的词汇进行组合，以表达更加准确和丰富的意义。

新编藏语语法教程

新编藏语语法教程第一章：藏语的基本特点和语音系统1.1 藏语的历史背景藏语是属于藏缅语系的一种语言，主要分布在中国的西南地区和印度的北部地区。

作为一种传统的藏族语言，藏语具有浓厚的历史和文化底蕴。

1.2 藏语的语音系统藏语的语音系统较为复杂，包括辅音、元音、声调等要素。

辅音的发音有清浊、送气、浊化等特点，元音的发音也存在长短、鼻化等差异。

此外，声调在藏语中也起着重要的区分作用。

1.3 藏语的基本词汇和词序藏语的基本词汇以单音节词为主，多音节词较少。

在词序上，藏语采用主谓宾的基本结构，但也存在一些特殊的语序现象。

第二章：藏语的名词和代词2.1 藏语名词的性别和数藏语的名词有三个性别，即阳性、阴性和中性。

在数方面，名词的复数形式有多种变化方式。

2.2 藏语代词的人称和格藏语的代词包括人称代词和物主代词。

人称代词根据不同的人称和格而发生变化，从而表示不同的语境。

第三章：藏语的动词和句法结构3.1 藏语动词的时态和语气藏语的动词分为过去、现在和将来三个时态，并具有陈述、命令、疑问等不同的语气形式。

3.2 藏语句法结构的基本特点藏语的句法结构以主谓宾为基本形式，但也存在一些特殊的句子结构，如主谓状、主状谓等。

第四章：藏语的语法变化和语气助词4.1 藏语的语法变化藏语的语法变化主要包括名词、动词和代词的变化形式。

这些变化形式在不同的语境中起着不同的作用。

4.2 藏语的语气助词藏语中存在多种语气助词，如肯定、否定、疑问等，这些助词在句子中起着标记语气的作用。

第五章：藏语的修辞和修饰手段5.1 藏语的比喻和隐喻藏语修辞手段丰富多样，其中比喻和隐喻是常见的修辞手法，用来增强语言表达的效果。

5.2 藏语的修饰手段藏语修饰手段包括使用形容词、副词、定语从句等方式来修饰名词和动词，使语言更加生动。

结语：本教程对藏语的基本特点、语音系统、名词和代词、动词和句法结构、语法变化和语气助词、修辞和修饰手段等方面进行了系统的介绍。

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究才让加【摘要】双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已建立了各类汉荚双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库.为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础.主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术.最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库.%The obstruction of bilingual Corpus and its automatic alignment research are of vital importance for the development of the computational linguistics. So far various types of Chinese-English bilingual corpus, including substantial sentnece aligned corpus for MT, have been developed both in China and abroad. In order to start the MT research involving minority with the state-of-arts technology, the research on the automatic alignments at the discourse level, paragraph level and sentence level between the Chinese and Tibetan vi-texts are necessary. This paper introduces a project on the Sino-Tibetanbilingual corpus alignments, the Chinese -Tibetan bilingual dictionary extraction, and the key technologies in the corpus collection, storage and retrieval. The project has accomplished such technologies as the Tibetan coding identification and conversion, thTibetan corpus construction, the Sino-Tibetan bilingual dictionary extraction, the Sino-Tibetan sentence alignment and word alignments, and finally achieving a large-scale aligned Sino-Tibetan bilingual corpus for Chinese-Tibetan machine translation.【期刊名称】《中文信息学报》【年(卷),期】2011(025)006【总页数】5页(P157-161)【关键词】汉藏机器翻译;汉藏双语语料库;编码;对齐技术【作者】才让加【作者单位】青海师范大学计算机学院青海师范大学藏文信息处理省部共建教育部重点实验室青海省藏文信息研究中心,青海西宁810008【正文语种】中文【中图分类】FP3911 序言近年来，语料库资源对于自然语言处理研究的巨大价值已经得到越来越多学者的认可。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

分析 , 三是便于操作川 , 四是与藏语传统语法保持最大的一致根据这四点考虑 , 结合藏语信息处理的实际需要 , 从总体上采用了以语法功能分布为主 , 形态变化为辅的分类标准闭 , 依据这一标准对藏语词类进行了归类 , 并在藏语自动分词系统和汉藏机器翻译
第2 3 卷
第4期
中文信息学报
JO U R N A L O F C H IN E S E IN F O R M A T IO N P R O C E S S IN G
V ol. 2 3 , N o. 4
2 00 9 年 7 月
J ul., 20 0 9
文章编号 : 100 3一 00 77 (2 009 )04一 00 107一 06
好的参照
在对藏语文本进行切分标注时首先解决
1
前言
对于英语法语和德语等西方语言而言 , 词与词
的是藏语词类的分类体系和标记集的制定 , 其次是根据藏语词类的分类体系和标记集建立藏语语料库切词词典 , 最后对原始文本语料进行切分和标注为了使藏语语料库词语分类体系及标记集具有规范性稳定性针对性实用性和继承性 , 青海师范大学藏文信息处理与机器翻译省级重点实验室从 20 02 年开始进行了藏语语料库的多级加工研究 , 对 1 00 0万字的藏语原始语料进行切分和标注实验 (这些原始语料包括藏文典籍中小学教材藏文期刊和报纸藏文网站界面文字现代藏文文选和藏文版政
S eh em e f o r T ib e tan C o rP u s
C A I R ang ji a
(T h e M a j or P rov i n ei al L ab oratory o f T ibeta n In fo rm ation H a nd l ing
M aeh i n e T ra nslati n g Q ing h ai N o r a m
收稿日期 : 2 00 8一 0 4一 21
定稿日期 : 20 09一 03一 23
甚金项目: 国家语委资助项目(M Z ll5 ~0 18 ) , 国家社会科学基金 ( 0 7 B Y Y o 35 ) , 国家社会科学重点基金 (0 5 AYY
) l
作者简介 : 才让加 (1963一 ) , 男 , 教授 , 研究方向为计算语言学藏文信息处理
在藏语语料序加工实脸中的应用表明 , 该分类方法和标记集足一个比较合理和实用的 .
文献标识码 : A
关抽词 : 计算机应用;中文信息处理 ;语料库 , 截语词语 , 分类体系;标记集
R esea reh o n th e W o r d
C at雌 or ies a n d It s A n n o ta t云 on
10 8
中文信息学报
2 00 9 年
论著作藏文版法律法规等 ) , 通过藏语语料的的切
分标注实验 , 200 5 年 1 2 月完成了藏语语料库分类
体系及标记集 (讨论稿 ) , 200 7 年 6 月完成了藏语语料库词语分类体系及标记集 (V l.O )
习研可苦习 q百呵
v气月可等);
决可冷自勺如 :
5. 形容词类 (A ) (形容词 a 气 .
气 ,气一两q 长 1西可沂 , ,二 ,二 T 等; 状态词 ;飞叭油勺如:舒补勺忿叮叨禽二补和弓万习等);
6. 副词类 ( n ) ( 副词 d 勺月 , 气可 a角盯 1如: 万石 l q日愁 , 奋气伸和衡等); 7. 叹词类 (E ) ( 叹词 e . 气叮月 , 马气 1如 :
e y w on l K s : eom p uter ap p l ieati on ; C h i n ese inf o r m ati on pr o ees:i ng , eo rP u s;T ibetan ph rases ; ea teg o ry ; m ark g ath erin g
k, 长可妥气沙 ., 如:气可 ,忿叮砺 ,1坟气 Iq百呵今 , q气可石 l
等)
1. 名词类 (N )(名词 n .气门衡叹气含自1 如:
3
藏语词类标记集及子类分类
藏文词类标记集及子类分类[ 9一 , 见下表
衡气二 , !啊, ( 衡百可叫板. 封等; 时间词
叮两奢呵等);
8. 拟声词类 (O ) ( 拟声词芍 ,叮健嗯气扮脚勺如 :
既符合藏文自身特征又可以被计算机自动处理的方
法因此 , 我们在藏语词语分类体系的构建上 , 采用为了便于计先分虚实 , 再确定大类 , 在大类的基础上分出小类 , 然后根据需要再分出不同深度的子类算机自动分析和处理 , 我们重点考虑以下四点 : 一
库进行自动切分和人工分析的基拙上提出了一个成语词语分类体系和标记集. 根据藏语语料库和计算机自动切
分和标注的实际禽要 , 在藏语词语分类体系的构建上 , 采用先分应实 , 再确定大类 , 在大类的基础上分出小类 , 再分出不同深度的子类
中圈分类号 : T P 3 9 1
气,念 , ,价愈厅万气 , ,I 等), n .陈述词 (Y ) (陈述词y考如 );
2 . 接续词类 1 ( C ) ( 接续词
叮 ,, 气坟 1 获 ! 丁弓食劲耘年角找 I 等);
3 . 藏语词语小类 (H ) (词缀 h 斯期, 如 : 1
语的猫着性特点闹 , 单纯地使用任何一种方法来进行藏语词语的分类都很难得到最佳的分类体系 , 由
于藏语具有格助词表征词与词之间的明显的形式特征 , 动词又保留着形态变化的基本特征 , 而格助词形容词等具有广义上的形态变化特征 , 因此利用语法功能与形态特征进行藏语词语的分类应该是一种
A 加 tr c a
nd
l U niversity , Q i n g hai, X i ni n g 8 10 00 8 , C h i n a)
t : F or th e au tom a ti e seg m en t a ti on and P O S tag ging , th i s pa per P ro po ses a T i b etan w o rd eateg o ry system an d
藏语语料库词语分类体系及标记集研究
才让加
(青海师范大学藏文信息处理与机器翻译省级重点实验室 , 青海西宁 810008 ) 摘要 : 青海师范大学藏丈信息处理与机器翻译省级重点实脸室已完成 1 00 0 万字的藏语语料库的加工实验 , 加
工的主要目的是使计算机能够对藏语语料库中的截语词语进行自动切分和自动标注 . 该丈在对大规模藏语语料
a ann o tati o n seh em e after a earefu l an alysi s ov er a l arg e T i b etan eo rp u s. A eeo rd i n g to the p ra eti eal dem an d s on th e
T ibetan eo rP u s , th e T ibeta n w ords are first d i vided i n to several m ain eatego ri es aeeo rd i n g to w h ere they are eon ten t
叭乌牙 .勺如 : , 找可尸百呵等;
方位词
f
朝
,,移可扮鱼引如:月 , I钱I营 , 1等 ),
2. 数词类 ( M ) ( 数词 m , 叮叹叮冷角勺如 :
,两忍 I夸二 ,, 研呵二卿 ,
奄r 等);
3. 量词类 ( Q ) ( 量词 q 叹息气引如:
竿宕1 可呵气气 ,气I 等);
9. 助词类 ( U ) ( 助词 u 月 , 马气侧如:
丙勺番勺角刃息勺马闪急可即熟为息 , 俨叫等 ),
10. 格助词 (G ) (格助词 g 吞二气孰如:
是划分出来的兼类词尽可能的少 , 二是有利于句法
t
万可留气移可冷角 , 如:气昌军四臀匀气芍叼晰等;处所词 S
蔽文词类标记集及子类分类衰
标记标记
子类
气蓄 ,, q轰气冷匆 1
形容词
d a
} 可再厂时石可单音节
} 可只尽甲盯石可多音节
4期
才让加 : 藏语语料库词语分类体系及标记集研究
109