藏语语料库词语分类体系及标记集研究
【国家社会科学基金】_分词标注_基金支持热词逐年推荐_【万方软件创新助手】_20140813

2012年 序号 1 2 3 4 5 6 7
科研热词 隐马尔科夫模型 自动分词 类比语料库 研究方法 检索 彝文 历时语料库
推荐指数 1 1 1 1 1 1 1
2013年 序号 1 2 3 4
科研热词 词法分析 自动标注 自动分词 彝文年 序号 1 2 3 4 5 6 7 8 9
推荐指数 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
科研热词 推荐指数 词语搭配 1 词类标注 1 词类体系 1 词典 1 藏语语料库 1 自动识别 1 索引 1 短语分析 1 班智达 1 现代汉语 1 标注 1 查询接口 1 条件随机场模型 1 效度 1 并列式四字格 1 平行语料 1 四字格 1 分词碎片 1 分词 1 信息抽取 1 中文信息处理 1 《现代汉语词典》(第5版) 1
2014年 科研热词 隐马尔科夫模型 词性标注 自动分词 楚辞 图解树库 句本位语法 古文分词 临时造词 中文信息处理 推荐指数 1 1 1 1 1 1 1 1 1
2008年 序号 1 2 3 4 5 6 7 8 9 10
科研热词 语义 评分函数 规则 统计语言模型 统计 短语字段 消歧规则 形式标志 全切分 交集型歧义
推荐指数 1 1 1 1 1 1 1 1 1 1
2009年 序号 1 2 3 4 5
科研热词 马尔可夫标注模型 粗分模型 双数组trie树索引 分词标注 全切分
2011年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
2011年 科研热词 问答系统 问句索引 问句理解 问句检索 词类 词典 规范 藏语语料库 藏文虚词 短语搭配 标记集 标注 对齐 双语语料 分词标注 信息处理 推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
藏语动词语法信息库构建研究

[ 作者简介】 羊本才让(94 , 藏族)青海贵德人, 18一)男( , 硕士研究生, 主要从事藏文信息处理方面的研究 .
一3 7 ຫໍສະໝຸດ 设计的 . 藏语知识库的构建就像是为计算机如何处理藏文的问题而提供必要的、 可靠的数据库一样, 计
算机最终从所提供的语言知识库的结构 、 特征与符号、 语法信息等相关信息处理藏文 . 语言 知识库 , 根据 各类语 言语 法特 征的 不 同而 可 以构 建 口语 知识 库 、 面语 知 识 库 、 书 语音 知 识库 和
参考 数据 . 另外 , 统的 编纂词 典 的方法是 要从 每本 书里 收集各 类字 词条 , 传 然后 把它整 理成 词典 . 而运
用这些语言知识库编纂词典非常方便, 我们再也不用像传统的做法一样毕生的精力都用在词条 的整理 上, 而根据计算机提供的语言信息直接梳理条 目即可 . 因此, 笔者认为构建语言知识库有以下五点意 义 : 能够 满足为 计算机 处理 藏文 提供 语言 信 息 的 需求 . ① ②可 以从 计算 机 的 角度 对 语 料进 行词 汇 和 词 频统计, 从而考察和分析藏语文 . ③能为研制机器词典和编纂字词典提供一个详实的参考数据 . ④能为
建. 藏语语法信息库的建设更是 目 前藏文信息处理领域最为薄弱的环节之一 . 实际上, 语言知识库的构 建是 自然语言处理系统的一个重要组成部分, 其规模与质量是藏文信息处理成败的关键所在 . 藏文信
息处理是计算语言学、 语料库语言学等各种学科的综合知识汇集在一起的新学科, 它在理论和方法上对 我们提出的要求也是具有挑战性的 . 要想把藏文信息处理推 向一个新的高度、 新的水平, 那么语言知识
第3 2卷 总 第 8 3期
2 011 年 9月
初中藏文信息处理中自动分词方法研究

初中藏文信息处理中自动分词方法研究作者:格桑来源:《杂文月刊·教育世界》2016年第08期西藏自治区昌都市洛隆县初级中学【摘要】藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。
在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。
本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。
【关键词】信息处理藏文分词分词方法藏文分词是藏文信息处理中一项不可缺少的基础性工作。
从文本的输入系统(如智能语句输入法、语音输入、手写输入),到文字处理(如文本校对)以及语音合成、文本检索、文本分类、自然语言接口、自动文摘等,无处不渗透着分词系统的应用,它是藏文信息处理重要基础之一。
众所周知,英文以词为单位,以空格隔开。
计算机可以容易地理解英文单词。
而藏文句子中,词与词之间没有明显的分隔符(如空格)。
藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。
而对由词组成的藏文句子,必须通过藏文分词技术才得以理解。
把藏文的音节字序列切分成有意义的词,是藏文分词的研究工作。
通过研究和分析藏文分词的概念以及国内外相关成果,本文系统地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统计相结合的分词方法,提出了藏文自动分词方法、格助词的识别方法、交集型和组合型歧义的识别方法及未登录词识别方法。
进而提出了藏文自动分词的基础理论知识及分词技术方法。
一、制定藏语词性标记集规范为了使藏文与汉文信息处理同步,建立统一的中文多文种信息处理平台,本项研究借鉴北京大学现代汉语词类及词性标记集规范、语料库词性标记集,制定了藏语词性标记集规范。
语料库的分类

语料库的分类一、介绍语料库是指用于语言学研究的大规模文本数据集合,是自然语言处理(NLP)领域的重要资源之一。
通过对语料库的分类和应用,可以帮助我们更好地理解和分析自然语言现象,提高机器对语言的理解能力和处理效果。
本文将介绍几种常见的语料库分类及其应用。
二、基于文本来源的分类1. 平衡语料库平衡语料库是指从各个领域、不同类型的文本中均匀采样得到的语料库。
这类语料库可以用于构建通用的语言模型,对各种领域的文本进行处理和分析。
2. 领域特定语料库领域特定语料库是指针对某一特定领域的语言样本进行收集和整理的语料库。
比如医学领域的语料库可以用于医学文本的分类、信息抽取和实体识别等任务。
3. 实时语料库实时语料库是指根据实时产生的文本数据构建的语料库,例如社交媒体上的实时文本。
这类语料库可以用于情感分析、事件检测和舆情分析等任务。
三、基于语言类型的分类1. 单语语料库单语语料库是指只包含一种语言的文本数据集合,例如中文语料库、英文语料库等。
这类语料库可以用于机器翻译、语言模型训练等任务。
2. 双语对照语料库双语对照语料库是指包含两种语言的文本数据集合,例如中英文对照语料库。
这类语料库可以用于机器翻译、跨语言信息检索等任务。
3. 多语语料库多语语料库是指包含多种语言的文本数据集合,例如欧洲各国的语料库。
这类语料库可以用于跨语言信息检索、语言联系研究等任务。
四、基于文本属性的分类1. 口语语料库口语语料库是指包含口语化文本的语料库,例如电话对话、社交媒体文本等。
这类语料库可以用于语音识别、对话系统等任务。
2. 书面语语料库书面语语料库是指包含书面语文本的语料库,例如新闻报道、学术论文等。
这类语料库可以用于文本分类、信息抽取等任务。
3. 平行语料库平行语料库是指包含相同内容但使用不同语言表达的文本对,例如中英文平行语料库。
这类语料库可以用于机器翻译、句子对齐等任务。
五、应用领域1. 机器翻译语料库是机器翻译系统的重要训练数据来源,通过对平行语料库的分析和建模,可以提高机器翻译的准确性和流畅度。
基于知识反馈的藏文词性标注研究

基于知识反馈的藏文词性标注研究作者:洛桑嘎登仁增多杰来源:《计算机时代》2018年第07期摘要:藏文词性标注是藏文信息处理的首要问题。
以条件随机场模型为基本框架,首先构建398万词条(78.5M)的词性标注模型,然后对条件随机场模型的标注结果进行修正,归纳总结基于藏文自身语言特征的标注规则,形成词性标注规则知识库。
详细分析模型构建过程中所选取的每个特征项对标注结果的影响,最终确定最优特征模板。
实验结果表明,本文提出的基于知识反馈的藏文词性标注方法可以显著提高词性标注效果,准确率达到98.75%,已基本满足实际使用。
关键词:藏文;词性标注;知识反馈;条件随机场中图分类号:N34 文献标志码:A 文章编号:1006-8228(2018)07-73-03Abstract: Tibetan part-of-speech tagging is the the most important problem in Tibetan information processing. In this paper, based on the basic framework of Conditional random fields (CRFs), a part-of-speech model with 3.8 million entries is constructed. The model is modified according to the Tibetan grammar characteristics. The optimal characteristic template is finally determined by analyzing the influence of each characteristic selected in the construction of the model. Experimental results show that the method proposed in this paper can significantly improve the effect of Tibetan part-of-speech tagging. The accuracy reaches 98.75%.Key words: Tibetan; part-of-speech tagging; knowledge feedback; CRFs0 引言词性标注(part-of-speech,POS)是根据句子的上下文信息确定词的类型,是自然语言处理中一项非常重要的基础性工作,被广泛应用于信息检索、机器翻译、语义理解等领域[1]。
藏语传统辞书词目编排法探析

西藏研究Tibetan Studies2028年2月第8期No. 8Feb. 2028藏语传统辞书词目编排法MN完么才旦(西南民族大学中国语言文学学院,四川 成都210242[关键词]藏语;传统辞书;词目;编排[摘要]藏语传统辞书不仅历史悠久、种类丰富,而且在词目编排时采用了许多与其他语言 的辞书截然不同的方法。
早期的《翻译名义大集》等综合类辞书及《藻饰词论•长寿藏》等词 藻类专业辞书,均使用了按语义分类词目的类序编排法。
随着藏语正字辞书的出现,编纂者开始采取以字母表为顺序的词目编排方法。
到1634年强巴林巴•索朗朗杰在编纂《词语分别显明庄严》时,已经使用了非常严谨地按字母顺序编排词目的方法。
另外,藏语传统辞书在编排词目时还运用了数序编排法、前置辅音编排法、上置辅音编排法、元音顺序编排法等藏语辞书 独有的词目编排方法。
[中图分类号]G255.2 [文献标识码]A [文章编号]1002 - 0023 ( 2221)21 -2 28 - 12藏语传统辞书在漫长的发展过程中,形成了双 语对照、正字、辞藻、新旧词汇对照等辞书形式。
由于收词内容与使用范围的差异,不同类型的辞书在 词目编排方法上也不尽相同。
纵观世界辞书发展的 历史,世界各民族语言的辞书,首先出现的都是以语义分类排列(気叭卵QR 卽号&4)词目的辞书,人们 在查阅辞书时不像现在这么方便。
随着时代的发展,世界各民族语言辞书中先后出现形序编排法 (增<第&4)①和音序编排法(q R 訥L&4)②等词目编排方法,大大提高了人们使用辞书查阅资料的便捷性和实用性。
历代先贤编纂了大量优秀的经典辞书著作,藏语传统辞书亦 是遵循这样的发展轨迹。
本文以几部著名的藏语 传统辞书为例,对藏语传统辞书的词目编排规律做初步探讨。
一、义序编排法纵览世界各种语言的辞书编纂史,最初多是按语义分类编排词目的辞书。
“从公元前七世纪在亚述编写的苏末文亚述文双语难字表”③7],到2世纪 编纂的《尔雅》,再到6世纪编纂的《翻译名义大集 4•網电)>[2]和《语合二卷(x I go.<勺4)》7〕等,无一不是参照语义来分类和排列词目① 形序编排法一般指根据文字书写形体的结构特征来编排辞 书条目的方法,包括笔画检字法和部首检字法等,例如:古代汉文辞书 在编排词目时会根据汉字的结构,分出偏旁部首,并按照部首的笔画顺序排列词目,《说文解字》《康熙字典》等采用的均是形序编排法。
央金藏文分词系统

1央金藏文分词系统史晓东*2卢亚军**3*厦门大学人工智能研究所 361005E-mail:**************.cn**西北民族大学科研处 730030E-mail:*****************摘要:藏文分词是藏文信息处理的一个基本步骤,本文描述了我们将一个基于HMM的汉语分词系统segtag移植到藏文的过程,取得了91%的准确率。
又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。
关键字:藏文分词、自然语言处理、HMMA Tibetan Segmentation System – YangjinXiaodong Shi*, and Yajun Lu***Institute of Artificial Intelligence, Xiamen University, Xiamen 361005, China**Northwest University for Nationalities, Lanzhou 730030, ChinaAbstract: We described the porting of a Chinese segmentation system to handle Tibetan. The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small. We also described more processing upon error analysis which led to further improvement.Keywords:Tibetan Segmentation, natural language processing, HMM1 引言随着少数民族语言(主要是藏、维、蒙)到汉语的机器翻译研究逐渐进入人们的视野实验,相关的少数民族语言基础法分析工具也亟待完善。
藏语重叠词及联绵词构词规律新探

藏语重叠词及联绵词构词规律新探藏语重叠词及联绵词构词规律新探在探讨藏语构词规律时,我们不得不提到藏语中常见的重叠词及联绵词。
重叠词和联绵词在藏语中既是一种基本的词汇形式,又是一种重要的语法现象。
对于学习和理解藏语的人来说,探究这些词汇形式的构词规律是十分有意义的。
本文将深入探讨藏语重叠词及联绵词的构成规律,以帮助读者更好地理解和应用这些词汇形式。
一、重叠词构成规律的初步认识重叠词是藏语中一种特殊的词汇形式,指的是将一个完整的词重复出现两次,通过重复的方式来表达某种含义。
重叠词一般由两个相同的音节组成,例如“拉巴拉巴”、“扎西扎西”等。
重叠词的构成规律基本上可以归纳为以下几点:1. 重叠的音节必须相同且相邻,例如“拉巴-拉巴”,不能出现“拉巴-扎西”这样的组合。
2. 重叠词的意义是通过重复来加强或强调原词的含义,例如“拉巴拉巴”表示非常高兴,强调了高兴的程度。
3. 重叠词在句子中可以作为形容词、副词或者名词使用,根据上下文的不同,可能会有不同的变化。
通过以上初步分析,我们可以看出重叠词在藏语中具有一定的语法特征,并且其构成规律比较固定。
理解这些构成规律对于准确地理解和运用重叠词是非常重要的。
二、联绵词构成规律的进一步探究联绵词是一种比较特殊的词汇形式,在藏语中用来表达两种或多种意义的词语连接在一起。
联绵词的构成规律较为灵活,可以通过一些特定的构词方式来形成。
以下是一些常见的联绵词构成规律:1. 组合型联绵词:两个或多个完整的词汇通过结合形成新的词语,例如“嘎-嘎巴”、“艺-术贡”等。
2. 并列型联绵词:两个或多个完整的词汇通过并列关系连接在一起,例如“红-黄色”、“美-丽”等。
3. 组分型联绵词:将一个完整的词汇分为两个或多个部分,然后通过连接形成新的词语,例如“姐-妹”、“儿-童”等。
通过联绵词的构成规律,我们可以看到其灵活性和多样性。
在实际运用中,可以根据需要将不同的词汇进行组合,以表达更加准确和丰富的意义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2 3 卷
第4期
中文信息学报
JO U R N A L O F C H IN E S E IN F O R M A T IO N P R O C E S S IN G
V ol. 2 3 , N o. 4
2 00 9 年 7 月
J ul., 20 0 9
文章 编 号 : 100 3一 00 77 (2 009 )04一 00 107一 06
好 的参 照
在对 藏 语 文本 进 行 切分 标 注 时 首先 解 决
1
前言
对于英语 法语 和 德语 等西 方语 言而 言 , 词 与词
的是藏语 词类 的分 类体 系和标记 集 的制 定 , 其 次是 根 据 藏语 词类 的分类 体 系 和标 记 集 建立 藏 语语 料 库 切 词词典 , 最 后对原 始文本语 料进 行切分 和标注 为 了使 藏语 语料 库 词语 分类 体 系 及标 记集 具 有 规 范性 稳 定性 针 对性 实用性 和继 承性 , 青 海师 范 大 学藏 文信 息 处理 与机 器 翻译 省 级重 点 实验 室从 20 02 年 开始 进行 了藏语 语 料库 的 多级 加 工研 究 , 对 1 00 0万 字 的藏语 原 始语 料 进行 切 分 和 标 注 实 验 (这 些 原始 语 料包 括藏 文 典籍 中小学 教 材 藏文 期 刊和 报 纸 藏文 网 站界 面文 字 现代 藏 文 文选 和藏 文版 政
S eh em e f o r T ib e tan C o rP u s
C A I R ang ji a
(T h e M a j or P rov i n ei al L ab oratory o f T ibeta n In fo rm ation H a nd l ing
M aeh i n e T ra nslati n g Q ing h ai N o r a m
收 稿 日期 : 2 00 8一 0 4一 21
定 稿 日期 : 20 09一 03一 23
甚金 项 目: 国家语 委资助项 目(M Z ll5 ~0 18 ) , 国家社 会科 学基金 ( 0 7 B Y Y o 35 ) , 国家社 会科学重点基金 (0 5 AYY
) l
作者 简介 : 才让加 (1963一 ) , 男 , 教授 , 研 究方向为计算语 言学 藏文信 息处理
在藏语语料序加 工实脸 中的应 用表 明 , 该 分类方法和标记集足 一个比较合理 和实用的 .
文献标识码 : A
关抽 词 : 计 算机应 用;中文信息处理 ;语料库 , 截语词语 , 分类体 系;标 记集
R esea reh o n th e W o r d
C at雌 or ies a n d It s A n n o ta t云 on
10 8
中文信息学报
2 00 9 年
论著作 藏文版法律法规等 ) , 通过藏语语料的的切
分标 注 实验 , 200 5 年 1 2 月 完成 了 藏语 语 料 库 分类
体 系及 标记 集 (讨 论稿 ) , 200 7 年 6 月 完 成 了 藏 语 语 料库 词语 分类 体 系及标 记 集 (V l.O )
习 研 可 苦 习 q百 呵
v气 月 可 等);
决 可冷 自 勺如 :
5. 形 容词 类 (A ) (形容词 a 气 .
气 ,气 一 两q 长 1西 可 沂 , ,二 ,二 T 等; 状 态 词 ;飞 叭 油勺 如:舒 补 勺忿 叮 叨 禽 二 补 和弓 万 习 等);
6. 副 词 类 ( n ) ( 副 词 d 勺 月 , 气 可 a角 盯 1如: 万石 l q日 愁 , 奋 气 伸 和衡 等); 7. 叹 词 类 (E ) ( 叹 词 e . 气 叮 月 , 马 气 1如 :
e y w on l K s : eom p uter ap p l ieati on ; C h i n ese inf o r m ati on pr o ees:i ng , eo rP u s;T ibetan ph rases ; ea teg o ry ; m ark g ath erin g
k, 长 可妥 气 沙 ., 如:气 可 ,忿 叮 砺 ,1坟 气 Iq百 呵 今 , q气 可 石 l
等)
1. 名词类 (N )(名词 n .气 门 衡 叹气 含 自1 如:
3
藏语词类标记集及子类分 类
藏 文词 类标 记 集及 子类 分类[ 9一 , 见下 表
衡 气 二 , !啊, ( 衡百 可 叫板. 封 等; 时 间 词
叮 两奢 呵 等);
8. 拟 声词 类 (O ) ( 拟声词 芍 ,叮 健嗯 气扮 脚 勺如 :
既符 合 藏文 自身特征 又可 以被 计算 机 自动处 理 的方
法 因此 , 我 们 在藏 语词 语分 类体 系 的构建 上 , 采用 为了便 于计 先 分虚 实 , 再 确 定 大 类 , 在 大 类 的基 础 上分 出小 类 , 然 后根 据需 要再 分 出不 同深 度 的子类 算 机 自动 分析 和处 理 , 我们 重 点 考虑 以 下 四 点 : 一
库进 行 自动切分 和人 工分析的基拙上提 出了一个成语 词语 分类 体 系和标记 集. 根据 藏语 语料 库 和计 算机 自动切
分和标注 的实际禽要 , 在 藏语词语分类体 系的构建上 , 采用先分应 实 , 再确定大 类 , 在 大类 的基础上 分 出小类 , 再分 出不 同深度 的子 类
中圈分类号 : T P 3 9 1
气,念 , ,价 愈 厅 万 气 , ,I 等), n .陈 述 词 (Y ) (陈 述词y考 如 );
2 . 接 续 词 类 1 ( C ) ( 接 续 词
叮 ,, 气 坟 1 获 ! 丁 弓 食 劲耘 年 角 找 I 等);
3 . 藏 语 词 语 小 类 (H ) (词 缀 h 斯 期, 如 : 1
语 的猫 着 性特 点闹 , 单 纯地 使 用 任 何 一种 方 法 来 进 行藏 语词 语 的分 类都 很 难 得 到最 佳 的分 类 体 系 , 由
于藏 语具 有格 助 词表 征词 与词 之 间的 明显 的形式 特 征 , 动词 又保 留着 形 态 变 化 的基 本 特 征 , 而 格 助 词 形 容词 等具 有广 义 上 的 形态 变化 特 征 , 因此 利 用 语 法 功能 与形 态特 征进 行藏 语词 语 的分 类应该 是 一种
A 加 tr c a
nd
l U niversity , Q i n g hai, X i ni n g 8 10 00 8 , C h i n a)
t : F or th e au tom a ti e seg m en t a ti on and P O S tag ging , th i s pa per P ro po ses a T i b etan w o rd eateg o ry system an d
藏 语语料 库词语分类体 系及标记集研究
才让加
(青海 师范大学 藏文信息处 理与机器翻译省级重点 实验室 , 青 海 西宁 810008 ) 摘 要 : 青海师 范大学藏 丈信息处理 与机 器翻 译省级重 点 实脸 室 已完成 1 00 0 万 字的藏 语语料 库 的加 工 实验 , 加
工的主要 目的是使 计算机能够对藏语语料 库 中的截语 词语 进行 自动切 分和 自动 标注 . 该 丈在 对 大规模 藏语语 料
a ann o tati o n seh em e after a earefu l an alysi s ov er a l arg e T i b etan eo rp u s. A eeo rd i n g to the p ra eti eal dem an d s on th e
T ibetan eo rP u s , th e T ibeta n w ords are first d i vided i n to several m ain eatego ri es aeeo rd i n g to w h ere they are eon ten t
叭 乌牙 .勺 如 : , 找 可尸 百 呵 等;
方 位 词
f
朝
,,移 可扮 鱼 引 如:月 , I钱I营 , 1等 ),
2. 数 词 类 ( M ) ( 数 词 m , 叮 叹叮 冷 角 勺如 :
,两 忍 I夸 二 ,, 研 呵二 卿 ,
奄r 等);
3. 量 词 类 ( Q ) ( 量 词 q 叹 息 气 引 如:
竿 宕1 可 呵气 气 ,气I 等);
9. 助 词 类 ( U ) ( 助 词 u 月 , 马 气 侧 如:
丙 勺番 勺角 刃息 勺马 闪急 可 即熟 为息 , 俨叫 等 ),
10. 格 助 词 (G ) (格 助 词 g 吞 二 气 孰 如:
是 划分 出来 的兼类 词 尽 可 能 的 少 , 二 是 有 利 于 句法
t
万 可 留 气 移 可冷 角 , 如:气 昌 军 四臀 匀气 芍 叼 晰 等;处所词 S
蔽 文词 类标记集及子类分类衰
标记 标记
子 类
气蓄 ,, q轰 气 冷匆 1
形容 词
d a
} 可再 厂时石 可单音节
} 可只 尽 甲 盯石 可多音节
4期
才让加 : 藏语语料库词语 分类体系及标记集研 究
109