信息处理用藏文分词单位研究
基于深度学习的藏文分词关键技术研究[]
![基于深度学习的藏文分词关键技术研究[]](https://img.taocdn.com/s3/m/a58d98fd250c844769eae009581b6bd97e19bc46.png)
基于深度学习的藏文分词关键技术研究[ ]摘要:藏语信息化处理对于藏语的传承与发展具有重要意义。
目前我国对于藏语信息化研究已经具有较高水平。
其中,藏文分词是藏文信息处理的基础任务,受到藏文研究人员的广泛关注。
现阶段,在藏文分词任务中,主要的研究方法从传统的方法(字符串匹配和统计分词)转向深度学习。
本文结合传统方法和深度学习的优势,提出了基于条件随机场(CRF)和自注意机制(Self-Attention)的藏文分词算法Self-Attention CRF。
通过藏文分词数据集,并进行实验,本文的算法在精准率提升了1.9%、召回率提升了1.2%、F1分数指标提升了3.2%。
关键词:藏文信息化;藏文分词;深度学习;条件随机场;自注意力机制1.引言藏族文字(藏文)作为历史悠久的文字,用独特的书写符号记录和传承珍贵的藏族文化。
现阶段,随着数字化、信息化时代的到来,藏文信息化使得藏文研究换发出新的生命力。
藏文分词是藏文信息处理的基础和前提[1]。
而藏文与汉语在语法上存在较大差异,因此,需要针对藏文的特殊语法结构设计分词算法。
传统的藏文分词方法有字符串匹配方法和统计分词方法,取得了较为理想的分词效率和分词结果。
随着深度学习和藏语语料的不断发展,基于深度学习的[2,3,4]藏文分词方法获得了较大关注。
但是,现有分词方法存在以下局限:(1)传统藏文分词方法精度上低于深度学习方法;(2)深度学习的分词方法, 以循环神经网络(Recurrent neural network,RNN)[5]和长短期记忆网络(Long short-term memory, LSTM)[6]为例,训练效率较低,下一个分词结果需要等待前一个结果输出。
并且,该模型无法更大范围获得上下文信息。
因此,本文基于现有藏文分词方法,结合传统方法的和深度学习方法的优势,克服以上局限,主要贡献如下:(1)构建藏文分词数据集;(2)引入自注意力机制self-attention [7],并行提取藏文文本信息;(3)提出基于条件随机场CRF[8]和自注意机制self-attention[7]的藏文分词算法,进一步提升藏文的分词模型的精度和效率。
藏语语料库词语分类体系及标记集研究

工的主要 目的是使 计算机能够对藏语语料 库 中的截语 词语 进行 自动切 分和 自动 标注 . 该 丈在 对 大规模 藏语语 料
库进 行 自动切分 和人 工分析的基拙上提 出了一个成语 词语 分类 体 系和标记 集. 根据 藏语 语料 库 和计 算机 自动切
分和标注 的实际禽要 , 在 藏语词语分类体 系的构建上 , 采用先分应 实 , 再确定大 类 , 在 大类 的基础上 分 出小类 , 再分 出不 同深度 的子 类
A 加 tr c a
nd
l U niversity , Q i n g hai, X i ni n g 8 10 00 8 , C h i n a)
t : F or th e au tom a ti e seg m en t a ti on and P O S tag ging , th i s pa per P ro po ses a T i b etan w o rd eateg o ry system an d
e y w on l K s : eom p uter ap p l ieati on ; C h i n ese inf o r m ati on pr o ees:i ng , eo rP u s;T ibetan ph rases ; ea teg o ry ; m ark g ath erin g
习 研 可 苦 习 q百 呵
v气 月 可 等);
决 可冷 自 勺如 :
5. 形 容词 类 (A ) (形容词 a 气 .
气 ,气 一 两q 长 1西 可 沂 , ,二 ,二 T 等; 状 态 词 ;飞 叭 油勺 如:舒 补 勺忿 叮 叨 禽 二 补 和弓 万 习 等);
6. 副 词 类 ( n ) ( 副 词 d 勺 月 , 气 可 a角 盯 1如: 万石 l q日 愁 , 奋 气 伸 和衡 等); 7. 叹 词 类 (E ) ( 叹 词 e . 气 叮 月 , 马 气 1如 :
藏文文本分类技术研究综述

藏文文本分类技术研究综述苏慧婧,群诺(西藏大学信息科学技术学院,西藏拉萨850012)摘要:该文介绍了藏文文本分类技术的研究与进展。
首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。
关键词:藏文文本分类;文本表示;特征选择;机器学习中图分类号:TP391文献标识码:A文章编号:1009-3044(2021)04-0190-03开放科学(资源服务)标识码(OSID):Summary of Research on Tibetan Text Classification TechnologySU Hui-jing,QUN Nuo(School of Information Science and Technology,Tibet University,Lhasa850000,China)Abstract:This article introduces the research and development of Tibetan text classification technology.First,it analyzes and com⁃pares the commonly used text representation and text feature selection methods at this stage,then reviews the characteristics of Ti⁃betan classification algorithms in machine learning,and discusses the application of different algorithms in Tibetan text classifica⁃tion technology.Finally,it points out the current problems and challenges of Tibetan text classification,and puts forward sugges⁃tions for future research.Key words:Tibetan text classification;text representation;feature selection;machine learning自然语言是人们日常使用的语言,是人类学习生活的重要工具。
信息处理用藏语副词修饰词和短语研究

的描述也需 要进 一步 深入 。对藏 语副 词及其 功 能研究
程 度副词 可 以修 饰 动词 和 形 容词 ,动词 又 分 为 心
是 藏文形 式化 中一项 重 要 工 程 ,本 文结 合 传 统 语法 理 理动词 和非 心理 动词 ,形 容 词 可 以分 为 性 质形 容 词 和
论 和成果 与现 代语 言学 理 论 ,以及 为计 算 机 自然语 言 状态形 容 词 。张 谊 生在 其 著 作 《现代 汉 语 副 词 探 索 》
日1瑚1
951。
围。表 示 范 围副 词 的词 有 :“ ’ 硼9 ’ 写 面 ’ 葡 1 ’ 1函q 日1 日 1”等 。
1 uI5J1”等 。 3.1 “范 围 副 词 +词 ”结 构
一 般 地 ,藏 语 中 的 范 围 副 词 可 修 饰 动 词 和 形 容 词 。
作 行为 或状 态性质 等 所 涉及 的范 围 、时 间 、程 度 、肯定 词” 。藏 语 心 理 动 词 也 具 有 如 上 定 义 所 阐 释 的 特
和否定 的情 况 ,通 常它 被置 于动词 和形 容词 的前 面 ,是 点 ,例如 :“ r. 41 1 蔺1 ”它 们 基 本 上 都 出现 在 主要 用来修 饰动 词 、形 容词 、全句 的词 。本文结 合 现代 程 度副 词 的后 面 ,并可 以受 各 类程 度 副 词 的修 饰 。 例
2.2 “程 度 副 词 +短 语 ”结 构
(表 1)。
表 1
程 度 副 词 修 饰 短 语 的 情 况
3 范 围 副 词
理 动作 的词 ,它们基 本 上都 出现在 动 词 的前 面 ,可 以受
从 藏语 表 达 的角 度 看 ,范 围 副词 都 是 用 于 限定 范 各类 范 围鬲0词 修饰 。例 如 :“
藏语语言模型的研究现状及展望

藏语语言模型的研究现状及展望
2. 词法分析
词法分析是自然语言处理的基础工作,其目的是将连续的文字序列划分成有意义的词
汇单元。
针对藏语词法分析的研究,主要包括分词、词性标注和命名实体识别等任务。
分
词是最基础的任务,目前已有一些基于规则和统计的方法进行研究,并取得了一定的效果。
由于藏语的特殊性和复杂性,对于分词任务的研究还存在一定的挑战。
4. 机器翻译
机器翻译是利用计算机将一种语言的文本转化为另一种语言的任务。
针对藏语机器翻
译的研究,主要包括基于规则的方法和基于统计的方法。
基于规则的方法主要是利用语法
规则和词典进行翻译,但是对于复杂结构和低频词的处理存在一定的困难。
而基于统计的
方法则是通过建立双语平行语料库,采用统计模型进行翻译,如统计短语的翻译概率等。
最近,随着神经机器翻译(NMT)的兴起,基于深度学习的机器翻译方法也逐渐受到关注。
1. 语料资源的扩充
目前,虽然对藏语的语料资源进行了一定的整理和汇总,但是仍然存在规模较小和领
域较为有限的问题。
未来需要进一步扩充和丰富藏语的语料资源,包括不同领域、不同类
型和不同语境下的数据。
3. 神经机器翻译的应用
随着神经机器翻译的兴起,其在机器翻译任务上的性能已经超过了传统的方法。
未来,可以将神经机器翻译的方法应用到藏语的机器翻译任务上,以提高翻译质量和效果。
基于音节标注的藏文自动分词研究

优先出版 计 算 机 应 用 研 究 第32卷--------------------------------基金项目:基金国家自然科学基金(61032008,61262052,61262054);西北民族大学中央高校基本科研业务费专项资金资助项目(31920140064);甘肃省青年科技基金(1208RJYA053);作者简介:何向真(1977-),男,宁夏固原人,讲师,主要研究方向为少数民族语言文字信息处理(5967148@);李亚超(1986-),男,河南汝州人,助教,主要研究方向为自然语言处理、词法分析;马宁(1981-),男,宁夏吴忠人,博士,副教授,主要研究方向为自然语言处理;于洪志(1947-),女,山东龙口人,教授,博导,主要研究方向为语音学、少数民族语言文字信息处理;.基于音节标注的藏文自动分词研究何向真,李亚超,马 宁,于洪志(西北民族大学 中国民族语言文字信息技术重点实验室,兰州730030)摘 要:分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程。
针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov 网络模型等模型下的分词系统,并在同等条件下进行了实验对比。
实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其它序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效的处理藏文分词问题。
关键词:关藏文;分词;序列标注;最大熵;条件随机场;最大间隔Markov 网络模型 中图分类号:TP391.1Study on Tibetan automatic word segmentation as syllable taggingHE Xiang-zhen, LI Ya-chao, MA Ning, YU Hong-zhi( Key Lab of Chinese National Linguistic Information Technology, Northwest University for Nationalities, Lanzhou 730030 ) Abstract: Tibetan word segmentation (TWS) is the process of combination the syllables sequence into words sequence, and which is the basic problem for Tibetan natural language processing. To solve the special problems in TWS, the paper reformulated the segmentation as a syllable tagging problem, and comparative experiments are conducted at the same condition in different sequence label models. Experimental results show that the TWS system with conditional random fields achieves the best performance in the condition of four-tag, other models achieve good results at the same time, all the above show that, the segmentation as a syllable tagging problem is a better approach to deal with TWS .Key Words: Tibetan; word segmentation; sequence label; maximum entropy; conditional random field; max-margin markov networks0 引言藏文是一种拼音文字,有30个元音字母和4个辅音字母。
藏文信息处理的原理与应用电子版

藏文信息处理的原理与应用电子版
1. 藏文字符编码:将藏文字符映射为计算机能够处理的二进制编码,通常采用Unicode编码或其他自定义编码方案。
2.藏文文本分词:将藏文文本进行分词,将文本按照词语单位进行切分,方便后续处理。
3.藏文词性标注:对分词后的词语进行标注,判断其词性和语法功能。
4.藏文语言模型:建立基于藏文语料库的语言模型,用于进行自动语
言识别、句子生成等自然语言处理任务。
5.藏文文本分类与情感分析:利用机器学习技术对藏文文本进行分类
和情感分析,可以应用于舆情监测、情感分析等领域。
1.藏文机器翻译:将中文或其他语言的文本翻译成藏文,或者将藏文
翻译成其他语言。
2.藏文信息检索:实现对藏文文本的检索和索引,方便用户查找相关
信息。
3.藏文语音识别:将藏文声音转化为文字,实现对藏文语音的识别和
转录。
5.藏文文本挖掘与知识发现:通过对大规模藏文文本数据的分析和挖掘,发现其中的规律和知识,用于文本分析、情报分析等领域。
总之,藏文信息处理的原理和应用的电子化,可以帮助加速处理藏文
信息的效率和精确度,推动藏文信息化的发展。
面向信息处理的藏语虚词知识库构建研究

[ 收稿 日期]2 1 0 2—0 —2 1 5 [ 基金 项 目】教育部人文社科规 划项 目“ 语语法 结构描 写研究” 项 目号 0 Y A 4 0 9 .国家 社会 科学 基金 项 目 藏 ( 9 J 708 ) “ 语料 库的格萨尔史诗语言研究——以《 霍岭) 为例” 项 目号 :0 Z 3 ) ( 1 X W0 6 阶段性成果之一 .
第 3 卷 总第 8 3 6期
2 0 12 年 6 月
西 北 民 族 大 学 学 报( 自然 科 学 版 )
Vo , 3, o. l3 N 2
Junl f ot e n e i r aoatsNaua S i c) orao r w sU ir t f tnli ( trl c n e N h t v s y o N i ie e
其对藏语的短语和句法分析提供服务 . 因此, 建立一个虚词的知识库是藏语自然语言处理的一项基础工程 .
现代 汉语 虚词 的研 究成果 丰富 . 尤其是 汉语 自然语言 处 理过程 中建立 了包 括虚词 在 内的 各种 各样 的 语言知 识库 . 比如俞 士汶老 师 等的 《 现代 汉语语 法 信息字 典》 还有 刘 云 、 . 彭爽 和昝 红 英 等对 面 向机器
词 的语法 信 息研 究 ” . 等 1 藏语 虚 词知 识库 的构 建 1 1 藏 语 虚 词知识 库构 建 的 内容 .
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 3期
中文信息 学报
J OURNA L OF CHI NES NF E I 0RM ATI oN PR0CES I S NG
Vo .2 。No _ 1 4 .3
M ay。 Βιβλιοθήκη 1 002 1 年 5月 00
文 章 编 号 : 0 30 7 ( 0 0 0 - 140 1 0 —0 7 2 1 ) 30 2 —5
Ke r s:c p e pp ia in;Ch n s n or a in pr c s i g;Ti e a y wo d om ut ra lc to i e ei f m to o e sn b t n wor e m e a in; s gme a in i ; d s g nt to e nt to un t i o m a i oc s i g;prncpl fwor e nf r ton pr e sn i i eo d s gm e a i nt ton
中图 分类 号 :TP3 1 9 文献 标 识 码 :A
Re e r h o h e m e t to sa c n t eS g n a i n Uni o b t n W o d f r I f r a i n Pr c s i g t fTi e a r o n o m to o e sn
信 息 处 理 用 藏 文 分 词 单 位 研 究
关 白
( 西藏 大 学 计 算 机科 学 技 术 系 , 藏 拉 萨 8 0 0 ) 西 5 0 0
摘
要 : 词 单 位作 为分 词 系统 的基 本 单 位 , 研 究分 词 理论 的基 础 , 确 立 分 词 单 位 就 必 须 有 相 应 的 理 论 体 系。 分 是 要
G UAN i Ba ( p r me to mp t rS in e a d Te h o o y,Ti e ie st ,Lh s ,Ti e 5 0 0 ,C i a De a t n fCo u e ce c n c n l g b tUn v r iy aa b t8 0 0 hn )
该 文 结合 藏 文 已有 的 语 法 著作 和 汉 语语 义分 类体 系建 立 与 分 词 单 位 相 应 的词 类 划 分 体 系 ; 照《 讯 处 理 用 中 文 参 资
分 词 规 范 》 信 息 处 理 用现 代 汉 语 分词 规 范 》 和《 等标 准 , 藏 文文 本 语料 出发 , 立切 分 分 词 单 位 的 九 项 基 本 原 则和 从 建 三 项 辅助 原 则 , 以此 词 类 划 分体 系和 切 分 原 则 为理 论 依 据 对 藏 文 的分 词 单 位 进行 详 细说 明 。 关 键 词 ;计 算机 应 用 ; 中文 信 息 处 理 ; 文 分 词 ; 词单 位 ; 息处 理 ; 藏 分 信 分词 原 则
Ab t a t sr c :Th e me t t n u i i b sc u i o h e me t to y t m swela t e b ss f r wo d s g n a in e s g n a i n t s a i nt ft e s g n a i n s s e a l sh a i o r e me t t o o rs ac . e e r h .Th s p p rd s u s st es g n a i n u i o b t n wo d o h a i o u r n b t n g a i a e ic s e h e me t t n t fTi e a r n t e b ss f re t o c Tie a r mma h — rt e o y a d Chn s e n i fa wo k p cf al r n i e es ma t r me r .S e ii l c c y,wih r f r n e t Th rt ro fW o d S g n t t n f r i t e e e c o“ e C i i n o r e me aa i o — e o Ch n s n o ma i n P o e s g f o n u t t n ’ n e e I f r t r c s i rCo s la i )’a d“ eCrt r n o o d S g n a in f r M o e n C i e e I — o n f o Th i i f eo W r e me t t o d r h n s n o f r t n P o e sn ”e c h s p p rp o o e h i e b sc p i cp e n h e e o d r rn i ls t e me t o ma i r c s ig t ,t i a e r p s s t e n n a i rn i l s a d t r e s c n a y p i cp e o s g n o t e Ti e a r n t eb sso b t n c r u .Th b t n wo d s g n a in i u h re p an d i e al y t e h b t n wo d o h a i fTi e a o p s eTi e a r e me t t sf t e x l ie n d t i b h o p o o e e me tto rn i ls a d s ~ s a l h d Ti e a r ls . r p s d s g n a i n p i cp e n o e t b i e b t n wo d ca s s