基于深度学习的藏文分词关键技术研究[]

合集下载

藏文自动分词技术研究综述

藏文自动分词技术研究综述

1藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。

在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。

而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。

而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。

因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。

在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。

而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。

目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。

因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。

进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。

2国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。

比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1];2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。

此外,祁坤钰提出了切分与格框架、标注一体化的藏语三级切分体系的藏文分词方法[3];才智杰实现了一种藏文分词方法,并首次提出了基于规则的方法“还原法”来处理藏语分词中紧缩词识别问题等[3]。

藏文自动分词技术研究综述

藏文自动分词技术研究综述

1 藏 文 自动分词的主要意义
目前 的藏文分词处 理通 常都是首先 由计算机 对藏文文本进行 自
动分词 .然后再对分词结果 附以人工校对。但无论是计算机 自动分词
分词其实就是按照一 定的标 准或规范将一 系列 连续的字序列重 还是人工校对 .前提是都需要符合一定的分词标准或规范 以保证分词 新划分成词序 列的过程 。在英文中,单词之间是 以空格作为 自然分界 结果 的正确性 .从而也 为藏文信息处理的后续 工作提供统一 的输入 。 符的,因此在词的理解上较为直观 ,它直接跨越 了分词这一处理过程 。 但 即使 如此 .也并 不能完全保证分词结果 的正 确性 ,因为藏文 自动分
的应用和发展 。进而 .藏文 自动分词技术 的研究与发展也即将对藏族 采用最大概率方法来 消解交集型歧义 .主要 利用词频信息来找 出最佳
人民的生 活 、学 习和工作等具有积极 的作用和重要的意义。
的切分结果 但是由于高频单音节对切分结 果的影 响,有 时也往往无
2 国内藏文 自动分词的研 究现状
而藏文的词与词之间是不具备任何形式的分界符的 .这便 给藏文 的信 词还面临着两个 最大的困难 :一是歧义切分 问题 ,二是未登 录词识 别
息处理增加了一定的难 度。而一段藏文在经过分词后 。如果让计算机 问题 。
来处理这样一段 由词组 成的藏 文句子 .它首先需要对句 子的词法进行 4.1 歧义切分 问题
分析 .然后才能够进一步去理解整个句子的具体含义。因此 ,藏文词的
在藏文信息处理_ T作 中显得尤为重要
式的字段 .称为分词歧义字段 。针对分词 中的歧义现象 ,人们从不同
在保障词的正确切分过程 中.如果仅仅通过人l丁的方式进 行分词 的角度提 出了不 同的分类方式 。从歧义字段的主要 构成形 式来分 ,藏 处理 .显然是一个庞大而复杂 的过程 .并且会存在许 多的弊端 。而在飞 文分词 中歧义分为两种:一种是交集型歧义字段 .另一种是组合型歧

藏文自动分词技术研究综述

藏文自动分词技术研究综述

藏文自动分词技术研究综述作者:于诗画赵小兵来源:《科技视界》2016年第06期【摘要】藏文分词是藏文信息处理中最为基础却又十分重要的工作,而藏文的自动分词是提高藏文信息处理工作效率的重要技术。

本文主要从藏文自动分词的意义、国内研究现状、分词方法以及目前所面临的主要问题等方面来简单阐述藏文自动分词技术的相关内容。

【关键词】分词;藏文分词;分词方法1 藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。

在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。

而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。

而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。

因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。

在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。

而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。

目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。

因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。

进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。

2 国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。

比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1]; 2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。

藏文文本分类技术研究综述

藏文文本分类技术研究综述

藏文文本分类技术研究综述作者:苏慧婧群诺来源:《电脑知识与技术》2021年第04期摘要:该文介绍了藏文文本分类技术的研究与进展。

首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。

关键词:藏文文本分类;文本表示;特征选择;机器学习中图分类号: TP391 文献标识码:A文章编号:1009-3044(2021)04-0190-03Abstract :This article introduces the research and development of Tibetan text classification technology. First, it analyzes and compares the commonly used text representation and text feature selection methods at this stage, then reviews the characteristics of Tibetan classification algorithms in machine learning, and discusses the application of different algorithms in Tibetan text classification technology. Finally, it points out the current problems and challenges of Tibetan text classification, and puts forward suggestions for future research.Key words :Tibetan text classification; text representation; feature selection; machine learning自然語言是人们日常使用的语言,是人类学习生活的重要工具。

基于KNN算法的藏文文本分类关键技术研究

基于KNN算法的藏文文本分类关键技术研究
第3 2卷总 第 8 3期
2 011年 9 月
西 北 民 族 大 学 学 报( 自然 科 学 版 )
Vo . 2 No 3 13 . .
Ju ao N r w su i rt f aoatsNaua S i c) or lf ot e n e i r tnli ( trl c n e n h t v sy o N i i e e
好的解决办法 . 一般做法是采用不同的 K值进行一系列实验之后选取合适的值 .
K N算法的分类方式是通过查询类似文档的分类情况, N 来判断新文档与 已知文档是否属于同一类 别 . 算法 的基 本 思想 是 : 定 一个新 文本 , 该 给 由算法 搜 索模 式 空 间即训 练文 本集 , 出与 新 文本 距 离最 找
D c met rq e c ) o u n eu ny . F
22 T . F—I F权 重 计算公 式 D

25 —
中文特 征项权 值 的计算 方法 有很 多种 , r算法 、d 算法 、f dt算 法和 muulnomain算法 如 f if t*i 6 f1 taifr t o
法[ 、 持 向 量 机 ( u pr Vetr pot c cie S o 算 坞一0 决 ] Deio re D 方 s
法[ 卜。 和神经 网络( erl e ok, N) N ua N t rsN 方法[ ] . w 。 等 本论文主要对藏文文本分类算法 K N算法进 。 N
个藏文文本表示成空间向量的形式, 并以特征项作为藏文文本表示的基本单位 . 向量的各维对应藏文 文本 中的一个特征项, 而每一维本身则表示了其对应的特征项在该藏文文本 中的权值 . 权值代表了特
[ 收稿 日期 ] 01 0 — 8 2 1 — 7 2

藏文词向量技术研究综述

藏文词向量技术研究综述

本栏目责任编辑:梁书计算机工程应用技术藏文词向量技术研究综述索朗拉姆,群诺(西藏大学信息科学技术学院,西藏拉萨850000)摘要:当前伴随社会的发展,此时在NLP 中也普遍使用到了深度学习。

截至目前,很多学者都将对深度学习模型以及词向量相融合进行了相关的研究和分析。

由于藏文涵盖了丰富的信息,在藏文词向量的研究工作中有很大的作用,且藏文词向量问题将能更深层次地解决藏文句法和语义等问题,因此藏文词向量方面恶的研究工作是非常有意义的。

文章首先对藏文字(词)的构建做了详细叙述,然后较全面地阐述了藏文词向量技术研究。

本文的最后环节就是最后对于未来藏文词向量技术方面的进步提供一些本人的建议和看法。

关键词:自然语言处理;词向量;藏文中图分类号:TP183文献标识码:A文章编号:1009-3044(2021)11-0226-03开放科学(资源服务)标识码(OSID ):Survey of the Research on Tibetan Word Vector Technology SUO Lang La Mu ,QUN Nuo(Tibet University,School of Information Science and Technology,Lhasa 850000,China)Abstract:With the development of society,deep learning is also widely used in NLP.Up to now,many scholars have conducted rel⁃evant research and analysis on deep learning model and word vector fusion.Since Tibetan contains a wealth of information,it plays an important role in the study of vector of Tibetan words,and the vector of Tibetan words can solve the syntactic and semantic prob⁃lems in a deeper level,so the research on vector of Tibetan words is of great significance.This paper first gives a detailed descrip⁃tion of the construction of Tibetan words and then describes the research on vector technology of Tibetan words in a comprehensive way.The last part of this paper is to provide some Suggestions and views on the future progress of Vector technology of Tibetan words.Key words:natural language processing ;word vector ;tibetan在处理自然语言过程中,最为基础的处理单元指的就是词,以词向量为观察对象其被称作是词嵌入,这本身也作为机内表示形式的一种,为了能够让计算机更好且便捷的理解,这种表示方法主要进行自然语言任务处理的关键工具。

藏文信息处理技术的研究现状及展望

藏文信息处理技术的研究现状及展望

藏文信息处理技术的研究现状及展望引言藏文(Tibetan script)是藏语族语言的书写系统,使用于藏区地区,包括中国的西藏、青海、四川等地以及印度、尼泊尔等国家。

随着信息技术的快速发展,对藏文信息处理技术的研究也日益受到关注。

本文将探讨藏文信息处理技术的研究现状,并对未来的发展进行展望。

藏文文字特点及相关问题字符结构与排列方式藏文的文字由字母组成,具有特殊的字符结构和排列方式。

它采用垂直书写方式,并且是从左向右排列。

每个字母可分为头部、主干、尾部及下图四个部分,不同于其他文字系统,这种特殊的字符结构带来了一些处理问题。

字符数量与复杂性藏文字符数量众多,超过了其他许多语言文字系统。

藏文字母的数量超过30个,字母的排列方式和组合方式形成了丰富的词汇和句法结构。

这种复杂性增加了对藏文信息处理技术的挑战。

文字识别与分割由于藏文文字的字符结构特殊性,对于藏文文字的识别和分割是一项重要的任务。

很多研究者致力于开发基于机器学习的藏文文字识别系统,以提高自动处理藏文文本的效率和准确性。

藏文信息处理技术的研究现状藏文文字识别技术藏文文字识别技术是近年来研究热点之一。

研究者通过设计和使用神经网络、深度学习、图像处理等方法和算法,尝试将藏文文本从图像中自动提取出来。

这项技术对于藏文信息的电子化、搜索引擎优化等方面具有重要意义。

自然语言处理技术在藏文信息处理中的应用自然语言处理(Natural Language Processing,NLP)技术在藏文信息处理中具有重要的应用价值。

NLP技术可以用于藏文文本的分词、词性标注、句法分析等方面,提高对藏文文本的理解和处理能力。

研究者通过开发和应用NLP算法,试图解决藏文信息处理中的一些问题。

机器翻译技术的发展机器翻译技术用于将一种语言的文本自动转化为另一种语言的文本。

在藏文信息处理中,机器翻译技术被广泛应用于将藏文文本翻译成其他语言的文本,以方便不懂藏文的用户进行阅读和理解。

基于深度学习的藏文分词方法

基于深度学习的藏文分词方法

2018年1月计算机工程与设计Ja n.2018第 39 卷第1 期 C O M P U T E R E N G IN E E R IN G A N D D E S I G N V o l.39 N o.1基于深度学习的藏文分词方法李博涵12 !刘汇丹龙从军13 !吴健1(1.中国科学院软件研究所,北京100190# 2.中国科学院大学计算机与控制学院,北京100049#3.中国社会科学院民族学与人类学研究所,北京100081)摘要:重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(R N N)、双向循环神经网络(B iR N N)、层叠循环神经网络(S ta c k e d R N N)、长短期记忆模型(L S T M)和编码器-标注器长短期记忆模型(E n c o d e r-L a b e le r L S T M)。

多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93. 13%。

关键词:深度学习#藏文分词#循环神经网络#长短期记忆#编码器-标注器中图法分类号!T P391 文献标识号:A文章编号% 1000-7024 (2018) 01-0194-05d o i: 10. 16208!.is s n l000-7024. 2018.01.034T ib e ta n w ord seg m en tatio n based on deep learningLI Bo-h a n1’2,LIU H u i-d a n1,LONG Cong-j u n1’3,WU J ia n1(1.In s t it u te o f S o ftw a r e,C h in e se A c a d e m y o f S ciences,B e-in g 100190,C h in a#2.S ch o o l o f C o m p u te r and C o n tro l E n g in e e rin g,U n iv e r s ity o f C h in e se A c a d e m y o f S ciences,B e-in g103.In s titu te o f E th n o lo g y a n d A n th r o p o lo g y,C h in e se A c a d e m y o f S o cia l S ciences,B e-in g100081,C h in a)A b s tra c t:T h e a p p lic a tio n o f deep le a rn in g on T ib e ta n w o rd se g m e n ta tio n w as s tu d ie d.S evera w e re im p le m e n te d,in c lu d in g re c u rre n t n e u ra l n e tw o r k,b i-d ire c tio n a l re c u rre n t n e u ra l n e tw o rk’ sta cke d re c u rre n t n e u ra l n e--w o r k,lo n g s h o rt-te rm m e m o ry n e tw o rk and e n c o d e r-la b e le r lo n g s h o rt-te rm m e m o ry n e tw o rk.T h e se w r itte n s ty le co rp u s,in c lu d in g le g a l te x t,g o v e rn m e n t d o cu m e n ts and n e w s.E x p e rim e n ta l re s u lts s h o w th a t th e e n co d e r-la b e le r lo n g s h o rt-te rm m e m o ry n e tw o rk achieves t h e b e s t re s u lts,th e p re c is io n’ re c a ll and F va lu e reach 92. 96%’ 93. 30%and 93. 13%re s p e c tiv e ly.K e y w o rd s:deep le a r n in g#T ib e ta n w o rd s e g m e n ta tio n#re c u rre n t n e u ra l n e tw o r k#lo n g s h o rt-te rm m e m o ry#e n co d e#引言近年来,深度学习技术在自然语言处理领域也越来越 受到重视,并逐渐应用于分词、词性标注、语义理解、机 器翻译等自然语言处理的任务中。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于深度学习的藏文分词关键技术研究[ ]摘要:藏语信息化处理对于藏语的传承与发展具有重要意义。

目前我国对于藏语信息化研究已经具有较高水平。

其中,藏文分词是藏文信息处理的基础任务,受到藏文研究人员的广泛关注。

现阶段,在藏文分词任务中,主要的研究方法从传统的方法(字符串匹配和统计分词)转向深度学习。

本文结合传统方法和深度学习的优势,提出了基于条件随机场(CRF)和自注意机制(Self-Attention)的藏文分词算法Self-Attention CRF。

通过藏文分词数据集,并进行实验,本文的算法在精准率提升了1.9%、召回率提升了1.2%、F1分数指标提升了3.2%。

关键词:藏文信息化;藏文分词;深度学习;条件随机场;自注意力机制1.引言藏族文字(藏文)作为历史悠久的文字,用独特的书写符号记录和传承珍贵的藏族文化。

现阶段,随着数字化、信息化时代的到来,藏文信息化使得藏文研究换发出新的生命力。

藏文分词是藏文信息处理的基础和前提[1]。

而藏文与汉语在语法上存在较大差异,因此,需要针对藏文的特殊语法结构设计分词算法。

传统的藏文分词方法有字符串匹配方法和统计分词方法,取得了较为理想的分词效率和分词结果。

随着深度学习和藏语语料的不断发展,基于深度学习的[2,3,4]藏文分词方法获得了较大关注。

但是,现有分词方法存在以下局限:(1)传统藏文分词方法精度上低于深度学习方法;(2)深度学习的分词方法, 以循环神经网络(Recurrent neural network,RNN)[5]和长短期记忆网络(Long short-term memory, LSTM)[6]为例,训练效率较低,下一个分词结果需要等待前一个结果输出。

并且,该模型无法更大范围获得上下文信息。

因此,本文基于现有藏文分词方法,结合传统方法的和深度学习方法的优势,克服以上局限,主要贡献如下:(1)构建藏文分词数据集;(2)引入自注意力机制self-attention [7],并行提取藏文文本信息;(3)提出基于条件随机场CRF[8]和自注意机制self-attention[7]的藏文分词算法,进一步提升藏文的分词模型的精度和效率。

2.相关工作本节将具体介绍藏文分词的两类方法:传统分词方法和基于深度学习的分词方法。

2.1传统分词方法我们将传统分词方法分为基于字符串匹配和基于统计的分词方法。

2.1.1 字符串匹配方法基于字符串匹配的分词算法又称作机械分词方法。

该方法按照一定的滑动(扫描)方式将待分词的句子中的词条与语料库中的词进行匹配,然后返回分词结果。

以正向最大匹配算法为例:首先需要给定一个最大的词条长度,假设定义最大词条长度(滑动窗口的长度)为max_num=3,我们首先取出句子的前3个字符,看前3个字符是否存在于词库中,如果存在,则返回第一个分词,滑动窗口向后滑动3个位置;如果不存在,我们把滑动窗口从右向左缩小1,判断前两个字符是否存在于词库,如果存在,则返回这个分词,滑动窗口向后滑动2,不存在则继续缩小滑动窗口......直至将整个句子遍历完,就得到了最后的分词结果。

2.1.2 统计分词的方法在基于统计的分词方法应用统计学习模型,分析分词(词语切分)规律,实现对藏文文本的分词过程。

基于统计分词的方法的关键步骤为:(1)按照统计模型得出分词结果;(2)在分词结果中得出概率最高(结果)最好的模型。

目前,基于统计的分词方法有:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model ,HMM)[40],最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。

2.2基于神经网络的分词方法基于神经网络的方法在自然语言处理中,以循环神经网络(RNN)模型为主。

RNN模型是基于过去的输入和当前的输入,预测下一个输出结果。

RNN模型在藏语分词任务重取得了较好的结果。

但是对于长文本分词任务效果不佳。

随后,基于Long short-term memory(LSTM)的方法有效的解决了该问题。

综上:传统的分词方法和基于神经网络的分词方法各具优势。

本文研究如何结合两类方法的优势,设计精度和准确率更高的藏文分词算法。

3.方法设计本节主要介绍基于基于条件随机场(CRF)和自注意机制(Self-Attention)的藏文分词算法(如图1所示)。

图1 藏文分词算法CRF-Attention架构图3.1藏文数据集构建本文研究的藏文数据是通过网络爬取工具爬取藏文数据。

然后通过人工校验进行人工分词和表述。

因此,本文所构建的藏文数据集包含11215条藏文文本数据集。

我们将其命名为Tibetan-Words.3.2分词算法Self-Attention CRF本文设计的分词算法为:基于条件随机场和自注意机制的藏文分词算法(CRF-Attention)(架构图如图1所示)。

因此,CRF-Attention算法分为两个模块:CRL和Self-Attention。

3.2.1 Self-Attention模块(1)词向量初始化首先我们应用词向量(word2vec)算法,将输入的藏文文本转为词向量。

并且,由于word2vec不包含词向量的位置信心,在中增加词向量的位置信息。

其中,是每个词的位置向量。

(2)自注意力机制(Self-Attention)在Self-Attention模块中,使用点乘计算词向量之间的相关性。

例如,输入的词向量是X,每个单位应用向量乘法,初始化关键向量Key (K),查询向量Query (Q),评估向量V (V):(1)然后,通过注意力机制获得嵌入向量:(2)最后,通过前馈神经网络( feed-forward neural network, FFN)生成最后输出向量Z:Z= FFN(按照以上计算过程,输入藏文词向量被依次转为基于注意力机制的向量表示。

(3)多头自注意机制(Multi-headed Self-attention)为了提升注意力机制的性能,我们引入多头自注意力机制(Multi-headed Self-attention),希望基于相同的注意力机制学习到不同的词嵌入表达。

并且,将不同的自注意机制的词向量连接组合。

我们的目标是创建一个上下文向量作为注意力模型的输出。

因此,要将各个注意力头产生的上下文向量被连接成一个向量。

本文采用4头注意力,也就是四组自注意力机制Self-attention的组合。

= Concat(3.2.2 CRF 模块在Self-Attention模块后,我们设计对接基于条件随机场(CRF)的模块,选择概率最大的分词位置。

CRF模块是一个基于标注方法的序列化模块,输入一组藏文词向量序列。

输出具体藏文分词的位置。

如图2所示,X代表输入序列,Y代表输出序列。

进入CRF模块的X是Self-Attention模块的输出。

Y是在随机变量条件和X的输入条件下的最后概率分布结果:P(Y|X)。

图2 CRF处理过程3.3实验结果3.3.1 实验环境本文所进行的实验环境为操作系统:Ubuntu 18.04,Python 3.8,深度学习框架为Pytorch。

服务器处理器(CPU)是英特尔i7处理器,GPU是英伟达 GGeForce RTX 3080。

3.3.2 评价指标本节介绍本文藏文分词具体评价指标精准率、召回率和F1分数。

首先我们从误差矩阵开始介绍。

误差矩阵也叫混淆矩阵(confusion matrix),不同的侧面反映了分类任务的精度。

实际上,在分类任务中,通过比较预测结果和实际结果,获得对整个分类任务的评价和衡量结构。

对于本文中的藏文分词任务,我们实际上是一个二分类系统,输入的结果是加入分词符号,或者不加入分词符号。

因此,对于一个关于加入分词符号的二分类系统,我们把结果分为两类:正类(Positive)、负类(Negative),则结果分类器有四种分类结果:TP(True Positive):正确的正例,一个实例是正类并且也被判定成正类FN(False Negative):错误的反例,漏报,本为正类但判定为假类FP(False Positive):错误的正例,误报,本为假类但判定为正类TN(True Negative):正确的反例,一个实例是假类并且也被判定成假类在本文中,我们应用的评价指标有:(1)精准率:即正确预测为正的占全部预测为正的比例(2)召回率:正确预测为正的占全部实际为正的比例(3)F1分数:一般来说,精确度和召回率之间是矛盾的,这里引入F1-Score作为综合指标,就是为了平衡准确率和召回率的影响,较为全面地评价藏文分词模型。

因此,需要综合考虑精确率(Precision)和召回率(Recall)的结果,较为全面地评价一个分类器。

F1是精确率和召回率的调和平均。

F1-score 越大说明模型质量更高。

3.3.3 实验结果本文在基于Self-Attention和CRF模块的分词算法Self-Attention CRF,在Tibetan-Words数据集上进行藏文分词。

我们应用RNN、RNN CRF、LSTM、LSTM CRF、作为基线算法。

如表1所示:模型名称准确率(%)召回率(%)F1分数(%)RNN89.290.189.6 RNN CRF87.687.287.3 LSTM89.988.990.4 LSTM CRF8787.687.6 Self-Attention CRF91.891.293.2表1 藏文分词结果我们可以看到本文提出的Self-Attention CRF的模型具有明显的优势:其中精准率提升了1.9%、召回率提升了1.2%、F1分数指标提升了3.2%。

5. 结束语本文首先分析了现有藏文分词算法的优势和劣势。

通过结合传统分词方法和深度学习的分词方法的优势,提出了基于基于条件随机场(CRF)和自注意机制(Self-Attention)的藏文分词算法Self-Attention CRF。

并且,建立藏文分词数据集。

Self-Attention CRF算法在本文所建立的藏文分词数据集上,对于藏文分词的结果进行全面提升。

参考文献:[1] 关白.信息处理用藏文分词单位研究[J].中文信息学报,2010,24(03):124-128.[2] 游治勇. 基于字的分词方法的研究与实现[D].电子科技大学,2015.[3] Xue N. Chinese word segmentation as character tagging[C]. International Journal ofComputational Linguistics & Chinese Language Processing, Volume 8, Number 1, February2003: Special Issue on Word Formation and Chinese Language Processing. 2003: 29-48.[4] Mnih V, Heess N, GravesA. Recurrent models of visual attention[J].Advances in neuralinformation processing systems, 2014, 27.[5] Dyer C, Kuncoro A, Ballesteros M, et al. Recurrent neural network grammars[J]. arXiv preprintarXiv:1602.07776, 2016.[6] Hochreiter, Sepp, Schmidhuber, et al. Long short-termmemory.[J]. Neural Computation, 1997.[7] Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need[J]. Advances in neuralinformation processing systems, 2017, 30.[8] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models forsegmenting and labeling sequence data[J]. 2001.基金项目:青海省重点研发与转化计划—科技成果转化专项项目“‘云藏’高效爬虫及检索系统优化与集成”(2020-GX-164)。

相关文档
最新文档