手写藏文字符识别研究(黄鹤鸣, 马龙龙, 赵维纳)思维导图
藏文不自由虚词的自动识别研究

2 ) “ ” 栩 5 ” 是拉格助词
,
在虚词识别过程 中出现 以下规则 可
跳过。
≈
s 3 譬
(
)等・ 例如: 酶鬟 霉 s
( 能濠聃动词) 礴 等。 例如 :
3 ) “ ”葺 Q “ ”建离食诵 , 在盎调{ } l j 5 I l 进程串出现以下规则也霹瑞过 ・ ・
藏 文 不 自 由虚 词 的 自动 识 别 研 究
卓玛吉 安见 才让
摘 要 :本 文将通过传统藏文文法的语法规则 ,主要研 究藏文文本 中大量藏文不 自由虚 词的识别算 法,同时建立 了藏文 不 自由虚词 的 消岐规 则库 。使计算机快速地识别并消除藏文句子 中不 自由虚词的歧 义问题 。提 高藏 文 自动分词的准确 率。使 句子的 生产 、句法分析 、八 格 识 别 和机 器 翻译 等研 究 的基 础 更 扎 实 。 关 键 词 : 藏 文 不 自由虚 词 ; 自动 识 别 ;歧 艾 ;规 则 库
钢
等 四个虚词 外 ,其余 的 5 8 个
不 自由虚词在分词过程中都以单字词的形式 出现。 建立藏文虚词库 X C ;在 X C 库 中分别建立 b z y x c 和b z y x c 2 两 个表。在
表b z y x c 是不 自由虚词 中 “ 单 字词 ”类 虚词表 ( 如:
虚词表。
想:
c I 擎
等
倒如 : 争弹 l 峄 s 鞠
伪如: 争∞每
n
钠
倒如 : ㈣
’
1 )本课题 的研究根据传 统藏文文 法 ,结合最 大匹配 藏文分 词法 和 藏文树型分词法 ,在藏文 自动 分词过程 中与 自动 分词 同时 进行虚 词识
藏语文语转换系统关键技术的研究

2 藏 语 文 本 预 处 理
2 . 1 藏 文分词
藏 文分词 是 藏文信 息处 理 的一项基 础性 工作 。它
换系统 就显 得尤 为 重 要 。 同时 , 藏 语 文语 转 换 的实 现 将 会大 大 丰富藏 族地 区人 民 的生活 , 拓宽 信息 获取 、 发
布 和交 流 的渠道 , 对 藏 族 地 区 的社 会 稳 定 、 民族 团结 、 和谐进 步 有着重 要 意义 。
1 . 2 语音 合成历 史及 现状 回顾
是将 连 续 的藏 文文 本按 照一定 的算 法根 据藏 语语 法规 则切 分成 词 的过 程 。藏文 分 词 作 为语 音合 成 、 机 器 翻 译、 语 音识别 等研 究工作 的必 要前 提 , 在藏 文信 息处 理 领 域 很 是 重 要 。 下 面 本 文 就 藏 文 分 词 来 加 以 探 讨
行 了相关 文献 的研 究 和实 验 , 但 对 藏 语 语 音研 究 还 不
够深 入 , 国外对 藏语 语音 合成 方面 也未 曾有 相关报 告 。
答系统 , 电子邮件 的语音服务 以及残疾人语音辅助等
领 域 。藏语 文语转 换 系统 的研究 及应 用具 有很 重要 的 意义 , 尤其 是对 于藏 族地 区 的幼儿 和老人 , 藏语 文语 转
藏文分词方法跟其他语言分词方法类似, 都可以
用 基于 规则 的或 基于统 计 的方法 , 目前 , 作 者 阅读 过 的
诸 多文 献 中 , 处 理藏 文分 词 大 多 是用 基 于规 则 的正 向 最大 匹配上 加格 助词 的正 向最 大 匹配 , 另 外 有 逆 向的
在 2 0 世纪末 , 可训练 的语 音合 成 方法 诞 生 。而后 又
BP神经网络在脱机手写吾美藏文识别系统中的应用

1 引 言
目前 在我 国大 约有 50多万藏族 同胞 是使 用 藏 0 文的, 在他 们 的 日常 生活 中 , 大部 分还 是使 用传 统 绝
2 识 别 系统 设 计 方 案
2. 预 处 理 1
印刷体 文字 图像经 过 扫描 仪扫 描之 后得 到 了待
识别 图像 , 由于 在扫 描 的过 程 当中会 出现多 种 干扰 ,
第二步 , 为了使特 征数 变 少 , 需要 进 行特 征选 择 。本 文采用 降维 映射 法进行 特 征选 择 , 2 用模 板法 将 5个
初 步提取出的特 征值 进行 水平 投影 之后形 成 5个 特
对 于手写文字提取 了 5X 2 特征 , 过水 平投 5个 5= 经 影之后 只有 5个 特征 值 , 作为 神经 网络 的输 入 , 此 因 输入 节点为 5个 , 根据隐含层个数 大约为输 入节点 两 倍关系 , 隐含层取 1 O个节点 , 出层取 4个 节点 . 4 输 这 个输 出为 四位二进 制数 , 表神经 网络输 出 的数字 类 代
Ab t a t sr c : T e p p rman y d s u s d t e r c g i o e h i u s o f l e h n w t n Wu i o tsye h a e i l i s e e o n t n t c n q e fof i a d r t me n tl .A t r c h i -n i e f f e
sm lnm) a peu 函数 , 计算 步骤 如下 : 1 )正 向传播 输 出
2期
赵冬香 :P神经 网络 在脱 机手 写吾美 藏 文识别 系统 中的应用 B
5 1
2 )反 向传播 修正 权 值
藏文(含梵文)字丁自动识别方法研究

藏文(含梵文)字丁自动识别方法研究作者:完么才让来源:《卷宗》2015年第08期摘要:本文以《ISO/IEC 10646藏文编码字符集基本集》为参考,把其中除标点符号外的字符归类到字母集、主字集和元音集三个集合,再将测试文本中的藏文字符与三个集合逐一匹配的方法,准确识别(本文所讲识别,非OCR图形识别)出藏文字丁。
关键词:ISO/IEC 10646;音节;字丁;识别藏文字丁的准确识别是字丁频率、信息熵计算的前提,也是音节分类的基础,更是藏文识别必不可少的环节。
收录至中国知网的关于藏文字丁的几篇论文都未谈及藏文字丁的自动识别方法,本文从一下三个方面详细讲解藏文(含梵文)字丁的自动识别方法。
1 字母集、主字集和元音集把藏文unicode字符集中除标点符号等特殊字符外的其他字符分成字母集、主字集和元音集三个集合,分别用英文标记letter_set、main_char_set和vowels_set表示,则letter_set集合中的字符都无上加字,即字符上下均无main_char_set和vowels_set集合所示的空心圆圈,这类字符在实际文本中多作为字母出现,故将这类字符收录到字母集中。
相应地,main_char_set集合所含字符大都上有空心圈,结合时,附着在前一个字符的下面,把具有这个特征的字符收集到主字集中。
vowels_set集合中的字符都下附空心圆圈,表名这类字符在具体文本中充当元音,应收集到元音集中。
这三个集合是字丁识别的前提,以下内容中用L、M和V分别代表letter_set、main_char_set和vowels_set,Li、Mi和Vi表示对应集合中的任意元素。
2 藏文字丁的基本分类藏文字丁可分为六大类型,分别为:所有藏文字丁可归类到以上六种类型。
3 识别方法在有了集合的划分和字丁的基本分类后,即可依据如下所描述的方法识别出藏文字丁。
假设字符串变量Ttext存放待测试的藏文文本,字符串变量WR表示字丁。
藏文句子语义块识别方法

Qinghai Normal University, Xining, Qinghai 810008, China)
Abstract: Semantic understanding is an essential task in natural language understanding. Conventionally. grammar rule-based approaches including lexical and sentence analysis are leveraged to parse the semantic meaning of given text. In this work* we present a new method to address Tibetan sentence semantic parsing via semantic chunking. The semantic chunking is modeled by Bi-LSTM and ID-CNN neural network , respectively. In experiments, the proposed model shows a remarkable performance, achieving the average F)of 89% and 92%, respectively. Keywords: Tibetan; semantic chunk; semantic segmentation; semantic analysis
藏文联机手写识别的研究与实现

i mpl e me n t s i t . Fi r s t ,e a c h Ti b e t a n t e x t i s d e c o mp os e d i n t o v a r i o u s s u b p a t t e r ns ,a n d t h e n t h e s u b p a t t e n i r s f u r t h e r d i vi d e d i nt o
s t r o k e s .Th r o ug h t he i d e n t i i f c a t i o n of s t r o ke s a n d t h e c o r r e s p o n d i ng r u l e s o f e a c h Ti b e t a n c h a r a c t e r ,t he u s e r ’ s h a n d wr i t i n g c h a r a c t e r
ma r k i t ,a n d t h e n t h e s t r o k e i s d e t e r mi n e d. Be f o r e t h e i d e n t i ic f a t i o n,t h e s i mi l a r s t r o k e s a r e c l a s s i ie f d a n d me r g e d t o s o l ve t h e
藏文人名自动识别研究

藏文人名自动识别研究作者:娘本先安见才让来源:《电子技术与软件工程》2015年第19期摘要目前的藏文人名识别研究大多通过英语、汉语等语种的方法来研究藏文人名的识别,虽然有着较好的识别效果,但对人名的用词、构词特点及应用藏文文法规则对人名上下文信息特征的分析较浅。
本文提出了通过建立藏文人名构成词的成分属性词典,动态生成人名库,利用传统文法中人名上下文信息特征的文法规则建立藏文人名上下文指示词库对人名自动识别的方法。
【关键词】藏文人名自动识别动态人名库指示词在进行藏文自然语言处理时,分词与标注是藏语语言信息处理的基础内容,也是藏语词法分析的核心。
藏文人名识别作为藏文分词与标注系统的重要处理内容,目前的藏文分词与标注系统在处理含有藏文人名等未登录词时,其效果一般难以满足实际的需求。
而藏文人名在未登录词中占有较大的比重,也是未登录词识别的主要难点。
因此,藏文人名的自动识别对于藏文未登录词识别以及藏文自动分词与标注具有重要的意义。
1 藏文人名识别的研究现状及难点1.1 藏文人名识别的研究现状目前国内外针对人名的自动识别主要有三种:基于规则方法、统计方法以及规则与统计相结合的方法。
藏文人名自动识别研究也以上述三种方法为主要研究方法,加上藏文人名的上下文信息特征来识别藏文人名为主。
1.2 藏文人名识别的难点人名等命名实体识别发展至今在英文和中文领域已经取得了很大的成果,但是由于藏文人名自身的特殊性,使得藏文人名识别研究进展缓慢,藏文人名识别中的难点包括:(1)音节长度不固定。
按照藏族的传统命名方式藏文人名在起名时大多以3-4个音节结构较为普遍,但是由于在现实生活中对称呼的变化,藏文的音节长度最短的2个音节,最长可达26个音节。
(2)藏文人名本身并无明显的特征。
藏文人名不同于英文和汉文人名,如英文人名在文本中出现时首字母为大写,汉文人名一般采用“姓氏+名字”的命名方式。
藏文人名不存在大小写等形式上的特征,也没有严格意义上的姓氏。
基于深度学习的藏文手写字符识别研究

基于深度学习的藏文手写字符识别研究
师跃普 西热旦增 陈瑶 强巴旦增 西藏大学
摘要:深度学习经常被用来帮助计算机理解大量的图像、文本和声音等形式的信息。由于其包含多层类似人脑的感知器,它可以通过大量的数据 信息来学习,当在遇到类似情况的时候能够做出与之相适应的反应。本文主要通过构建和运用深度学习中的卷积神经网络来学习和认识藏文手写字符。
activations = tf.nn.relu(preactive,
name="activation")
池化层代码如下:
tf.nn.max_pool(x, ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1],
padding='SAME')
全连接层代码如下:
with _scope(name):
表 1 训练 20 次数据表
次数 准确率
次数 准确率
1 0.58
11 0.95
2 0.67
12 0.938
3 0.72
13 0.91
4 0.83
14 0.9201
5 0.80
15 0.92
6 0.85
16 0.91
7 0.89
17 0.911
8
9
10
0.94 0.93 0.902
பைடு நூலகம்
18 19 20
0.902 0.8984 0.93
with _scope("weights"): W = init_weights(shape)
with _scope("biases"): b = init_bias([shape[3]])