基于变粒度原理的脱机手写体汉字识别决策信息系统的研究

合集下载

基于连接段数细化算法的脱机手写体数字识别

基于连接段数细化算法的脱机手写体数字识别
维普资讯
Jn 20 . o m . o S rl o u. 06 V l e3 N . ea N . ) u 6( i 1 9
通 和封算摊
Ju ao C mm n ao n o pt, S 14- 0 , S om if o u itn d m u rI N 87 9 U A ci a C e S 5 7
除了像素的遣缘黠以外,所有的像素鄙有 8 侗 郯接黠。它们之问的嘲系可以用圃 】 东表示 。 2 连接段数 ) 文章提 【的连 接段敷是用东描述像素的郝接 叶 J 黠 的逋通 状况 的 ,用 同 2东群知I 明造侗 定羲 文
l ( 1 + ) ( + ) ( 1 + ) , 1 1 , 1』 一 , +
固 1 像素 p / J 的郯接黠
黠 分布 的一些情 形 , 中 ae的情形 是 不能 删除 的 , —
l _ ff I g的情形是町以删除的 , 焉删除 黑 不影警 f 逋通 性 。
遑缘就是舆 1 象素黠相郯的 0 象素黠。遗缘侵触细 化算法就是循堞榆测簟道的遍缘 , 并且将遗缘象素
置届背景 ,直到所有的簟道都焉罩象素宽度。很多 现有的其他细化算法其寅雷也都是遗缘侵触 ,祗是
它寻找遍缘的方法是采用翰廓跟踪的方式 , 找, 直到重新回到 阴始的搜索黠【。遣些算法最大的缺 2 】
李 峰 ( 94 ),男, 16. 教授 ,博士 ,硕 士生尊{;研 究方向:固像 魔理 舆斌 别 ,信息安全。 币
4 8
维普资讯
基于逵接段数 细化算 法的脱楼手窝髓敷字裁别
31基 本概念 .
焉了算法捕述的简 ,封于二值化字符 像, 我们 定羞 以 畿侗 慨念 :
大 ,所以速度较慢。
2 -已有的细化算法及其缺 陷

手写体数字的识别

手写体数字的识别

手写体数字识别第一章绪论 (3)1.1课题研究的意义 (3)1.2国内外究动态目前水平 (4)1.3手写体数字识别简介 (4)1.4识别的技术难点 (5)1.5主要研究工作 (5)第二章手写体数字识别基本过程: (6)2.1手写体数字识别系统结构 (6)2.2分类器设计 (7)2.2.1 特征空间优化设计问题 (7)2.2.2分类器设计准则 (7)2.2.3分类器设计基本方法 (8)3.4 判别函数 (9)3.5训练与学习 (10)第三章贝叶斯方法应用于手写体数字识别 (10)3.1贝叶斯由来 (10)3.2贝叶斯公式 (11)3.3贝叶斯公式Bayes决策理论: (12)3.4贝叶斯应用于的手写体数字理论部分: (15)3.4.1.特征描述: (15)3.4.2最小错误分类器进行判别分类 (17)第四章手写体数字识别的设计流程及功能的具体实现 (18)4.1 手写体数字识别的流程图 (18)4.2具体功能实现方法如下: (19)结束语 (25)致谢词 (25)参考文献 (26)附录 (27)摘要数字识别就是通过计算机用数学技术方法来研究模式的自动处理和识别。

随着计算机技术的发展,人类对模式识别技术提出了更高的要求。

特别是对于大量己有的印刷资料和手稿,计算机自动识别输入己成为必须研究的课题,所以数字识别在文献检索、办公自动化、邮政系统、银行票据处理等方面有着广阔的应用前景。

对手写数字进行识别,首先将汉字图像进行处理,抽取主要表达特征并将特征与数字的代码存储在计算机中,这一过程叫做“训练”。

识别过程就是将输入的数字图像经处理后与计算机中的所有字进行比较,找出最相近的字就是识别结果。

本文主要介绍了数字识别的基本原理和手写的10个数字字符的识别系统的设计实现过程。

第一章介绍了数字识别学科的发展状况。

第二章手写体数字识别基本过程。

第三章贝叶斯方法应用于手写体数字识别。

第四章手写体数字识别的设计流程及功能的具体实现,并对实验结果做出简单的分析。

汉字联机手写识别系统的设计与实现

汉字联机手写识别系统的设计与实现
ABS TRACT : m t t e h n wr i g r c g i o mb d e y t m t o e o n t n r t n o r c g i o Ai a h a d i n e o nt n e e d d s se wi lw rc g i o ae a d lw e o t n t i h i n i
s e pe d,a mpr v d n — ln a dwrte Ch n s h r ce e o i o y t m s pr p s d. Fis , ea tc ,es i g ni oe o ie h n itn i e e c a a trr c g t n s se i o o e n i rt lsi m h n
论上介绍并分析 了弹性网格识别算法 和笔顺识别算法 , 接着将两种识 别算法 的优点 进行有机组合 , 采用最小二乘 法对输 入
的笔划进行线性拟合。算法在嵌入式 l u i x下进行仿真设 计并得 到了实现 , n 通过对仿真结果 的分析 , 明了结合后 的改进算 证
法达 到了提高手写识别率和识别 速率 。所采用 的方法对汉字手写体识别的研究有一定的借鉴和指导作用 。
第2 卷 第9 7 期
文 章 编 号 :0 6—94 ( 00)9—04 0 10 3821 0 25— 4



仿

21年9 0 0 月
汉 字ቤተ መጻሕፍቲ ባይዱ 机 手 写识 别 系统 的设 计 与 实现
胡 石 根 , 以 勤 陆
( 华南理工大学电子与信息学院 , 广东 广州 5 04 160) 摘 要: 针对嵌入式手写识别系统存 在识别率低 、 识别速率慢 的缺点 。研究 了一种 汉字联机手写识别 的改进算 法。首先从 理

大字符集脱机手写体汉字识别粗分类问题

大字符集脱机手写体汉字识别粗分类问题
法, 实践证明 , 该算法速度较快 , 效果较好( 如图 3所示 ) 。
0 引 言
随着计算机应用 的 日益普及 , 息 的 自动化输 入 已成 为 信 必然趋势 , 因此 , 实现手写体汉字 的 自动识别 无疑具有重要 的 实用价值 。目前汉字的印刷体识别 和联 机手 写体识别 问题都 得到 了很好 的解决 , 已有产品问世 , 并受到用户的欢迎 。对脱 机手写体汉字识别来说 , 由于字形变化大 、 稳定的特征难 以提 取、 结构信息难以利用等特 点 , 使得对 它 的识别 难度非 常大 , 目前仅在 小字符集方 面取得 了令人 满 意的成果 , 但对 大字符 集 来说 , 仍在进行研究 。针对大字符集汉 字数量多的问题 , 一 般 采用 多级分类 的方法 , 即先粗 分类 , 然后再 细分类 。本文 以 H L 00手写汉字库为基础 , 建了一个实验 系统 , C 20 构 对大字符 集脱机手 写体汉字识 别粗分类 中的一些 问题进行
图 3 索引表细化算法示例
13 特 征提 取 .
我们采用 了常见 的投影特 征 、 网格点阵特征 、 向线素特 方
征 和这几种特征构 成的组合 特征 。经 过预处理后 , 同的汉 不
1 系统 的设计 与实现
1 1 系统框架 .
个完整的脱机手写 体汉字识 别 系统 7个 部分组 成 , 其
总体框架如 图 1所示。
特殊的子类 , 该子类有 一个特 征类 容器 , 以存放各个 子类 的 可 指针 , 这样 , 容器 中不 同的子类指针组合就形成的不同的组合
图 1 大字符集脱机手写体汉字识别系统
特 征类 。
实验系统采用 V + 60设计 , C +. 硬件 平 台为 赛 扬 24 , . G

基于混合核函数的脱机手写汉字识别

基于混合核函数的脱机手写汉字识别

起来得到混合核函数来 识别手 写汉 字 , 收其 变 吸 形 。根 据 M re 条 件 不 难 证 明 对 于 不 同 的 核 函 ec r 数, 其非负线性组合仍然满足 M r r e e 条件 ¨ , c ]可以 作为一种新的核函数来实现支持向量机的汉字分 类, 函数
转 化 为其对 偶 问题 , : 即
1 f I /
支持 向量 机 (V 是 由 V pi S M) ank等人 在统 计 学
习理 论基 础上 提 出的 , 过结 构风 险最 小化 原理 来 通
m i n

ya ( z )一 i, ‘
() 4
提高 泛化推 广 能力 。文 献 [ ] 用 S M 分 类 器取 4利 V
维普资讯
第3 5卷( 0 7 第 l 20 ) 2期
计算机 与数字工程
2 5
基 于 混合 核 函数 的脱 机 手 写 汉 字 识别
张 凯 王建 平
合肥 20 0 ) 3 0 9 ( 合肥 工业 大学电气与 自动化工程学 院 摘 要
脱机手写汉字识别是模式识 别领 域 一项难题 。支持 向量机 ( V 也是近年来 发展起来并 成功的用 于模 式分 S M)
关键词 混 合 核 函数 T 3l P 9 支持 向量 机 手 写汉 字 识 别 中 图分 类 号
1 引 言
脱 机手 写 体 汉 字识 别 是 由计算 机 对 输 入 的手 写体 汉 字图像 进行识 别 , 主要 包括 汉 字 图像 的预处 理 , 征 提取 以及分 类决 策 三个 阶段 。在分 类决 策 特
( ・ ( )+b= W ) 0 () 1
其 中 ∈R ( 为 特 征 空 间 向 量 。这 里 最 优 的 , ) 含义足 指 所构造 的超 平 面 是 在 结 构 风 险最 小 化 的 基础 , 使两类 汉 字样本 分类 间 隔最 大 。可以证 明

(完整版)手写体数字识别系统设计毕业设计

(完整版)手写体数字识别系统设计毕业设计

石河子大学信息科学与技术学院毕业论文课题名称:手写体数字识别系统设计学生姓名:学号:学院:信息科学与技术学院专业年级:电子信息工程2007级指导教师:职称:完成日期:二○一一年六月十一日手写体数字识别系统设计学生:指导教师:[摘要] 随着科学技术的迅速发展,在邮政编码、统计报表、财务报表、银行票据等处理大量字符信息录入的场合,手写数字识别系统的应用需求越来越强烈,如何将数字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问题。

本文设计实现了一个基于Matlab软件的手写体数字识别系统,采用模块化设计方法,编写了摄像头输入、直接读取图片、写字板输入三个模块,利用摄像头等工具,将以文本形式存在的手写体数字输入进计算机,完成对手写体数字图片的采集,并设计了一种手写数字识别方法,对手写体数字图像进行预处理、结构特征提取、分类识别,最终以文本形式输出数字,从而实现手写体数字的识别。

[关键词] 预处理,结构特征提取,分类识别,手写体数字识别Handwritten Digit Recognition SystemStudents:Teacher:Abstract:With the rapid development of science and technology, in zip code, statistics, reports, financial statements, Bank bills dealing with a large number of characters, such as information recorded occasions, handwritten digit recognition system of requirement has become stronger and stronger, how easily and quickly the number entered in the computer has become a key issue relates to the popularization of computer technology. This article design implementation has a based on Matlab software of handwriting body digital recognition system, used module of design method, write has camera entered, and directly read pictures, and write Board entered three a module, using camera, tools, will to text form exists of handwriting body digital entered into computer, completed on handwriting body digital pictures of collection, and design has a handwriting digital recognition method, on handwriting body digital image for pretreatment, and structure features extraction, and classification recognition, eventually to text form output digital, to implementation handwriting body digital of recognition.Key words: Pretreatment, structure feature extraction, classification and recognition, handwritten digit recognition.目录第一章引言 (1)1.1课题背景 (1)1.2课题研究目的及意义 (2)1.2.1 手写体数字识别的研究目的 (2)1.2.2 手写体数字识别的研究意义 (3)1.3课题研究现状及发展趋势 (3)1.4课题整体结构 (5)1.5课题难点分析 (5)第二章开发运行环境 (6)2.1系统开发环境和运行环境 (6)2.2开发工具介绍 (6)2.2.1 硬件部分介绍 (6)2.2.2 软件部分介绍 (8)第三章手写体数字识别系统构成及原理 (10)3.1图像处理基础知识 (10)3.2手写体数字识别系统构成 (13)3.3手写体数字识别系统原理 (13)3.3.1预处理 (13)3.3.2图像分割 (17)3.3.3特征提取 (19)3.3.4分类识别 (20)第四章手写体数字识别系统设计分析 (21)4.1程序主界面 (21)4.2基准库的选择与建立 (23)4.3手写体数字识别系统设计 (23)4.3.1摄像头输入模块的设计 (23)4.3.2直接读图模块的设计 (25)4.3.3写字板输入模块的设计 (27)第五章系统性能评价及实验结果分析 (30)5.1识别系统性能的评价 (30)5.2实验结果分析 (31)第六章结论 (33)6.1毕业设计总结 (33)6.2课题前景与展望 (34)致谢 (37)参考文献 (37)附录 (39)附1、识别部分主程序 (39)附2、创建模板部分函数 (40)附3、切割图片部分函数 (42)附4、输出图片部分函数 (43)第一章引言1.1 课题背景数字已有数千年的历史,在世界上使用很广,然而,在当今社会里,如何快速高效地将数字输入计算机,已成为影响人机接口效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及应用[1]。

半连续隐马尔科夫模型脱机阿拉伯手写识别


30 5
武汉理工大学学报 ・ 信息 与管理工程版
2 1 年 6月 01
作, 但笔者直接对数据库 中的二值化 图像进行特 征抽取 , 这样既可以避免 由于一些预处理操作带 来 的误 差 , 可 以大量 节省 预处 理 的计 算 量 。 又
11 滑 动 窗 口 .
ห้องสมุดไป่ตู้
在 众 多 脱 机 字 符 识 别 系 统 中 , 度 、 构 和 凹度 梯 结 (rdetsutrl n ocvy G C) 征被 证 gai ,rc a adcnai , S 特 n t u t
处 理 一维 方 向上 的非线 性 失 真 。在 基 于 H MM 的 识 别 系统 中 , 主要 由于选 择采 用 的预处 理算 法 、 特 征 抽取 算 法 、 MM 模 型 参 数 和 后 处 理 算 法 的 不 H
训练
识别


, : 、 ,≮ 、 、 = = /

步骤如图像二值化 、 单词分割等在开发数据库 的 过程中已经 完成 。虽然在其 他文字识别 系统 中常采用纠偏、 细化和骨骼化等复杂的预处理操
收 稿 日期 :0 0—1 21 2—1. 2
作者简介 : 东 (9 6 , , 向 17 一) 男 湖北武汉人 , 武汉理工大学计算机科学与技术学院博士 基金项 目: 武汉理工大学 自主创新研究基金资助项 目
摘 要 : 出一种基 于半连续隐马尔科夫模型 的脱机 阿拉伯 手写识别系统。该系统采用滑动窗 口技术直接从 提 数 字图像提取像素密度和 凹度特征 , 没有复杂 的预处理 操作 , 每个 窗 口被划分为前 景像素数 目相 同的 4个 子 窗 口, 前后相邻 窗 口的重叠为窗 口宽度 的 12 且 特征 的维数 仅为 3 /, 6维 , 节约 了系统 的计算 量。采用半 连续 隐马尔科夫模型对字符进行建模 , 而词 的模型采用嵌入 式训练方法 , 无需对词进行 预先分 割 , 从而避免 了切分 引入的误差 。在 IN E I F / N T测试数据库上 的测试 结果表明 , 一个最佳输 出时平均识别率能够达到 8 . %。 66 关键 词 : 文字识别 ; 脱机 ;阿拉伯 手写 ; 半连续 隐马尔科 夫模 型

人工智能与模式识别

人工智能与模式识别摘要:信息技术的飞速发展使得人工智能的应用围变得越来越广,而模式识别作为其中的一个重要方面,一直是人工智能研究的重要方向。

在介绍人工智能和模式识别的相关知识的同时,对人工智能在模式识别中的应用进行了一定的论述。

模式识别是人类的一项基本智能,着20世纪40年代计算机的出现以及50年代人工智能的兴起,年代人工智能的兴起,模式识别技术有了长足的发展。

模式识别技术有了长足的发展。

模式识别技术有了长足的发展。

模式识别与统计学、模式识别与统计学、模式识别与统计学、心理心理学、语言学、计算机科学、生物学、控制论等都有关系。

它与人工智能、图像处理的研究有交叉关系。

模式识别的发展潜力巨大。

关键词:模式识别;数字识别;人脸识别中图分类号;Abstract : The rapid development of information technology makes the application of artificial intelligence become more and more widely. Pattern recognition, as one of the important aspects, has always been an important direction of artificial intelligence research. In the introduction of artificial intelligence and pattern recognition related knowledge at the same time, artificial intelligence in pattern recognition applications were discussed.Pattern recognition is a basic human intelligence, the emergence of the 20th century, 40 years of computer and the rise of artificial intelligence in the 1950s, pattern recognition technology has made great progress. Pattern recognition andstatistics, psychology, linguistics, computer science, biology, cybernetics and so have a relationship. It has a cross-correlation with artificial intelligence andimage processing. The potential of pattern recognition is huge.Key words: pattern recognition; digital recognition; face recognition;1引言随着计算机应用围不断的拓宽,我们对于计算机具有更加有效的感知“能力”,诸如对声音、文字、图像、温度以及震动等外界信息,这样就可以依靠计算机来对人类的生存环境进行数字化改造。

基于支持向量机的脱机手写体数字的识别


识别效果并不理想 。本文提 出 了基于支持 向量机 的脱机手 写
体数字识别方法,并 与神经 网络 LQ方法的识别效果进行 了 V
数,将测试数据尽可能正确地分类 。 对于训练样本在线性可分情况下就会存在一个分类超平面 X +b=0 W 进行 归范化使得线性可分样本集满足: () 1
器学 习理论和技术的发展 。
由统计学 习理论知 ,最优超 平面就是指训练样本集没有 被超 平面错误分 开, 并且距超 平面最近 的样本 数据与超平面
之间的距 离最大, 由此得到的判别函数:
f x =sn ( ) } ( ) g {W术 +b
() 3
1支持 向量机基本原理 . 支持 向量机 首先是从线性可分情况下 的最优 分类 面发展
( )引言 一
数字字符 的识别 (u e a e o n t o ) N m r lR c g i in 是模式识别学科 的一个传统研究领域 。在整个 数字识别领域 中,印刷体数字 和联机手写体数字 的识别都 己取得 了一定应用 ,而脱机手写
体数字的识别研究 目前还处于 实验阶段 。关于这个 问题 的研 究 ,已有不少学者涉及 ,其 中有分布特征分析法 、人 工神经 网络分析法 、主分量分析 法等 ,并取得 了一定 的成果 ,但是
维普资讯
20 0 7年 1 1月刊 ( 总第 9 9期 )
大 众 科 技
DA ZH0NG l KE J
2 0 .1 0 7 1
Байду номын сангаас
( muai l N .9 Cu l v y o9 ) te
基于支持 向量机 的脱机手 写体数字 的识别
张松 林 ,杨 航 ,潘 传 红
( 河南机 电高等专科学校 ,河南 新 乡 4 30 ) 50 2

模式识别综述及汉字识别的原理


0 引言 模 式识 别技术的研究 目的是根据 人的大脑的识别机理 , 通过计算机模拟,构造出能代替人完 成分 类和辨识 的任务, 进而进行 自 动信息处理的机器系统 。 模式识别技术在社会生 活和科学 研究 的许多方面有着 巨大的现实意义,已经在许多 领域得到了广泛应用。随着计算机技术和人工智能 、 思维科 学研究的迅速 发展,模式识 别技术正在 向更 高、 更深的层 次
方 面 的 应 用 原理 作 了介 绍 。 关 键 字 : 式识 别 系统:模 式 识 别 方 法:汉 字识 别 模 中 图分 类 号 :T 3 14 P 9 . 文 献标 识 码 :A 文 章 编 号 :1 7 — 7 2 (0 79 0 2 0 1 4 9 一 2 0 )— 1 - 3 6 0
然而随着神经网络模糊理论分形理论小波图二脱机手写体字符识别系统分析遗传算法的继续发展以及各种方法在模式识别领域的由于目前字符识别算法仍是以每个字符为一个识别单互相融合取长补短相信模式识别技术将会得有更大的发位因此首先要把单个字符的图像块从文本图像中分割出展
维普资讯
个模式识别系统 可分为四个主要部分, 其框图如图一
所示 :
磊 ●
两 个方面: 一是系统 设计, 二是系统的实现。 先需要从每 首

_垂]. H . 垂—= 【 三 { 口
图一
H — 一别找能表类样,为练,用些 L— 叫. 广 I I 类中出代该的本作训集利这样
竺 . 苎竺卜 本 行 类 的 计然 再 用 好 分 器 入 进 分 器 设 , 后 利 设计 的 类 对输 模
叫做测量空间,把分类识别赖 以进行 的空间叫做 特征空间 。
法结构识别方法 、模糊理 论识别方法 、神经 网络识别方法 、 模板匹配识别方法和支持向量机的识别方法, 最后介绍了汉
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于变粒度原理的脱机手写体汉字识别决策信息系统的研究

摘 要 基于粗糙集理论和变粒度原理的方法,构建了一种脱机手写体汉字识别决策信息系统,定义了该识别系统特征属性约简的几个性能指标熵。根据定义的汉字特征属性重要度对特征属性进行分类,使特征属性在单层次和单粒度上的知识表示变为部分属性所构成的知识在多种层次和多种粒度上的表示,并给出分层递阶约简算法,弥补了传统单粒度原理分辨率固定和约简不精的缺点。利用D-S证据理论对约简后手写体汉字识别决策信息系统的决策规则进行融合,可提高汉字识别率。实验结果表明,该方法是有效可行的。

【关键词】汉字识别 粗糙集 粒度原理 分层递阶约简 证据原理 1 引言 手写体汉字识别是超多类模式识别问题,由于手写体汉字具有汉字类别多、字体结构复杂、字形变化多、相似字多等特点,其识别被认为是模式识别领域中难题之一。其关键在于:如何建立较完备稳定的特征表示和提取方法,以及处理不确定、不精确和不完全性特征信息的识别决策机制。 手写体汉字识别中单一特征对手写体汉字识别往往具有局限性,难以满足手写体汉字的识别要求,采用多特征组合来表征汉字是提高手写体汉字识别的准确率的途径之一。如:文献[3]将矩变换与弹性网格方法结合起来,用正交矩提取全局特征,用弹性网格提取局部特征,然后用一变换对局部特征向量正交化,从而得到最有分辨能力的特征向量,以提高汉字识别率。文献[4]将特征融合应用到手写体汉字识别中,提取具有一定互补性的轮廓方向特征和方向距离分布特征,并进行K-L变换降维处理,用多特征合成一个区分能力更强的新特征。文献[5]在动态网格的手写汉字特征抽取方法中引入重叠网格划分,定义了一种反映书写结构的加权点密度,并提出了一种根据密度投影计算模糊隶属度的方法,提高了特征的分类能力,从而提高识别率。采用多特征组合方法可提高手写体汉字特征表示的较完备性和可识别率,但是,多特征组合集庞大,冗余特征多,带来的是特征的多重性和识别不确定性,一定程度上影响了识别结果,也降低了识别速度。 粗糙集理论是Z.Pawlak于1982年提出的一种新的处理模糊和不确定性知识的数学工具,目前已被广泛应用于机器学习、决策分析、模式识别、数据挖掘等研究领域[6]。本文基于粗糙集理论,构建脱机手写体汉字识别决策信息系统,同时引入变粒度原理,根据汉字特征属性重要度的定义对特征属性进行分类,使特征属性在单层次和单粒度上的知识表示变为部分属性所构成的知识在多种层次和多种粒度上的表示,并给出分层递阶约简算法,弥补了传统单粒度原理分辨率固定,约简不精的缺点。 另外,手写体汉字识别决策信息系统约简后的特征属性与样本汉字标准特征库难以获得完全的匹配,本文利用具有强大的和灵活的处理不确定性、不精确性和不完全性信息的D-S证据理论数学工具,对约简后的手写体汉字识别决策信息系统决策规则进行融合,实现对所有待识别汉字的识别。实验证明该方法对于提高手写体汉字识别系统的识别率十分有效。 2 构建脱机手写体汉字识别决策信息系统 2.1 脱机手写体汉字识别信息系统 根据粗糙集理论对广义论域信息系统的定义[8],对脱机手写体汉字识别信息系统可作如下定义。 定义1:设脱机手写体汉字识别信息系统为:S=(U,A,V,f)。其中:为待训练手写体汉字样本集;为所提取的手写体汉字特征属性集;是特征属性a的值域,即;为信息函数,即汉字样本集U与特征属性集A之间的映射集,通过映射的方法用低维特征的空间表征高维的手写体汉字样本,这种映射过程实际上就是特征提取。 2.2 脱机手写体汉字识别决策信息系统 人类在识字中往往采用有导师学习过程。因此,在脱机手写体汉字识别系统中,样本汉字的真实值可作为先验信息指导训练过程,即通过在手写体汉字识别信息系统S=(U,A,V,f)中加入样本汉字的真实属性D={d}构建脱机手写体汉字识别决策信息系统。 定义2:设手写体汉字识别决策信息系统为:S=(U,CD,V,f)。其中C={c1,c2,„,cn}为条件属性集,即所提取的手写体汉字样本特征属性集,D={d}为决策属性集,即样本汉字的真实属性,CD=A,CD=。记:,。 其中:RC表示特征属性集C中所有特征值相同的汉字样本组成的等价类,Rd表示真实值相同的汉字样本组成的等价类,这两种等价类分别对手写体汉字样本集U进行了划分。若RCRd,即特征属性对样本汉字的划分细于真实属性对样本汉字的划分,所选特征足以将样本汉字正确分类。称S=(U,CD,V,f)为脱机手写体汉字识别决策信息系统。 2.3 脱机手写体汉字识别决策信息系统特征约简集 手写体汉字识别通常采用多特征组合提取方式获取定义2中汉字识别决策信息系统条件属性集合,但多特征集庞大,冗余特征较多,一定程度上影响了识别结果,因此需要对高维手写体汉字识别决策信息系统S进行特征属性约简,去除冗余特征。其特征约简集可作如下定义。 定义3:设S=(U,CD,V,f)为手写体汉字决策信息系统,若存在特征子集BC满足下列两个条件:(1)RB=Rd,即特征子集B中所选特征足以将样本汉字正确分类;(2) ,即B中任何真子集都不足以将样本汉字正确分类,则称B为脱机手写体汉字决策信息系统S的特征约简集。 3 基于变粒度原理的特征属性分层约简及规则获取 3.1 几个性能指标熵的定义 根据粒度原理的相关知识,基本信息粒度函数不能完全反映整个划分(粒度)所代表的信息,因此可用粒度熵,即信息的平均信息粒度来表示[9]。对脱机手写体汉字识别决策信息系统特征属性约简的几个性能指标熵作如下定义。 定义4:设脱机手写体汉字识别决策信息系统S=(U,CD,V,f),RC为特征属性集C中所有特征值相同的汉字样本组成的等价类,Rd为真实值相同的汉字样本组成的等价类,可得到RC在U上的划分U/RC={X1,X2,„,Xn},及 Rd在U上的划分U/Rd={Y1,Y2,„,Ym},则手写体汉字特征属性知识粒度熵为: (1) 手写体汉字真实值决策属性知识粒度熵为: (2) 其中:I(U/RC)表示手写体汉字决策信息系统特征属性所提供的平均信息容量;I(U/Rd)表示手写体汉字决策信息系统决策属性所提供的平均识别信息容量。G(?)=|?||U|为基本知识粒度。i=1,2,„,n;j=1,2,„,m。 定义5:脱机手写体汉字决策信息系统真实决策属性相对于特征属性的相对粒度熵定义为: (3) 其中:D为汉字真实决策属性集,C为特征子集。G(Yi/Xi)=|YiXi| |Xi|,i=1,2,„,n;j=1,2,„,m。I(D/C)表示手写体汉字样本特征属性集C确定后手写体汉字识别决策信息系统残留的平均信息量。 定义6:脱机手写体汉字识别决策信息系统S=(U,CD,V,f),C为条件属性集,即所提取的手写体汉字样本特征集,D为决策属性集,即样本汉字的真实属性,特征子集BC,则任意特征属性c∈{C-B}相对于汉字真实决策属性集D的属性重要度定义为: (4) 上述定义表明特征属性c∈{C-B}关于特征属性子集B的重要性由在B中添加{c}后所引起的信息量的变化大小来度量。SGF(c,B,D)的值愈大,说明汉字特征属性c∈{C-B}对B愈重要,即对识别结果的影响越大。 3.2 属性约简及识别规则获取 根据特征属性相对重要度的概念,研究设计了一种基于特征属性相对重要度的分层递阶约简与识别规则获取算法。该算法根据汉字特征属性的重要度,对特征属性进行分层,使特征属性在单层次和单粒度上的知识表示变为部分特征属性所构成的知识集在多种层次和多种粒度上的表示,然后按特征属性重要度高低逐层进行属性约简,直到某层决策系统中决策属性唯一或到达底层无法向下分层为止。三层递阶约简流程实例如图1所示。 首先将特征属性重要度最高的特征属性归为第一层,与决策属性构成首层决策系统,对该层系统进行约简。如约简后决策属性唯一则直接输出匹配规则,如果不唯一,则继续建立次层决策系统。将特征属性重要度其次的特征属性归为第二层,与决策属性构成次层决策系统,重复约简识别步骤。以此类推,特征属性重要度最低的特征属性归为第三层,与决策属性构成次层决策系统进行识别。三层结构的特征递阶约简可以得到部分决策属性唯一的匹配规则,且得到简化的手写体汉字识别决策信息系统。 该算法弥补了传统单粒度分辨率单一,包含信息量固定,约简不精的缺点,使单层次上的问题求解转为知识层次由浅到深和知识粒度由粗到细的多种粒度多种层次的问题求解,可在知识较浅层次和较粗粒度上缩小汉字决策属性范围,或直接输出唯一决策值,减少了约简计算量,提高了约简速度。具体算法如下: 算法1:基于特征属性相对重要度的分层递阶约简算法。 输入:手写体汉字识别决策信息系统S=(U,CD,V,f),其中U={x1,x2,„,xn}为待训练手写体汉字样本集;C={c1,c2,„,cn}为所提取的手写体汉字样本特征集,即条件属性;D={d}为汉字的真实值,即决策属性集。 输出:属性约简集B和识别规则。 (1)属性分层。 ①由公式(3)分别计算手写体汉字决策信息系统的相对粒度熵I(D/{ci}),i=1,2,„,n。 ②令Bβ为使I(D/{ci})最大的特征属性,对分别按公式(4)计算SGF(ci,Bβ,D)并按递减顺序排列。 ③根据计算的特征属性重要度,将条件属性分成C1,C2,„,CM共M类,M一般取2―4,每类重要度递减。 (2)首层决策系统。 以条件属性C1和决策属性d构成首层决策系统,记作(U1,C1{d}),U1=U。 对首层决策系统进行约简,得到其简约,共包含n组规则。 (3)次层决策系统。 利用首层简约将U分为U21U22„U2n共n个论域,并且 在每个论域中,以条件属性C2和d的子集构成次层决策系统,分别记作。 对n个次层决策系统分别进行约简并得到n个次层决策系统的简约。当某层决策系统中的决策属性唯一时,将不再

相关文档
最新文档