基于卷积降噪自编码器的藏文历史文献版面分析方法
去噪自编码深度卷积网络实战——地震去噪实战案例讲解

去噪自编码深度卷积网络实战——地震去噪实战案例讲解很多同学都有个疑问:前面一直都是对理想数据进行处理,这样有多大用处呢?那用在实际中是怎样应用的呢?第一节课我们讲过,自编码可以用在预训练、自动创作、自动填充、去除噪声、数据降维等等方向。
今天我们就从最常见的降噪这项应用开始讲解。
一、降噪自动编码的由来降噪自动编码器(Denoising AutoEncoder)最初的应用是为了让自动编码网络有更强的鲁棒性(Robust)。
这是什么原理呢?就是将原始的完整数据以一定概率分布(通常使用二项分布)去擦除,然后将处理后的结果作为输入的训练数据。
这样训练出来的网络抗干扰能力更强,预测的结果往往更好。
就比如下图:原始的数据是x,首先我们随机的去掉了x中的两个数据形成了x’,然后我们用这个有破损(术语叫Corruputed)的数据x’作为训练数据来训练自编码网络y,训练过程中计算出的结果是z,然后将z与原始x做误差迭代不断优化网络y。
最后训练出来的y就有了更好的性能。
为什么训练破损的数据更能激发网络的鲁棒性呢?有论文解释说神经网络通过从破损数据中学习到有效特征数据,从而恢复完整的数据。
这个训练过程是增强了神经网络特征提取的能力。
就是说学习破损数据的过程相当于一个简化的PCA,本质是进行降维提取。
而降维就是神经网络最擅长的工作之一。
二、降噪自动编码在地震去噪领域的应用前面提到了通过训练破损的数据,可以提高自编码网络学习能力。
那含有噪声的数据,也是一种破损的数据,同样可以使用自编码网络进行降噪处理。
在地震勘探领域,伴随地震数据采集过程中,由于人为或环境因素的影响,不可避免地会引入随机噪声。
受污染的地震资料严重影响了后续的地震资料处理和成像。
因此,抑制随机噪声可以有效地提高地震资料的信噪比,有利于提高成像质量。
比如我们常常会将左图的含噪数据进行降噪处理,变成右图的样子。
自编码网络天生就有很强的特征信息提取能力,因此特别适合降噪的处理这一类的应用。
基于内容的藏文古籍文献学特征检索方法

基于内容的藏文古籍文献学特征检索方法摘要:针对目前基于关键词的藏文古籍文献学特征检索需要大量著录人力、专业的辨识能力和缺乏定量标准的问题,本文将基于内容的图像检索技术引入到藏文古籍文献学特征检索中,即采用“以图搜图”的方法在藏文古籍图像数据库中检索与模板图像具有相同或相似文献学特征的图像。
实验在所构建的5个藏文古籍文献学特征数据集和7种基于内容的图像检索技术特征提取算法上进行,证明了方法的可行性。
该方法可为在海量文献图像数据库中的文献学特征检索问题提供有益参考。
关键词:藏文古籍;文献学特征;基于内容的图像检索;深度学习1引言在文献学学科中,墨种、字体类型、文献载体、装订形式,甚至污损程度、版面残缺程度等特征,被称为文献学特征。
藏文古籍中的文献学特征往往是藏文文献学研究者们重点关注的内容,被广泛用于对文献特点、功能、类型、生产、分布、发展规律和文献发展历史等研究中。
藏文古籍文献学特征检索是指通过信息检索手段从文献数据库中检索出满足指定文献学特征的藏文古籍。
目前,在现有藏文古籍文献数据库中,藏文古籍文献学特征检索均是基于关键词的,这需要文献学研究者人工地进行辨识,并把文献学特征描述信息录入数据库。
但是,在文献信息数字化的背景下,藏文古籍文献数据库的规模不断扩大,基于关键词的文献学特征检索面临巨大挑战:对海量藏文古籍图像标注文献学特征不仅费时费力,还需要专业的辨识能力和缺乏定量标准。
对此,本文将把基于内容的图像检索(Content-basedimageretrieval,CBIR)技术引入到藏文古籍文献学特征检索中,即采用“以图搜图”的方法在藏文古籍图像数据中检索与模板图具有相同或相似文献学特征的图像。
这是一种不同于基于关键词的藏文古籍文献学特征检索的方法,可快速、高效地实现海量数据库中的文献学特征检索。
本文其余部分组织如下:第2节介绍藏文古籍文献学特征和基于内容的图像检索的相关工作,第3节介绍基于内容的藏文古籍文献学特征检索方法,第4节是实验,第5节是总结。
基于卷积自编码器的图像去噪技术研究

基于卷积自编码器的图像去噪技术研究随着图像处理技术的不断发展,图像去噪技术成为了很多研究人员的热点问题。
在实际应用中,我们经常会发现图像受到了不同程度的噪声污染,这些因素影响了图像的质量和准确性。
在这种情况下,图像去噪技术是非常必要的。
基于卷积自编码器的图像去噪技术是一种常用的方法,近年来被广泛应用。
那么,什么是卷积自编码器,它如何实现图像去噪呢?一、卷积自编码器是什么?卷积自编码器是一种基于卷积神经网络的模型,通常应用于图像处理和计算机视觉中。
与传统的自编码器相比,卷积自编码器能够更好地保留图像的空间结构信息,适用于处理大尺寸高维数据,且具有更好的表征能力。
它包含了两个主要的部分:1.编码器(Encoder)编码器是将输入的图像映射为一组编码,这些编码在低维空间中表示原图像的特性。
通常编码器包含多层卷积神经网络,可以提取出不同级别的特征信息,并通过池化层进行下采样,减小特征图的维度。
2.解码器(Decoder)解码器接受编码器的输出,将其转换为原始输入的重建。
通常解码器同样包含多层卷积神经网络,用于对编码进行上采样和反卷积操作。
最终,使用解码器生成的图像应该和原始输入图像非常接近。
二、卷积自编码器实现去噪卷积自编码器常用于图像去噪,具体步骤如下:1.准备数据首先,我们需要准备一个带有噪音的图像数据集。
这种噪声可以来自图像拍摄或压缩过程中的种种因素。
在训练模型之前,需要将训练数据进行预处理和标准化,以便更好地加载到模型中。
2.构建模型接下来,我们需要使用卷积自编码器模型,搭建一个能够去除噪声的模型。
在模型的架构中,编码器和解码器需要进行权值共享,以确保网络参数的数量最小化,从而避免过拟合。
此外,通过添加dropout或正则化项等技术,还可以增加模型的泛化能力。
3.训练模型训练过程通常采用随机梯度下降(SGD)算法,对模型在训练集上进行反复迭代,以寻找最适合于数据的权重。
此外,学习率的选择也是非常重要的,学习率过大会导致发散,而学习率过小则会导致收敛速度变慢。
基于语义分割的藏文古籍文档文本区域检测

基于语义分割的藏文古籍文档文本区域检测
贡去卓么;才让加;三知加
【期刊名称】《计算机仿真》
【年(卷),期】2022(39)5
【摘要】藏文古籍文档是中华民族宝贵的文化遗产,采用数字化处理技术对藏文古籍文档进行保护和传承具有重要的历史意义。
针对藏文古籍文档文本区域检测提出了一种基于图像语义分割的方法。
利用判别式对抗网络框架下的语义分割网络对藏文古籍文档不同类型的文本区域进行了像素分类;其次,根据像素分类结果提取了各个文本区域的轮廓;最后,将检测到的版面布局信息进行保存。
最终实现藏文古籍文档的文本区域检测。
通过拉萨版《甘珠尔》(藏文)的扫描页面构建了自定义的藏文古籍文档图像数据集,并在上述数据集上进行了实验。
经实验表明,在上述数据集上得到了较好的检测效果,证明了上述方法的有效性。
【总页数】7页(P448-454)
【作者】贡去卓么;才让加;三知加
【作者单位】青海师范大学计算机学院;青海省藏文信息处理与机器翻译重点实验室;青海省藏文信息处理工程技术研究中心
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于文本域分割和文本行检测的扭曲文档图像校正
2.藏文古籍文本检测研究现状
3.基于文本三区域分割的场景文本检测方法
4.基于语义分割的食品标签文本检测
5.APSENet:一种基于实例分割网络的满文档案文本行检测方法
因版权原因,仅展示原文概要,查看原文内容请购买。
藏文文本编码识别方法研究

藏文文本编码识别方法研究春燕;曲珍【摘要】讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较.确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分.在对目标样本的测试中,该算法的识别率可达100%.%This paper discusses critical problems with Tibetan encoding identification and conversion. Accordingto Tibetan character structural and its statistical characteristics, it introduces various possible recognition rules, and the results are analyzed and compared. Used characteristics of distance regulation and high frequency between Tibetan syllables to determination encoding identification of FOUNDER Windows, FOUNDER Dos, Tonguer, HURGURNG Windows, HURGURNG Dos, Pandita, the Tibetan encoding based on ASCII, ISO/IEC10646 basic set and Tibetan coded character sets-Extension A, can correctly distinguish Tibetan text with other languages. The rate of recognition reaches 100% using these algorithms on the test documents.【期刊名称】《计算机工程与应用》【年(卷),期】2013(049)001【总页数】4页(P141-144)【关键词】藏文编码;藏文编码识别;音节点【作者】春燕;曲珍【作者单位】西藏大学计算机科学与技术系,拉萨850012;西藏大学计算机科学与技术系,拉萨850012【正文语种】中文【中图分类】TP391.1对藏文文本的识别由两部分实现:一是识别该文本是否为藏文文本,二是识别该藏文文本所使用的编码方案。
藏文信息处理的原理与应用电子版

藏文信息处理的原理与应用电子版引言藏文是中国少数民族中使用的一种重要文字,它承载着藏族人民的文化遗产和思想智慧。
为了更好地进行藏文信息的处理和应用,电子版的藏文信息处理技术应运而生。
本文将介绍藏文信息处理的原理和应用,以及电子版在这个过程中的作用。
藏文信息处理的原理1. Unicode编码Unicode是一种全球统一的字符编码标准,它为不同文字和符号提供了唯一的数字编码,包括了藏文字符。
Unicode编码使得计算机能够正确地处理藏文字符,并能够在不同的平台上进行正确显示和编辑。
2. 字符转换由于藏文的特殊性,需要将其转换为计算机能够处理的格式,一种常见的方式是将藏文字符转换为Unicode编码。
这样可以在计算机上进行相应的处理和操作,比如搜索、排序、保存等。
3. 分词在进行藏文信息处理时,常常需要将文本拆分成词语的形式进行处理。
分词是将一段藏文文本按照词语为单位进行划分的过程。
分词可以提取有用的信息,帮助进行词频统计、文本分类和信息检索等操作。
4. 语言模型语言模型是指对自然语言中的词序列概率进行建模的方法。
通过语言模型,我们可以对藏文文本进行预测和生成。
语言模型可以用于机器翻译、自动摘要、对话系统等应用中,为藏文信息处理提供了更多的可能性。
藏文信息处理的应用1. 机器翻译机器翻译是将一种语言的文本转换为另一种语言的过程。
对于藏文这样的特殊语言,采用机器翻译可以极大地减少人工翻译的工作量,并且提高翻译的效率。
通过将藏文转换为计算机可处理的格式,机器翻译可以在不同语言之间进行自动翻译。
2. 文本分析文本分析是对文本信息进行提取、分析和理解的过程。
在藏文信息处理中,文本分析可以帮助我们更好地理解藏文文本的含义和结构,比如提取关键信息、聚类相似文本、情感分析等。
文本分析可以应用于网络舆情监测、情报分析、文本挖掘等方面。
3. 信息检索信息检索是指在大规模文本数据集中查找符合用户需求的文档或信息的过程。
对于藏文信息处理来说,信息检索可以帮助用户快速、准确地找到想要的藏文文档。
基于栈式降噪自动编码器的中文短文本分类

基于栈式降噪自动编码器的中文短文本分类邱爽;姜明洋;张智丰;卢奕南;裴志利【期刊名称】《内蒙古民族大学学报(自然科学版)》【年(卷),期】2017(032)005【摘要】深度学习技术已经广泛应用到大数据处理中,并在很多方面获得了可观的成绩.其中,自编码神经网络作为一种特征降维算法已被广大专家学者所应用.本文主要讨论一种改进的自动编码器——栈式降噪自编码神经网络(The Stacked Denoising Auto Encoder,SDAE),该算法使学习到的特征更加具有鲁棒性.并研究了该算法基于ReLU激活函数的中文短文本分类.与KNN,SVM,BP对比,无论召回率还是准确率,SDAE均优于KNN、BP、SVM.【总页数】6页(P400-405)【作者】邱爽;姜明洋;张智丰;卢奕南;裴志利【作者单位】内蒙古民族大学数学学院,内蒙古通辽028043;内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043;内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043;吉林大学计算机科学与技术学院,吉林长春130012;内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043【正文语种】中文【中图分类】TP391【相关文献】1.基于栈式降噪稀疏自动编码器的雷达目标识别方法 [J], 赵飞翔;刘永祥;霍凯2.基于栈式降噪自动编码器的气体识别 [J], 于万钧;安改换;鹿文静;甘超;刘全3.基于栈式降噪自动编码器的动态混合推荐算法 [J], 李梦梦; 夏阳; 李心茹; 徐婷; 魏思政4.基于优化栈式降噪自动编码器的路面不平度检测∗ [J], 刘庆华; 马焕5.基于栈式降噪自动编码器的建筑工程施工成本预测 [J], 刘必君;叶雨辰因版权原因,仅展示原文概要,查看原文内容请购买。
基于卷积降噪自编码器的藏文历史文献版面分析方法

基于卷积降噪自编码器的藏文历史文献版面分析方法张西群;马龙龙;段立娟;刘泽宇;吴健【期刊名称】《中文信息学报》【年(卷),期】2018(032)007【摘要】近年来,随着人们对历史和传统文化的保护和传承越来越重视,研究人员对历史文献数字化的兴趣也越来越高涨.版面分析是历史文献数字化的重要基础步骤,该文提出了一种基于卷积降噪自编码器的藏文历史文献版面分析方法.首先,将藏文历史文献图像进行超像素聚类获得超像素块;然后,利用卷积降噪自编码器提取超像素块的特征;最后,使用SVM分类器对藏文历史文献的超像素块进行分类预测,从而提取出藏文历史文献版面的各个部分.在藏文历史文献数据集上的实验表明,该方法能够对藏文历史文献的不同版面元素进行有效的分离.【总页数】8页(P67-73,81)【作者】张西群;马龙龙;段立娟;刘泽宇;吴健【作者单位】北京工业大学信息学部 ,北京100124;可信计算北京市重点实验室 ,北京100124;中国科学院软件研究所中文信息处理实验室 ,北京100190;北京工业大学信息学部 ,北京100124;大规模流数据集成与分析北京市重点实验室 ,北京 ,100124;中国科学院软件研究所中文信息处理实验室 ,北京100190;中国科学院软件研究所中文信息处理实验室 ,北京100190【正文语种】中文【中图分类】TP391【相关文献】1.基于卷积降噪自编码器和CNN的滚动轴承故障诊断 [J], 张立智;井陆阳;徐卫晓;谭继文2.基于残差卷积自编码器(RCAE)的红外图像降噪方法研究 [J], 张遥; 陈西曲3.降噪自编码器深度卷积过程神经网络及在时变信号分类中的应用 [J], 朱喆; 许少华4.基于一维卷积神经网络和降噪自编码器的驾驶行为识别 [J], 杨云开;范文兵;彭东旭5.基于卷积降噪自编码器的地震数据去噪 [J], 宋辉;高洋;陈伟;张翔因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面 分 析 方 法 。首 先 ,将 藏 文 历 史 文 献 图像 进 行 超 像 素 聚类 获得 超 像 素 块 ;然 后 ,利 用 卷 积 降 噪 自编 码 器 提 取 超 像 素
块 的 特 征 ;最后 ,使 用 SVM 分 类 器 对 藏 文 历 史 文 献 的 超 像 素 块 进 行 分 类预 测 ,从 而提 取 出藏 文 历 史 文 献 版 面 的 各
文 献 标 识 码 :A
Layout Analysis for H istorical Tibetan D ocum ents Based on C0nVOlutiOnal Denoising A utoencoder
ZH A NG Xiqun ,M A Longlong ,DU A N ua n 。。, IAU Zeyu , W U Jian (1. Faculty of Information Technology Beijing University of Technology,Beijing 100124,China;
第 32卷 第 7期 2O18年 7月
中文 信息 学报
J OU RNAI ()F CHINESE INF()RM ATI()N PR()CESSING
文 章 编 号 :1003—0077(2018)07—0067—07
V oI_ 32, No. 7 July,2018
基 于 卷 积 降 噪 自编 码 器 的 藏 文 历 史 文 献 版 面 分 析 方 法
摘 要 :近 年 来 ,随 着 -&4F]对 历 史和 传 统 文化 的保 护 和 传 承 越 来 越 重视 ,研 究人 员对 历 史 文 献数 字 化 的 兴趣 也 越 来
越 高 涨 。版 面 分 析 是 历 史文 献 数 字化 的 重要 基 础 步 骤 ,该 文提 出 了一种 基 于 卷 积 降噪 自编 码 器 的 藏 文 历 史 文 献 版
2.Beijing Key Laboratory of Trusted Computing , Beijing 100124,China; 3. Chinese Inform ation Processing I aboratory, Institute of Softw are, Chinese Academy of Sciences,Beijing 10019O,China;
个部 分 。 在 藏 文 历 史文 献 数 据 集 上 的 实验 表 明 ,该 方 法 能 够 对 藏 文历 史 文献 的 不 同版 面 元 素进 行 有 效 的 分 离 。
关 键 词 :藏 文 历 史 文献 ;版 面分 析 ;卷 积 降 噪 自编码 器 ;超 像 素
中 图 分 类 号 :TP391
0 引 言
近 年 来 ,人 trJ-x ̄传 统 历 史 文化 的保 护 和传 承 越 来越 重 视 ,研 究人 员 对 历 史 文 献数 字化 的兴 趣 也 越 来 越 高 涨 。
藏族 是 一 个 拥有 丰 富 传 统 文化 的 民族 ,是 中华 灿 烂 文 明 不 可 或 缺 的 重 要 组 成 部 分 。 藏 文 历 史 文 献 是 藏族 传统 文 化宝 库 中一 颗 璀璨 的 明珠 ,其 作 为 承 载藏 族古 老 文 明 的 载体 ,受 到 了 历 史 学 家 、语 言 学 家 、佛 学 家 、文 献 学 家 的广 泛 关 注 。一 直 以来 ,中 央 政 府 非常重 视 藏文 历 史 文 献 及 文 物 的保 护 及 发 掘 ,
张西 群 。,马龙 龙 。,段 立 娟 ,刘 泽 宇 。,吴 健 。
(1_北 京 下 业 大 学 信 息 学 部 ,北 京 100124; 2.可 信 计 算 北 京 市 重 点 实 验 室 ,北 京 100124; 3.中 国科 学 院 软 件 研 究 所 中 文信 息 处 理 实 验 室 ,北 京 1001 90; 4.大 规 模 流数 据集 成 与 分 析 北 京 市 重 点 实 验 室 ,北 京 ,100124)
4.பைடு நூலகம்eijing Key I ahoratory on Integration and Analysis of I.arge—scale Stream Data,Beijing l001 24,China)
A bstract:The digitalization of historical docum ents attract increasing research interests in recent years. Focusing on layout analysis, the essential step in digitizing historical docum ents, this paper proposes a convolutional denoising auto encoder approach to historical T ibetan docum ents. Firstly, the docum ent im ages are clustered into superpixel blocks. Then,w e use the convolutional autoencoder to extract features from these blocks. Finally, the superpixel blocks are classified by the SV M classifier,thus the different parts of the T ibetan historica1 docum ent are identified. Experim ents on the dataset of historical T ibetan docum ents show that our m ethod can effectively separate the differ ent layout elem ents of Tibetan historica1 docum ents. Key words:historical Tibetan docum ents;layout analysis;convolutional denoising autoencoder;superpixel