基于双层PDF技术的数字档案馆全文检索实践
档案数字化扫描加工项目技术参数和要求

广元市档案馆档案数字化扫描加工项目技术参数和要求本项目采购的内容包括档案资料分拆卷、页码校核、档案整理、档案修复、全文扫描、图像处理、图像半成品质检及存储、档案分件、系统数据入库、挂接、机读目录上传、全文上传、全文数据质检并提供质检报告等服务。
一、项目描述1.1纸质档案数字化需求1.1.1项目概况本次档案数字化加工数量200 万页,条目著录(含修正)约22 万条。
为确保后期档案查询利用效果,在本次项目中,已具备电子目录的,需要对档案条目信息进行校对修正,无电子目录的需要补录,另外需要对本期项目涉及到的库存档案资料进行电子化扫描、图像处理、数据入库、挂接、机读目录上传、全文上传、全文数据质检并提供质检报告等服务。
以下为具体要求:1.1.2标准依据DA/T 31-2005 《纸质档案数字化技术规范》;DA/T18-1999 《档案著录规则》;GB/T 18894-2002 《电子文件归档与管理规范》;DA/T25——2000 《档案修裱技术规范》GB/T9705——88《文书档案案卷格式》1.1.3技术要求1.1.3.1.属性数据录入(1)此次招标工作中属性数据录入方面要求对已有数据的案卷进行校对、补录;对未录的案卷要按照要求录入,符合有关规范要求。
(2)其他业务档案需按照类型以不同字段进行录入,主要包括年度,文号,公文类型等。
1.1.3.2.影像扫描(1)工作量本次招标的工程量约为200 万页,要求提交成品为真彩24位JPG及双层PDF 两种格式。
实际工作量有可能增加或者减少,增加或减少的工程量按照相关单价结算。
(2)数据格式与存储要求a)满足国家档案行业标准《纸质档案数字化技术规范》(DA/T31-2005)。
b)投标方提交的加工成果是与广元市档案局目前使用的档案管理系统完全一一正确对应的机读目录成品库和全文文件成品库。
c)投标方需提交存储级和利用级两套全文成品数据,数据必须达到以下所述质量控制技术指标:●存储级:采用300dpi分辨率扫描,存储格式为真彩24位JPG。
建平台 强管理构建可持续发展的数字档案馆-迁西县档案馆数字化管

天地档案是一种信息资源,是信息和载体的统一体。
然而,随着档案存放数量冗多、保管条件差、查找利用率低等问题不断凸显。
随着时代发展和社会进步,计算机技术被广泛地应用于档案管理工作当中,解决了存储难、运输难、查找难等难题。
迁西县档案馆从搭建平台、强化管理入手,实现了档案管理数字化,档案管理工作事半功倍、顺畅高效。
笔者认为有几点经验值得借鉴。
首先是完善硬件,搭建数字化存储平台。
档案是一种能被传输、传达的信息,它是以文件、图像等载体体现出来的信息。
如今,我国的网络技术水平不断提高,档案管理的数字化必然要依靠科学技术的发展来实现。
迁西县档案馆从实际出发,本着档案信息系统运行稳定、功能完善、使用方便、馆室共建、资源共享的工作思路,于2007年投资181万元启动档案数字化工程,购置了3台服务器,磁盘阵列1套,交换机、路由器各2台,UPS电源1套、摄像机、照相机、刻录机各1台、扫描仪6台、打印、复印机各2台,投影仪1台,所有设备都是知名品牌,高标配置。
组建了 “三网、四库、三个平台”,“三网”是档案(局)馆局域网,党政网、因特网,“三网”均采用物理隔离,保证了档案信息的绝对安全。
“四库”是馆藏档案目录数据库、档案数字全文数据库、照片档案数据库和多媒体文件数据库。
“三个平台”是档案数据综合管理平台、档案在线接收指导平台、档案信息检索服务平台。
实现了县档案局(馆)与县直单位、乡镇档案室之间档案数据的“网上传输、网上检查、网上指导、网上查询利用”,做到了馆藏档案数字化、档案管理在线化、档案服务网络化。
其次是建立数字信息档案馆,馆藏档案实现数字化。
为确保数字档案馆质量和服务能力,迁西县档案局经过调研,制定了严谨的《档案数字化建设实施方案》和科学的档案数字化加工处理工序,主要流程包括档案出库、档案整理、目录校对、扫描、图像处理、图像质检、数据挂接、总质检、数据备份、档案装订等,制定了严格的档案保密制度、档案数字化工程工作制度,采取了员工持牌上岗,安装监控设备,详细办理出入库手续等措施,保证了实体档案在数字化加工过程中的安全、完整,同时专门派5人对数字化过程中的目录校对、图像质量、数据挂接等逐条逐页进行质检,从而保证了档案目录数据的正确性、图像与目录挂接的准确性、数据存放的安全性,确保了数字化档案馆质量。
当前纸质档案的数字化建设面临的问题及对策建议思考

当前纸质档案的数字化建设面临的问题及对策建议思考《纸质档案数字化技术规范》明确指出纸质档案数字化建设的重要性和必要性,也提出一些具有可行性的实施建议。
当前我国纸质档案数字化工作在实践探索中取得显著成果,但也显现出一些矛盾和不足。
对此,应从实际情况出发,依托于先进的技术优势,构建数字档案资料库,深化档案收集及处理中的各项业务,兼顾档案开发与档案保护一同推进,实施精细化管理,使之更加提质增效。
纸质档案数字化建设是一个长期积累和坚持的过程,需要理论联系实际,最大化地排除安全隐患,全程深化数字化各环节的质量控制。
一、纸质档案的数字化建设的重要性(一)有助于节约管理的成本费用。
纸质档案管理工作庞大繁琐,涉及方方面面的内容,对配备的档案库房,内外环境要求极高,不仅要配备去湿机、灭火器等设施设备,还要满足国家相关法律法规。
同时,为维护好纸质档案管理,还需要持续投入大量的人力物力,花费高额的成本管理费用。
纸质档案数字化建设,有效弥补和替代传统纸质为载体的不足,将人工读取的档案信息,改进为机读方式,既能节约空间场所,又能节省成本费用。
尤为重要的是,极大地方便人们快捷高效查阅的功能。
(二)有助于对档案原始资料的保护。
创建电子档案系统,采取数字化录入的方式,可有效替代原件,更好地保护原始资料,增加其使用寿命周期。
有了电子档案系统的屏障保护作用,可有效规避人为的抽取、撤换、随意涂改材料等不良行为。
同时,与传统纸质档案工作模式相比,数字化的电子档案在操作中更加安全可靠,特别是一些具有历史价值的档案材料,经过专门的数字化处理,能强化对档案材料的妥善管理。
此外,在纸质档案数字化推进中,如编目、查阅等,无须调动或挪用原始材料,避免人为损害,为原始档案材料提供更加安全的保障体系。
(三)有助于档案工作的开发利用。
在科学技术推动下,计算机技术、扫描技术等优势在各行业领域不断凸显。
在纸质档案数字化建设中将丰富多样的档案资源以数字化的形式来保存和管理,既真正提升档案的工作效率,又实现档案信息资源的共建共享。
南大之星档案系统功能参数(详细)

“南大之星”档案网络管理系统功能参数案卷/文件著录:录入实体档案记录信息,形成档案条目信息。
文件档号具备自动查重功能,同时支持批量数据导入功能。
著录的时候会保留上一份文件的信息,提供更加便捷的操作。
文件管理:对已经著录的档案文件记录进行删除、修改、查询等操作。
支持批量修改与删除功能,档号的自动排序功能以及插卷、插件等功能。
自动组卷:根据系统中的档号对应规则对文件进行自动归档。
案卷管理:对已存在案卷进行删除、修改、查询和打印等操作。
案卷调整:对已组卷的案卷和其中的文件进行调整。
包括:案卷号调整、文件调整、合并案卷、拆卷、插入空案卷、移除卷内、卷内顺序号重排、删除空案卷等功能。
案卷移交和接收管理:对部门整编好的移交档案进行鉴定,如果鉴定通过,则进行批量数据移交。
否则,进行重新整理。
1.1.2批量上传:采用ftp方式批量上传电子文件。
1.1.3数据转换:系统自带数据格式转换功能,可以把WORD、excel等格式的数据转换成PDF格式。
1.1.4批量数据提取功能:可对双层pdf文件进行全文提取,以便实现全文检索。
1.2档案信息管理:实现纸质/数字档案的管理及档案馆日常业务管理功能,包括编目、查阅、保管、档案统计和综合管理等。
1.2.1编目管理:对各类档案的编目项、打印格式、输入输出进行管理。
其功能主要包括以下几部分:档案编目:实现各类档案的著录、编辑等功能。
立卷整理:实现自动立卷和手动立卷功能。
目录生成:根据用户定义生成卷内文件目录、案卷目录、分类目录、全引目录、目录索引、案卷移交清单、各类统计报表等归档文件清单、信息清单。
打印输出:实现以上目录信息的打印功能。
1.2.2查阅管理:实现纸质档案的查询和借阅管理。
1.2.3鉴定销毁:对过期档案进行销毁,并可以打印销毁清单。
也可以进行还原操作1.2.4年报管理:实现档案年报管理,所形成的年报报表完全符合国家标准。
1.2.5档案统计:实现对现有档案进行各种口径的统计功能,并提供档案统计报表、直方图、饼柱状图等多种显示方式。
紫光档案管理信息系统技术白皮书

紫光档案管理信息系统技术白皮书修订历史记录(A-添加,M-修改,D-删除)目录1.阅读说明 (3)2.系统特点概述 (3)2.1.提供了遵从标准的电子文件永久安全存储的平台 (3)2.2.知足企事业单位集约化管理的要求 (4)2.3.先进的管理理念使得档案搜集整理工作变得简单高效 (5)2.4.知识管理和服务的表现 (5)2.5.解决了电子档案的安全性问题 (6)2.6.适应单位发展、业务转变的要求 (6)2.7.为用户量身定做知足档案业务需求的系统 (7)3.面向档案人员的系统功能介绍 (8)3.1.设计思想 (8)3.2.功能架构 (9)3.3.信息搜集 (10)3.4.信息管理 (15)3.5.借阅管理 (17)3.6.综合利用 (18)3.7.系统设置 (19)3.8.功能模块示用意及汇总表 (21)4.面向信息人员的系统技术说明 (24)4.1.系统架构 (24)4.2.系统安全性 (26)4.3.系统接口方案 (30)4.4.相关技术的集成 (34)4.5.系统技术性能指标 (36)1.阅读说明本技术白皮书别离从档案业务角度和信息技术角度对紫光档案管理信息系统进行了介绍,以使档案业务人员对系统功能及系统是不是能知足其业务需求能有清楚的了解和熟悉,使信息技术人员从技术角度对系统的技术架构、扩展性、安全性、接口和可集成度、性能和技术水平有详细的了解,以肯定系统是不是符合自身需求,并为咱们提出宝贵建议和意见。
2.系统特点概述通过系统可成立一个覆盖总部及下属各级单位、知足各级单位档案现代化管理、开放的、易于扩展的档案管理信息平台,使得各级单位的档案信息资源能够取得安全靠得住的集中存储和充分共享利用,各级单位间业务系统互联互通、业务工作上下贯通;通过统一的业务平台实现各单位档案业务工作规范统一、数据格式统一、应用界面和信息展示统一;实现档案资源数字化、业务工作信息化、搜集整理自动化、档案数据访问权限取得全安控制、档案利用方式通过网络加倍简单方便和多样。
档案数字化整理步骤

档案数字化整理步骤1、档案整理档案工作人员拿到档案后,首先要对档案进行分类整理,包括对档案进行统一编号,核对档案页码,粘贴页撕开,页号编写有误的重新编号,对可拆订的做拆订处理,以便扫描时的批次处理。
如果发现折皱不平影响后期扫描质量的文件,应进行相应处理;如果文件存在破损,应先进行技术修复并做好标注;对于文件破损严重不能修复扫描的应做好区分标注。
2、著录标引将整理后的档案,按照国家标准《档案著录规则》结合用户档案著录的具体要求,将案卷目录和卷内目录的原始数据、主题标引、分类标引录入到软件数据库里。
按照原件实体档案条目,对错误档案目录数据修改和补充的数据,须填写更改资料并放入案卷内,卷内目录不全的需补充完整。
3、档案扫描档案扫描是纸质档案实现数字转化的关键步骤。
原件的扫描与存储格式应完全按照国家档案管理的统一标准要求扫描,对实际扫描卷数、每卷的页数要做好登记。
4、图像检查和处理扫描完成后,应采用自动化处理和人工处理相结合的方式,逐张检查图像质量,包括图像顺序与档案原件是否一致,有无漏扫、重张等情况,图像有无黑边、折角以及图像偏斜度、清晰度、失真度等,发现不符合图像质量要求时及时进行调整改正,确保图像顺序正确、质量完美。
5、全文OCR识别如果项目要求实现全文检索,在扫描图像处理完成后,需将数字图像利用专业的识别软件进行全文OCR。
如果用户对识别成功率有严格要求,还需另外进行人工校对,校对结束后将版式还原及转换成双层PDF文件格式,可实现无障碍的全文检索。
6、数据挂接借助系统软件对数据库中的目录数据与对应的纸质档案数字图像进行匹配挂接,并逐条对挂接结果进行检查,包括目录数据与纸质档案数字图像对应的准确性、已挂接数字图像与实际扫描数量的一致性、数字图像是否能正常打开等,以实现目录数据与数字图像的准确关联。
挂接到档案管理系统中后,进行再次的成品验收并做好还卷及数据备份提交。
双层PDF技术在档案管理中的应用

双层PDF技术在档案管理中的应用作者:盛静王曙明来源:《价值工程》2014年第26期摘要:档案管理的数字化,是指在国家档案建设管理部门的统一规划和组织下,在档案管理的活动中全面应用现代信息技术,对档案信息资源进行数字化管理和提供利用。
双层PDF 技术可以将档案馆现有的纸质档案转化为数字档案,方便档案存储和用户查找。
关键词:双层PDF技术;档案管理;应用中图分类号:G270.7;TP3 文献标识码:A 文章编号:1006-4311(2014)26-0234-021 政策背景档案作为一种重要的信息资源,具有较高的科研价值。
在《国民经济和社会发展第十个五年计划的建议》中共中央明确提出:档案作为一种原生的信息资源,在国家信息化建设过程中,档案信息化建设是一个重要的组成部分。
通过加强档案信息化建设,提高档案管理的现代化水平,这是先进生产力、先进文化发展的必然要求,同时也是提高档案信息服务水平的必然选择,在档案事业发展过程中,提高档案管理的现代化水平具有重要的现实意义。
2 技术研究2.1 概念 PDF全称为便携文档格式(Portable Document Format),是一个适合文档交换的开放标准,致力于不依赖文档创建环境,允许用户交换及浏览的一种电子文档格式。
具有不限定软硬件及系统环境,高压缩比、长期保存、高质量输出等特点。
2.2 技术 PDF文件格式已成为国际标准,越来越多的行业和单位正在使用它。
PDF文件是一种具有多层结构的格式文件,其特点是:文件既可以是文本型的(比如由word生成的文件),也可以是图像型的(比如由扫描生成的文件),双层PDF技术还可以将tif、jpg、bmp、gif、png、单层PDF(图像)等图像类文件经加工后输出为可全文检索的双层(图层和文字层)PDF文件。
双层PDF文件是指文件内容既包含文本层,也包含图像层,且其位置上下一一相对应。
对于PDF文件来说,其每一页涉及的内容主要包括:第一上层是对纸质文件进行扫描获取的原始图像,第二下层是通过OCR软件对图像进行扫描识别后产生的文字结果。
推动数字化转型迈向高质量发展

推动数字化转型迈向高质量发展作者:杨中营申士鹏来源:《北京档案》2024年第01期近年来,北京市档案馆紧跟时代步伐,坚持以信息化建设为抓手推动档案工作走向现代化。
市档案馆高度重视机关档案工作的转型升级,投入大量人力、物力、财力开展数字档案室建设。
2023年11月17日,市档案馆机关数字档案室建设试点顺利通过国家档案局专家组评价验收,高分获评“全国示范数字档案室”,取得了档案信息化建设的重大成果,推动市档案馆“业务提档、服务升级、战略转型”迈出了至关重要的一步,也必将辐射带动全市数字档案室建设,提升全市档案信息化整体水平。
早在2017年,市档案馆就建设完成了集中式数字档案室系统,提供市属单位使用。
2019年机构改革中局、馆分设,市档案馆进一步聚焦主责主业,强化自身建设,将建设高水平的数字档案室纳入了本馆“十四五”时期发展规划。
2021年,市档案馆以实施信创工程为契机,在新建OA系统的同时,对数字档案室系统和数字档案馆系统进行了迁移适配和升级改造。
2021年11月,在国家档案局和北京市档案局的大力支持和帮助下,市档案馆成功列为全国数字档案室建设试点单位,由此拉开了“全国示范数字档案室”创建的序幕。
(一)建机制,把方向,抓落实市档案馆领导班子高度重视数字档案室建设工作,把创建高水平数字档案室作为落实习近平总书记对档案工作重要指示批示精神的重要举措。
2021年7月,市档案馆主要领导在全市档案信息化领导小组会议上提出,要发挥技术优势和人才优势,在全市档案信息化建设上充分发挥示范引领作用,并要求相关部门认真研究,积极申报国家数字档案室建设试点。
试点工作启动后,制定《北京市档案馆机关数字档案室建设工作方案》,成立了以馆长为组长、分管信息化工作的副馆长为副组长的数字档案室建设工作领导小组,形成了馆长负总责,分管副馆长具体抓,档案管理部门、项目建设部门、文件形成部门和后勤保障部门全动员的组织体系,在人、财、物等方面给予充分保障。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于双层PDF文档的全文检索技术在数字档案馆中的应用贺志军向禹(湖南长沙中南大学档案馆 410083)【摘要】本文通过基于双层PDF文档的全文检索技术运用于B/S结构的档案管理系统的研究实践,实现了高效、快捷的档案检索,实现了高查全率和高查准率,界面友好,可靠安全,扩展性强。
【关键词】双层PDF 全文检索数字档案馆【分类号】G270随着社会信息化程度的提高,人们对档案信息资源的依赖程序也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切,发展数字档案馆是社会发展的必然,数字档案馆是一个提供档案远程服务和信息共享的平台。
近年来,数字档案馆的研究和建设也如火如荼的开展起来,数字档案馆的平台呈现多样化,档案数字化加工也存在着不同标准,建设数字档案馆的最终目标都是为了档案永久存储和高效利用,本文以中南大学数字档案馆建设实例,着重讨论数字档案馆建设中的全文检索技术。
1 概述1.1 全文检索全文检索是计算机程序通过扫描文件中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。
当用户查询时根据索引进行查找,类似于通过字典的检索字表查字的过程。
档案的收藏是为了利用,档案检索应该把查全率摆在首位,兼顾查准率。
数字档案馆要提供便捷的查询和高查全率,必须建设全文检索系统,全文检索系统由索引模块、分词模块、检索模块和存储模块等构成。
1.2 双层PDF技术双层PDF文件是一种包含Text层和Image层的多层结构PDF格式文件,两层内容位置上一一对应。
Image层是原始图像,保留了原始档案的效果;Text层是Image层的识别结果,支持选择、检索和复制等功能。
通过程序控制可实现两个图层的任意显示和切换,可实现检索词的精确定位。
双层PDF加工是指将其它文件(可以是WORD、也可以是图像文件)转换,或者将标准纸质文档通过扫描后,经过去污、修正和OCR识别,通过软件生成双层PDF文档,然后挂接到档案管理系统的相应目录下。
1.3全文检索的意义全文检索是一种很重要的检索途径,弥补了目录检索的不足,也解决了目录著录不全、不规范等问题,大幅度提高了查全率。
由于全文检索不是直接访问数据库,而是通过对数据库中的数据或者对双层PDF文件的Text层进行索引,因此用户搜索对数据库的压力为零,可以达到毫秒级的检索速度和每秒数百次的并发访问,大大提升检索速度。
2 全文检索在数字档案馆的实现2.1 创建全文数据库我们采用湖南德立信软件开发有限公司的档案数字化加工系统和PDF车间进行纸质档案的数字化加工,实行流水线作业,将档案扫描加工为电子档案;使用双层PDF车间,将文件识别为文字,然后再将Text层和Image层组合成为一个完整的双层PDF文件。
我们仍然采用目前技术成熟、广为流行的基于目录数据库挂接方式来实现PDF文件的挂接,对档案内容数据及其元数据等相关信息建立永久联系,形成数据包。
2.2 创建索引将制作好的PDF文件和数据包通过调用德立信全文检索系统(Delisun Text)内核函数建立对应的索引文件,抓取和解析数据,创建索引的过程实际上也就是将数字化档案原文及其原数据(包括结构化和非结构化数据)信息提取并创建索引文件的过程。
2.2.1索引创建:为了对文档进行索引,Delisun Text 提供了五个基础的类, Document、 Field、IndexWriter、Analyzer、Directory。
1、首先指定生成Index目录。
2、建立索引器indexWriter,生成index对象,把一个个的 Document 对象加到索引中来。
3、建立信息字段对象Field,描述文档的某个属性,如文件标题和内容可以用两个 Field 对象分别描述。
4、建立文档对象Document,用来描述文档,内容可以从TXT、HTML等文档及数据库等多种途径获得,一个 Document 对象由多个 Field 对象组成的。
也可以把一个 Document 对象看作数据库中的一个记录,而每个 Field 对象就是记录的一个字段。
在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由 Analyzer类来完成。
Analyzer 类是一个抽象类,它有多个实现,针对不同的语言和应用需要选择适合的Analyzer。
Analyzer 把分词后的内容交给 IndexWriter 来建立索引。
在分词时,如果用来进行索引的文档不是纯文本,先得转换成纯文本才能再进行操作;对同一索引,用来分词建立索引的分词器与用来查询的分词器必须是同一个,才能保证得到正确的查询结果。
5、将Field添加到Document里面,再将Document添加到IndexWriter里面。
6、优化indexWriter对象,Directory类代表了 Lucene 的索引的存储的位置,它是一个抽象类,有两个实现,一个是 FSDirectory,它表示一个存储在文件系统中的索引的位置;其次是RAMDirectory,它表示一个存储在内存当中的索引的位置。
通俗的讲,索引过程也可以理解为四个阶段:1) 有一系列被索引文件;2) 被索引文件经过语法分析和语言处理形成一系列词(Term);3) 经过索引创建形成词典和反向索引表;4) 通过索引存储将索引写入磁盘。
最后完成index的生成。
2.2.2索引管理:1 查看索引,读取指定路径索引中是否存在;索引中包含的文档,词条情况,是否需经过优化等;最后一次修改的时间,路径信息,含有的文档数目等;读取索引词条相关基本信息。
2 删除索引,删除指定序号的文档之后,自动删除对应的索引文件;恢复被删除的文档及索引。
3 更新索引,更新索引中的某个文档;另外就是,索引同步处理,用户可根据需要自己定制创建索引时间,可定时更新也可以实时更新。
2.3 全文检索2.3.1 检索过程全文检索实际上是一个复杂的过程,主要分为以下步骤:第一步:用户输入查询语句。
第二步:对查询语句进行词法分析和语法分析,得到一系列的词,然后进行语言处理。
词法分析主要用来识别单词和关键字;语法分析主要是根据查询语句的语法规则来形成一棵语法树;语言处理同索引过程中的语言处理几乎相同。
通过分析和处理,得到一个查询树。
第三步:搜索索引,得到符合语法树的文档。
1)在反向索引表中,分别找出包含查询内容的文档链表;2)对包含查询内容的链表进行合并操作,得到包含查询内容的文档链表;3)将此链表与查询内容的文档链表进行差操作,去除无关的文档信息,从而得到包含查询内容的精确的文档链表;4)此文档链表就是我们要找的文档。
第四步:根据得到的文档和查询语句的相关性,对结果进行排序。
1)一个文档有很多词(Term)组成;2)找出词(Term)对文档的重要性的过程称为计算词的权重(Term weight)的过程;3)判断词(Term)之间的关系从而得到文档相关性的过程应用向量空间模型算法(Vector Space Model);4)最终计算出权重(Term weight)。
第五步:将查询结果返回给用户界面。
2.3.2 用户界面设计直观实用的用户界面,用于接收系统返回的检索结果:1)高亮显示结果条目中的检索条件,可根据需要通过Lucene高亮处理基本设置;2)提取过滤搜索结果,对搜索结果进行排序,初始的结果排序列按相关性计算出的权重值从大到小排列;3)对提取过滤搜索结果可进行二次过滤搜索;4)根据档案管理系统权限,对检索出的结果可进行下载与浏览。
2.3.3 原文获取和定位通过检索过程,在用户界面得到了查询结果,接下来,在检索利用中,便是要获取PDF原文,并查出检索词在原文中的具体位置。
这里,我们运用Acrobat Reader(创建和阅读PDF文档使用最广泛的软件),结合档案管理系统,自动实现检索词在原文中的定位。
1、在多个PDF文档中查找文本Reader 软件本身对双层PDF文档的查找、文本复制、双层切换等功能都提供了支持,“搜索”窗口允许在多个 PDF 查找项目。
打开 Reader在“查找”工具栏,键入需要查找的文本然后从弹出菜单选择“打开完整的 Acrobat 搜索”。
在“搜索”窗口,选择“所有 PDF 文档,位于”。
从本选项下方弹出菜单选择“查找位置”。
运用Acrobat Reader,可以实现在检索词在指定文档中的定位。
2、在检索结果中自动实现PDF文档的定位档案管理系统的用户界面获取了来自检索系统的信息之后,如果实现从超级链接到自动打开PDF文档,以及检索词在文档中的精确定位呢?以下便是实现这一功能的代码的一部分。
PDF控件代码:<OBJECT id='AutoVueX' classid='clsid:*****' border='0' WIDTH='100%' height='100%'><param name='_Version' value='65539'><PARAM name='_ExtentX' value='20108'><PARAM name='_ExtentY' value='10866'><PARAM name='_StockProps' value='0'><PARAM name='SRC' value="<%=readPath%>">3 总结经过实际测试,基于双层PDF文档技术的全文检索,有效的提高了查询利用工作效率,它通过对档案数据库的数据和双层PDF文档的TEXT层建立索引,查询时不访问数据库,有效减轻数据库和系统的压力。
目前可以支持1000万级的数据,毫秒级的查询时间,每秒500人的并发访问,从而实现大容量、高速度的目标;可以适应linux和window平台,支持多种数据库接口;它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。
通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅提高档案的利用价值;同时,对档案编研也起到积极的作用;也为档案信息聚合(RSS,也叫聚合内容,Really Simple Syndication)的研究、定向的档案信息服务研究或者更深层次的档案服务奠定了基础。
【参考文献】[1] 李靖等. 基于Lucene的全文检索引擎的研究与应用[J]淮阴工学院学报,2008,(02).[2] 员建厦. Oracle全文检索及自动更新索引的实现[J]计算机与网络,2007,(12).[3] 刘清杰. 一种基于全文检索技术的数字档案馆解决方案[J]办公自动化,2009,(10).[4] 朱虹; 吴林. 倒排索引压缩及在RDBMS全文检索中的实现[J]华中科技大学学报(自然科学版),2009,(4).[5] 张颖; 朱大鹏. 基于任意字串的全文检索算法[J]河南师范大学学报(自然科学版),2009,(4).[6] 解鹏飞. Lucene搜索引擎技术在国家海洋数字档案馆示范系统中的实现及应用[J]海洋环境科学,2008,(8).[7] 刘清杰.一种基于全文检索技术的数字档案馆解决方案 [Z]OA’2010办公自动化国际学术研讨会论文集,2010,(7).【作者简介】贺志军,1965年生,男,博士,副研究员,江西人,现为中南大学档案馆馆长,发表专业论文十余篇,参与多项省部级课题;向禹,1976年生,男,副研究馆员,毕业于湘潭大学图书情报、计算机应用专业,现为中南大学档案馆综合办公室主任,发表专业论文十余篇,参与省级课题多项。