“互联网+”时代的古籍数字化新思路
让古籍与数字化时代共振

让古籍与数字化时代共振
人类的历史以来一直保留着珍贵的文化遗产,其中古籍就是其
中之一。
古籍在其所处的时代里曾是先人们资料记录的手段,同
时也承载了人类的精神文化。
而如今,在数字化的时代下,我们
可以通过技术手段把古籍信息数字化,这是一场古籍与数字化时
代的共振。
古籍作为文化遗产,存在于举世各地的博物馆和图书馆中,供
人类研究和欣赏。
但是,由于古籍的长期保存和时代变迁的影响,其中不少古籍已经残缺不全,甚至已经失传。
数字化技术的出现
为我们提供了一个将古籍内容更好地保存下来的机会。
通过数字
化手法,我们可以将古籍信息数字化,让古籍面临更广泛的读者
和研究者。
数字化让古籍更新了读者群体。
例如,一些在博物馆和图书馆
里长年昏暗无人的角落里藏着的古籍,可能在数字化时代更具魅力、更容易被发现。
数字化后,古籍可以通过网络公开,让更多
的人了解和研究古籍,从而保护和传承古籍的文化价值。
此外,数字化也让古籍的研究更加全面和普及。
数字化让古籍
内容不再局限于某个地方的博物馆或图书馆中,而是可以通过互
联网更加方便地索引、检索和分析。
数字化还使得古籍的翻译更加准确和及时,让更多的学者参与到古籍研究中,从而促进了古籍研究的发展。
总的来说,数字化让我们更好地保护、传承和利用古籍,同时也让古籍在数字化时代更具价值和活力。
数字化与古籍的共振,让古籍历史记载更加立体、全面和丰富,同时也助力于古籍文化的传承和创新。
数字人文如何推动古籍文献的数字化

数字人文如何推动古籍文献的数字化在当今数字化的时代,数字人文这一新兴领域正以其独特的方式为古籍文献的数字化注入强大的动力。
古籍文献作为人类文明的重要遗产,承载着丰富的历史、文化和知识,然而,由于时间的流逝和保存条件的限制,许多古籍面临着损坏、遗失甚至灭绝的危险。
数字人文的出现为解决这些问题提供了新的思路和方法,为古籍文献的保护、传承和利用带来了前所未有的机遇。
数字人文是什么呢?简单来说,它是将数字技术与人文研究相结合的跨学科领域。
通过运用数字化工具和方法,如数据库建设、文本挖掘、数据可视化等,对人文领域的资料进行收集、整理、分析和展示,从而推动人文研究的创新和发展。
在古籍文献数字化的过程中,数字人文发挥着至关重要的作用。
首先,数字人文为古籍文献的数字化提供了技术支持。
传统的古籍数字化往往只是将纸质文献扫描成图像文件,这种方式虽然在一定程度上保存了古籍的原貌,但无法实现对文本内容的深入挖掘和利用。
而数字人文技术则可以将古籍文献转化为可编辑、可搜索的电子文本,通过光学字符识别(OCR)技术和人工校对相结合的方式,提高文本识别的准确率。
同时,利用自然语言处理技术对文本进行分词、标注和语义分析,为后续的研究和利用奠定基础。
其次,数字人文促进了古籍文献的整理和编目。
在过去,古籍的整理和编目工作主要依靠人工完成,不仅效率低下,而且容易出现错误。
数字人文技术的应用可以实现对大量古籍文献的快速分类、编目和索引。
通过建立古籍文献数据库,将古籍的基本信息、版本、作者、内容摘要等进行规范化整理,方便学者和读者进行查询和检索。
此外,还可以利用数据挖掘技术发现古籍之间的关联和传承关系,为学术研究提供新的视角和线索。
再者,数字人文推动了古籍文献的知识发现和创新研究。
通过对数字化后的古籍文献进行文本分析和数据挖掘,可以发现隐藏在其中的知识和规律。
例如,通过对历史文献中人物关系、事件发生的时间和地点等信息的分析,可以构建历史知识图谱,直观地展示历史发展的脉络和趋势。
“互联网+”时代背景下的古籍保护思考

“互联网+”时代背景下的古籍保护思考受历史及自然原因影响,我国现存的大量古代文化典籍遭受到了嚴重的散佚与毁损。
在信息技术飞速发展的今天,本文试图通过古籍保护设施的改善、古籍的普查与收录、古籍的利用等方面,阐释数字化技术在古籍保护中的重要作用。
标签:古籍数字化古籍保护中国是世界上四大文明古国之一,我们的祖先在华夏大地上创造了光辉灿烂的文化,留下了卷帙浩繁的古代文献典籍。
宋代学者朱熹在《四书章句集注》中说,“文,典籍也;献,贤也。
”作为传承中华文明的重要载体,典籍的形式多样、数量庞大,除了陶文、甲骨文、金文、简牍、帛书、石经等特殊样式,比重最大的还是纸质的常规古籍。
在这里,我们主要讨论的就是以各级公共图书馆等收藏单位所收纸本古籍为主的保护问题。
一、利用数字化技术改进古籍收藏设施古籍善本是传承中华文明的重要载体,具有十分重要的文献收藏及历史研究价值。
然而,现实情况并不容乐观。
古籍作为一种不可再生资源,目前正面临着来自各方面的侵蚀与损坏。
历史上的政治动荡、兵燹之灾,现代自然环境的恶化、古籍保存设备的落后以及古籍本身不可抗拒的酸化、脆化、絮化等问题,都在考验着当下的古籍保护工作者。
目前我国大部分藏书机构都建设有专门的藏书室,根据《图书馆古籍特藏书库基本要求》,藏书室在建筑上必须符合气密性、抗震、保温阻热等标准,其余如室内温湿度、空气净化程度与通风程度、照明和紫外线标准都需要随时进行监测与调整,需要进行科学规范程序化的控制。
按照《基本要求》,特藏书库应放置温湿度监控设备,全年对室内温湿度进行监控,当前技术条件下,对室内温湿度的控制主要依赖于空调。
相对于传统空调,数字空调在温度湿度控制、净化空气方面显得更为智能。
数字空调采用的是数字处理传感器,可以收集代表真实环境的模拟信号,将这些信号转换为数字信号,以数字方式对信号进行处理,精确地控制压缩机和风机的转速,可使温控精确到0.5℃的范围之内。
也就是说,我们将特藏室的温控系统设置在一定范围内,当室内温度稍有变化,传感器就会准确无误地将这种变化传送给压缩机与风机系统,进行调温,使室内温度始终处于一种近似恒温的状态。
中国古籍数字化保护与利用

中国古籍数字化保护与利用中国古籍是我们中华文明的重要遗产,这些经典蕴含着丰富的历史、文化和哲学价值。
然而,随着时间的流逝和社会的发展,古籍面临着被破坏、流失和易损毁的危险。
为此,数字化保护和利用成为了古籍传承和研究的重要手段。
一、数字化保护数字化保护是指将古籍转换成数字形式,通过计算机网络保存和传输,以保护其原貌和价值。
这种方式能够有效地保护古籍,使其不再遭受自然灾害、人为破坏等威胁。
数字化保护的最大特点是可以保存原版文件的绝大部分内容,包括文字、图像、书籍文件等,并且可以通过互联网与世界分享。
数字化保护为古籍的传承和推广提供了宝贵的资源和保障。
中国古籍数字化保护的工作重心在于实现数字化文件的高保真还原。
为了达到这个目标,需要对古籍进行详细的阅读和解析,同时结合各种影像技术进行数字化转化。
数字化保护非常注重古籍的原貌和保真度,必须尽可能地还原原人手抄写的风格、笔画、色彩等要素。
在数字化保护过程中,需要经过多次校对、比对和校验,以保证数字文件的准确性和完整性。
二、数字化利用数字化古籍还原后,就可以在计算机网络中进行数字化利用。
数字化古籍能够为各类文化研究者、学生和普通民众提供更加便捷和快速的古籍查阅和学习途径。
利用数字化古籍,可以远程查阅、学习、研究各种古籍,更好地挖掘中国文化精髓,加强中外文化交流。
数字化利用也能使人们对古籍研究有更深刻的认识和理解,加深对中国传统文化的认知。
数字化古籍还原后,还可以开发出各种数字化产品,如软件、APP、数字化评注等,这些产品为古籍的普及和保护带来了新的机会与突破。
数字化产品的出现,让人们能够更加深入细致地了解古籍的内容,同时还可以将古籍和现代科技相融合,形成了更加丰富的古籍文化。
三、数字化保护与利用面临的问题及解决方案数字化保护与利用虽然给中国古籍的传承和研究提供了新的途径和机会,但同时也面临着一些问题和挑战。
首先,数字化保护所需的成本很高,涉及到大量设备和技术的投入,还需要人力、时间和金钱方面的支出。
基于人工智能的古籍数字化技术研究

基于人工智能的古籍数字化技术研究人工智能技术正飞速发展,伴随着这一趋势,古籍数字化技术也得以实现。
通过数字化技术,传承文化遗产,保护历史文化,实现了现代科技与传统文化的结合。
一、数字化技术实现古籍数字化在数字化技术的支持下,古籍的数字化得以实现。
古籍数字化是通过对古籍图像的数字采样和数字处理,从而得到古籍电子图像,使其成为一种可用于网络传输、供人们在线浏览和学习的数字文化资源。
对于传统的文化遗产保护来说,古籍数字化无疑是一种重要的手段。
二、人工智能在古籍数字化中的应用古籍的文字复杂度高,处理难度大。
在传统的数字化过程中,需要人工对每个文字进行手工识别与编码。
为了提高古籍的数字化速度和准确度,人工智能技术进入了数字化古籍的领域。
1.基于OCR的古籍文字识别技术OCR(Optical Character Recognition,光学字符识别)技术在古籍数字化中扮演着重要的角色。
其将古籍的文字转换成计算机可读的形式,进而进行数据处理和分析。
OCR技术在处理古籍时,由于文本版式、文字印刷等方面的差异,必须进行训练才能达到较高的识别率。
2.基于NLP的古籍自然语言处理技术自然语言处理(NLP)技术是从计算机科学、人工智能、语言学、计算心理学等多个领域相互交叉获得的一种研究人类语言和机器之间交互的技术。
在古籍数字化中,NLP技术可以通过对古籍文本的语言模型分析和处理,对古籍文化进行深入的研究。
三、数字化技术对文化遗产的保护与传承古籍数字化可以保证古籍的保存和传承,并且可以更好地展现文化遗产的魅力。
数字化古籍还可以实现大众文化教育和文化创意产业的发展。
1.保护文化遗产古籍数字化能够保护文化遗产的物质与非物质价值,包括古籍的历史、文化和艺术价值。
同时,古籍数字化还能避免古籍的物理损毁、丢失以及维护数字文件的优秀品质和长期保存,方便后代进行研究和学习。
2.传承文化遗产数字化古籍以其清晰的展示效果和便于传播的特点,让更多的人了解和感受中华文化的博大精深。
古籍资源的数字化与智能化开发利用

•古籍资源概述•古籍资源的数字化技术•古籍资源的智能化开发利用•古籍资源数字化与智能化开发利用的应用案例•古籍资源数字化与智能化开发利用的未来发展目录定义特点古籍资源的定义与特点古籍资源的价值与意义030201保护现状利用现状古籍资源的保护与利用现状数字化技术定义将文字、图像、音频、视频等模拟信息转换为数字信息的过程,以便进行存储、传输和处理。
数字化技术分类按照处理方式可分为扫描、OCR(光学字符识别)、语音识别等,按照载体可分为纸质文献数字化、甲骨文数字化等。
数字化技术的定义与分类介绍了国内外的古籍资源数字化技术的研究进展,包括技术手段、应用领域和成果等。
技术手段详细介绍了扫描、OCR、语音识别等技术在古籍资源数字化中的应用和优缺点。
国内外研究现状古籍资源数字化技术的研究现状VS古籍资源数字化技术的挑战与问题挑战古籍资源数字化过程中面临着技术难度大、成本高、标准化程度低等问题,同时还需要解决版权保护、数据安全等问题。
问题古籍资源数字化过程中存在数据质量不高、标准化程度低等问题,同时还需要解决数据存储、数据共享等问题。
智能化开发利用的定义与方法定义方法基于人工智能的古籍资源开发利用知识图谱构建智能问答与推荐文本自动分类与聚类基于大数据的古籍资源开发利用数据挖掘与可视化通过对古籍文本的情感分析,挖掘作者的情感倾向和思想内涵,为研究古代文化提供更多有价值的信息。
文本情感分析语义关联分析基于数字化的古籍修复与保护案例数字化技术助力古籍修复数字化技术促进古籍保护数字化技术推动古籍研究1基于人工智能的古籍文献检索案例23通过人工智能技术,实现古籍文献的智能检索,提高检索效率和准确度,缩短用户查找时间。
智能检索提高效率根据用户的研究领域、兴趣偏好等因素,利用人工智能技术进行个性化推荐,为用户提供更精准的古籍文献服务。
个性化推荐满足需求通过人工智能技术,实现古籍文献的自动分类和聚类,便于图书馆、博物馆等机构进行高效管理。
图书馆数字化古籍文献管理与开放

图书馆数字化古籍文献管理与开放近年来,随着数字技术的快速发展,图书馆数字化古籍文献管理与开放成为了一个热门话题。
数字化技术为保存和传承古籍文化提供了新的途径,同时也为研究者提供了更方便、高效的资源。
本文将探讨图书馆数字化古籍文献管理与开放的意义和挑战,并介绍一些常见的数字化古籍文献管理与开放的方法与实践。
首先,数字化古籍文献的管理与开放有着重要的意义。
传统的古籍文献保存方式通常依赖于纸质版本,这些纸质古籍易受到时间和环境的侵蚀,且分散保存造成了信息的丢失和空白。
而数字化古籍文献管理可以将这些纸质古籍转化为数字形式,通过数字化技术进行存储、保护和传播,有效地解决了纸质古籍保存的难题,实现了古籍文化的长远传承。
其次,数字化古籍文献的开放使得古籍的使用更加便捷和广泛。
传统的纸质古籍读者需亲自前往图书馆或者书店获取,且存在着古籍珍稀和保护的限制。
而通过数字化技术,古籍文献可以在线访问和阅读,读者只需拥有一个互联网连接的设备就可以随时随地地使用古籍资源。
这样无疑扩大了用户的范围,提供了更多人分享古籍文化的机会。
然而,图书馆数字化古籍文献的管理与开放也面临着一些挑战。
首先是数字化古籍文献的版权问题。
由于古籍文献的作者多已逝世多年,因此其版权归属复杂,造成了数字化古籍文献的版权难题。
如何确保数字化古籍文献的合法使用和传播,同时尊重版权,是一个需要解决的问题。
其次是数字化古籍文献的质量问题。
数字化古籍文献需要高清扫描和处理,以确保数字化后的文献质量达到可阅读和研究的标准。
然而,现实情况是,很多图书馆在数字化过程中往往受限于经费和技术条件,导致数字化古籍文献的质量参差不齐。
因此,如何提高数字化古籍文献的质量,提供高质量的数字化资源,是一个需要重视的问题。
针对这些挑战,有许多数字化古籍文献管理与开放的方法与实践。
一种常见的方法是建立数字图书馆。
数字图书馆是一个基于数字化技术的古籍文献库,将纸质古籍转化为数字形式,并提供在线访问和检索功能。
让古籍与数字化时代共振

让古籍与数字化时代共振随着数字化时代的发展和普及,越来越多的文化和书籍被数字化,以便更加方便地被保存、分享和利用。
然而,对许多珍贵的古籍来说,数字化并不仅仅是保存的方式,也是一种重要的方法,让这些宝贵的文化资源能够与数字化时代共振。
数字化时代给古籍带来的新机遇数字化时代的到来让我们能够更加容易地在网络上共享和利用珍贵的古籍,这为广大读者和学者带来的便利是无以伦比的。
数字化古籍可以被转化为电子书,可以通过网络传播,能够使得读者可以更加方便地获取这些古籍。
这不仅拓宽了读者可以阅读古籍的途径,也让一些珍贵的古籍能够得到更好的保护和保存。
数字化时代也为古籍的传播和研究带来了新的机遇。
传统的古籍阅读是需要直接阅读古籍手稿,读者必须有一定的古文阅读能力,而且有些古籍的保存状况并不好,需要特殊的保存手段。
而数字化古籍的出现,使得这些问题都得以解决。
通过数字化技术,可以将古籍转化成可搜索的文本格式,以便于检索和使用。
这不仅仅方便了学者的使用和研究,也扩大了古籍的受众群体。
数字化保护古籍的创新技术在数字化时代,能够有效保存古籍往往是保护古籍的重要手段。
数字化技术使得传统的古籍保存方式得到了颠覆,新的方法和新技术可以帮助我们更好地保存古籍文化。
比如,数字化重建是一种重要的技术,在古籍原始阅读材料上进行数字化处理,可以制作出与古籍原校本极为相似的电子校本,同时可能还能够整理成更容易被阅读的文本格式。
此外,通过激光数字化将古籍转化为数字化版,我们不仅能够保存这些珍贵的文化资源,还能够解决文化遗产保存的许多问题。
数字化重建的过程主要是将古籍进行扫描,扫描后得到的数字化版可以通过网络和电子设备直接获取和使用。
这样在一定程度上减少了对古籍的损伤,也保证了古籍在数字化时代具有可阅读性和可利用性。
数字化让古籍文化得以传承数字化时代对古籍的保护和传承,给我们提供了具有挑战性的任务。
通过数字化技术能够保护古籍文化,并记录下其中蕴含的宝贵信息,让这些文化资源得到更好的保存和传承。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“互联网+”时代的古籍数字化新思路本文分析了目前中文古籍数字化过程中遇到的问题,在“互联网+”的驱动下,通过借鉴成熟的“reCAPTCHA”技术,构建基于互联网知识网络的古籍数字化平台。
标签:古籍数字化互联网大数据知识网络验证码一、古籍数字化出现的问题1.古籍数字化研究现状古籍又称典籍、文献,是指没有采用现代印刷技术来印制的书籍。
中华文明五千年从甲骨文、简牍、卷轴再到线装,留下了大量宝贵的古籍,作为中华文明文化延续的印证,古籍整理是非常重要的。
古籍整理的传统方法,是通过对古籍进行审校释(审定、校勘、注释)等加工整理后形成新版本,便于现代人进行阅读。
古籍整理的传统方法主要依赖手工进行,有着操作过程繁杂、效率低的缺点,而且新版本仍然是书本形式,难以再次利用。
在计算机技术出现后,古籍整理有了新的工具和方法,即古籍数字化技术。
通过利用信息技术将古籍文献进行加工和整理,并使其转化为电子数据,可以通过光盘、网络进行保存和传播,有效解决了传统古籍整理的缺点。
中文古籍的数字化最早是二十世纪七十年代,从计算机技术发达的美国开始的。
我国在引入相关技术后,产生了大批有价值的成果。
国家图书馆的“古籍特藏文献数字化计划”,完成了“甲骨文”、“数字方志”、“碑砧菁华”、“敦煌遗珍”、“西夏碎金”、“永乐大典”等成果。
其他研究机构也推出了大量产品,其中北京大学所著的《中国基本古籍光盘库》,将收录古籍万余种。
另外,在CALIS项目和CANAL项目中涉及到的古籍子项目也有很好的成果。
国际上,拉丁文体系古籍的数字化工作也进行了大量研究工作。
由欧盟二十六家图书馆联合推出的IMPACT(Improving Access to Text)项目,是一个通过研究OCR(Optical Character Recognition,光学字符识别)技术,来推动拉丁体系文字古籍数字化工程。
2.古籍数字化的发展与瓶颈我国古籍数字化的发展经历了联合目录阶段、目录+影像阶段和全文检索三个阶段。
第一阶段是20世纪80年代,联合目录为古籍数据库检索系统的开发,以数据库的形式储存。
通过利用计算机,对古籍资料进行目录检索、内容整理、储存、数量统计,以及编制索引,极大的改进了古籍文献的检索方式,是古籍研究的辅助工具。
最初的古籍数据库主要是书目数据库,很多省市级图书馆都建立了书目数据库,其中南京图书馆建立了40万条中文古籍书目数据。
第二阶段是20世纪90年代的目录+影像阶段。
这个阶段形成了以光盘为载体,可通过目录进行查询、浏览原文的影像页的古籍文献或古籍数据库,所以又称为光盘版古籍。
1997年武汉大学出版社推出的“四库全书光盘版”共150张光盘,以文渊阁本《四库全书》为底本,将全书两百余万页逐页扫描成电子文件。
第三阶段,2000年起古籍数字化进入了全文检索阶段。
将古籍的全文录入进数据库系统,通过文本与检索项匹配,实现直接到段落的精确查找。
并且配置网络化,以各地区的图书馆为节点、网络为纽带建立了网络上的联合数据库。
通过网络共享服务,可以不再依赖个人存储也能得到海量资源。
然而古籍数字资源不足,影响了网络化的发展。
古籍数字化加工有着很多的问题。
2.1机器难以提高对古籍的识别能力整理好的古籍进行数字化的第一步,便是古籍录入。
图书数字化录入的方法有两种,分别是人工键盘输入和计算机光学字符识别(OCR)扫描输入。
人工键盘输入属于手工作业,需要由录入人员看着图书,逐字录入,有着效率低、成本高的缺点。
OCR是一种先进的自动化技术,通过机器来大量识别图像为文本,是大量图书数字化的主要手段。
但是,如果图书是古籍的情况下,机器的录入难度就增加了不少。
缺字:由于计算机对文字的处理要通过编码来完成,国标字库(GB2312)收录有6763个字,国标扩展汉字字库(GBK)收录有20902个字。
而古籍中通用字约有四万,常用的异体字约为两万。
相对古籍中的繁体字、通假字、异体字、避讳字而言,计算机的编码库无法满足古籍输入要求。
排版:古籍不仅仅是竖排版的问题,有无钤印、句读、栏线,标注分为单行标注和双行标注,写本、刻本、家谱、碑拓等等,甚至出现手写字体,都会让计算机无法识别。
所以,要提高古籍识别系统的可用性和可靠性,必须建立一套自我学习系统,让它尽可能接触更多古籍:从中提取新字样来扩充字符集,识别新版式来增强版面分析能力。
2.2专业要求强、投入不足现代人能将古文顺利“认出”,就是一件非常难的事情。
句读:古文是没有标点符号的,在阅读古文时要做到正确表达和语气顺畅,必须注意文句间起承转合。
不懂句读会造成误读、误解原意,所以古人在《三字经》中要求“明句读”。
唐代文学家韩愈在《师说》中就提到“句读之不知,惑之不解,或师焉,或不焉,小学而大遗,吾未见其明也”。
除非进行专门的学习和研究,现代人很难读懂古文。
生僻字:汉字是在不断发展和变化的。
中国最早商代甲骨文中的文字有三千多字,汉代《训纂篇》有五千多字,《说文解字》有九千多字,晋代《字林》有一万二千多字,后魏《字统》有一万三千多字,唐代《玉篇》有两万二千多字,宋代《类篇》三万一千多字,清代《康熙字典》四万七千多字。
1915年,欧阳博存的《中华大字典》四万八千多字。
1970年,由张其昀主编的《中文大辞典》四万九千多字。
1990年,由徐仲舒主编的《汉语大字典》五万四千多字。
1994年,冷玉龙等的《中华字海》收入大量废弃的字,总字数多达八万五千字。
而新课标在义务教育阶段对学生的识字要求仅有三千五百个。
异体字:同一个汉字在古今也存在多种写法,比如有部分古书会把“嫦娥”中的“嫦”写成“常”。
鲁迅作品中的孔乙己强调茴香豆的“茴”有四种写法,这些字统称为异体字。
古籍整理要求把几个异体字改为一个字,需要有很多古文经验并结合上下文的理解,要求整理者有很深的古文专业知识。
所以古籍整理工作只能依赖于专业人员。
古籍资源数字化是传统文化学习与现代信息技术的结合,现在的古籍整理专业人员多为文科学生,很少有懂得计算机技术,而懂得计算机技术的人员又缺少古文知识。
同时进行两个学科人才的培养,要求教育机构提供跨学科的教育。
从目前的情况来看,投入是远远不足的。
二、搭建基于互联网的古籍数字化新平台经过了十几年的飞速发展,互联网从早期的由网站编辑人员主导发布内容,进化为由网络用户主导发布内容的互联网产品模式,也就是web2.0概念。
产生了如知识网络(维基百科、百度百科、百度知道)、社交网络(facebook、微博、微信)等等大量依赖用户做内容和推广的成功产品。
随着大数据、云计算等新技术的成熟,将互联网转化为数据库、向人工智能进化成为了可能,这些由用户上传、维护的内容,通过数据挖掘,将会产生难以想象的更高的价值。
那么古籍数字化这种专业性这么强的东西,如何交给互联网用户呢?互联网最大的特点就是海量数据的汇集,有时作为一个用户提交的看似很少的数据,在千万个互联网用户那里就形成了知识库。
我们使用一种知识网络为核心,通过验证码技术做为内容来源,搭建一个基于互联网的古籍数字化平台。
图1.知识网络为核心的古籍数字化平台架构1.互联网验证码的活用我们回到古籍输入。
既然古籍OCR那么困难,专业人才又不足。
是否有方法避开ORC这个过程,不需要依赖专家,又能完成古籍的输入呢?互联网给了我们一个非常简单、而且每天可能遇到很多次的办法,那就是各大网站系统的“验证码”。
在网络刚诞生的时候,是没有验证码这种东西的,网络上的用户注册,就像进入一个没有门铃、敞开大门的屋子。
这造成的结果是,伪装成用户的恶意程序,可以随意在网站注册,将垃圾评论和垃圾邮件肆意传播。
互联网时代早期,美国雅虎公司是最重要的免费邮件提供商之一,由于邮箱用户每天会收到大量这样的垃圾邮件,为此雅虎公司耗费了大量资源来阻止这些垃圾邮件。
通过工程师的分析,邮件的发出者正是来自于自己的服务器,恶意程序假冒用户申请了免费邮箱,每天有大量的垃圾邮件通过免费邮箱发出。
雅虎为此对人机辨识问题进行了研究。
最后雅虎选取了Luis V on Ahn提出的,通过验证码识别恶意程序的方案。
由于当时计算机辨识技术落后,对于经过扭曲、字迹有污染的文字(图4),计算机是不能辨识的,而人类只要看一眼就可以轻松认出这些文字。
计算机先是产生一个随机包含字母和数字的字符串,然后生成图像,用程序将图像上的字符串进行随机的污染、扭曲,再将图像推送到网站注册、登录的入口。
凡是能够准确辨识这些字符的视为人类,可以继续下一步服务。
图2.扭曲的文字使得机器OCR识别困难仅仅几秒钟,验证码技术带给了计算机网络安全,全世界每天都有数以十亿计的人通过几秒钟的时间辨认这些验证码。
卡内基梅隆大学的研究室有一个新的想法,每一次识别都有一次的输入,如何把这么多的输入都利用起来。
由于过去落后的印刷技术,歪歪扭扭的古籍文字天生能达到验证码的要求,为此卡内基梅隆大学成立了“reCAPTC HA计划”,以古籍录入为目标的验证码输入系统。
这个计划先将古籍仅做扫描后,由计算机程序切割成小段图像(图5),显示在验证码图像中。
网友在看验证码图像后用人脑识别然后输入,输入的结果汇集到服务器中。
通过“reCAPTCHA计划”,整个纽约时报130年的报纸存档的数字化,原本无法估算的时间和成本,由网友用了几个月就完成了。
图3.reCAPTCHA计划中数字化文档生成的验证码没有输入过的古籍是没有正确答案的,为了避免用户随意输入,为此卡内基梅隆大学改进了传统的验证码。
在新的验证码中,有两个字会被显示出来;一个是未辨别的字,另一个是知道答案的字。
如果验证码输入者正确的回答出已知答案的字,那么就假设他所输入的另一个没有答案的字也是经过认真考虑填写的,系统将这个结果作为正常输入而不是随便输入。
中国古籍中的汉字识别是非常困难的,要依赖字体、字库、需要学习等等,我们是否跳过这些操作去完成古籍数字化?“reCAPTCHA计划”给了我们很大的启示。
汉字作为“图像”来分离非常简单,只需要使用最基本的图像灰度扫描技术,便能非常清晰的将汉字所在的区域,一个一个的分离开。
然后就将分离开的图像,发送到互联网的一个一个页面中,由网友完成识别。
2.知识网络的建立验证码只能解决从图像到文字这个过程,究竟得到的“文字”是否正确,“reCAPTCHA计划”在解决中文古籍数字化时候就束手无策了。
英文从古至今,一共就26个字母。
而汉字究竟有多少个,至今没有一个统一的说法,光康熙词典中就收录了47035个,而且大量的异体字、生僻字。
不仅仅是识别,计算机是否对字库有支持,会给识别出的汉字的录入也带来极大的困难。
为了解决这个问题,我们引入互联网的知识网络。
图4.知识网络流程用知识网络来进行古籍数字化资料整理:使用简单知识网络的展现方式为超文本页面,可以快速生成、存储、更改,使维护更简单;使用简单的格式标记代替HTML格式标记,并通过简单标记,直接通过关键字名来建立链接;关键字名作为页面名称,并且被置于一个单层的平面空间中。