汉字的信息检索与内容可视化
AI自然语言处理 文本挖掘与数据可视化

AI自然语言处理文本挖掘与数据可视化自然语言处理(Natural Language Processing,NLP)是人工智能(Artificial Intelligence,AI)领域中的一个重要分支,它致力于使计算机能够理解、处理和生成人类语言。
文本挖掘与数据可视化则是在NLP的基础上,通过对文本数据的分析和可视化呈现,挖掘出其中隐藏的信息和模式,帮助人们更好地理解和使用文本数据。
一、自然语言处理的基本概念与技术自然语言处理技术经过多年的发展,已经取得了令人瞩目的成果。
其中,基本的概念包括词法分析、句法分析和语义分析。
词法分析是将自然语言文本分割成基本的语言单位,如词或者字符;句法分析是分析句子的结构和语法关系;语义分析则是理解和推断文本的意义和语境。
近年来,随着深度学习和神经网络的兴起,自然语言处理取得了一系列重大突破。
例如,基于深度学习的神经机器翻译在翻译质量上已经超过了传统的统计机器翻译;问答系统通过利用预训练的深度学习模型,能够回答人类提出的问题。
这些技术的发展使得机器能够处理和生成具有高度可读性和语义一致性的文本。
二、文本挖掘的主要任务与方法文本挖掘是利用自然语言处理和机器学习技术,从大量文本数据中发现模式、关联和知识的过程。
主要任务包括情感分析、文本分类、关键词提取等。
情感分析是文本挖掘中的一个重要任务,它旨在判断文本中所表达的情感倾向。
常用的方法包括基于机器学习的方法和基于深度学习的方法。
前者需要手工提取特征和训练分类器,而后者则可以通过端到端的方式直接学习情感表示和分类器。
文本分类是将文本数据按照预定义的类别进行分类的过程。
传统的方法主要基于词袋模型和统计特征,而随着深度学习的发展,基于神经网络的方法在文本分类任务上取得了令人瞩目的成果。
关键词提取是从文本中自动抽取出最具代表性的关键词或短语。
常用的方法有基于频率统计的方法和基于机器学习的方法。
近年来,基于图模型的方法在关键词提取任务上取得了较好的效果。
基于汉语言言学的信息检索技术研究

基于汉语言言学的信息检索技术研究随着互联网的普及和数据的飞速增长,信息检索技术越来越受到关注。
其中,基于汉语言言学的信息检索技术研究,是当前研究热点之一。
本文将从汉语语言学特点、信息检索流程、相关技术和研究趋势等方面,对此进行探讨和剖析。
一、汉语语言学特点汉语是世界上使用人数最多的语言之一,因此用汉语进行信息检索,在理论和实践上都有其独特性。
首先,汉语的词汇量非常庞大,虽然常用的词汇数量与其他语言相比不算太多,但是其复合词、动态规模和特殊短语等因素,使得词汇量变得非常庞大。
其次,汉语的词法特点也非常复杂,同一个词在不同的语境中,可能有不同的词义和形态,因此在信息检索时需要考虑上下文的因素。
此外,汉语还有重音、声调、易混淆的字形等特点,对信息检索的准确性和精度都有很大影响。
二、信息检索流程信息检索的一般流程包括问题提出、信息获取、信息处理和信息呈现四个步骤。
其中,问题的提出可以通过用户输入关键词或自然语言进行;信息获取可以通过搜索引擎、数据库或文献库等途径实现;信息处理包括信息的粗排、细排、摘要提取和信息的汇总呈现等工作;信息呈现则是将处理后的信息可视化地呈现给用户。
在基于汉语言言学的信息检索中,信息获取和处理是至关重要的步骤。
信息获取不仅要支持中文搜索和匹配,还要考虑到搜索结果的排序和去重等问题。
信息处理方面,则需要借助先进的自然语言处理技术,包括分词、词性标注、语法分析、实体识别、关键字提取等,以克服汉语特有的语言学障碍。
三、相关技术随着信息检索技术的发展,基于汉语言言学的信息检索技术也在不断地创新和发展。
以下是一些相关的技术:1.中文分词技术中文分词是将一段汉语文本分成一个个词语的过程。
这是信息检索的第一步,也是处理汉语文本的关键技术。
中文分词技术的主要目标是将汉字串分成有意义的词语或词段序列。
不同的中文分词算法有不同的特点和准确度,包括基于规则的方法、基于统计的方法、基于深度学习的方法等。
对文本关键字进行可视化的方法

对文本关键字进行可视化的方法一、关键词提取关键词提取是文本可视化中至关重要的一步,它能够帮助我们筛选出文本中最具代表性的词汇。
常用的关键词提取方法包括基于词频的TF-IDF方法、基于文本内容的TextRank 算法等。
这些方法可以根据文本内容计算出每个词汇的重要性得分,从而选出最重要的关键词。
二、标签云生成标签云是一种简单直观的可视化方式,它将关键词以标签的形式呈现,并根据关键词的重要程度对标签的大小、颜色等属性进行差异化设计。
标签云能够快速展示文本的主要内容,并且可以通过视觉效果突出关键词的重要程度。
三、词云图绘制词云图是一种更丰富的可视化方式,它除了展示关键词之外,还可以将关键词之间的关系以及文本的情感倾向等信息通过图形化的方式呈现出来。
词云图通常使用图形、线条、颜色等视觉元素来表示不同的信息,从而帮助用户更好地理解文本内容。
四、知识图谱构建知识图谱是一种以图形化的方式展示知识之间的关系和结构的信息可视化技术。
在文本可视化中,知识图谱可以通过展示关键词之间的联系和关系,帮助用户更好地理解文本内容的结构和层次。
知识图谱可以包含实体关系、概念层次等多种信息,从而提供更深入的文本理解。
五、情感分析情感分析是通过自然语言处理技术对文本的情感倾向进行分析和分类的一种方法。
在文本可视化中,情感分析可以帮助我们了解文本的情感倾向,从而对关键词进行情感色彩的标注和可视化。
情感分析可以通过颜色、形状等多种方式来表达情感的积极或消极倾向。
六、可视化仪表盘可视化仪表盘是一种将多种信息整合在一起的综合性可视化方式。
它可以通过图形化的方式展示文本的多个方面,如关键词的频率分布、情感倾向的变化趋势等。
可视化仪表盘能够提供全面的信息展示,帮助用户更好地理解文本的整体情况。
汉字电脑检索效率大大优于汉语拼音

电脑新时代汉字不再落后,其处理效率已经反超英文(其四)汉语拼音在纸质字、词典的检索中还保有优势,在电脑检索里变得不好用或不能用其一:汉字信息电脑存储----从沉重负担到比英文节省一半其二:汉字信息电脑编辑加工效率高过了英文其三:汉字信息电脑编辑加工效率高过了汉语拼音1.汉语拼音产生之前的汉文字、词典检索法传统的汉文字、词典的检索,除少数专门韵书外,长期普遍使用基于字形的方法,依据笔画数、笔形、部首进行;注音则使用直音或反切的繁难、低效的方法。
由于汉字字量庞大、结构复杂,长期发展、演变过程造成的理据性丢失、变异,部首、笔形、甚至笔画数有时难于简单、明确判定,使得检索产生困难。
汉文字、词典里,很少有两种其检索法完全相同的;每种里都会有一批难检索字。
这类字典今天的读者已经很少见到。
1984年中华书局(北京)影印了1936年的《中华小字典》属于此种类型,可在国家图书馆工具书室见到。
它完全使用字形检索法,注音使用反切,如‘到’字注音为‘朵奥切’。
当西学东渐,英文词典呈现在中国人面前时,那种只依赖26个字母顺序的检索法,就显得格外简单、确切、统一、普遍有效。
这导致汉字查检难的认识普遍流行,也刺激了汉语字典检索法的改革。
1918年民国政府公布注音字母。
这实际是一种民族形式的汉语拼音方案。
随之就有了依据注音字母的字典检索法的汉语字、词典出现。
这种字典使用注音字母注音,淘汰了反切,检索效率也和英文的类似,它迅速地成为主流方法。
此期间,也刺激了一批依据字形的新检索法问世。
如使用头尾号码法的《新国音学生字典》(陆衣言,中华书局,1929);《五笔检索学生字典》(陈立夫,中华书局,1934);周策勋的《永字八法国音字典》及最为著名的四角号码检字法(王云五)。
四角号码检索法,对于大量汉字甚是简单、有效;但也有好些汉字因结构特别而难于给定四码;有的则因笔画太少(如一,卜、九、人、...),也使得四角同样需要特别约定;又四角号码原则上只能处理9999个汉字。
标签云是基于语句的文本内容可视化

标签云是基于语句的文本内容可视化
标签云是一种文本内容可视化的方法,它将文本中出现频率较高的关键词以标签的形式展示出来,并根据关键词的重要性和频率大小进行排列。
标签云的形式通常是将关键词以不同大小、颜色、字体等方式呈现,使得用户可以一目了然地了解文本的主题和重点。
标签云的创建可以通过一系列的步骤来实现。
首先,需要对文本进行预处理,包括分词、去除停用词等操作,以便得到关键词列表。
然后,根据关键词在文本中的出现频率,进行统计和排序。
接下来,根据统计结果,选择合适的标签云形式进行展示,可以采用不同的排版算法和视觉效果来呈现关键词的重要性和频率。
标签云的应用十分广泛。
在信息检索领域,标签云可以用来展示搜索结果中的关键词,帮助用户快速了解搜索结果的主题和内容。
在新闻网站上,标签云可以用来展示热门话题或关键词,帮助用户了解当前热门事件。
在社交媒体上,标签云也可以用来展示用户的兴趣和关注点,帮助用户了解自己和他人的兴趣相似度。
除了基于语句的文本内容,标签云还可以应用在其他领域。
例如,在学术研究中,可以根据关键词的频率和重要性来生成标签云,帮助研究者了解某一领域的热点和趋势。
在企业管理中,标签云可以用来分析客户的需求和偏好,帮助企业制定营销策略和产品规划。
总而言之,标签云是一种基于语句的文本内容可视化方法,通过将关键词以标签的形式展示出来,帮助用户快速了解文本的主题和重点。
它在信息检索、新闻网站、社交媒体等领域有广泛应用,并且还可以拓展到学术研究和企业管理等领域。
211214884_基于CiteSpace_可视化分析的现代汉语量词研究综述

104《名家名作》·考证[摘 要] 以1980—2021年中国知网期刊数据库检索到的有关现代汉语量词研究的1077篇文献为数据来源,运用可视化分析工具CiteSpaceV.5.8.R3对其进行可视化分析。
结果显示,现代汉语量词的研究从发文量的年代分布上可以分为平缓增长阶段、快速增长阶段、逐步回落阶段。
论文作者队伍尚未形成,研究者之间缺乏广泛的交流与合作。
现代汉语量词的研究热点主要包括量词的分类研究、结合认知理论和语法化的研究、结合语义特征的研究。
基于对当前研究成果的分析与思考,应加强多理论、多学科的互动研究,以期推动现代汉语量词研究的深化与发展。
[关 键 词] 现代汉语量词;CiteSpace;可视化分析基于CiteSpace 可视化分析的现代汉语量词研究综述侯炳楠量词是汉语区别于其他语言的重要词类。
1898年马建忠编著《马氏文通》,最早开始了对于汉语量词的研究,该书涉及了量词的功能“故凡物之公名有别称以记数者”。
后来,吕叔湘、王力、高明凯等人开启了汉语量词的系统研究之路①。
前人多从语法角度对现代汉语的量词进行研究,从语义、词汇等角度对现代汉语量词的研究却不够深入。
只有明确了现代汉语量词研究的发展趋势和发展规律,才能为下一步的研究指明方向并打下坚实的基础。
20世纪80年代,汉语学界对于现代汉语量词的研究逐步增强,方法也灵活多样。
因此,本文以1980年至2021年间有关现代汉语量词研究的文献为语料进行整理与统计,通过CiteSpace 软件进行可视化分析,定量研究现代汉语量词的研究现状、研究热点及研究主题。
一、数据来源与研究方法(一)数据来源本文的数据来源于中国知网数据库。
在中国知网中,选择高级检索的方式,以“量词”为篇名,时间范围选择1980年至2021年,文献分类选择“哲学与人文科学”“社会科学Ⅰ辑”“社会科学Ⅱ辑”,接下来选择“中文”“学术期刊”“中国语言文字”学科,默认其他选项后进行检索,共得到1528篇文献。
数字人文视角下古籍资源知识挖掘与可视化研究——以《隋唐演义》为例

∗本文系山东省高等学校青年创新科技计划 儒家文化与文学关系研究 (项目编号:2020RWC004)的研究成果之一㊂作者简介:董守轩,博士研究生,研究方向为数字人文㊂收稿日期:2023-10-29㊀㊀㊀㊀责任编辑:杨千子ʌ数字㊃人文ɔ数字人文视角下古籍资源知识挖掘与可视化研究∗以‘隋唐演义“为例Ә董守轩中国海洋大学文学与新闻传播学院,青岛,266100[摘㊀要]文章从数字人文角度出发,以图书馆馆藏资源及各类电子数据库为主要来源,运用SNS ㊁Python ㊁Ge-phi ㊁QGIS 等技术和软件,通过数据模型和传统图表结合的形式,绘制历史演义小说‘隋唐演义“人物关系及时空分布的可视化图谱㊂相关的分析结果有助于完成古籍的深入挖掘,丰富人文研究的范式,为古籍资源的整合与知识数据的联结提供新的思路㊂[关键词]数字人文㊀‘隋唐演义“㊀人物关系㊀时空分布[中图法分类号]G353㊀㊀㊀㊀㊀[文献标识码]A㊀㊀㊀㊀[文章编号]1003-7845(2024)01-0056-08[引用本文格式]董守轩.数字人文视角下古籍资源知识挖掘与可视化研究 以‘隋唐演义“为例[J ].高校图书馆工作,2024(1):56-63.引言数字人文(Digital Humanities),是以数据为基础,以平台为支撑,运用数字技术方法来研究人文科学的一门学科[1]㊂这一术语最初来自人文计算(Humanities Computing)领域,早期的人文计算仅是一种纯粹的技术工具㊂此后,随着技术的进步及时代的发展,人文计算理论与实践不断完善,逐渐被用于一些人文社科领域㊂20世纪90年代初,人文计算开始被当作一个独立的交叉学科[2]㊂2001年,约翰纳㊃德鲁克(Johanna Drucker)计算机与人文协会和在文学与语言计算协会(ACH /ALLC)联合会议上作的报告‘现状核实:数字人文项目与前景“(Re-ality Check :Projects and Prospects in Digital Humani-ties )是 数字人文 在学术领域的首次出现㊂2004年,苏珊㊃施莱布曼等人编纂的‘数字人文指南“使用数字人文概念,标志着这一术语从人文计算到数字人文的转变[3]㊂事实上,数字技术的发展对传统人文学科产生了极为重要的影响,比如各类古籍数据库的出现,如爱如生中国基本古籍库[4]㊁鼎秀古籍全文检索平台[5]㊁中华经典古籍库[6]等㊂这些数据库往往存储了海量的古籍文献,研究者可以通过其检索功能迅速㊁精确㊁全面地找出目标古籍的相关内容,从而开展研究㊂部分高校图书馆还提供书籍的电子扫描㊁文本识别㊁资源共享等服务,对文献资料的保存㊁整理㊁研究起到重要作用㊂除数据库外,数字人文还促进了学术地图平台及各类人物世系数据资源的建构,如王兆鹏教授团队开发的 唐宋文学编年地图 平台[7],徐永明教授团队开发的 学术地图发布平台 [8],美国哈佛大学包弼德教授联合北京大学等机构合作建立的 中国历代人物传记资料库 [9]等㊂目前,部分高校图书馆也将这些非文献类的新型数据库纳入馆藏,作为师生学术研究的重要依据及来源㊂除上述宏观层面的实践外,部分学者也开始使用SNS㊁GIS㊁NLP 等数字技术及相关软件对文学作品进行数字化呈现㊂如赵薇[10]借助SNS 对‘大波“三部曲人物关系及社会网络进行可视化研究㊂徐永明等[11]利用GIS 软件将‘全元诗“作者的地理分布进行可视化呈现㊂孙建旺等[12]借助SVM 作为机器学习模型,分析微博文本的不同情感类型㊂传统文学作品的早期研究只能通过例证的形式对其中的主要人物或篇目进行分析,难以做到全面覆盖㊂而利用数字技术处理文本信息,则可以帮助研究者进行全景式 阅读,有效提取目标信息,并通过软件进行可视化㊂这一过程实际上是借助大数据计算及科学图谱模型完成的,利用数字技术处理文本信息改变了传统人文研究的固化思维,并为其提供了新的研究路径㊂‘四雪草堂重订通俗隋唐演义“(以下简称‘隋唐演义“)是清代文学家褚人获所编的长篇章回体小说,也是明清小说的代表之作㊂全书以史为经,以事件为纬,叙述了隋朝至中唐的百余年历史,塑造了众多的人物形象,故事情节中蕴含大量地名㊂书中的人物涉及社会各个阶层,既有王侯将相,也有平民百姓,这些人物以时间为序依次出场,构成了交错复杂的网状结构㊂因此,本文以书中的人物关系㊁空间分布为例,采用数字人文技术及相关理论,运用各类数据库㊁数字软件,以数据模型和图表相结合的形式,对书中人物的社交网络及地理空间分布等要素进行可视化呈现,将书中的人名㊁地名等实体具象化,并挖掘其内在的联系,从而为数字人文研究提供借鉴㊂书中的地名涵盖南北,基本囊括了隋唐时期的重要城市,具有重要的文学与史学价值,对了解明清小说家的创作倾向㊁隋唐的历史发展及图书资源知识的发现有着深刻的意义㊂1㊀‘隋唐演义“数据来源及数据清洗本文选取鼎秀古籍全文检索平台扫描识别的‘隋唐演义“电子版为原始数据来源,利用Python㊁Gephi㊁QGIS等工具,通过数据采集㊁数据清洗㊁数据处理㊁数据可视化㊁数据分析等流程对‘隋唐演义“进行全面而系统的研究,实现对小说知识的挖掘和发现㊂其中,数据采集阶段主要是对书的文本进行爬取,并以txt文件的形式保存爬取出来的数据㊂数据清洗阶段是利用Python中的jieba库进行分词,提取书中的人物㊁地名等内容,并绘制相应的表格㊂数据处理阶段是运用Gephi㊁QGIS等数字软件对书中的社交网络㊁地理分布等进行分析㊂数据可视化阶段是运用Gephi软件对数据进行可视化呈现,形成可视化图谱㊂数据分析阶段主要是对可视化图谱内容展开分析发掘,实现文本内容与数字技术的结合,具体流程如图1所示㊂2㊀‘隋唐演义“社会网络与人物共现关系首先,利用Python中的jieba库对‘隋唐演义“的txt文本进行分词,通过jieba库的posseg模块提取人名,排除非人名词语㊂然后,结合书的具体文本内容及相关的历史文献,对同一个人物的不同指代称谓进行设置,建立映射词表㊂通过软件得到具体数据后,再结合书的文本内容进行人工比对和增补,由此得出‘隋唐演义“所有人物的人名数据㊂再次,使用Python对‘隋唐演义“txt文本进行识别,如果两个人物同时出现在同一段落中,则可认为二者存在某种联系㊂经数据分析与人工核对统计,最终得到书中的302位人物及7220组共现关系㊂最后,将人物与共现关系数据导入Gephi软件进行处理,获得人物共现关系的可视化图谱,并进行网络直径㊁网络平均度等网络特征指标的计算㊂图1㊀‘隋唐演义“资源知识发现流程2.1㊀‘隋唐演义“人物关系挖掘2.1.1㊀共现网络关系图谱建构图,也叫网络,表示为G=(V,E),其中V表示图中的节点集合,E表示图中边的集合[13]㊂在图论中,度数表示一个节点的连接数,即与该节点相连接的边的数目,一个节点的度越大就意味着这个节点在某种意义上越 重要 [14]㊂节点的度与节点的大小相关,节点度值越大则节点面积越大㊂将所得到人物与共现关系数据绘制到Excel表格,以CSV格式保存,利用Gephi软件读取表格数据,并进行人物矩阵网络关系图绘制㊂在操作过程中设置节点的大小,节点大小与度相关,度越大则节点面积越大㊂此外,连接两节点的边的粗细程度反映了两节点联系的紧密程度,两节点间的边越粗则代表联系越紧密,可视化结果如图2所示㊂图2㊀‘隋唐演义“人物共现网络关系2.1.2㊀人物共现关系的网络特征指标分析人物共现关系网络的拓扑结构可以通过网络平均度㊁平均路径长度㊁平均聚类系数等指标进行分析,‘隋唐演义“人物共现关系的网络特征指标数据如表1所示㊂表1㊀‘隋唐演义“人物共现关系的网络特征指标数据集节点数边数网络直径网络平均度平均聚类系数平均路径长度人物共现关系网络3027220623.910.684 2.4㊀㊀通过表1可以看出,本次录入的人物共有302位,他们相互之间构成的社交关系共7220条㊂共现关系网络中的人物,平均需要2 3步即可建立联系,而最长则需要6步才能建立㊂网络中的每个人物平均与23 24个其他人物存在共现关系㊂每个人物之间的平均聚类系数为0.684,即共现概率为68.40%㊂综上所述,‘隋唐演义“中的人物联系较为紧密,具有较为明显的小世界特性㊂2.1.3㊀基于中心度的网络人物中心性分析计算出人物共现关系网络中每个人物的中心度,统计出‘隋唐演义“前40位核心人物,按照中心度的大小依次排列,结果如表2所示㊂表2㊀基于中心度的‘隋唐演义“前40位核心人物㊀㊀结合图2和表2可以看出,秦琼的度中心性最高,在人物关系网络中处于中心地位㊂秦琼出场时间早㊁社交网络广,全书以其为中心连接了众多人物㊂从小说来看,秦琼出身没落的将门,混迹于市井草莽之中,因而结交了各路绿林豪杰㊂本书的前半部分以秦琼为中心,塑造了秦母宁夫人㊁秦妻张氏等女性形象,以及单雄信㊁王伯当㊁徐世勣等英雄形象㊂随着事件的发展引出瓦岗寨与李唐的线索㊂李渊和李世民作为唐王朝的缔造者,广泛联络豪杰㊁讨平各方势力,自然是书中的核心人物㊂而徐世勣㊁程咬金㊁李靖等人都是经历隋末动乱和大唐初建的功臣,与唐密切相关,也是较为重要之人㊂李密㊁窦建德㊁王世充及与之相关的单雄信㊁王伯当等人作为起兵反隋的重要领袖,在小说前半部分有较多的戏份,因此地位也比较突出㊂至于隋炀帝杨广㊁萧后,及与之相关的宇文化及㊁沙夫人㊁花夫人等,在小说中作为反面形象出现,在书里是连接隋唐历史交替的重要纽带,具有不可或缺的作用㊂此外,还有李隆基㊁杨贵妃㊁安禄山等历史人物,虽在小说中出场较晚,但也具有多的戏份,处于重要的社交网络位置,因此地位也较高㊂2.2㊀‘隋唐演义“社交网络人物群体分析2.2.1㊀基于模块化的凝聚子群分解一般认为,模块化指数大于0.3,即代表网络具有较明显的社区结构,真实世界社区的模块化指数通常介于0.3 0.7之间[15]㊂经过计算,‘隋唐演义“网络的模块化指数为0.482,表明其具有较为明显的网络社区结构㊂利用Gephi模块化功能对‘隋唐演义“中的不同群体进行着色,以图谱的形式呈现人物的共现关系网络,从而较为清晰地区分互动相对频繁的群体,结果如图3所示㊂从图3可以看出,‘隋唐演义“人物的共现关系网络大致可分为4个群体,分别是以秦琼等为中心的A群体,占比43.05%;以杨广为中心的B群体,占比33.11%;以李隆基为中心的C群体,占比22.52%;以王勃为中心的D群体,占比1.32%,该群体完全处于边缘位置㊂除群体间的不同外,人物的共现关系网络还存在 中心 边缘 的差异㊂人物的共现关系网络边缘存在的大量孤立节点,说明众多边缘人物共现关联较少㊁地位较低㊂2.2.2㊀基于k-core的人物群体过滤利用k-core社交网络对人物的共现关系网络进行过滤,可以更为直观地看出核心人物及其存在的共现关系㊂根据计算出的人物关系网络特征数据,结合本研究的实际情况,最终以k=12为标准对‘隋唐演义“中人物的共现关系网络进行过滤,保留核心人物群体共现关系,并进行可视化呈现,结果如图4所示㊂图3㊀‘隋唐演义“人物模块化分解共现网络图4㊀‘隋唐演义“人物k-core结构共现网络由于设置了k=12的参数,故图3人物模块化分解共现网络中的D群体因重要程度较低而消失㊂需要说明的是该群体比较特殊,仅有王勃㊁宇文钧㊁阎伯屿㊁吴子章4人㊂此4人仅出现在小说的第71回 武才人蓄发还宫秦郡君建坊邀宠 ㊂究其原因,是作者褚人获在撰写‘隋唐演义“的过程中,有意地将王勃为滕王阁撰写‘滕王阁序“的历史典故穿插进去㊂此章过后,书中便再未对该群体4人的生平活动进行交代㊂2.2.3㊀核心人物群体分析根据‘隋唐演义“人物在共现关系网络中的中心度排名㊁基于模块化的凝聚子群分解以及基于k-core的人物群体过滤,统计并划分前40名核心人物群体,结果如表3所示㊂表3㊀‘隋唐演义“核心人物群体划分编号核心人物核心人物数/所在群体数1秦琼㊁李世民㊁李密㊁李渊㊁窦建德㊁单雄信㊁贾润甫㊁王伯当㊁徐世勣㊁程咬金㊁王世充㊁翟让㊁李靖㊁李如珪㊁柴绍㊁罗士信㊁罗成㊁齐国远㊁秦怀玉㊁魏征㊁张公谨㊁窦线娘㊁张氏㊁尉迟恭㊁刘武周㊁李元吉㊁宁夫人㊁宇文述㊁孙安祖29/1302杨广㊁萧后㊁袁紫烟㊁宇文化及㊁沙夫人㊁杨义臣㊁朱贵儿㊁花夫人8/1003李隆基㊁杨贵妃㊁安禄山3/684无0/4㊀㊀‘隋唐演义“的人物分属4个群体,设置编号为1㊁2㊁3㊁4㊂结合表2可以看出,前40位核心人物在其中3个群体中都有分布㊂以秦琼㊁李世民㊁李密等人为代表的群体1所涵盖的核心人物最多㊂这些人物主要活动于小说的前期和中期,部分经历了隋唐两朝,见证了隋亡唐兴的历史进程,也是书中最为重要的一个群体㊂从人物构成来看,其主要是李渊父子及隋末的各路豪杰,如李密㊁窦建德㊁贾润甫等㊂需要注意的是,宇文述虽被归为这一群体,但其与以杨广为代表的群体2也有着密切联系,情况较为特殊㊂以杨广㊁萧后㊁袁紫烟为代表的群体2主要活动在隋末这一时间段,在书中的前半部分出场㊂从人物构成来看,这一群体具有明显的 隋 属性,多为隋朝的武将谋臣和后宫妃子㊂其中,萧后㊁袁紫烟等都是后妃,长期陪伴在杨广周围㊂宇文化及㊁杨义臣两人一奸一忠,都是杨广较为倚重的臣子㊂他们常出入宫廷,为杨广出谋划策,也形成较为紧密的人物关系㊂群体3的人数较少,只有李隆基㊁杨贵妃及安禄山3人㊂他们虽出场时间较晚,但却是全书后半部分的关键人物㊂李隆基晚年沉迷享乐,任用李林甫㊁杨国忠等人,导致朝政腐败,最终爆发安史之乱㊂在小说里,李隆基专宠杨贵妃,两人往来频繁,关系极为密切㊂而安禄山前期刻意讨好唐玄宗李隆基,后期则形成敌对,构成了复杂的人物关系㊂上述群体不仅在内部互相联系,还在外部与其他群体保持沟通与互动㊂尤其是群体1和群体2的多位人物都有着双向的互动,如群体1的所有人原先都是群体2中隋炀帝杨广的臣子,李渊㊁李世民更是传统意义上的 皇亲国戚 ,只是随着隋炀帝杨广的倒行逆施才反叛㊂此外,群体2中的袁紫烟本是隋炀帝的妃子,隋亡后流落民间,结识了群体1中的贾润甫㊁徐世勣等人,并最终嫁给徐世勣,加入李氏父子的阵营㊂由此完成了从群体2到群体1的转变㊂而群体3的李隆基在小说中不仅是李渊的后代,还被设定为隋炀帝宠妃朱贵儿的托生,而杨贵妃则相应地成为杨广的转世,两人由隋入唐,经历了两世的姻缘结合,这一点带有轮回果报的宗教思想㊂因此小说不同群体人物之间往来频繁,联系紧密㊂2.3㊀数字人文视角与传统人文视角人物研究对比与传统人文视角相比,数字人文视角下的‘隋唐演义“人物研究具有以下3个新的特点:其一,研究的人物数据更多㊁涉及范围更广㊂数字人文研究借助数字技术,对书中的全体人物进行分门别类的详细探究,研究对象更加全面,研究结论更加可信㊂其二,利用Python㊁Gephi等软件将书中的文本信息进行可视化呈现,还原所有人物的社交网络关系,能更为直观地识别人物之间的社会关系及联系的密切程度㊂其三,在图谱的基础上,运用科学的SNS理论分析文本,借助相关的技术理论将书中人物划分为不同的凝聚子群,了解其内部关系及外在联系,更好地把握书中的人物布局㊂3 ‘隋唐演义“府㊁州㊁郡的时空分布首先,利用中国历史地理信息系统(CHGIS)及中国历代人物传记资料库(CBDB)的地名沿革系统,限定时期为 隋(公元581年 公元618年) 唐(公元618年 公元907年) ,查找书中府㊁州㊁郡的经纬度坐标,保留3位小数㊂其次,将书中府㊁州㊁郡地名和出现频次绘制成Excel表格,结果如表4所示㊂表4㊀‘隋唐演义“中的府㊁州㊁郡空间及密度分布3.1㊀‘隋唐演义“府㊁州㊁郡时间分布特点作为一部历史演义小说,‘隋唐演义“以时间顺序进行叙事,但时间线索相对隐晦,只能通过不同皇帝的在位情况予以辨别㊂从书中的文本内容来看,大体可分为3个阶段:隋文帝 隋炀帝时期,唐高祖 唐太宗时期,唐高宗 唐代宗时期㊂将‘隋唐演义“的txt 文本按照上述3个阶段进行划分,并将其保存为3个txt 文件,运用Python 软件依次统计长安㊁洛阳㊁潞州等7个府㊁州㊁郡在3个时期的出现频次,绘制出河流图,结果如图5所示㊂图5㊀‘隋唐演义“代表城市各个时期频次河流分布㊀㊀从图5中可以较为直观地看出,除西都长安㊁东都洛阳在3个时期内的分布较为均匀外,其余府㊁州㊁郡的分布都呈现出明显的下降态势㊂这些州㊁府㊁郡都集中在书中的第一个阶段(隋文帝 隋炀帝时期),而到了唐代以后,他们的出现频次陡然减少㊂结合书中的具体内容来看,隋末群雄并起㊁逐鹿中原的情节显然是全书的中心,也是作者着力刻画的部分㊂书中的主要人物秦琼㊁李世民㊁李渊等主要活跃于这一时期㊂而自第47回隋炀帝身死,至第100回唐代宗即位㊂作者用了一半的篇幅描写了唐朝百余年的历史,略显冗长散漫㊂通过历时变化可以看出,书中所讲述事件的后期从关注全国各地的人物事件,到只关注东㊁西二京的历史人物,经历了由整体地域空间到局部中心城市的转变㊂3.2㊀‘隋唐演义“府㊁州㊁郡空间分布特点‘隋唐演义“中出现的府㊁州㊁郡一级地点共57处,涉及较多的地名㊂从表4空间及密度分布来看,频次区间为 1 5 的府㊁州㊁郡级地名有30处,约占地名总数的一半㊂此外,区间为 6 10 的地名有9处,区间为 11 20 的地名有7处,区间为 21 50 的地名有4处,区间为 51 100 的地名有4处,区间为 101 300 的地名有3处㊂可见,即使是那些重要性不高的府㊁州㊁郡,‘隋唐演义“也给予了一定的记录㊂而涉及重要人物㊁事件的地方,更是加强着墨㊂ 记所遇之地,即系地;记相见之时,即编年㊂ [1]‘隋唐演义“已具备一定的 系地 意识,有意识地对地域空间进行记录,从而使文本内容更加真实可信㊂此外,这样的行文方式对事件的展开起到了一定的辅助作用,可以帮助受众更好地理清人物与空间的交互关系㊂小说描绘的是隋唐故事,这一时期的重大历史事件往往集中在长安㊁洛阳㊁幽州等北方都会,如李渊父子起兵于太原㊁安史之乱爆发于范阳㊁张巡死守睢阳等㊂同时,书中前半部分出场的豪杰也多为北方人士,故小说总体以北方各州郡为中心,呈现北多南少的特点㊂此外,书中的地名主要集中于唐代的河东㊁河南㊁河北3道㊂其中,河东道下辖的太原府是李渊父子的根据地,聚集了众多英杰,河东道的泽州㊁潞州也是小说较早出现的地名,重要人物秦琼㊁单雄信等人早期活动于此;河南道包括今山东大部及河南一部,其下辖的齐州㊁青州等属现在的山东,早期王伯当㊁程咬金等英雄人物位于此,导致此道地名较多;与之有别,河北道各州郡出现时间较晚,多在第14回后出现,其所属的幽州㊁贝州㊁涿州,属反派窦建德㊁安禄山等人的势力范围㊂3.3㊀数字人文视角与传统人文视角时空研究对比与传统人文视角相比,数字人文视角下的‘隋唐演义“空间研究具有几个新的特点:其一,可以采集的地理数据更多㊂传统研究往往只能选取个别地域,如对关陇地区隋唐人物进行研究[16-17]等㊂而数字人文研究可借助GIS技术及Python㊁QGIS等软件,对书中出现的地名及人物活动地域进行精确的经纬度定位,从而得出更为准确且全面的结论㊂其二,传统空间研究无法直观还原空间分布特点,而数字技术可以在唐代当时的历史地图上直接实现标注,形成空间及密度分布表,以图表和数据的形式使府㊁州㊁郡的区划分布变得一目了然,便于后续研究的展开㊂其三,传统研究不能做到深入理解书中不同时期的空间分布特点,而通过数字技术可以实现对‘隋唐演义“文本的拆分,从而对不同历史时期的府㊁州㊁郡分布有更为直观的了解,由此探知书中的编排布局及创作规律,从而更好地分析书中人物与时空分布之间的联系㊂4 结语本研究充分运用数字人文技术及SNS㊁GIS的相关方法论,从非结构化的‘隋唐演义“的小说文本中抽取出结构化的人物与府㊁州㊁郡实体,进行社交网络及地理空间分布的可视化分析㊂需要注意的是,本文仅是基于长篇历史小说‘隋唐演义“的文本所展开的人物关系挖掘,网络所呈现的人物关系及地域空间与真实的历史可能会有所出入㊂此外,小说中的一些人物塑造得比较简略,地名存在偏差,因此一定程度上会影响研究的准确性㊂总之,本研究是将社会网络分析及地理信息系统用于分析古典长篇历史演义小说的实践尝试㊂通过数据采集㊁数据清洗㊁模型构建㊁数值统计㊁分析阐释等步骤完成从质化描述到量化分析㊁传统文学研究到数字人文结合的转变,在一定程度上拓宽了学术视野,为文学研究带来新的思路与方法㊂期待未来有更多的学者运用先进的数字技术研究传统人文学科,并推动其向前发展㊂参㊀考㊀文㊀献[1]㊀王兆鹏,邵大为.数字人文在古代文学研究中的初步实践及学术意义[J].中国社会科学,2020(8):108-129,206-207. [2]㊀赵雪芹,党昭,李天娥.数字人文视角下的档案信息资源开发问题与对策[J].北京档案,2021(1):18-22.[3]㊀薄一航.后数字时代计算思维下的电影研究新范式[J].北京电影学院学报,2023(10):23-32.[4]㊀爱如生中国基本古籍库个人版[EB/OL].[2023-11-17].ht-tp:///.[5]㊀鼎秀古籍全文检索平台[EB/OL].[2023-11-17].https://.[6]㊀中华经典古籍库[EB/OL].[2023-11-17].http://publish.an-/docShuju/platformSublibIndex.jspx?libId=6.[7]㊀搜韵.唐宋文学编年地图平台[EB/OL].[2023-11-17].ht-tps:///MPoetLifeMap.aspx.[8]㊀学术地图发布平台[EB/OL].[2023-11-17].http://amap..[9]㊀中国历代人物(CBDB)[EB/OL].[2023-11-17].https:///biog.[10]赵薇.社会网络分析与 ‘大波“三部曲 的人物功能[J].山东社会科学,2018(9):50-64.[11]徐永明,唐云芝.‘全元诗“作者地理分布的可视化分析[J].浙江大学学报(人文社会科学版),2019(1):150-160. [12]孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014(7):177-181. [13]Even S.Graph Algorithms[M].Cambridge:Cambridge UniversityPress,2011:1.[14]张春红,于翠波,朱新宁,等.社交网络(SNS)技术基础与开发案例[M].北京:人民邮电出版社,2012:42.[15]Green D G,Liu J,Abbass H A.Dual-phase evolution[M].NewYork:Springer,2014:3-40.[16]徐清廉.论隋唐的门阀之争与关陇集团[J].西北大学学报(哲学社会科学版),1981(1):91-98,111.[17]刘彭冰.关陇集团与关中文化本位研究综述[J].西部学刊,2017(12):36-38,63.Study on the Exploitation and Visualization of Knowledge in Ancient Book Resources from the Perspective of Digital Humanities: Taking Romance of the Sui and Tang as an ExampleDong ShouxuanCollege of Liberal Arts,Journalism and Communication of Ocean University of China,Qingdao,266100 Abstract㊀This article,from the perspective of digital humanities,utilizes library collection resources and various electronic databases as the main basis.It employs methods and software such as SNS,Python,Gephi,and QGIS to draw the visualized charts of character relationships and temporal-spatial distribution in the historical fiction Romance of the Sui and Tang through a combination of data mod-els and traditional charts.The analysis results contribute to the in-depth exploration of ancient books,enrich the paradigm of humani-ties research,and provide new ideas for the integration of ancient book resources and the linkage of knowledge data. Keywords㊀Digital humanities;Romance of the Sui and Tang;Character relationship;Temporal-spatial distribution㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀(上接第48页)A Systematic Review of Research Data ManagementCapability Maturity Assessment ModelsJin YegangFudan University Library,Shanghai,200433Abstract㊀The research data management capability maturity assessment model identifies and improves deficiencies in practices by comparing current research data management practices with best practices.This study aims to describe the current state of development of research data management capability maturity assessment models in the context of Big Science. To this end,a systematic mapping study was conducted on a series of high-quality research results published in five related databases.The analysis of30research out-comes highlights the deficiencies and challenges in the field.Despite the gradual refinement of the concept of research data manage-ment,there is a lack of good consensus on the domain ontology among scholars,and the absence of objective factors in the models leads to insufficient innovation motivation in the field.In addition,there are issues with the unclear role positioning of management institu-tions in the assessment models and a significant lack of interaction between model construction and entities outside academia.The arti-cle hopes to provide new research directions and suggestions for the future study of research data management capability maturity assess-ment models.Keywords㊀Research data management;Capability maturity;Maturity assessment;Systematic review;Systematic mapping study。
我国汉语中介语语料库研究现状与热点透视——基于CiteSpace的可视化分析

我国汉语中介语语料库研究现状与热点透视——基于CiteSpace的可视化分析蔡武;郑通涛【摘要】运用可视化分析软件CiteSpace5.0及文献计量方法,以1993年至2016年中国知网期刊全文数据库中汉语中介语语料库建设与应用研究的相关论文作为数据来源,对其进行统计分析;全面地梳理和考察了这些论文的发表年代、发文期刊、发文机构、核心作者及关键词聚类形成的研究热点,并绘制可视化知识图谱.这有助于理清当前我国汉语中介语语料库研究的知识结构和发展脉络,以期为未来该领域研究的深入与推进提供参考.【期刊名称】《华文教学与研究》【年(卷),期】2017(000)003【总页数】9页(P79-87)【关键词】汉语中介语语料库;CiteSpace;研究现状与热点;可视化分析【作者】蔡武;郑通涛【作者单位】厦门大学海外教育学院,福建,厦门361102;厦门大学海外教育学院,福建,厦门361102【正文语种】中文【中图分类】G250.74;H1951995年,北京语言学院建成了中国第一个汉语中介语语料库。
进入21世纪以来,随着汉语国际教育事业的不断深化,南京师范大学、中山大学、暨南大学等高校的汉语中介语语料库相继建成,汉语中介语语料库建设跨入了繁荣发展的重要时期。
与此同时,口语语料库、多模态语料库、单国别及单母语背景学习者的中介语语料库、国内少数民族的汉语中介语语料库等不同形式的语料库也逐渐进入人们的视野(张宝林、崔希亮,2013);而与汉语中介语语料库建设热潮及形式多样化相对应的是,汉语中介语语料库的建设与应用给学界带来诸多新的课题。
可以说,汉语中介语语料库不但为研究者探索汉语的语言现象提供了更多的语料资源,也极大地提高了汉语作为第二语言教学研究的水平(崔希亮、张宝林,2011)。
20多年来,汉语中介语语料库相关的研究及学术成果不断增加。
在这样的背景下,深入探究和挖掘当前该领域的研究现状与研究热点,是非常有必要的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字的信息检索与内容可视化
汉字作为中文的书写系统,承载着丰富的信息和文化内涵。
随着信息时代的到来,人们对汉字的信息检索和内容可视化的需求也越来越高。
本文将探讨汉字的信息检索与内容可视化的发展现状和未来趋势。
一、汉字的信息检索
1.1 传统的汉字检索方式
在互联网时代之前,人们主要通过字典和词典来查找汉字的含义和用法。
这种传统的检索方式虽然能够满足基本需求,但存在着效率低下和信息量有限的问题。
尤其是对于复杂的汉字,传统的检索方式往往无法提供详细的解释和相关的语境信息。
1.2 汉字信息检索的现状
随着互联网的普及和技术的发展,汉字信息检索的方式也得到了革新。
搜索引擎的出现为人们提供了更加便捷和全面的检索方式。
通过输入关键词,搜索引擎能够迅速为用户提供相关的汉字信息和语境。
此外,一些专门的汉字检索工具和应用程序也逐渐出现,方便用户进行更加精确和高效的检索。
1.3 汉字信息检索的挑战与未来
然而,汉字信息检索仍然面临着一些挑战。
首先,汉字的多义性和歧义性使得检索结果的准确性有待提高。
其次,汉字的语义关联和上下文信息对于检索结果的理解和解释至关重要。
未来,通过自然语言处理和人工智能的技术不断发展,汉字信息检索的准确性和智能化将得到进一步提升。
二、汉字内容的可视化
2.1 汉字内容可视化的意义
汉字作为一种符号系统,其形态和结构蕴含着丰富的信息和美感。
将汉字内容
进行可视化,可以使得抽象的文字变得直观和有趣,提升人们对汉字的理解和记忆。
此外,汉字内容的可视化还能够创造出各种形式的艺术作品和设计元素,丰富了人们的生活和文化体验。
2.2 汉字内容可视化的实践与应用
近年来,汉字内容可视化的实践与应用得到了广泛的关注和探索。
一些艺术家
和设计师通过将汉字与图形、色彩等元素相结合,创作出了一系列独特的作品。
此外,一些教育机构和科技公司也开发了一些汉字内容可视化的工具和应用程序,帮助人们更好地学习和理解汉字。
2.3 汉字内容可视化的挑战与未来
尽管汉字内容可视化已经取得了一些成果,但仍然面临着一些挑战。
首先,汉
字的复杂性和多样性使得可视化的方式和效果需要不断探索和创新。
其次,汉字内容可视化的教育和应用还需要更加普及和推广。
未来,随着技术的发展和人们对汉字文化的重视,汉字内容可视化将会有更广阔的发展空间。
结语
汉字的信息检索与内容可视化是一个与时代发展相适应的重要课题。
通过不断
创新和探索,我们可以更好地利用现代技术和方法,满足人们对汉字信息的需求,并将汉字的美感和文化内涵传递给更多的人。
相信在不久的将来,汉字的信息检索与内容可视化将会取得更加丰硕的成果。