文献数据库中书目信息共现挖掘系统的开发
基于数据挖掘的学术研究文献推荐系统研究

基于数据挖掘的学术研究文献推荐系统研究近年来,伴随着信息技术的快速发展,数据挖掘技术被广泛应用于不同领域。
其中,学术研究是数据挖掘的一个重要领域。
学者们不断进行学术研究,挖掘出丰富、深入的学术文献,为学术界和工业界做出了重要贡献。
然而,由于研究领域之间的差异,学者们不那么容易了解并掌握与其领域相关的学术文章。
因此,基于数据挖掘的学术研究文献推荐系统就显得非常重要。
一、系统架构基于数据挖掘的学术研究文献推荐系统的架构一般分为三个部分:前端界面、后端服务器和数据库。
前端界面主要负责用户交互和展示。
后端服务器主要负责处理客户端请求,调用数据库和数据挖掘算法并返回结果。
数据库主要负责存储大量的学术文献数据。
二、数据集学术研究领域数据量庞大,而且不同领域之间的分类标准也千差万别。
因此,数据集的选择非常重要。
一个好的数据集可以保证算法运行的效率和结果的准确性。
目前,国内外经典的学术文献数据集有DBLP,ACM,arXiv等。
这些数据集都经过了多年的更新和维护,拥有丰富的学术文献信息,非常适合用于学术推荐系统的研究。
三、算法模型学术研究文献推荐系统的关键在于算法模型。
算法模型的选择和优化可以大大改善系统的性能。
当前,学术推荐系统主要采用以下几种算法模型:协同过滤算法、主题模型算法和深度学习算法。
1. 协同过滤算法协同过滤算法是目前比较流行的推荐算法。
其原理是基于相似性来推荐。
具体而言,系统分析用户的行为历史和其他用户的行为历史,计算出与之相似或相近的用户,推荐其喜欢的文章。
这种算法要求数据集中有大量的用户行为数据。
2. 主题模型算法主题模型是一种文本挖掘算法。
其基本思想是将文本中的各个单词按照概率分布的形式组成主题,然后将不同的主题划分到不同的文本中。
主题模型算法可以挖掘出一个文本或一篇文章的主题嵌入,较为适合用于学术研究文献推荐系统。
3. 深度学习算法深度学习算法是近年来兴起的一种算法。
其基本思想是模拟人类大脑的神经网络来进行推荐。
国内大概念教学研究的热点领域和现状分析——基于CNKI文献的共词分析研究

系统的开发[J]. 现代图书情报技术,2008(8):7075. [3] 钟伟金,李佳 . 共词分析法研究(二)——类团分析 [J]. 情报杂志,2008(06):141-143.
(上接第 11 页) 办学经验。
二、国内大概念教学研究的分布统计与 分析
1. 时间分布 2010 年杨晓慧发表的文章《从“大概念”看 幼儿需要什么样的数学知识》,是知网收录的第
一篇“大概念”主题文献,之后数年关注大概念的 文献屈指可数。2017 年普通高中新课标的正式公 布,明确了大概念在教学中的价值和地位之后, 相关研究呈爆发式增长,2020 年关注该主题的文 献数量为 285 篇。
(作者单位:北京汇文中学)
参考文献:
[1] 教育部 . 教育部关于印发《普通高中课程方案和语 文等学科课程标准(2017 年版 2020 年修订)》的通 知[EB/OL]. (2020-06-03)[2021-03-18]. http:// /srcsite/A26/S8001/202006/t20200603_
领域(1)位于第一象限,大概念、核心素养、 单元教学也是排名最靠前的高频关键词,说明这些 关键词是大概念教学研究领域的热点,在整个学科 大概念教学领域处于核心地位,研究成果较多。领 域(2)和领域(4)位于第四象限,即属于研究核 心但研究还有待加强的领域。领域(4)的向心度 明显大于领域(2),且和领域(1)的向心度接近, 说明关注大概念下的课程开发与设计属于研究的 热点,但研究较为分散,组内相互关联度较小。 领域(2)的密度大于领域(4),说明生物学科 关注大概念教学的研究较为集中。领域(3)和领 域(5)均位于第三象限,这说明大概念在达成学 生深度学习等方面还没能形成共识,并可能存在 研究的分歧。领域(5)关注的是科学学科的大概 念教学,理论和内容的梳理较为全面,研究起步相 对较早,但是由于科学学科现在还不是中、高考科 目,多属于小学课程,受关注度不足,可能存在 研究止步不前的现象。同时从图中可以看出位于 第二象限的研究内容缺失,这说明大概念的研究 处于起步阶段,大概念主题研究的辐射效应存在 但仍有限,周边领域的研究未达到成熟阶段。
图书馆的信息检索工具与技术实践案例

图书馆的信息检索工具与技术实践案例在当今信息爆炸的时代,图书馆作为信息资源的重要承载者和提供者,扮演着不可忽视的角色。
为了更好地满足读者的需求,图书馆引入了各种信息检索工具与技术。
本文通过分析实际案例,介绍了几种常用的图书馆信息检索工具与技术的运用,以及其在实践中的效果与体现。
一、OPAC(Online Public Access Catalog)在线公共目录OPAC是图书馆最常用的信息检索工具之一,它使读者可以通过计算机终端进行图书馆藏书资源的检索与查询。
以某大学图书馆为例,他们将OPAC与校园网络无缝集成,提供了简洁直观的检索界面,读者可以根据书名、作者、主题等多种方式进行快速检索。
而且OPAC还支持预约、借阅、续借等图书馆常用服务的在线操作。
通过OPAC的应用,图书馆缩短了读者找书的时间,提高了图书借还效率,增强了服务质量。
二、数据库检索工具图书馆订购了大量的数字数据库,如知网、维普、万方等,这些数据库可以提供期刊、论文、报纸、专利等多种类型的文献资源。
为了方便读者的检索,图书馆利用数据库检索工具将这些数据库进行整合,构建了集成检索平台。
读者只需要在平台上输入检索词,就能一次性检索到所有相关的文献,而不需要逐个数据库进行检索。
此外,这些数据库检索工具还提供了高级检索、篇章检索、文献推荐等多种功能,帮助读者更加便捷地获取需要的信息。
三、数字图书馆随着数字化时代的到来,越来越多的图书馆将传统馆藏资源进行数字化,建设了数字图书馆。
数字图书馆不仅提供了电子书籍的借阅和下载,还通过元数据和全文索引等技术提供了多样化的检索方式,如分类检索、时间检索、全文检索等。
某市公共图书馆开发了一款手机APP,通过该APP可以在线阅读数字图书馆的藏书,在读者无法到馆的情况下也能随时获取所需信息。
数字图书馆的建设为读者提供了更加便利的阅读途径,丰富了图书馆的服务形式。
四、数据挖掘技术数据挖掘技术在图书馆的信息检索与利用中也起到了重要的作用。
BICOMB使用说明书

书目共现分析系统(Bibliographic Items Co-occurrence Matrix Builder,BICOMB2.0)使用说明书中国医科大学医学信息学系开发沈阳市弘盛计算机技术有限公司协作开发2014年1月前言 (1)安装 (2)运行 (3)数据收集 (4)建立项目 (13)提取字段 (15)频数统计 (21)矩阵生成 (23)词篇矩阵 (23)共现矩阵 (23)附录 (26)SPSS聚类分析 (26)生物医学文献正在爆炸式的增长,同时随着网络技术和文献电子化的发展,书目文献数据库中收集了巨大数量的文献信息,单凭人工在浩瀚的文献海洋中发现和获得自己需要的信息变得困难重重,但这也同时为生物医学文本挖掘提供了广阔的舞台。
《书目共现分析系统》(Bibliographic Items Co-occurrence Matrix Builder,以下简称BICOMB)便是在此背景下应运而生。
该软件系统由中国卫生政策支持项目(HPSP)资助开发,后又受中国医科大学《“十二五”医学教育科学研究课题》的资助进一步升级改进为2.0版本,采用目前技术成熟、流行的数据库语言开发,可对医学文献数据库中的书目信息进行快速读取、准确提取字段并归类存储、统计,并生成书目数据的共现矩阵,为进一步研究提供全面、准确、权威的基础数据。
作为文本挖掘的基础工具,BICOMB可对国际上权威的生物医学文献数据库PubMed、引文数据库Science Citation Index(SCI)、中国知网(CNKI)和万方数据等数据库的文献记录进行读取分析,并允许用户对系统功能进行修改、增加等拓展。
本软件系统作为文本挖掘的基础工具,希望在情报分析中得到广泛而充分的应用,为生物医学及其他学科的研究开展做出贡献。
一、电脑的准备:软件系统在安装了Windows98/2000/NT/XP/Visat等操作系统的电脑上均可正常运行。
不建议使用Windows ME/2003等版本。
国外学校心理学研究的进展r——基于WOS数据库1232篇文献的分析

国外学校心理学研究的进展r——基于WOS数据库1232篇文献的分析孔燕;朱芬;王少【摘要】本文基于Web of Science核心合集数据库中2000-2016年收录的1232篇英文文献,借用HistCite、Bicomb和Spss等分析工具,从热点主题、经典著作及发展趋势三个层面探讨了国外学校心理学研究进展.结果显示:暴力高危学生的心理咨询、学校心理学家及教师的培训、学生学习障碍、学校心理服务等主题成为热点;循证实践干预、生态系统构建等相关研究地位突出;未来研究将更多关注学校心理服务的多层框架、青少年的攻击行为、课程本位测量手段在学习障碍领域的应用.【期刊名称】《外国中小学教育》【年(卷),期】2017(000)009【总页数】9页(P14-22)【关键词】学校心理学研究;研究焦点;研究方式【作者】孔燕;朱芬;王少【作者单位】中国科学技术大学人文与社会科学学院合肥230000;中国科学技术大学人文与社会科学学院合肥230000;中国科学技术大学人文与社会科学学院合肥230000【正文语种】中文经济的快速增长导致社会剧烈变化,家庭生活水平和社会压力一同增加。
面对激烈的社会竞争,家长常常会忽视孩子的基本教育需求和日常关怀诉求,从而使越来越多的孩子出现抑郁、焦虑、孤独等心理问题和心理障碍,严峻的现实促进了学校心理学的发展。
1946年,美国心理学会年会将学校心理学列为第16个分支,学校心理学作为一门学科或一种职业第一次得到组织认可,由此进入学科发展的婴儿期。
20世纪60年代上半叶,以《学校心理学杂志》和《学校中的心理学》期刊的创建为基点,学校心理的学术研究步入发展阶段。
美国是最早开始学校心理学实践和学术研究的国家,且拥有世界上最先进的学校心理健康教育设施与服务,学术文献数量和高被引文献数量都居于前列。
加拿大、英国、荷兰等国家心理学学科健全、学校心理服务条件成熟,也为该领域奉献了众多宝贵的研究成果。
澳大利亚虽起步晚,但具备先进的实验设备,近年来学校心理学研究也发展迅速。
基于数据挖掘技术的图书馆信息推送服务参考系统的开题报告

基于数据挖掘技术的图书馆信息推送服务参考系统的开题报告一、选题背景及意义图书馆是高校重要的知识资源中心,其藏书丰富、信息全面,是学生、教师和研究人员研究、学习和教学的重要场所。
但是,由于图书馆藏书众多,馆藏信息庞杂,用户在使用过程中难以找到自己需要的信息,而向用户推荐相关信息,则是图书馆提供更好服务的有效方法。
因此,基于数据挖掘技术的图书馆信息推送服务系统的研发具有很高的现实意义。
二、选题的研究现状目前,基于数据挖掘技术的图书馆信息推送服务已得到一定的研究和应用。
国内外许多图书馆已经或正在开发此类系统,例如,新加坡国立大学图书馆推出了“书香智慧推荐”系统,美国加州大学伯克利分校图书馆开发了面向智能手机和平板电脑的图书馆服务应用等。
但是,目前这类系统还存在问题。
首先,由于图书馆藏书的特殊性,现有的数据挖掘算法对于图书馆数据的处理有效性还不够。
其次,由于用户对于数据挖掘技术的了解不足,他们难以理解系统对于信息的分类和推送。
因此,如何让用户对于系统的分类和推送更加信任,以及如何提高系统的分类和推荐准确率,是本系统需解决的难题。
三、选题内容本系统将采用数据挖掘技术对图书馆馆藏信息进行挖掘和分析,进而根据用户的个人信息、行为习惯等特征推送适合用户的相关信息。
系统包含以下模块:1.数据抓取和预处理:抓取图书馆数据库中的馆藏信息,对信息进行预处理,去除噪声数据等。
2.用户行为分析模块:该模块主要分析用户对于图书馆服务的使用情况,包括用户搜索信息的关键词、浏览馆藏信息的频率和时间等。
3.用户特征提取和建模模块:根据用户的个人信息、行为习惯等特征,提取并建立用户画像模型。
通过挖掘大量信息,建立用户兴趣模型,分析用户潜在兴趣。
4.系统推荐模块:根据用户兴趣模型,对于图书馆馆藏信息进行分类并推荐用户感兴趣的相关信息。
5.用户反馈和评价模块:用户对于推荐信息的反馈和评价,是改善推荐准确率和提高用户满意度的有效方法。
四、预期目标本系统的预期目标为:1.能够准确地分析和挖掘图书馆馆藏信息,并根据用户的个人信息和行为习惯推荐相关信息。
数字图书馆中的信息检索与知识发现研究

数字图书馆中的信息检索与知识发现研究随着信息技术的飞速发展,数字图书馆已经取代了传统的纸质图书馆成为获取知识与信息的重要途径。
如何在海量的数字资源中高效地检索到所需要的信息,成为了数字图书馆领域的热门研究课题。
本文将就数字图书馆中的信息检索和知识发现进行探讨,并介绍相关的研究进展。
一、信息检索的概念与技术原理信息检索是指通过文本查询等方式,从信息库中找到与用户信息需求相关的文档或资源的过程。
其目标是使用户能够快速准确地从数字图书馆中获取所需的信息。
信息检索的关键在于建立索引和执行查询。
索引可以通过词义、语法和语义等多种方式进行构建。
而查询则通常是通过检索词与索引进行匹配,进而找到与之相关的文档。
传统的信息检索技术主要是基于关键词匹配,例如使用布尔查询模型或向量空间模型。
然而,这种方法往往面临着查询词语义消歧等问题,导致检索结果的准确性和相关性不高。
二、知识发现的概念与应用场景知识发现是指通过对海量数据进行挖掘和分析,发现其中蕴含的有用知识,并构建知识库的过程。
与信息检索相比,知识发现更注重对数据背后的隐含知识及其规律的挖掘和统计分析。
知识发现的应用场景非常广泛,包括智能搜索、个性化推荐、自然语言处理等。
例如,搜索引擎可以通过对用户的搜索行为进行分析,提供更加个性化的搜索结果。
而个性化推荐系统则通过分析用户的兴趣爱好和行为,向用户推荐可能感兴趣的内容。
三、信息检索与知识发现的融合目前,研究人员致力于将信息检索和知识发现相结合,以提供更加智能化的数字图书馆服务。
其中,机器学习和自然语言处理是重要的研究手段。
通过对大量的文本数据进行训练,机器学习算法可以自动提取特征和规律,从而改善信息检索的效果。
例如,使用深度学习算法可以通过学习语义关联性提高检索结果的准确性。
另外,自然语言处理技术可以对用户的查询意图进行理解和分析,从而提供更加精准的检索结果。
四、信息检索与知识发现的挑战与未来发展方向尽管在信息检索和知识发现领域已经取得了一些重要的研究成果,但仍然存在一些挑战和问题需要解决。
文献信息分析理论方法及应用

文献信息分析的内容
影响因子(Impact Factor,IF)是指某一期刊的文章在 特定年份或时期被引用的平均频率。影响因子的计算 方法是:用某刊的被引用次数除以该刊刊载的论文数, 实际计算影响因子的方法为某年某一期刊在过去两年 中所发表的论文被引用的总次数与该刊在同一时期内 发表论文的总数之比。
文献信息分析软件
Vosviewer 的优势在于可视化,能从多个视图对结果进行 展示,可构建多种矩阵,并支持文本挖掘,但其无法实现数 据的去重,不能通过时间演变展示一个领域的演进路径。
SciMAT 具有强大的预处理能力,能构建多种文献计量学 网络,并以文献计量学指标对结果的影响力进行定量分析, 还可通过配置向导的方式引导用户进行分析。
问题,其最大的优势在于其强大的聚类分析功能。
文献信息分析软件
每一个工具都有着不同的特点,没有一个工具能够囊括 所有的功能。比较结果显示,Citespace,SCI2,SciMAT功能较 完整,其他工具也有各自的优势。 在开展分析时,应了解不同工具的特点,再根据不同的分 析目的、特性和拟解决的问题,选择恰当的分析工具。
北京大学图书馆
《中文核心期刊要目总览》
中国科技信息研究所
《中国科技期刊引证报告》
中国科学院文献情报中心 《中国科学引文数据库来源期刊》
文献信息分析的内容
论文的作者与核心作者 洛特卡定律:
f(x)为写x篇论文的作者占作者总数的百分比,x为论文篇 数,C为某主题领域的特征常数。
文献信息分析的内容
论文的作者与核心作者 普赖斯(Derek John De Solla Price)提出了核心生产者 的“平方根定律”,即在某一特定领域中,全部论文 的半数系由该领域中全部作者的平方根的那些人撰写 的。这些人无疑是核心或高产作者。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:文献数据库中书目信息共现挖掘系统的开发 [J],现代图书情报技术,2008(8):70-75.70 现代图书情报技术文献数据库中书目信息共现挖掘系统的开发崔 雷 刘 伟 闫 雷 张 晗 侯跃芳 黄莹娜 张 浩(中国医科大学信息管理与信息系统(医学)系 沈阳110001)【摘要】针对权威的生物医学数据库和引文索引数据,介绍一个基于文献数据库中书目信息共现关系进行文本挖掘的系统。
该系统具有基本的文献计量学分析功能,并对相应的结果进行可视化表达;对高频主题词、高产作者和高被引论文和高被引作者进行共现分析,据此进行聚类分析和关联分析,获得有关的研究主题聚类和主题词/副主题词关联规则、合著聚类分析、高被引论文同被引聚类分析和高被引作者同被引聚类分析的结果和可视化表达。
其中对关联规则的分析可以发现主题词之间的潜在语义规则,其他的文献计量学指标和共现分析结果可以用于科学计量学的分析。
【关键词】文本挖掘 共现分析 书目信息 科学计量学【分类号】G254DevelopmentofaTextMiningSystemBasedontheCo-occurrenceofBibliographicItemsinLiteratureDatabasesCuiLei LiuWei YanLei ZhangHan HouYuefang HuangYingna ZhangHao(DepartmentofInformationManagementandInformationSystem(Medicine),ChinaMedicalUniversity,Shenyang110001,China)【Abstract】Thispaperpresentsatextminingsystembasedontheco-occurrenceofbibliographicitemsinliteratureda tabases.ThissystemproducestheprincipalbibliometricindicatorsofagivendocumentsetorientedtoPubMedandWebofScience,andsomeofresultsarepresentedbyvisualizationtechniques.Furthermore,itprovidesclusteranalysisandas sociationanalysisbyinvestigatingtheco-occurrencedataofhigh-frequentMeSHterms,high-productiveauthors,highly-citedpapersandhighly-citedauthors.Usingtheseapproachesuserscanminingthepotentialassociationrulesa mongMeSHterms,andengagescientometricinvestigations.【Keywords】Textmining Co-occurrence Bibliographicsystem Scientometrics 收稿日期:2008-03-19 收修改稿日期:2008-06-12 本文系国家自然科学基金项目“运用文本数据库中元数据关联规则进行知识发现的研究”(项目编号:70473101)的研究成果之一。
1 开发背景与目标 文本挖掘和知识发现是知识发现研究中的一个重要分支。
文本挖掘(Textmining)一般定义为从文本文件中提取有趣的、不平凡的模式或知识的过程。
目前,文本挖掘的方法和应用研究已经成为比较活跃的研究领域。
开发出相应的计算机软件系统成为开展文本挖掘研究的必要条件。
鉴于此,笔者设计并实现了一个面向生物医学数据库和引文数据库的文本挖掘系统:书目信息共现挖掘系统XIANDAITUSHUQINGBAOJISHU 71 (BibliographicItemCo-OccurrenceMiningSystem,BI COMS)。
该系统所分析的主要对象包括:来自于权威的生物医学数据库———PubMed数据库中的主题词/副主题词共现关系;来自于引文索引数据WebofScience的引文同被引关系。
通过对这些共现数据的聚类分析和关联分析,挖掘出部分元数据之间的关联规则。
同时,也针对文献计量学的基本指标(如作者、期刊、发表年代等)的发文和引文频数进行统计分析,最终提供可视化的结果。
该系统开发的直接效果是为笔者开展国家自然科学基金课题提供基本工具,其长远意义则是为今后大量的文本挖掘和科学计量学的研究建立平台。
2 系统的实现方案与应用效果 本系统主要涵盖5个功能,分别为: (1)信息抽取模块(InformationExtraction):从目标数据库,即从PubMed数据库中自动下载XML格式的文献记录,解析并抽取元数据———医学主题词(Medi calSubjectHeading,MeSH)及其附主题词的组合; (2)矩阵预处理模块(MatrixPre-Process):按照高频主题词的语义关系,对MeSH以及ChemicalName进行语义筛选,控制聚类分析的粒度,产生用于文本挖掘的二维矩阵结构; (3)文本挖掘模块(TextMining):从二元矩阵中发现潜在的生物医学规则; (4)数据可视化模块(DataVisualization):以系统树图(Dendrogram)的方式来显示聚类分析后的元数据之间的关联关系,并显示元数据间距离曲线关系图; (5)规则接口模块(RuleInterface):储存从文本挖掘模块中获取的规则,并为今后建立面向生物医学领域的本体知识库奠定基础。
系统模块结构如图1所示。
2.1 信息抽取模块的设计 信息抽取模块主要负责数据下载和数据解析入库。
在数据下载设计中,通过网上的免费软件MedKit软件查询PubMed数据库,进而获得需要下载的文献序号列表,即PMID列表,再按照该列表以断点续传的方式下载论文数据[1]。
在数据解析的设计中,按照其文献数据的XML格式,设定抽取所需信息的模板,并按照模板对数据进行解析和完整性校验,该模块流程如图2所示。
图1 系统模块结构图总第168期 2008年 第8期72 现代图书情报技术图2 信息抽取流程图2.2 矩阵预处理模块的设计 矩阵预处理模块主要负责生成文本挖掘矩阵。
该模块首先通过一定的阈值对高频主题词进行截取,然后对高频主题词、高频化学物质进行类筛选,设定二元矩阵的行和列。
矩阵预处理模块也预留了数据导出的接口,可以将矩阵导出到其他数据统计软件(如SPSS)中进行进一步分析。
该模块的流程图如图3所示。
(1)阈值设定:当前用户所登录的数据集不为空。
查询当前数据集中大于等于指定阈值的高频主题词。
(2)高频化学物质:查询、截取高频化学物质,返回结果数与累计篇数,删除某个化学物质,导出化学物质列表为Excel文件。
前置条件为该用户所登录的数据集必须含有化学物质数据。
(3)主题词调整细节:显示主题词调整细节,可以在主题词体系结构表中按不同的层次对类进行合并,明确显示下位类主题词。
(4)共词矩阵:显示主题词共词矩阵,显示主题词-论文矩阵表格中非零表元的PMID序列,显示主题词共现图3 矩阵预处理模块流程图矩阵(共词矩阵)缩进排版矩阵格式,按照Txt、Excel、SPSS3种格式导出共词矩阵。
共词矩阵界面如图4所示:图4 共词矩阵界面2.3 文本挖掘模块的设计 文本挖掘模块完成从二元矩阵中发现潜在的生物医学规则。
为了对应不同的数据集和各自特点,文本挖掘模块需要对数据从二维或多维的角度进行分析。
该模块分为关联分析和聚类分析两个部分。
关联分析XIANDAITUSHUQINGBAOJISHU 73 通过最小支持度和最小可信度对二元矩阵进行关联分析,关联分析的程序流程如图5所示:图5 文本挖掘模块中关联分析流程图 关联分析数值设定:按照最小支持度、最小可信度和每页规则显示数目,进行基于Apriori算法的关联分析。
关联分析结果解释:显示Apriori算法关联分析后的规则结果,其中对于算法生成的关联分析结果可以进行手工检测。
聚类分析模块按照凝聚的方式,实现了层次聚类的算法,按照对各个文献集不同的要求设置相似系数和聚类计算方法。
凝聚的层次聚类算法可以体现多个生物医学主题词的多维关系,可以挖掘并发现更加复杂的潜在生物医学规则。
聚类分析是本生物医学数据库文本挖掘系统的主要文本挖掘手段,它不仅仅针对生物医学主题词,还可以针对化学物质名称进行挖掘。
该模块的详细设计如图6所示。
数据分析数值设定:在当前用户所登录的数据集中,按照距离度量系数(见表1)和聚类方法(见表2)的选项对当前数据集进行聚类分析,并显示元数据之间的拓扑结构。
2.4 数据可视化模块设计 数据可视化模块负责文本挖掘的结果图形显示,及其为用户提供获取规则的图形接口。
其中,文本挖掘模块中的层次聚类结果用系统树图的形式显示给用户,同时,聚类的先后次序由从山顶到山脚次序的碎石图表示。
从碎石图的聚类步骤,可以得到首先聚在一图6 文本挖掘模块中聚类分析流程图表1 聚类分析相似系数系数0EuclideanDistance系数1Bray-CurtisDistance系数2CanberraDistance系数3JaccardSimilarity系数4SorensenSimilarity系数5SimpleMatchingCoefficient系数6Baroni-UrbaniBuserCoefficient系数7MeanCensoredEuclideanDistance系数8OchiaiSimilarity系数9DiceSimilarity表2 聚类分析方法方法0SingleLinkage方法1CompleteLinkage方法2UnweightedArithmeticAverage方法3WeightedArithmeticAverage方法4UnweightedCentroid方法5WeightedCentroid方法6Ward’sMinimumVariance方法7SaitouandNeiNeighbourJoining类的几个生物医学主题词,结合其生物医学的实际意义,即可得到潜在的生物医学规则。
该模块的流程图如图7所示。
聚类系统树图:聚类系统树图按照从多类到少类聚合聚类的方式,生成聚类结果图,表达某一专题内的总第168期 2008年 第8期74 现代图书情报技术图7 数据可视化模块的流程医学主题词之间的多位层次关系。