生物医学文本挖掘研究的体会

合集下载

文本挖掘技术在生物医学文献管理中的应用

文本挖掘技术在生物医学文献管理中的应用

文本挖掘技术在生物医学文献管理中的应用摘要:生物医学文献以非结构化的文本形式存在,文本挖掘能够从海量的生物医学文献中发现有趣的知识和模式,可以提高对生物医学文献的管理和建设效率。

本文针对生物医学领域,阐述了文本挖掘的具体过程,论述了生物医学文本挖掘现有的研究方法,详细讨论了生物医学文献的分类和关系抽取,最后对文本挖掘在生物医学领域的应用前景做了展望。

关键词:文本挖掘生物医学文献文本分类关系抽取一、引言信息爆炸时代,各行业每时每刻都在产生和积累大量的以各种形式保存的信息,这些信息以指数级的速度不断积累和增长,如何快速准确地从这些纷乱的数据中提取出有价值的信息是急待解决的问题。

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考[1]。

如今文本挖掘已经成为国际上非常活跃的一个研究领域。

随着生物医学领域的快速发展,生物医学文献呈指数级增长,成为一座巨大的知识宝库。

然而面对如此大规模的、快速增长的科学文献数据,即便是该领域内的专家也无法依赖手工方式从中获取感兴趣的信息。

由于生物医学文献绝大多数都是以非结构化的形式存在于文本文件中,因此采用文本挖掘技术对生物医学文献数据进行管理是非常有必要的。

二、文本挖掘过程文本挖掘通常包括文本数据预处理、特征信息提取和数据挖掘三个步骤。

文本挖掘过程如图1所示:图1 文本挖掘过程文本数据预处理的质量会直接影响到最终的结果,英文文本数据预处理包括无用词过滤和词干化处理。

文本特征信息提取是将非结构化或半结构化的文本数据转化为挖掘工具可以处理的中间形式的过程,特征提取首先要识别文本中包含重要信息的特征项。

本文采用数学模型来表示这些特征项,常用的特征表示模型有布尔模型、向量空间模型和概率模型,通过特征表示得到的向量维数较高,特征抽取的基本思想是利用映射的方法将高维特征映射到低维空间中,特征抽取一般是构造一个评价函数,然后对每个特征向量进行评估,删除评估分数较低的特征向量。

文本挖掘在中医药中的若干应用研究

文本挖掘在中医药中的若干应用研究

文本挖掘在中医药中的若干应用研究一、概述随着信息技术的飞速发展和大数据时代的到来,文本挖掘技术以其独特的优势,在中医药领域的应用日益广泛。

又称为文本数据挖掘或文本知识发现,是指从大量文本数据中提取出有用信息和知识的过程。

在中医药领域,文本挖掘技术能够实现对古籍医书、现代文献、临床病例等海量文本信息的深度挖掘和有效利用,为中医药的研究和实践提供有力支持。

中医药作为中华民族的传统医学,具有悠久的历史和深厚的文化底蕴。

由于历史原因和传承方式的特殊性,中医药领域的文本数据存在着种类繁多、格式不信息分散等问题,给中医药的研究和应用带来了诸多挑战。

文本挖掘技术的应用,能够有效地解决这些问题,提高中医药信息的利用率和研究效率。

文本挖掘在中医药领域的应用研究主要包括以下几个方面:一是对中医药古籍医书的挖掘与整理,通过提取古籍中的方剂、药性、治法等信息,为现代中医药研究提供历史依据和理论支持;二是对现代中医药文献的挖掘与分析,通过发现文献中的研究热点、趋势和规律,为中医药研究的深入发展提供思路和方向;三是对临床病例的挖掘与利用,通过提取病例中的症状、体征、治法等信息,为中医药临床实践提供有益的参考和借鉴。

文本挖掘技术在中医药领域的应用研究具有广阔的前景和重要的实践意义。

通过深入挖掘和分析中医药文本数据中的有用信息和知识,我们可以更好地传承和发展中医药事业,为人类健康事业做出更大的贡献。

1. 文本挖掘技术的概述又称文本数据挖掘或文本知识发现,是指从大量非结构化的文本数据中提取有用信息和知识的过程。

它结合了计算机科学、统计学、语言学等多个学科的理论和方法,旨在通过自动化或半自动化的方式,对文本内容进行深度分析和理解。

在文本挖掘中,常用的技术包括文本预处理、特征提取、文本分类、聚类分析、情感分析以及关联规则挖掘等。

文本预处理是文本挖掘的基础步骤,包括分词、去停用词、词性标注等,以便将原始文本转化为计算机能够理解和处理的形式。

利用文本挖掘探索干燥综合征证药特点

利用文本挖掘探索干燥综合征证药特点

献, 采用基于敏感关键词 频数统计 的数据分 层算 法, 挖掘 干
燥 综合 征 的证 型及 中 药 的特 点 , 结果 通 过 一维 频数 和 构 建 网
络 图进行 展 示 。 结 果 : 气 阴两虚证 是 干燥 综合 征最 常见 证
型; 治 疗 干 燥 综 合 征 核 心 中药 有 生地 黄 、 麦冬、 沙参 、 白芍 、 甘
[ 5 ] 黄煌. 张 仲景 5 0味 药 证 [ M] . 北京 : 人 民卫 生 出版 社 ,
2 01 0: 1 0.
[ 6 ] 张大 昌. 张 大 吕 医论 医案 集 [ M] . 北京: 学 苑 出版 社 ,
2 01 1:2 —1 4.
通信作者 : 潘文 , 主任医师 , p a n w e n 2 5 @1 2 6 . e o m
者加 水蛭 、 地鳖虫、 红花 ; 兼 有 热象 者 , 桂枝、 干姜 减
[ 2 ] 马继兴. 敦煌古医籍考释 [ M] . 南 昌: 江 西 科 学 技 术 出 版
社. 1 9 8 8: l 1 7—1 1 8 .
量, 或 以菊花 代桂 枝 , 稍 加大黄 ; 肢冷 畏寒 、 汗 出心 悸
摘 要 目的 : 利用文本挖掘 技术探 索干燥综合 征证 药特点。 方法: 在 中 国生 物 医学 文 献 数据 库 中 收集 治疗 干 燥 综 合 征 文
身免 疫性疾 病 , 主要 病 理变 化 为 外分 泌 腺淋 巴细 胞
浸润 。本病 可 同时累及其 他器 官造成 多种 多样 的临 床表 现 , 属 中医学 “ 燥证 ” “ 痹证 ” 范 畴 。本研 究
治 疗 应 用
方法 概 述 如 下 : 在 中 国 生 物 医 学 文 献 数 据 库

基于文本挖掘技术探索黄芪建中汤的应用规律

基于文本挖掘技术探索黄芪建中汤的应用规律

基于文本挖掘技术探索黄芪建中汤的应用规律赵雨坤;罗丹;郑光;李立;边艳琴;宋梦梦;吕爱平;何小鹃【摘要】目的:基于文本挖掘技术探索黄芪建中汤用药规律.方法:在中国生物医学文献服务系统中收集黄芪建中汤文献数据,利用文本挖掘方法挖掘相关疾病及中医证候、症状、西药等规律,制作网络关系图.结果:在与疾病相关性中,常用于治疗消化性溃疡、胃炎、肿瘤等疾病;在与证候相关性中,常用于脾胃虚寒、肝胃不和等证;在与症状相关性中,常用于溃疡、胃病、里急等症状;在与西药联用中,常联用奥美拉唑、阿莫西林等西药.结论:利用文本挖掘技术获得了比较客观全面的黄芪建中汤用药规律,可为临床应用提供有益参考.【期刊名称】《中国中医基础医学杂志》【年(卷),期】2015(021)010【总页数】3页(P1305-1306,1319)【关键词】文本挖掘;黄芪建中汤;用药规律【作者】赵雨坤;罗丹;郑光;李立;边艳琴;宋梦梦;吕爱平;何小鹃【作者单位】上海中医药大学,上海 201203;中国中医科学院中医临床基础医学研究所,北京 100700;北京中医药大学基础医学院,北京 100029;兰州大学信息科学与工程学院,兰州 730000;中国中医科学院中医临床基础医学研究所,北京 100700;上海中医药大学,上海 201203;中国中医科学院中医临床基础医学研究所,北京100700;兰州大学信息科学与工程学院,兰州 730000;中国中医科学院中医临床基础医学研究所,北京 100700;中国中医科学院中医临床基础医学研究所,北京100700【正文语种】中文【中图分类】R969.3黄芪建中汤是医圣张仲景所创,以小建中汤加黄芪而成,属建中法的类方,又是桂枝汤的变法。

该方具有健脾益气、缓急止痛、温中补虚的功效,临床对脾虚引起的各系统疾病有较好的疗效。

但由于黄芪建中汤主治症状多而复杂,除有五脏气血阴阳俱虚的诸不足外,也有气血阴阳不和的里急、寒热等症状,导致临床用药在证候选择、西药联用方面存在诸多不足之处。

基于深度学习的医疗文本挖掘与知识抽取方法研究

基于深度学习的医疗文本挖掘与知识抽取方法研究

基于深度学习的医疗文本挖掘与知识抽取方法研究在医疗领域中,文本挖掘和知识抽取是非常重要的任务。

通过从大量的医疗文本中提取有用的信息和知识,可以帮助医生和研究人员更好地理解疾病,制定更准确的诊断和治疗方案。

而深度学习作为一种能够从大规模数据中提取高层次抽象特征的方法,被广泛应用于医疗文本挖掘和知识抽取任务中。

本文将基于深度学习的方法,研究医疗文本挖掘和知识抽取的技术和应用。

首先,我们将介绍医疗文本挖掘和知识抽取的背景和意义,以及目前存在的挑战和问题。

然后,我们将详细探讨深度学习在医疗文本挖掘和知识抽取中的应用方法和技术。

最后,我们将讨论深度学习在医疗领域中的前景和挑战。

一、背景和意义医疗文本挖掘和知识抽取旨在从大规模的医疗文本中自动提取有用的信息和知识。

传统的方法主要基于人工规则和特征工程,但在处理大规模复杂的医疗文本时,这些方法往往面临效果不佳、易出错、难以扩展等问题。

而深度学习通过构建深层神经网络,可以自动从数据中学习到抽象的特征表示,从而在医疗文本挖掘和知识抽取任务中取得更好的效果。

医疗文本挖掘和知识抽取的研究具有重要的应用价值。

通过从医疗文本中挖掘潜在的知识和模式,可以帮助医生更好地理解疾病的发展和治疗规律,指导临床决策。

同时,研究人员可以利用挖掘到的知识和模式进行疾病预测、药物开发等工作,促进医学科研的进展。

因此,开发有效的医疗文本挖掘和知识抽取方法对于提高医疗领域的研究和实践具有重要意义。

二、深度学习在医疗文本挖掘中的应用方法和技术深度学习在医疗文本挖掘中应用广泛,主要包括文本分类、命名实体识别、关系抽取等任务。

以下将介绍其中的几个典型方法和技术。

1. 卷积神经网络(CNN)卷积神经网络是一种常用的深度学习模型,在医疗文本挖掘中被广泛应用于文本分类和命名实体识别任务。

通过卷积层和池化层的组合,CNN可以从输入文本中提取局部特征,并通过全连接层进行分类或识别。

2. 循环神经网络(RNN)循环神经网络是一种能够处理序列数据的深度学习模型,在医疗文本挖掘中主要应用于关系抽取任务。

【生物医学论文】生物医学文本挖掘研究热点

【生物医学论文】生物医学文本挖掘研究热点

生物医学文本挖掘研究热点[摘要]为了解生物医学文本挖掘的研究现状和评估未来的发展方向,以美国国立图书馆PubMed中收录的2000年1月-2015年3月发表的生物医学文本挖掘研究文献记录为样本来源,提取文献记录的主要主题词进行频次统计后截取高频主题词,形成高频主题词-论文矩阵,根据高频主题词在同一篇论文中的共现情况对其进行聚类分析,根据高频主题词聚类分析结果和对应的类标签文献,分析当前生物医学文本挖掘研究的热点。

结果显示,当前文本挖掘在生物医学领域应用的主要研究热点为文本挖掘的基本技术研究、文本挖掘在生物信息学领域里的应用、文本挖掘在药物相关事实抽取中的应用3个方面。

[关键词]文本挖掘;生物医学研究;研究热点随着生物医学科学的飞速发展,生物医学领域的实验数据和文献数量急剧增加。

常用的检索方式通常会消耗大量时间,并且需要对检索词进行仔细筛选及恰当组合。

文本挖掘是通过计算机发现以前未知的新信息,即在现有文献资源中自动提取相关信息,并揭示另外隐含的意义[1]。

利用文本挖掘能够有效地从生物医学数据库中提取相关知识进行研究进而提出新的实验假设,得到新的科学结论,因此文本挖掘在生物科学领域具有很大的应用价值。

以检索词“textmining”在PubMed检索(2015年6月9日)相关文献,结果显示文献累积数量随着年代的分布呈现典型的指数分布,说明文本挖掘在生物医学领域中正处在飞速发展中,是当前的研究热点。

基于以上原因,我们运用共词分析的方法,对2000年1月至2015年3月MEDLINE数据库收录的有关文本挖掘在生物医学领域应用的论文中的高频主题词进行了共现聚类分析,总结出当前国际上文本挖掘在生物医学领域应用的研究热点,并对其进行分析。

1资料与方法数据样本为MEDLINE数据库收录的生物医学领域文本挖掘研究文献。

MEDLINE是国际上生物医学领域的权威数据库,迄今收录文献达2400万篇,通过该数据库可以检测到含有确切关键词的文献[2]。

生物医学实体关系抽取的研究

生物医学实体关系抽取的研究
中华医学 图书情报杂志 2 1 5月 第 l 0 0年 9卷第 5期
C i JMe ir n iV 】1 05 Ma.2 1 hn dLb f c, o 9N . y 0 0 I S .
・5・



生物 医学 实体 关 系抽 取 的研 究
吴 明智 。 崔

[ 摘要 】 类基 因组计划使 生物 医学的研究取得 了前所未有 的成就 , 究结果 中得 到 了大量的 生物 医学实体 , 人 在研 如基 因、
Ⅵ M i g z i CUI Le n -h. i
( eatet f ei l n ra o aae e t n om tnSs m,hn ei l n e i ,hnag110 ,i n gPo neC i ) D pr n o dc f m tnM ngm n adI r ao yt C i M dc i r t Sey 101Lai r ic ,h a m M aIo i f n i e a a U v sy n 3 on v n
[ 关键词】 生物 医学文本挖 掘 ; 生物 医学实体 ; 系抽取 关

[ 中图分 类号】 3 0; 0 G 5 R- 5
[ 文献标志码】 A
[ 文章编号 】6 138 (000 —05 0 17—92 21 )5 00 —6
Rea o xt a ton f o bi me i a ntte lt n e r c i r m o d c le ii s i
[ e od ]i ei x mn g b m d a et ; li xatn K yw rsb m d a t t i n ; i ei l n t r ao et co o c e i l o c i e tn r i y 随着人类 基因组计划 ( u a eo ep j t h m ngnm re ) o c 的完成、 基 因组 ( ot gnm ) 后 ps eo e 时代和蛋 白质组 — (r em ) p t e 时代的到来 , oo 生物医学研究取 得 了前所

文本挖掘技术在药物研究中的应用

文本挖掘技术在药物研究中的应用

介 绍 。本文就 当前最新生 物医学文本挖 掘技术在 药物
研 究领域 中的相 关研究成果 和主要 内容 进行 了调 查和
2 0 0 0 万生物 医学 引 文 ,其 中包 括 1 2 0多万 篇 生 物 医 学文摘 ,并 仍 以平均 每 年 7 0万 篇 的速 度 增 长 。如
分 析 ,并对未来发 展做 出展 望。
2 生 物 医学 文2 0 1 3— 0 5—1 5
( 作者简 介] 胡双 ,硕 士研究 生 ;通讯作 者 :胡 建华 ,副
教授。
d r u g r e s e a r c h ,ma i n l y i n c l u d i n g d ug r n a me r e c o g n i t i o n,d ug r t a r g e t d i s c o v e r y,e v a l u a t i o n o f d ug r e f i f c a c y ,r e g u l a r i t y o f t r a d i t i o n a l C h i - n e s e me d i c i n e i n t r e a t me n t .I n t h e e n d,t h e p r o b l e ms o f t e x t mi n i n g i n me d i c l a k n o w l e d g e d i s c o v e r y a r e p o i n t e d o u t a n d t h e u p c o mi n g c h ll a e n g e s a n d t h e o p p o r t u n i t i e s o f t e x t mi n i n g i n d ug r r e s e a r c h re a p r o s p e c t e d .
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

今后的方向
应用领域上,向生物信息学靠拢; 实行中,寻求获得经济效益的可能; 学科上,最终目标是知识发现; 方法上,探索本体论在医学领域中的应 用。
二、数据挖掘工具
文本挖掘的主要内容
1. 术语识别 2. 信息抽取 3. 发现关系
Text Mining Tools
Semantic Knowledge Representation/语义知识表征 项目,SKR / 美国国立医学图书馆,1998年启动 文本中所包含知识进行正确表达 利用美国国立医学图书馆现有的资源,尤其 是一体化医学语言系统(UMLS)的知识库和 SPECIALIST系统所提供的自然语言处理工具, 开发出可以表达生物医学文本的实用程序。
基础不等于研究内容 具体方法的使用(具体、数目)
这个库的开放特性使得读者在R统计程序语言 中免费扩展。只用10行代码来分析主题词的相 关性。对于生物信息学家和统计学家来说, MedlineR是建立更加复杂的文献数据挖掘应用 的基础。
MedlineR
为生物医学家和统计学家建立的文献数 据挖掘工具的免费资源库 MedlineR的源代码可以从 /pub/medlineR中获得。
取得的成果
方法是可行的。得到的规则。 开发出相应的数据挖掘平台。
– BICOMS – MeSH_Manager
建立A02 A02 A02 A02 A02 A03 A05 A07 A07 A07 A08 S1 Pathology Physiology Physiopathology Metabolism Metabolism Drug Effects Drug Effects Metabolism Drug Effects Drug Effects Drug Effects M2 G06 G11 G11 G04 D09 G06 A05 D27 G09 A07 G05 S2 null Physiology Physiology Physiology Metabolism Drug Effects Metabolism Pharmacology Drug Effects Physiology Drug Effects M1/S1 的病态结构 的生理功能 的异常功能 的代谢变化 的代谢变化 受药物作用 受药物作用 的代谢变化 受药物作用 受药物作用 受药物作用 SR 作为… 的结果 是...的位置 破坏 是...的位置 是...的位置 发生了 影响 受...影响 发生了 影响 发生了 M2/S2 代谢过程 的生理变化 的生理变化 的生理变化 的分解代谢 受药物作用 的代谢变化 的药理作用 受药物作用 的生理功能 受药物作用
/
http://milano.md.huji.ac.il/
/ch_index.html
三、申请课题的体会
– – –
• •
内容:创新是根本,对自己领域的掌握, 阅读相关文献 形式:内在的逻辑,对标书格式的理解。 评审中看到的问题:
背景知识
知识发现(KDD):从数据中正规提取隐
含的、以前未知的并且可能有用的知识。
数据挖掘:在数据中正规地发现有效的、 新颖的、潜在有用的、并且最终可以被 读懂的模式的过程。 一般可以把数据挖掘当作知识发现的一 个具体步骤。
背景知识
文本挖掘
Text Mining:文本挖掘 Literature Based Discovery (LBD):基于文献 的发现 Knowledge Discovery in Biomedical Literature (KDiBL):生物医学文献知识发现
ARBITER (Assess and Retrieve Binding Terminology)
– 从生物医学文本中抽取大分子键联关系。
Don R. Swanson的研究
雷诺氏病 文献
潜在的联系
食用鱼油 文献
血液粘稠度 红细胞脆性
Medline文献集合
闭合式的知识发现
ARROWSMITH 3.0
本课题目标
寻找发现规则的方法。 将获得规则用于某一领域,得到具体的关 系。 运用具体的关系开发出专题的知识库。
技术路线
下载专题文献 截取高频M/S 共词聚类分析
高频M/S组合 专家评价 发现新知识 开发知识库
形成待检规则 形成规则 Swanson模式
返回具体文献 得到关系 得不到关系
分析样本:下载文献
三个层次
– 微观层次:各个大类 下的10个末级主题词 – 中观层次:针对每一 种副主题词进行检索 – 宏观层次 :直接以大 类名为检索策略
/dan/medkit/
关键点
1. 确定高频主题词截取阈值,共词聚类分 析最佳分组数目,伪F检验。 2. 候选规则检验。规则是否成立。 3. 规则是否可靠?专家评分,敏感度等。 4. 不成立组合的分析:swanson模式,关系? 5. 知识库开发。
开放式的知识发现
BITOLA http://www.mf.uni-lj.si/bitola/
输入单个的概念(疾病A),找到该概念的第一层相 关概念并加以归类(药物B)。 从第一层相关概念(药物B)出发,找到它们的相关 概念,并加以归类(基因C)。 检验基因和疾病是否有关联。如果没有,该基因与疾 病有潜在的联系而且并没有文献报道。 提示:与疾病、生理学反应或者其他表型相关的新基 因、药物或者神经科学。
背景知识
Cimino的研究
哥伦比亚大学。 如果在一篇文献纪录中同时存在“疾病类主题词/化学 诱导副主题词”和“药物类主题词/副作用副主题词”这 样的组合的话,那么可以建议该疾病由该化学物质(药物) 引起。 If <Disease>/chemically induced AND <Chemical>/adverse effects Then <Disease>is Caused by <Chemical>. 形成规则。 将这样的规则运用的具体的其他文献集合中,就会发 现文献中报道了大量的具体疾病是由某一种具体药物引起 的。形成关系。
背景知识
规则的文字形式: “如果某一文献记录中含有属于1类的主题词A并且 和副主题词X在一起,AND 该引文还包括属于2类的主题词B并且和副主题词Y在 一起,那么 建议A和B通过关系Z相关(A和B有Z关 系)。” 根据Medline主题词和副主题词在同一篇文献中 出现的情况,建立起主题词和副主题词之间的关联 规则,然后将这些规则返回到具体的文献中形成了 具体概念之间的关系。
MataMap 和SemRep
MetaMap最初是为了改善MEDLINE检索而 开发出来的,用通过MetaMap发现的超级 词表概念来代替文本。
EDGAR和ARBITER
EDGAR (Extraction of Drugs, Genes and Relations)
– 在MEDLINE中确定药物、基因关系的程序。 – 以前面几项工具为基础,以癌症治疗有关的药物 和基因作为研究的主要领域,从文本中确认药物、 基因和细胞株的名称。
(1)我们使用血液过滤方法来治疗伴有难治性高血钾的地高辛 过量 (2)命题(proposition),大写的谓词(如TREATS、CAUSES等) 表示的是个体之间的关系,这种关系都是在UMLS语义网络 中所规定的语义关系;每一个体也是来自于UMLS超级词表 中的规范化的概念。 命题的集合组成了对文本(1)的语义表达,从上面例子可以 看出,尽管这种表达并不完全,但是还是把文本中的主要概 念及其关系表达出来了。

可作为生物武器的潜在病毒
能够成为生物武器:致病性,传播性。同时涉及到病 毒这两个特性的文章却特别少。 A:病毒毒力遗传方面(virulence- genetic) C:病毒疾病传播力
– 病毒的昆虫媒介传播(insect vectors) – 空气传播(air) – 在空气中的稳定性(stability of viruses in air)
MedlineR
MedlineR
结果是可视化的网状结构:每个节点代 表一个基因,每条边代表一个文献中的 联系。Pajek
MedlineR
下载R统计软件(包括XML程序包) 下载Pajek软件 复制粘贴MedlineR的命令 填入需要分析的基因名称 运行R 运行pajek
http://services.nbic.nl/cgi-bin/copub/CoPub.pl
通过与A和C有共同联系B找出更多符合条件的病毒。 将得到的文献经过一些系列的处理,Arrowsmith列出了 三个有意义的B-LIST(病毒的集合),通过进一步的统 计学分析和查阅文献,最终找出相对有意义的病毒(B)
发现科研机构间潜在的合作方向
利用Arrowsmith程序,发现美国斯坦福大学和哥 伦比亚大学在医学信息学研究领域的潜在合作 方向 尝试将这种方法运用到寻求发现科研机构合作 与交流的领域中。 结果表明,利用Arrowsmith所挖掘的科研合作与 交流的内容详细、明确,能体现出研究所使用 的具体方法和侧重点,能更好地体现出两个机 构研究内容的相似点(可以合作之处)和不同 点(可以相互交流、学习之处)。
生物医学文本挖掘研究的 体会
中国医科大学 信息管理与信息系统(医学)系
主要内容
1. 开展的课题 “运用文本数据库中元数据关联规则 进行知识发现的研究” 文本挖掘工具 课题申请的体会
1. 2.
运用文本数据库中元数据关联规则 进行知识发现的研究
文本数据库:PubMed 元数据:关于数据的数据 ,MeSH主题词 关联规则:association rule,在同一个事件中出 现的不同项的相关性,如在一次购物活动中所 购商品的相关性(尿布→啤酒:30%~40%) 事件:一篇论文;不同项:MeSH主题词 MeSH主题词在同一篇文章中出现有规律吗? 可否利用这种关联规律来发现知识?
BITOLA
BITOLA:open
相关文档
最新文档