生物医学文本挖掘及其应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 捕获磷酸化的模式,应当依次含有:
• 一种酶的名字 • 磷酸化的动词 • 一种基质的名字
2014-11-21
发现关系的工具
• FACTA:Medline文本中概念共现情况。 • MedGene 和BioGene:利用共现发现基因优先级别。 • Endeavour 和G2D 利用文本和其他数据源分析基因优先级 别。 • PolySearch利用启发式加权技术,给不同的共现不同的权 重。 • Anni使用文本轮廓测量术语之间的关系。 • iHOP:挖掘PPI最流行的工具。 • RLIMS-P 利用语言模式发现磷酸化过程中的激酶、基质和 磷酸。 • E3Miner发现泛素化,包括上下文信息。
24
http://pages.cs.wisc.edu/~bsettles/abner/
25
• A(Whatizit):蛋白-蓝色,疾病-深红,基因本体 -浅红,化学物质-深红,物种-红色 • B(ABNER):蛋白和细胞株 • C(BIOCreAtIvE metaserver )
发现关系
• 识别术语之后,下一步自然是寻找术语之 间的关系。 • 发现关系的最简单途径就是共现:
2014-11-21
http://www.sciencenet.cn/m/user_content.aspx?id=42340
MetaMap工作原理
http://www.sciencenet.cn/m/user_content.aspx?id=42340
2014-11-21
MetaMap工作原理:切分
2014-11-21
http://text0.mib.man.ac.uk/software/f acta/main.html
2014-11-21
GoDisease+iHOP+Cytoscape
2014-11-21
发现:Discovery
• Besides finding relationships, text miners are also interested in discovering relationships • Swanson:undiscovered public knowledge • 【见例子1】
2014-11-21
网上在线检索的基因名称信息
2014-11-21
14
下载的基因名称信息
2014-11-21
NER的原理
文本(PubMed Abstracts)
软件
词表
名称(基因名,蛋白质名)
2014-11-21
词表之间的联系
• 词表太多,又创建了词表,把术语集匹配 起来,词表之词表,超级词表。meta • BioThesaurus:多个词表中蛋白质的同义词 • Unified Medical Language System(UMLS):一 体化医学语言系统,120多个词表,4百万 个术语。
• “ocular complication of myasthenia gravis” (重症肌无力的眼部并发症) • “ocular complication”和“of myasthenia gravis” • “ocular complication”分为“[mod (ocular),head(complication)]
• 点间互信息
• p为文章数除以文章总数。
2014-11-21
关系抽取:共现
• GoDisease:http://godisease.org/ • 输入‘‘leukoencephalopathy, progressive multifocal’’[mh]
2014-11-21
返回结果:
• •
所有提及PML的文摘中的基因。 出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地 高于其他疾病,则该基因可能与PML有特殊关系。
– PepBank :用于肽类 – LSAT:用于alternative transcripts – 提高 PubMed检索效果:semedico , novo|seek – GoPubMed/GoGene
http://www.ebi.ac.uk/webservices/whatizit/info .jsf
– PML与抗-JO1抗体有明确关系。 – 将这种关系简化为三元体:两个名词+一个动词。 – PML is associated with anti-JO1 antibodies
• 识别动词:
– 词性标注:part-of-speech (POS) tagger
• 三元体表述因其简单而功能强大,但是忽略了文章中的重 要的细节。比如有些证据是来自于临床病例报告。
2014-11-21
2014-11-21
检索候选词及候选词的评价
• 检索超级词表,检索到包含有至少一个变形体的候选字串 集合。 • 计算出与输入的短语词相匹配的候选词,然后用4种指标 的加权平均组成的语言学评价函数,计算输入短语与候选 词之间的匹配程度:
– 中心度:即包含中心词; – 变形情况:距离倒数的平均值; – 覆盖面和内敛度:测量候选词与文本的匹配程度和有多少个片段
2014-11-21
Semantic Knowledge Representation
• SKR:是基于 UMLS进行自然 语言处理、提 取文献中概念 的系列在线工 具。
2014-11-21
http://mmtx.nlm.nih.gov/
其中MetaMap是SKR系统的核心组件。MMTx是完成 MetaMap功能的Java工具包,它进行的分析是语义层次上 的分析。
• 按照匹配程度排列这些候选词。
2014-11-21
2014-11-21
关系抽取:PPI
• protein-protein interactions (PPI):文本挖掘的重头戏 • 利用三元体表达,构建PPI网络,节点是蛋白质,动词为边。 • 分析文本挖掘出来的PPI网络时,应当注意阅读和理解支撑信息。
2014-11-21
自然语言处理
• 让计算机替我们看文献吧! • 比较难:
– 计算机需要专门的知识才能读懂文本。
• 自然语言处理(Natural Language Processing , NLP):专门训练计算机掌握这种知识的学 科。 • 生物医学文本挖掘(Biomedical text mining ) 是一个专门处理生物学、医学和化学文本 的分支学科。也叫BioNLP • 有些人把NLP当做text mining的同义词。
2014-11-21
文本挖掘的应用实例
2014-11-21
MetaMap工作原理:产生变形体
• Ocular{[adj],0=””– Eye,*noun+,2=”s”-同义词 • Eyes,*noun+,3=”si”-同义词的复数 • Optic,*adj+,4=”ss”-同义词的同义词 • Ophthalmic,*adj+,4=”ss”-同义词的同义词 – Ophthalmia,*noun+,7=”ssd”-同义词的同义词的变 形 – Oculus,*noun+,3=”d”-变形 – Oculi,*noun+,4=”di”-同义词的复数
基本概念(2)
• 尽管术语的定义似乎很明确,但是很难精确定义。 • early progressive multifocal leukoencephalopathy • Refer to • early progressive multifocal leukoencephalopathy • progressive multifocal leukoencephalopathy • multifocal leukoencephalopathy • Leukoencephalopathy
基本概念(3)
• Terminology:手工构建的,因此是受控的。
– HUGO:基因术语集 – ICD:国际疾病分类法。 – Gene Ontology:基因本体。
• 不仅仅是术语列表,还包括:
– 术语表+同义词=thesaurus – 术语表+术语之间的关系=taxonomies, ontology
• 一旦一段文本与其中一个词表对应上,就 和其他资源建立起联系了。
人工标引
• 手工匹配
Medline abstracts Medical Subject Headings (MeSH)
Leukoencephalopathy,prog ressive multifocal
9
10
gene normalization
• 自动匹配:
Medline abstracts recognizing names of genes
mapping them to their corresponding gene identifiers (e.g., Entrez Gene ID)
11
HGNC database of human gene names HUGO Gene Nomenclature Committee http://www.genenames.org/
生物医学文本挖掘 及其应用
中国医科大学 医学信息学系 崔雷
目的
• 介绍生物信息学文本挖掘工具 • 文本挖掘不再是信息专业的领域
• 例子:二者关系
– 进行性多灶性白质脑病(progressive multifocal leukoencephalopathy,PML) – 抗体antibodies
• Monoclonal antibodies,efalizumab(依法珠单克隆 抗体)
Biomedical text
• 生物医学文本的格式多种多样:
– – – – 病历 科研论文 序列注释 公共健康指南
• 文本的内容多样化,如习惯用语
– 临床有临床上的行话 – 实验室有自己对蛋白的命名方式
• 这种差异造成了文本挖掘应用往往面向特定类型的文本。
– 尤其是对ຫໍສະໝຸດ Baiduedline文摘记录的分析。
– 在同一段文字中同时出现的两个术语可能有关 联。
– 例如,某种蛋白质与一种疾病总是在同一文摘中出现, 有理由假设该蛋白与疾病的某个方面有关。 – 共现的次数越多,越有意义。可以定量排序,通过统 计处理排除偶然的关联。
27
关联度
• 假设有t1和t2两个词共现,最简单的信度指标就 是含有这两个词的文章数c(t1t2),但是要标准 化,去掉两个词各自出现频次对共现次数的影响。
http://pir.georgetown.edu/pirwww/iprolink/biothesaurus.shtml
18
2014-11-21
2014-11-21
2014-11-21
术语识别工具
• Whatizit:识别多种术语,通过网页。 • Abner:单机版,识别5种术语:蛋白、DNA、 RNA、细胞株、细胞类型。 • 更专指的术语识别工具:
• 易获取 • 免费
5
基本概念(1)
• 术语(Term):专门领域里的名称。 • 术语集(terminology):术语的集合。
– 生物医学文本中到处是术语,是医学知识的基 本构件。 – 如各种细胞的名称,蛋白质、医学设备、疾病、 基因突变、化学物质名、蛋白质域的名称。
• 名称如此重要, 需要在文本中识别之,这 个工作称为生物医学文献中的命名体识别 (NER,Named Entity Recognition )。
– 例如,蛋白质间相互作用可以是直接的,也可以是间接的,取决于动词
• 直接动词有to bind, to stabilize, to phosphorylate • 间接的动词有to induce, to trigger, to block。
• 文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验 方法和相互作用本身的性质。 • 常用的捕获文本变异的方法就是把各种表达方式辨认出来,并写下捕 获这些变异的规则。
2014-11-21
关系抽取:确切关系
• 明确描述的关系:比共现更好的证据。 • 例如: ‘‘We describe a PML in a 67-year-old woman with a destructive polyarthritis(多关节炎) associated with antiJO1 antibodies treated with corticosteroids’’
相关文档
最新文档