医药生物信息学 1

医药生物信息学 1
医药生物信息学 1

医药生物信息学

生物医学数据应用概述

举例说明常用的数据库,用数据库进行阿尔兹海默症蛋白的筛选。

常用的数据库有PubMed,GWAS,HMBD,TTD,DrugBank,OMIM.....

例:用组学数据挖掘阿尔茨海默病的重用药物

1.获得与AD相关的蛋白质

AD相关的基因:GWAS;

AD相关的代谢物质:HMDB;

AD相关的蛋白:PubMed检索。

2.将上述与AD相关蛋白与现有药物联系起来

治疗靶标数据库,TTD;

药物数据库,DrugBank database;

筛选出靶标-药物对。

3.获取致病机理和抗AD重用药物的作用模式

资源:检索PubMed;

抽取关于人类和动物药物靶标作用的信息:GOF或LOF;

利用药物数据库中得到的靶标致病机制信息和药物作用模式信息;

合理列出有潜质的抗AD药物。

4.抗AD药物靶标的排序

用特定的算法给靶标打分:

与疾病-靶标相关程度(标准1和3)

支持AD发病机制证据的强度(标准2)

5.候选靶标和重用药物的计算分析:检验。

例:用组学数据挖掘阿尔茨海默病的重用药物

1.获得与AD相关的蛋白质

AD相关的基因:GWAS(Genome-wide association study)全基因组关联分析

(基因组学)

AD相关的代谢物质:Human Metabolome Database(HMDB)

与两种以上代谢物质有关的蛋白(代谢组学数据)AD相关的蛋白:PubMed检索,如“Alzheimer’s disease and proteomics”等。

(蛋白质组学、表观基因组学)

524个与AD有关的蛋白

2.将上述与AD相关蛋白与现有药物联系起来

治疗靶标数据库,TTD(Therapeutic Target Database)

药物数据库,DrugBank database

筛选出靶标-药物对:药物必须是批准或者通过临床试验检验的,分别从两个数据库中抽取:1)药物靶标名字;2)药物名;3)药物原来适应症;4)药物作用模式等信息。

496种药物,97种蛋白

3.获取致病机理和抗AD重用药物的作用模式

资源:检索OMIM database、PubMed

抽取关于人类和动物药物靶标作用的信息:

获得功能(gain of function,GOF)

失去功能(loss of function,LOF)

利用

药物数据库中得到的靶标致病机制信息

药物作用模式信息

合理列出有潜质的抗AD药物。

15个靶标92种药物。

4.抗AD药物靶标的排序

用特定的算法给靶标打分:

AD相关蛋白质变化的程度:蛋白质变化倍数或最小等位基因的OR值。

Google scholar中报告AD靶标发病机制论文的被引次数;

PubMed中报告与AD相关靶标的文章数。

与疾病-靶标相关程度(标准1和3)

支持AD发病机制证据的强度(标准2)

7种药,2个靶标。

5.候选靶标和重用药物的计算分析:检验

利用Toppgene tool,对候选基因进行排序,根据其与训练基因功能上的相似性。

利用Toppnet tool对候选基因,根据蛋白质相互作用网络的拓扑结构上的相似性及其与训练基因的相似性进行排序

选取AD危险-效应最强的5种基因作为训练基因,又利用了两个联机资源,分析重用药物的小分子药物:

利用Cmap,分析了重用药物和已知抗AD药物(memantine and galantamine)在基因表达模式的上是否有相似改变。

利用C2maps采用网络挖掘方法、文本挖掘和药物注释等方法,评估抗AD药物与基因相关性。

基于受体结构的药物分子设计

1.什么叫基于受体结构的药物分子设计?其研究内容有哪些?

基于受体结构的药物设计是指一般应用由X-射线衍射、磁共振或分子模拟(同源建模法等)提供的蛋白质结构信息,来辅助设计具有生物活性的化合物的过程。

基于配体结构的药物设计是从研究一系列药物分子对同一受体的活性出发,比较它们的结构变化与生物活性之间的关系,找到对该受体能发生结合并产生活性的最普遍的结构因素,并根据此结构特征设计新的药物分子

其研究内容包括靶蛋白结构的预测;分子对接与虚拟筛选;全新药物设计。

例:基于生物大分子靶点结构的药物设计方法

2.同源模建法的基本步骤是什么?

(1)目标序列与模板序列的比对;

(2)根据同源蛋白的多重序列比对结果,确定同源蛋白的结构保守区以及相应的框架结构;(3)目标蛋白质结构保守区的主链建模;

(4)目标蛋白质结构变异区的主链建模;

(5)侧链的安装和优化;

(6)对模建结构进行优化和评估。

3.什么叫计算机虚拟筛选?

它利用计算机强大的运算能力,根据某个靶标的相关信息,利用三维药效团搜索或分子对接的方法来筛选商业化的化合物样品库,在化合物数据库中寻找可能的活性化合物,发现潜在的活性分子后,可以向公司或有关机构定购,然后进行药理测试。

与传统的高通量筛选技术相比,虚拟筛选不存在样品的限制,其成本也远低于高通量筛选。

小分子三维数据库有:剑桥结构数据库、国家癌症研究所数据库和ACD-3D数据库等。

计算机辅助药物设计方法

生物电子等排原理及药物发现

1.什么是生物电子等排原理?

生物电子等排不仅应具有相同总数外层电子,还应在分子大小、形状(键角、杂化度)、构象、电子分布(极化度、诱导效应、共轭效应、电荷、偶极等)、脂水分布系数、pKa、化学反应性(代谢相似性)和氢键形成能力等方面存在相似性。如等疏水性电子等排体;等电性电子等排体;等立体性电子等排体;等构象性电子等排体等。

经典生物电子等排体原子和基团

非经典的电子等排体:指原子或基团不一定相同,但空间效应、电性及其他性质与母体化合物是相似的:(1)环与非环结构;(2)可交换的基团;(3)基团反转。

分子杂合原理药物发现中的运用

2.什么是分子杂合原理?

分子杂合原理是指将两种药物的药效结构单元拼合在一个分子中,或将两者的药效基团通过共价键兼容于一个分子中,使形成的药物或兼具有两者的性质,强化药理作用、减少各自毒副作用,或是两者取长补短,发挥各自的药理活性,协同完成治疗作用。

因为多数情况下是将两个药物结合在一起,所以有时将其称为孪药(Twin drug)。

孪药一般可分为同孪药(联苯双酯)和异孪药(贝诺酯)二类。

孪药中两个药效结合单位有3种连接方式:

A +

A /

B A / B

A

链状结合A / B A 直接结合A A / B 相互重叠结合

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.360docs.net/doc/2c11556017.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

考研专业解读:微生物与生化药学

考研专业解读:微生物与生化药学 一、专业介绍 微生物与生化药学是一门以先进的分子生物学技术如DNA重组技术,分子克隆技术和生物化学技术来研究生化药物的一门新的学科。是药学下的一个二级学科。 二、培养方案 培养德、智、体全面发展,具有坚实药学基础,掌握现代生物技术制药理论和技术的高级复合型人才。掌握一门外语,能熟练地进行专业阅读和写作,具有从事药学科学研究和独立承担生物技术制药、天然产物制药的能力,能胜任高等教育、科研开发以及生产单位的技术和管理工作,具有进一步深造的学业基础和开拓创新的素质基础。 各研究生招生单位的研究方向和考试科目不同,在此以中国药科大学为例: 1、研究方向 01微生物药物和生化与生物技术药物的开发与应用 02微生物药物和生化与生物技术药物的制造工艺技术及制造鉴定规程研究 03生物分离工程技术与现代生物技术的原理方法及其在生物药物研究和生产中的应用研究 04基因药物与基因治疗 05生物药物分析及其体内过程监测 2、硕士研究生入学考试科目: ①101思想政治理论 ②201英语一 ③710药学基础综合(一) 三、推荐院校 全国高校中实力较强招生院校: 中国药科大学、沈阳药科大学、北京化工大学、四川大学、浙江大学、江南大学、上海交通大学、华南师范大学、中山大学、山东大学 四、该专业研招单位索引 北京师范大学、贵州大学、河北大学、河北农业大学、吉林大学、兰州理工大学、山东大学、四川抗菌素工业研究所、天津科技大学、中国人民解放军军事医学科学院、重庆医科大学、安徽医科大学、北京化工大学、北京协和医学院、北京中医药大学、长春中医药大学、大连医科大学、第二军医大学、第三军医大学、第四军医大学、福建医科大学、哈尔滨医科大学、河北医科大学、河南大学、河南工业大学、湖北大学、华南师范大学、吉林大学、济南大学、暨南大学、江南大学、兰州大学、辽宁医学院、南京大学、南京师范大学、南京医科大学、山东中医药大学、上海医药工业研究院、沈阳药科大学、四川大学、四川交通大学、苏州大学、天津科技大学、武汉工业学院、西安交通大学、西南大学、浙江工业大学、郑州大学、中国海洋大学、中国药科大学、中山大学 五、就业方向 可从事生物化学与分子生物学、生物工程、应用化学等生命科学相关领域方面的教学、科研以及药品、保健食品、化妆品、生物材料的开发、生产、管理等工作。 五、相同一级学科下其他相关专业 药物化学、药剂学、生药学、药物分析学、药理学 六、课程设置(以重庆工学院为例)

最新生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系? 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系? 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么? 7)简述BLAST搜索的算法。 8)什么是物种的标记序列? 9)什么是多序列比对过程的三个步骤? 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么? 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因? 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分? 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

医药生物信息学 1

医药生物信息学 生物医学数据应用概述 举例说明常用的数据库,用数据库进行阿尔兹海默症蛋白的筛选。 常用的数据库有PubMed,GWAS,HMBD,TTD,DrugBank,OMIM..... 例:用组学数据挖掘阿尔茨海默病的重用药物 1.获得与AD相关的蛋白质 AD相关的基因:GWAS; AD相关的代谢物质:HMDB; AD相关的蛋白:PubMed检索。 2.将上述与AD相关蛋白与现有药物联系起来 治疗靶标数据库,TTD; 药物数据库,DrugBank database; 筛选出靶标-药物对。 3.获取致病机理和抗AD重用药物的作用模式 资源:检索PubMed; 抽取关于人类和动物药物靶标作用的信息:GOF或LOF; 利用药物数据库中得到的靶标致病机制信息和药物作用模式信息; 合理列出有潜质的抗AD药物。 4.抗AD药物靶标的排序 用特定的算法给靶标打分: 与疾病-靶标相关程度(标准1和3) 支持AD发病机制证据的强度(标准2) 5.候选靶标和重用药物的计算分析:检验。 例:用组学数据挖掘阿尔茨海默病的重用药物 1.获得与AD相关的蛋白质 AD相关的基因:GWAS(Genome-wide association study)全基因组关联分析 (基因组学) AD相关的代谢物质:Human Metabolome Database(HMDB) 与两种以上代谢物质有关的蛋白(代谢组学数据)AD相关的蛋白:PubMed检索,如“Alzheimer’s disease and proteomics”等。 (蛋白质组学、表观基因组学) 524个与AD有关的蛋白 2.将上述与AD相关蛋白与现有药物联系起来 治疗靶标数据库,TTD(Therapeutic Target Database) 药物数据库,DrugBank database 筛选出靶标-药物对:药物必须是批准或者通过临床试验检验的,分别从两个数据库中抽取:1)药物靶标名字;2)药物名;3)药物原来适应症;4)药物作用模式等信息。 496种药物,97种蛋白 3.获取致病机理和抗AD重用药物的作用模式 资源:检索OMIM database、PubMed 抽取关于人类和动物药物靶标作用的信息:

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

生物信息学名词解释(0001)

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用 生物信息学(bioinformaLics)是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。 从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。 生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。 生物信息学在人类基因组计划中也具有重要的作用。 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信息分析得到的。 当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

我想象中的生物信息学

我想象中的生物信息学 作为一个习惯于游走于各大实验室,经常需要称量和测定的生物学专业的我来说,生物信息学是一个复合词,也是一个较为“高大上”的词汇,毕竟,它与当今最热门、最具吸引力和最伟大的计算机技术挂钩了。这种奇妙的组合,就像具有不同优良性状作物之间的远缘杂交,不由让我对生物信息学这个新兴学科臆想连篇。 今天是2050年12月1日。夏鑫正坐在办公室里,聚精会神地看着来自国家电视台有关新型病毒HIL(High Infection Lethal)在东南亚肆虐的新闻报道。夏鑫的办公室位于北京的中国生物大数据研究中心大夏里。中国生物大数据研究中心直属于国家信息部,以各种生物数据挖掘与开发为核心内容,集产、学、研为一体的科研机构。夏鑫,作为药物生物信息学领域的专家之一,已经在这个行业深耕差不多40多年了。“这次要来的家伙可能不好对付。”夏鑫自言自语说道。的确,这次新爆发的疫情与以前有所不同,其侵染的病毒是一种极其凶险与难缠的核糖核酸类病毒。丝条状,长约1000纳米,能够通过血液、唾液、汗液等体液进行传播,一旦被它侵染,感染者会在10分钟以内全身发黑、抽搐、直至死亡。从现场的一些尸检发现,死者血液里的红细胞不足0.1%,且骨髓内的造血干细胞全部死亡。夏鑫不由寒颤,脸上出现少有的不安,但很快,他的注意力就被办公室电脑吸引,如他所料,东南亚愈演愈烈的疫情,必将引起中国政府的高度重视,现在他的电脑就接受到上级分派的任务。任务是快速对HIL病毒的RNA 分析并依照目前利用X射线衍射晶体结构得到的某些重要的病毒表达调节分子,设计能与其作用的药物。这项任务对一位有多年经验的专家来说,并非难事,只是速度一定要快!夏鑫首先对手上的RNA利用特定算法进行全方位分析,划分出调控区,编码区,并进行世界各大病毒基因组数据库的比对,锁定重要区域。这些步骤并不需要多长时间,大概2min。这有赖于全球各大数据库的双轨道链接以及超高速的带宽传输,另外,每位生物信息学工作者都配备了高性能的计算机并掌握凝集众多科研人员心血的多功能信息学大软件。接着就是对分析的数据进行生物学注释。在未开发基因组和蛋白组注释数据库时,生物学注释对于大多拥有高超计算机能力但生物知识缺乏的生物信息学工作者来说,可以说是一大难题。这种不对称不单大大影响生物信息的效率,而且引起某些错误的注释。经过两个

最新生物信息学学习心得

生物信息学学习心得 第一篇:生物信息学 生物信息学是上世纪90年代初人类基因组计划(hgp)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。 本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一熟悉生物信息学网站及其数据的生物学意义 实验目的:

培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。 实验原理: 利用互联网资源检索相关的国内外生物信息学相关网站,如:ncbi、sanger、tigr、kegg、sble、中科院北京基因组研究所、北大生物信息 学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathatdb格式化库文件,并输入blast命令进行计算,获得结果文件。 实验内容: 1. 向网上blast服务器提交序列,得到匹配结果; 2. 本地使用blast,格式化库文件,输入命令行得到匹配结果;

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

生物信息学在药物设计中的应用

生物信息学在药物设计中的应用 SJ 摘要:生物信息学是在数学、计算机和生命科学的基础上形成的一门新型交叉学科,是指为理解各种数据的生物学意义,运用数学、计算机科学与生物学手段进行生物信息的收集、加工、储存、传播、分析与解析的科学。随着生物信息学的发展,其在药物开发中起着越来越重要的作用。本文简要的综述了生物信息学在药物设计中的应用。 关键词:生物信息学;药物设计;靶标 1 生物信息学 1.1生物信息学概述 自1990年人类基因组计划正式启动以来,其迅猛发展造成了生物学数据的迅速膨胀,大量多样化生物学数据蕴含着大量生物学规律,这些规律是解决许多生命之谜的关键所在。因此人们对生物学数据搜集、管理、处理、分析、释读能力的要求迅速提升,计算机技术也越来越多地应用于处理人类基因组研究产生的海量数据及相关生物信息。一门由生物学、计算机科学及应用数学等学科交叉形成的新兴学科——生物信息学应运而生。生物信息学利用计算机科学技术,结合生物学、数学、物理学、化学、信息学和系统科学等理论和方法,通过高容量的数据库、繁多的搜索系统、快速的网络通讯和分析工具对生物信息资源进行收集、存储、分析、利用、共享、服务、研究与开发。 其研究重点主要体现在基因组学和蛋白组学两方面。具体说,是从核酸和蛋白质序列出发,分析序列中表达的结构与功能的生物信息。目前基因组学的研究出现了几个重心的转移:一是将已知基因的序列与功能联系在一起的功能基因组学研究;二是从作图为基础的基因分离转向以序列为基础的基因分离;三是从研究疾病的起因转向探索发病机理;四是从疾病诊断转向疾病易感性研究。生物芯片(Biochip)的应用将为上述研究提供最基本和必要的信息及依据,将成为基因组信息学研究的主要技术支撑。生物信息学的发展为生命科学的进一步突破及药物研制过程革命性的变革提供了契机。就人类基因组来说,得到序列仅仅是第一步,后一步的工作是所谓后基因组时代的任务,即收集、整理、检索和分析序列中表达的蛋白质结构与功能的信息,找出规律。 1.2生物信息学的阶段 前基因组时代(20世纪90年代前):这一阶段主要是各种序列比较算法的建立、生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等。

710药大参考书目

初试部分科目考试内容范围(仅供参考、不作为命题依据) 考试科目及代 码 书目名称,编著者及出版者、版本 710 药学基础综合(一)分析化学部分: 1.《分析化学》孙毓庆、胡育筑主编,科学出版社,第三版。 2.《分析化学习题集》孙毓庆、胡育筑主编,科学出版社,第二版。 有机化学部分: 1.《有机化学》王积涛主编,南开大学出版社,第三版。 2.《有机化学》陆涛主编,人民卫生出版社,第七版。 3. 《有机化学学习指导与习题集》陆涛等主编,人民卫生出版社,第三版。 生理学部分: 1.《人体解剖生理学》郭青龙、李卫东主编,中国医学科技出版社,第二版,2015年8月。 2.《生理学》姚泰主编,人民卫生出版社,第六版。 生物化学部分: 《生物化学》姚文兵主编,人民卫生出版社,第七版。 711 药学基础综合(二)分析化学部分: 1.《药物分析化学》王志群主编,东南大学出版社,第二版。 2.《分析化学习题集》孙毓庆、胡育筑主编,科学出版社,第二版。 有机化学部分: 《有机化学》芦金荣主编,东南大学出版社,2009年第一版。 生理学部分: 1.《人体解剖生理学》郭青龙、李卫东主编,中国医学科技出版社,第二版,2015年8月。 2.《生理学》姚泰主编,人民卫生出版社,第六版。 生物化学部分: 《生物化学》姚文兵主编,人民卫生出版社,第七版。 712生物化学《生物化学》姚文兵主编,人民卫生出版社,第七版。《生物化学》吴梧桐主编,中国医药科技出版社,第二版。 713有机化学《有机化学》王积涛主编,南开大学出版社,第三版。 《有机化学》陆涛主编,人民卫生出版社,第七版。 《有机化学学习指导与习题集》陆涛等主编, 人民卫生出版社,第三版。 714思想政治教育学《思想政治教育学原理》陈万柏、张耀灿主编,高等教育出版社,第2版,2007年7月版。 811分析化学《分析化学》孙毓庆、胡育筑主编,科学出版社,第三版。 《分析化学习题集》孙毓庆、胡育筑主编,科学出版社,第二版。 812管理学原理《管理学》[美]斯蒂芬.P.罗宾斯等著,孙健敏等译,中国人民大学出版社,第十一版,2012年6月。 《医药企业管理学》邱家学主编,中国医药科技出版社,2012年6月。 18

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况 国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物 信息学部门的数量也与日俱增。美国早在1988年在国会的支持 下就成立了国家生物技术信息中心(NCBI),其目的是进行计 算分子生物学的基础研究,构建和散布分子生物学数据库;欧 洲于1993年3月就着手建立欧洲生物信息学研究所(EBI), 日本也于1995年4月组建了信息生物学中心(CIB)。目前, 绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数 据库系统产生,他们共同组成了 DDBJ/EMBL/Gen Bank国际核 酸序列数据库,每天交换数据,同步更新。以西欧各国为主的 欧洲分子生物学网络组织(EuropeanMolecular Biology Network, EMB Net)是目前国际最大的分子生物信息研究、开 发和服务机构,通过计算机网络使英、德法、瑞士等国生物信 息资源实现共享。在共享网络资源的同时,他们又分别建有自 己的生物信息学机构、二级或更高级的具有各自特色的专业数 据库以及自己的分析技术,服务于本国生物(医学)研究和开 发,有些服务也开放于全世界。 从专业出版业来看,1970年,出现了《Computer Methods and Programs in Biomedicine》这本期刊;到1985年4月, 就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在,我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况 我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。 但是由于起步较晚及诸多原因,我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数,可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%,而美国则发表2160篇占全部的39%之多(统计数据截至2004年2月15日)。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大[4]。在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,显露出蓬勃发展的势头,有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

生物信息学在生物医学文献中自动提取疾病相关信息的运用

生物信息学在生物医学文献中自动提取疾 病基因点突变信息的运用 生物信息学(Bioinformatics)一词由美籍学者林华安博士(Hwa A.Lim)首先创造和使用。生物信息学是多学科的交叉产物,涉及生物、数学、物理、计算机科学、信息科学等多个领域。狭义的讲,生物信息学是对生物信息的获取、存储、分析和解释;计算生物学则是指为实现上述目的而进行的相应算法和计算机应用程序的开发。这两门学科之间没有严格的分界线,统称为生物信息学。生物医学研究的重要目标就是找到突变和相应的疾病表型。但是大多数的疾病相关的突变数据都以文本的形式埋藏在生物医学文献之中,缺乏必要的结构来便于检索和查找。 信息的快速更新和持续增长的文献储存使得提取这些突变信息变得困难。蛋白质和DNA的突变信息储存在像Mendelian inheritance in man(OMIM)和Swiss-Prot 等数据库中。数据挖掘的方法从这些数据库中提取突变信息可以达到0.98的准确性,但是还没有正确的自动转到疾病相关的突变的方法。现有算法可以实现鉴定点突变(比如MutationFinder)或者突变和其相关的基因以及蛋白质的名称(比如MEMA和MuteXe)。大多数“突变+基因”的方法可以通过各自不同的界面和算法来实现对点突变信息的表述和文本数据收集。比如:Mutation Grab采用基于图表的(Graph based)的方法,而MutationMiner采用结构可视化的方法来表现。但是所有方法都关注于提取点突变和相关基因的正确性。 新的高效的从生物医学文献中鉴别点突变以及他们和疾病表型的关系。结合了数据挖掘(data mining)和序列分析(sequence analysis)来鉴定点突变和相关疾病。采用PubMed引擎来从MEDLINE中检索一系列摘要。将词汇索引控制在MEDLINE's Medical Subject Heading (MeSH)。根据MeSH提交一个简单的查询“mutation"然后下载所有可用的摘要,为XML格式。用MetaMap来鉴定疾病 状态。在生物领域中,最大的词汇资源为United Medical Language System (UMLS)Metathesaurus。MetaMap是专门发现Metathesaurus中的生物医学实体的软件。用MetaMap来鉴定题目和摘要中的疾病的名称。其方法如下:(1) EMU突变抽取工具被用来从突变疾病相关的文库中来鉴定和检索突变。同时也从文本中识别基因的名称。(2)应用一个过滤器(SEQ_Filter)来排除所有氨基酸和报道的相关蛋白序列中的不同的突变。(3) SEQ前后的结果可以人为建立一个全注释的疾病突变数据库。 首先,用EMU来鉴定基因信息。在生物医学文献中,基因和蛋白质的记录没有一个标准的形式。所以自动抽取基因和蛋白质信息是在数据挖掘上的一个很大的挑战。我们采用在内部词典中来进行字串查找(string look up)来确的基因的名字。使用Human Gnome Organization(HUGO)和National Center for Biotechnology Information (NCBI)的数据库来进行。所有和密码子一样的基因名称被除去了。其次,用SEQ_Filter来过滤氨基酸位置上不一致的突变。对于在摘要中鉴定的基因名称和突变,都可以在NCBI中查找了相应的蛋白质信息。对于每个蛋白质,根据相应位置上的突变来确定野生型的氨基酸。如果在突变位置的野生型氨基酸(或者突变型)至少有一个相关的蛋白质,那么基因和突变之间的联系证明是有效的。最后,建立黄金标准(gold standards)。和疾病基因相

相关文档
最新文档