生物信息学数据库综述
生物信息学数据库访问与操作作业指导书

生物信息学数据库访问与操作作业指导书第一章生物信息学数据库概述 (2)1.1 数据库简介 (2)1.2 生物信息学数据库分类 (3)第二章数据库访问基础 (4)2.1 数据库访问方法 (4)2.1.1 网页访问 (4)2.1.2 命令行访问 (4)2.1.3 API访问 (4)2.1.4 与本地安装 (4)2.2 数据库访问工具 (4)2.2.1 浏览器 (4)2.2.2 命令行工具 (4)2.2.3 编程语言 (4)2.2.4 数据库管理软件 (5)2.3 数据库访问权限与安全 (5)2.3.1 权限控制 (5)2.3.2 用户认证 (5)2.3.3 数据加密 (5)2.3.4 安全审计 (5)2.3.5 安全策略 (5)第三章常用生物信息学数据库介绍 (5)3.1 核酸序列数据库 (5)3.1.1 GenBank (5)3.1.2 EMBL (6)3.1.3 DDBJ (6)3.2 蛋白质序列数据库 (6)3.2.1 SwissProt (6)3.2.2 TrEMBL (6)3.2.3 PIR (6)3.3 结构生物学数据库 (6)3.3.1 Protein Data Bank(PDB) (6)3.3.2 RCSB PDB (7)3.3.3 MMDB (7)第四章数据库检索与查询 (7)4.1 关键词检索 (7)4.2 高级检索策略 (7)4.3 检索结果处理 (8)第五章数据库数据与转换 (8)5.1 数据方法 (8)5.2 数据格式转换 (8)5.3 数据压缩与解压缩 (9)第六章数据库数据统计分析 (9)6.1 数据分布分析 (9)6.1.1 数据类型与分布特征 (9)6.1.2 数据分布分析方法 (9)6.2 数据相关性分析 (10)6.2.1 相关性指标 (10)6.2.2 相关系数计算方法 (10)6.2.3 相关系数的解释与检验 (10)6.3 数据可视化 (10)6.3.1 数据可视化工具 (10)6.3.2 数据可视化方法 (10)6.3.3 数据可视化技巧 (11)第七章数据库数据挖掘 (11)7.1 数据挖掘方法 (11)7.2 数据挖掘工具 (11)7.3 数据挖掘应用实例 (12)第八章数据库数据整合 (12)8.1 数据整合方法 (12)8.2 数据整合工具 (13)8.3 数据整合案例分析 (13)第九章数据库数据管理与维护 (13)9.1 数据库备份与恢复 (13)9.1.1 备份策略 (14)9.1.2 备份方法 (14)9.1.3 恢复操作 (14)9.2 数据库功能优化 (14)9.2.1 索引优化 (14)9.2.2 查询优化 (15)9.2.3 存储优化 (15)9.3 数据库安全与权限管理 (15)9.3.1 安全策略 (15)9.3.2 权限管理 (15)第十章生物信息学数据库应用实例 (15)10.1 基因序列分析 (15)10.2 蛋白质功能预测 (16)10.3 疾病相关基因研究 (16)、第一章生物信息学数据库概述1.1 数据库简介数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。
生物信息学数据库分类整理汇总

生物信息学数据库分类整理汇总生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源,对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。
本文将对生物信息学数据库进行分类整理和汇总,方便生物信息学研究者更好地使用和了解这些数据库。
1.基因组数据库:- GenBank:美国国家生物技术信息中心(NCBI)维护的基因序列数据库,包含已知基因的核酸序列。
- Ensembl:英国恩格斯尔基因组项目维护的一个综合性基因组数据库,包含多种物种的基因组数据。
- UCSC Genome Browser:加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器,提供多种物种的基因组序列和注释信息。
2.蛋白质数据库:- UniProt:一个综合性的蛋白质数据库,集成了多个蛋白质序列和注释信息资源。
- Protein Data Bank (PDB):存储大量已解析的蛋白质结构数据的数据库,提供原子级别的结构信息。
- Protein Information Resource (PIR):收集和整理蛋白质序列、结构和功能信息的数据库。
3.转录组数据库:- NCBI Gene Expression Omnibus (GEO):存储和共享大量的高通量基因表达数据的数据库。
- ArrayExpress:欧洲生物信息学研究所(EBI)开发的一个基因表达数据库,包含多种生物组织和疾病的表达数据。
4.疾病数据库:- Online Mendelian Inheritance in Man (OMIM):记录人类遗传疾病和相关基因的数据库。
- Orphanet:收集和整理罕见疾病和相关基因的数据库。
5.代谢组数据库:- Human Metabolome Database (HMDB):一个综合性的人类代谢物数据库,包括代谢产物的结构和功能信息。
- Kyoto Encyclopedia of Genes and Genomes (KEGG):包含多种生物体代谢途径的数据库。
生物信息学中的数据库和计算工具

生物信息学中的数据库和计算工具生物信息学是一门综合性学科,应用范围十分广泛。
生物信息学研究的是生物体内的遗传信息的获取、存储、分析和应用。
它结合了生物学、信息学、计算机科学、数学等多个学科,旨在解决生物大数据的存储、分析和挖掘问题。
本文将介绍生物信息学中的数据库和计算工具,以及它们在生物信息学中的应用。
一、生物信息学中的数据库生物信息学中的数据库是受到生物学家和计算机科学家制作和维护的存储和组织生物数据的资源。
这些数据库包括基因组、蛋白质、代谢、信号转导、基因表达谱等生物信息学数据库。
生物信息学中的数据库已经成为研究生物学的常规工具,研究人员可以通过分析数据库中的信息来更好地理解生物学现象。
1. 基因组数据库基因组数据库是生物信息学中最重要的数据库之一。
它存储了各种物种的基因组信息。
基因组数据库的应用包括基因预测、基因注释、基因功能鉴定、基因组进化分析等。
最知名的基因组数据库包括 GenBank、EMBL、Ensembl 等。
其中 GenBank 是最大的公共基因组数据库之一,它由美国国家生物技术信息中心(NCBI)维护。
2. 蛋白质数据库蛋白质数据库是存储蛋白质结构和序列信息的数据库。
其中,PDB是最著名的蛋白质数据库之一,它提供了大量的蛋白质三维结构的信息。
此外,UniProt 是另一重要的蛋白质数据库,它整合了多个独立的蛋白质数据库,提供了关于蛋白质序列、结构和功能的详细信息。
3. 引用数据库引用数据库存储了生物学家在论文、会议和其他出版物中发表的研究结果。
它们经常被生物信息学家用于构建生物信息学算法的基础,并分析特定领域的研究趋势。
PubMed 和 Web of Science 是引文数据库的代表性例子。
二、生物信息学中的计算工具随着数据量的增加和分析复杂度的提高,生物信息学中出现了大量的计算工具用于帮助生物科学家完成各种分析任务。
这些工具包括序列比对、序列拼接、批量序列处理、统计分析、数据可视化、机器学习等。
第三章 生物信息数据库-概述及类型(1)

DNA模体 RNA表达 蛋白质表达
底物
RNA序列 蛋白质序列
代谢途径 抑制因子 和药物
蛋白质结构
蛋白质模体
分子生物学数据类型
突变/多形性 种群 物种 基因组图谱
组织和细胞
RNA表达
DNA模体
RNA序列 蛋白质表达 蛋白质序列
DNA序列
R因子 和药物
蛋白质结构
蛋白质模体
分子生物学数据类型
物种
基因组图谱
DNA模体
DNA序列 RNA结构
RNA序列
蛋白质序列 蛋白质结构
蛋白质模体
分子生物学数据类型
物种 基因组图谱
DNA模体 RNA表达 RNA序列
DNA序列
RNA结构
蛋白质序列
蛋白质结构 蛋白质模体
在RNA水平上使用DNA微阵列检测变异
一个芯片上包含酵母 基因组全序列
红色点: RNA 表达水平增加的基因 绿色点: RNA表达水平降低的基因
介绍主要序列数据库,比较它们包含的数据内容和注释质量的区别
数据库接受数据的形式(文本搜索,相似性搜索,浏览和交叉索引) 序列与非序列数据库介绍以及它们的用途 一级序列与结构数据库介绍
分子生物学数据类型
物种 基因组图谱
小鼠X染色体
来源于小鼠基因组计划
/
GenBank - 按物种分类
Entries 碱基 物种 Homo sapiens Mus musculus Caenorhabditis elegans Drosophila melanogaster Arabidopsis thaliana Oryza sativa Rattus norvegicus Saccharomyces cerevisiae Rattus sp. Escherichia coli Fugu rubripes Danio rerio Human immunodeficiency virus type 1 Schizosaccharomyces pombe Plasmodium falciparum Zea mays Bacillus subtilis Magnaporthe grisea Dictyostelium discoideum Lycopersicon esculentum 2217460 1556595261 553872 260818221 77205 177824883 123758 133950582 72565 117022315 87138 47136422 80507 42049391 14403 30390617 61001 26060656 5240 18407242 32227 17046673 33482 14732289 31504 14498639 9882 14270269 5446 11539475 19704 10817282 1101 10008018 13898 9038361 16089 8486371 11429 7007861
生物信息学总结

一、生物学数据库总共三大数据库GenBank (隶属于NCBI) , DDBJ(日本) , EBI(欧洲)。
1. NCBIPubMed:美国国家医学图书馆提供的搜索服务,主要用于搜索paper。
Entrez :将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究以及全基因组组装数据整合成的一个系统,其实就是个工具,平常你点的search,是个查询、提取、显示系统。
Blast :基础局部比对搜索工具,主要用于搜索相似DNA或蛋白质序列。
OMIM :在线人类孟德尔遗传性状数据库,主要用于搜索人类基因和遗传异常序列。
BooksTaxonomy:生物类别的分类浏览器(古细菌、细菌、真核生物、病毒)Structure:分子模型数据库(MMDB,PDB)GenBank:数据量极大DbEST:表达序列标签数据库,GenBank的子库。
Unigene:为每一个gene创造一个条目,一个具体的基因可能对应于许多EST,但是只对应一个Unigene。
提供作为EST记录来源的cDNA库的组织区域分布列表,并且给出了对应于基因的EST列表,允许使用者对它们进行深入研究。
RefSeq:GenBank数据量太大,是冗余的,对应于某个基因的索引号可能有很多,但是其RefSeq仅有一个。
2. EBIEMBL:储存DNA、RNA序列的数据库,对DDBJ,GENBANK是互补的。
SWISS-PROT:现存的最好的标有注释的蛋白数据库TrEMBL:翻译后的EMBLMSD:蛋白质结构数据库Ensembl:基因组数据浏览器ArrayExpress:基因表达数据库3.其他生物学数据库PIR:蛋白信息数据库UniProt:将Swiss-Prot、PIR、TrEMBL三者合一ExPASy :专家蛋白分析系统PDB:蛋白三维结构,存储格式为pdb,用RasMol软件看二、数据库检索数据库检索是指对数据库中的注释信息进行关键词匹配查找1、Entrez使用方法登录NCBI,在Search处选择数据库,输入检索词之后回车检索格式genepept、fasta序列的fasta格式:1. 每条记录的第一行以大于号(>)开始2. 大于号后是序列的描述信息3. 从第2行开始为序列本身。
流行病学研究中的生物信息学数据库与资源应用

流行病学研究中的生物信息学数据库与资源应用随着科技的不断发展和进步,生物信息学在流行病学研究中的应用变得越来越重要。
生物信息学数据库和资源成为流行病学研究人员的重要工具,可以提供宝贵的数据和信息,帮助研究人员深入了解疾病的发生和传播机制。
本文将详细介绍流行病学研究中常用的生物信息学数据库和资源,以及它们的应用。
一、SNP数据库SNP(single nucleotide polymorphism)数据库是研究流行病学中最常用的数据库之一。
SNP是指基因组中的单个核苷酸变异,可用来研究人与人之间的遗传差异以及遗传变异与疾病之间的关系。
常见的SNP数据库包括dbSNP、HapMap和1000 Genome等。
这些数据库存储了大量的SNP信息,研究人员可通过检索和分析这些数据库中的数据,揭示SNP与疾病的相关性,为流行病学研究提供重要的依据。
二、基因表达数据库基因表达数据库存储了不同组织和细胞中的基因表达水平信息,对于分析疾病的遗传机制和发生发展过程起着重要作用。
常见的基因表达数据库包括Gene Expression Omnibus(GEO)和The Cancer Genome Atlas(TCGA)等。
研究人员可通过这些数据库获取基因在特定组织或疾病状态下的表达水平信息,进一步研究基因与疾病的关联性。
三、蛋白质数据库蛋白质数据库存储了大量的蛋白质序列和结构信息,对于研究疾病的发生机制和蛋白质功能起着重要作用。
常见的蛋白质数据库包括UniProt、Protein Data Bank(PDB)和STRING等。
研究人员可通过这些数据库获取蛋白质的序列、结构和功能信息,揭示蛋白质与疾病之间的关系,为流行病学研究提供有力支持。
四、基因组数据库基因组数据库存储了各种物种的基因组序列信息,为研究物种的遗传特性和基因功能提供了重要数据。
常见的基因组数据库包括GenBank、Ensembl和UCSC Genome Browser等。
生物信息学综述论文3900字_生物信息学综述毕业论文范文模板

生物信息学综述论文3900字_生物信息学综述毕业论文范文模板生物信息学综述论文3900字(一):计算机算法在生物信息学中的应用综述论文摘要:在人类基因组计划的推动下,生物信息学得到了人们的广泛关注,并呈现出数量多、计算量大等鲜明特征,因此要求在生物信息学中采用计算机算法,以提高生物信息学处理问题的效率。
以生物信息学中常用的计算机算法为切入点,进一步从基因表达数据分析、基因组序列信息分析、生物序列差异和相似性分析、遗传数据分析以及蛋白质结构与功能预测5个方面,论述了计算机算法在生物信息学中的典型应用。
关键词:生物信息学;基因;计算机算法;数据分析0引言生物信息学(Bioinformatics)作为一门新兴的交叉学科,是随着生命科学和计算机科学的高速发展而出现的。
它通过充分利用生物学、信息学、数学、物理学、统计学以及计算机网络等工具或手段,对大量生物数据信息进行有效的阐明和分析,使之成为具有相应生物意义的生物数据信息。
其涵盖了基因组信息的获取、处理、分配、存储等多个方面,通过对生物信息的比较和分析,从而获取基因编码以及核酸和蛋白质结构功能等信息,是最具活力和发展前景的学科之一。
然而,生物信息学在我国由于起步较晚,加之其自身呈现出的数量多、计算量大等特征,使生物信息学面临着计算瓶颈。
基于此,笔者结合自己的工作实践,对计算机算法在生物信息学中的应用进行探讨,以期为在生物信息学中进行有效的数据挖掘提供理论支持。
1生物信息学中常用的计算机算法算法作为计算机科学的一个重要分支,在计算机科学中居于核心地位。
在信息时代,算法作为解决问题的重要工具之一,其通过输入符合规范的信息,从而在短时间内快速获取所需要的输出,现已在各个领域得到了广泛应用。
在生物信息学中,计算机算法的应用也对生物信息学的发展起着积极推动作用。
生物信息学中常用的计算机算法主要包括以下几种:(1)分治法。
分治法即在解决大的问题实例时,通过将该问题实例分解为具有相同问题的几个小的问题实例,再采用递归方法依次对这些小的问题实例求解,然后将所得的解合并,从而得出大的问题实例的解。
生物信息学数据库概览及应用

生物信息学作为一门交叉学科,在现代生物学研究中扮演着越来越重要的角 色。随着高通量测序技术的发展和大数据时代的到来,生物信息学数据库已 成为存储、管理和分析海量生物学数据的关键工具。本概览将带您深入了解 常用的生物信息学数据库,探讨它们在基因组学、转录组学、蛋白质组学等 领域的应用,以及如何有效利用这些资源来推动生物医学研究信息学数据分析中扮演更重要的角 色。这些技术可以帮助研究者从复 杂的生物学数据中发现新的模式和 规律,提高数据解释的准确性和效 率。
未来的数据库将更注重多组学数据 的整合和分析。通过结合基因组、 转录组、蛋白质组等多层次数据, 研究者可以获得更全面的生物系统 认知,推动系统生物学和精准医疗 的发展。
UCSC Genome Browser:基因组数据可视化利器
基因组浏览器
UCSC Genome Browser是一个强大的 基因组数据可视化工具,允许用户在线 浏览和分析多个物种的基因组序列。它 提供了直观的图形界面,可以显示基因 结构、保守区域、表达数据等多层次信 息。研究者可以自定义显示的数据轨道 ,实现个性化的基因组分析。
随着个人化医疗的发展,生物信息 学数据库将面临更严格的数据安全 和隐私保护要求。未来的数据库设 计将更加注重数据加密、访问控制 和匿名化技术,以平衡数据共享和 隐私保护的需求。
GEO:基因表达数据的宝藏
数据提交
研究者可以通过GEO(Gene Expression Omnibus)提交高通量基因表达数据,包括 芯片数据和测序数据。GEO提供了标准化的提交流程和元数据模板,确保数据的质量 和一致性。
数据存储和组织
GEO采用层次化的数据组织结构,包括Series(实验系列)、Samples(样本)和 Platforms(平台)。这种结构使得用户可以方便地浏览和检索相关实验数据,同时也 便于数据的管理和更新。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学数据库综述摘要本文对生物信息学常见的数据库进行了汇总。
常见数据库分为三类:核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。
并分别对其中常见数据库进行了介绍。
对于生物信息学数据库的现存问题也进行了论述。
关键词数据库;核酸序列数据库;蛋白质序列数据库;三维分子结构数据库;随着生物信息的发展,生物信息学数据库的数量在不断的递增,内部结构也不断的复杂化,功能也越来越细化。
根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。
本文将比较常见的数据进行了汇总。
1 核酸序列数据库常用的核酸序列数据库有GenBank核酸序列数据库、EMBL核酸数据库、DDBJ数据库、GDBD等。
1.1GenBankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。
它是由美国国立生物技术信息中心(N CBI)建立和维护的。
Genbank每天都会与欧洲分子生物学实验室(EM BL)的数据库,和日本的DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。
Genbank的数据可以从N CBI的FrP服务器上免费下载完整的库,或下载积累的新数据。
N CBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从N CBI的主页上找到这些服务。
Gel~ bank 库里的所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件1.2 EM BL核酸序列数据库EM BL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。
该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)N务完成l 6J。
向E M BL核酸序列数据库提交序列可以通过基于W eb的WEBI N工具,也可以用Sequi n 软件来完成。
1.3 DD BJ 数据库D D BJ数据库创建于1984 年,由日本国立遗传学研究所遗传信息中心维护。
它首先反映日本所产生的DNA数据,同时与Genbank、EMBL合作互通有无,同步更新,每年四版。
日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。
可以使用其主页上提供的SAS工具进行数据检索和分析。
可以用Sequin 软件向该数据库提交序列。
1 .4 G D B人类基因组数据库(GD B)是人类基因图谱和疾病的数据库。
GDB的目标是构建关于人类基因组图谱和测序。
目前GDB中有:人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoint细胞遗传标记cytogenetic markers、易碎位点f r agile、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content conting 图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上登位基因频率数据)。
GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式看基因组图谱。
2蛋白质序列数据库随着HGP 计划的不断深入以及测序技术的不进步,蛋白质序列信息也成指数级增长,蛋白质序列数据库就是主要以这些序列也就是蛋白质的一级结构作为数据源,并辅以序列来源序列发布时间、序列参考文献、序列特征等内容加以注释,最终形成数据文件,存放于数据库。
目前规模较大的综合型蛋白质序列数据库有:PIR 、SW ISS —PR OT/TrEMBL、PROSITE 等。
2 .1 PIR 和PSDPI R是蛋白质信息资源(Protein Information Re—source)的缩写。
这是一个国际蛋白质序列数据库,它包含所有序列已知的自然界中野生型蛋白质的信息。
此库的主要目的是提供按同源性和分类学组织的综合的、非冗余的数据库,其中包括来自几十个完整基因组的蛋白质序列。
所有序列数据都经过整理,超过99%的序列以按蛋白质家族分类。
PIR国际蛋白质序列数据库(PSD)是由美国华盛顿的全国生物医学研究基金会(NBRF)所支持的PIR、慕尼黑蛋白质序列信息中心(MIPS)和13本国际蛋白质序列数据库(JI PI D )共同维护的国际上最大的公共蛋白质序列数据库。
PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引。
每季度都放行一次完整的数据库,每周可以得到更新部分。
2 .2 SWISS—PROTSW ISS—PROT是对数据人工审读很严格经过注释的蛋白质序列数据库,由欧洲生物信息研究所(EBI)维护。
数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。
SWISS—PROT中尽可能减少了冗余序列,并与其它3O多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS )可以方便地检索SWISS —PROT和其它EBI的数据.SWISS—PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
北京大学生物信息中心有SWISS—PROT 镜像,可以通过检索工具SRS[R一210]查询。
2 .3 P R O Sn EPROSI TE 由专家根据生物知识审编SWISS—PROT蛋白质序列中有生物意义的位点、模式和轮廓的数据库。
涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域;除了序列模式之外,PROSI TE还包括由多序列比对构建的prof ile,能更敏感的发现序列与profile的相似性。
PROSI T E 的主页上提供各种相关检索服务。
3蛋白质结构数据库将通过实验研究如基于x射线和核磁共振(NMR)分析所获得的关于蛋白质、酶、病毒、碳水化合物和核酸的晶体结构数据收集起来,就形成了生物大分子的结构数据库.虽然其中序列的数量远比不上蛋白质序列数据库,但其数据量也显然在呈指数增长。
3 .1PDB蛋白质数据库(PDB)由美国Brook_ haven国家实验室建立。
PDB收集的数据来源于x光晶体衍射和核磁共振(NMR)实验测定的生物大分子三维结构数据,经过整理和确认后存档而成,是国际上唯一的生物大分子结构数据档案库。
RCSB 的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明。
3 .2 SC O P蛋白质结构分类(SCOP )数据库详细描述了已知蛋白质结构之间的关系。
分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子,描述空间几何结构的关系;折叠类,所有折叠子被归于全a、全p、a /、a + f 3和结构域等几个大类。
SCOP还提供了一个非冗余的ASTRA IL序列库,这个库通常被用来评估各种序列的比对算法。
此外,SCOP还提供一个PDB —ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
3 .3 CA THCATH 数据库是一个新的对蛋白质结构域进行等级分类的数据库,它通过半自动的方法对不鲁克海文蛋白质数据库中的单一或者多结构域蛋白质结构进行等级分类,非蛋白质结构、模型以及纯alphac结构都没归在CATH中,而且收集的蛋白质晶体结构或者核磁共振结构的分辨率要求小于0.3mm。
分类按照4个水平:簇(class(C )),构件(architecture (A )),拓扑结构(topology (T))和同源超家族(homolo—gous supefamily(H ))。
3 .4 FSSPFSSP基于PDB数据库中现有蛋白质三维结构,用自动结构对比程序Dali 逐一比较而形成的折叠单元和家族分类库。
它以PDB非冗余数据库作为数据源,进行彻底、全面的三级结构较,而且数据库的升级以及维护都是DALL搜索引擎支持的。
此库在PDB 库每次新版后自动更新。
3 .5 M M D B蛋白质模型数据库(Molecular Modeling Data.base),由NCBI的MMDB组维护。
这是Entrez检索工具所使用的三维结构数据库,它以ASN.1格式反映PDB库中的结构和序列数据,引文连接到MED.IJN E.MMDB有一个配套的三维结构显示程序Cn3D。
生物信息数据库的发展是十分惊人的,但也存在诸多问题。
大多数数据库对于数据的创新、精确性和准确性没有权威评价,数据过多、重复、分类较粗等等。
因此需要生物信息学专家们在数据库结构设计、数据处理、数据提取、数据的重新组合、专一性等几方面进行更进一步的完善。
我国的生物信息学数据库也蓬勃发展起来。
北京大学于1997年3月成立了生物信息学中心,华大基因研究中心是我国目前测序能力最强的单位,广州中山大学生物信息中心与法国巴斯德研究所合作于1999年9月开通了“法国巴斯德亚洲研究网”。
中国科学院上海生命科学研究院也于2000年3月成立了生物信息学中心,分别维护着国内两个专业水平较高的生物信息学网站。
但是,我国尚未形成比较完整有效地生物信息数据库系统现有的数据库的质量也有待提高,服务有待改善。
参考文献:[1] 张阳德.生物信息学[M ].北京:科学出版社,2O04.[2] 张成岗,贺福初.生物信息学方法与实践[M ].北京:科学出版社,2OO2.[3] 王哲.生物信息学概论[M ].北京:第四军医大学出版社,2OO2.[4] 维斯特海德,帕里什,特怀曼.生物信息学(中译本)[M ].北京:科学出版社,2OO4.[ 5] 蒋彦,王小行,等.基础生物信息学及应用[M ].北京:清华大学出版社,2003.[6] 钟杨,张亮,等.简明生物信息学[M ].北京:高等教育出版社,2o o 1 .[7] 郝柏林,张淑誉.生物信息学手册[M ].上海:上海科学技术出版社,2002.。