生物信息学数据库

合集下载

肿瘤生物信息学相关数据库

肿瘤生物信息学相关数据库

肿瘤生物信息学相关数据库以下数据库按照综合性肿瘤数据库、肿瘤基因组数据库、肿瘤转录组数据库进行分类:综合性肿瘤数据库TCGA()即是综合性肿瘤数据库,关注与癌症的发生和发展相关的分子突变图谱。

肿瘤基因组数据库COSMIC网址:COSMIC是世界上最大最全面的有关肿瘤的体细胞突变以及其影响的资源。

主要提供多种肿瘤细胞基因组中的CNA、甲基化、基因融合、SNP及基因表达信息等。

主页面分为项目、数据管理、工具、帮助、搜索框等几大块,简洁清晰。

cBioPortal网址:cBioPortal网站整合了126个肿瘤基因组研究的数据,包括TCGA 和ICGC等大型的肿瘤研究项目,涵盖了两万八千例标本的数据,此外部分样品还包括了临床预后等表型的信息。

cBioPortal无需注册就能直接使用,而且提供一些小工具方便用户生成文章级别的图表,非常贴近用户的需求。

UCSC Cancer Genomics Browser网址:UCSC Cancer Genomics Browser是一个整合、可视化、分析癌症基因组学和临床数据的网络分析工具。

该平台目前共有355个数据集,包括了来自71870例样本的全基因组数据。

用户可以通过它浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因、预测基因、表达序列标签、mRNA、CpG岛,克隆组装间隙和重叠、染色体带型、小鼠同源性等。

ArrayMap网址:ArrayMap是由苏黎世大学分子生命科学研究所构建的,提供预处理过的肿瘤基因组芯片数据以及CNA 图谱。

arrayMap数据库为高分辨率致癌基因组CNA数据的meta分析和系统级数据集成提供了切入点。

用户可通过关键字搜索自己感兴趣的样本或者搜索特定文献中的样本,并在此基础上分析感兴趣的基因或基因组片段上的CNA 。

用户还可以选择两个样本来比较二者的CNA 的差异。

Cancer Hotspots网址:Cancer Hotspots数据库由Memorial Sloan Kettering癌症中心的Kravis分子肿瘤学中心维护,提供大规模癌症基因组学数据中发现的在统计学上有显著复发突变的信息。

生物信息数据库

生物信息数据库

生物信息数据库1生物信息数据库产生背景上个世纪60年代以来,随着核酸序列测定、蛋白质序列测定以及基因克隆和PCR技术的不断发展与完善,全世界各研究机构获得了大量的生物信息原始数据。

面对这些以指数方式增长的数据资源,传统的研究方式已经来不及迅速消化,因此有必要采用有效的方法将它们进行适当的储存、管理和维护,以便进一步分析、处理和利用,这就需要建立数据库即生物信息数据库[1]。

生物信息数据库是一切生物信息学工作的基础。

2生物信息数据库的特点2.1数据库种类的多样性。

生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他各类达数百种。

2.2数据库的更新和增长快。

数据库的更新周期越来越短,有些数据库每天更新。

数据的规模以指数形式增长。

2.3数据库的复杂性增加、层次加深。

许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与文献库、酶学数据库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库交叉索引。

2.4数据库使用高度计算机化和网络化。

越来越多的生物信息学数据库与因特网联结,从而为分子生物学家利用这些信息资源提供了前所未有的机遇[2]。

2.5面向应用。

首先各个数据库除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等。

此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质二级结构数据库等[3]。

3生物信息数据库的分类生物信息数据库种类繁多,归纳起来,大体可以分为5个大类:核酸序列数据库、基因组数据库、蛋白质序列数据库、生物大分子(主要是蛋白质)结构数据库以及以这4类数据库和文献资料为基础构建的二次数据库。

其中主要类型是序列数据库[4]。

来自基因组作图的基因组数据库、来自序列测定的序列数据库以及来自X-衍射和核磁共振结构测定的结构数据库是分子生物信息学的基本数据资源,通常称为基本数据库或初始数据库,也称一次数据库。

生物大数据技术在生物信息学研究中的重要数据库介绍

生物大数据技术在生物信息学研究中的重要数据库介绍

生物大数据技术在生物信息学研究中的重要数据库介绍生物信息学是利用生物学、计算机科学和统计学等多个学科的知识和技术研究生物信息的一门交叉学科。

近年来,随着高通量测序技术和大规模实验方法的发展,大量的生物信息数据积累起来,对于科学家来说,如何有效地管理和分析这些生物信息数据成为一项重要的任务。

生物大数据技术应运而生,成为解决这一问题的重要工具之一。

在生物大数据技术的支持下,科学家们逐渐构建了许多重要的数据库,为生物信息学研究提供了丰富的资源。

本文将介绍一些在生物信息学研究中起重要作用的数据库。

1. 基因组数据库基因组数据库是存储各种生物的基因组序列和相关信息的数据库。

其中,NCBI GenBank和ENSEMBL是两个非常重要的基因组数据库。

NCBI GenBank是一个庞大的公共数据库,存储了全球各种生物的基因组序列和其他关联信息。

ENSEMBL则是一个整合了多个数据库的资源,提供了全面的基因组序列和功能注释信息。

这些基因组数据库不仅为科学家们提供了基因组资源和注释信息,还为进一步的基因功能研究提供了重要的支持。

2. 蛋白质数据库蛋白质数据库是存储蛋白质序列和相关信息的数据库。

UniProt是最为知名和广泛使用的蛋白质数据库之一,它整合了多个已知蛋白质数据库的信息,包含了对蛋白质的功能、结构和相互作用等方面的注释。

此外,PDB是存储蛋白质三维结构信息的重要数据库,为研究蛋白质结构和功能提供了宝贵的资源。

蛋白质数据库的建立和维护为研究人员提供了更准确和全面的蛋白质信息,促进了蛋白质研究的深入开展。

3. 转录组数据库转录组数据库存储了各种生物体在特定条件下的转录组信息,包括基因的表达水平、调控网络和功能注释信息等。

GEO和EBI ArrayExpress是两个重要的转录组数据库。

GEO是一个公共数据库,包含了从全基因组水平到单基因水平的转录组数据,研究人员可以通过GEO访问到大量已发布的转录组数据。

EBI ArrayExpress是一个整合了全球转录组数据的资源,为用户提供了数据访问、分析和比较的功能。

生物信息学中常用的数据类型和数据库类型

生物信息学中常用的数据类型和数据库类型

生物信息学中常用的数据类型和数据库类型
在生物信息学中,常用的数据类型包括:
1. 基因组序列数据:包括DNA和RNA序列的原始数据,如FASTA格式或FASTQ格式。

2. 转录组数据:包括基因表达谱、剪接变异等,如RNA-seq数据。

3. 蛋白质序列数据:包括蛋白质的氨基酸序列,如UniProt数据库。

4. 基因组结构数据:包括基因位置、外显子、内含子等信息。

5. 遗传变异数据:包括SNP、INDEL、CNV等遗传变异信息。

6. 蛋白质结构数据:包括蛋白质的三维空间结构,如PDB数据库。

在生物信息学中,常用的数据库类型包括:
1. 基因组数据库:如NCBI GenBank、ENSEMBL等,存储基因组序列和注释信息。

2. 转录组数据库:如NCBI SRA、ENA等,存储RNA-seq和其他转录组数据。

3. 蛋白质数据库:如UniProt、Swiss-Prot等,存储蛋白质序列和注释信息。

4. 遗传变异数据库:如dbSNP、ClinVar等,存储遗传变异信息。

5. 蛋白质结构数据库:如PDB、CATH等,存储蛋白质的三维结构信息。

6. 功能注释数据库:如GO数据库、KEGG数据库等,存储基因和蛋白质的功能注释信息。

7. 互作数据库:如STRING数据库、BioGRID数据库等,存储基因和蛋白质之
间的相互作用信息。

06第六章 常用生物信息学数据库简介

06第六章 常用生物信息学数据库简介

英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列 数据库,于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权 威生物学刊物都要求作者在文章发表之前将所测定的 序列提交给EMBL、GenBank或DDBJ,得到数据库管 理系统所签发的登录注册号。 二是从生物医学期刊上收录已经发表的序列资料。

第四章 生物信息学数据库(二)-生技用

第四章  生物信息学数据库(二)-生技用

相似性和同源性关系
序列的相似性和序列的同源性有一定的关系,一 般来说序列间的相似性越高的话,它们是同源序 列的可能性就更高,所以经常可以通过序列的相 似性来推测序列是否同源。 正因为存在这样的关系,很多时候对序列的 相似性和同源性就没有做很明显的区分,造成经 常等价混用两个名词。所以有出现A序列和B序 列的同源性为80%一说。
核酸序列 蛋白质序列 生物大分子结构 基因组数据 生物分类数据库 孟德尔人类遗传学数据(OMIM) Pubmed
Entrez集成系统结构如图4.8所示。
图4.8、Entrez数据库系统结构图
各个参数选项
帮助信息 填入搜索序列
FastA的最新版本是FastA3软件包,下表2列出FastA3 家族所有成员:
程 序
FastA FASTX FASTY TFastA TFASTX TFASTY FASTS TFASTS FASTF TFASTF
查询序列类型
DNA 蛋白质 DNA 蛋白质 蛋白质
序列相似性比较和序列同源性分析
序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较, 用于确定该序列的生物属性,也就是找出与此序列相似 的已知序列是什么。完成这一工作只需要使用两两序列 比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种 的序列中进行多序列同时比较,以确定该序列与其它序 列间的同源性大小。这是理论分析方法中最关键的一步。 完成这一工作必须使用多序列比较算法。常用的程序包 有CLUSTAL等;
PDB MMDB NDB
(Protein Data Bank)
(Molecular Modeling Database) 实际上是PDB的一个编辑版本

生物信息学数据库检索

– 国际上专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格 式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构
• 蛋白质结构分类数据库SCOP /scop/
– 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系
第六页,共99页。
第六页,编辑于星期一:二十三点 五十分。
生物信息学数据库的地位和作用
经典生物医学实验 大量零碎数据 数据收集整理
大规模组学实验 海量组学数据 数据存储、注释
检索查询
数据库 理论分析
生物学研究 生物医学应用
第七页,共99页。
第七页,编辑于星期一:二十三点 五十分。
生物信息学数据库类型
• 主要收录核酸和蛋白质序列数据
• 包括由基因组计划产生的基因组及其表达序 列,由基因组序列所推测的编码和非编码核 酸和蛋白质序列,以及个别生物学实验中测 序获得的核酸和蛋白质序列
第十三页,共99页。
第十三页,编辑于星期一:二十三点 五十分。
一、序列数据库(基因组)
• Genome Database(GDB)数据库
第八页,共99页。
第八页,编辑于星期一:二十三点 五十分。
第九页,共99页。
第九页,编辑于星期一:二十三点 五十分。
《核酸研究》的14类数据库
1. Nucleotide Sequence Databases
核酸序列数据库
2. RNA sequence databases
RNA序列数据库
3. Protein sequence databases
12. Organelle databases
细胞器数据库

生物信息学 第三章 生物信息数据库及其信息检索


数据存储、注释
检索查询
数据库
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在
/nar/database/c/。
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis
rat
蛋白质-蛋白质相互作用数据库 DIP(/) 由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信 息和检测相互作用的实验技术 IntAct(/intact ) 提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相 互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结 构域注释进行网络的扩充 代谢网络和信号途径 KEGG大百科(http://www.genome.ad.jp/kegg/ ) 系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和 部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的 细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、 酶分子和酶反应等信息。
三、功能数据库
收录生物分子的功能数据,由ID号与序列和结构数据链接 组织表达谱和亚细胞定位 根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的 图谱: BodyMap(http://bodymap.ims.u-tokyo.ac.jp/ ) Unigene(/sites/entrez?db=unigene ) SAGEmap(/projects/SAGE/) GEO(/projects/geo/) Stanford Microarray Database(/microarray )

生物信息学中的数据库构建和应用

生物信息学中的数据库构建和应用生物信息学是一门众多学科交叉的学科,与生命科学、计算机科学和信息科学等领域都有着密切的联系。

在生物信息学中,构建和应用数据库是非常重要的内容之一。

本文将就生物信息学中的数据库构建和应用进行详细的介绍和探讨。

一、数据库的概念数据库是指按照一定规则组织起来的、可被计算机访问的、有组织的数据集合。

在生物信息学中,数据库是用来存储和管理生物信息的一种技术手段。

在生物信息学的研究中,生物学家和计算机科学家共同合作,通过建立数据库来存储和处理生物信息,进而为生物学研究提供数据支持。

二、数据库的种类在生物信息学中,常见的数据库种类包括以下几种:1. 基因组数据库:这类数据库主要用于存储和管理生物个体的基因组信息,如人类基因组数据库(NCBI Genome Database)等。

2. 蛋白质数据库:这类数据库主要用于存储和管理蛋白质序列、结构、功能等信息,如蛋白质数据银行(PDB)等。

3. 转录组数据库:这类数据库主要用于存储和管理生物的转录组信息,如基因表达数据库(GEO)等。

4. 代谢组数据库:这类数据库主要用于存储和管理代谢组信息,如人类代谢组数据库(HMDB)等。

5. 疾病基因组数据库:这类数据库主要用于存储和管理与疾病相关的基因组信息,如人类疾病基因组数据库(OMIM)等。

三、数据库的构建实际上,我们需要对生物信息进行收集、整合、清洗、存储、查询与分析等一系列处理,才能获得有价值的生物信息。

数据库的构建就是这样一个过程。

具体而言,它包括以下步骤:1. 数据采集:这个过程包括从生物实验中获取数据,并对数据的来源、实验设计、实验条件等信息进行详细记录。

2. 数据整合:对不同来源、不同形式的数据进行整合,将它们根据一定规则进行组织和管理,使之能够被计算机系统所识别和处理。

3. 数据预处理:对数据进行质量控制、数据清洗、归一化等处理,确保数据的合法性、准确性和一致性。

4. 数据存储:将预处理后的数据存储到数据库中,通常使用关系型数据库和非关系型数据库两种存储方式。

生物信息学实验报告1(一)生物信息学数据库

(一)生物信息学数据库实验目的:了解生物信息学的各大门户网站,了解数据库的内容及结构,理解各数据库注释的含义。

1、分别读取人CDK4的核酸序列及蛋白质序列,保存FASTA格式序列,熟悉数据库记录的flatfile格式,看懂其中的注释。

在NCBI数据库中读取人CDK4的核酸序列,步骤入下:(1)选择核酸(Nucleotide)将CDK4输入搜索栏中,点击Search。

(2)在Top Organisms中选择人(Homo sapients)(3)在数据库出现的数据中选择合适的核酸序列,选择FASTA可以使序列以FASTA 的格式显示出来。

GenBank形式则显示该序列的详细信息。

(4)保存的FASTA格式序列如下>gi|345525417|ref|NM_000075.3| Homo sapiens cyclin-dependent kinase 4 (CDK4), mRNACACCTCCTGTCCGCCCCTCAGCGCATGGGTGGCGGTCACGTGCCCAGAACGTCCGGCGTTCGCCCCG CCCTCCCAGTTTCCGCGCGCCTCTTTGGCAGCTGGTCACATGGTGAGGGTGGGGGTGAGGGGGCCTCTCTAG CTTGCGGCCTGTGTCTATGGTCGGGCCCTCTGCGTCCAGCTGCTCCGGACCGAGCTCGGGTGTATGGG(5) 在NCBI数据库中读取人CDK4的蛋白质序列,步骤入下:选择蛋白质(Protein)将CDK4输入搜索栏中,点击Search。

选择CDK4[Homo sapiens]的FASTA格式2、2BXI练习使用Jmol浏览蛋白质的三维结构。

()先进入PDB,再查看。

无法访问此网站3、练习使用Pubmed文献数据库(1)Pubmed检索运算符逻辑与:AND;逻辑或:OR;逻辑非:NOT。

注:当当一个检索表达式中同时含有三个运算符时,运算顺序从左至右,括号可以改变运算顺序。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。核酸序列数据库有GenBank, EMBL, DDBJ等,蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。另外一些公司还开发了商业数据库,如MDL等。生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。

基因和基因组数据库 1. Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据 机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可 以从NCBI的主页上找到这些服务。

Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。

(1)Genbank数据检索 NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库 的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、 种群序列数据集、以及由PubMed获得Medline的文献数据。

Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。

(2)向Genbank提交序列数据 测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。BankIt 使用说明和对序列的要求可详见其主页面。 大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用说明可详见其网页。

NCBI的网址是:http://www.ncbi.nlm.nih.gov。 Entrez的网址是:http://www.ncbi.nlm.nih.gov/entrez/。 BankIt的网址是:http://www.ncbi.nlm.nih.gov/BankIt。 Sequin的相关网址是:http://www.ncbi.nlm.nih.gov/Sequin/。 2. EMBL核酸序列数据库 EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交 序列可以通过基于Web的WEBIN工具,也可以用Sequin软件来完成。

数据库网址是:http://www.ebi.ac.uk/embl/。 SRS的网址是:http://srs.ebi.ac.uk/。 WEBIN的网址是:http://www.ebi.ac.uk/embl/Submission/webin.html。 3. DDBJ数据库 日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库提交序列。

DDBJ的网址是:http://www.ddbj.nig.ac.jp/。 4. GDB 基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、am plimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的 变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。

GDB的网址是:http://www.gdb.org。 GDB的国内镜像是:http://gdb.pku.edu.cn/gdb/。 蛋白质数据库 1. PIR和PSD PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序 列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调 控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。

PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。 PIR和PSD的网址是:http://pir.georgetown.edu/。 数据库下载地址是:ftp://nbrfa.georgetown.edu/pir/。 2. SWISS-PROT SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序 列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。

SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/。 3. PROSITE

相关文档
最新文档