EMBL 和GenBank 核酸序列数据库中各子库名称

合集下载

蛋白质数据库介绍

SWISS-PROT或TrEMBL /sprotPIRMIPSJIPID已经和ExPASy 三、蛋白质二级结构预测网站（数据库）4始建于基于对蛋白质家族中同源序列多重序列比对得到的保守区域，这些区域通常与生物学功能相关。

数据库包括两个数据库文件：数据文件Prosite5蛋白质二级结构构象参数数据库DSSP6蛋白质家族数据库FSSP7同源蛋白质数据库HSSP在前面已经述说过了。

第二节、蛋白质序列分析方法一、多序列比对双序列比对是序列分析的基础。

序列之间的关系，生物学模式方面起着相当重要的作用。

多序列比对有时用来区分一组序列之间的差异，但其主要用于描述一组序列之间的相似性关系，法建立在某个数学或生物学模型之上。

因此，正如我们不能对双序列比对的结果得出果也没有绝对正确和绝对错误之分，相似性关系以及它们的生物学特征。

我们称比对前序列中残基的位置为绝对位置。

置Ⅰ相对位置。

显然，同一列中所有残基的相对位置相同，而每个残基的绝对位置不同，因为它们来自不同的序列。

绝对位置是序列本身固有的属性，也就比对过程赋予它的属性。

算法复杂性多序列比对的计算量相当可观，时间和内存空间与这两个序列的长度有关，或者说正比于这两个序列长度的乘积，用（的两维空间扩展到三维，即在原有二维平面上增加一条坐标轴。

这样算法复杂性就变成了（例如，如果用某种颜色表示一组高度保守的残基，则某个序列的某一位点发生突变时，则由于颜色不同，就可以很快找出。

颜色的选择可以根据主观愿望和喜好，但最好和常规方法一致。

用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法，比较容易为大家接受（表2）。

多序列比对程序的另一个重要用途是定量估计序列间的关系，关系。

关系。

相似性值低于预料值，那么有可能是序列间亲缘关系较远，也可能是比对中有错误之处2同步法实质是把给定的所有序列同时进行比对，而不是两两比对或分组进行比对。

其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。

生物信息学相关数据库资源介绍

ling pathway db
CSNDB - Cell Signaling Networks db
DNA和蛋白质相互作用数据库

DPInteract - DNA-Proteins interactions db
特定基因或蛋白质的数据库

AAA - AAA family of ATPases server Acetylcholinesterases ALDH - Aldehyde dehydrogenase （醛脱氢酶，醛氧化酶）gene superfamily db Aminoacyl-tRNA synthetases in SWISS-PROT List of aminoacyl-tRNA synthetases in SWISSPROT AARSDB - Aminoacyl-tRNA synthetases db Allergens in SWISS-PROT - Nomenclature and index（命名和索引） of allergens（过敏原） in SWISS-PROT
tmRDB - tmRNA dB
tRNA - tRNA compilation（编辑） from the University of Bayreuth

uRNADB - uRNA db
5）其他核酸数据库

RNA editing - RNA editing site

RNAmod db - RNA modification db

5）其它核酸数据库

PlantCARE - Plant cis-acting regulatory DNA elements db

核酸序列数据库主要有GenBankEMBLDDBJ等

EST - expressed sequence tag GSS - genome survey sequence HTC - high throughput cDNA sequencing HTG - high throughput genomic sequencing STS - sequence tagged site
核酸序列数据库主要有GenBank, EMBL, DDBJ等. 蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D,
TrEMBL等，蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等，三维结构数据库有PDB, NDB, BioMagResBank, CCSD等，蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI,
DSSP等，与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等，文献数据库有Medline, Uncover等。
7
三大基因数据库
Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心 (NCBI)建立和维护的。 NCBI的网址是：。
Average Seq. File size ca. 226M
The total number of sequence data files increased by 8 with this release:
- the EST division is now comprised of 288 files (+9) - the PAT division is now comprised of 11 files (+1) - the PLN division is now comprised of 10 files (+1) - the PRI division is now comprised of 27 files (+1) - the ROD division is now comprised of 11 files (+1)

生物信息学_复习题及答案（打印）（1）

生物信息学_复习题及答案（打印）（1）一、名词解释：1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI 的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。

6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P299.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P2910.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

核酸数据库有哪些？

核酸数据库有哪些？核酸序列数据库在生物科学和生物信息学领域中扮演着重要的角色。

无论是基因组注释、生物多样性研究、功能预测和基因表达分析还是药物研发和疾病研究，核酸序列数据库为生物科学和生物信息学研究提供了宝贵的资源，帮助研究人员理解生物的遗传信息、功能和进化关系，推动生物医学研究和药物研发的进展。

但需要注意的是，核酸数据库有很多种类，除了常用的BioXFinder、GenBank、EMBL(European Molecular Biology Laboratory）、DDBJ（DNA Data Bank of Japan）等核酸数据库，研究人员通常会使用多个数据库来获取更全面和准确的数据。

此外，还有其他一些重要的核酸序列数据库，如RefSeq、UniProt等，它们在特定领域或特定类型的序列数据上具有特殊的优势。

为此笔者通过网站数据调研，找出了核酸数据库应用最为广泛的TOP60数据库，并对前面几个应用做了深层次优缺点对比，供大家作为选用依据（不分排名先后）。

1.BioXFinderBioXFinder是国内第一个也是目前唯一国内中英双版的生物数据库，是一款针对生物科研工作者的综合性生物数据检索及分析平台，汇集了核酸、蛋白、蛋白结构、代谢通路和信号通路信息，同时集成了BLAST、生存分析、基因ID转换等生信分析工具。

用户可高效的搜寻到自己想要的信息，并且在无代码的情况下完成生信分析。

2.GenBankGenBank是最早建立的核酸序列数据库之一，拥有丰富的序列数据资源，涵盖了广泛的物种和基因组。

提供了详细的注释信息，包括基因的位置、结构、功能以及相关的文献引用。

支持多种查询和下载方式，方便用户获取所需的数据。

缺点是由于数据量庞大，有时查询和下载速度可能较慢。

注释信息的质量和一致性可能存在一定的变化，因为数据的提交来自不同的实验室和研究机构。

3.EMBLEMBL是一个国际性的核酸序列数据库，与GenBank和DDBJ合作共享数据。

GeneBank的使用

GenBank数据库
n 物种：GenBank 库里的数据按来源于大约100,000个物种，其中56%是人类的基因组序列(所有序列中的 34%是人类的EST序列)
n 记录：每条GenBank数据记录包含对序列的简要描述，它的科学命名，物种分类名称，参考文献，序列特征表，及序列本身
GenBank数据库
ACCESSION
n ACCESSION (编号)：具有唯一性和永久性，在文献中引用这个序列时，应该以此编号为准。
KEYWORDS
n KEYWORDS (关键词)字段：由该序列的提交者提供，包括
– 该序列的基因产物 – 其它相关信息
SOURCE
n SOURCE (数据来源)字段：说明该序列是从什么生物体、什么组织得到的
n 序列特征表：包含对序列生物学特征注释如：编码区、转录单元、重复区域、突变位点或修饰位点等
n 分类：所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类，以及EST数据、基因组测序数据、大规模基因组序列数据等16类，其中EST数据等又被分成若干文件
注释内容
n 序列条目关键字：
– LOCUS (代码), – DEFINITION (说明)， – ACCESSION(编号)， – NID符(核酸标识), – KEYWORDS (关键词)， – SOURCE (数据来源)， – REFERENCE (文献)， – FEATURES (特性表)， – BASE COUNT (碱基组成) – ORIGIN (碱基排列顺序)。
n 次关键字ORGANISM (种属)：指出该生物体的分类学地位
REFERENCE
n REFERENCE(文献)字段：说明该序列中的相关文献，包括

生物信息学填空题

填空题：1、蛋白质结构数据来源：①实验测定方法： X-ray 、 NMR 、Cryo-EM ②理论预测：同源建模、折叠识别、从头计算2、一级数据库：①一级核酸数据库：Genbank（美国）、EMBL （欧洲）、DDBJ（日本） NCBI②一级蛋白质序列数据库：SWISS-PORT 、PIR 、 NCBI③一级蛋白质结构数据库：PDB、 pfam 、 prosite大分子序列格式：fasta数据库基本文件格式：genbank蛋白质分类数据库：SCOP、CATH 、 FSSP二次数据库： GDB 、 Prosite、 TRANSFAC3、本地软件： Clustal-x 、 BioEdit 、 Mega、 sequencher、 spdbv、 Discovery-studio4、本课程主要理论依据：相似性、同源性、序列比对（3D结构比对）、数学方法、分子动力、分子力学5、基因鉴定三步骤：①找到序列中的非编码区（低复杂度区）②找基因③鉴定找到的基因6、主要的生物大分子数据：①DNA：基因组序列、基因序列、cDNA、EST、碱基修饰DNA 功能模块 /位点（如启动子、剪接体、表达调控位点等）②蛋白质：氨基酸组成、氨基酸序列、理化性质、原子坐标；二级结构、核体、结构域、功能域 /位点； 3D 结构常见的生物信息数据记录格式：FASTA 、GenBank、EMBL、 PDBFASTA 格式：序列文件的第一行由大于符号>大头的任意文字说明，主要为标记序列用。

从第二行开始是序列本身，标准核苷酸符号或氨基酸单字母符号，通过核苷酸符号大小写均可，而氨基酸一般用大写字母。

文件中和每一行都不要超过80 个字符（通常60 个字符）GenBank格式：序列名称、长度。

日期；序列说明、编号、版本号；物种来源、学名、分类60学位置；相关文献作者、题目、刊物、日期；序列特征表；碱基组成；序列本身（每行个）二 .填空题1.常用的三种序列格式： NBRF/PIR,FASTA 和 GDE2.初级序列数据库： GenBank， EMBL 和 DDBJ3.蛋白质序列数据库： SWISS-PROT 和 TrEMBLPIR （蛋白4. 提供蛋白质功能注释信息的数据库：KEGG （京都基因和基因组百科全书）和质信息资源） 5. 目前由 NCBI 维护的大型文献资源是PubMed6.数据库常用的数据检索工具： Entrez， SRS， DBGET7.常用的序列搜索方法： FASTA 和 BLAST8.高分值局部联配的 BLAST 参数是 HSPs（高分值片段对）， E（期望值） 9. 多序列联配的常用软件： Clustal10.蛋白质结构域家族的数据库有：Pfam， SMART11. 系统发育学的研究方法有：表现型分类法，遗传分类法和进化分类法12. 系统发育树的构建方法：距离矩阵法，最大简约法和最大似然法13. 常用系统发育分析软件：PHYLIP 14.检测系统发育树可靠性的技术： bootstrapping 和 Jack-knifing 15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的16. 检测原核生物ORF 的程序： NCBI ORF finder17. 测试基因预测程序正确预测基因的能力的项目是GASP（基因预测评估项目）18.二级结构的三种状态：α螺旋，β折叠和β转角19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络，包括输入层，隐含层和输出层20.通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER （ SWISS — MODEL 网站） 21. 蛋白质质谱数据搜索工具：SEQUEST 22. 分子途径最广泛数据库：KEGG23. 聚类分析方法，分为有监督学习方法，无监督学习方法24. 质谱的两个数据库搜索工具：1、 SEQEST 和 Lutkefi 三大数据库：核酸序列数据库、蛋白质序列数据库、结构数据库世界三大核酸序列数据库：GenBank、 EMBL-Bank 、 DDBJ蛋白质序列数据库：Swiss-Prot、 TrEMBL 、UniProt蛋白质结构数据库：PDB 、SCOP、CATH2、 GenBank 文献、提供了提供的服务：提供了EntrezBLAST 序列类似性检索。

GenBank数据库简介

GenBank数据库简介点击次数：791 发布日期：2008-5-11 仅供参考，谢绝转载，否则责任自负1. GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

是NIH遗传序列数据库，一个所有可以公开获得的DNA序列的注释过的收集。

GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。

唯一人类基因序列集合（UniGene），人类基因组基因图谱，分类学浏览器，同国立癌症研究所合作的癌症基因组剖析计划（CGAP）等数据库。

GenBank以指数形式增长，核酸碱基数目大概每14个月就翻一个倍。

2. 纪录样本 - 关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

3. 访问GenBank - 通过Entrez Nucleotides来查询。

用accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。

关于Entrez更多的信息请看下文。

用BLAST来在GenBank和其他数据库中进行序列相似搜索。

用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。

另外一种选择是可以用FTP下载整个的GenBank和更新数据。

4. 增长统计 - 参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank 增长）小节。

5. 公布通知，最新 - 最近和即将有的变化，GenBank的分类，数据增长统计，GenBank的引用。

6. 公布通知，旧 - 同上相同，是过去公布的统计。

7. 遗传密码 - 15个遗传密码的概要。

用来确保GenBank中纪录的编码序列被正确的翻译。

向GenBank提交数据：1. 关于提交序列数据，收到accession number，和对纪录作更新的一般信息。

2. BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。

生物信息学二级数据库及数据库的格式

..125
Homo. Sapiens Medline4,. gluco- transcriptional TGT..
......
Corticoid regulator, ..
receptor
Fig 2.7 GenBank数据库的组织. 常被计算机检索程序ENTREZ利用。
2 EMBL序列格式
• The European Molecular Biology Laboratory(EMBL)序列条目与GenBank类似，通过大量信息来描述每个序列。该信息组织成一个个字段，每个字段有一个标识符。这些标识符缩写成两个字母，某些字段还有次级字段。每行序列后面的数字显示片断的位置。
BASE COUNT count of A, C, G, T and other symbols
ORIGIN
text indicating start of sequence
1 gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc
51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg
Prosite的网址：
/prosite/
3、蛋白质结构二级数据库
DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP的网址：
http://www.cmbi.kun.nl/gv/dssp/
source range of sequence, source organism
misc_signal range of sequence, type of function or signal

EMBL 和GenBank 数据库特征表说明符

EMBL和GenBank数据库特征表说明符名称含义说明Allele Related strain contains alternative gene form 等位基因不同形式Attenuator Sequence related to transcription termination 转录终止区C_region Span of the C immunological feature C-免疫特征区CAAT_signal CAAT box in eukaryotic promoters 真核生物启动子中CAAT盒CDS Sequence coding for amino acids in protein (includesstop codon)蛋白质编码区Conflict Independent sequence determinations differ 不同测定结果所得差异序列D-loop Displacement loop 转移环D_segment Span of the D immunological feature D-免疫特征区Enhancer Cis-acting enhancer of promoter function 启动子顺式作用增强子GC_signal GC box in eukaryotic promoters 真核生物启动子中GC盒Gene Region that defines a functional gene, possiblyincluding upstream (promotor, enhancer, etc) anddownstream control elements, and for which a name hasbeen assigned. 基因区域，包括上游启动子、增强子和下游控制区IDNA Intervening DNA eliminated by recombination 重组引入的插入区Intron Transcribed region excised by mRNA splicing 内含子区域J_region Span of the J immunological feature J-免疫特征区LTR Long terminal repeat 长终止重复序列mat_peptide Mature peptide coding region (does not include stopcodon)成熟肽编码区Misc_binding Miscellaneous binding site 其它结合位点Misc_difference Miscellaneous difference feature 其它特征区Misc_feature Region of biological significance that cannot bedescribed by any other feature其它重要生物功能区Misc_recomb Miscellaneous recombination feature 其它重组特征区Misc_RNA Miscellaneous transcript feature not defined by otherRNA keys其它转录特征区Misc_signal Miscellaneoussignal 其它信号区Misc_structure Miscellaneous DNA or RNA structure 其它DNA或RNA结构Modified_base The indicated base is a modified nucleotide 修饰碱基mRNA MessengerRNA mRNA区域Mutation A mutation alters the sequence here 突变区N_region Span of the N immunological feature N-免疫特征区old_sequence Presented sequence revises a previous version 旧版本序列polyA_signal Signal for cleavage & polyadenylation 多聚A信号区polyA_site Site at which polyadenine is added to mRNA mRNA的多聚A添加位点precursor_RNA Any RNA species that is not yet the mature RNAproduct前体RNAprim_transcript Primary(unprocessed) transcript 初始(未处理)转录区EMBL和GenBank数据库特征表说明符(续)名称含义说明primer Primer binding region used with PCR PCR引物结合位点primer_bind Non-covalent primer binding site 引物非共价结合位点promoter A region involved in transcription initiation 启动子区域protein_bind Non-covalent protein binding site on DNA or RNA 蛋白质非共价结合位点RBS Ribosome binding site 核糖体结合位点rep_origin Replication origin for duplex DNA 复制起始区repeat_region Sequence containing repeated subsequences 重复序列区域repeat_unit One repeated unit of a repeat_region 重复序列区域的重复单位RNA 核糖体RNArRNA RibosomalS_region Span of the S immunological feature S-免疫特征区satellite Satellite repeated sequence 卫星DNA重复序列scRNA Small cytoplasmic RNA 胞浆内小RNAsig_peptide Signal peptide coding region 信号肽编码区RNA 核内小RNAsnRNA SmallnuclearNCBI分类学数据库记录号source A GenBank record. Mandatory feature, one or more perrecord.NCBI taxonomy database, an associated/db_xref="taxon:NNNN"Identifier assigned to the organism within the NCBItaxonomyDatabase).stem_loop Hair-pin loop structure in DNA or RNA DNA或RNA中的发夹环STS Sequence Tagged Site; operationally unique sequence序列标签位点that identifies the combination of primer spans used in aPCR assayTATA_signal `TATA box' in eukaryotic promoters 真核生物启动子中TATA盒terminator Sequence causing transcription termination 转录终止位点transit_peptide Transit peptide coding region 转运肽编码区(TN) 转座子transposon TransposableelementtRNA Transfer RNA tRNA区域unsure Authors are unsure about the sequence in this region 未确定区V_region Span of the V immunological feature V-免疫特征区variation A related population contains stable mutation 变异区- (hyphen) Placeholder-10_signal `Pribnow box' in prokaryotic promoters 真核生物启动子中-10位点-35_signal `-35 box' in prokaryotic promoters 原核生物启动子中-35位点3'clip 3'-most region of a precursor transcript removed in前体转录时切除的3’端区域processing3'UTR 3' untranslated region (trailer) 3’端不翻译区域5'clip 5'-most region of a precursor transcript removed in前体转录时切除的5’端区域processing5'UTR 5' untranslated region (leader) 5’端不翻译区域。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

EMBL和GenBank核酸序列数据库中各子库名称
英文含义中文含义
EMBL GenBank
HUM PRI Primate 人类、灵长类
mammalian 其它哺乳动物MAM MAM Other
ROD ROD Rodent 啮齿类动物
vertebrate 其它脊椎动物VRT VRT Other
INV INV Invertebrate 无脊椎动物
PLN* PLN Plant, fungi, algi 植物、真菌、藻类FUN PLN Fungal 真菌、藻类
bacterial 细菌、原核生物PRO BCT Prokaryotes,
VRL VRL Viral 病毒
PHG PHG Bacteriophage 噬菌体
ORG** － Organelles 细胞器
SYN SYN Synthetic 合成产物
Unannotated 未分类 / 未注释UNC UNA Unclassified
/
Tags 表达序列标记EST EST Expressed
Sequence
PAT PAT Patent 专利序列
Sites 序列标记位点
Tagged
STS STS Sequence
Sequences 基因组测序序列GSS GSS Genome
Survey
Sequences 高通量基因组序列
Genomic
Throughput
HTG HTG High
*EMBL将真菌单独分类，而GenBank将真菌和藻类归在植物中。

**EMBL将细胞器单独分类。