教你使用NCBI_PDB数据库

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Refseq数据库
1. 提供高质量的,无冗余的,完整的序列 信息; 2. 包括基因组的DNA,转录成的RNA以及蛋 白质序列信息。 3. 序列文件的标识符: DNA/RNA序列,NM_XXXXXX; 蛋白质序列:NP_XXXXXX
Bioinformatics, 2009-2010, Semester 1, Soochow
NCBI: BLAST
http://www.ncbi.nlm.nih.gov/
Bioinformatics, 2009-2010, Semester 1, Soochow
nucleotide blast
Bioinformatics, 2009-2010, Semester 1, Soochow
Megablast: 找基因序列
获取FASTA序列
Bioinformatics, 2009-2010, Semester 1, Soochow
FASTA格式的序列
Bioinformatics, 2009-2010, Semester 1, Soochow
PHI-BLAST: find domain
Bioinformatics, 2009-2010, Semester 1, Soochow
Bioinformatics, 2009-2010, Semester 1, Soochow
FASTA格式
Bioinformatics, 2009-2010, Semester 1, Soochow
4. 序列数据的查询
某天,Prof. Gene发现人的Hela细胞中,有丝分裂 期间有异常情况:细胞不再分裂,而是开始凋亡(表 型,phenotype),通过实验的方法(例如,酵母双杂 交),发现了与有丝分裂期间某个蛋白可能相互作用 的一个基因,测序结果如下(genotype):
填入蛋白质的FASTA序列
Bioinformatics, 2009-2010, Semester 1, Soochow
BIR domain
Bioinformatics, 2009-2010, Semester 1, Soochow
结论3
Survivin具有保守的功能结构域BIR
Bioinformatics, 2009-2010, Semester 1, Soochow
Survivin
Bioinformatics, 2009-2010, Semester 1, Soochow
Gene info: 17号染色体
Bioinformatics, 2009-2010, Semester 1, Soochow
功能注释:Gene Ontology
Bioinformatics, 2009-2010, Semester 1, Soochow
Bioinformatics, 2009-2010, Semester 1, Soochow
三大数据库之间的联系
Bioinformatics, 2009-2010, Semester 1, Soochow
161.0版,2007.08
GenBank中测源自文库最多的20个物种
Bioinformatics, 2009-2010, Semester 1, Soochow
Bioinformatics, 2009-2010, Semester 1, Soochow
生物信息学
第三讲:序列的采集、存储 和查询
Bioinformatics, 2009-2010, Semester 1, Soochow
本章内容提要
1. DNA测序
2. 序列数据的存储
3. 序列数据的文件格式
Survivin:142aa
Bioinformatics, 2009-2010, Semester 1, Soochow
结论2
人的Survivin蛋白质包含142个氨基酸,序 列标识符为:NP_001159.2
Bioinformatics, 2009-2010, Semester 1, Soochow
3. 序列数据的文件格式
1. DNA/RNA/氨基酸代码的标识 2. GenBank数据格式 3. UniProt 4. FASTA
Bioinformatics, 2009-2010, Semester 1, Soochow
GenBank数据格式
Accession number
序列长度 数据类型
Survivin的蛋白质信息
Bioinformatics, 2009-2010, Semester 1, Soochow
功能注释
Bioinformatics, 2009-2010, Semester 1, Soochow
UniProt: 蛋白质数据库
Bioinformatics, 2009-2010, Semester 1, Soochow
在人中做BLAST搜索
Bioinformatics, 2009-2010, Semester 1, Soochow
Survivin:O15392
Bioinformatics, 2009-2010, Semester 1, Soochow
4. 序列数据的查询
Bioinformatics, 2009-2010, Semester 1, Soochow
1. DNA测序
1. DNA一次测序的长度为500bp。 2.基因组的测序方案:将大的染色体打断成100kbp的片断, 插入到BAC (Bacterial Artificial Chromosome)中。再随机打 断,克隆,然后再组装成长的序列(contig)。 3. EST (Expressed sequence tag) 测序:细胞中mRNA反转录 成cDNA,方向不定,测序。 4. UniGene: 为每一个基因创造一个唯一的条目,收集这个 基因所有的ESTs. 5. GSS (基因组测序序列):类似于ESTs,来源基因组。 6. HTG (高通量基因组序列):高通量、尚未完工的DNA序列。
Bioinformatics, 2009-2010, Semester 1, Soochow
基因组测序:两种方案
1. DNA片段在染色体上的位置、方向已知。 首先染色体被打断成150kbp左右的片段, 然后克隆到BACs中,再进一步打碎,克隆, 测序,组装。 2. “鸟枪法”,shotgun,随机将DNA片段打 碎,克隆,测序,组装。 DNA 片段在染色 体上的位置和方向未知。
Definition: 标题
版本号
GI number
Bioinformatics, 2009-2010, Semester 1, Soochow
GenBank的数据类型
Bioinformatics, 2009-2010, Semester 1, Soochow
UniProt数据格式
Accession number
输入序列
Bioinformatics, 2009-2010, Semester 1, Soochow
提交序列
Bioinformatics, 2009-2010, Semester 1, Soochow
NM_001168.2:Survivin
Geo: 基因表达信息
UniGene
Gene info:基因信息 Bioinformatics, 2009-2010, Semester 1, Soochow
NM_001168.2:Survivin
Bioinformatics, 2009-2010, Semester 1, Soochow
Human Survivin!
Bioinformatics, 2009-2010, Semester 1, Soochow
获取蛋白质的序列信息
Bioinformatics, 2009-2010, Semester 1, Soochow
CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGA ACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGA GGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGT GTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCC ATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGA AGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAG AGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAG GAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGA TTGAGGCCTCTGGC Bioinformatics, 2009-2010, Semester 1, Soochow
Bioinformatics, 2009-2010, Semester 1, Soochow
NCBI Gene
1. http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene
2. 序列从Refseq数据库中得到; 3. 详尽的注释信息,包括基因在基因组的定位, 基因名称、蛋白质名称,基因结构,等等。
Bioinformatics, 2009-2010, Semester 1, Soochow
Bioinformatics, 2009-2010, Semester 1, Soochow
2. 序列数据的存储
1. 核酸三大数据库:GenBank, EBI, DDBJ. 2. Ensembl数据库:基因组注释。 3. ESTs数据库; 4. UniGene数据库 5. Refseq数据库; 6. NCBI的Gene信息数据库; 7. 蛋白质序列: Swissprot/TrEMBL/UniProt数据库。
Bioinformatics, 2009-2010, Semester 1, Soochow
UniProt
1. 专家审核的蛋白质序列数据与知识库; 2. UniProt Knowledgebase:Release 12.1, 2007.08 3. 包括:
Swiss-Prot Release 54.1 of 21-Aug-2007: 277883 entries; TrEMBL Release 37.1 of 21-Aug-2007: 4754787 entries
Bioinformatics, 2009-2010, Semester 1, Soochow
Swiss-Prot Release 54.1
Bioinformatics, 2009-2010, Semester 1, Soochow
TrEMBL Release 37.1
Bioinformatics, 2009-2010, Semester 1, Soochow
dbEST: 表达序列标签数据库
2007.08,总序列45,660,524条,最多的20个物种如下
Bioinformatics, 2009-2010, Semester 1, Soochow
UniGene: An Organized View of the Transcriptom
Bioinformatics, 2009-2010, Semester 1, Soochow
结论1
1. 该基因为人的Survivin基因,染色体定 位:17号染色体,73721872-73733311;基 因标识符:NM_001168.2; 2. 初步的功能分析:细胞周期,caspase酶 的抑制因子,等等。
Bioinformatics, 2009-2010, Semester 1, Soochow
问题:
1. 这是哪个基因? 2. 编码的蛋白质序列是怎样的? 3. 有没有保守的功能结构域 (domain)? 4. 它的功能是怎样的? 5. 它在真核生物中保守吗? 6. 有没有三级结构信息?
Bioinformatics, 2009-2010, Semester 1, Soochow
相关文档
最新文档