生物信息学第二章分子生物信息数据库
合集下载
生物信息学(课堂PPT)

• 总之,信息源的特点是:
– 自治的 (autonomous)
数据集成
– 分布式的 (distributed) – 异构的 (heterogeneous)
Data Integration
2021/3/29
4
一、 生物信息学数据库
生物信息学数据库的种类
❖ 分子生物信息数据库种类繁多。归纳起来, 大体可以分为4个大类:
酵母菌Yeast ——CYGD数据库
http://mips.gsf.de/genre/proj/yeast/index.jsp
线虫 Caenorhabditis elegans ——AceDB数据库
/genome.shtml
的数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负
责亚洲等),然后来自各地的所有信息汇总在一起,3
个数据库的数据共享并向世界开放,故这3个数据库又
被称为公共序列数据库(Public Sequence Database)。
所以从理论上说,这3个数据库所拥有的DNA序列数据
是完全相同的。你可以从中选择一个你喜欢的数据库;
2021/3/29
11
GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立。该 中心隶属于美国国家医学图书馆,位于美国国家卫生 研究院(NIH)内。
EMBL:欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre),主要位于英国剑桥Cambridge和德国汉堡 Hamburg。
KEYWORDS .
生物信息数据库

22 November 2010
3
Database Growth
• Exponential growth in sequence data • Not much growth in sequence size • Expect exponential growth in annotation information What are we to do with all this data?
二级数据库包括:
由上述三类数据库和文献资料为基础构建的数据库。
10
分子生物信息数据库
11
三、基因组数据库 (genome databases)
基因组数据库的主体是模式生物基因组数据 库,此外基因组信息资源还包括染色体、基因 突变、遗传疾病、分类学等各种数据库。
GDB —— 人类(Homo sapiens)基因组 数据库 AceDB —— 线虫 (Caenorhabditis elegans) 基因组数据库
12
人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述:
(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、 易碎位点、 EST、综合区域、contigs、重复等; (2)人类基因组图谱 包含细胞遗传学图谱、连接图谱、辐射混合图谱、 contig 图谱、集成图谱,所有这些图谱都可以被直观 地显示出来; (3)人类基因组中的变化 包括基因突变和基因多态性,加上等位基因频率数据。
38
常用分子生物信息学数据库-2
数据库名称 EMEST SWISS-PROT TREMBL DSSP FSSP SBASE HUMREP CPGISLE TRANSFAC YPD KABATP PROSITEDOC 数据库内容 EMBL数据库中EST部分 蛋白质序列 EMBL翻译所得蛋白质序列 蛋白质二级结构参数 已知空间结构蛋白质家族 蛋白质结构域序列 人类基因组中重复序列 CpG岛序列 转录因子 酵母基因组 免役球蛋白蛋白质序列 蛋白质功能位点文献摘要
生物分子数据库

n NCBI 蛋白质数据库 包括所有蛋白质序列,及其翻译产 物序列 /entrez
n PIR 蛋白质序列信息资源库(美、德)
n
PPT文档演模板
生物分子数据库
蛋白质结构数据库
n PDB Protein DataBank,美国Brookhaven国家实验室管理生 物大分子三维空间结构原子坐标数据库 /pdb/
1. 核酸序列数据库
2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
n DDBJ日本核酸数据库 http://www.ddbj.nig.ac.jp
整合平台:Entrez 综合数据库
序列通过正式递交进入数据库 未正式发表文献以前,数蛋白质序列数据库
n SWISS-PROT (瑞士日内瓦大学)蛋白质序列数据库 http://www.Expasy.ch 内容包括序列及功能信息、蛋白识别、蛋白质结构预测 及其他功能
PPT文档演模板
生物分子数据库
三、 生物信息数据库检索
n 集成检索系统: n Entrez系统(整合库)美国生物技术信息中心研制 n
n SRS系统(Sequence Retrieval System)欧洲分子生物学实验室开发 /
n 中国生物信息网
n 北京大学生物信息中心 中国生物技术信息网 /
n 中国科学院(上海文献中心)
n /tushug/
生物分子数据库
PPT文档演模板
2020/11/26
n PIR 蛋白质序列信息资源库(美、德)
n
PPT文档演模板
生物分子数据库
蛋白质结构数据库
n PDB Protein DataBank,美国Brookhaven国家实验室管理生 物大分子三维空间结构原子坐标数据库 /pdb/
1. 核酸序列数据库
2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
n DDBJ日本核酸数据库 http://www.ddbj.nig.ac.jp
整合平台:Entrez 综合数据库
序列通过正式递交进入数据库 未正式发表文献以前,数蛋白质序列数据库
n SWISS-PROT (瑞士日内瓦大学)蛋白质序列数据库 http://www.Expasy.ch 内容包括序列及功能信息、蛋白识别、蛋白质结构预测 及其他功能
PPT文档演模板
生物分子数据库
三、 生物信息数据库检索
n 集成检索系统: n Entrez系统(整合库)美国生物技术信息中心研制 n
n SRS系统(Sequence Retrieval System)欧洲分子生物学实验室开发 /
n 中国生物信息网
n 北京大学生物信息中心 中国生物技术信息网 /
n 中国科学院(上海文献中心)
n /tushug/
生物分子数据库
PPT文档演模板
2020/11/26
生物信息数据库ppt课件

UniRef100、UniRef90和UniRef50三个子库,加速同源搜索。 记录以UniRefXX开头加UniProtKB的Accession表示,例:
UniRef90_O70405
36
UniParc UniProt Archive (UniParc) 存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据
44
显示分子结构(RasMol , ChemView )
45
四. 基因组数据库
46
基因组数据库 收集某些生物整个基因组序列的数据库 基因组计划
➢ Human Genome Project ➢ C. elegans Project 从GenBank中选择同一物种的核酸信息组成的二级库
47
16
17
INSDC 1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信
64
氨基酸代码
65
GenBank数据格式 (1)
GenInfo Identifier
子库类型
66
GenBank数据格式 (2)
67
GenBank数据格式 (3)
68
GenBank子库类型
69
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 //
2
生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快
数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
UniRef90_O70405
36
UniParc UniProt Archive (UniParc) 存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据
44
显示分子结构(RasMol , ChemView )
45
四. 基因组数据库
46
基因组数据库 收集某些生物整个基因组序列的数据库 基因组计划
➢ Human Genome Project ➢ C. elegans Project 从GenBank中选择同一物种的核酸信息组成的二级库
47
16
17
INSDC 1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信
64
氨基酸代码
65
GenBank数据格式 (1)
GenInfo Identifier
子库类型
66
GenBank数据格式 (2)
67
GenBank数据格式 (3)
68
GenBank子库类型
69
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 //
2
生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快
数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
生物数据库介绍

GenPept Sequence Records (which contain the amino acid translations from GenBank/EMBL/DDBJ records that have a coding region feature annotated on them)
各种登录号(索引号)的类型(续) Type of Record Protein Sequence Records from PRF RefSeq Nucleotide Sequence Records Sample Accession Format A series of digits (often six or seven) followed by a letter, e.g.:1901178A Two letters, an underscore bar, and six digits, e.g.: mRNA records (NM_*):NM_000492 genomic DNA contigs (NT_*):NT_000347 complete genome or chromosome (NC_*):NT_000907 genomic region (NG_*):NG000019 Two letters (NP), an underscore bar, and six digits, e.g.:NP_000483
生物信息学数据库的分类:
生物信息学数据库
一级数据库
二级数据库
一级数据库
直接来源于实验获得的原始数据(DNA序
列、蛋白质序列、蛋白质结构等),只经 过简单的归类、整理和注释。
一级核酸数据库(3):GenBank数据库、EMBL数
据库、DDBJ数据库 一级蛋白质序列数据库(2):SWISS-PROT库、PIR 蛋白信息数据库 一级蛋白质结构数据库(1):PDB数据库
第二章 生物分子数据库

51
SWISS-PROT
52
格式
53
54
Tools
55
Uniprot
/
2002年,PIR将PIR-PSD、Swiss-Prot及
TrEMBL三个蛋白质序列数据库统一为
UniprotKB数据库(protein
knowledgebase),将全世界的蛋白质序列及
研究的分析成果,对从事相关领域的研究人员 具有重要的参考作用。
1998 年底GDB 主节点移至加拿大多伦多儿
童医院生物信息超级计算中心BiSC。GDB 的
审读和维护仍在美国霍普金斯大学JHU。
24
GDB数据库是人类基因图谱数据库,目的在于支持构建 人类基因图谱和测序。
目前GDB包含对下述三种对象的描述:
2LEV
67
MMDB(Molecular Modeling Database)
分子模型MMDB 是NCBI所开发的生物信息数据 库集成系统Entrez的一个部分,数据库的内容包 括来自于实验的生物大分子结构数据。 与PDB相比,对于数据库中的每一个生物大分子 结构,MMDB具有许多附加的信息,如分子的生 物学功能、产生功能的机制、分子的进化历史等 。 还提供生物大分子三维结构模型显示(Cn3D)、 结构分析和结构比较工具。
68
二、蛋白质结构分类数据库
蛋白质结构分类是蛋白质结构研究的一个重要方向。 是三维结构数据库的重要组成部分。
蛋白质结构分类可以在不同层次,包括折叠类型、 拓扑结构、家族、超家族、结构域、二级结构、超 二级结构等。
类似于动、植物学上分类的“门、纲、目、科、 属、种”。
69
SCOP数据库 SCOP数据库(Structural Classification of Proteins)是基于 Web 的蛋白质结构数据库分类、检索和分析系统。
SWISS-PROT
52
格式
53
54
Tools
55
Uniprot
/
2002年,PIR将PIR-PSD、Swiss-Prot及
TrEMBL三个蛋白质序列数据库统一为
UniprotKB数据库(protein
knowledgebase),将全世界的蛋白质序列及
研究的分析成果,对从事相关领域的研究人员 具有重要的参考作用。
1998 年底GDB 主节点移至加拿大多伦多儿
童医院生物信息超级计算中心BiSC。GDB 的
审读和维护仍在美国霍普金斯大学JHU。
24
GDB数据库是人类基因图谱数据库,目的在于支持构建 人类基因图谱和测序。
目前GDB包含对下述三种对象的描述:
2LEV
67
MMDB(Molecular Modeling Database)
分子模型MMDB 是NCBI所开发的生物信息数据 库集成系统Entrez的一个部分,数据库的内容包 括来自于实验的生物大分子结构数据。 与PDB相比,对于数据库中的每一个生物大分子 结构,MMDB具有许多附加的信息,如分子的生 物学功能、产生功能的机制、分子的进化历史等 。 还提供生物大分子三维结构模型显示(Cn3D)、 结构分析和结构比较工具。
68
二、蛋白质结构分类数据库
蛋白质结构分类是蛋白质结构研究的一个重要方向。 是三维结构数据库的重要组成部分。
蛋白质结构分类可以在不同层次,包括折叠类型、 拓扑结构、家族、超家族、结构域、二级结构、超 二级结构等。
类似于动、植物学上分类的“门、纲、目、科、 属、种”。
69
SCOP数据库 SCOP数据库(Structural Classification of Proteins)是基于 Web 的蛋白质结构数据库分类、检索和分析系统。
分子生物学数据库

• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的
(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接
生物分子数据库

生物信息学数据库 Bioinformatics database
一、概述
生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息
的获取、处理、存储、分发、分析和解释等在内的所 有方面,综合运用数学、计算机科学和生物学的各种 工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告)
踏实肯干,努力奋斗。2020年10月19 日下午8 时48分 20.10.1 920.10. 19
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2 020年1 0月19 日星期 一下午8 时48分 50秒20 :48:502 0.10.19
严格把控质量关,让生产更加有保障 。2020 年10月 下午8时 48分20 .10.192 0:48October 19, 2020
Nucleic Acids Research 杂志
相关数据库及其主要分类
1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
二、生物信息学数据库种类
《Nucleic Acids Research》杂志每年的第一 期中详细介绍最新版本的各种数据库。
在2000年1月1日出版的28卷第一期115种通 用和专用数据库。
至2008年,生物信息学数据库总数已达1078 个。比2007年增加110个。
Nucleic Acids Research 杂志
这两个数据库让科学家检索和观看结构,从 结构上查找特定蛋白质的相似蛋白质,并且辨 认功能位点。
一、概述
生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息
的获取、处理、存储、分发、分析和解释等在内的所 有方面,综合运用数学、计算机科学和生物学的各种 工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告)
踏实肯干,努力奋斗。2020年10月19 日下午8 时48分 20.10.1 920.10. 19
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2 020年1 0月19 日星期 一下午8 时48分 50秒20 :48:502 0.10.19
严格把控质量关,让生产更加有保障 。2020 年10月 下午8时 48分20 .10.192 0:48October 19, 2020
Nucleic Acids Research 杂志
相关数据库及其主要分类
1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
二、生物信息学数据库种类
《Nucleic Acids Research》杂志每年的第一 期中详细介绍最新版本的各种数据库。
在2000年1月1日出版的28卷第一期115种通 用和专用数据库。
至2008年,生物信息学数据库总数已达1078 个。比2007年增加110个。
Nucleic Acids Research 杂志
这两个数据库让科学家检索和观看结构,从 结构上查找特定蛋白质的相似蛋白质,并且辨 认功能位点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学第二章分子生物信息数据库
主要内容
一.分子生物信息数据库简介 二.序列数据库 三.基因组数据库 四.结构数据库 五.二次数据库 六.数据库查询和数据库搜索
2020/8/1
六、数据库查询和数据库搜索
➢数据库查询(database query):对序 列、结构以及各种二次数据库中的注释 信息进行关键词匹配查找。
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
Cn3D
2020/8/1
“human insulin”
2020/8/1
Entrez系统的辅助功能
Structures PDB三维结构数据库
Genomes OMIM
已经完成和正在进行的模式生物基因组信息 人类遗传疾病和遗传缺失在线数据库
Taxonomy 系统分类信息 LocusLinks 基因关联信息
PopSet
具有亲缘关系的种群之间核酸序列同源性比 对结果
literature databases /sites/gquery
数据库搜索的任务和目的
1.任务 发现序列之间的相似性 辨别序列之间的差异
2.目的 相似序列 相似的结构和功能 判别序列之间的同源性 推测序列之间的进化关系
2020/8/1
1、核苷酸碱基和氨基酸残基代码
➢在实际DNA序列数据库中,由于序列测 定的原因,个别碱基可能无法确定,称 为歧义碱基,通常用A、T、C、G之外 的字母表示。✓
例如,在SWISS-PROT输入关键词 insulin,即可找出该数据库所有胰岛素 或和胰岛素相关的序列条目(entry)。
2020/8/1
➢数据库搜索(database search):通 过特定的序列相似性比对算法,找出核 酸或蛋白质序列数据库中与检测序列具 有一定程度相似性的序列。
例如,给定一个胰岛素氨基酸残基序列 ,通过在SWISS-PROT数据库中检索, 找出与其有一定相似性的序列。
① 限定查询范围(Limits) ② 预览查询结果(Preview/Index)不列
出具体查询结果,只列出查询到的序列 的条目数 ③ 查看查询记录(History) ④ 操作剪贴板(Clipboard)
2020/8/1
Entrez系统的特点
• 把序列、结构、文献、基因组、系统分 类等不同类型的数据库有机地结合在一 起,通过超文本链接,用户可以从一个 数据库直接转入另一个数据库。此外, 把数据库和应用程序结合在一起。
2020/8/1
SRS系统的特点
① 统一的用户界面 ② 高效的查询功能 ③ 灵活的指针链接 ④ 方便的程序接口 ⑤ 开放的管理模式 ⑥ 同一的开发平台
2020/8/1
(二)数据库搜索
➢新测定的碱基序列或氨基酸序列,往往需 要通过数据库搜索,找出具有一定相似性 的同源序列,以推测未知序列可能属于哪 个家族,具有哪些生物学功能。
➢数据库搜索的基础是序列的相似性比对, 即序列比对( alignment)。
2020/8/1
➢检测序列(probe sequence):新测定 的、希望通过数据库搜索确定其性质或 功能的序列。
➢目标序列(subject sequence):通过 数据库搜索得到的和检测序列具有一定 相似性的序列。
2020/8/1
• SRS是欧洲各国主要生物信息中心必备 的数据库查询系统。
• SRS已经发展为商业软件,学术单位可 以免费使用。
2020/8/1
• 与Entrez不同,SRS是一个开放的数据 库查询系统,即不同的SRS查询系统可 以根据需要安装不同的数据库。目前, 共有300多个数据库安装在世界各地的 SRS服务器上。
2020/8/1
课后作业 2
• 如何了解斑马鱼ATF4基因的最新研究进展? • 目前生物信息学有 2
• 如何了解牛ADRB3基因的最新研究进展 ?
• 目前生物信息学有哪些研究热点?
2020/8/1
(一)数据库查询系统
2、 SRS
• SRS (sequence retrieval system)是 EBI开发的数据库查询工具。
2020/8/1
❖在生物信息学中,数据库搜索是专门针对 核酸和蛋白质序列数据库而言的,其搜索 的对象不是注释信息,而是序列信息。
❖显然,数据库查询和数据库搜索是两个截 然不同的概念,它们所要解决的问题、所 采用的方法和得到的结果均不相同。
2020/8/1
(一)数据库查询系统
1、Entrez 由美国NCBI开发,用于对文献摘要
➢蛋白质序列由20种氨基酸残基组成,分 别用20个英文字母表示。✓
2020/8/1
碱基代码 G A T (U) C R (A or G) Y (C or T or U) M (A or C) K (G or T) S (C or G) W (A or T) H (A or C or T) B (G or T or C) V (A or C or G) D (G or T or A) N (A or T or C or G)
中文含义 鸟嘌呤 腺嘌呤 胸腺嘧啶(尿嘧啶) 胞嘧啶 嘌呤 嘧啶 腺嘌呤或胞嘧啶(氨基) 鸟嘌呤或胸腺嘧啶 强相互作用碱基 弱相互作用碱基 非鸟嘌呤 非腺嘌呤 非胸腺嘧啶/尿嘧啶 非胞嘧啶 不确定
、序列、结构和基因组等数据库进行关 键词查询,找出相关的一个或几个数据 库条目(entry) 。
2020/8/1
Entrez数据库查询系统提供的数据库
数据库名称 数据库内容
PubMed GenBank
生物医学文献MedLine摘要 核酸序列
Proteins
SWISS-PROT、PIR以及GenBank翻译得 到的蛋白质序列
英文含义 Guanine Adenine Thymine (Uracil) Cytosine Purine Pyrimidine Amino Ketone Strong interaction Weak interaction Not G (H after G) Not A (B after A) Not T/U (V after U) Not C (D after C) Any
主要内容
一.分子生物信息数据库简介 二.序列数据库 三.基因组数据库 四.结构数据库 五.二次数据库 六.数据库查询和数据库搜索
2020/8/1
六、数据库查询和数据库搜索
➢数据库查询(database query):对序 列、结构以及各种二次数据库中的注释 信息进行关键词匹配查找。
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
Cn3D
2020/8/1
“human insulin”
2020/8/1
Entrez系统的辅助功能
Structures PDB三维结构数据库
Genomes OMIM
已经完成和正在进行的模式生物基因组信息 人类遗传疾病和遗传缺失在线数据库
Taxonomy 系统分类信息 LocusLinks 基因关联信息
PopSet
具有亲缘关系的种群之间核酸序列同源性比 对结果
literature databases /sites/gquery
数据库搜索的任务和目的
1.任务 发现序列之间的相似性 辨别序列之间的差异
2.目的 相似序列 相似的结构和功能 判别序列之间的同源性 推测序列之间的进化关系
2020/8/1
1、核苷酸碱基和氨基酸残基代码
➢在实际DNA序列数据库中,由于序列测 定的原因,个别碱基可能无法确定,称 为歧义碱基,通常用A、T、C、G之外 的字母表示。✓
例如,在SWISS-PROT输入关键词 insulin,即可找出该数据库所有胰岛素 或和胰岛素相关的序列条目(entry)。
2020/8/1
➢数据库搜索(database search):通 过特定的序列相似性比对算法,找出核 酸或蛋白质序列数据库中与检测序列具 有一定程度相似性的序列。
例如,给定一个胰岛素氨基酸残基序列 ,通过在SWISS-PROT数据库中检索, 找出与其有一定相似性的序列。
① 限定查询范围(Limits) ② 预览查询结果(Preview/Index)不列
出具体查询结果,只列出查询到的序列 的条目数 ③ 查看查询记录(History) ④ 操作剪贴板(Clipboard)
2020/8/1
Entrez系统的特点
• 把序列、结构、文献、基因组、系统分 类等不同类型的数据库有机地结合在一 起,通过超文本链接,用户可以从一个 数据库直接转入另一个数据库。此外, 把数据库和应用程序结合在一起。
2020/8/1
SRS系统的特点
① 统一的用户界面 ② 高效的查询功能 ③ 灵活的指针链接 ④ 方便的程序接口 ⑤ 开放的管理模式 ⑥ 同一的开发平台
2020/8/1
(二)数据库搜索
➢新测定的碱基序列或氨基酸序列,往往需 要通过数据库搜索,找出具有一定相似性 的同源序列,以推测未知序列可能属于哪 个家族,具有哪些生物学功能。
➢数据库搜索的基础是序列的相似性比对, 即序列比对( alignment)。
2020/8/1
➢检测序列(probe sequence):新测定 的、希望通过数据库搜索确定其性质或 功能的序列。
➢目标序列(subject sequence):通过 数据库搜索得到的和检测序列具有一定 相似性的序列。
2020/8/1
• SRS是欧洲各国主要生物信息中心必备 的数据库查询系统。
• SRS已经发展为商业软件,学术单位可 以免费使用。
2020/8/1
• 与Entrez不同,SRS是一个开放的数据 库查询系统,即不同的SRS查询系统可 以根据需要安装不同的数据库。目前, 共有300多个数据库安装在世界各地的 SRS服务器上。
2020/8/1
课后作业 2
• 如何了解斑马鱼ATF4基因的最新研究进展? • 目前生物信息学有 2
• 如何了解牛ADRB3基因的最新研究进展 ?
• 目前生物信息学有哪些研究热点?
2020/8/1
(一)数据库查询系统
2、 SRS
• SRS (sequence retrieval system)是 EBI开发的数据库查询工具。
2020/8/1
❖在生物信息学中,数据库搜索是专门针对 核酸和蛋白质序列数据库而言的,其搜索 的对象不是注释信息,而是序列信息。
❖显然,数据库查询和数据库搜索是两个截 然不同的概念,它们所要解决的问题、所 采用的方法和得到的结果均不相同。
2020/8/1
(一)数据库查询系统
1、Entrez 由美国NCBI开发,用于对文献摘要
➢蛋白质序列由20种氨基酸残基组成,分 别用20个英文字母表示。✓
2020/8/1
碱基代码 G A T (U) C R (A or G) Y (C or T or U) M (A or C) K (G or T) S (C or G) W (A or T) H (A or C or T) B (G or T or C) V (A or C or G) D (G or T or A) N (A or T or C or G)
中文含义 鸟嘌呤 腺嘌呤 胸腺嘧啶(尿嘧啶) 胞嘧啶 嘌呤 嘧啶 腺嘌呤或胞嘧啶(氨基) 鸟嘌呤或胸腺嘧啶 强相互作用碱基 弱相互作用碱基 非鸟嘌呤 非腺嘌呤 非胸腺嘧啶/尿嘧啶 非胞嘧啶 不确定
、序列、结构和基因组等数据库进行关 键词查询,找出相关的一个或几个数据 库条目(entry) 。
2020/8/1
Entrez数据库查询系统提供的数据库
数据库名称 数据库内容
PubMed GenBank
生物医学文献MedLine摘要 核酸序列
Proteins
SWISS-PROT、PIR以及GenBank翻译得 到的蛋白质序列
英文含义 Guanine Adenine Thymine (Uracil) Cytosine Purine Pyrimidine Amino Ketone Strong interaction Weak interaction Not G (H after G) Not A (B after A) Not T/U (V after U) Not C (D after C) Any