生物信息学第三章分子生物信息数据库

合集下载

生物信息学 第三章 生物信息数据库及其信息检索 ppt课件

生物信息学 第三章 生物信息数据库及其信息检索 ppt课件
因组数据。
核酸序列数据库 GenBank( ) EMBL( ) DDBJ ( ) 三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋白
序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
生物信息学数 据库类型
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物 学实验中测序获得的核酸和蛋白质序列。
生物信息学 第三章 生物信息数据库 及其信息检索
第三章 生物信息数据库及其信息检索
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)

生物分子数据库

生物分子数据库
n NCBI 蛋白质数据库 包括所有蛋白质序列,及其翻译产 物序列 /entrez
n PIR 蛋白质序列信息资源库(美、德)
n
PPT文档演模板
生物分子数据库
蛋白质结构数据库
n PDB Protein DataBank,美国Brookhaven国家实验室管理生 物大分子三维空间结构原子坐标数据库 /pdb/
1. 核酸序列数据库
2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
n DDBJ日本核酸数据库 http://www.ddbj.nig.ac.jp
整合平台:Entrez 综合数据库
序列通过正式递交进入数据库 未正式发表文献以前,数蛋白质序列数据库
n SWISS-PROT (瑞士日内瓦大学)蛋白质序列数据库 http://www.Expasy.ch 内容包括序列及功能信息、蛋白识别、蛋白质结构预测 及其他功能
PPT文档演模板
生物分子数据库
三、 生物信息数据库检索
n 集成检索系统: n Entrez系统(整合库)美国生物技术信息中心研制 n
n SRS系统(Sequence Retrieval System)欧洲分子生物学实验室开发 /
n 中国生物信息网
n 北京大学生物信息中心 中国生物技术信息网 /
n 中国科学院(上海文献中心)
n /tushug/
生物分子数据库
PPT文档演模板
2020/11/26

第三章生物信息数据库

第三章生物信息数据库

部分生物基因组计划网址


老鼠(Mouse) /mgd.html 小鼠(Rat) http://ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) http://locus.jouy.inra.fr/cgibin/bovmap/intro2.pl 猪(Pig) /pigmap/pigbase/pigbase.html 羊(Sheep) 鸡(Chicken) /chickmap/chickbase/manager.html 斑马鱼(Zebra fish) 线虫 (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.ht ml 果蝇(Drosophila) 蚊子(Mosquito) 拟南芥(Arabidopsis) /Arabidopsis 棉花(Cotton) 玉米(Maize) 水稻(Rice) http://www.staff.or.jp 大豆(Soya) :8000/main.html 树(Trees)


2、蛋白质序列数据库
SWISS-PROT (欧洲) PIR (美国)
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 由瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究 所(EBI)合作维护; 在EMBL和GenBank数据库上均建立了镜像站点;

SWISSPROT

到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等
PIR (Protein Information Resource)

生物信息数据库ppt课件

生物信息数据库ppt课件
UniRef100、UniRef90和UniRef50三个子库,加速同源搜索。 记录以UniRefXX开头加UniProtKB的Accession表示,例:
UniRef90_O70405
36
UniParc UniProt Archive (UniParc) 存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据
44
显示分子结构(RasMol , ChemView )
45
四. 基因组数据库
46
基因组数据库 收集某些生物整个基因组序列的数据库 基因组计划
➢ Human Genome Project ➢ C. elegans Project 从GenBank中选择同一物种的核酸信息组成的二级库
47
16
17
INSDC 1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信
64
氨基酸代码
65
GenBank数据格式 (1)
GenInfo Identifier
子库类型
66
GenBank数据格式 (2)
67
GenBank数据格式 (3)
68
GenBank子库类型
69
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 //
2
生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快
数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置

分子生物学数据库

分子生物学数据库

• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的

(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接

第3章 生物信息学数据库

第3章 生物信息学数据库

以上这个FASTA文件中包含了gi号码、GenBank检索号码、 LOCUS名称、以及GenBank记录中的DEFINATION字段。
最简单的FASTA序列形式
>D49653
CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCC TGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGAT GACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGC AGTCGGTATCCG….
第3章 生物信息学数据库
第一节 生物信息数据库的发展简史 第二节 核酸序列数据库 第三节 蛋白质序列数据库 第四节 生物大分子结构数据库 第五节 其它生物数据库
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子数据库
生物分子数据库应满足的条件
(1)时间性
(2)注释
(2)核苷酸符号大小写均可,氨基酸一般大写 (3)一般每行的字符数不超过80个 (4)没有特殊的序列结束标志
(5)多条序列格式即将该格式连续列出
>gi|995614|dbj|D49653|RATOBESE Rat mRNA for obese.
CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCC TGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGAT GACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGC AGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCC CATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACC AGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACC TCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAG AAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTG GCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCC CTGAATGCTGAGGTTTC

生物信息学 第三章 生物信息数据库及其信息检索

生物信息学 第三章 生物信息数据库及其信息检索

数据存储、注释
检索查询
数据库
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在
/nar/database/c/。
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis
rat
蛋白质-蛋白质相互作用数据库 DIP(/) 由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信 息和检测相互作用的实验技术 IntAct(/intact ) 提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相 互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结 构域注释进行网络的扩充 代谢网络和信号途径 KEGG大百科(http://www.genome.ad.jp/kegg/ ) 系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和 部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的 细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、 酶分子和酶反应等信息。
三、功能数据库
收录生物分子的功能数据,由ID号与序列和结构数据链接 组织表达谱和亚细胞定位 根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的 图谱: BodyMap(http://bodymap.ims.u-tokyo.ac.jp/ ) Unigene(/sites/entrez?db=unigene ) SAGEmap(/projects/SAGE/) GEO(/projects/geo/) Stanford Microarray Database(/microarray )

生物信息学教学大纲

生物信息学教学大纲

红河学院《生物信息学》课程教学大纲一、课程基本情况与说明(一)课程代码:(二)课程英文名称:bioinformatics(三)课程中文名称:生物信息学(四)授课对象:生物科学和生物技术专业本科生(五)开课单位:生命科学与技术学院(六)教材:1、生物技术专业:《生物信息学应用技术》,王禄山、高培基编,化学工业出版社,2008年2、生物科学专业:《生物信息学基础》,孙啸、陆祖宏、谢建明编,清华大学出版社,2005年(七)参考书目[1]《生物信息学》,DavidW.Mount著,钟扬等译,高等教育出版社,2003年[2]《基因组数据分析手册》,胡松年、薛庆中编,浙江大学出版社,2003年[3]《生物信息学中的计算机技术(Developing Bioinformatics Computer Skills)》,CynthiaGibas,Per Jambeck著,孙超等译,中国电力出版社,2002年[4]《生物信息学:基因和蛋白质分析的实用指南》,Andreas D. Baxevanis,Francis OuelletteB F著,李衍达、孙之荣等译,清华大学出版社,2000年[5]《生物信息学算法导论(An Introduction to Bioinformatics Algorithms )》,琼斯,帕夫纳著,王翼飞等译,化学工业出版社,2007年(八)课程性质(五号宋体加粗)生物信息学是生命科学领域一门新兴的边缘学科,综合了生物学、计算机学、信息学、统计学等方面的知识。

该学科在学生掌握生物化学、遗传学、分子生物学以及计算机应用、高等数学等相关知识的基础上开设,属于生物类专业的专业课程(必修或选修)。

通过学习,学生能够加深对分子生物学和基因工程等课程的理解,并为进一步学习基因组学(genomics)和蛋白质组学(protemics) 奠定基础。

(九)教学目的1、给学生介绍生物信息学的主要内容以及未来可能的发展方向,为学生构建相关知识体系,开阔学生的视野,为将来进一步学习、科研打下基础。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

同源蛋白家族数据库Pfam
同源蛋白结构域数据库Blocks
二次数据库的种类
3. 以具有特殊功能的蛋白质为基础:
免疫球蛋白数据库Kabat 蛋白激酶数据库PKinase
4. 以三维结构原子坐标为基础:
蛋白质二级结构构象参数数据库DSSP 已知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白数据库HSSP
二次数据库 1. 容量小,更新速度较慢,可以不用大型商
业数据库软件支持。 2. 许多二次库的开发基于Web浏览器。其优
点是使用方便,使用者不需要有丰富的计 算机专业知识。
DBCat
由法国生物信息研究中心Infobiogen建立维护。 DBCat(Database Catalog,生物信息数据库目录)
搜集了500多个数据库的名称、内容、数据格式、联 系地址、网址等详细信息。 DBCat按DNA、RNA、蛋白质、基因图谱、结构、 文献等分类,其中大部分数据库可以免费下载。
MetaBase
MetaBase是一个生物学数据库清单, 目前收集了1799个不同的数据库,可 直接输入数据库名称进行搜索,也可 以浏览目录。
计算机数据管理技 术广泛应用
分子生物学数据库建立并不断发展, 成为相关研究的主要数据来源和数据
交换手段。
➢计算机网络的发展和互联网在全球的普及, 为分子生物信息数据库的利用开辟了广阔 的前景。
➢测序中心和生物学家得到的各种生物学数 据都可以通过互联网直接向国际数据中心 递交。
分子生物信息数据库的种类
The databases are described in a semistructured way by using templates and entries can carry various user comments and annotations.
Entries can be searched, listed or browsed by category.
生物信息学第三章分子生物信息数据库
主要内容
一.分子生物信息数据库简介 ✓ 二.序列数据库 ✓ 三.基因组数据库 ✓ 四.结构数据库 ✓ 五.二次数据库 ✓ 六.数据库查询和数据库搜索 ✓
一、分子生物信息数据库简介
分子生物学领域的大规模、高通量、 自动化研究
实验数据可靠、完 整,及时实现信息 资源共享
具有特殊生物学意义和专门用途 数据库开发的有效途径
二次数据库的种类
1. 以核酸数据库为基础:
2.
真核生物启动子数据库EPD
3.
克隆载体数据库Vector
4.
基因转录调控因子数据库TransFac
2. 以蛋白质序列数据库为基础:
蛋白质功能位点数据库Prosite 蛋白质序列指纹图谱数据库Prints
/wiki/Main_Page
MetaBase
MetaBase is a user-contributed list of all the biological databases available on the internet.
Currently there are 1,799 entries, each describing a different database.
/
三大核酸数据库
DDBJ(DNA Date Base of Japan)由 日本国家遗传学研究所(National Institute of Genetics, NIG)维护。
GenBank和EMBL中各子库名称
GenBank (EMBL) PRI(HUM) ROD(ROD) MAM (MAM) VRT (VRT) INV(INV) PLN(PLN) BCT(PRO) VRL(VRL) PHG(PHG) SYN (SYN) UNA(UNC) EST(EST) PAT(PAT) STS(STS) GSS(GSS) HTG(HTG) HTC(HTC)
HGMP-RC
英国基因组图谱资源中心(Human Genome Mapping Project Resource Center, HGMP-RC)
搜集世界各地基因组中心、基因组数据库、基 因组图谱、基因组实验材料、基因突变,以及 生物公司、实验规程、网络教程等几百个网址。

二、序列数据库
序列数据库是分子生物信息数据库的 重要组成部分,包括核酸和蛋白质两类, 以核苷酸碱基顺序和氨基酸残基顺序为基 本内容,并附有注释信息。
1、核酸序列数据库
➢目前世上最大的核苷酸序列数据库是 美 国 的 GenBank 、 欧 洲 的 EMBL 、 日 本 的DDBJ数据库。
➢截止到2011年4月,GenBank已经收录了 135,440,924 条 序 列 记 录 , 超 过 1260 亿 个 碱基记录,每隔大约10个月数据就翻番。
1. 基因组数据库
2. 核酸和蛋白质一级结构(序列)数
据库
3. 生物大分子(主要是蛋白质)空间
结构数据库
4. 二次数据库
一次数据库
一次数据库
基因组作图 序列测定 X射线衍射、核磁 共振等结构测定
基因组数据库 序列数据库 结构数据库
生物信息学的基本数据资源
二次数据库
对一次数据库以及文献等数据进行分 析、整理、归纳、注释
三大核酸数据库
GenBank,由美国国家生物技术信息中心 (National Center for Biotechnology Information, NCBI)维护。
/genbank/
三大核酸数据库
EMBL数据库是由欧洲分子生物学 实验室(European Molecular Biology Laboratory, EMBL)创建,并因此 得名,现由欧洲生物信息学研究所 ( European Bioinformatics Institute, EBI)维护。
两类数据库的特点:
一次数据库
1. 数据量大,更新速度快,用户面广
2. 需要高性能的计算机服务器、大容量的磁盘 空间和专门的数据库管理系统支撑。
例如,欧洲生物信息学研究所用Oracle数据库软件 管理、维护核酸数据库EMBL;基因组数据库GDB的管 理运行基于Sybase数据库管理系统。
两类数据库的特点:
相关文档
最新文档