网上生物信息学数据库资源

网上生物信息学数据库资源
网上生物信息学数据库资源

收稿日期:2001年2月8日

作者简介:万跃华,浙江工业大学图书馆信息咨询部主任,主要从事网络信息资源、数字图书馆、搜索引擎、信息检索、计算机视觉等研究与教学。何立民,浙江工业大学图书馆馆长,主要从事化工机械、图书情报、信息检索等方面的科研与教学工作。

1)本文为浙江省科技厅基金资助项目(2001080)“基因组信息学数据库信息资源开发与利用研究”

网上生物信息学数据库资源

1)

万跃华 何立民

(浙江工业大学图书馆,杭州310032)

摘要

大量的蛋白质和核酸数据的积累与理性地分析这些数据中所蕴涵的生物学意义的双重需要,产生了综合生物学研究与计算技术研究等领域最新成果的交叉性学科生物信息学。本文分别从生物信息学的基因组数据库,核酸和蛋白质一级结构序列数据库,生物大分子(主要是蛋白质)三维空间结构数据库,以及以这3类数据库和文献资料为基础构建的二次数据库(包括基因组二次数据库、蛋白质序列二次数据库、蛋白质结构二次数据库)和生物信息学数据库的集成系统等几个方面,概述了发展中的生物信息学数据库的最近动态和有关信息,同时对主要的热门生物信息学数据库站点和资源进行了评价。此外,就国内生物信息学数据库存在的问题与前景进行了讨论,指出生物信息学将是一次国际性的科学大协作,也是我国生命科学振兴的一个新契机。

关键词

生物信息学 网络信息资源 基因组数据库 结构数据库 核酸数据库 蛋白质数据库 序列数据库Bioinformatics Database R esources on I nternet

Wan Y uehua and He Limin

(Library o f Zhejiang Univer sity o f Technology ,Hangzhou 310032)

Abstract

Bioin formatics came from the requirement for vast data of protein and nucleic acids and analysis of the biological significance im plying in these data.I t is an intercross subject which integrates the newest reaching outcomes of biology ,com puter technology and other fields.The paper summarizes the newest developments and relative in formation of bioin formatics database from s ome respects such as genome database ,first class database of protein and nucleic acids sequence ,three 2dimensional spatial struc 2ture database of biomacrom olecules (protein is dominating ),sub 2databases including genome database ,protein sequence sub 2data 2base and protein structure sub 2database ,which are all constructed on the first class databases ,references ,and the integrated sys 2tem of bioin formatics database .At the same time ,evaluation about the main hot nets of bioin formatics database and res ources is given out.Furtherm ore ,the problems and prospects of domestic bioin formatics database are discussed.Bioin formatics will be an international collaborative venture of m odern science.Bioin formatics als o will be a chance to develop our life science.

K eyw ords bioin formatics ,netw ork in formation res ource ,genome database ,structure database ,nucleic acids database ,protein database ,sequence database.

1 引 言

生物信息学(Bioinformatics )是近年来在生命科

学的研究中发展起来的一门由分子生物学和计算机

信息处理技术相结合的,以计算机为工具对生物信息进行储存、检索和分析的交叉学科,它的基本出发点是利用数据库技术和软件技术对大量积累的生物

第21卷 第4期2002年8月

情 报 学 报

V ol.21,№4

August ,2002

大分子序列数据和实验测定的序列进行结构比较和统计分析,揭示出生物大分子的分子结构、功能和进化关系。因此,它是分子生物学研究的一个新领域,同时也是生命科学和自然科学的重大前沿领域之一,其研究重点主要体现在基因组学(G enomics)和蛋白组学(Proteomics)两方面。具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

数据库是生物信息学的主要内容之一。生物信息学数据库具有以下一些特点:(1)数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库(如Medline,Uncover)和其他杂类数百种。(2)数据库的更新和增长快。数据库的更新周期越来越短,有些数据库每天更新。数据的规模以指数形式增长。(3)数据库的复杂性增加、层次加深。许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与文献库、酶学数据库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库直接交联。(4)数据库使用高度计算机化和网络化。越来越多的生物信息学数据库与因特网联结,从而为分子生物学家利用这些信息资源提供了前所未有的机遇。绝大多数网上生物信息学数据库中的信息资源可免费检索或下载。随着网络信息检索工具搜索引擎的不断发展,生物信息学数据库的网上信息资源检索越来越方便、快速,这对我国开展生物信息学研究以及人类和水稻基因组工程的DNA序列数据的分析提供了捷径。特别是当前我国生物信息学自建数据库不丰富和引进数据库又比较少的情况下,探讨和研究如何充分开发和利用网络上免费的生物信息学数据库信息资源显得尤为重要。

2 生物信息学数据库种类

生物信息数据库种类繁多,归纳起来,大体可以分为4个大类:基因组数据库,核酸和蛋白质一级结构序列数据库,生物大分子(主要是蛋白质)三维空间结构数据库,以及以这3类数据库和文献资料为基础构建的二次数据库。基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X2衍射和核磁共振结构测定。这些数据库是分子生物信息学的基本数据资源,通常称为基本数据库或初始数据库,也称一次数据库。根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是数据库开发的有效途径。近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个二次数据库和复合数据库,也称专门数据库或专业数据库、专用数据库。

一次数据库的数据量大、更新速度快、用户面广,通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。例如,欧洲生物信息学研究所用Oracle数据库软件管理、维护核酸数据库E M BL。而基因组数据库G DB的管理、运行则基于Sybase数据库系统。Oracle和Sybase均为流行的数据库管理商业软件。而二次数据库的容量则要小得多,更新速度也不像一次数据库那样快,可以不用大型商业数据库软件支撑。许多二次数据库的开发基于Web浏览器,使用超文本语言HT M L和Ja2 va程序编写的图形界面,有的还带有搜索程序。这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验并不丰富的生物学家。

二次数据库种类繁多。以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库T r2 ansFac[1~2](http:ΠΠtrans fac.gbf.deΠTRANSFACΠ),真核生物启动子数据库EPD[3~4](Eukary otic Prom oter Da2 tabase)(http:ΠΠw w w.epd.isb2sib.ch.),克隆载体数据库Vector[5],密码子使用表数据库C UTG等。以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库PROSITE[6~7],蛋白质功能位点序列片段数据库PRI NTS[8~10](http:ΠΠw w w.bioinf.man.ac. ukΠdbbrowserΠPRI NTSΠ),同源蛋白家族数据库P fam2 [11~12](http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠS oftwareΠP famΠ),同源蛋白结构域数据库Blocks[13~15]。以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库K abat[16](http:ΠΠhttps://www.360docs.net/doc/486470040.html,),蛋白激酶数据库PK inase等。以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如蛋白质二级结构构象参数数据库DSSP[17],已知空间结构的蛋白质家族数据库FSSP[18~19],已知空间结构的蛋白质及其同源蛋白数据库HSSP[20~21]等。蛋白质回环分类数据库则是用于蛋白质结构、功能和分子设计研究的专门数据库。此外,酶数据库Enzyme Database[22](http:ΠΠw w w.expasy.chΠenz2

894情 报 学 报21卷 

ym eΠ),限制性核酸内切酶数据库RE BASE[23~24](ht2 tp:ΠΠhttps://www.360docs.net/doc/486470040.html,),辐射杂交、氨基酸特性表、序列分析文献等,也属于二次数据库或专门数据库。

除了上面介绍的几种类型生物信息学数据库外,还出现了专门收集现有生物信息学数据库目录的数据库。法国生物信息研究中心In fobiogen生物信息数据库目录DBC AT(http:ΠΠw w https://www.360docs.net/doc/486470040.html,biogen.frΠservicesΠdbcatΠ)搜集了513个主要数据库的名称、作者、内容、数据格式、联系地址、网址等详细信息,能使用户对目前生物信息数据库有一个详尽的了解。DBC AT本身也是一个具有一定数据格式的数据库,它按DNA、RNA、蛋白质、基因图谱、结构、文献等分类,其中大部分数据库是可以免费下载的公用数据库。表1列出了常用的生物学信息数据库。

表1 常用生物信息学数据库

名称内容名称内容

E M BL核酸序列E MEST E M BL数据库中EST部分PIR蛋白质序列SWISS2PROT蛋白质序列

OW L非冗余蛋白质序列TRE M BL E M BL翻译所得蛋白质序列PDB蛋白质三维空间结构DSSP蛋白质二级结构参数HSSP同源蛋白家族FSSP已知空间结构蛋白质家族PDBFI NDER PDB数据库注释信息S BASE蛋白质结构域序列

S UBTI LIST枯草杆菌序列H UMREP人类基因组中重复序列VECT OR克隆载体CPGIS LE C pG岛序列

RDP核糖体序列TRANSFAC转录因子

EC DC大肠杆菌序列Y PD酵母基因组

K ABAT N免疫球蛋白核酸序列K ABATP免疫球蛋白蛋白质序列PROSITE蛋白质功能位点PROSITE DOC蛋白质功能位点文献摘要BLOCK S同源蛋白序列模块PRI NTS蛋白质指纹图谱PRODOM蛋白质结构域PFAM蛋白质家族序列

E NZY ME酶RE BASE限制性内切酶

OMI M人类遗传缺陷基因UNIGE NE人类基因组中基因序列SE QANA LREF序列分析文献目录SE QANA LRABS序列分析文献摘要

ME D LI NE医学文献目录VIRGI L G DB和G enBank链接

F LYGE NES果蝇基因组MITS NP单核甘酸多态性

RH DB放射杂交GE NDI AG遗传疾病和遗传缺失

P53P53蛋白突变C D40LBASE C D40蛋白

PK丙酮酸激酶I MG T免疫球蛋白

C UTG遗传密码使用频度GE NETICC ODE遗传密码表

T AX ONOMY分类学AAI NDEX氨基酸性质索引表

BI OC AT生物信息学程序目录DBC AT生物信息学目录

3 基因组生物信息学数据库

基因组数据库是分子生物信息数据库的重要组成部分。基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心以及和医学、生物学、农业等有关的研究机构和大学。基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到。随着资源基因组计划的普遍实施,几十种动物、植物基因组数据库也纷纷上网,如英国R oslin研究所的ArkDB(http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠarkdbΠsites. html)包括了猪、牛、绵羊、山羊、马等家畜以及鹿、狗、鸡等基因组数据库;美国、英国、日本等国的基因组中心的斑马鱼、罗非鱼(T ilapia)、青 鱼(Medaka)、鲑鱼(Salm on)等鱼类基因组数据库;英国谷物网络组织(CropNet)[25]建立的玉米、大麦、高粱、菜豆农作物以及苜蓿(Alfalfa)、牧草(F orage)、玫瑰等基因组数据库。除了模式生物基因组数据库外,基因组信息资源还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因调控和表达、放射杂交、基因图谱等

994

4期网上生物信息学数据库资源

各种数据库。

3.1 人类基因组数据库G DB

人类基因组数据库(The G enome Database, G DB)[26](http:ΠΠgdbw w https://www.360docs.net/doc/486470040.html,;http:ΠΠw w w.gdb. orgΠ;http:ΠΠhttps://www.360docs.net/doc/486470040.html,Π)于1990年初建于美国约翰斯?霍普金斯大学(Johns H opkins University),以支持国际合作的人类基因组计划,是一个专门汇集存储人类基因组数据的数据库,其中包括了全球范围内致力于人类DNA结构和100000种人类基因序列研究的分析成果,对从事相关领域的研究人员具有重要的参考作用,

中心负责管理。目前,该库包括以下多种内容:人类基因组,包括基因、克隆、断裂点、细胞遗传标记物、易断位点、重复片段等;人类基因组示意图,包括细胞遗传图,关联图,辐射杂交图、综合图等;人类基因组内的变异,包括基因突变和基因多态性;还有等位基因发生频次等数据资料。可通过名字ΠG DB I D、关键词、DNA序列I D进行查询。

G DB数据库用表格方式给出基因组结构数据,包括基因单位、PCR位点、细胞遗传标记、EST、连续子(C ontig)、重复片段等;并可显示基因组图谱,包括细胞遗传图、连锁图、放射杂交图、连续子图、转录图等;并给出等位基因等基因多态性数据库。此外, G DB数据库还包括了与核酸序列数据库G enBank和E M BL、遗传疾病数据库OMI M、文献摘要数据库MedLine等其他网络信息资源的超文本链接。

G DB数据库是用大型商业软件Sybase数据库管理系统开发的,并用Java语言编写基因图谱显示程序,为用户提供了很好的界面,缺点是传输速度受到一定限制。G DB数据库是国际合作的成果,其宗旨是为从事基因组研究的生物学家和医护人员提供人类基因组信息资源。其数据来自于世界各国基因组研究的成果,经过注册的用户可以直接向G DB数据库中添加和编辑数据。

3.2 线虫基因组数据库AceDB

AceDB是线虫(Caenorhabditis elegans)基因组数据库[27~28](http:ΠΠw w https://www.360docs.net/doc/486470040.html,Π)。需要说明的是, AceDB既是一个数据库,又是一个数据库管理系统,可以从网上自由下载,目前许多研究单位用它建立自己的数据库。AceDB基于面向对象的程序设计技术,是一个相当灵活和通用的数据库系统,可用于其他基因组计划的数据分析。AceDB最初是基于Unix 操作系统的X窗口系统,适用于本地计算机系统。AceDB提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。新开发的WebAce和AceBrowser则是基于网络浏览器。Sanger中心已经将其用于线虫和人类基因组数据库的浏览和搜索。库内的资源包括限制性图谱、基因结构信息、质粒图谱、序列数据、参考文献等等。

3.3 美国基因组研究所的数据库TIGR

美国基因组研究所是一个非营利的研究单位,研究重点放在病毒、真细菌、致病菌及真核细胞(植物与动物),包括人类的基因组及基因产物的结构、功能与比较分析。美国基因组研究所的数据库TIG R[29](The Institute of G enomic Research)(http:ΠΠw w https://www.360docs.net/doc/486470040.html,Π)包括了微生物、植物及人类的DNA及蛋白质序列,基因表达,细胞的作用,蛋白质系族及分类数据。由该页面可进入以下数据库:微生物库,人类基因索引,老鼠基因索引,水稻基因索引,人类基因组排序项目,人类cDNA图项目,表达的基因结构库等。其中基因组研究所的微生物数据库(MDB)(http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠtdbΠmdbΠmdb.html)网页列出了已完成的14个和正在研究的40个微生物基因组,包括名称、信息量、研究单位、资金来源及发表在何处等。已完成的基因组大部分可通过超链接进入该数据库进行查询。

3.4 美国国家基因组资源中心基因组序列库

美国国家基因组资源中心基因组序列库[30]G e2 nome Sequence DataBase(G S DB)(http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠresearchΠsequenceΠ)是美国国家基因组资源中心(NCG R)的基因组序列库(G S DB),收集了DNA序列数据和有关的信息。由该主页可进入:NCG R主页,基因组序列库,几套完整的细菌基因组等。

3.5 其他的基因数据库

美国国家农业图书馆的基因组数据库(Databas2 es at the National Agricultural Library)(http:ΠΠprobe. nalusda.g ov:8000Πalldbs.html)。在美国植物基因组计划等的基金支持下,美国农业图书馆建立了一批基于Web的植物基因组、牲畜基因组数据库,世界各地均能方便地免费访问和检索。该页面有如下数据库的超链接:植物基因组(目前包括19个数据库,有浏览、查询和介绍)、牲畜基因组(包括2个数据

005情 报 学 报21卷 

库)、其他生物体基因组(包括5个数据库)、植物(9个数据库)、昆虫(5个数据库)等的参考信息等。

果蝇基因组数据库[31~32](Fly Base—A Database of the Dros ophila G enome)(http:ΠΠflybase.bio.indiana. eduΠ)。Fly Base是一个提供果蝇遗传学与分子生物信息的综合数据库。它提供了果蝇基因组项目的各类基本数据(基因、畸变、克隆、基因图、果蝇文献目录、数据查询等),文件与命名,果蝇基因组计划以及其他有关数据库及资源等。

酵母基因组数据库(YE ASTS)(http:ΠΠgenome2 w w https://www.360docs.net/doc/486470040.html,Π)这是美国斯坦福大学的基因资源库,主要提供了各类酵母基因组数据以及斯坦福大学基因组研究机构的信息。

美国生物技术信息中心基因数据库(National Center for Biotechnology Information)(http:ΠΠw w w.ncbi. nlm.nih.g ovΠ)。美国生物技术信息中心(NC BI)提供了18个数据库,可提供科研人员免费检索有关基因工程和生物技术方面的资料。这些基因组数据库几乎包括基因工程所有方面的数据库,如人类基因、老鼠基因、生物基因、癌基因等信息资源。另外还提供了分析基因组数据的各类工具软件。

英国农作物基因数据库[25](UK CropNet)(http:ΠΠhttps://www.360docs.net/doc/486470040.html,Πdb.html)。该数据库主要提供各类有关农作物的基因数据,包括Arabidopsis thaliana, Barley,Brassica spp,F orage G rasses,Millet and tef,Alfal2 fa,Chlamydom onas,Dicty ostelium等18个物种基因数据库。

美国农业基因组信息系统(Agricultural G enome In formation System—AGIS)(http:ΠΠars2genome.cornell. eduΠ)。AGIS是由美国马里兰大学植物生物系、美国农业部等单位联合创建的农业基因组信息服务系统。该系统目前主要包括农作物与牲畜品种的基因信息,也包括种质与植物命名数据库等与这些信息有关的数据库。基因数据库主要有植物基因组、牲畜基因组、Demeter’s基因组等信息资源,另外还提供了分析基因组数据的各类工具软件,还链接了其他基因数据库、会议、出版物等。

4 生物信息学序列数据库

序列数据库是生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。序列数据库早期的数据主要由数据录入人员通过查阅文献杂志搜集,或者由科研人员用磁盘、电子邮件方式向国际生物信息数据库中心递交。数据中心对搜集到的序列数据进行整理、维护,并定期通过磁盘、磁带和光盘方式向全世界发布。序列数据库的序列数据来自核酸和蛋白质序列测定;注释信息包括两部分,一部分由计算机程序经过序列分析而生成,另一部分则依靠生物学家通过查阅文献资料而获得。随着基因组大规模测序计划的迅速开展,序列数据库特别是核酸序列数据库的数据量迅速增长,数据来源主要集中于国际上几大著名的测序中心,如位于英国剑桥南郊基因组园区的Sanger Center,华盛顿大学基因组研究中心等。我国于1999年参加国际人类基因组研究项目,已经于2000年4月按计划完成人类基因组1%序列的测定。

4.1 核酸序列数据库

E M BL、G enBank和DDB J是国际上三大主要核酸序列数据库。E M BL是德国海德堡市的欧洲分子生物学实验室(European M olecular Biology Laboratory) 1980年创建的,其名称也由此而来。1994年9月随着欧洲生物信息学研究所(European Bioinformatics Institute—E BI)(http:ΠΠw w https://www.360docs.net/doc/486470040.html,)在英国剑桥建成,E M BL数据库由海德堡市迁移至剑桥[33]。美国国家健康研究院(National Institurte of Health,简称NIH)也于1982年委托洛斯阿拉莫斯(Los Alam os)国家实验室建立G enBank[34~35],后移交给美国国立卫生研究院国家生物技术中心(National Center for Bio2 technology Information—NC BI)(http:ΠΠw w w.ncbi.nlm. nih.g ov),隶属于NIH下设的国家医学图书馆(Na2 tional Liabraty of Medicine,简称N LM)。DDB J是日本静冈市的日本国立遗传学研究所(http:ΠΠw w w.nig. ac.jp)1986年创建的日本DNA数据库(DNA Database of Japan—DDB J)[36]。1988年,E M BL、G enBank与DD2 B J共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据库分别收集所在区域的有关实验室和测序机构所发布的核酸序列信息,并共享收集到的数据,每天交换各自数据库新建立的序列记录,以保证这三个数据库序列信息的完整性。

鉴于核酸序列数据库规模不断扩大,数据来源种类繁多,特别是大量的基因组序列片段迅速进入数据库,有必要将其分成若干子库,这样既便于数据库的维护和管理,也便于用户使用。例如,在对数据库进行查询或搜索时,有时不需要进行整库操作,而

105

4期网上生物信息学数据库资源

是将查询和搜索范围限定在一个或几个子库,不仅加快了速度,而且可以得到更加明确、可靠的结果。分类的原则,一是按照种属来源,如哺乳类、啮齿类、病毒等;二是根据序列来源,如将专利序列、人工合成序列单独分类。此外,基因组计划测序所得到的序列已经占了数据库总容量的一半以上,而且增长速度远远超过其他各种子库,有必要将其单独分类,包括表达序列标记(Expressed Sequence T ags,简称EST)、高通量基因组测序(High Throughput G enomic sequencing,简称HTG)、序列标记位点(Sequence T agged Sites,简称STS)、基因组概览序列(G enome Survey Sequence,简称G SS)。其中EST序列条目占了整个核酸序列数据库的一半以上。由于历史的原因,E M BL和G enBank对子库的分类方法略有不同,见表2所示,使用时应该注意。

表2 EMB L和G enB ank核酸序列数据库中各子库名称

E M BL G enBank英文含义中文含义

H UM PRI Primate人类、灵长类

M AM M AM Other mammalian其他哺乳动物

ROD ROD R odent啮齿类动物

VRT VRT Other vertebrate其他脊椎动物

I NV I NV Invertebrate无脊椎动物

P LN3P LN Plant,fungi,algi植物、真菌、藻类

FUN P LN Fungal真菌、藻类

PRO BCT Prokary otes,bacterial细菌、原核生物

VR L VR L Viral病毒

PHG PHG Bacteriophage噬菌体

ORG

33-Organelles细胞器SY N SY N Synthetic合成产物

UNC UNA UnclassifiedΠUnannotated未分类Π未注释

EST EST Expressed Sequence T ags表达序列标记

PAT PAT Patent专利序列

STS STS Sequence T agged S ites序列标记位点

G SS G SS G enome Survey Sequences基因组测序序列

HTG HTG High Throughput G enom ic Sequences高通量基因组序列

3E M BL将真菌单独分类,而G enBank将真菌和藻类归在植物中。

33E M BL将细胞器单独分类。

4.2 EMB L和G enB ank数据库格式

了解序列数据库的格式,有助于提高数据库检索的效率和准确性。DDB J数据库的内容和格式与G enBank相同。E M BL和G enBank数据库的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次标识字或特性表说明符开始。E M BL 序列条目以标识字“I D”开始,而G enBank序列条目以标识字“LOC US”开始,可理解为序列的代号或识别符,实际表示序列名称。标识字还包括说明、编号、关键词、种属来源、学名、文献、特性表、碱基组成,最后以双斜杠“ΠΠ”作本序列条目结束标记。E M2 BL数据库的所有标识字以2个字母的缩写表示,如表3所示。如“I D”表示Identification,“AC”表示Ac2 cession,并都从第1列开始。G enBank数据库的标识字则以完整的英文单词表示,主标识字从第1列开始,次标识字从第3列开始,特性表说明符从第5列开始,等等。无论是E M BL还是G enBank,每个字段的字数不超过80个字符,若该字段的内容一行中写不下,可以在下一行继续。

需要说明的是,序列代码“AC”或“Accession”具有唯一性和永久性,在文献中引用时,应以代码为准,而不是以序列名称为准。已经完成全序列测定的细菌等基因组在数据库中分成几十个或几百个条目存放,以便于管理和使用。例如,大肠杆菌基因组的4639221个碱基分成400个条目存放,每个条目都有一个唯一的编码。

除了上述通用的注释信息外,E M BL和G enBank

205情 报 学 报21卷 

还包括大量与序列直接相关的注释信息,这些信息为数据库的使用和二次开发提供了基础。这些注释信息位于其他注释信息和序列之间,称为序列特征表(Feature table)。E M BL序列特征以标识字“FH”引导,不同的特征表具有不同的说明符,以标识字“FT”开始。而G enBank的特征表则以标识字“FE A2 T URE”引导。序列特征表详细描述该序列的各种特性,包括蛋白质编码区以及翻译所得的氨基酸序列、外显子和内含子位置、转录单位、突变单位、修饰单位、重复序列等信息,以及与蛋白质数据库SWISS2 PROT和分类学数据库T ax onomy等其他数据库的交叉索引编号。应该指出,E M BL和G enBank序列数据库中序列条目的大小相差极大,有的只有几个或几十个碱基,而有的则有几十万个碱基。

表3 EMB L和G enB ank数据库格式

E M BL G enBank含义

I D LOC US序列名称

DE DEFI NITI ON序列简单说明

AC ACCESSI ON序列编号

S V VERSI ON序列版本号

K W KEY W ORDS与序列相关的关键词

OS S OURCE序列来源的物种名

OC ORG ANIS M序列来源的物种学名和分类学位置

RN REFERE NCE相关文献编号,或递交序列的注册信息

RA AUTH ORS相关文献作者,或递交序列的作者

RT TIT LE相关文献题目

R L JOURNA L 相关文献所在杂志名,或递交序列的作者单位

RX ME D LI NE相关文献Medline引文代码

RC RE M ARK相关文献注释

RP相关文献其他注释

CC C OM ME NT关于序列的注释信息

DR相关数据库交叉引用号

FH FE AT URES序列特征表起始

FT序列特征表子项

S Q BASE C OUNT碱基种类统计数

空格ORIGI N序列

4.3 主要蛋白质序列数据库

由于蛋白质序列测定技术先于DNA序列测定技术问世,蛋白质序列的搜集也早于DNA序列。序列数据库从一个侧面反映了信息资源的传播从印刷品到电子媒体到网络的发展趋势。蛋白质序列数据库的雏形可以追朔到60年代。1966年美国国家生物医学研究基金会(National Biomedical Research F oundation,简称NBRF)Dayhoff领导的研究组,将搜集到的蛋白质序列和结构信息以《蛋白质序列和结构地图集》(Atlas of Protein Sequence and Structure)一书的形式发表,主要用来研究蛋白质的进化关系。1984年,“蛋白质信息资源”(Protein Information Re2 s ource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年,美国华盛顿的乔治城大学全国生物医学研究基金会(NBRF)、日本东京理科大学的日本国际蛋白质信息数据库(Japanese International Pro2 tein Information Database,简称J IPI D)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称MIPS)三家实验室合作成立了国际蛋白质信息中心(PIR2International),共同收集和维护蛋白质序列数据库PIR[37~38](http:ΠΠpir.george2 https://www.360docs.net/doc/486470040.html,)。PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释;而PIR4中则包括了其他各种渠道获得的序列,既未验证,也无注释。

除了PIR外,另一个重要的蛋白质序列数据库则是SWISS2PROT[39~41](Protein Sequence Database) (http:ΠΠw w w.expasy.chΠsprotΠsprot2top.html)。该数据库由瑞士日内瓦大学生化系A.Bairoch于1986年创建,目前由瑞士生物信息学研究所(S wiss Institute of Bioin formatics,简称SI B)和欧洲生物信息学研究所(E BI)共同维护和管理。瑞士生物信息学研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)(http:ΠΠw w w.expasy.chΠ)的Web服务器除了开发和维护SWISS2PROT数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。现在E BIΠE M BL 也参与SWISS2PROT的开发,并随E M BL数据库一起发行。

SWISS2PROT蛋白质序列库是现在最为常用、注释最全、包含独立项最多的数据库,它包括其他蛋白质序列库中经过验证的全部序列、其注释及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻

305

4期网上生物信息学数据库资源

译后修饰、与其他蛋白质的相似性、相关的疾病、处理的冲突等。数据库中的所有序列条目,都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SI B和E BI共有70多人的研究队伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量的蛋白质序列和注释信息。SWISS2PROT数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库E M BLΠG enBankΠDD2 B J、蛋白质结构数据库PDB以及PROSITE、PRI NTTS 等十多个二次数据库的交叉引用代码。特别值得一提的是,ExPAsy专门聘请了由200多位国际知名生物学家组成的网上专家评审团,并将SWISS2PROT 数据库中的蛋白质分成200多个类别,每个类别由1位或2位评审专家负责,通过计算机网络进行审核。ExPASy网站上列出了这些评审专家的姓名、电子邮箱地址和他们所负责评审的蛋白质种类。用户若对某个蛋白质条目有疑问,可以直接和相应的评审专家取得联系。

SWISS2PROT采用了和E M BL核酸序列数据库相同的格式和双字母标识字。这种双字母的标识字对于数据库的管理维护比较方便,但用户在使用时却不很方便,特别对数据库格式不很熟悉的用户,尤为如此。近年来,随着计算机网络和信息技术的发展,ExPASy开发了面向生物学家的、基于浏览器的用户界面,特别是用可视化方式表示氨基酸特征表,使用户对序列特性一目了然,如二硫键、跨膜螺旋、二级结构片段、活性位点等。

另一个常用的蛋白质序列数据库是已知三维结构蛋白质的一级结构序列数据库NR L

-

3D[42](ht2 tp:ΠΠw w https://www.360docs.net/doc/486470040.html,Πpirw w wΠdbinfoΠnrl3d.ht2 ml)。该数据库的序列是从三维结构数据库PDB中提取出来的。除了序列信息外,NR L23D包括二级结构、活性位点、结合位点、修饰位点等与蛋白质结构直接有关的注释信息,对研究蛋白质结构功能关系和同源蛋白分子模型构建特别有用。

4.4 其他蛋白质序列数据库

PIR和SWISS2PROT是创建最早、使用最为广泛的两个蛋白质数据库。随着各种模式生物基因组计划的进展,DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据库T rE M BL是从E M2 BL中的cDNA序列翻译得到的。T rE M BL数据库创建于1996年[39],意为T ranslation of E M BL。该数据库采用SWISS2PROT数据库格式,包含E M BL数据库中所有编码序列的翻译。T rE M BL数据库分两部分: SP2T rE M BL和RE M2T rE M BL。SP2T rE M BL中的条目最终将归并到SWISS2PROT数据库中。而RE M2 T rE M BL则包括其他剩余序列,包括免疫球蛋白、T 细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与T rE M BL类似,G enPept是由G en2 Bank翻译得到的蛋白质序列。由于T rE M BL和G en2 Pept均是由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。

上述几个蛋白质序列数据库可以称为蛋白质序列一次数据库,或基本数据库。它们各有特点。NR L-3D包含已知空间结构的序列,但数据量十分有限;SWISS2PROT的序列经过严格的审核,注释完善,但数据量较小。PIR数据量较大,但包含未经验证的序列,注释也不完善。T rE M BL和G enPept的数据量最大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经实验证实,也没有详细的注释。将上述数据库整合起来,构建复合数据库,或二次数据库,则有利于生物学家的使用。OW L[43]混合蛋白质序列数据库(C om posite pro2 tein sequences databases,http:ΠΠw w w.biochem.ucl.ac. ukΠbsmΠdbbrowserΠOW LΠowlcontents.html)和NRDB[44]就是根据这一原则构建的非冗余蛋白质序列数据库。这两个数据库均是由G enPept、PIR、SWISS2 PROT、NR L-3D等数据库复合而成。为使二次序列数据库中的序列具有较好的代表性,在构建复合数据库时,采取了某些序列取舍的标准,使用了一定的算法,并增加了与其他数据库的交叉引用,在某些方面具有一定的优点。

另外,NC BI在重点发展G enBank的同时,还于1991年开发出Entrez:Sequences(http:ΠΠw w w3.ncbi. nlm.nih.g ovΠEntrezΠ)数据库。该库综合了G enBank、E M BL、PIR和SWISS2PROT等数据库的序列信息和ME D LI NE有关序列的文献信息,因而是具有PIR等数据库所没有的分子序列的文献数据库。它的另一个特点是对于每一个序列或文献,还给出了类似(或同源)的序列或相关文献的信息,因而该库较G en2 Bank等数据库有更丰富的结构、功能和文献信息。

综上所述,蛋白质序列数据库种类繁多,各有特色。表4列出了有关蛋白质数据库的种类和特点。显然,与核酸序列数据库不同,用户在使用蛋白质序

405情 报 学 报21卷 

列数据库时,不能只用其中一个,而必须根据实际情况进行选择,如有可能,则应该尽量选择几个不同的数据库,并对结果加以比较。

表4 蛋白质数据库种类和特点

名称维护单位注释冗余度数据量更新

PIR NC BI、JIPID、MIPS部分完善较大较大较慢SWISS2PROT E BI、SIB完善小不大较慢NRl3D NC BI完善小小较慢TrE M BL E BI、SIB不完善大大快

G enPep NC BI不完善大大快

NRDB E BI一般小大较快OW L HG MP一般小大较慢 本表列出国际上主要蛋白质数据库的种类和特点。表中各项指标为相对数据。如SWISS2PROT几个月发布一个新版,每周发布新增加的数据。

5 生物信息学结构数据库

除了基因组数据库和序列数据库外,生物大分子三维空间结构数据库则是另一类重要的分子生物信息数据库。根据分子生物学中心法则,DNA序列是遗传信息的携带者,而蛋白质分子则是主要的生物大分子功能单元。蛋白质分子的各种功能,是通过不同的三维空间结构实现的。因此,蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分。蛋白质结构数据库是随X射线晶体衍射分子结构测定技术的发展而出现的数据库,其基本内容为实验测定的蛋白质分子空间结构原子坐标。90年代以来,越来越多的蛋白质分子结构被测定,蛋白质结构分类的研究不断深入,出现了蛋白质家族、折叠模式、结构域、回环等数据库。表5列出目前主要的蛋白质结构数据库和信息资源的网址[45]。

5.1 蛋白质三维结构数据库PDB

蛋白质结构数据库(Protein Data Bank,简称PDB)是美国纽约Brookhaven国家实验室于1971年创建的。为适应结构基因组和生物信息学研究的需要,1998年10月由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(Research C ollaboratory for Structural Bioin format2 ics,简称RCS B)。PDB数据库改由RCS B管理[46],目前主要成员为拉特格斯大学(Rutgers University)、圣地亚哥超级计算中心(San Dieg o Supercom puter Cen2 ter,简称S DSC)和国家标准化研究所(National Insti2 tutes of Standards and T echnology,简称NIST)。和核酸序列数据库一样,可以通过网络直接向PDB数据库递交数据。

表5 蛋白质结构数据库资源

名称网址内容

PDBSum http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠbsmΠpdbsumΠPDB数据库综合信息SC OP http:ΠΠhttps://www.360docs.net/doc/486470040.html,ΠscopΠ蛋白质结构分类

C ATH http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠbsmΠcathΠ蛋白质结构分类

T OPS http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠtopsΠ蛋白质拓扑结构

C omPASS http:ΠΠw w https://www.360docs.net/doc/486470040.html,Π~cam passΠ同源蛋白质结构分类H omSTRA

D http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠdataΠalignΠ蛋白结构相似性比较DS MP http:ΠΠhttps://www.360docs.net/doc/486470040.html,.inΠdsm p.html蛋白质结构模体LPFC http:ΠΠw w w2smi.stan https://www.360docs.net/doc/486470040.html,ΠprojectsΠhelixΠLPFCΠ重要蛋白质家族Culled PDB http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠresearchΠlabsΠdunbrackΠculledpdb.html非冗余蛋白质

I M B http:ΠΠw w w.imb2jena.deΠI M AGE.html生物大分子图形

O LDERADO http:ΠΠhttps://www.360docs.net/doc/486470040.html,ΠolderadoΠ蛋白质结构域

Protein S idechain http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠresearchΠlabsΠdunbrackΠsidechain.html蛋白质侧链

SPI N2PP http:ΠΠhttps://www.360docs.net/doc/486470040.html,Πcgi2binΠSPI NΠ蛋白质互作用

LPC http:ΠΠbioin fo.weizmann.ac.il:8500Πoca2binΠlpccsu配体Π蛋白质相互作用HIC2Up http:ΠΠalpha2.bmc.uu.seΠhicupΠPDB中其他化合物

M OOSE http:ΠΠhttps://www.360docs.net/doc/486470040.html,Πm ooseΠ蛋白质结构检索服务器DA LI http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠdaliΠ蛋白质结构比较服务器CEΠC L http:ΠΠhttps://www.360docs.net/doc/486470040.html,Π蛋白质结构比较服务器G RASS http:ΠΠhttps://www.360docs.net/doc/486470040.html,ΠG RASSΠsur fserv-enter.cgi蛋白质结构分析服务器505

4期网上生物信息学数据库资源

PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计, PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒。此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。近年来,核酸三维结构测定进展迅速,PDB数据库中已经收集了800多套核酸结构数据,参见表6(2000年11月统计数据)[47]。

表6 蛋白质结构数据库PDB中不同种类数据统计

分子类型

蛋白质、多肽、病毒蛋白质Π核

酸复合物

核酸多糖总和

方法

X2衍射102834945421411333 NMR17346834842154理论模型26519180302总数122825819081813789

PDB数据库允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索,可检索的字段包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。用户不仅可以得到生物大分子的各种注释、坐标、三维图形、VAM L等,并能从一系列指针连接到与PDB 有关的数据库,包括SC OP,C ATH,Medline,E NZY ME, SWISS23DI MAGE等。可通过FTP下载PDB数据。所有的PDB文件均有压缩和非压缩版以适应用户传输需要。PDB的电子公告版BBS和电子邮件兴趣小组(Mailing List)为用户提供了交流经验和发布新闻的空间。在PDB的服务器上还提供与结构生物学相关的多种免费软件如Rasm ol,Mage,PDB Browser,3DB Brower等。

PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。除了原子坐标外,还包括物种来源、化合物名称、结构递交以及有关文献等基本注释信息。此外,还给出分辨率、结构因子,温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。因为PDB数据库以文本文件格式存放,故可以用文字编辑软件查看。显然,用文字编辑软件查看注释信息不太方便,更无法直观地了解分子的空间结构。RCS B开发的基于Web的PDB数据库概要显示系统,只列出主要信息。用户如须进一步了解详细信息,或查询其他蛋白质结构信息资源,可点击该页面左侧窗口中的按钮。此外,英国伦敦大学开发的PDBsum(http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠbsmΠpdbsumΠ)数据库[48]是基于网络的PDB注释信息综合数据库,用于对PDB数据库的检索,使用十分方便。它将RasM ol、C N3D等分子图形软件综合在一起,同时具有分析和图形显示功能。

需要说明的是,与E M BL和PIR等序列数据库一样,结构数据库PDB也属于一次数据库,其中包括许多冗余的数据,乃至错误。PDBCheck合作研究组对PDB数据库进行了全面的检验,并把结果存放在PDBReport数据库中,用户在使用PDB数据库中的某个文件时,可先查阅该数据库。

5.2 蛋白质三维结构分类数据库SCOP和CATH

蛋白质结构分类是蛋白质结构研究的一个重要方向。蛋白质结构分类数据库,是三维结构数据库的重要组成部分。蛋白质结构分类可以包括不同层次,如折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。已经上网的蛋白质分类数据库很多,主要有SC OP和C ATH。

蛋白质三维结构分类数据库[49,18](Structural Classification of Proteins,简称SC OP)(http:ΠΠscop.mrc2 https://www.360docs.net/doc/486470040.html,Πscop),是英国医学研究委员会(MRC)分子生物学实验室和蛋白质工程中心开发的基于Web的蛋白质结构数据库分类、检索和分析系统[50],是所有已知结构的蛋白质依据三维折叠模式和进化关系划分的结构分类库。目前在蛋白质的研究中,三维结构的描述和分类非常活跃,所以,SC OP 是各类蛋白质数据库中非常热的网点,其访问的频率明显超过PDB。SC OP数据库将计算机程序自动检测和人工验证结合起来,将PDB数据库中的蛋白质按传统分类方法分成a型、b型、aΠb型(a螺旋和b 折叠交替出现)、a+b型(a螺旋和b折叠连续出现),并将多结构域蛋白、膜蛋白和细胞表面蛋白、小蛋白单独分类,一共分成7大类型,并在此基础上,按折叠类型、超家族、家族三个层次逐级分类,如表7所示。例如,蜘蛛毒素(虎纹捕鸟蛛毒素Huwentox2 in2I)在SC OP数据库中的分类为:小蛋白类、knottins

605情 报 学 报21卷 

折叠类型、w2毒素类超家族、蜘蛛毒素家族。对于具

有不同种属来源的同源蛋白家族,SC OP数据库按种属名称将它们分成若干子类,一直到蛋白质分子的亚基。

表7 SCOP数据库分类统计

种类折叠类型超家族家族

α型127186278

β型87154243

αΠβ型92147300

α+β型159224330

多结构域蛋白232330

膜蛋白、细胞表面蛋白101618

小蛋白507097

总数5488201296

SC OP提供两种检索途径:(1)按结构分类树进行搜索。SC OP把蛋白质在结构上分成5个层次: Class,F old,Superfamily,Family及Protein。其中Class 包括α,β,α+β,αΠβ等10大类。(2)关键词检索。这两种检索方式除得到蛋白质的结构分类外,还能得到SWISS23DI MAGE,RasM olScript,Chimeview,NC BI Entrez Sequence Entries,PDB,Nucleic Acid Databases, Protein M otion Database等相关信息。

C ATH(Class,Architecture,T opology and H om olo2 g ous superfamily,简称C ATH)(http:ΠΠw w w.biochem. https://www.360docs.net/doc/486470040.html,ΠbsmΠcathΠ)是另一个著名的蛋白质分类数据库,其含义为类型(Class)、构架(Architecture)、拓扑结构(T opology)和同源性(H om ology),它由英国伦敦大学(University C ollege London)开发和维护[51]。与SC OP数据库一样,C ATH数据库的构建既使用计算机程序,也进行人工检查。C ATH数据库的分类基础是蛋白质结构域。与SC OP不同的是,C ATH把蛋白质分为4类,即a为主类、b为主类,a2b类和低二级结构类。显然,它把aΠb型和a+b型归为一类。低二级结构类则是指二级结构成分含量很低的蛋白质分子。

SWISS23DI MAGE(Database of annotated3D imag2 es)(http:ΠΠexpasy.hcuge.chΠpubΠgraphicsΠ)是注释的蛋白质三维图像数据库[52],是能够清楚表现蛋白质的空间特性、活性位点、作用机制、与其他分子的结合模式的图像库。

6 生物信息学二次数据库

基因组数据库、序列数据库和结构数据库是最基本、最常用的分子生物信息学数据库。以基因组、序列和结构数据库为基础,结合文献资料,研究开发更具特色、更便于使用的二次数据库,或专用数据库信息系统,已经成了生物信息学研究的一个重要方面。随着互联网技术的发展和普及,这些数据库多以Web界面为基础,不仅具有文字信息,而且以表格、图形、图表等方式显示数据库内容,并带有超文本链接。从用户角度看,许多二次数据库实际上就是一个专门的数据库信息系统。二次数据库和一次数据库之间,其实并没有明确的界限。G DB和AceDB基因组数据库、SC OP和C ATH结构分类数据库,无论从内容还是用户界面看,实际上都具有二次数据库的特色。即使是最基本的蛋白质序列数据库SWISS2PROT,也已经增加了许多与其他数据库的交叉索引。蛋白质分析专家系统ExPASy提供的SWISS2PROT浏览网页,同样具有表格、图形等功能。

6.1 基因组生物信息学二次数据库

网上有各类基因组生物信息学二次数据库,法国巴斯德研究所构建的大肠杆菌基因组数据库(ht2 tp:ΠΠgenolist.pasteur.frΠC olibriΠ)就是基因组二次数据库的一个实例。该数据库除了具有浏览、检索和数据库搜索(BA LSTΠFAST A)功能外,还将大肠杆菌基因组用环形图表示,点击图中某个区域,就会显示该区域基因分布图。也可以用键盘输入起始位置和序列长度检索,使用十分方便。有关大肠杆菌和其他已经完成全序列测定的细菌基因组的二次数据库还有很多。巴斯德研究所还开发了枯草杆菌基因组数据库。

德国生物工程研究所开发的真核生物基因调控转录因子数据库T ransFac(T ranscription factor data2 base)(http:ΠΠtrans fac.gbf.deΠTRANSFACΠ)[122]是一个比较完善的二次数据库,包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核甘酸分布6个子库。该二次数据库始建于1988年,采用关系数据库模式,用表格存放数据。1997年起,基于Web 的版本开始上网,北京大学生物信息中心建有镜象。目前,该数据库正在进一步开发,如构建各种转录因子在不同细胞组织中的表达特异性数据库等[2]。

705

4期网上生物信息学数据库资源

6.2 蛋白质序列二次数据库

蛋白质序列二次数据库的问世已经有几年的历史。PROSITE(Protein Sites and Patterns Database)(ht2 tp:ΠΠw w w.expasy.chΠprositeΠ)数据库是第一个蛋白质序列二次数据库,90年代初期开始构建,现由瑞士生物信息学研究所SI B维护[6]。它是蛋白质活性位点和模式的数据库,包含了与蛋白质功能直接相关的序列。

PROSITE数据库[6~7]是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这样区域通常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。因此,PROSITE数据库实际上是蛋白质序列功能位点活性位点和模式数据库。通过对PROSITE数据库的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。PROSITE数据库实际上包括两个数据库文件,一个为数据文件即PROSITE,另一个为说明文件PROSITE D oc。文件PROSITE的格式与SWISS2PROT 数据库格式类似,使用“I D”、“AC”等双字母识别字。识别字DE行表明这是细菌组蛋白类DNA结合蛋白,识别字PA行给出其功能位点的序列模式:

[G SK]-F-x(2)-[LI VMF]-x(4)-[RKE QA] -x(2)-[RST]-x-[G A]-x-[K N]-P-x-T.

这里,方括号中为可选残基,如第一个方括号[G SK]中3个残基中甘氨酸G、丝氨酸S和赖氨酸L 中的任意一个均可出现。x(2)表示可以有两个任意残基。因此,序列片段G Fxx LxxxxRxxRxG xK PxT是其中一种可能的模式。识别字DR行是PROSITE数据库代码索引,即P02347等几十个蛋白质序列都具有这种模式;而识别字3D则为PDB数据库代码索引,即1H UE等3个蛋白质分子的三维结构含这种序列模式。识别字DO行给出PrositeD oc说明文件中相应的代码PDOC00044。PrositeD oc说明文件中给出该序列模式的生物学功能及其文献资料来源。

PROSITE数据库基于多序列比较得到的单一保守序列片段,或称序列模体。除PROSITE外,蛋白质序列二次数据库还有蛋白质序列指纹图谱数据库PRI NTS[8~10]、蛋白质序列模块数据库Blocks[13~15]、蛋白质序列家族数据库P fam[11~12]、蛋白质序列概貌数据库Profile、蛋白质序列识别数据库Identify等,如表8所示。

表8 蛋白质序列二次数据库

名称数据来源网址特点

PROSITE SWISS2PROT http:ΠΠw w w.expasy.chΠprositeΠ正则表达式

PRI NTS OW L http:ΠΠw w w.bioin https://www.360docs.net/doc/486470040.html,ΠdbbrowserΠPRI NTSΠ多序列比对所得保守序列片段Blocks PrositeΠPrints http:ΠΠw w https://www.360docs.net/doc/486470040.html,Π多序列比对所得保守序列模块P fam SWISS2PROT http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠS oftwareΠP famΠ隐马氏模型

Profiles SWISS2PROT http:ΠΠw w w.isrec.isb2sib.chΠs oftwareΠPFSC AN-form.html权重矩阵

Identify BlocksΠPrints http:ΠΠdna.stan https://www.360docs.net/doc/486470040.html,ΠidentifyΠ模糊正则表达式

这些数据库的共同特点是基于多序列比对,它们的不同之处是处理比对结果的原则和方法, PRI NTS和Blocks利用了序列中的多重保守片段, Profiles着眼于构建序列概貌库,而P fam采用了隐马氏模型,Identify则利用模糊正则表达式的概念。应该说,这些方法各有一定的特色。

从某种意义上说,蛋白质序列二次数据库实际上也是蛋白质功能数据库,因为从这些数据库中,可以得到有关蛋白质功能、家族、进化等信息。

6.3 蛋白质结构二次数据库

蛋白质结构数据库PDB主要存放原子坐标,属于一次数据库。早在80年代,就已经出现了从PDB 数据库的坐标数据中提取信息的程序,并在此基础上构建了蛋白质二级结构构象参数数据库(Defini2 tion of Secondary Structure of Proteins,简称DSSP)。DSSP[17]数据库根据PDB中的原子坐标,计算每个氨基酸残基的二级结构构象参数,包括氢键、主链和侧链二面角、二级结构类型等。90年代以来,随着PDB数据库数据量的增长,出现了许多蛋白质分类数据库。FSSP[18~19](Database of Families of Structurally Similiar Proteins)(http:ΠΠw w w.sander.embl2heidelberg. deΠdaliΠfsspΠ)是具有相似结构蛋白质家族的数据库,它把PDB数据库中的蛋白质通过序列和结构比对

805情 报 学 报21卷 

进行分类,通过三维结构对比,得到用一维同源序列对比无法获得的结构相似性。库中列出了相似PDB 结构的三维结构对比参数,并给出了序列同源性、二级结构、变化矩阵等结构叠合信息。与DSSP和FSSP相关的另一个蛋白质结构数据库是同源蛋白数据库(H om ology Derived Secondary Structure of Pro2 teins,简称HSSP)[20~21]。它是将已知结构的PDB的蛋白质与SWISS2PROT进行序列对比的数据库,对于未知结构蛋白的同源比较很有帮助。该数据库不但包括已知三维结构的同源蛋白家族,而且包括未知结构的蛋白质分子,并将它们按同源家族分类。这3个蛋白质结构二次数据库为蛋白质分子设计、蛋白质模型构建和蛋白质工程等研究提供了很好的信息资源和工具。

除了DSSP、FSSP、HSSP外,还有其他许多不同种类和层次的蛋白质结构二次数据库,如蛋白质结构域分配数据库、蛋白质回环分类数据库Protein Loop Classification(http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠloopΠ)等。

酶学数据库E NZY ME[22](Enzyme Data Bank)(ht2 tp:ΠΠw w w.expasy.chΠsprotΠenzyme.html)也是二次数据库,包括EC号、建议的命名、活性、别名、与之相关的疾病、辅助因子及SWISS2PROT和PROSITE的指针。

7 生物信息学数据库的集成系统

生物信息学数据库覆盖面广,分布分散且格式不统一,如何将各自的、独立的、分散的生物信息学数据库的信息整合到一起来,是目前生物信息学数据库研究领域的新的挑战。生物信息学数据库设计中出现了向整合发展的新潮流,如将多种图谱、数据整合到一个数据库中,在数据库中还提供众多的通向其他网络数据库的途径,以实现多功能、复合、开放的新型数据库系统。集成化还包括将数据库与数据分析软件整合,在新型的数据库系统中提供丰富的数据分析软件,为研究者分析利用数据提供方便。因此一些生物计算中心将多个数据库整合在一起,提供综合服务。如SRS序列检索系统(Sequence Re2 trieval System)(http:ΠΠhttps://www.360docs.net/doc/486470040.html,Π)是E BIΠE M BL在WWW服务器上开发的功能十分强大的序列数据库检索系统,能够检索45个核酸和蛋白质序列数据库、三维结构库、基因数据库及其他生物信息学数据库。这些数据库已经链接整合在一起,一个数据库的记录很可能与其他数据库有交互参考的关系。通过这些数据库文件中的超级链接就能很方便地从不同数据库跳跃以选择浏览。SRS数据库可用布尔逻辑AND、OR或BUT NOT连接起来进行复合检索,是一个比较好的集成生物信息学数据库检索系统。

另外,PDB3DBBrowser(http:ΠΠpdb.weizmann.ac. ilΠpdb2binΠpdbmain)也是一个数据库集成系统,可以接受各种关键词的查询,还具备字典功能和FAST A 序列搜索功能,用户不仅可以得到生物大分子的各种注释、坐标、三维图形、VRM L等,并能从一系列指针连接到SC OP、C ATH、Medline、E NZY ME、S wiss23Di2 mage等。

8 国内生物信息学数据库

研究现状、问题与前景

生物信息学是一门对已有数据进行研究和理解的学科。随着生物信息学数据库中数据量的飞速增长,基于数据库的研究工作必将有所突破。如蛋白质的结构预测目前虽仍无法解决,但随着PDB中数据的大量增加,解决此难题必会有重大进展。我国在生物信息学数据库的收集与提供方面也开展了研究,北京大学物理化学研究所于1996年建立了国内第一家生物信息学网络服务器,建成了PDB、SC OP、E M BL、SWISS2PROT等多个著名生物信息学数据库的镜像服务器以及其他的多种生物信息资源,其中E M BL、SWISS2PROT和PDB已经做到与国际数据中心同步更新[53]。中国科学院生物物理所与日本J IP2 I D合作,收集我国科学家测定的DNA和蛋白质序列数据并与国际相应数据库进行交流。还有中国医学科学院肿瘤研究所建立的NEE2H OW服务器等[54]。依托复旦大学生命科学院的上海博容基因开发有限公司,新近建成了我国第一个人类基因数据库。该数据库可直接从基因测序设备上自动采集基因数据,并通过一系列工具软件进行基因序列拼接、同源基因比较、蛋白分析、染色体定位,能够方便地进行基因的“电子克隆”,并能调集国内外关于某基因研究的各种信息,为每条基因自动生成一个内容丰富的“档案”。它不仅可向研究人员提供某条基因的详尽信息,而且还可为研究人员筛选有重要药物开发价值的基因,为基因诊断、基因治疗研究与开发提供靶基因[55]。

生物信息学的特点是投资少、见效快、效益大,适合于我国的现实条件。从英特网上源源不断地采

905

4期网上生物信息学数据库资源

集数据,进行分析、归类与重组,发现新线索、新现象和新规律,用以指导实验工作的设计,这是一条既快又省的科研路线,可避免不必要的重复劳动,少走弯路,提高我国生物科学的研究水平。目前我国在生物信息学数据库研究中有两点特别要引起重视:一是构建我国自己的生物信息学数据库;开展分布式智能型数据库研究,以形成更加智能的、互相联系的、容易访问的分子生物学数据库的新型计算机和新算法,这必将有助于对生物语言学的深刻理解。二是与国际常用数据库的有效连接和及时更新。在获得完全的序列和基因组成为可能以后,如何分析、解释和可视化基因组序列的数据又提出了新的挑战,应尽快将各自的、独立的、分散的生物信息学数据库信息整合到一起来,建成一个生物信息大构架(Bioinformation in frastructure)。以太平洋地区为中心的世界各国应协力合作,创作出一个共享的生物信息大构架,为生物计算和生物信息学资源的用户提供高质量的服务,此中的重点自然是如何向发展中国家的那些难以利用生物计算和生物信息学服务的研究组织提供周到的技术支持[56]。在建设自己的生物信息学数据库中应注意以下几个方面:一是建立生物信息的评估与检测系统,二是数据的标准化,三是进行生物信息的可视化和专家系统的研究,四是发展二级与专业数据库。在原始数据的基础上,根据不同的特征将其加工而构建出若干高级数据库,这不仅会给用户带来很多方便,更重要的是专业人员注入的知识会对用户有很大的启发。可以相信,随着人类基因组计划的即将完成以及生物信息学研究的逐步开展,生物信息学在揭示生命的奥秘中会更加成熟和完善,生物信息学科也将随之得到巨大发展。

参考文献

1 Wingender E.The TRANSFAC system on gene regulation.

T rends in G lycoscience and G lycotechnology,2000,12(66):

255~264

2 Wingender E,Chen X,Hehl R,et al.TRANSFAC:an inte2 grated system for gene expression regulation.Nucleic Acids

Research,2000,28(1):316~319

3 Perier RC,Praz V,Junier T,Bonnard C,Bucher P.The Eu2 kary otic Prom oter Database(EPD).Nucleic Acids Research,

2000,28(1):302~303

4 Perier RC,Junier T,Bonnard C,Bucher P.The Eukary otic Prom oter Database(EPD):recent developments.Nucleic Ac2

ids Research,1999,27(1):307~3095 Seluja G A,Farmer A,McLeod M,Harger C,Schad PA.Es2 tablishing a method of vector contamination identification in database sequences.Bioin formatics,1999,15(2):106~110 6 H ofmann K,Bucher P,Falquet L,Bairoch A.The PROSITE database,its status in1999.Nucleic Acids Research,1999, 27(1):215~219

7 Lin KY,Wright J,Lim C.C on formational analysis of long spacers in PROSITE patterns.Journal of M olecular Biology, 2000,299(2):537~548

8 Attw ood TK,Croning M DR,Flower DR.PRI NTS2S:the data2 base formerly known as PRI NTS.Nucleic Acids Research 2000,28(1):225~227

9 Scordis P,Flower DR,Attw ood TK.Finger.PRI NTS can: intelligent searching of the PRI NTS m otif database.Bioin for2 matics,1999,15(10):799~806

10 Attw ood TK,Beck ME,Flower DR,Scordis P,Selley J.The PRI NTS protein fingerprint database in its fifth year.Nucleic Acids Research,1998,26(1):304~308

11 S onnhammer E LL,Eddy SR,Birney E,Bateman A,Durbin R.P fam:multiple sequence alignments and H M M2profiles of protein domains.Nucleic Acids Research,1998,26(1):320~322

12 Bateman A,Birney E,Durbin R,Eddy SR,H owe K L, S onnhammer E LL.The P fam protein families database.Nu2 cleic Acids Research,2000,28(1):263~266

13 Henikoff S,Pietrokovski S,Henikoff J G.Superior per formance in protein hom ology detection with the Blocks Database serv2 ers.Nucleic Acids Research,26(1):309~312

14 Henikoff J G,G reene E A,Pietrokovski S,Henikoff S.In2 creased coverage of protein families with the Blocks Database servers.Nucleic Acids Research,2000,28(1):228~230 15 Henikoff J G,Henikoff S,Pietrokovski S.New features of the blocks database servers.Nucleic Acids Research,1999,27

(1):226~228

16 Ohns on G,Wu TT.K abat Database and its applications:30 years after the first variability plot.Nucleic Acids Research, 2000,28(1):214~218

17 H ooft RWW,Sander C,Schar f,M,Vriend,G.The PD2 BFI NDER database:A summary of PDB,DSSP and HSSP in2 formation with added value.C om puter Applications in the Bio2 sciences,1996,12(6):525~529

18 Hadley C,Jones DT.A systematic com paris on of protein struc2 ture classifications:SC OP,C ATH and FSSP.S tructure With

F olding&Design,1999,7(9):1099~1112

19 H olm L,Sander C.DaliΠFSSP classification of three2dimen2 sional protein folds.Nucleic Acids Research,1997,25(1): 231~234

20 D odge C,Schneider R,Sander C.The HSSP database of pro2

015情 报 学 报21卷 

tein structure sequence alignments and family profiles.Nucleic Acids Research,1998,26(1):313~315

21 Schneider R,deDaruvar A,Sander C.The HSSP database of protein structure2sequence alignments.Nucleic Acids Re2 search,1997,25(1):226~230

22 Bairoch A.The E NZY ME database in2000.Nucleic Acids Research,2000,28(1):304~305

23 R oberts R J,Macelis D.RE BASE2restriction enzymes and methylases.Nucleic Acids Research,2000,28(1):306~307

24R oberts R J,Macelis D.RE BASE2restriction enzymes and methylases.Nucleic Acids Research,1999,27(1):312~313

25 Dicks J,Anders on M,Cardle L,Cartinhour https://www.360docs.net/doc/486470040.html, CropNet:

a collection of databases and bioin formatics res ources for crop

plant genomics.Nucleic Acids Research,2000,28(1):104~107

26 Cuticchia A.J.Future Vision of the G DB Human G enome Da2 tabase.Human Mutation,2000,15(1):62~67

27 S tein LD,Thierry2M ieg J.AceDB:A genome database man2 agement system.C om puting in Science&Engineering,1999, 1(3):44~52

28 Walsh S,Anders on M,Cartinhour SW.ACE DB:A database for genome in formation.Bioin formatics,1998,39:299~318 29 Pruitt K D.WebWise:G uide to the Institute for G enomic Re2 search Web site.G enome Research,1998,8(10):1000~1004

30 Harger C,Chen G,Farmer A,Huang,W.The G enome Se2 quence DataBase.Nucleic Acids Research,2000,28(1):31~32

31 G elbart W M,Crosby M,Matthews B,et al.The Fly Base da2 tabase of the Dros ophila genome projects and community litera2 ture.Nucleic Acids Research,1999,27(1):85~88

32 G elbart W M,Crosby M,Matthews B,Rindone WP.Fly Base:

a Dros ophila database.Nucleic Acids Research,1998,26

(1):85~88

33 Baker W,van den Broek A,Cam on E,Hingam p P,S terk P, S toesser G,Tuli M A.The E M BL Nucleotide Sequence Data2 base.Nucleic Acids Research,2000,28(1):19~23

34 Bens on DA,K arsch2M izrachi I,Lipman D,Ostell J,Rapp BA,Wheeler D L.G enBank.Nucleic Acids Research,2000, 28(1):15~18

35 Bens on DA,Boguski MS,Lipman D J,Ostell J,Ouellette BFF,Rapp BA,Wheeler D L.G enBank.Nucleic Acids Re2 search,1999,27(1):12~17

36 T ateno Y,M iyazaki S,Ota M,Sugawara H,G ojobori T.DNA Data Bank of Japan(DDB J)in collaboration with mass se2 quencing teams.Nucleic Acids Research,2000,28(1):24~

26

37 Barker WC,G aravelli JS,Huang H,et al.The Protein In for2 mation Res ource(PIR).Nucleic Acids Research,2000,28

(1):41~44

38 McG arvey P B,Huang HZ,Barker WC,Orcutt BC.PIR:a new res ource for bioin formatics.Bioin formatics,2000,16

(3):290~291

39 Bairoch A,Apweiler R.The SWISS2PROT protein sequence database and its supplement T rE M BL in2000.Nucleic Acids Research,2000,28(1):45~48

40 Magrane M,Apweiler R.Mus musculus in the SWISS2PROT database:I ts relevance to developmental research.G enesis, 2000,26(1):1~4

41 Junker V,C ontrino S,Fleischmann W,Hermjakob H,Lang F,Magrane M.The role SWISS2PROT and T rE M BL play in the genome research environment.Journal of Biotechnology, 2000,78(3)

42 Namboodiri K,Pattabiraman N,Lowrey A,G aber B,G eorge DG,Barker WC.NR L23D2A Sequence2S tructure Database.

Biophys Journal,1990,57:A406

43 Bleasby A J,Akrigg D,Attw ood TK.OW L2a non2redundant, com posite protein sequence database.Nucleic Acids Re2 search,1994,22(17):3574~3577

44 H olm L,Sander C.Rem oving near2neighbour redundancy from large protein sequence collections.Bioin formatics,1998,14

(5):423~429

45 M olecular Biology Servers,Databases,and Web S ites of Inter2 est.http:ΠΠhttps://www.360docs.net/doc/486470040.html,ΠpdbΠweb2interest.html

46 Berman H M,Westbrook J,Feng Z,G illiland G,Bhat T N, Weissig H,Shindyalov I N,Bourne PE.The Protein Data Bank.Nucleic Acids Research,2000,28(1):235~242.

47 PDB H oldings List:282N ov22000.http:ΠΠw w https://www.360docs.net/doc/486470040.html,ΠpdbΠholdings.html

48 Laskowski RA,Hutchins on EG,M ichie AD,Wallace AC, Jones M L,Thornton JM.PDBsum:a Web2based database of

summaries and analyses of all PDB structure.T rends in Bio2 chemical Sciences,1997,22:488~490

49 Lo C onte L,Ailey B,Hubbard T J P,Brenner SE,Murzin AG, Chothia C.SC OP:a S tructural Classification of Proteins data2 base.Nucleic Acids Research,2000,28(1):257~259

50 Murzin AG,Brenner SE,Hubbard T,Chothia C.SC OP:a structural classification of proteins database for the investiga2 tion of sequences and structures.J.M ol.Biol.1995,247: 536~540

51 Oreng o C A,M ichie AD,Jones S,Jones DT,S windells M B, Thornton JM.C ATH2a hierarchic classification of protein do2 main structures.S tructure,1997,5(8):1093~1108

52 Peitsch MC,Wells T NC,S tam pf DR,Sussman JL.The

115

4期网上生物信息学数据库资源

SWISS23DI M AGE collection and PDB2BROWSER on the w orldwide Web.T rends in Biochemical Sciences,1995,20

(2):82~84

53 李维忠,王任小,林大威等.国内外生物信息学数据库服务新进展.生物化学与生物物理进展,1999,26(1): 22~26

54 陈润生.当前生物信息学的重要研究任务.生物工程进展,1999,19(4)

55 中国首个人类基因数据库在沪建.中国神经科学杂志,

2000,16(2):143

56 http:ΠΠw w w.cgl.ucs https://www.360docs.net/doc/486470040.html,ΠpsbΠsessionsΠpacific.html

57 万跃华.网上免费的生物信息学数据库.图书馆通讯, 1999,1.http:ΠΠ210.32.205.34ΠlibcommuΠtstxbb2.htm

58 万跃华.请免费使用各类基因组数据库.图书馆通讯, 2000,2.http:ΠΠ210.32.205.34ΠlibcommuΠtstxdd2.htm

(责任编辑 许增棋)

全国情报学正式期刊2003年联合征订目录

国内统一刊号邮发

代号

刊 名

单价

(元)

地 址

C N112

3596ΠG3

82222情报资料工作双月801316100007北京张自忠路3号

C N112

1541ΠG2

22412图书情报工作月1281216100080北京中关村北四环西路33号

C N112 1762ΠG3822436情报理论与实践

961216100089北京2413信箱

C N112 2257ΠG3822153情报学报

1281810100038北京复兴路15号

C N112 2856ΠG2822421现代图书情报技术

961610100080北京中关村北四环西路33号

C N112

3526ΠG3

22653中国信息导报月648100100045北京西城区三里河路54号

C N112 3456ΠTF 822804冶金信息导刊

481510100730北京东城区灯市口大街74号

C N612

1167ΠG3

522117情报杂志月1041018710054西安雁塔路南段11号C N222

1264ΠG3

122174情报科学月1121010130022长春市人民大街142号C N222

1182ΠG3

122124现代情报月1761010130021长春市人民大街132号

C N112 2711ΠG2自发农业图书情报学刊

801010100081北京中关村南大街12号

C N232 1331ΠG2142162图书馆建设

1121010150008哈尔滨市文昌街48号

C N112 2927ΠR 22664医学情报工作

641010100020北京朝阳区雅宝路3号

C N422 1085ΠG2382108图书情报知识

961210430072武汉市珞珈山武汉大学信息管理学院

215情 报 学 报21卷 

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.360docs.net/doc/486470040.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 :用蛋白质序列查找核苷酸序列。 :STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 :表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 :生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学简介范文

1、简介 生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 生物信息学是一门利用计算机技术研究生物系统之规律的学科。 目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。 1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的? 生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。 生物信息学的主要研究方向:基因组学- 蛋白质组学- 系统生物学- 比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。 2、发展简介 生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测

生物信息学数据库或软件

一、搜索生物信息学数据库或者软件 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。 核酸序列数据库有GenBank,EMBL,DDB等,核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank ,欧洲分子生物学实验室的EMBL-Bank(简称EMBL),日本遗传研究所的DDBJ 蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等, 蛋白质片段数据库有PROSITE,BLOCKS,PRINTS等, 三维结构数据库有PDB,NDB,BioMagResBank,CCSD等, 与蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等, 与基因组有关的数据库还有ESTdb,OMIM,GDB,GSDB等, 文献数据库有Medline,Uncover等。 另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。 二、搜索生物信息学软件 生物信息学软件的主要功能有: 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间; 提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能; 蛋白高级结构预测。 如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引物设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三维分子浏览工具等等。 NCBI的网址是:https://www.360docs.net/doc/486470040.html,。 Entrez的网址是:https://www.360docs.net/doc/486470040.html,/entrez/。 BankIt的网址是:https://www.360docs.net/doc/486470040.html,/BankIt。 Sequin的相关网址是:https://www.360docs.net/doc/486470040.html,/Sequin/。 数据库网址是:https://www.360docs.net/doc/486470040.html,/embl/。

生物信息学基本知识

1.DNA:遗传物质(遗传信息的载体) 双螺旋结构,A,C,G,T四种基本字符的复杂文本 2.基因(Gene):具有遗传效应的DNA分子片段 3.基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组 OR一个物种中所有基因的整体组成 4.人类基因组:3.0×109bp模式生物 5.HGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。 6.HGP的终极目标 阐明人类基因组全部DNA序列; 识别基因; 建立储存这些信息的数据库; 开发数据分析工具; 研究HGP实施所带来的伦理、法律和社会问题。 7.遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。 遗传图谱的建立为基因识别和完成基因定位创造了条件。 8.遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示。 9.物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。 10.转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11.序列图谱:随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。 DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱 12.大规模测序基本策略 逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划) 全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司) 13.基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。 基因识别包括: 识别基因组编码区 识别基因结构 基因识别目前常采用的有二种方法: 从基因组序列中识别那些转录表达的DNA片段 从cDNA文库中挑取并克隆。 14.基因组多态性(Polymorphism):是指在一个生物群体中,同时和经常存在两种或多种不连续的变异型或基因型(genotype)或等位基因(allele),亦称遗传多态性(genetic

生物信息学基本分析

核酸序列的基本分析 运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit(版本7.0.5.3)软件对基因做酶切谱分析。 碱基同源性分析 运用NCBI信息库的BLAST程序对基因进行碱基同源性分析(Translated query vs.protien database(blastx))网站如下:https://www.360docs.net/doc/486470040.html,/BLAST/ 参数选择:Translated query-protein database [blastx];nr;stander1 开放性阅读框(ORF)分析 利用NCBI的ORF Finder程序对基因做开放性阅读框分析,网址如下: https://www.360docs.net/doc/486470040.html,/projects/gorf/orfig.cgi 参数选择:Genetic Codes:1 Standard 对蛋白质序列的结构功能域分析 运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对基因的ORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。 网址如下:http://smart.embl-heidelberg.de/ 运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析 参数选择:Search Database:CDD v2.07-11937PSSM Expect:0.01 Filter:Low complexity Search mode:multiple hits 1-pass 同源物种分析 用DNAMAN软件将蛋白质序列相关基因序列比对,根据结果绘出系统进化树,并进行分析。 蛋白质一级序列的基本分析 运用BioEdit(版本7.0.5.3)软件对基因ORF翻译的蛋白的一些基本性质,对分子量、等电点、氨基酸组成等作出分析。 二级结构和功能分析 信号肽预测 利用丹麦科技大学(DTU)的CBS服务器蛋白质序列的信号肽(signal peptide)预测,进入Prediction Serves 页面。 网址如下:http://www.cbs.dtu.dk/services/SignalP/ 参数选择: Eukaryotes;Both;GIF (inline);Standard; 疏水性分析 利用瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)的ExPASy服务器上的ProtScale程序对ORF 翻译后的氨基酸序列做疏水性分析 网址如下: https://www.360docs.net/doc/486470040.html,/cgi-bin/protscale.pl 参数选择:

生物信息学复习题及答案

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

生物信息学基础知识

分子生物学基础知识太仓生命信息研究所 2011-7

前言 本文仅适用于对非生物专业的员工进行基础知识普及。如有深入学习的要求,请选用正规权威教材。 本教材以蛋白质、DNA、RNA、复制、转录和翻译为主要讲解内容,目的是帮助员工理解在工作中会遇到的常见生物学概念及术语 目录 前言 (2) 目录 (2) 蛋白质 (3) 1. 什么是蛋白质 (3) 2. 蛋白质的3D结构 (5) DNA (7) 1. DNA的组成—4种碱基 (7) 2. DNA的复制 (8) 3. DNA转录为RNA (9) 4. mRNA翻译成氨基酸序列 (11)

蛋白质 1.什么是蛋白质 蛋白质是由20中基本氨基酸链接而成的,生物体的大部分是有蛋白质构成的。每种氨基酸由4部分组成:碳原子C,羧基coo-,氨基H3N和R group。 20中氨基酸按照不同的排列和不同的长度,就形成了蛋白质。不同的R group把氨基酸分为5类: 无极性脂肪类R Group:

芳香类R Group 有极性,无电荷R Group

正电荷R Group 负电荷R Group 2.蛋白质的3D结构 氨基酸链在三维空间里呈现出一定的结构。各个氨基酸分子于相邻的氨基酸之间有氢键连接。 一级结构:氨基酸的排列顺序,可以用氨基酸的缩写在书面上表达。 氨基和羧基之间的氢键使得单个的氨基酸分子能够链接起来。

二级结构:单条氨基酸链所形成的2D形态。常见的有Alpha helix Beta sheet。 Alpha helix:氨基酸分子按顺时针或逆时针的方向螺旋上升。 Beta sheet:多条氨基酸分子链并列在一起。 三级结构:氨基酸链在各个方向的形态综合在一起。

生物信息学基本知识

1. DNA: 遗传物质(遗传信息的载体)à双螺旋结构,A, C, G, T四种基本字符的复杂文本 2. 基因(Gene):具有遗传效应的DNA分子片段 3. 基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组 OR 一个物种中所有基因的整体组成 4. 人类基因组:3.2×109 bp 5.HGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。 6.HGP的终极目标 阐明人类基因组全部DNA序列; 识别基因; 建立储存这些信息的数据库; 开发数据分析工具; 研究HGP实施所带来的伦理、法律和社会问题。 7.遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。 遗传图谱的建立为基因识别和完成基因定位创造了条件。 8. 遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示。 9. 物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。 10. 转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11. 序列图谱:随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。 DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱 12. 大规模测序基本策略 逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划) 全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司) 13. 基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。 基因识别包括: 识别基因组编码区 识别基因结构 基因识别目前常采用的有二种方法: 从基因组序列中识别那些转录表达的DNA片段 从cDNA文库中挑取并克隆。 14. 基因组多态性(Polymorphism):是指在一个生物群体中,同时和经常存在两种或多种不连续的变异型或基因型(genotype)或等位基因(allele),亦称遗传多态性(genetic

生物信息学常用工具

常用DNA和蛋白质序列数据分析工具: ●序列比对工具: a)BLAST: ●网络比对,包括基础的Blast比对、参数、特殊Blast如PSI-Blast、Blast2 等; ●本地比对,包括程序下载、安装、数据库的下载及格式化、Blast程序的 运行等。 b)多序列比对ClustalX(Windows系统) 包括程序下载、安装、及程序的运行、结果的输入输出等。 ●真核生物基因结构的预测: a)基因可读框的识别: Genescan; CpG岛、转录终止信号和启动子区域预测; CpGPlot; POLYAH; PromoterScan; b)基因密码子偏好性: CodonW; c)采用mRNA序列预测基因: Spidey; d)ASTD数据库 ●分子进化遗传分析工具 ●MEGA;

●Phylip; ●蛋白质结构和功能预测 a)一级结构 ProtParam蛋白质序列理化参数检索; ProtScale蛋白质疏水性分析; COILS卷曲螺旋预测; b)二级结构 PredictProtein蛋白质结构预测; PSIPRED不同蛋白质结构预测方法; c)InterProScan: 模式和序列谱研究 Prosite:蛋白质结构域、家族和功能为点数据库; Pfam:蛋白质家族比对和HMM数据库; BLOCK:模块搜索数据库; SMART:简单模块架构搜索工具; TMHMM:跨膜结构预测工具; d)三级结构 Swiss-Model Workspace: 同源建模的网络综合服务器; Phyre:线串法预测蛋白质折叠; HMMSTR/Rosetta:从头预测蛋白质结构; Swiss-PdbViewer:分子建模和可视化工具; 序列模体的识别和解析; MEME程序包; ●蛋白质谱数据分析

生物信息学常用核酸蛋白数据库

(1)GenBank https://www.360docs.net/doc/486470040.html,/ (2)dbEST (Database of Expressed Sequence Tags) https://www.360docs.net/doc/486470040.html,/dbEST/index.html (3)UniGene 数据库 https://www.360docs.net/doc/486470040.html,/UniGene/ (4)dbSTS (Database of Sequence Tagged Sites) https://www.360docs.net/doc/486470040.html,/dbSTS/index.html (5)dbGSS (Database of Genome Survey Sequences) https://www.360docs.net/doc/486470040.html,/dbGSS/index.html (6)HTG (High-Throughput Genomic Sequences) https://www.360docs.net/doc/486470040.html,/HTGS/ (7)基因组数据库 https://www.360docs.net/doc/486470040.html,/sites/entrez?db=genome (8)dbSNP (Database of Single Nucleotide Polymorphisms) 单核苷酸多态性数据库https://www.360docs.net/doc/486470040.html,/sites/entrez?db=snp (9)EMBL (European Molecular Biology Laboratory) https://www.360docs.net/doc/486470040.html,/embl (10)DDBJ (DNA Data Bank of Japan) http://www.ddbj.nig.ac.jp/Welcome-e.html 启动子(11)EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ 2、蛋白质数据库 https://www.360docs.net/doc/486470040.html,/swissprot (2)TrEMBL (Translation of EMBL) https://www.360docs.net/doc/486470040.html,/swissprot/ (3)PIR (Protein Information Resource) https://www.360docs.net/doc/486470040.html, (4)PRF (Protein Research Foundation) http://www.prf.or.jp/en/os.html (5)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.ad.jp (6)Prosite https://www.360docs.net/doc/486470040.html,/prosite 3、结构数据库 (1)PDB (Protein Data Bank) https://www.360docs.net/doc/486470040.html, (2)NDB(Nucleic Acid Database) https://www.360docs.net/doc/486470040.html,/ (3)DNA-Binding Protein Database https://www.360docs.net/doc/486470040.html,/ (4)SWISS-3D IMAGE http://www.expasy.ch/sw3d/

常用生物信息学软件

常用生物信息学软件 一、基因芯片 1、基因芯片综合分析软件。 ArrayVision 7.0 一种功能强大的商业版基因芯片分析软件,不仅可以进行图像分析,还可以进行数据处理,方便protocol的管理功能强大,商业版正式版:6900美元。 Arraypro 4.0 Media Cybernetics公司的产品,该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者,相信arraypro也不会差。 phoretix? Array Nonlinear Dynamics公司的基因片综合分析软件。 J-express 挪威Bergen大学编写,是一个用JA V A语言写的应用程序,界面清晰漂亮,用来分析微矩阵(microarray)实验获得的基因表达数据,需要下载安装JA V A运行环境JRE1.2后(5.1M)后,才能运行。 2、基因芯片阅读图像分析软件 ScanAlyze 2.44 ,斯坦福的基因芯片基因芯片阅读软件,进行微矩阵荧光图像分析,包括半自动定义格栅与像素点分析。输出为分隔的文本格式,可很容易地转化为任何数据库。 3、基因芯片数据分析软件 Cluster 斯坦福的对大量微矩阵数据组进行各种簇(Cluster)分析与其它各种处理的软件。 SAM Significance Analysis of Microarrays 的缩写,微矩阵显著性分析软件,EXCEL软件的插件,由Stanford大学编制。 4.基因芯片聚类图形显示 TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。现已和Cluster成为了基因芯片处理的标准软件。 FreeView 是基于JA V A语言的系统树生成软件,接收Cluster生成的数据,比Treeview 增强了某些功能。 5.基因芯片引物设计 Array Designer 2.00 DNA微矩阵(microarray)软件,批量设计DNA和寡核苷酸引物工具 三、序列综合分析 V ector NTI Suite 8.0 不喜欢装备各种专业性强的软件,而希望用一个综合性的软件代替的同志可以选择本软件。本阶段的大部分功能它都有。该软件具体特有良好的数据库管理(增加、修改、查找),对要操作的数据放在一个界面相同的数据库中统一管理。软件中的大部分分析可以通过在数据库中进行选定(数据)->分析->结果(显示、保存和入库)三步完成。在分析主界面,软件可以对核酸蛋白分子进行限制酶分析、结构域查找等多种分析和操作,生成重组分子策略和实验方法,进行限制酶片段的虚拟电泳,新建输入各种格式的分子数据、

生物信息学复习总结

生物信息期末总结 1.生物信息学(Bioinformatics)定义:(第一章)★ 生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。 (或:) 生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(NSFC) 2. 科研机构及网络资源中心: NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心; EMBnet:欧洲分子生物学网络; EMBL-EBI:欧洲分子生物学实验室下属欧洲生物信息学研究所; ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统;(Expert Protein Analysis System) Bioinformatics Links Directory; PDB (Protein Data Bank); UniProt 数据库 3. 生物信息学的主要应用: 1.生物信息学数据库;2.序列分析;3.比较基因组学;4.表达分析;5.蛋白质结构预测;6.系统生物学;7.计算进化生物学与生物多样性。 4.什么是数据库:★1、定义:数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。 (记录record、字段field、值value) 2、生物信息数据库应满足5个方面的主要需求: (1)时间性;(2)注释;(3)支撑数据;(4)数据质量;(5)集成性。 3、生物学数据库的类型:一级数据库和二级数据库。 库等;DDBJ核酸库和EMBL数据库、Genbank(国际著名的一级核酸数据库有. 蛋白质序列数据库有SWISS-PROT等;蛋白质结构库有PDB等。) ★4、一级数据库与二级数据库的区别: 1)一级数据库: 包括:a.基因组数据库----来自基因组作图; b.核酸和蛋白质一级结构序列数据库; c.生物大分子(主要是蛋白质)的三维空间结构数据库,(来自X-衍射和核磁共振结

生物信息学入门知识

生物信息学入门知识 生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物学数据的一门学科。首先是研究遗传物质的载体DNA及其编码的大分子蛋白质,以计算机为其主要工具,发展各种软件,对逐日增长的浩如烟海的DNA和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分析和研究,目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传语言,揭示人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供最合理和有效的途径。生物信息学已经成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设计、环境监测的重要组成部分。近年来,蛋白质结构数据的快速增长,使蛋白质三维结构的处理分析也归入到生物信息学的范畴。国际上有三大一级生物信息数据库,即美国国家信息中心 (National Center of Biotechnology Information, NCBI)的Gen Bank(http:/ / www. nchi. nlm. nih. gov/ web/Gen Bank/ imdex. html)、欧洲分子生物学室验室(European Molecular Biology L aboratory-Euro-pean Bioinformatics Institute, EMBL-EBI)的 EM-BL (http:// www.ebi. https://www.360docs.net/doc/486470040.html,/ databases/ index.html)和日本 DNA数据库 (DNA Data Bank of Japan, DDBJ) (http:/ / www.ddbj.nig.ac.jp/ )。随着生物信息学 (Bioinformatics)的发展,通过检索数据库进行核酸序列同源性检索,电子基因定位、电子延伸、电子克隆和电子表达以及蛋白质功能分析、基因鉴定等方面起到了重要作用,已成为人们认识生物个体生长发育、繁殖分化、遗传变异、疾病发生、衰老死亡等生命过程的有力工具。 一、生物信息学相关网站 生物信息学与生物计算:http://bioinformatics.weizmann.ac.il/ 这是生物信息学和生物计算学的网站,由Weizmann科学研究所,生物服务部和Crown人类基因组学中心支持。研究领域主要涵盖序列分析,蛋白质组学和基因组学等。该网站提供了数据库,电子论坛,教育,新闻,软件,招聘启事等。该网站还提供了相关链接,包括欧洲分子生物学以色列国家网点,以色列国家基因组基础设施实验室以及国际生物信息学合作中心。 生物信息学专题:https://www.360docs.net/doc/486470040.html,/bioinformatics/bioinfo.htm 中国科学院上海生命科学研究院生物信息中心的网站中的生物信息学专题提供与生物信息学有关的新闻信息,生物信息学文献的介绍(包括的课题例如:鉴别肿瘤的亚型,细菌中的基因转移,生物钟与微阵列--哺乳动物的基因组有节奏,混乱的DNA区分人类与黑猩猩等等),相关软件下载,与数据库的链接。 生物信息学专业网:https://www.360docs.net/doc/486470040.html,/ 生物信息学专业网旨在收集、整理与生物信息学相关的信息和资源。它的站点提供最近新闻;与生物科学相关的论文;与生物信息学相关的数据库,软件,公司,大学和期刊;工具的介绍,例如:序列逆向查询系统。 生物信息学组织:https://www.360docs.net/doc/486470040.html,/ 生物信息学组织是生物信息学学科的综合性网站。其涉及的内容有新闻、事件提醒、会议消息、免费FTP工具下载、论文、URL推荐、演示幻灯片等。此外,其还拥有有关生物信息学

相关文档
最新文档