生物信息学第十三章 ACEDB一个基因组信息的数据库

生物信息学第十三章 ACEDB一个基因组信息的数据库
生物信息学第十三章 ACEDB一个基因组信息的数据库

第十三章 ACEDB一个基因组信息的数据库

ACEDB的一般特点

背景

ACEDB(一种线虫C.elegans数据库)是一种被广泛应用的管理和提供基因组数据的工具组。它是在1991年由Richard Durbin和Jean Thierry-Mieg首先提供的,他们发展它来支持和整理C.elegans领域中的大范围序列和物理图谱的工作。在本章结尾所列出的因特网资源和资料中可见1和2条。后续的程序由Durbin和Thierry-Mieg编制和完善,还有许多其他人参与了代码的编制。这一时期,ACEDB 适用于许多动物和植物的基因组计划[3]。软件对于“非基因组”信息的计划仍然有效,诸如,民族植物学的数据、基因命名法、具体的文献等[4,5]。准确估计基于ACEDB资源的出版物很困难,1997年春的保守估计[3]是25-30种。

ACEDB由于它的一些特性而流行起来。该软件是免费的,并且可运行在Unix和Macintosh OS系统下,Windows版本马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。界面依靠相关信息的超级文本连接,并可由鼠标方便的完成操作。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的DNA等。也许最重要的是,ACEDB能很容易的由于新信息而被重新设定.简单的

图解语言和快速数据装载的周期使ACEDB适合一个”废弃(throwaway)”数据库的

建立,他可用于专用的数据分析,还可用于许多永久性数据的采集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用ACEDB。对于资源有限的计划,这往往是决定使用ACEDB的关键因素。

本章主要把ACEDB作为序列数据的管理工具来介绍,而不是当作一种提供数据的方法。这里并不是把ACEDB的每一部分都专门的介绍,而是主要集中在:ACEDB 的早期的数据采集的作用,和主要面向内部使用者的注释的过程。现在使用ACEDB来管理序列数据和用于其他计划的有:剑桥大学的Sanger(英国),华盛顿大学的基因组中心,克罗拉多大学(Colorado State University)的 Aedes aegypti基因组计划, Massachusetts General 医院的Arabidopsis物理图谱计划,和 Walter和 Eliza Hall研究院(WEHL)的疟疾基因组计划。

读者肯定会对有感于管理和提供生物学数据的软件的高速的发展速度。ACEDB本身是基于Unix系统开发的,并当作X-window的应用程序被首次展示出来的。现在,许多用户可通过万维网(World Wide Web)登陆到公共数据服务器上来使用它。将来,很可能由Java语言或其他网络语言编写的有人们更熟悉界面的ACEDB 将出现。但本章主要介绍X-window版本(Xace 4,3)及与它相关的特性。

界面

以下简写代表鼠标操作。

LM:鼠标左键

MM:鼠标中键

RM:鼠标右键

一般的ACEDB用户通过浏览超文本连接的文件来交互的操作ACEDB。这种浏览方式的界面如图13.1。这是从Grain Gene(一个用于Triticeae的数据库)吸取来的包含有多个ACEDB窗口的阻合窗口。这些窗口是一系列鼠标操作产生的,如用户定位两种不同的信息内容。ACEDB的主窗口是位于图中左上的窗口,它在软件开始时就显示出来。其中列有数据类型用于查阅。点击Reference类型(双击LM)打开一个KeySet窗口,其中列出了许多Reference类型的成员,这些成员被称为对象。点击一个reference对象,如BCG-28-487,则打开了第三个窗口(右下窗口)显示文献的细节,如作者,题目等。点击任何粗体字都可打开相应的窗口。

图13.1

图13.1还包括一个遗传图谱(左下)。这是在reference窗口下,点击locus 下的iBgl弹出的。这是众多的用图形形式描述数据的方式中的一种。图中的locus标记也是超文本连接的,可通过点击(LM)把它击活。文本窗口中遗传图谱下的数据是可视的,就象在reference窗口中一样。在这种情况下,如果有适当的数据和图形,数据库管理员就把locus标记设置成缺省值,使它显示遗传图谱。

关于ACEDB还有一些在线的教育。这里特别推荐在Sydney的澳大利亚遗传信息中心的Bruno Gaeta提供的一个[7]。Cornell大学的Dave.Matthecos正准备提供一个关于遗传图谱显示的教育内容[8]。后文还将更详细的介绍序列显示的特点。

数据模型

ACEDB的核心部分是“数据模型”(或图形),这将决定数据库中的数据是如何组织的。各个模型可由简练的语言加以解释,这由数据库管理员来定义。各类数据可由如sequence,gene,reference等类型来表示。各模型以如图13.2的形式保存在名为models.wrm的文本文件中,它存在数据库的wspec目录下。在文本框中,设定显示数据的模型有很强的灵活性,但在其它的ACEDB的显示中[9],需要各模型中包括有预先定义好的结构。这一内容将在后文的“序列显示”中加以讨论。注意,更详细的模型介绍和ACEDB中模型的问题可见[10]。读者可查阅不同的数据库来了解模型的适用范围。

//this shows partial models for the Sequence,

//Locus and Paper class

?Sequence DNA UNIQUE ?DNA UNIQUE Int

Structure Length UNIQUE Int

Properties Pseudogene

CDS

Genomic_canonical

Locus ?Locus XREF Sequence

Paper ?Paper

Remark Text

?Locus Sequence ?Sequence XREF Locus

Paper ?Paper

?paper Title Text

图13.2 modles.wrm

为了展示一些模型的特点,我们先看为sequence,locus,和paper information 这三种信息的模型。这些例子并不能展示这种模型语言的全部功能,但能展示一些重要的特点。

模型有一个等级树的结构,就象概要图一样,数据开始于总括,然后沿许多支路进行处理,越分越细。从树的根开始,每一个支点都代表一类(阶层)数据的一个子分裂。每一支路开始于一个标示符,或就此终结或带有许多字段,这里可填入数据,Structure,CDS,和Paper就是标示符的例子,Int,和?Paper是字段。

从左上开始,向下处理。透过Sequence模型的例子(图13.2),我们可以看出,这种模型可让DNA序列的内容同一个DNA对象,它的长度,及序列性质的类型(这里的Properities分支分为三支)联系起来。还可知道序列的那一部分已被发布了,是否有一个位点与它对应,是否要对它进行什麽特别的说明。

这一类的第一个字段(?Sequence)被存为一个对象名的存储器。对象名要能被唯一识别,许多与序列相关的其他信息要通过对象名附加给对象的。其他类型的字段有:Text(接受自由格式的文本),Float(用于浮点型数据),Date(用于日期),Int(用于整型数据)。一种字段类型限制填入其中的数据类型。例如,一个长度型(length)中能填入100,但不能填one hundred。作为缺省,一个字段可复制本身来接受多重数据的输入。这通常是有用的,一个序列会涉及

到多重的论文(Paper),位点(loci),评论(remarks)。但是,UNIQUE限制一个字段对每一个对象只能有一种输入类型。在本例中,一个sequence对象只能有一个长度,字段还有别的更复杂的限制,这里就不在涉及。

通过使用字段,它们接受对象名,把信息在ACEDB内互连起来。“?”前缀识别这些字段。考虑sequence模型中的分支,它们把一个序列和一个出版物联系起来。

Paper ?paper

当为一个特定的序列把数据输入到?Paper字段后,Sequence对象和已命名的Paper对象就会建立起链接,该链接通过在用户界面中点击Link来操作。如图13.1所示。但是,这种链接是单向的。虽然浏览者在Sequence对象中能见可点击的粗体的Paper字段,但相应的Paper对象却不能回联到Sequence中。不过,许多数据库管理员都愿向用户提供双向的链接。可通过使用XREF

(cross-reference)来自动建立。一个Sequence模型中的XREF的例子是:Locus ?Locus XREF Sequence

一个XREF字段有两个部分,XREF前面的部分是“目标类(class)”,这里是?Locus,这里它必须是class-XREFs而不能是Int,Text,Float,或DateType 类型。XREF后面的是“目标标识符(target tag)”,这个标识符说明在目标类中哪些字段可用于建立交互式的链接。为了运行XREF,Locus类必须支持这种链接,这意味着在?Locus字段中,一个支路必须包括Sequence目标标识符和有确定seqence对象的字段。这支路是:

Sequence ?Sequence

为满足这个要求,当Sequence对象中的?Locus字段一填入数据,XREF就建立交互式的链接,对于数据库的管理员,这将大大简化双向链接的管理。更进一步的是建立全双向链接,使输入任何字段的数据都能建立双向链接,要作到这一点,我们应如下修改Locus模型:

Sequence ?Sequence XREF Locus

可用标准形式//对模型进行注解,(当models.wrm文件被读入时,一行中//右侧的内容将被忽略)。注解在编写models.wrm文件和数据文件时非常有用。

数据输入

数据是以模型做为模板输入到ACEDB中的。数据文件可通过X-windows界面或直接通过数据库中的命令行把数据输入给数据库的[12]。这个命令行界面,这里虽然不介绍,但在从其他处理过程的自动收集数据操作中却很重要。还可在运行数据库时,直接建立个人的对象。选用什麽方法取决于数据库管理员参数的选择,数据量的多少和数据的性质。要把大量数据从文件中高效的输入,就很少会使用

交互式的方法。当文件被调用时,直接使数据格式化,还有一个“段落”来描述这个对象(用空行来分开每一个段落),每段的第一行总是类名,接下来是对象名,所以字段通过先于它们的标识符立刻被识别。为加入sequence和paper对象,我们应如图13.3输入数据。

注意,我们不用填写每一个字段,标识符也不用同模型中显示的顺序一样。但是,标识符-字段的组合必须符合模型,如果不符合,数据库就会认为是出错。所以,Genomic_Canonical模型后不能跟有字段。那些在同一行中标识符后跟有其他信息的输入数据也是错误的。更细致的关于数据装载过程的讨论见[13],它包括有:大型数据文件的准备,数据的删除,及对象更名等内容。

查询和表格

ACEDB用查询的语言来应用对象的性质和不同数据间的链接。有几个查询的界面:纯文本的形式(这里不涉及),一个“原始”的查询工具,用户在查询时直接输入命令;“query be exmple(范例式查询)”工具,它实现功能就象填表一样;“query builder(查询创建器)”,它帮助用户确切的建立复杂的查询。查询的响应是一系列符合具体标准的对象名(技术上如图13.1中的 KeySet),查询的语法是固定的,合法的查询必须和模型的结构兼容,因此

Find Sequence ATHFOO1; Follow Locus

是一个合法的查询。如前所述,它对应于模型和数据,这个查询的回应将列出联系这一序列的位点,但是查询,

Find Sequence AGE>10

虽然符合语法,但是错误的,因为Sequence类中没有Age标识符或相关的字段。如果,一定要这样查询,可由数据库管理员修改模型,添加相应的字段。

ACEDB中还包括有TableMaker,一个用于创建相关表格的工具。它的界面很复杂,但功能很强,它可让用户从内联的各类中引用和关联信息。相对于前述的查询,TableMaker能显示和检索对象中的信息,而不只是列出对象名。关于查询和TableMaker的教学内容见[14-16]。

Sequence"ATHFOOI"

Length 3879

Remark " a very strange Arabidopsis

thaliana DNA."

Locus "FOOI"

Genomic_canonical

Remark " a second remark"

Locus "FOOI"

Paper "smith_1997_aahmt"

图13.3 ACEDB的数据文件

使用性和安装

ACEDB可从许多免费访问的FTP站点获得。在标准发布中带有为Unix系统的安装说明。还可为那些需要重新编辑的用户提供资源代码。关于FTP与平台的详细内容可从前面已提到的FAQ中找到[3]。本章的内容是关于版本4.3的ACEDB,也是写作本书时的流行版本。新的内容会定期的出版在ACEDB的新闻组中[17]。

ACEDB中的序列分析

引论

图形格式的显示可让用户在ACEDB中快速收集和分析遗传数据。虽然Map和Clone Gird显示,它们支持遗传图谱和物理图谱项目,并且可用图形显示来代表生物化学的途径,但我们的重点在序列分析。

序列的显示是一种特征图谱(Feature Map,Fmap),它链接有许多工具,其中包括Gene Finder[18];Blixem,一种BLAST[19]多重比对观察器[20];DOTTER,一种点-图程序[21]。综合这些工具,为序列分析提供了丰富的图形环境。

虽然设计的一般性允许来自于主要模型系统,病原体,和人类的的序列用类似的方法进行分析,但Fmap最初是为支持线虫(C.elegans)基因组序列计划而开发的。

特征图谱

特征图谱是一种高度可配置的显示格式,图13.4显示了一张来自于Schizosaccharomyces pombe的rhp6的已配置的显示样式。该图展现了这种显示形式的一般结构。顶部是按钮和文字,下面是若干列,这些列从左到右用红色数字记数,下面从左到右加以解释:

1.Locator: 绿色的框显示完整序列的蛋白质(黑色条)。移动操作通过:

a)Zoom In,Zoom Out,和Whole按钮;b)点击绿色框并滑动(LM);c)

点击定位条中心的右侧(MM),点击定位条的左侧(LM)可滚动和放缩。

2.Sequence and ends:全白色框和序列对象名(EM:250728),全白框表示几个

sequence(序列)对象重叠群的交叠部分(本例中没有交叠)。

3.Summary:黄框中其他颜色条强调某些特性。兰色条界定了“活性区”。

4.Scale:用顶部的Origin文本输入框,重定记数从序列中的强制点开始。

5.Genes:“Genes”这里表示完整的和部分的转录序列[如mRNA或编码序列(CDS:从

转译起始密码子到终止密码子),它决定着外显子结构]。外显子(兰色轮廓框)和内涵子(线条联着外显子)被显示出。

6.Features: 暗红色框与除了能从EMBL特征表和GeneBank记录中找到的基因以外的

特征相联系。

7.ATG:小黄色框代表着每个阅读框中的潜在的甲硫氨酸转译起始密码子,通过配置

GeneFinder表,可建造其他的密码子。

8.ORFs:黑色水平线代表每个开放阅读框中的终止密码子。第二阅读框这里也被显示。

9.Gene Finder Coding Sequence:灰色框表示高概率蛋白编码的区域。

10. Coding Frame:兰色轮廓框表示阅读框,从中可得到每个外显子。

11. Pssearch:青色框表示相对PROSITE数据库中一个基元的匹配。

12. BLASTX:兰色框代表局部最大成对节段(maximal segment pairs,MSPs)(在BLAST中称HSPs,见第七章)。它来自蛋白质序列中的BLASTX查找。13. Gene Translation:通过点击(RM)基因可动态转录和染色,这将击活一个菜单,选取选项Show Translation和Color Exons。

14. BLASTN:黄色框代表从核苷数据库的BLASTN查找中查出的MSPs。

15. INTRON_HMM:浅橘黄色框代表了一个内涵子预测程序的预测结果。

16. Gene Finder Splice Site:向上指的点线代表剪接受体,下指点线是剪接供体。(染色的位点是在同一区段内),在基因预测时将用到绿色的特征(剪接位点,ATG密码子,和中止密码子)。

17. DNA Sequence:核苷序列和其同等物。碱基(Base)1被设置为转译起始密码子A(甲硫氨酸,ATG)。通过选择点击基因(RM)产生的菜单中的Color Exon 选项,外显子高亮成黄色,剪接的密码子成紫色,终止密码子成红色。序列从5’到3’端,点击Rev-Comp按钮(LM)可显示相应的一列。Rev-Comp菜单(RM)中有选项来单独反转和补充序列。

图13.4

Sequence(序列)对象的显示主要通过点击Column按钮来配置,其中有很多触发器来打开或关闭各列。图13.4中并没有显示全部序列,显示那些列由数据库的设置来决定。一些列是通用的(ATG,ORFs,和DNA),一些取决于GeneFinder 的安装(如GeneFinder Coding Segments和GeneFinder Splice Site),其他取决于特定数据库的监护(curation)。管理员还能加入代表外部程序分析序列结果的列(如BLASTX,BLASTN,INTRON,HMM等)。

选取一个特征可把相应的序列高亮成粉色,相应特征的信息显示在顶部的兰色拦中。图13.4中,CES的最后一个外显子被选种。如果所选的特征是一个数据库的对象的话,双击可产生一个文本窗口,可浏览Fmap显示下的数据。

Efetch和Blixem

选择一个代表BLASTN和BLASTX数据库查找结果的框,将击活一个带有两个选项Efetch和Analyse in Blixem的菜单。Efetch[22]是一个ACEDB的外部程序,当需要数据库(如BMBL或GeneBank)中的数据时,它开始检索,它还可以存储ACEDB中是所有序列的记录。如果序列的数量很大,大量的同源物会影响该选项在分配ACEDB数据库时是灵敏性。如果,主序列数据库已被使用,那取回的(Fetching)记录也要去除用户系统中的多余数据。如果,序列数据库同其他程序同被索引,诸如Sequence Retrieval System(见第五章)。用简单的脚本,Efetch就能被仿效,如同程序文献资料提到的那样。

菜单中的第二个选项可运行Blixm[20],一个用来显示BLAST比对的程序。图13.5也是以部分的S.pombe rhp6基因为例,来说明从BLASTX框中击活的BLIXEM窗口。在顶部,是以序列MSPs的识别率的百分比来显示序列位置的,用若干平行的线条来代表MSPs,用高亮的框来限制比对的区域,这些可被详细的显示在下面的扩展显示区中,来说明序列中MSPs比对的具体情况。在缺省情况下,片段显示出全同区(暗蓝),保守的替代区(明蓝),差别区(无染色)。从图形或扩展区中选取(LM)一个MSPs,可高亮所选序列中所有其他的MSPs。这一功能可帮助判断匹配的性质,因为沿基因的MSPs分配可很容易的被估计出。这种匹配可放到任何一个数据库记录中的功能信息的环境中进行检测;双击(LM)扩展显示区中的一个序列可检索序列的记录。Bliexm窗可被设置成显示Fmap序列的双链,高亮片段中的差别区,合并同一序列中的MSPs到同一行上,修改颜色或显示低复杂度区域的图形。

DOTTER(点标器)

通过BLIXEM窗口可进入到点标器DOTTER(右键点击背景),点标器是一个点绘图程序,用来比较两个序列的细节。点标器和BLIXEM都可单独使用[20,21]。图13.6展示了S.pombe假想蛋白质C8A4.02C的自比较,其中带有一个基因组序列的三读框转译因子,并包括相应的位点,SPA C8A4.02C。蛋白质序列沿y轴绘制,转译的基因组序列和代表这个单独外显子基因的框沿x轴。最长的对角线是一个很好的自匹配,而其他的以最长对角线对称分布的对角线表示了六种不太完美的36氨基酸重复单位。移动十字准线(LM,鼠标左键和按键)超过一条对角线则在另一窗口中显示相应的队列。

为能绘图,点标器的算法首先计算一个二维矩阵,它存储了所有成对比较的残基的分值,就是说,每一水平序列的残基与每一竖直序列的残基相对应。为提高绘图的信噪比,一个窗口(缺省25个残基)沿对角线步进,新的分值是窗口内的所有点的平均值。矩阵中每一点的值在0至255之间(每一点一个字节)。每一项都有一与之分值成比例的灰色亮点。Greyramp工具(见图13.6)给出两个域值,其可由鼠标来设置。数值低于最小值显示成白色,高于最大值的显示成黑色,数值只有在两域值之间的显示成灰色。这一工具可让点绘图的域值动态变化,这有助于探测相关的对角线。

从ACEDB调用的点标器DOTTER即可对比BLIXEM中的DNA序列,又可比较BLIXEM 中的蛋白质序列,或是进行自比较(DNA/DNA)。各选择也可用来对比 BLAST HSPs,或相对于全部比较加亮HSPs。这些后面的选择用来探测那些BLAST可能忽视的非常弱的相似体,例子参见相关文献[21]的图2。

GeneFinder

GeneFinder[18]是ACEDB系统中的一个应用程序。单独使用还是ACEDB的版本中基本上都使用相同的算法(关于这个问题见第十章)。这里我们着重讨论ACEDB 中的GeneFinder的图形界面。

GeneFinder只有依靠一系列明确且有机结合的配置文件才能正常的运行。这些文件储存在数据库的wpf目录下。带有独立版本GeneFinder的一些应用程序可用来建立各种表格。GeneFinder 分配中就提供这些制作表格的指令。

Fmap中的GeneFinder按钮可击活(RM)一个菜单,选择GeneFinder Features 选项将在Fmap中标记出剪接位点、可能的编码区、转译的起始密码子。这些特性是根据wpf目录下的表格计算得出的,并且每一特性都分配一个分值。点选

Autofind One Gene 可在Fmap中标出一个预测的基因,命名为temp_gene。创建基因的位点标为绿色的高亮区。

AutoFind One Gene 一经被选种,GeneFinder的算法就产生一系列的待选外显子。这些外显子有三种:引导外显子,它们开始于转译起始密码子,结束于剪接供体或终止密码子;中部外显子,它们开始于剪接受体,结束于剪接供体;尾部外显子,它们开始于剪接受体,结束于终止密码子。注意GeneFinder 不能预测

基因的3’或5’的非转译区域;本文中的预测“基因”就是指编码部分。外显子的

分值是通过综合单个有限位点及可能被其包围的编码段的分值得出的。内涵子是根据长度来赋值的。外显子和内涵子最高分值的有效结合的区域既是预测的基因。

要查看基因的分值,先点种该基因,然后选Gene->Selected选项。这使基因的各特性高亮成绿色。选Show Selected 则显示一个关于各分值的表格。(见表格13.1的例示)

参数的变化可调整基因的预测。菜单选项Parameter显示了两组变量。Assembly 变量,它们与从外显子和内涵子中组建基因有关;GeneFinder变量,它们决定着组建外显子的起始点和各特性的范围。这些参数列于表13.2中。

这些参数可被存储成Method(方法)项目,可让数据库的管理员设定一套最佳的参数,这可通过修改一组已知结构的调试基因的参数,直到预测的最大值与调试组相一致为止。在调试过程中,检测分值的表格有助于决定众多序列中那些更有可能是预测的基因,并有助于参数的修改。不过实际过程中,GeneFinder 的预计序列也会与Fmap 列中的有矛盾。Fmap提供一种机制来修改那些有明显不当之处的预测基因。选取(RM)GeneFinder的一种特性(如,转译的起始编码,结合位点,或结束编码)可击活带选项的菜单来选定、取消一个特性。用这些选项,可使一基因被完全确定,或使基因包括或排除某一具体的特性。设定活动区是另一种机制来排除特定区域(以外,中?)的所有GeneFinder特性;那些排除区域在Summary Bar(见图13.4)上标记成兰色。作为最后的措施,预测基因可被手动修改,是通过在文本框中显示temp_gene项目并在从下拉菜单中选取(RM)Update。在这种情况下,建议设定Origin(见图13.4),以确定一个基本的转译起始编码。编辑后,有必要从下拉菜单(RM 点击Fmap的白色背景)中选取Recalculate来刷新显示。可选GeneFinder菜单中的选项来在数据库中把预测基因存储成Sequence(序列)项目。但是,无论保存还是编辑项目都要写入(write access to)到数据库中。

表格13.1 S.pombe rhp6的Genefinder分值

表格13.2 Genefinder参数

Importing Sequence 和Magic Tags

Fmap中显示的Import Sequence选项(RM 背景活动窗口)可用来向Fmap输入序列而不用直接写入到数据库中。但,要分析序列基本上还是需要写入到数据库中,且输入的序列是作为一个ace文件,如下例所示。

Sequence "MysortSeq"

DNA "MyShortSeq"

Dna "MyShortSeq"

cacacacaccacacccacaccacaccacaccacacccacacccacacacaccacacccac acaccacacccacaccaactctctctcatctacctttactcgcgctgtcacaccttaccc

ggctttctgaccgaaattaaaaaaaatgaaaatgaaatcctgttctttagccctacaaca

这个文件创建一个Sequence(序列)对象和一个DNA对象。选择Sequence(序列)对象MyShirSeq 会在Fmap中既显示Sequence(序列)对象和又显示DNA对象。虽然,这是一种非常不引人注意的操作,但非常重要的是要注意到数据库总会知道要创建一个Sequence(序列)对象,并且核酸序列必需和Sequence(序列)对象一道显示。如果序列对象MyShirSeq以文本格式显示,则格式如下:

MyShortSeq

DNA MyShortSeq 180

序列的长度被计算出,并被自动插入到对象中跟在DNA标识符后的整型字段(Int field)里。这里的DNA是指“Magic Tag”。这些特殊的识别标记被写入到数据

库引擎中,主要用来显示目的。一种Magic Tag含义是数据库的开发者和序列分析者需要知道哪些标识被用来产生ACEDB显示元素的。Magic Tag怎样被使用的说明见[9]。

程序使用于把GeneBank 和EMBL记录改变为ace格式[23]。如果是公共的,这些程序大大降低了输入序列的工作量。从GeneBank-到-ace的语法分析程序产生的一个ace文件显示于图13.7。这个例子表明了ACEDB中序列建模的一些表现形式。核酸序列与转录子(如CDS和mRNA)与序列对象GB:ATABIIG相链接。虽然,转录子本身应是Sequence(序列)对象,但它们被作为GB:ATABIIG的子序列的模型。这序列/子序列的建模可通过在另一sequence(序列)对象中确定两序列的交叠部分来建造序列的重叠群。这一假想的例子加入到两列有81个重叠单元的序列。

Sequence "LINK_MySeqs"

Subsequence "MyShortSeq" 1 180

Subsequence "MyShortSeq" 100 20000

BLAST分析和MSPcrunch

Fmap, BLAST,和DOTTER都能显示BLAST系列程序的结果(见7章)。使用ACEDB 的方案,将运行如下的典型的数据库搜索,来获取最大同源物的信息(X代表有序的有机体)。

BLASTX 对所有蛋白序列的核苷转译因子的查询。

BLASTN 对x有机体中的ESTs的核苷查询。

TBLASTX 对非x有机体中的ESTs的核苷转译因子的查询。

BLASTN 对除ESTs以外的所有核苷序列的核苷查询。

实际的数据库搜索依靠一系列的因素(见第二章中讨论的公共的序列数据库)。BLAST搜索的结果是通过BLAST的事后处理程序MSPcrunch被筛选的。MSPcrunch 有很多有用的功能:

1.偏离成分的区域被BLAST勿赋予高分值,MSPcrunch适当的降低这些分值。

2.类似大蛋白质类型和有高频率出现的氨基酸的区域会产生很多MSPs,MSPcrunch可

消除这些拥挤区域多余的MSPs。

3.MSPcrunch 从相同的数据库序列中检测接近的MSPs,这检测保留低分值的MSPs,它

们与一个带缺口的列相一致。

4.MSPcrunch分析BLAST的输出,并产生ace文件。

运行1-3使BLAST非常灵敏,但是,如果要求一个数据库中的所有MSPs查询,MSPcrunch可被用作带有w开关的ace文件生成器。

在公共区域的全序列的BLAST内部查询,需要对计算资源有大量的投入,因序列数据库的规模;需要长的时间来查找;还需要维持日易增大的数据库。不过,少量的序列可通过网页提供的BLAST服务来得到分析。BLAST的输出可被E-MAIL 引用,且MSPcrunch可用作产生ace文件。

图13.7 GeneBank-到-ace的语法分析程序的输出

加入结果列

在序列的分析中,非常必要的是从众多的查找和预测程序中确认结果。任何可确认核苷序列区域的结果都可被输入到ACEDB中,并可显示为是Fmap文件上的一个有染色框的列。

当Fmap的序列对象被显示时,为各个单独的涉及Sequence(序列)对象的“Method(方法)”绘制一个结果列。Methods(方法)是决定一结果列怎样被显示和怎样被Blixem处理的对象。这里有一个BLASTN方法对象的例子:

Method BLASTN

Colour LIGHTBLUE

Score_by_width Score_bounds 100 400

Right_priority 5.2

Blastn

Blixem N

Mothed(方法)对象用一个Magic Tag(标签)变量,如在其他地方[9]描述的。

涉及方法的序列模型的部分如下:

Homol DNA Homol ?Sequence XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Pop Homol ?Protein XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Motif Homol ?Motif XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Feature Method Int Int UNIQUE Float UNIQUE Text

Homol是用来定位数据的Magic Tag(标签),目的是绘制数据库查询查出的结果列。方法顾及到DNA、蛋白质、和基元(如PROSITE 基元,见13.4图,11列)等诸方面的同源物。

这里有一个从BLAST查询中查出的由MSPcrunch产生的ace文件的例子。Sequence MyShortSeq

DNA_homol Z47047 BLASTN 900 1 180 1 180

DNA_homol行定义一个BLAST MSP:用BLAST方法,MyShortSeq的碱基1-180的和分值为900的Z47047碱基1-180相似。

来自于预测程序的结果(它们不会导致来自另一序列的同等物,例如,图13.4中Hidden Markov Model内涵子预测,15列)在“Feature”Magic Tag(标记)下被储存。一个ace文件的例子如下:

Sequence MyShortSeq

Feature INTRON_HMM 100 120 10.12

多种(混合)分析功能

点选Analysis按钮可击活(LM) DNA Analysis (DNA分析)窗口,该窗口提供众多的有用的功能,这些功能可应用于DNA窗口和对象的KeySet(窗口),这里介绍一些常用的功能。

查找基元和人造凝胶

基元可通过在DNA分析窗口的文本框中进入查找队列和选择DNA(为查找核苷序列)或AA(为查找转译核苷序列)在序列中定位。按ENTER键开始查找。在KeySet 上查找,转到新的包含有基元的序列的KeySet,用于DNA窗口中的查找把Fmap 上的基元变为彩色。在两种情况中,查找的结果都加载到DNA分析窗口中。

基元查找队列可包括核苷碱基的多义密码子。在线帮助文件“DNA and amino acid nomenclature”列有DNA和氨基酸的多义密码子。基元可被存储成Motif对象的类型,而后,按名写入到地址。这是一个ace文件的例子。

Motif "Branch"

Match_sequence yTrAy

Remark "Splice branch site consensus"

Remark "Y is pYrimidine, R is puRine"

DNA

Motif "HaeI"

March_sequence "wGGCCw"

Offset 3

Cleavage "wGG'CCw"

Overhang 0

Remark "unpublished observations"

DNA

注意Match_sequence是一个Motif模型的Magic Tag(标记),一旦文件被加载,两个基元都可被查到,通过同时使用查询:

Branch:Hael

还有可能产生一个基元的KeySet,同时查找每一个相匹配的序列,通过触发Motif KeySet按钮,并可在文本框中没有输入的情况下开始查找。

用Max MisMatch按钮指定一些允许的不匹配量可实施模糊查找。

从分析菜单中可运行(RM)琼脂糖凝胶模拟器。基元被用来切断的序列,一个凝胶的图象也被显示出来。这功能有一名为Agarose-gel的在线帮助页。

其它支持序列和软件

Dump sequence:用户可以用FASTA格式转存Fmap Active Zone(Fmap活动区)序列或是所有KeySet(窗口)中的序列。

BLAST Submission:执行blast_mail文本,传递参数______________________和核苷序列。

Fastamail Submission:执行fastamail_mail文本,传递参数

______________________和核苷序列。

Splice Consensus:从3’到5’的剪接位点计算权重基元。结果显示在DNA分析窗

口中(DNA Analysis)。

Codon Usage:估计KeySet中的所有序列中密码子的用途。

Sequence Lengths:产生一个KeySet中的序列长度的直方图,并在Analysis

窗口中报告全序列长度。

Data Export:Fmap下拉菜单(RM白色背景上)提供一系列数据输出工具,它们编写一个关于特性(包括:外显子,剪接位点,等),序列和CDS转译因子(FASTA 格式化的)文件。输出位置相应于活动区(Active Zone)。

EMBL Dump: 用能提供给EMBL数据库的格式把序列和特性写入文件。

Acembly:虽然本章着重于序列分析。ACEDB也为原始序列数据提供管理。Acembly 是一个基于ACEDB的程序,它可显示和分析从ABI测序仪中读取的序列。它是由Uirich Savauge, Danielle, 和Jean Thierry-Mieg开发的。软件是为显示和解释来自于测序梯中的痕量数据和通过排列单个的测序梯来收集重叠群而设计的。多种编辑功能允许用户去识别有问题的区域,建立和改变基本调用,注释数据等等。Acembly软件包(Unix系统)是和ACEDB一道分配的,有相似的界面,Axembly 中的数据可很容易的移动到其它的ACEDB数据库中。

上一页下一页返回目录返回茶庄

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.360docs.net/doc/e915717368.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

基因组学与生物信息学教案

《基因组学与生物信息学》教案 授课专业:生物学大类各专业 课程名称:基因组学与生物信息学 主讲教师:夏庆友程道军赵萍徐汉福

课程说明 一、课程名称:基因组学与生物信息学 二、总课时数:36学时(理论27学时实验9学时) 三、先修课程:遗传学、分子生物学、基因工程 四、使用教材: 杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社,2002. 五、教学参考书: T.A.布朗著,袁建刚译著,基因组(2rd版),北京:科学出版社,2006. 沈桂芳,丁仁瑞,走向后基因组时代的分子生物学,杭州:浙江教育出版社,2005. 罗静初译,生物信息学概论,北京:北京大学出版社,2002. 六、考核方式:考查 七、教案编写说明: 教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标,以教学大纲为依据,在熟悉教材、了解学生的基础上,结合教学实践经验,提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课(指同一主题连续1~2节课)设计编写。教案编写说明如下: 1、编号:按施教的顺序标明序号。 2、教学课型表示所授课程的类型,请在相应课型栏内选择打“√”。 3、题目:标明章、节或主题。 4、教学内容:是授课的核心。将授课的内容按逻辑层次,有序设计编排,必要时标以“*”、“#”“?” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法,如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、 标本、挂图、音像等教学工具。 6、讨论、思考题和作业:提出若干问题以供讨论,或作为课后复习时思考,亦可要求学生作为作业 来完成,以供考核之用。 7、参考书目:列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

大基因组大数据与生物信息学英文及翻译

Big Genomic Data in Bioinformatics Cloud Abstract The achievement of Human Genome project has led to the proliferation of genomic sequencing data. This along with the next generation sequencing has helped to reduce the cost of sequencing, which has further increased the demand of analysis of this large genomic data. This data set and its processing has aided medical researches. Thus, we require expertise to deal with biological big data. The concept of cloud computing and big data technologies such as the Apache Hadoop project, are hereby needed to store, handle and analyse this data. Because, these technologies provide distributed and parallelized data processing and are efficient to analyse even petabyte (PB) scale data sets. However, there are some demerits too which may include need of larger time to transfer data and lesser network bandwidth, majorly. 人类基因组计划的实现导致基因组测序数据的增殖。这与下一代测序一起有助于降低测序的成本,这进一步增加了对这种大基因组数据的分析的需求。该数据集及其处理有助于医学研究。 因此,我们需要专门知识来处理生物大数据。因此,需要云计算和大数据技术(例如Apache Hadoop项目)的概念来存储,处理和分析这些数据。因为,这些技术提供分布式和并行化的数据处理,并且能够有效地分析甚至PB级的数据集。然而,也有一些缺点,可能包括需要更大的时间来传输数据和更小的网络带宽,主要。 Introduction The introduction of next generation sequencing has given unrivalled levels of sequence data. So, the modern biology is incurring challenges in the field of data management and analysis. A single human's DNA comprises around 3 billion base pairs (bp) representing approximately 100 gigabytes (GB) of data. Bioinformatics is encountering difficulty in storage and analysis of such data. Moore's Law infers that computers double in speed and half in size every 18 months. And reports say that the biological data will accumulate at even faster pace [1]. Sequencing a human genome has decreased in cost from $1 million in 2007 to $1 thousand in 2012. With this falling cost of sequencing and after the completion of the Human Genome project in 2003, inundate of biological sequence data was generated. Sequencing and cataloguing genetic information has increased many folds (as can be observed from the GenBank database of NCBI). Various medical research institutes like the National Cancer Institute are continuously targeting on sequencing of a million genomes for the understanding of biological pathways and genomic variations to predict the cause of the disease. Given, the whole genome of a tumour and a matching normal tissue sample consumes 0.1 T B of compressed data, then one million genomes will require 0.1 million TB, i.e. 103 PB (petabyte) [2]. The explosion of Biology's data (the scale of the data exceeds a single machine) has made it more expensive to store, process and analyse compared to its generation. This has stimulated the use of cloud to avoid large capital infrastructure and maintenance costs. In fact, it needs deviation from the common structured data (row-column organisation) to a semi-structured or unstructured data. And there is a need to develop applications that execute in parallel on distributed data sets. With the effective use of big data in the healthcare sector, a

基因组学与生物信息学课后作业

基因组学与生物信息学课后作业2016/2/23 名词解释 1 基因组:基因组是指生物体内遗传信息的集合,是某个特定物种细胞内全部DNA分子的总和 2 基因组学:是一门新兴的学科,是在全基因组范围内研究基因的结构、功能、组成及进化的科学,包括多个分支学科 3 C值:指一个单倍体基因组中DNA的总和,一个特定的物种具有其特征性的C值 4 基因家族:来自于一个共同的祖先基因,由基因重复及其突变产生。序列相似,功能相近。 5 假基因:来源于功能基因,但以失去活性的DNA序列,有沉默的假基因,也有可转录的假基因 6 人类基因组计划:旨在为30多亿碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息 问答题

简述真核生物染色体与原核生物染色体的差别。 答:真核生物基因组都由分散的长链线性DNA分子组成,每个DNA分子都与蛋白质结合组成染色体;原核生物基因组有2种独立结构的遗传物质,一种为拟核里的染色质,一种为质粒 另外,真核生物基因组含大量非编码序列(高度重复序列,多位于着丝粒、端粒)、断裂基因,而原核生物大部分基因都可以编码 名词解释 突变:基因组小区段范围内DNA分子发生的突然的、可遗传的变异现象。 重组:指基因组中大范围区段发生重新组合。 同源重组:指发生在非姐妹染色单体(sister chromatin) 之间或同一染色体上含有同源序列的DNA分子之间或分子之内的重新组合 转座:一段DNA片段或其拷贝从染色体的一个位置转移到另一位置,并在插入位点两侧产生一对短的正向重复序列 基因重复:含有基因的DNA片段发生重复,可能因同源重组作用出错而发生,或是因为反转录转座与整个染色体发生重复所导致 比较基因组学:在基因组水平上研究不同物种和品系之间在基因组结构与功能方面的亲缘关系及其内在联系的一门新兴交叉学科

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 :用蛋白质序列查找核苷酸序列。 :STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 :表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 :生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信 息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的 功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支 的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化 保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出 新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。 (来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或 氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子 的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折 叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进 行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编码部分与非 编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类 整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同 一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比 例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查 序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同 每条所查序列作一对一的序列比对。(来自百度)

生物信息学数据库或软件

一、搜索生物信息学数据库或者软件 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。 核酸序列数据库有GenBank,EMBL,DDB等,核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank ,欧洲分子生物学实验室的EMBL-Bank(简称EMBL),日本遗传研究所的DDBJ 蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等, 蛋白质片段数据库有PROSITE,BLOCKS,PRINTS等, 三维结构数据库有PDB,NDB,BioMagResBank,CCSD等, 与蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等, 与基因组有关的数据库还有ESTdb,OMIM,GDB,GSDB等, 文献数据库有Medline,Uncover等。 另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。 二、搜索生物信息学软件 生物信息学软件的主要功能有: 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间; 提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能; 蛋白高级结构预测。 如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引物设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三维分子浏览工具等等。 NCBI的网址是:https://www.360docs.net/doc/e915717368.html,。 Entrez的网址是:https://www.360docs.net/doc/e915717368.html,/entrez/。 BankIt的网址是:https://www.360docs.net/doc/e915717368.html,/BankIt。 Sequin的相关网址是:https://www.360docs.net/doc/e915717368.html,/Sequin/。 数据库网址是:https://www.360docs.net/doc/e915717368.html,/embl/。

生物信息学在基因组学中的应用_沈春修

作者简介沈春修(1979-),男,湖南溆浦人,硕士,助教,从事水稻遗传 育种与抗病分子机制方面的研究。 收稿日期 2007!04!01 基因的研究是指在许多基因同时存在的基础上对多个基因同时进行研究,分析各自与它们之间的结构与功能的相互关系。因而它至少涉及3个相关领域:结构基因组———主要关心DNA碱基序列水平上的基因结构;比较基因组———寻找种内、种属间产生基因结构差异的分子基础,以期获取与目的性状相关的基因;功能基因组———着重研究基因与其表达产物及功能活性的调控关系。结构基因组是其他领域的基础,比较基因组为功能基因组研究提供等位基因,蛋白质组则是在蛋白质水平上分析基因表达的功能基因组研究的派生分枝。生物信息学是在前面三者研究的基础上,获取、整理、综合分析提取大量已有复杂生物数据的新学科,对相关学科的研究有很大的推动作用。 1生物信息学在结构基因组中的应用 随着化学分析方法的改进,DNA测序水平的提高,科 研成本的降低,已开始对多种模式生物进行基因组全序列的测序。如拟南芥和水稻的全基因组测序,将来会有越来越多的重要作物基因组被全测序。因而,今后的工作重点将是基因组中信息的分析与鉴定,对植物抗性基因来说,是分析鉴定其组织结构及其相关调控序列的鉴定。结构基因组的研究对抗性基因的研究有许多指导意义。 在现在已知的许多种已克隆的抗性基因(不含Hm1和 Hm2)中,分析其序列结构,都含有或部分含有核苷酸结合 位点(NBS),富含亮氨酸重复(LRR),跨膜结构域(TM)以及丝氨酸-苏氨酸激酶(STK)保守序列。根据已知抗性基因都含有NBS序列的特征,从测序结果中可预测某一生物中含有与抗性基因有关的基因数目有多少[1]。在拟南芥与水稻测序的过程中,发现许多与抗性有关的NBS序列。在已测序的拟南芥67Mb中(相当于大于50%的拟南芥基因组序列),有120个可预见的基因产物与植物抗性基因的NBS结构相似[2]。假设剩余的另外50%未知基因也按这样的比例分布,那么拟南芥中将有200个左右的基因与抗性有关。在这些与抗性有关的200个基因中,它们要么是编码信号传导的组分,要么是编码抗微生物的蛋白,这些基因序列的总长度大约占拟南芥总基因数的1%。而在水稻中,通过对重叠的BAC克隆末端序列分析(占全部水稻基因的5%)来看,大约有750 ̄1500个基因具有编码NBS的能力[3-5]。 从已知抗性基因的定位结果来看,NBS序列在拟南芥基因组中倾向于成簇排列。测序结果也表明,植物中的抗性基因一般与抗性基因的多种同源共生序列在一起,共同组成 高度重复区域,这种区域统称为基因簇。Rpp5基因簇包含 8 ̄10个同源序列,散布在90kb的区域上,并且被蛋白激酶 的假基因与反向转座子等隔开。Cf!4/9基因簇由5个抗性基因同源序列组成,散布在36kb的区域内,Cf!4/9的同源序列被Lox基因隔开,成为高度重复区域。Pto基因簇包含5个同源序列,分布在60kb的区域内,这其中的Prf基因编码NBS!LRR,对Pto基因的功能是必需的。Dm3基因是目前已知的最大的抗性基因,至少由24个抗性基因同源序列组成,横跨3.5Mb。因而,随着更多模式植物的全基因组测序的完成,人们可以从基因组测序信息中直接读出有用数据,分析寻找抗性基因的组织结构特征与分布规律。 2生物信息学在比较基因组学中的应用 随着多种生物的全基因组测序完成,有越来越多的数 据可以直接利用。首先,通过比较多种属植物抗性基因的定位特点,发现抗性基因大多定位在较不稳定的区域,其区域的结构不很保守,如拟南芥的抗性基因RPM1的同源序列在感病表型的植株上丢失[6]。进一步研究发现,抗性基因的位置要么是端粒区域,要么是接近着丝粒区域。例如,通过原位荧光杂交分析得知:莴苣的两抗性基因分别定位在端粒区域与接近着丝粒区域,高粱Rpg1基因位于端粒区域,番茄的Mi基因位于异染色质的着丝粒边缘[7]。第2,通过测序分析,可以确定基因成簇的模式与范围,通过比较种属间亲缘关系,来预测某一功能相似的基因在其他物种中的位置。进而根据已克隆的抗性基因间的相似性,可以采用适当的引物进行PCR扩增获得抗性基因的候选序列,而且这些候选序列的片段均可定位到已知的抗性基因的位置上[8]。从现在公开的数据中,比较多种NBS基因的相似性,用PCR获得了130个候选抗性基因,此数据将继续增长。第3,比较基因组的另一作用在于可以区分同源区域与同源共生区域。这对本身就位于同源共生区域的抗性基因家族可能困难,但是抗性基因相关序列的种间比较结果显示:同源区域比同源共生区域更加相似。这提示:物种为了赶上病原菌的变化步伐而采取快速进化来抵抗随时间而变化的病原群体。通过分析拟南芥的RPm1基因侧翼序列也得到这样的结论。第4,比较基因组学也可对某特定等位基因的变化的分子基础进行研究[9]。至今,只有极少数通过同源重组,实现蛋白质结构域的域置换试验成功。这些结果显示NBS!LRR编码基因的LRR区域是非常重要的,但它不是专一性的唯一决定簇。随着测序效率的提高,将建立抗性基因相关序列的数据库,这些序列信息可作为基因步行试验的模板,为克隆新的抗性基因提供极大的帮助。第5,比较基因组作图表明,染色体上的DNA标记排列具有共线性[10]。如小麦的基 生物信息学在基因组学中的应用 沈春修 (宜春学院,江西宜春336000) 摘要随着计算机科学、物理学、数学等与生命科学的相互渗透和交叉,生物信息学愈来愈显示出其重要性,尤其是在抗病基因的研究中。笔者从结构基因组、比较基因组、功能基因组与生物信息学等方面论述了生物信息学在基因组学中的应用。关键词抗性基因;结构基因组;比较基因组;功能基因组;生物信息学 中图分类号Q78文献标识码A文章编号0517-6611(2007)20-06054-02 安徽农业科学,JournalofAnhuiAgri.Sci.2007,35(20):6054-6055,6057责任编辑王淼责任校对王淼

生物信息学复习题及答案

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

人类基因组计划和生物信息学

人类基因组计划和生物信息学 徐新来 安道昌 王 芷3 李 青 付红波 (中国生物工程中心 北京100081)(3中国科技信息研究所 北京100038) 提要:介绍人类基因组计划和生物信息学,阐述了两者的关系,提出了在人类基因组计划中发展生物信息学的策略。 一、引 言 人类基因组计划(H um an Genom e P ro 2ject ,H GP )是美国在1990年提出实施的一项大科学计划,在世界各国引起了很大反响。计划的提出旨在对人类基因组3×109 个脱氧核苷酸对进行作图和测序,进而解读和破译生老病死以及语言、记忆和疾病发生的遗传信息。而生物信息学是集生物学、数学、信息学、计算机科学一体化的一门新的学科。早在H GP 提出时就预示到生物信息学的重要性,当时就成立了有42位著名专家组成的生物信息学任务组。随着人类基因组计划的进展,基因组的数据和信息大量,迅速地增加,信息的收集、储存、分发、分析的管理越来越显得紧迫和重要。利用数学模式和计算机处理数据的功能来处理和分析大量增加的人类基因组信息的结果,使人类基因组计划和生物信息学紧紧地结合起来了,而且随着两者的紧密结合和互相渗透,人类基因组计划的前进步伐会大大加快,从而提前完成计划,为人类造福。 二、从人类基因组计划看 生物信息学 美国在1990年率先提出H GP ,计划用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp )的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。 遗传图谱、物理图谱的建立是测序的必要条件;遗传图谱是根据遗传连锁标志之间的重组频率来确定它们的距离,遗传图谱的建立为基因识别和完成基因定位创造了条件。物理图谱是以核苷酸的长度为单位绘制而成,详细描述染色体上界标间的距离,主要是编码蛋白质的外显子和排序DNA 克隆库组成,这些DNA 分子克隆库相互交错、重叠。人类基因组全部DNA 序列的测定是H GP 的核心部分;随着遗 传和物理图谱的完成和即将完成,测序就成为今后重中之重的工作。而大规模测序技术的改进及分析大片段DNA 序列的生物信息技术的进步,对完成人类基因组全部核苷酸顺序测定起着决定性作用。测序的完成依赖物理图谱上的排序的DNA 片段分子克隆,这些分子图谱通常是在较短的时间由一个研究组从单一分离群体中获得的,为了充分利用所有资料信息,要对其全部标记的同时进行分析,这种分析涉及十分庞杂和巨大的计算,手工无法完成。基因识别是H GP 的重要内容之一;目的是要识别全部人类的基因,即基因组在生命活动中发生转录表达的DNA 片段,并对其结构进行研究。目前常采用的有二种方法:一是从基因组顺序中识别那些转录表达的DNA 片段;二是从c D 2 NA 文库中挑取并克隆。两种方法都必须依靠生物信息学的帮助即信息系统的建立;前者需要对基因组进行分析,后者要对基因文库进行分析,甚至还要进行分类分型,建立二级库,才能有效地挑取到所需要的DNA 分子克隆。模式生物基因组在H GP 中占有重要的位置;模 — 06—高技术通讯 1998181

生物信息学主要内容和发展前景

生物信息学主要内容和发展前景 学生:xxx (x学院xxxx班,学号xxxxxxxxxxx) 摘要:21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。 关键字:生物信息学;产生;研究内容;展现状;前景 随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展,被誉为“解读生命天书的慧眼”。 一、生物信息学的产生 21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,与此同时,诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,以及逐步受到各国政府重视的信息高速公路计划的实施,为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。 二、生物信息学研究内容 (一)序列比对 比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序

生物信息学常用工具

常用DNA和蛋白质序列数据分析工具: ●序列比对工具: a)BLAST: ●网络比对,包括基础的Blast比对、参数、特殊Blast如PSI-Blast、Blast2 等; ●本地比对,包括程序下载、安装、数据库的下载及格式化、Blast程序的 运行等。 b)多序列比对ClustalX(Windows系统) 包括程序下载、安装、及程序的运行、结果的输入输出等。 ●真核生物基因结构的预测: a)基因可读框的识别: Genescan; CpG岛、转录终止信号和启动子区域预测; CpGPlot; POLYAH; PromoterScan; b)基因密码子偏好性: CodonW; c)采用mRNA序列预测基因: Spidey; d)ASTD数据库 ●分子进化遗传分析工具 ●MEGA;

●Phylip; ●蛋白质结构和功能预测 a)一级结构 ProtParam蛋白质序列理化参数检索; ProtScale蛋白质疏水性分析; COILS卷曲螺旋预测; b)二级结构 PredictProtein蛋白质结构预测; PSIPRED不同蛋白质结构预测方法; c)InterProScan: 模式和序列谱研究 Prosite:蛋白质结构域、家族和功能为点数据库; Pfam:蛋白质家族比对和HMM数据库; BLOCK:模块搜索数据库; SMART:简单模块架构搜索工具; TMHMM:跨膜结构预测工具; d)三级结构 Swiss-Model Workspace: 同源建模的网络综合服务器; Phyre:线串法预测蛋白质折叠; HMMSTR/Rosetta:从头预测蛋白质结构; Swiss-PdbViewer:分子建模和可视化工具; 序列模体的识别和解析; MEME程序包; ●蛋白质谱数据分析

生物信息学常用核酸蛋白数据库

(1)GenBank https://www.360docs.net/doc/e915717368.html,/ (2)dbEST (Database of Expressed Sequence Tags) https://www.360docs.net/doc/e915717368.html,/dbEST/index.html (3)UniGene 数据库 https://www.360docs.net/doc/e915717368.html,/UniGene/ (4)dbSTS (Database of Sequence Tagged Sites) https://www.360docs.net/doc/e915717368.html,/dbSTS/index.html (5)dbGSS (Database of Genome Survey Sequences) https://www.360docs.net/doc/e915717368.html,/dbGSS/index.html (6)HTG (High-Throughput Genomic Sequences) https://www.360docs.net/doc/e915717368.html,/HTGS/ (7)基因组数据库 https://www.360docs.net/doc/e915717368.html,/sites/entrez?db=genome (8)dbSNP (Database of Single Nucleotide Polymorphisms) 单核苷酸多态性数据库https://www.360docs.net/doc/e915717368.html,/sites/entrez?db=snp (9)EMBL (European Molecular Biology Laboratory) https://www.360docs.net/doc/e915717368.html,/embl (10)DDBJ (DNA Data Bank of Japan) http://www.ddbj.nig.ac.jp/Welcome-e.html 启动子(11)EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ 2、蛋白质数据库 https://www.360docs.net/doc/e915717368.html,/swissprot (2)TrEMBL (Translation of EMBL) https://www.360docs.net/doc/e915717368.html,/swissprot/ (3)PIR (Protein Information Resource) https://www.360docs.net/doc/e915717368.html, (4)PRF (Protein Research Foundation) http://www.prf.or.jp/en/os.html (5)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.ad.jp (6)Prosite https://www.360docs.net/doc/e915717368.html,/prosite 3、结构数据库 (1)PDB (Protein Data Bank) https://www.360docs.net/doc/e915717368.html, (2)NDB(Nucleic Acid Database) https://www.360docs.net/doc/e915717368.html,/ (3)DNA-Binding Protein Database https://www.360docs.net/doc/e915717368.html,/ (4)SWISS-3D IMAGE http://www.expasy.ch/sw3d/

相关文档
最新文档