蛋白质结构预测和序列分析软件

合集下载

生物学软件_大全(二)

生物学软件_大全(二)

引言概述:生物学软件在现代科学研究中扮演着重要的角色,它们为生物学家们提供了数据分析、模拟实验等功能,帮助他们更好地理解生命的复杂性。

本文将为大家介绍一系列生物学软件,帮助生物学家们在研究中更高效地工作。

正文内容:1.生物信息学软件1.1基本基因序列分析软件1.1.1BLAST:用于序列比对和相似性搜索,帮助确定生物序列的功能和结构。

1.1.2ClustalOmega:用于多序列比对的工具,帮助研究人员查找序列间的共同特征。

1.1.3EMBOSS:一套开源的生物信息学软件,包含各种工具用于序列分析、蛋白质结构分析等。

1.2基因组数据分析软件1.2.1GATK:广泛用于基因组重测序数据的分析和变异检测。

1.2.2BEDTools:用于处理基因组坐标的工具,帮助研究人员在基因组中定位感兴趣的特定区域。

1.2.3HMMER:用于比对蛋白质序列和荧光探针序列的隐马尔可夫模型工具。

2.结构生物学软件2.1Rosetta:一套用于结构预测和蛋白质构象优化的软件,帮助研究人员研究蛋白质的结构和功能。

2.2PyMOL:一种用于可视化分子结构的工具,它可以高质量的分子图像,并为研究人员提供结构分析的功能。

2.3Coot:用于蛋白质结构分析和模型建立的软件,可帮助研究人员在解析蛋白质结构时进行手动操作和调整。

2.4CCP4:一个用于蛋白质晶体学的软件套件,用于解析晶体结构和进行结构决策。

2.5SwissPdbViewer:一种用于蛋白质结构可视化和分析的软件,具有多种功能和工具。

3.蛋白质互作软件3.1STRING:综合性的蛋白质互作数据库和分析工具,帮助研究人员理解蛋白质之间的相互作用关系。

3.2Cytoscape:一个用于细胞网络分析和可视化的软件,可用于研究蛋白质之间的相互作用网络。

3.3ClusPro:一种用于蛋白质蛋白质和蛋白质配体互作的软件,可用于预测互作模型和分析互作强度。

3.4InterProSurf:一种用于预测和分析蛋白质间相互作用界面的工具,可以帮助研究人员理解蛋白质互作的机制。

DNAstar的介绍及使用

DNAstar的介绍及使用

DNAstar软件组成 DNAstar软件组成
1. EditSeq :用来将DNA或蛋白质序列的数据输入计算机的 :用来将DNA或蛋白质序列的数据输入计算机的 工具,同时还具有编辑已有序列的功能。 2. MapDraw:酶切图谱分析,克隆实验设计,分析及处理 MapDraw:酶切图谱分析,克隆实验设计,分析及处理 实验结果等。同时还具有绘制质粒图谱的功能。 3. GeneQuest:帮助查找和注释DNA序列中的基因和其他特 GeneQuest:帮助查找和注释DNA序列中的基因和其他特 征序列,包括ORFs,剪接位点,转录因子结合位点,重复序 征序列,包括ORFs,剪接位点,转录因子结合位点,重复序 列和酶切位点等。 4. MegAlign:对DNA或蛋白质序列进行同源比较,有六种 MegAlign:对DNA或蛋白质序列进行同源比较,有六种 不同的对准算法供用户选择。在同源比较的同时,能很快输 出进化树和进化距离等数据。 5. Protean:分析和预测蛋白质结构,提供各种分析方法并以 Protean:分析和预测蛋白质结构,提供各种分析方法并以 图形的格式输出结果,显示蛋白质分子的各种理化特性以及 例如抗原决定族等功能区的预测功能。 6. PrimerSelect:设计PCR引物、测序引物和探针。 PrimerSelect:设计PCR引物、测序引物和探针。 7. SeqMan II :多序列拼接。最多支持64000条序列的同时拼 :多序列拼接。最多支持64000条序列的同时拼 接。在拼接前可以对序列进行修正,对自动测序的序列结果 可除去污染序列或载体序列。整个拼装过程即时显示,并提 示可能的完成时间。拼装结果采用序列、策略等方式显示。
分析和预测蛋白质结构提供各种分析方法并以图形的格式输出结果显示蛋白质分子的各种理化特性以及图形的格式输出结果显示蛋白质分子的各种理化特性以及例如抗原决定族等功能区的预测功能

分子生物学实验中的分析软件使用方法介绍

分子生物学实验中的分析软件使用方法介绍

分子生物学实验中的分析软件使用方法介绍随着科技的发展和进步,分子生物学实验的数据量不断增加,对于这些大量的数据进行分析成为了科研工作者不可或缺的一部分。

为了更好地处理和解读这些数据,科研人员们使用各种分析软件来辅助他们的研究工作。

本文将介绍一些常用的分析软件及其使用方法。

一、基因序列分析软件基因序列分析软件是分子生物学实验中最常用的软件之一,它们用于分析DNA或RNA序列以及蛋白质序列。

其中,NCBI Blast是一种非常常用的基因序列比对软件,它可以通过将待比对的序列与已知的序列数据库进行比对,从而确定序列的相关性和相似性。

使用NCBI Blast,我们可以快速找到与我们研究对象相关的序列信息。

二、基因表达分析软件基因表达分析软件用于分析基因在不同组织或条件下的表达水平,以及基因调控网络等。

在这方面,R语言是一种非常强大的工具。

通过使用R语言中的各种包和函数,我们可以对基因表达数据进行聚类分析、差异表达分析、通路富集分析等。

同时,R语言还提供了丰富的数据可视化功能,可以帮助我们更好地展示和解读实验结果。

三、蛋白质结构分析软件蛋白质结构分析软件主要用于预测蛋白质的三维结构以及模拟蛋白质的动力学行为。

其中,Swiss-PdbViewer是一种常用的蛋白质结构可视化软件,它可以帮助我们观察和分析蛋白质的结构特征。

而GROMACS则是一种常用的分子动力学模拟软件,它可以模拟蛋白质在不同环境下的运动轨迹,帮助我们理解蛋白质的功能和机制。

四、基因组学分析软件基因组学分析软件主要用于处理和分析整个基因组的数据,包括基因组序列、基因组注释以及基因组变异等。

在这方面,Ensembl是一种非常常用的基因组分析软件。

它提供了大量的基因组数据和工具,可以帮助我们进行基因组注释、基因组比对以及基因组变异的分析。

五、细胞图像分析软件细胞图像分析软件用于分析和处理细胞图像数据,帮助我们了解细胞的形态和功能。

其中,ImageJ是一种非常流行的细胞图像分析软件,它提供了丰富的图像处理和分析工具,可以帮助我们进行细胞计数、细胞形态分析以及细胞追踪等。

生命科学中常用的软件及其应用

生命科学中常用的软件及其应用

生命科学中常用的软件及其应用生命科学是一个涉及多个学科交叉的领域,其中运用到的软件非常丰富。

这些软件可以帮助生命科学研究人员完成从基因组测序到蛋白质结构分析的各种复杂任务。

在这篇文章中,我们将介绍一些生命科学中常用的软件及其应用,帮助读者更好地了解这个领域。

1. BLASTBLAST(基本局部序列比对工具)是基因组测序领域中最常用的软件之一。

它可以在数据库中进行序列比对,并根据相似性评分进行排序和过滤。

BLAST的应用非常广泛,包括在基因组测序和蛋白质结构分析中用于序列比对,DNA和蛋白质序列注释,以及进化分析等。

2. CLC Genomics WorkbenchCLC Genomics Workbench是一个功能强大的基因组分析软件,可以用于基因组测序和生物信息学分析。

它可以处理各种不同类型的数据,包括RNA测序数据、DNA测序数据和蛋白质序列数据。

使用该软件,科学家可以进行基因组组装、基因表达分析、SNP检测、CNV分析等多种复杂的分析任务。

3. PyMOLPyMOL是一个用于分子可视化和分析的软件。

它可以用于可视化蛋白质、DNA和RNA结构,以及与其他分子的相互作用。

在生物学研究中,PyMOL被广泛用于研究蛋白质结构和功能。

化学公式、分子等多种形式,都能够被轻松制作出来。

4. RR是一个免费的数据分析软件,主要用于统计分析、数据可视化和预测模型的建立。

在生命科学中,R被广泛用于基因表达分析、蛋白质结构预测、生存分析等多个领域。

它是生命科学研究者进行大规模数据分析的首选工具之一。

5. CytoscapeCytoscape是一款网络分析软件,用于研究生物分子间的相互作用,例如蛋白质-蛋白质相互作用,基因调控网络等。

Cytoscape具有丰富的图形界面,可以使用各种插件来进行网络建模、可视化和分析。

6. HMMERHMMER是用于进行隐马尔可夫模型(HMM)建模和分析的工具软件。

在生命科学领域,HMMER被用于进行蛋白质序列比对和蛋白质家族分类。

常用生物数据分析软件

常用生物数据分析软件

常用生物数据分析软件在生物科学领域中,数据分析是一项重要的任务。

随着技术的进步,生物学研究的数据规模不断扩大,例如基因组测序数据、蛋白质互作数据、表达谱数据等。

为了处理和分析这些大规模的生物学数据,许多生物数据分析软件被开发出来。

本文将介绍一些常用的生物数据分析软件。

1.R:R是一个流行的统计分析和图形化软件,也是生物学家常用的数据分析工具之一、R具有强大的数据分析功能和广泛的统计工具包,适用于各种生物学数据分析任务,例如基因表达分析、蛋白质结构预测、基因组测序等。

2. Python:Python是一种通用的编程语言,也被广泛用于生物数据分析。

Python拥有丰富的生物信息学工具包,例如Biopython,可用于处理和分析蛋白质序列和结构、基因组测序数据等。

Python还具有强大的数据处理和可视化能力,适用于各种生物学数据分析任务。

3. NCBI工具:NCBI(美国国家生物技术信息中心)提供一系列在线工具用于生物数据分析。

NCBI提供的工具包括BLAST用于序列比对、Entrez用于文献检索、GenBank用于基因组测序数据等。

这些工具对于进行一些常见的生物数据分析任务非常有用。

4. Bioconductor:Bioconductor是一个用于生物数据分析的开源软件包集合。

Bioconductor提供了许多R语言工具包,包括用于基因表达分析、蛋白质互作网络分析等。

这些工具包提供了丰富的生物学统计学和机器学习算法,可以帮助研究人员进行高质量的生物数据分析。

5. Cytoscape:Cytoscape是一个用于生物网络分析和可视化的软件。

它可以用来分析和可视化蛋白质互作网络、基因调控网络等。

Cytoscape提供了许多插件和工具,使得生物网络分析更加方便和高效。

6. Galaxy:Galaxy是一个用于生物数据分析的在线平台。

它提供了许多常用的生物数据分析工具,并提供了一个用户友好的界面,使得生物学家可以无需编程就能进行复杂的生物数据分析任务。

蛋白质结构预测在线软件

蛋白质结构预测在线软件

蛋白质结构预测在线软件随着计算机技术的发展,越来越多的蛋白质结构预测在线软件被开发出来,并且被广泛应用于生物学研究。

本文将介绍几个常用的蛋白质结构预测在线软件,并对它们的原理和优缺点进行分析。

首先,我要介绍的是PHYRE2、PHYRE2是一款基于比较模型的蛋白质结构预测软件,它通过将待预测的蛋白质序列与已知结构库中的蛋白质序列进行比对,从而预测目标蛋白质的结构。

PHYRE2具有高度自动化的特点,可以在较短的时间内进行大量的结构预测。

但是,PHYRE2的准确性和可靠性相对较低,因为它只依赖于已知结构的信息。

其次,我要介绍的是I-TASSER。

I-TASSER是一种基于碎片装配的蛋白质结构预测软件,它通过将目标蛋白质的序列分解为小的片段,然后通过模板和螺旋转角预测来重新组装这些片段,从而得到目标蛋白质的结构。

I-TASSER具有较高的准确性和可靠性,并且在多个蛋白质结构预测比赛中表现出色。

然而,I-TASSER的计算速度较慢,需要较长的时间来进行结构预测。

另外,我要介绍的是Rosetta。

Rosetta是一种基于物理学的蛋白质结构预测软件,它通过对蛋白质的能量进行优化来确定最稳定的结构。

Rosetta具有较高的准确性和可靠性,并且可以进行全原子级别的结构预测。

然而,由于Rosetta的计算复杂性较高,需要大量的计算资源来进行结构预测。

除了以上介绍的几种蛋白质结构预测在线软件,还有许多其他的软件可供选择,如PSIPRED、HHPred等。

这些软件在原理和性能上有所差异,但都能够对蛋白质的结构进行预测,并为生物学研究提供重要的参考信息。

总结起来,蛋白质结构预测是生物信息学领域的重要课题,需要借助计算机算法来进行预测。

目前有许多蛋白质结构预测在线软件可供选择,它们在原理、准确性、可靠性和计算速度等方面有所差异。

选择合适的软件进行蛋白质结构预测,将对生物学研究产生重要的影响。

免费分子生物学软件

免费分子生物学软件
(二)蛋白质分析软件(AnTheProt)
AnTheProt包括蛋白质研究领域的大多数内容,功能非常强大。应用此软件包,使用个人电脑,便能进行各种蛋白质序列分析与特性预测,包括:进行蛋白质序列二级结构预测;在蛋白质序列中查找符合PROSITES数据库的特征序列;绘制出蛋白质序列的所有理化特性曲线;在互联网或本地蛋白质序列数据库中查找类似序列;计算蛋白质序列相对分子质量,计算蛋白质序列滴定曲线与等电点及计算信号肽潜在的断裂位点等许多功能。网址为:http://www.ibcp.fro
免费分子生物学软件
互联网上有许多免费分子生物学软件,一些是在线使用的,也有一些可以下载在PC机上使用。
(一)质粒作图软件(P1asmidProcessor)
PlasmidProcessor是一种免费绘制质粒图软件,可以绘制线状或环状DNA。用户定义限制位点、基因段与多克隆位点,还可插入或删除DNA片段,支持剪贴板、打印和存盘功能。下载站点:http://u.fi/_kiviraum/plasmid/plasmid.html。
(九)进化树生成与分析软件(PHYLIP)
PHYLIP用来进行进化树分析。它可以分析DNA与蛋白质序列,并可绘制进化树。
程序含有许多选项可以精确控制与分析。下载网站地址为:http:///phylip.html。
(十)进化树打印软件(TreeView)
(五)序列格式转换软件(Forቤተ መጻሕፍቲ ባይዱon)
ForCon是核酸与蛋白质不同序列格式文件的转换软件,可双向转换各种常见的多序列格式文件。下载站点为:http://bioc-www.Uia.ac.be/u/jraes。
(六)序列格式转换软件(SeqVerter)

生物大数据分析的常用工具和软件介绍

生物大数据分析的常用工具和软件介绍

生物大数据分析的常用工具和软件介绍生物大数据的快速发展和应用需求推动了生物信息学工具和软件的不断发展。

这些工具和软件提供了一系列功能,如序列分析、基因表达分析、蛋白质结构预测、功能注释等,帮助研究人员从大量的生物数据中提取有意义的信息。

下面将介绍一些常用的生物大数据分析工具和软件。

1. BLAST(Basic Local Alignment Search Tool)BLAST是最常用的序列比对工具之一,用于比对一条查询序列与已知序列数据库中的序列。

通过比对确定序列之间的相似性,从而推断其功能和结构。

BLAST具有快速、准确、用户友好的特点,适用于DNA、RNA和蛋白质序列的比对。

2. GalaxyGalaxy是一个基于Web的开源平台,提供了许多生物信息学工具和软件的集成。

它提供了一个易于使用的界面,使得用户可以通过拖放操作完成复杂的数据分析流程。

Galaxy支持不同类型的数据分析,包括序列比对、组装、注释、表达分析等。

3. R包R是一个功能强大的统计语言和环境,用于数据分析和可视化。

R包提供了许多用于生物数据分析的扩展功能。

例如,"Bioconductor"是一个R软件包,提供了丰富的生物数据分析方法和工具,包括基因表达分析、序列分析、蛋白质分析等。

4. GATK(Genome Analysis Toolkit)GATK是一个用于基因组数据分析的软件包,主要用于研究DNA变异。

它包含了各种工具和算法,用于SNP检测、基因型调用、变异注释等。

GATK还在处理复杂变异(如复杂多态位点)和群体遗传学分析方面具有独特的优势。

5. CytoscapeCytoscape是一个用于生物网络分析和可视化的开源平台。

它可以用于可视化和分析蛋白质-蛋白质相互作用网络、基因共表达网络、代谢网络等。

Cytoscape提供了丰富的插件,使得用户可以根据自己的需要进行网络分析和可视化。

6. DAVID(Database for Annotation, Visualization, and Integrated Discovery)DAVID是一个用于功能注释和富集分析的在线工具。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质结构预测和序列分析软件2010-05-08 20:40转载自布丁布果最终编辑布丁布果4月18日蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库1、 SWISS-PROT 数据库SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。

SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。

该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。

SWISS-PROT 的序列数量呈直线增长。

2、TrEMBL数据库:SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。

一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。

为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。

TrEMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。

3、PIR数据库:PIR数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的DNA序列。

1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。

PIR根据注释程度(质量)分为4个等级。

4、 ExPASy数据库:目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。

涵盖了上述所有的数据库。

网址:我国的北京大学生物信息中心() 设立了ExPASy的镜像(Mirror)。

主要蛋白质序列数据库的网址SWISS-PROT /sprot或 /expasy_urls.htmlTrEMBL /sprotPIR /pirwwwMIPS——Munich Information Centre for Protein Sequenceshttp://mips.gsf.de/JIPID——the Japanese International Protein Sequence Database已经和PIR合并ExPASy 二、蛋白质结构数据库1、PDB数据库:实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB(Protein Data Bank)中。

PDB是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。

PDB贮存有由X射线和核磁共振(NMR)确定的结构数据。

2、NRL-3D 数据库:NRL-3D(Naval Research Laboratory-3D)数据库提供了贮存在PDB库中蛋白质的序列,它可以进行与已知结构的蛋白质序列的比较。

3、HSSP数据库:对来自PDB中每个已知三维结构的蛋白质序列进行多序列列线(multiple sequence alignment)同源性比较的结果,被贮存在HSSP(homology-derived second structures of proteins)数据库中。

被列为同源的蛋白质序列很有可能具有相同的三维结构,HSSP因此根据同源性给出了SWISS-PROT数据库中所有蛋白质序列最有可能的三维结构。

4、 SCOP数据库:要想了解对已知结构蛋白质进行等级分类的情况可利用SCOP(Structural classification of proteins)数据库,在该库中可以比较某一蛋白质与已知结构蛋白的结构相似性。

5、CATH 数据库:CATH(Class, Architecture, Topology and Homologous superfamily)是与SCOP类似的一个数据库。

蛋白质结构数据库网址PDB/pdb (美国)/pdb (欧洲)NRL-3D/pirwww/dbinfo/nrl3d.htmlHSSP/hssphttp://www.cmbi.kun.nl/gv/hsspSCOP /scopCATH /bsm/cath/latest/index.html三、蛋白质二级结构预测网站(数据库)4、Prosite(蛋白质序列功能位点数据库)始建于1990年代初,由瑞典生物信息学研究所SIB负责维护。

基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。

数据库包括两个数据库文件:数据文件Prosite;说明文件PrositeDoc。

Prosite的网址:/prosite5、DSSP (Definition of Secondary Structure of Proteins)蛋白质二级结构构象参数数据库DSSP的网址:http://www.cmbi.kun.nl/gv/dssp6、FSSP (Families of Structural Similar Proteins)蛋白质家族数据库FSSP的网址:/dall/fssp7、HSSP(Homology Derived Secondary Structure of Proteins)同源蛋白质数据库HSSP的网址: http://www.cmbi.kun.nl/gv/hssp在前面已经述说过了。

第二节、蛋白质序列分析方法一、多序列比对双序列比对是序列分析的基础。

然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征。

多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。

多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。

与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。

因此,正如我们不能对双序列比对的结果得出“正确或错误”的简单结论一样,多序列比对的结果也没有绝对正确和绝对错误之分,而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。

目前,构建多序列比对模型的方法大体可以分为两大类。

第一类是基于氨基酸残基的相似性,如物化性质、残基之间的可突变性等。

另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也就是说根据序列的高级结构特征确定比对结果。

这两种方法所得结果可能有很大差别。

一般说来,很难断定哪种方法所得结果一定正确,应该说,它们从不同角度反映蛋白质序列中所包含的生物学信息。

基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。

蛋白质序列是经过DNA序列转录翻译得到的。

从信息论的角度看,它应该与DNA分子所携带的信息更为“接近”。

而蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修饰所增加的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质结构。

因此,这也是对完全基于序列数据比对方法批评的主要原因。

如果能够利用结构数据,对于序列比对无疑有很大帮助。

不幸的是,与大量的序列数据相比,实验测得的蛋白质三维结构数据实在少得可怜。

在大多数情况下,并没有结构数据可以利用,我们只能依靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。

多序列比对的定义为了便于描述,对多序列比对过程给出下面的定义。

把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。

将序列依照下列规则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐(表1)。

我们称比对前序列中残基的位置为绝对位置。

如序列Ⅰ的第3位的残基是甘氨酸G,则绝对位置Ⅰ3就是甘氨酸,而不能变成任何其它氨基酸。

相应地,我们称比对后序列中残基的位置为相对位置。

显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。

绝对位置是序列本身固有的属性,或者说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属性。

算法复杂性多序列比对的计算量相当可观,因此有必要分析以下技术的复杂性。

双序列比对所需要的计算时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用O (m1m2)表示。

其中m1、m2是指两条序列的长度。

三序列比对则可以理解为将双序列比对的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。

这样算法复杂性就变成了O (m1m2m3),其中m3表示第三条序列的长度。

随着序列数量的增加,算法复杂性也不断增加。

我们用O(m1m2m3…mn)表示对n个序列进行比对时的算法复杂性,其中mn是最后一条序列的长度。

若序列长度相差不大,则可简化成O(mn),其中n表示序列的数目,m表示序列的长度。

显然,随着序列数量的增加,序列比对的算法复杂性按指数规律增长。

降低算法复杂性,是研究多序列比对的一个重要方面。

为此,产生了不少很有实用意义的多序列比对算法。

这些方法的特点是利用启发式(heuristics)算法降低算法复杂性,以获得一个较为满意但并不一定是最优的比对结果,用来找出子序列、构建进化树、查找保守序列或序列模板,以及进行聚类(clustering)分析等。

有的算法将动态规划和启发性算法结合起来。

例如,对所有的序列进行两两比对,将所有的序列与某个特定的序列进行比对,根据某种给定的亲源树进行分组比对,等等。

必须指出,上述方法求得的结果通常不是最优解,至少需要经过n-1次双序列比对,其中n为参与比对的序列个数。

比对方法1)手工比对方法手工比对方法在文献中经常看到。

因为难免加入一些主观因素,手工比对通常被认为有很大的随意性。

其实,即使用计算机程序进行自动比对,所得结果中的片面性也不能予以忽视。

在运行经过测试并具有比较高的可信度的计算机程序基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,应该说是非常必要的多序列比对的软件已经有许多,其中一些带有编辑程序。

相关文档
最新文档