生物序列的同源性搜索 -blast简介及其应用

合集下载

生物信息学期末复习资料（小字）

生物信息学期末复习资料（小字）名词解释或辨析。

1.生物信息学：生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.基因芯片：固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行杂交，可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划：HGP，是一项规模宏大，跨国跨学科的科学探索工程。

其宗旨在于测定组成人类染色体（指单倍体)中所包含的30亿个碱基对组成的核苷酸序列，从而描绘人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

4.中心法则：分子生物学的基本法则，是1958年由克里克（Crick）提出的遗传信息传递的规律，包括由DNA到DNA的复制，由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。

20世纪70年代逆转录酶的发现，表明还有由RNA逆转录形成DNA的机制，是对中心法则的补充和丰富。

5.相似性和同源性：相似性（similarity）和同源性（homology）是两个完全不同的概念。

同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。

相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。

当两条序列同源时，他们的氨基酸或核苷酸序列通常有显著的一致性（identity）。

如果两条系列有一个共同进化的祖先，那么他们是同源的。

这里不存在同源性的程度问题，两条序列要么是同源的要么是不同源的。

1.生物信息学：综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。

包括生物学数据的研究、存档、显示、处理和模拟，基因组遗传和物理图谱的处理，核苷酸和氨基酸序列分析，新基因的发现和蛋白质结构的预测等。

2.蛋白质组：指由一个基因组，或一个细胞、组织表达的所有蛋白质。

关于分子生物学中的同源性分析

关于分子生物学中的同源性分析作者：李尚伟杜娟来源：《教育教学论坛》2014年第51期摘要：同源性是指在进化过程中源于同一祖先的分支之间的关系，包括直系同源和旁系同源。

直系同源基因描述在不同物种中来自于共同祖先的基因，而旁系同源基因描述在同一物种内由于基因复制而分离的同源基因。

同源性与相似性是两个不同的概念，前者是质的概念，后者突出量的描述，但它们之间又有一定关系，可以通过相似性来推测序列是否具有同源性。

介绍了用BLAST进行序列同源性分析的方法。

关键词：同源性；直系同源；旁系同源；相似性；BLAST中图分类号：G642.0 文献标志码：A 文章编号：1674-9324（2014）51-0184-02在分子生物学的教学及研究中，经常对核苷酸或氨基酸序列进行比对以确定基因之间或蛋白质之间的同源关系，进而根据同源性来推测物种间的亲缘关系。

基因或蛋白质之间的同源关系包括直系同源和旁系同源，序列间的同源性可用相似性或一致性来进行量化，用相似性（一致性）来判断序列是否同源。

一、同源性的概念在生物学中，同源性（homology）是指在进化过程中源于同一祖先的分支之间的关系。

我们可以在生物学的不同层次（如形态性状、分子性状等）上进行同源性分析，形态性状由于进行上或个体发育上的共同来源而呈现出本质上的相似性，但其功能不一定相同，那么它们就是同源的，如马的前肢与鸟的翅就是同源器官。

在分子水平上同源性主要是指基因的核苷酸序列或蛋白质的氨基酸序列之间的相似程度。

同源基因或蛋白质（homolog）指遗传上从某一共同祖先经趋异进化而形成的具有不同序列的基因或蛋白质。

同源性是一个相对的概念，在一定水平和范围内对其研究才有意义[1]。

二、直系同源与旁系同源同源关系包括两种类型：直系同源（ortholog）和旁系同源（paralog）。

这里我们主要以同源基因为例来进行讨论，同源蛋白质是同样的情况。

同源基因是遗传上来自某一共同祖先DNA序列的基因，包括直系同源基因和旁系同源基因。

BLAST检索和比对

BLAST检索和比对Alignment: 序列比对。

将两个或多个序列排在一起，以达到最大一致性的过程（对于氨基酸序列是比较它们的保守性），这样可以评估序列间的相似性和同源性。

Algorithm: 算法。

在计算机程序中包含的一种固定过程。

Bioinformatics: 生物信息学。

一门结合生物技术和信息技术从而揭示生物学中新原理的科学。

Bit score: 二进制。

二进制值S＇源于统计性质被数量化的打分系统中产生的原始比对分数S。

由于二进制值相对于打分系统已经被标准化，它们常用于比较不同搜索之间的比对分数。

BLAST: 基本的局部相似性比对搜索工具。

在序列数据库中快速查找与给定序列具有最优局部对准结果的序列的一种序列比对算法。

初步搜索是对打分至少为T、长度为W的词进行的。

打分的过程是用一个替代矩阵对查询序列和该词作比较。

然后词长可以试着向两端伸长以获得一个超过阈值S的打分。

参数T反映了搜索的速度大小和敏感性。

可以参见BLAST的用户指南和BLAST使用指导来获得更详细的信息。

BLOSUM: 模块替换矩阵。

在替换矩阵中，每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的。

每个矩阵被修改成一个特殊的进化距离。

例如，在BLOSUM62矩阵中，是使用一致性不超过62%的序列进行配对来获得打分值的。

一致性大于62%的序列在配对时用单个序列表示，以避免过于强调密切相关的家族成员。

Conservation: 保守。

指氨基酸或DNA（普遍性较小）序列某个特殊位置上的改变，并不影响原始序列的物理化学性质。

Domain: 结构域。

蛋白质在折叠时与其他部分相独立的一个不连续的部分，它有着自己独特的功能。

DUST: 一个低复杂性区段过滤程序。

E value: E值。

期望值。

在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数。

E值越低，表明该打分值的显著性越好。

Filtering: 过滤，也叫掩蔽（masking）。

河大生科院生物信息学考试复习题答案完整版

名词解释1)生物信息学:生物信息学(Bioinformatics)是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)人类基因组计划: 是由美国科学家于1985年率先提出，于1990年正式启动的，宗旨在于测定组成人类染色体（指单倍体）中所包含的30亿个碱基对组成的核苷酸序列，从而绘制人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

3)基因芯片:又称DNA阵列或DNA芯片是一块带有DNA微阵列（micorarray）的特殊玻璃片或硅芯片片，在数平方厘米之面积上布放数千或数万个核酸探针；检体中的DNA、cDNA、RNA等与探针结合后，借由荧光或电流等方式侦测。

4)中心法则:是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA，即完成DNA的复制过程。

5)一级数据库:一级数据库主要包括原始数据，例如DNA序列、蛋白质序列和蛋白质结构等信息。

数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。

名词辨析1)信息技术与生物信息学：信息技术是研究信息的获取、传输和处理的技术，由计算机技术、通信技术、微电子技术结合而成，即是利用计算机进行信息处理，利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。

生物信息学是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)基因与基因组：基因是指具有遗传效应的DNA片段。

而基因组指的是单倍体细胞中的全套染色体，或是单倍体细胞中的全部基因。

3)相似性与同源性：相似性是指不同染色体之间基因序列的相似或相异程度。

同源性是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。

NCBI功能详介分解

GenBank Overview基本信息∙什么是GenBank？GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。

每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。

GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

∙纪录样本 - 关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

∙访问GenBank - 通过Entrez Nucleotides来查询。

用accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。

关于Entrez更多的信息请看下文。

用BLAST来在GenBank和其他数据库中进行序列相似搜索。

用E-mail来访问Entrez和BLAST可以通过Query 和BLAST服务器。

另外一种选择是可以用FTP下载整个的GenBank和更新数据。

∙增长统计 - 参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank 增长）小节。

∙公布通知，最新 - 最近和即将有的变化，GenBank的分类，数据增长统计，GenBank的引用。

∙公布通知，旧 - 同上相同，是过去公布的统计。

∙遗传密码 - 15个遗传密码的概要。

用来确保GenBank中纪录的编码序列被正确的翻译。

（向）GenBank提交（数据）∙关于提交序列数据，收到accession number，和对纪录作更新的一般信息。

∙BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。

（请在提交前用VecScreen去除载体）∙Sequin - 提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。

可以独立使用，或者用基于TCP/IP的“network aware”模式，可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。

生物信息学名词解释

1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科模型;处理及分析，并以生物学知识2.二级数据库：3.FASTA序列格式：是将DNA始，其他无特殊要求。

4.genbank序列格式：是GenBank身，以“//”结尾。

5.Entrez检索系统：是NCBI点。

6.BLAST：7.查询序列（query sequence）索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P2918.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。

（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。

）19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。

(书：由于基因)UPGMA）：最初，每个序列归为一类，然后找到）：是一种不仅仅计算两两比对距算法要求进化速率保持恒定的缺陷。

）：在一系列能够解释序列差异的的进化树中找）：它对每个可能的进化位点分配一个概率，然tree）：在同一算法中产生多个最优树，合并这）：放回式抽样统计法。

通过对数据集多次）：开放阅读框是基因序列的一部分，包含一段codon bias）：氨基酸的同义密码子的使用频率与相量高的同功tRNA所对应的密码子，这种效应称为密码子偏好性。

30.基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。

31.结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。

生物信息学-blast

筛选结果
点击开始搜索
其他一些显示格式参数
18
提交任务
返回查询号（request id）
修改完显示格式后点击进入结果界面
可以修改显示结果格式
19
结果页面（一）
图形示意结果
20
结果页面（二）
目标序列描述部分
带有genbank的链接，点击可以进入相应的genbank序列
匹配情况，分值，e值
21
结果页面（三）
匹配序列列表
31
分析过程（八）
具体匹配情况
32
单机版的Blast使用（一）
为什么使用单机版的Blast？ 1.特殊的数据库要求。 2.涉及序列的隐私与价值。 3.批量处理 4.其他原因？？
33
单机版的Blast使用（二）
单机版Blast的基本操作过程 1.下载单机版的Blast程序 ftp:///blast/executables/ 目录下，下载对应的操作系统版本。 2.解压程序包(blast.tar.gz) 命令是: $ tar zxvf blast.tar.gz
5
序列相似性比较和序列同源性分析
序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；
序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；
6
Blast简介（一）

生物信息学复习题及答案

⽣物信息学复习题及答案⽣物信息学复习题⼀、名词解释⽣物信息学, ⼆级数据库, FASTA序列格式, genbank序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E 值, 低复杂度区域，点矩阵（dot matrix），多序列⽐对，分⼦钟，系统发育（phylogeny），进化树的⼆歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最⼤简约法构树，最⼤似然法构树，⼀致树（consensus tree），bootstrap，开放阅读框（ORF），密码⼦偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠⼦，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。

⼆、问答题1）⽣物信息学与计算⽣物学有什么区别与联系2）试述⽣物信息学研究的基本⽅法。

3）试述⽣物学与⽣物信息学的相互关系。

4）美国国家⽣物技术信息中⼼（NCBI）的主要⼯作是什么请列举3个以上NCBI维护的数据库。

5）序列的相似性与同源性有什么区别与联系6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx⼦⼯具的⽤途什么7）简述BLAST搜索的算法。

8）什么是物种的标记序列9）什么是多序列⽐对过程的三个步骤10）简述构建进化树的步骤。

11）简述除权配对法（UPGMA）的算法思想。

12）简述邻接法（NJ）的算法思想。

13）简述最⼤简约法（MP）的算法思想。

14）简述最⼤似然法（ML）的算法思想。

15）UPGMA构树法不精确的原因是什么16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

29
分析过程（三）
6.限制条件，我们限制在病毒里面找。
7.其他选项保持默认值
打分矩阵
30
分析过程（四）
8.输出格式选项保持默认值
9.点击开始搜索
31
分析过程（五）
10.查询序列的一些相关信息在cdd库里面找到两个保守区域，点击可以进入
32
分析过程（六）
图形结果
33
分析过程（七）
15
本地WEB版的Blast
在NCBI的FTP上，在blast程序的目录下，还提供了一种供用户在自己的服务器上建立Blast网页服务的软件包(wwwblast)。使用该软件包，用户可以建立一个简易的进行Blast运算的网站供实验室人员使用。用于搜索的数据库同样可以灵活的定义。
16
Blast程序评价序列相似性的两个数据
39
单机版的Blast使用（三）
3.获取Blast数据库 a.直接从ncbi下载 ftp:///blast/db/ b.用Blast程序包提供的formatdb工具自己格式化序列数据成数据库。假设有一序列数据（sequence.fa，多序列，fasta 格式），欲自己做成Blast数据库，典型的命令如下：
Score：使用打分矩阵对匹配的片段进行打分，这是
对各片段越长、相似性越高则Score值越大。
E value:在相同长度的情况下，两个氨基酸残基（或
碱基）随机排列的序列进行打分，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。
2.其他站点：
/blast/ /ncbi_blast.html /blast/（果蝇）
…
12
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较高，符合限定要求的序列结果，根据这些结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 … 这些信息都可以应用到后续分析中。
结果页面（三）
详细的比对上的序列的排列情况
25
一个具体的例子（blastp）
假设以下为一未知蛋白序列
>query_seq MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTAS WFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKEL SPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATV LQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARM ASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRT ATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFG MSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDK KKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA
19
Blast任务提交表单（二）
2.设置各种参数部分
设置搜索的范围，entrez关键词，或者选择特定物种
一些过滤选项，包括简单重复序列，人类基因组中的重复序列等
E值上限窗口大小如果你对blast的命令行选项熟悉的话，可以在这里加入更多的参数
20
Blast任务提交表单（三）
3.设置结果输出显示格式 E值范围选择需要显示的选项以及显示的文件格式显示数目 Alignment的显示方式
37
下载正确的Blast程序包
blast:在本地运行的blast程序包 wwwblast:在本地服务器建立blast服务
的网站
netblast:blast的客户端程序，直接链接
至NCBI的BLAST服务器，使用BLAST服务，不需浏览器。
38
下载正确的Blast程序包
Blast程序包的名字上还包括了该程序包运行的硬件和操作系统环境：操作系统硬件环境（硬件环境（CPU）） linux sparc macox powerPC solaris ia32 irix ia64 aix amd64 hpux mips freebsd alpha win32
17
NCBI提供的Blast服务
登陆ncbi的 blast主页
核酸序列
蛋白序列
翻译序列
底下有其他一些针对特殊数据库的和查看以往的比对结果等
18
Blast任务提交表单（一）
1.序列信息部分
序列范围（默认全部）
填入查询（query）的序列
选择搜索数据库如果接受其他参数默认设置，点击开始搜索
我们通过blast搜索来获取一些这个序列的信息。
26
具体步骤
1.登陆blast主页 /BLAST/ 2.根据数据类型，选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果
27
分析过程（一）
1.登陆ncbi的blast主页 2.选择程序，因为查询序列是蛋白序列可以选择blastp，点击进入
40
单机版的Blast使用（四）
核酸序列： $ ./formatdb –i sequence.fa –p F –o T/F –n db_name 蛋白序列： $ ./formatdb –i sequence.fa –p T –o T/F –n db_name
也可以选择tblastn
作为演示，我们这里选blastp
28
分析过程（二）
3.填入序列（copy＋paste） Fasta格式，或者纯序列 4.选择搜索区域，这里我们要搜索整个序列，不填 5.选择搜索数据库，这里我们选nr(非冗余的蛋白序列库)。是否搜索保守区域数据库（cdd），蛋白序列搜索才有。我们选上
单机版单机版的blast可以通过NCBI的ftp站点获得，有适合不同平台的版本（包括linux，dos 等）。获得程序的同时必须获取相应的数据库才能在本地进行blast分析。单机版的优点是可以处理大批的数据，可以自己定义数据库，但是需要耗费本地机的大量资源，此外操作也没有网络版直观、方便，需要一定的计算机操作水平。
7
Blast简介（一）
BLAST 是由美国国立生物技术信息中心（中心（NCBI））开发的一个基于序列相似性的数据库搜开发的一个基于序列相似性的数据库搜序列相似性索程序。索程序。 BLAST是“局部相似性基本查询工是具”(Basic Local Alignment Search Tool)的缩写。的缩写。
3
生物序列的相似性
相似性(similarity)：：相似性是指一种很直接的数量关系数量关系，比如部数量关系分相同或相似的百分比或其它一些合适的度量。比如说，A序列和B序列的相似性是80％，或者4/5。这是个量化的关系。当然可进行自身局部比较。
4
生物序列的同源性
同源性(homology)：：同源性指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论，属于质的质的判断。就是说A和B的关系上，只有是同判断源序列，或者非同源序列两种关系。而说 A和B的同源性为80％都是不科学的。
匹配序列列表
34
分析过程（八）
具体匹配情况
35
单机版的Blast使用（一）
为什么使用单机版的Blast？ 1.特殊的数据库要求。 2.涉及序列的隐私与价值。 3.批量处理 4.其他原因？？
36
单机版的Blast使用（二）
单机版Blast的基本操作过程 1.下载单机版的Blast程序 ftp:///blast/executables/ 目录下，下载对应的操作系统版本。 2.解压程序包(blast-2.28-ia32-linux.tar.gz) 命令是: $ tar zxvf blast-2.28-ia32-linux.tar.gz
筛选结果
其他一些显示格式参数点击开始搜索
21
提交任务
返回查询号（request id）
修改完显示格式后点击进入结果界面
可以修改显示结果格式
22
结果页面（一）
图形示意结果
23
结果页面（二）
目标序列描述部分
带有genbank的链接，点击可以进入相应的genbank序列
匹配情况，分值，e值
24
9
主要的blast程序
程序名 Blastn Blastp Blastx Tblastn TBlastx 查询序列核酸蛋白质核酸蛋白质核酸数据库核酸蛋白质蛋白质核酸核酸搜索方法核酸序列搜索逐一核酸数据库中的序列蛋白质序列搜索逐一蛋白质数据库中的序列核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。核酸序列6框翻译成蛋白质序列，再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。
13
两种版本的Blast比较（一）
网络版本包括NCBI在内的很多网站都提供了在线的blast服务，这也是我们最经常用到的 blast服务。网络版本的blast服务就有方便，容易操作，数据库同步更新等优点。但是缺点是不利于操作大批量的数据，同时也不能自己定义搜索的数据库。
14
两种版本的Blast比较（二）
6
序列相似性比较和序列同源性分析
序列相似性比较：序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；、序列同源性分析：序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；