四种常用的生物序列比对软件比较

合集下载

生物学常用软件简介

生物学常用软件简介

AC
accession number giving origin of sequence
DT
dates of entry and modification
KW
key cross-reference words for lookup up this entry
OS, OC source organism
RN, RP, RX, RA, RT, RL literature reference or source
DR
i. d. In other databases
CC
Description of biological function
பைடு நூலகம்
FH, FT information about sequence by base position or range of positiions
生物学常用软件简介
前言
生物信息学是一门新兴的交叉学科,它将数 学和计算机知识应用于生物学,以获取、 加工、存储、分类、检索与分析生物大分 子的信息,从而理解这些信息的生物学意 义。
上面是狭义的生物信息学含义,也是现阶段生 物信息学的基本工作.
内容概要
一 生物信息学软件的主要功能简介
1.数据的基本处理 2.序列的比对 3.基因/基因组的注释 4.Snp分析 5.进化分析 6.基因表达分析 7.蛋白质结构预测
2.序列的比对 序列比对(alignment):为确定两个或多个序列
之间的相似性以至于同源性,而将它们按照一定 的规律排列。
将两个或多个序列排列在一起,标明其相似之处。 序列中可以插入间隔(通常用短横线“-”表示)。 对应的相同或相似的符号(在核酸中是A, T(或 U), C, G,在蛋白质中是氨基酸残基的单字母表 示)排列在同一列上。

序列分析(一)一一序列比对

序列分析(一)一一序列比对
优点:
1. 可以找到两个序列间所有可能的残基匹配; 2. 简单、易懂 3. 直观、整体性强
工具:
/Tools/emboss/index.html
例1:自身的比对
AKG F KC A D E
A1 0 0 0 0 0 1 0 0
K 10010000
G
1000000
V -11 Sij
E -22 要求解Sij的分数,我们必须先知道
S -33
L
-44
Si-1, j-1, Si-1, j, Si, j-1的分数,这种方法叫 做递归算法;
C -55 采用这种方法,可以把大的问题分割 Y -66 成小的问题逐一解决,即动态规划算
法;需要存储如何得到Sij分数的过程。
全局比对 (3)
例5:不同序列的比对
P KD F CKA LV
P1 0 0 0 0 0 0 0 0
K 10001000
F
0100000
T
00000
K1
1000
A
100
I
00
V
1
PKDFCKALV PK - FTKAIV
字符的关系: 1. 匹配 2. 删除或插入 3. 替换
对于例五中的情况:
PKDFCKALV PK – FTKA I V 1 1 -11 0 1 1 0 1 Score=1+1+(-1)+1+0+1+1+0+1
序列分析(一)
一一序列比对
生物信息学研究的三个层面
初级层面:
基于现有的生物信息数据库和资源,利用成熟的生 物信息学工具(专业网站、软件)解决生物信息学 问题
——生物信息数据库(NCBI、EBI、DDBJ、UniProt等) ——基因组序列分析、序列比对软件(BLAST、CLUSTAL 等) ——系统发育树构建软件的简单使用(PHYLIP、PALM等) ——搜集、整理有特色的生物信息学数据库

DNA序列比对的相关算法和软件应用

DNA序列比对的相关算法和软件应用

DNA序列比对的相关算法和软件应用DNA序列比对是现代生物学中最基础也是最关键的步骤之一,它能够揭示生物之间的相似和差异,为生命科学研究提供有力的支持。

DNA序列比对能够指导疾病的诊断和治疗,解决种群分化、基因演化等一系列生物学问题。

然而对于DNA序列比对,要想得到准确且高效的结果,就需要算法和软件的支持。

DNA序列比对的算法目前DNA序列比对的算法主要分为两种:全局比对和局部比对。

全局比对算法是将两个序列进行整体比较,并找到它们之间的最优匹配,即在匹配过程中不允许出现缺失或插入的情况。

常用的全局比对算法有Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch算法被广泛应用于序列比对的全局比对任务,它是一种该最长公共子序列算法(Longest Common Subsequence,LCS)的升级版。

该算法是一个动态规划算法,适用于两个序列之间的全局比较,同时该算法能够输出最优匹配。

Smith-Waterman算法是一种改进的局部比对算法,主要适用于类似于蛋白质结构域的领域内局部比对。

该算法使用一个2维矩阵将两个序列进行比较,并确定它们之间的最大匹配。

该算法的一个优点是它可以找到比局部比对算法更好的伸缩性检测。

局部比对算法是将一个比对里面可以有缺失和插入的情况,特别适用于中等长度的比对任务。

常见的局部比对算法有BLAST算法和FASTA算法。

BLAST(Basic Local Alignment Search Tool)算法是目前最常用的序列比对算法之一,它可以处理大规模的数据库搜索,能够寻找较长的序列比对,并使用他的算法来确定序列比对的情况。

BLAST算法将查询序列切分为短语或单词(即kmer),然后将它们与数据库中的对应单词进行比对。

FASTA(Fast All Global Alignment)算法是另一种局部比对算法。

这一算法同样是将比对的序列切成小片段,但与BLAST算法不同的是,每个片段都可以被直接比对。

RNA序列比对工具分析与优势对比研究

RNA序列比对工具分析与优势对比研究

RNA序列比对工具分析与优势对比研究引言:随着高通量测序技术的快速发展,RNA测序成为了研究转录组学的重要方法之一。

通过测量RNA分子在特定时间、组织或情况下的活性,我们可以了解不同生物体内基因的表达模式以及基因调控网络的动态变化。

然而,对于RNA转录组学的分析来说,RNA序列比对工具的选择和性能表现至关重要。

本文旨在比较几种常用的RNA序列比对工具,并探讨它们的优势和不足之处。

一、Bowtie2Bowtie2是一种广泛使用的RNA序列比对工具,它的优势在于速度快、内存消耗低、适用于大规模测序数据的分析。

Bowtie2采用了一种基于贪心算法的比对方法,能够高效地处理高质量和低质量的序列数据。

该工具允许短读长序列比对和长读长序列比对,并具有较高的比对效率和准确性。

此外,Bowtie2还支持多线程并行计算,可以提高比对速度。

然而,Bowtie2也存在一些不足之处。

首先,由于其优先考虑比对到特定位置,Bowtie2在处理非唯一比对时可能存在较多漏配和错配的情况。

其次,Bowtie2对非标准引物或具有误配的序列匹配效果较差。

因此,在使用Bowtie2进行比对时,需要特别关注这些问题。

二、TophatTophat是一种针对RNA-Seq数据的专门比对工具,它能够识别可变剪接事件和新的转录本。

Tophat将比对问题转化为查找RNA读取片段在不同位置的配对问题,并使用Burrows-Wheeler Transform (BWT)和动态编程算法进行比对。

Tophat能够对多个转录本进行比对,并在比对过程中标记可变剪接位点和未比对的片段。

然而,Tophat存在一些局限性。

首先,Tophat的比对速度较慢,特别是在处理大规模数据集时。

其次,Tophat对于高度可变的基因组区域和复杂的剪接事件表现出一定的局限性。

因此,对于这些情况,我们需要考虑选择其他更适合的比对工具。

三、HISAT2HISAT2是一种新一代的RNA序列比对工具,其相比于Bowtie2和Tophat具有更快的速度和更高的准确性。

生物信息学中的序列比对和分析

生物信息学中的序列比对和分析

生物信息学中的序列比对和分析序列比对和分析是生物信息学中非常基础和重要的一项研究内容。

通过比对和分析序列,可以发现序列之间的相似性和差异性,进而研究生物进化、遗传、表达等方面的问题。

本文将从序列比对和分析的意义、比对方法、分析工具和应用实例等几个方面进行讨论。

一、序列比对的意义和方法序列比对是一种比较两个或多个序列相似度的方法,通过比较序列的相同和不同部分,可以获得有关序列功能、结构和进化的信息。

序列比对的主要目的是确定两个序列之间的相似性程度,从而推断它们的共同祖先、结构和功能。

因此,序列比对是研究生物学、医学和生物工程等领域的必要手段。

序列比对的方法主要包括全局比对和局部比对两种。

全局比对是将一整个序列与另一个序列比对,得到两序列的整体相似性程度。

一般要求两序列中的相似部分要尽可能多,而不注重不同部分的对齐。

常用的全局比对算法有Needleman-Wunsch算法和Smith-Waterman算法。

局部比对是寻找两个序列中任意长度的子序列之间的相似性。

与全局比对不同,局部比对更注重相同的局部片段,忽略不同的片段。

局部比对算法有BLAST和FASTA等。

二、序列分析的工具和方法序列分析是通过对比对后的序列进行进一步分析,获得生物信息的过程。

序列分析的主要内容包括序列注释、序列搜索、序列聚类和序列比较等。

序列分析的方法和工具主要包括多序列比对、单序列比对、序列搜索、聚类分析、进化树分析和功能预测等。

多序列比对是将多个序列进行比对,得到这些序列之间的共同特征和差异。

常用的多序列比对工具有Clustal X和MUSCLE等。

单序列比对是将一个序列和已知的库中所有序列进行比对,以查找相似性和相关性。

常用的单序列比对工具有BLAST和PSI-BLAST等。

序列搜索是在一个已知的序列库中搜索相似的序列。

常用的工具有HMMER、PhyloGenie等。

聚类分析是将相似的序列放在一起形成聚类,便于分析相关性。

生物表解析技巧

生物表解析技巧

生物表解析技巧生物表解析是生物学研究中非常重要的一项技巧,通过对生物信息的解读和分析,可以帮助科学家们揭示生物体内的基因表达和调控机制,从而深入研究生物的功能和特性。

在本文中,我们将介绍几种常用的生物表解析技巧。

一、序列分析序列分析是生物表解析的基础,它主要涉及DNA、RNA或蛋白质序列的分析和比较。

在序列分析中,常用的工具和技术包括:1. 序列比对:通过将多个序列进行比对,可以寻找它们之间的相似性和差异性。

常用的比对软件包括BLAST、ClustalW和MUSCLE等。

2. 序列翻译:将DNA序列转化为蛋白质序列,可以预测蛋白质的氨基酸组成和结构特点。

常用的翻译软件包括Expasy和Translate等。

3. 同源分析:通过比较不同物种的序列,可以确定它们之间的同源关系。

同源分析是揭示生物分类和进化关系的重要手段,常用的工具包括BLAST和NCBI数据库等。

二、基因组学数据分析基因组学数据分析是研究基因组和基因组变异的重要手段,它涉及到大量的数据处理和分析。

常用的技巧包括:1. 基因预测:通过分析基因组序列,可以预测出其中的基因和编码蛋白质的序列。

基因预测是解析基因功能和调控机制的前提,常用的预测软件包括GeneMark和Glimmer等。

2. 基因组注释:通过将预测的基因与已知的基因序列和功能进行比对,可以注释出基因的功能和特征。

常用的注释工具包括BLAST、InterPro和Gene Ontology等。

3. 基因组变异分析:通过比较相同物种不同个体之间的基因组序列,可以发现基因组的变异和突变情况。

这对于研究遗传性疾病和物种进化具有重要意义,常用的分析工具包括SAMtools和GATK等。

三、表达谱分析表达谱分析是研究基因表达的重要手段,它可以揭示基因在不同生理状态下的表达水平和调控机制。

常用的技术包括:1. 转录组测序:通过对mRNA的测序,可以得到一个生物在特定条件下所有基因的表达水平和变化情况。

生物信息学 实验四 用 Clustal, MUSLCE 和 T-Coffee 进行多条序列比对

实验四用Clustal, MUSLCE 和T-Coffee 进行多条序列比对准备工作FASTA序列“>”之后加上物种和序列名称,然后加空位,方便在多序列比对过程中分清每条序列分别来自哪个物种。

1 clustalX将上述序列文件用英文命名,且其中无空格,在D盘下建立一个用英文命名的文件夹并将序列文件放在其中。

点击开始->程序->clustalX2->clustalX2。

点主菜单File->Load Sequence-选择你刚保存的序列文件,点打开设置两条序列、多序列比对及输出格式参数后:Alignment->Alignment Parameters->Pairwise Alignment Parameters;Alilgnment->Alignment Parameters ->Multiple Alignment Parameters;Alignment->Output Format Options1.1常规比对点击Aliglnment->Do Complete Alignment。

此时出现一个对话框,提示比对结果保存的位置,在上一步选择了多少种输出格式,这里就会给出多少个文件的路径。

点OK 即可。

比对结束后生成的aln文件是多条序列比对的结果,推荐用notepad++打开浏览。

*对应的是完全匹配的列,保守替换(理化性质高度相似氨基酸之间的替换)用:表示,有一定保守的替换用.表示,如果下方没有标识,说明这列为非保守替换。

生成的dnd文件是比对过程中利用NJ方法生成的进化树(guide tree),可以用Figtree软件浏览。

1.2、迭代比对选择Alignment->iteration->iterate each alignment step(或iterate final alignment),然后再点击Aliglnment->Do Complete Alignment进行比对。

mafft参数选择

mafft参数选择Mafft参数选择Mafft是一种常用的多序列比对软件,广泛应用于生物信息学领域。

在进行多序列比对时,选择合适的参数是非常重要的。

本文将介绍一些常用的Mafft参数选择,并对其优劣进行分析。

1. --auto参数--auto参数是Mafft中最常用的参数之一,也是默认参数。

该参数根据序列的长度和结构特点,自动选择最合适的算法进行比对。

它适用于大多数情况下的多序列比对,尤其是序列相似度较高的情况。

2. --retree参数--retree参数用于进行比对结果的迭代优化。

在进行多序列比对时,Mafft会根据已有的比对结果进行迭代,以进一步优化比对的准确性。

--retree参数的值越大,迭代次数越多,比对结果也越准确。

但是,迭代次数越多,计算时间也会相应增加。

3. --maxiterate参数--maxiterate参数用于设置迭代的最大次数。

在进行多序列比对时,Mafft会根据已有的比对结果进行迭代,直到达到最大迭代次数或收敛为止。

该参数的默认值为1000。

如果序列的相似度较高,通常情况下迭代次数不需要过多,可以适当减少该参数的值,以提高比对的速度。

4. --localpair参数--localpair参数用于进行局部序列比对。

局部序列比对是指在比对过程中,只比对序列的一部分,而不是将整个序列进行比对。

该参数适用于序列长度较长,且序列之间存在较大差异的情况。

局部序列比对可以提高比对的准确性,但计算时间也会相应增加。

5. --genafpair参数--genafpair参数用于进行全局序列比对。

全局序列比对是指将整个序列进行比对。

该参数适用于序列长度较短,且序列之间相似度较高的情况。

全局序列比对可以提高比对的速度,但相对准确性可能会降低。

综合考虑以上参数的特点,选择合适的参数组合是进行多序列比对的关键。

对于大多数情况下的多序列比对,可以使用默认的--auto 参数。

如果需要进一步优化比对结果,可以尝试调整--retree参数的值,增加迭代次数。

多序列比对方法

多序列比对方法多序列比对是生物信息学中一个常见的分析方法,用于比较多个序列之间的相似性和差异性。

本文将介绍多序列比对的基本原理、常用方法和软件工具,以及其在生物学研究中的应用。

一、多序列比对的基本原理多序列比对是指对多个生物序列进行比较和分析。

生物序列可以是蛋白质序列、DNA序列或RNA序列等。

多序列比对的主要目的是确定序列之间的保守区域和变异区域,并发现序列之间的结构和功能相关性。

多序列比对的基本原理是通过构建序列之间的相似性矩阵,确定最佳的比对结果。

相似性矩阵用于测量两个序列之间的相似性,通常使用BLOSUM、PAM或Dayhoff矩阵等。

基于相似性矩阵和动态规划算法,可以计算序列之间的最佳比对路径,以及比对的得分。

二、常用的多序列比对方法1. 基于全局比对的方法:该方法适用于序列之间的整体相似性比较,常用的算法有Needleman-Wunsch算法和Smith-Waterman算法。

这两种算法都采用动态规划策略,通过计算各种可能的比对路径来确定最佳比对结果。

全局比对方法的主要缺点是在序列相似性较低的情况下,比对结果可能不准确。

2. 基于局部比对的方法:该方法适用于序列之间的部分相似性比较,常用的算法有BLAST和FASTA。

局部比对方法主要通过搜索局部相似片段来进行比对,可以提高比对的敏感性和准确性。

BLAST和FASTA是两种常用的快速局部比对工具,可以快速比对大规模序列数据库。

3. 基于多重比对的方法:该方法适用于多个序列之间的比较和分析,常用的算法有ClustalW和MAFFT。

多重比对方法通过构建多个序列的比对结果,可以识别序列之间的共同保守区域和变异区域,以及序列的结构和功能相关性。

ClustalW和MAFFT是两种常用的多重比对工具,具有较高的准确性和可靠性。

三、常用的多序列比对软件工具1. ClustalW:ClustalW是一个常用的多重比对软件,主要用于比对蛋白质和DNA序列。

多序列比对方法

多序列比对是对三个或更多个生物学序列进行比对的过程,用于识别序列之间的相似性、保守性区域和进化关系。

以下是一些常见的多序列比对方法:
1. **CLUSTAL系列:**
- **CLUSTALW:** 是最常用的多序列比对工具之一,利用序列的相似性来构建多序列比对。

- **CLUSTAL Omega:** 是CLUSTALW的后续版本,具有更快的计算速度和更好的准确性。

2. **MAFFT:** 是一种快速而准确的多序列比对方法,利用快速傅里叶变换算法和迭代方法来处理大规模序列。

3. **T-Coffee(Tree-based Consistency Objective Function for alignment Evaluation):** 结合序列比对和序列质量评估的算法,可以整合多种信息源进行比对。

4. **MUSCLE:** 是一种高效的多序列比对工具,适用于大规模序列的比对,通常速度较快。

5. **ProbCons:** 使用概率建模进行序列比对,尤其擅长于对高度不同的序列进行比对。

6. **PASTA(Progressive Alignment of Sub-optimized Multiple Sequence Alignments):** 通过不同子集的序列构建多次比对,然后将它们集成成一个更全面的比对。

7. **Kalign:** 是一种快速的多序列比对工具,利用互信息矩阵来找到相似的序列片段。

这些方法在算法、效率和适用范围上各有特点,选择适合你研究的方法取决于序列数据的规模、相似性和所需的比对准确性。

常常,为了获得更准确的结果,研究者会结合多种方法或者使用不同参数运行同一方法以进行比较和验证。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

四种常用的生物序列比对软件比较陈凤珍;李玲;操利超;严志祥【摘要】With the rapid development of high⁃throughput sequencing technology, Next⁃generation sequencing technology has rapidly developed into a mainstream technology in the biological field. Alignment is the key step in understanding the sequence data and also it is the cornerstone for bioinformatics analysis. And thus gave birth to a lot of alignment tools. In this paper, four common biological sequence alignment tools Bowtie2, BWA, MAQ and SOAP2 were selected to evaluate and compare using the whole genome sequencing data of HPV. And a comparison of four tools from many perspectives such as algorithm and suitable sequencing platforms was given. Hopefully the research can provide theoretical and practical basis for researchers to select the best biological sequence alignment tools.%随着高通量测序技术的快速发展,下一代测序技术也迅速发展为生物领域中的主流技术,而理解下一代测序数据最重要的一步是比对。

比对是进行后续生物信息分析的基石,也因此催生了很多比对软件。

本文主要选取了四种常用的比对软件Bowtie2、BWA、MAQ和SOAP2,对这四种软件及算法进行综述,并通过实际测序数据对四种软件进行比较和评估,为生物学研究者选择最佳的短序列比对软件提供理论和实践依据。

【期刊名称】《生物信息学》【年(卷),期】2016(014)001【总页数】5页(P56-60)【关键词】下一代高通量测序;比对软件;生物信息【作者】陈凤珍;李玲;操利超;严志祥【作者单位】深圳华大基因研究院,深圳518083;深圳华大基因研究院,深圳518083;深圳华大基因研究院,深圳518083;深圳华大基因研究院,深圳518083【正文语种】中文【中图分类】Q-31随着新一代测序(Next-generation sequencing,NGS)的蓬勃发展,核酸测序成本已大大降低,高通量测序方法已被广泛应用到DNA测序[1]、RNA测序[2]、表观遗传测序[3-4]等研究。

然而,无论使用何种生物测序技术和研究方法,理解这些数据的最重要的一步是序列比对分析。

序列比对是将已有基因组序列作为参考基因序列(Reference),将短序列与参考基因序列进行序列比对, 并在参考基因序列上进行精确定位。

通过序列比对可以发现生物序列中的功能、结构和进化的信息。

目前已有上百种序列比对工具,面对如此多的比对工具,很多生物信息分析人员通常自由的选择比对工具,而没有考虑到比对工具的特点,准确性等。

然而,不同的比对软件,对同一个数据集都有可能得出大相径庭的结果[5];同一算法设置不同的参数,其结果也相差很巨大。

如果选择了一个不合适的工具,将导致结果偏差甚至是错误,可能得到错误的研究结论。

因而选择合适的比对工具,对于生物研究而言显得特别重要。

在Nuno A. Fonseca等人[6]的对60多种比对软件比较统计分析中,发现Bowtie2[7]、BWA[8]、MAQ[9]和SOAP2[10]被引用的次数相对其他几十种软件较多,其中Bowtie2引用率(Citations/Years)为363.42,BWA为224.20,MAQ为251.66,而SOAP2为99.38,SOAP2的前版本SOAP为104.41。

因而在本研究中,主要选取了这四种常见的比对工具进行评估比较。

根据比较结果分析,Bowtie2、BWA和SOAP2处理高通量短序列数据比对问题时,计算速度快,内存使用量低,具有高效的实用性;在同等条件下,MAQ的运行速度较慢。

Bowtie2、BWA的比对率相比于SOAP2和MAQ高。

BWA软件与Bowtie2软件比对的重复率较高,MAQ较低。

2.1 四种比对软件介绍Bowtie2是一个超高速的,节约内存且灵活与成熟的短序列比对软件,比较适合下一代测序技术。

通常使用全文分索引(FM-index)以及Burrows-Wheeler 变换(BWT)索引基因组使得比对非常快速且内存高效,但是这种方法不适合于找到较长的、带缺口的序列比对。

BWA主要应用二代测序后的大量短小片段与参考基因组之间的定位比对。

需要先对参考序列建建立索引,BWA也是基于 BWT和 FM-Index 理论来对参考基因组做索引。

根据测序方法的不同,有单末端序列(Single-end,SE)比对和双末端序列(Pair-end,PE)比对。

MAQ是使用质量分数推导序列和比对序列的一致性的短序列比对工具,并且MAQ充分利用配对信息,估计每个比对read的错误的概率,同时也使用贝叶斯统计模型来评估最后的基因型错误概率。

SOAP2是短寡核苷酸比对程序(Short Oligonucleotide Alignment Program)的一个显著改进版本,它减少了计算机内存使用,并极大地提高了比对速度。

SOAP2使用一个Burrows Wheeler Transformation(BWT)压缩索引替代种子策略在主存储器中索引参考序列。

SOAP2适合于单末端片段和双末端片段。

此外,该工具也支持多种文本和压缩文件格式。

2.2 四种比对软件算法对于成千上万条的短序列的比对分析,目前,大多数算法是通过建立索引来加快比对的速度。

常用的数据结构有哈希表法和基于BWT (Burrows-wheeler transform) 的后缀树两种。

哈希表法的算法核心思想是采用种子序列定位及延伸算法(Seed-and-extend algorithm)[11],通过扫描参考基因组序列,对参考基因组序列建立哈希表,将序列分成一定长度的小片段,这种小片段也被称之为种子。

然后,在目标序列中查找和种子序列相同的片段并标记,以这些标记点为锚点向左右按一定规律延伸比对,将不合条件的舍弃,符合条件的结果将输出保存。

采用基于哈希表数据结构的比对算法的软件包括MAQ。

后缀树法是一种n叉树,n为字母表大小。

每个节点表示从根节点到此节点所经过的所有字符组成的字符串,它的根结点不包含任何信息,是一种以牺牲存储空间来降低序列查询时间的字符串预处理方式。

为了提高空间利用率,Ferragina 和Manzini 提出了FM (Full-text minute-space)-index 算法,FM是一种基于BWT (Burrows-wheeler transform)的全文本压缩索引结构, BWT算法是通过统计基因组序列中各个碱基出现次数,将相同碱基尽量排列在一起,压缩基因组序列的索引数据结构,将基因组序列的索引数据结构重排列,实现短序列在基因组中候选位点的快速搜索,减少内存占用率。

例如人类基因组约3GB,若不使用FM-index将要用12GB内存存储,超过了计算机内存使用限度,而如果使用FM-index,每隔数行建立一个索引,人类基因组占用的内存可缩小到约1.3GB,这样普通的计算机就可以进行分析。

采用BWT转换的软件有Bowtie2和SOAP2,BWA。

虽然Bowtie2、SOAP2和BWA都采用了BWT算法,然而三种软件还有差别。

其中Bowtie2采用Ferragina 和Manzini 提出的FM (Full-text minute-space)-index算法,为基因组序列创建具有后缀矩阵特性的 FM 索引数据结构,实现短序列的快速搜索;SOAP2则采用的是 BWT 算法压缩基因组序列哈希表索引数据结构进行精确匹配,采用“分割短序列策略”(Split-read strategy)进行不精确匹配,比对速度显著提高且内存使用量显著地降低。

最后,BWA 软件是采用 BWT 算法压缩来构建基因组序列前缀树(Prefix tree)数据结构,通过对压缩数据结构自顶向下遍历进行反向搜索,其比对计算过程中内存覆盖区域相对较小,计算时间并不随基因组的大小而变化。

基于哈希表法和基于BWT的后缀数法数据结构的算法都有利于提高比对效率,区别在于哈希表法占用的内存空间大,产生的种子匹配多,然而哈希表法具有较高的匹配敏感性和准确性。

有利于发现SNPs和突变。

可用于局部匹配或从大量数据中搜索匹配点以及跨物种序列间的比对。

而后缀树法可以有效减少不精确匹配,并可避免比对过程中做无用功,这个特点适用于相同物种之间相似性高的序列比对和寻找保守区。

2.3 四种比对软件比较选择合适的软件要根据软件适用的数据类型,适宜测序平台,数据格式,适宜的reads长度等进行全面考虑,做出选择。

表1中对四种比对软件分析的序列类型,可用于分析的测序平台,输入和输出数据格式,最小和最大reads长度及软件是否开源进行了详细的分析和比较。

从表中可以看出在适宜测序平台方面,SOAP2就受到限制,只适用于Illumina平台,BWA适用的平台最广。

在适宜的reads长度方面,BWA、MAQ适用的范围较窄。

最后,根据软件的输入输出格式,MAQ的适用范围更广。

3.1 实验数据本文截取了Illumina平台测序的129126328条HPV全基因组测序数据。

表2中记录了HPV全基因组测序数据情况及截取的实验数据情况。

3.2 软件运行环境32G内存,16核处理器,linux操作系统服务器。

3.3 结果评估四种软件的比对率和时间消耗如表3。

从表3可以看出BWA和Bowtie2的比对率较高,而SOAP2的时间更高效,MAQ相对来说较慢。

从四种软件比对的reads重复数两两比较可以看出,Bowtie2和BWA比对上的reads重复数较高,Maq和其他三种软件比对上的reads重复数较低,如图1。

将四种软件同时比较时,发现BWA比对软件和其他三种软件不重复的reads数最少,只有62 134条,Bowtie2和其他三种软件不重复的reads数最多,为466 792条,如图2。

相关文档
最新文档