基于reads引导的基因组序列拼接算法

龙源期刊网 https://www.360docs.net/doc/768917087.html,

基于reads引导的基因组序列拼接算法

作者:曾培龙

来源:《智能计算机与应用》2015年第03期

摘要:针对新一代测序技术数据读取片段reads长度短、准确度低、数据海量等特点,本文提出了基于reads引导的基因序列拼接算法(SRGA),以整条reads为拼接单位,并首次提出了基于数据特征和拼接信息累计的评分机制。选取常用测试集,将本文中的算法与序列拼接领域中的经典算法进行对比和分析,取得了较好的效果。

关键词:生物信息学;新一代测序技术;基因组序列拼接

中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2015)03-

GENOME ASSEMBLY GUIDED BY READS

ZENG Peilong

(China Ship Development and Design Center, WuHan 430064,China)

Abstract:Due to next generation sequencing data of mass, short length and relatively low precision, this paper proposes a new genome assembly guided by reads, regarding one entire reads sequences as assembly unit. This algorithm firstly invents a scoring mechanism based on accumulated assembly information and data charactistics. Then the paper gives the metrics results of several algorithms on the test set, the proposed (SRGA) and several classical algorithm of genome assembly. Experimental results show SRGA can obtain satisfactory stereo matching results.

Key words:Bioinformatics, Next-generation Sequencing, Genome Assembly

0 引言

新一代测序技术促进了生命科学的快速发展,但其产生的基因读取片段reads具有长度短、准确度低、数据海量等特点[1-2],这就对序列拼接算法提出了相当严峻的挑战,传统的序列拼接软件已不再适用[3]。为此,即需针对新一代测序的数据特点,从实际应用需求出发,

研发新的优质高效的序列拼接软件。

本文针对新一代测序数据的数据特点,提出了基于reads引导的基因组序列拼接算法(SRGA),并以整条reads为拼接单位,首次提出了基于数据特征和拼接信息累计的评分机制,从而减少不必要的重复计算,同时也提高了基因组序列拼接的质量和速度。

1 reads数据预处理

相关文档
最新文档