基因组序列拼接

合集下载

生物信息学中的基因组拼接技术介绍

生物信息学中的基因组拼接技术介绍

生物信息学中的基因组拼接技术介绍基因组拼接技术是生物信息学中重要的研究领域之一,它是用来将无序的DNA片段拼接成完整的基因组序列的技术。

在基因组项目中,片段化测序方法已经成为常规,而基因组拼接技术则是将这些片段重新连接起来形成整个基因组序列,进一步帮助我们了解生物的基因组结构和功能。

基因组拼接技术有许多不同的方法和算法,其中最常用的有三种:重叠法(overlap-based method)、图论法(graph-based method)和比较法(alignment-based method)。

下面将逐一介绍这些方法的原理和应用。

重叠法是最早被使用的基因组拼接方法之一。

它基于片段之间的重叠关系,通过将重叠的片段连接在一起来完成基因组的拼接。

这种方法需要构建片段之间的重叠图,其中每个节点代表一个片段,边表示片段之间的重叠。

然后通过解决重叠图的最短路径问题,来确定片段的顺序和连接方式。

这种方法的优点是简单易行,但对于重叠区域的错误或缺失可能导致拼接结果的不准确性。

图论法是一种更复杂但更准确的基因组拼接方法。

它将片段之间的重叠关系表示为一个图,通过图的连通性和拓扑结构来确定最佳的拼接结果。

这种方法中,片段被表示为节点,而重叠关系被表示为边。

通过将重叠图转化为欧拉图或哈密顿图等图论问题,可以得到完整的基因组序列。

图论法的优点是可以处理更大规模的基因组拼接,提高了拼接结果的准确性和可靠性。

比较法是一种较为常见的基因组拼接方法,它基于序列比对的原理,将片段与已知的参考基因组进行比对来确定拼接结果。

这种方法有两种主要的策略:局部比对和全局比对。

局部比对适用于已知部分参考序列的情况,通过找到片段与参考序列的相似性来完成拼接;全局比对适用于没有已知参考序列的情况,通过将片段与自身进行比对来寻找共同的序列区域,然后将这些共同区域进行拼接。

比较法的优点是可以利用已有的参考基因组数据来辅助拼接,提高拼接结果的可信度。

除了上述三种常见的基因组拼接技术,还有一些其他的高级技术被广泛应用。

序列拼接

序列拼接

序列拼接* 为了保证测序结果的准确性,单基因短片段(700pd左右)测序一般应采用双向测序,然后将双向测序的结果拼接在一起,从而获得一致性序列。

线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的,最后也需要将测出的短片段拼接成一条完整的序列。

序列拼接可以在不同的软件中进行。

一、使用“组装批处理文件byLHM.pg4”进行拼接1. 在预定的位置建立一个文件夹“gap”,将需要使用的3个软件“组装批处理文件byLHM.pg4”、“V ector_primer4pMD18-T.vec_pri”、“pMD18-T_Vector.seq”拷贝到该文件夹下,再将需要拼接的测序文件拷贝到该文件夹下。

2. 双击运行“组装批处理文件byLHM.pg4”程序。

3. 在程序运行后出现的界面右侧点击“Add files”按钮,打开要拼接的序列文件。

为了保证拼接后输出的是正向序列,最好先添加上游引物序列,然后添加下游引物序列,因为在一般情况下软件将添加的第一条序列默认为正向参照序列;有时由于测序效果等因素的影响,有时即使首先添加的是上游引物序列,但拼接后仍然会以测序效果明显更好的下游引物序列为正向参照序列,此时需要按照后面介绍的方法将上游引物序列转换为正向参照序列再输出一致性序列。

4. 点击界面上方第二行的“Configure Modules”,在弹出的窗口左边的任务栏中点击“[x]Sequencing vector Clip”,再点击右边的“Browse”按钮,通过弹出的窗口打开“Vector_primer4pMD18-T.vec_pri”程序;点击左边任务栏中的“[] Cloning Vector Clip”,再点击右边的“Browse”按钮,通过弹出的窗口打开“pMD18-T_Vector.seq”程序;点击左下角的“Run”按钮,即开始数据处理,处理结果将自动保存到“gap”文件夹中。

5. 在“gap”文件夹中双击“AssMit_tmp.o.aux”文件,将鼠标移到弹出的“Contig Selector”窗口中的直线上,点击右键,选择“Edit Contig”,即弹出“Contig Editor”窗口,点击最右边的“setting”按钮,在下拉菜单中选择“By background colour”,即可显示比对结果的有差异碱基;双击某一序列,即可显示该序列的测序峰图,以检查核对该位点碱基的测序情况。

基因组序列拼接

基因组序列拼接

3.序列所在链不确定 由于测序过程中无法确定特定片断属于DNA 双链中的哪一条链上,所以我们在拼接过程中并 不清楚使用的是read的正义链,还是其互补链。
4.重复序列的干扰 DNA序列自身含有高度重复的子序列,它们 一种表现为短序列的串级重复,比如:(GGAA)n。 或AmTn等。另一种表现为大量相似序列(其拷贝数 可达几十万)散布在基因组的各个地方。Repeat 的存在,将导致fragments间overlap的不真实性, 进而产生错拼的结果。因此在拼接过程中耍确定 这些序列的形式及大小,才能保证以高概率恢复 出其在原始真实序列中的位置.
基因组序列拼接
序列拼接
序列拼接任务即将测序生成的reads短 片段拼接起来,恢复出原始的序列。该问 题是序列分析的最基本任务,是基因组研 究成功与失败的关键,拼接结果直接影响 到序列标注,基因预测、基因组比较等后 续任务。 基因组序列的拼接也是基因组研究必须 解决的首要难题。其困难不仅来自它的海 量数据(以人类基因组序列为例,从数量为 10兆级的片断恢复出长度为亿级的原始序 列),而且源于它含有高度重复的序列。
2.不完全覆盖性 不是所有的碱基被测序的次数都等于 平均测序覆盖度。极端的情况,可能会出 现源基因组序列上部分区域未被测序的情 况(这段区域称为gap)。即,测序的reads 集合不是原始基因组序列一个完整覆盖。 此时需要借助于各种图谱如:基因组指纹 图谱(genome fingerprint map), 基因组级 物理图谱(genome-wide physical map),细 胞发生图谱(cytogenetic maps)等协助对 reads进行定位.
拼接算法评价
以上拼接问题的四个难点不仅极大的增 加了解决实际拼接问题的难度,而且从某种 程度上说无法完整地恢复出原始DNA序列来。 即实际上仅能构建出若干个contig(重建的 fragments的一种排列形式,它覆盖基因组 上一段连续区域)这些contig将指导测序项目 finishing阶段的实验方法最终构建DNA完整 序列。

二三代基因组混合组装流程的搭建与序列拼接并行优化方法研究

二三代基因组混合组装流程的搭建与序列拼接并行优化方法研究

二三代基因组混合组装流程的搭建与序列拼接并行优化
方法研究
二三代基因组混合组装流程的搭建与序列拼接并行优化方法研究,主要涉及以下几个步骤:
1. 安装MaSuRCA软件:按照给出的安装路径,下载并安装MaSuRCA软件。

MaSuRCA是一种常用于基因组混合组装和序列拼接的软件。

2. 准备数据:将二代和三代测序数据准备好,包括原始的测序reads和相应的质量控制数据。

3. 配置参数:根据具体的测序数据和预期的基因组大小,配置MaSuRCA 软件的参数。

这些参数包括可用核数、测序文件位置等。

4. 运行MaSuRCA:使用配置好的参数运行MaSuRCA软件进行基因组混合组装和序列拼接。

5. 结果分析:根据MaSuRCA软件输出的结果,进行详细的分析和解读。

这包括评估组装质量和序列拼接效果,以及识别可能存在的问题和挑战。

6. 优化并行化:为了提高基因组混合组装和序列拼接的效率,可以尝试对MaSuRCA软件的并行化进行优化。

这可能涉及调整并行计算参数、优化任务调度等方面。

7. 评估并行化效果:通过对比优化前后的运行时间和性能表现,评估并行化优化的效果。

如果效果良好,可以将并行化方法应用到其他类似的基因组组装和拼接任务中。

请注意,这只是一种可能的流程和思路,具体的实施可能因数据特点、需求差异和个人经验而有所不同。

在进行基因组混合组装和序列拼接时,还需要注意遵守相关法律法规和伦理规范,确保研究过程合法合规。

基因序列拼接算法设计(精)

基因序列拼接算法设计(精)

1 . 2 分析模块
分析模块包括对输入的数据进行预处理如数据中小写字 母统一转换为相应的大写字。然后根据杂交匹配出的探针, 利用字符串的相关操作命令, 拼接重组出靶序列的互补序列, 再对互补序列字符串中的 A与 T 、 G与 C进行互补替换, 得到 靶序列。
收稿日期: 2 0 0 9 - 1 0 - 0 8 。国家自然科学基金( 3 0 6 7 1 8 7 2 , 3 0 7 7 1 8 9 9 ) 。
图3 拼接分支示意图
1 软件主要功能模块与结构
1 . 1 数据输入模块
该模块实现匹配探序列的输入功能, 由于测序结果通常是 以文本文件提交, 因此设计了可读入文本格式数据的功能。 另外, 为了验证软件的分析是否正确, 还设计了随机生成给 定长度 D N A序列的功能, 同时根据生成的 D N A序列和设定的 探针长度, 自动得出匹配探针, 以便后续的拼接处理, 主研领域: 信号与信息处理, 图像处理。
第 5期 1 . 3 拼接的处理过程
刘国庆等: 基因序列拼接算法设计
2 5
分支继续进行拼接。例如在图 3中, 分支点 1处的位置为 1 0 , 用 P U S H函数将数字 1 0压入堆栈, 然后将分支点 1处的 A 、 G字符 排序, 选择字符 A继续进行拼接。到分支点 2处时, 该处位置 为1 5 , 将该数字压入堆栈, 选择字符 C继续进行拼接。 当拼接出来的 D N A链满足一定条件( 此条件将在第 3节中 讨论) , 则输出结果并存入列表框控件中。并且检查堆栈中有 无数据, 如果有, 则弹出堆栈中最上面的数据 ( 即最后压入栈 的) , 得到分支位置。然后根据此位置数据, 进行如下操作: ( 1 ) 从已拼接的 D N A链中获取该位置前的字符串, 以便从 该处开始拼接; ( 2 ) 从已拼接的 D N A链中获取该位置前 4个字符( 即探针 长度减 1 ) ; ( 3 ) 从匹配探针列表中, 查找前 4个字符与第 2步中所得 的字符串相同的匹配探针, 从已拼接的 D N A链中判断该探针是 否已使用, 如果未使用, 则用该探针继续拼接。 重复按上面的步骤, 直到堆栈为空, 拼接结束。 这一算法是将所有匹配探针作为起始探针进行尝试拼接, 计算量明显比较大, 可以考虑在靶 D N A链的 5 ’ 端挂一较短长 度且碱基序列已知的寡核苷酸片段。由于 D N A链的 5 ’ 端是起 始端, 因此该链和基因芯片进行杂交匹配后, 起始匹配探针必定 是所挂的寡核苷酸片段互补序列的前端部分, 从该探针开始拼 接, 可以大幅减少拼接运算的计算量。

基因组测序与序列组装

基因组测序与序列组装

基因组测序与序列组装
第38页
基因组测序与序列组装
本章内容结束,谢谢!
第39页
E2f5
E2F5
E2f6
E2F6
第10页
假基因(Pseudogene)
起源于功效基因 但已失去活性DNA序列
产生假基因原因有: 1. 由重复产生假基因; 2. 加工假基因, 由RNA反转录为cDNA 后再整合到
基因组中; 3. 残缺基因(Truncated gene)
基因组测序与序列组装
第11页
重合基因:
动物
真菌 等 细菌
第6页
重复次序
➢ 高度重复次序: 长度:几个——几千个bp 拷贝数:几百个——上百万个 首尾相连,串联排列
集中分布于染色体特定区段(如端粒,着丝粒等)
也称卫星DNA
➢ 中度重复次序: 普通分散于整个基因组中; 长度和拷贝数差异很大
➢ 单一次序:
基因主要位于单一次序
动物中单一次序约占50%
一些已绘制了遗传图与物理图微生物基因 组测序中也采取这一方法.
如高等植物拟南芥基因组测序完全依据克 盛大叠群,先进行各个BAC克隆随机测序,再 进行序列组装;
水稻基因组测序计划采取策略与此相同.
基因组测序与序列组装
第33页
4.3 指导测序与序列组装
建立在基因组图谱基础上”鸟枪法”,即所谓”指导 鸟枪法”或”指导测序”。
基因组测序与序列组装
第24页
基因组测序与序列组装
第25页
3.4 非常规测序
毛细管电泳
用毛细管电泳取代聚丙烯凝胶平板电泳,节 约时间,加紧测序进程,其它程序同链终止法或 化学测序法。
基因组测序与序列组装
第26页

基因组的序列组成

基因组的序列组成

基因组的序列组成
基因组是生物体内全部遗传信息的总和,包括DNA和RNA。

DNA是生物体内主要的遗传物质,而RNA在基因的转录和翻译过程中起关键作用。

基因组的序列组成指的是DNA或RNA中碱基的排列顺序,包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)(对于RNA而言,替代的碱基是尿嘧啶(U)而不是胸腺嘧啶)。

在人类和许多其他生物中,DNA是以双螺旋结构存在的,由两个互补的链构成。

每个链上的碱基以氢键相互配对,A和T之间有两个氢键,G和C之间有三个氢键。

这种特定的碱基配对确保了DNA的稳定性和准确性。

基因组的序列组成是由成千上万个基因组成的。

基因是DNA的特定区域,包含了编码蛋白质或RNA的信息。

基因组的其余部分可能包括非编码RNA、调控元件、反转录转座子等。

整个基因组的序列组成对生物体的发育、生长、功能和遗传特性等方面都具有重要影响。

不同生物体的基因组序列组成存在差异,这也是生物多样性的基础之一。

随着技术的进步,科学家们能够测定各种生物的基因组序列,从而更深入地了解生物的遗传信息和进化关系。

利用超级计算技术进行基因组拼接的方法介绍

利用超级计算技术进行基因组拼接的方法介绍

利用超级计算技术进行基因组拼接的方法介绍基因组拼接是生物信息学中一项重要的任务,它是将测序得到的碎片化基因组序列进行组装,以得到完整的基因组序列。

在过去的几十年中,科学家们不断改进和发展基因组拼接的方法。

而近年来,利用超级计算技术进行基因组拼接已经成为一种高效且准确的方法。

利用超级计算技术进行基因组拼接的方法有很多,其中最常用的包括:重叠图法、De Bruijn图法和串联图法。

重叠图法是最早被开发和使用的一种拼接方法。

它通过分析、比对和匹配测序得到的碎片化序列的重叠部分来进行拼接。

在进行基因组拼接时,首先需要构建一个重叠图,图中的每个节点代表一个碎片化序列,节点之间的边表示序列之间的重叠关系。

然后,通过遍历和搜索图中的路径,找到可以使得所有节点都能够连在一起的路径,最终得到完整的基因组序列。

De Bruijn图法是另一种常用的基因组拼接方法,它通过将长序列切割成较短的k-mer序列,然后构建一个De Bruijn图来进行拼接。

在这个图中,节点表示k-mer 序列,边表示k-1个字符的重叠。

通过遍历和搜索图中的路径,找到所有节点都能够连在一起的路径,进而得到完整的基因组序列。

串联图法是一种基于哈希表的基因组拼接方法。

它将碎片化序列映射为k-mer 序列,然后构建一个哈希表来存储所有的k-mer序列。

接着,通过遍历哈希表中的所有k-mer序列,并通过匹配重叠k-1个字符的方式进行拼接,最终得到完整的基因组序列。

这些利用超级计算技术进行基因组拼接的方法在最近几年取得了巨大的进展。

一方面,随着计算技术的不断发展,超级计算机的计算能力大幅提升,使得基因组拼接可以更快、更准确地完成。

另一方面,大量的生物信息学数据和先进的算法也为基因组拼接提供了更多的机会和挑战。

例如,利用机器学习和人工智能的算法来预测和纠正碎片化序列中的错误,可以提高基因组拼接的准确性和可靠性。

尽管利用超级计算技术进行基因组拼接的方法已经取得了许多成果,但仍然存在一些挑战和限制。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2014年成都理工大学校内数学建模竞赛论文二0一四年五月二十五日摘要:本文所要研究的就是全基因组的从头测序的组装问题。

首先,本文简要介绍了测序技术及测序策略,认真分析了基因系列拼装所面临的主要挑战,比如reads数据海量、可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况,探讨了当前基因组序列拼接所采用的主要策略,即OLC(Overlap/Layout/Consensus)方法、de Bruijn图方法,且深入探讨了de Bruijn图方法。

其次,针对题中问题,以一条reads为基本单位,分为reads拼接和contig组装两个阶段,其中contig是由reads拼接生成的长序列片段。

Reads的拼接阶段主要包括数据预处理、de-Bruijn 图、contig构建等,而contig的组装阶段主要包括序列的相对位置的确定以及重叠部分overlap的检测,用序列比对的方法来提高拼接的精度。

最后,进行了算法的验证与性能的评价,并且针对问题2,进行了组装分析与验证,结果表明,得到的拼接基因组序列在小范围内与原基因组序列大致吻合。

关键词:基因组系列拼接; reads;de Bruijn图;contig组装;k-mer片段;一.问题重述基因组组装快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。

对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。

获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。

确定基因组碱基对序列的过程称为测序(sequencing)。

测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。

从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。

尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。

通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。

例如,若有两个短片段序列分别为ATACCTT GCTAGCGTGCTAGCGT AGGTCTGA则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。

当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。

对组装效果的评价主要依据组装序列的连续性、完整性和准确性。

连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。

利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。

基因组复制份数约为50–100。

基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。

常用的组装算法主要基于OLC(Overlap/Layout/Consensus)方法、贪婪图方法、de Bruijn 图方法等。

一个好的算法应具备组装效果好、时间短、内存小等特点。

新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。

问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。

你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。

问题二:现有一个全长约为120,000个碱基对的细菌人工染色体(BAC),采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度(sequencing depth)约为70×,即基因组每个位置平均被测到约70次。

试利用你的算法和程序进行组装,并使之具有良好的组装效果。

附录一:测序策略测序策略如下图所示。

DNA分子由两条单链组成,在图中表现为两条平行直线,两条直线上相对位置的两个碱基相互结合形成碱基对(bp),并且与碱基A 结合的碱基必为T,与碱基C结合的碱基必为G。

将一个含120,000个bp的完整基因组,随机打断成500bp的片段,然后对500bp的片段进行测序。

测序方法如第3步所示,分别从500bp片段的两端,对两条单链进行测序,测得的读长记为reads1,reads2。

reads1,reads2的长度均为88bp,且该对reads相距500bp。

图1 测序策略示意图附录二:数据格式读长数据格式为fastq格式:每4行表示一条reads第一行:@序列ID,包含index序列及read1或read2标志;第二行:碱基序列,大写“ACGTN”;第三行:“+”,省略了序列ID;第四行:质量值序列:字符的ASCII码值-64=质量值。

附录三:读长数据测序得到的读长数据存放于两个fastq文件中(见附件一),其中McMc_BAC_1.fq.gz.clean.dup.clean和McMc_BAC_2.fq.gz.clean.dup.clean分别存放reads1和reads2的数据。

二.问题分析正如上面问题所描述的一样,我们要解决的是要将基因小序列read组装成连续的基因大序列乃至最终的完整基因序列,而这就要将两个read1和read2片段进行比较与拼接,比较的时候,因为相似片段的长短问题而不能确定拼接正确性,因此可以用两片段相似的权值来判断拼接的合理性,这样,若用点来代替read,用加权的边来判断到底要和哪个片段进行拼接,我们在查阅资料后,发现可以通过de bruijn图并对其进行相应的改进后来建立数学模型对问题进行求解。

设想一本杂志被复制成多份,将每份杂志均以不同的方式剪切,将多份剪切的杂志放在一起。

在剪切的过程中,一些碎片丢失,一些碎片被污渍浸染,一些碎片存在着重叠现象。

根据上述情况来寻找恢复原始杂志的方法。

这是DNA序列拼接问题的现实模型描述。

基于de Bmijn图的序列拼接原理主要是通过构造并简化de Bmijn图结构来实现整个序列拼接的过程。

三.基于De Bruijn图的序列拼接技术分析与比较二十世纪八十年代末,Pevzner等人提出基于de bruijn图的算法,并首次将该算法用于DNA序列拼接。

基于de bruijn图的算法的核心思是将序列拼接问题转换为人们所熟悉的欧拉路径问题。

Pevzner等人认为传统的overlap-layout-consensus算法导致了将DNA序列拼接问题转换为Hamilton路径问题,他们受到杂交测序方法SBH(Sequencing by Hybridization)的启发,创造性地提出了在de Bruijn图中寻找欧拉路径的构想,尽管杂交测序方法SBH 从未在测序工程中实际应用过,但它直接引发了基因芯片工业的诞生。

构造de Bruijn图的方法如下所述:(1)在read集合R={r1,r2,…,rn}中,首先将每一条read分割成若干k-mer(长度更短的DNA片段),分割方法如图1-1所示。

假定集合R中任意一条read的长度均为l,k-mer长度值设为k,那么集合R中的任意一条read均可被分为l–k+1条k-mer,并且这些k-mer作为de Bruijn图的顶点。

(2)对于给定的两条k-mer x和y,如果在某read ri中存在一条长度为k+1的子串,且该子串的前k个碱基与k-mer x(或y)精确匹配,同时该子串的后k个碱基与k-mer y(或x)精确匹配,那么该算法认为两条k-mer x和y之间存在一条公共边。

将采用上述方法构造的de Bruijn图记作G。

对于read集合R={r1,r2,…,rn}中的任意一条read ri,若在de Bruijn图G中存在一条路径P,且该路径P 访问ri中的每一条k-mer仅一次,则欧拉路径问题便可理解为:给定某一de Bruijn图G以及G中的路径集合P,在de Bruijn图G中确定某一条欧拉路径Q,使得路径集合P中的每一个元素都是欧拉路径Q的子路径。

利用欧拉路径算法进行DNA序列拼接的主要步骤如下所述:首先利用纠错软件修正read中测序错误的碱基;然后按照上述方法构建de Bruijn图;构建deBruijn图之后,应将read 集合中的所有read排列在de Bruijn图中,在deBruijn图中,每一条read均被视作一条路径;最后在de Bruijn图中寻找一条欧拉路径,使得该路径包含de Bruijn图中所有read所对应的路径。

在OLC中,在Overlap步骤中,采用了序列比对算法来寻找read之间的重叠信息,该算法的时间复杂度为0(?2),其中,《SDNA序列中read的数量。

当前DNA 测序数据序列越来越短,对同一个物种进行测序,其产生的read数量大大增加,这使得OLC的计算量增加;而基于deBruijn图原理的序列拼接中,抛弃了 OLC中序列比对算法,而是采用以k-mer为图中顶点构建图,从而减少了序列比对算法所消耗的时间,提高了算法的效率与overlap-layout-consensus算法相比,基于de bruijn图的算法有更低的时间复杂度,这是因为欧拉路径问题实际上是一个线性时间的问题。

利用欧拉路径思想的拼接算法有EULER-SR、ALLPATHS、Velvet和EULER等。

四.模型建立4.1.1模型的假设1.假设模型中的read片段都是由一条完整的DNA经过测序而来,它们进过拼接后可以形成一个大片段。

2.模型中出现的各个序列中DNA的双链都准确3.模型中read在拼接时合理地去掉的公共部分在误差允许的范围内。

4.由于总会在测序中出现read的碱基错误,因此,假设这少量的错误在模型求解时时在误差允许的范围内的。

5.在基因组的剪切过程中未发生基因的丢失,DNA改变,基因的重叠等4.1.2数据在拼接的预处理Reads在拼接时,由于新一代序列数据很多,准确度较低,导致reads中含有大量错误碱基。

在这种错误下,de Bruijn图的实际大小会随着reads数据量的增加呈现指数型增长,并且容易造成错误拼接。

因此,在此之前需要对reads 进行预处理,修正或消除初始reads中的碱基错误。

(1)新一代测序数据错误率高,且主要分布在靠近reads3’端部分,并且越靠近3’出错率越高,而5’端比较正确,如图3-1[2]所示。

为减少错误,我们的方法是:计算3’端reads长度一般的碱基的平均质量,过滤掉该区域平均质量小于15的reads。

相关文档
最新文档