基因组序列拼接

合集下载

全基因组的序列比对与分析

全基因组的序列比对与分析随着基因测序技术的不断进步，全基因组测序已经成为现代生物学、医学和农业研究的重要手段。

全基因组测序技术可以获取一个生物体基因组的全部序列信息，为研究各种生物过程提供了庞大的数据资源。

全基因组的序列比对是全基因组测序技术中一个重要的环节，它可以比较已知的参考基因组与测序样本之间的差异，帮助鉴定单核苷酸多态性（SNP）、插入和缺失（indels）等变异信息。

本文将介绍全基因组序列比对与分析的基本原理、流程与应用。

1.全基因组的序列比对全基因组序列比对主要分为两个阶段：即预处理（Pre-processing）和比对（Alignment）。

预处理步骤包括质量控制、过滤和剪切等。

质量控制是为了去除序列中含有的低质量碱基数据，过滤是为了去除低质量碱基序列和类型二的读取（错误配对Reads）,剪切主要是为了去除低质量的序列。

比对是将参考序列（reference）与样本序列（query）进行比较，以便找出两者之间的差异。

比对的基本思路是用序列比对算法将query序列逐个片段与reference序列对应的片段比对，并找到最佳位置（best-hit）。

全基因组比对算法主要分为三类：短读比对算法、长读比对算法和混合比对算法。

短读比对算法主要适用于Illumina的短读测序技术，常用的算法有Bowtie2、BWA等；长读比对算法适用于PacBio、Oxford Nanopore等长读测序技术，常用的算法有NGMLR、Minimap2等；混合比对算法可以同时处理上述两种类型数据，如STAR、HISAT2等。

2.全基因组的序列分析在比对完成之后，接下来需要进行数据的解析和分析，以获取进一步的信息。

主要的分析任务包括SNP鉴定、indels识别、结构变异检测等。

SNP鉴定是比对的基本任务之一，通常使用VarScan、GATK、samtools、Strelka等工具来发现SNP变异信息。

这些工具通过比较每个位点上样本和参考基因组的碱基变化，从而鉴定出SNP位点，并输出其相关信息。

简化基因组测序原理

简化基因组测序原理基因组测序是通过分析DNA序列来确定一个个体的基因组构成的过程。

它是生物学和遗传学研究的基础，也是现代医学和生物技术的重要工具。

基因组是一个个体的全部遗传信息的总和，它所包含的基因决定了生物个体的特征和功能。

基因组测序的目的是确定一个个体的基因组序列，从而帮助我们更好地理解生物个体的遗传特性和功能。

基因组测序的原理可以简化为以下几个步骤：1. 样本提取：首先，从目标个体的细胞中提取DNA样本。

这个样本可以是血液、组织或唾液等。

2. DNA纯化：提取的DNA样本可能含有其他杂质，需要进行纯化处理，将目标DNA分离出来。

3. DNA片段化：将纯化后的DNA样本进行片段化处理，将长的DNA分子切割成短的片段。

现代基因组测序通常是通过高通量测序技术进行，可以同时测序几百万个DNA片段。

4. 文库构建：将片段化的DNA样本与特定的测序文库适配体连接。

测序文库是一组DNA片段，每个片段都有一个特定的序列标签，用于测序后的数据解码和分析。

5. 扩增和测序：通过PCR（聚合酶链式反应）或其它扩增方法，复制文库中的DNA片段，形成大量的DNA模板。

然后，借助于高通量测序技术（如Illumina 测序仪），对DNA模板进行测序。

这些技术能够同时测序数百万个DNA片段，从而加快测序过程并降低成本。

6. 数据分析：测序仪会生成海量的原始测序数据，需要经过一系列的数据处理和分析步骤来得到准确的基因组序列数据。

首先，原始测序数据要经过识别和去除测序错误的步骤；然后，将测序片段拼接成完整的序列，这个过程称为基因组装。

最后，通过与已知的基因组数据库进行比对，将测序数据与参考序列对比，来确定碱基的次序和确定基因组上的随机突变。

以上就是基因组测序的主要原理和步骤。

随着技术的不断发展和进步，基因组测序已经成为一项快速、精确且富有信息的工具，对于基础科学研究、医学诊断和个体化治疗都具有重要的应用前景。

综述：无缝克隆与基因融合(中文版)

无缝克隆与基因融合基因融合技术是基因功能研究的关键工具。

准确拼接的杂合分子，没有任何无关的序列，使我们可以对分子进行精确的研究。

本篇综述介绍了无缝融合基因和蛋白的应用，以及获得这些杂交分子的方法前言随着各种基因组测序项目的完成，人们越来越关注基因产物的功能分析。

基因融合技术在基因功能研究的许多方面具有重要的作用，包括基因和蛋白标记，报告基因的研究，结构域互换研究，突变研究和基因敲除或者插入实验。

传统的基因融合技术涉及到type II 限制酶消化和DNA连接反应（所谓的剪切/粘贴反应），曾被用来作为构建杂交基因的标准方法。

然而，这种方法常常会在接合处留下操作的序列，例如酶切位点。

这些多余的序列可以改变DNA元件的间隔，在接合处引入多余的氨基酸残基，可能对融合蛋白的结构和功能产生不需要的影响，因此影响对融合基因精确的研究。

这篇综述讨论了精确融合基因的应用之处，概括了实现无缝基因融合的方法。

无缝基因融合及其应用无缝克隆和基因融合就是将两个或者更多DNA片段精确结合在一起，在DNA片段的接合处没有任何不需要的序列。

这是获得杂交基因的理想情况。

以下强调几个例子，以表明无缝基因融合的重要性。

启动子和外显子研究基因启动子含有许多调控元件。

转录因子与它们结合并互相影响来调控转录。

启动子删除分析使我们鉴定到这些功能元件，获得关于基因调控机制的重要信息。

然而，因为不同调控元件之间的间隔常常是非常重要的，通常需要长度不变的linker来维持这些元件的间隔和螺旋面。

基因启动子的linker扫描分析需要无缝DNA融合或者序列替换技术。

分子演化方法例如外显子和DNA转移来获得具有需要生化和/或生理特征的蛋白也需要不同功能元件的无缝拼接。

在真核细胞中，通过内含子介导的RNA拼接可以构建嵌合体基因和/或蛋白。

在这些实验中RNA底物的合成和/或外显子标记核酶需要认真的设计，得到嵌合体前体基因。

只要杂合基因形成正确，无缝融合就可以通过拼接实现。

宏基因组分析流程

宏基因组分析流程宏基因组分析是一种用来研究微生物群落的方法，它通过对微生物群落的DNA进行测序，以及后续的数据处理和分析，来了解微生物群落的组成和功能。

宏基因组分析流程一般包括以下几个步骤：采样、DNA提取、测序、数据预处理、生物信息学分析和结果解读等。

首先，采样是宏基因组分析的第一步。

采样要注意代表性，可以选择不同环境样品来进行比较和研究。

例如，可以采集不同土壤样品、水样、肠道样品等，以获得不同地理位置、不同物种群落和不同物理化学环境下的微生物样品。

第二步是DNA提取，它是宏基因组分析的基础步骤。

DNA提取是从采样物中提取出微生物DNA的过程。

由于微生物的特点是数量少，与宿主DNA、细胞碎片等杂质混合，所以DNA提取的方法要注意高效、纯度高，并且能够获得足够的DNA浓度。

第三步是测序。

测序是宏基因组分析的关键步骤。

常用的宏基因组测序方法有Illumina HiSeq和MiSeq等，也有传统的Sanger测序方法。

Illumina HiSeq和MiSeq等高通量测序技术能够产生大量高质量的短序列片段，对于宏基因组分析来说是非常有效和经济的方法。

第四步是数据预处理。

宏基因组测序产生的数据量非常大，需要进行数据预处理和质量控制，以去除噪声和低质量的序列片段。

这一步包括质量过滤、去除接头、去除低质量片段和短片段等。

数据预处理还包括序列拼接，将多个片段拼接成更长的序列以得到更好的基因组组装。

第五步是生物信息学分析。

生物信息学分析包括序列比对、基因组组装、物种注释、功能注释等。

序列比对是将测序后的序列片段与参考基因组比对，以确定片段的起源。

基因组组装是将拼接后的序列片段组装成完整的基因组。

物种注释是将基因组中的序列与已知的物种进行比对，以确定微生物群落的组成。

功能注释是将基因组中的序列与已知的功能数据库比对，以确定微生物群落的功能。

最后一步是结果解读。

根据宏基因组分析的结果，可以了解微生物群落的组成和功能。

基因序列表的制作过程

基因序列表的制作过程
基因序列表是描述特定基因或基因组的核苷酸序列的详细记录，是现代分子生物学的基石。

其制作过程涉及以下几个关键步骤：
1. 样品制备
从目标生物体收集基因组 DNA 或 RNA 样品。

使用特定酶（如限制性内切酶）将大 DNA 分子切成较小的片段。

2. 文库构建
将 DNA 片段插入到克隆载体（如质粒或噬菌体）中。

载体随 DNA 片段一起转化到宿主细胞，如大肠杆菌。

3. 测序
使用 DNA 测序技术，如桑格测序或二代测序（NGS），逐个确
定 DNA 片段的核苷酸序列。

每个片段的序列数据通过计算机组装，形成基因组序列的粗略图。

4. 组装
将重叠的序列片段对齐，使用算法拼接到一起，形成连续的基
因组序列。

该过程利用计算方法和人工验证相结合，以确保序列的准确性。

5. 注释
在组装好的序列上标识基因、调控区域和其他功能元件。

注释涉及使用数据库、比较基因组学和功能预测工具。

6. 质量控制
检查基因序列表的准确性，寻找错误、缺失和重复。

使用统计方法和计算工具评估序列的质量。

7. 发布
将最终的基因序列表提交到公共数据库，如 GenBank 或 EMBL。

公布的数据可供研究人员和公众使用，促进生物学研究和医学
发展。

基因序列表的制作是一项复杂而漫长的过程，涉及多种技术和
分析方法。

然而，它对我们的生物学理解和医学应用至关重要，使
我们能够深入了解基因、疾病和进化。

基因组学概论的名词解释

基因组学概论的名词解释近年来，随着科技的飞速发展，基因组学成为了生物学领域中备受瞩目的分支学科。

它涵盖了许多重要的名词和概念，为了更好地理解基因组学领域的知识，让我们一起来探索其中的名词解释。

1. 基因组学（Genomics）基因组学是研究生物体在整个基因组层面上的结构、功能和演化的学科。

它涵盖了DNA序列的研究和基因的功能及调控机制等方面。

通过对基因组的研究，科学家们能够更好地了解生物的遗传信息、种群演化以及相关疾病的发生机制。

2. 基因组（Genome）基因组是生物体遗传信息的完整集合，包括所有的DNA序列和基因。

它可以分为核基因组和线粒体基因组两部分。

基因组的研究不仅可以揭示基因的分布和组织方式，还可以帮助我们理解基因在生物体发育和功能表现中的作用。

3. DNA（Deoxyribonucleic acid）DNA是所有生物体中的遗传物质，也被称为脱氧核糖核酸。

它是由四种碱基（腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶）组合而成的长链分子。

DNA储存了生物体的遗传信息，并通过遗传密码将信息传递给下一代。

4. 基因（Gene）基因是控制特定特征和功能的DNA片段。

它是遗传信息的基本单位，负责编码蛋白质或调控蛋白质的合成。

基因由启动子、编码区和终止子组成，并通过转录和翻译过程产生功能性蛋白质。

5. 基因组装（Genome Assembly）基因组装是将测序得到的原始DNA片段重新拼接组装成完整的基因组序列的过程。

随着测序技术的发展，基因组装变得越来越精确和高效，为进一步理解基因组提供了有力工具。

6. 基因组注释（Genome Annotation）基因组注释是对已经完成基因组测序和组装的结果进行进一步分析和注释的过程。

通过比对现有数据库中的已知序列和进行进一步的生物信息学分析，可以确定基因的位置、编码的蛋白质功能以及可能的调控元件。

7. 生物信息学（Bioinformatics）生物信息学是将计算机科学和统计学的方法应用于生物学领域的一门学科。

基因组的序列组成

基因组的序列组成
基因组是生物体内全部遗传信息的总和，包括DNA和RNA。

DNA是生物体内主要的遗传物质，而RNA在基因的转录和翻译过程中起关键作用。

基因组的序列组成指的是DNA或RNA中碱基的排列顺序，包括腺嘌呤（A）、鸟嘌呤（G）、胞嘧啶（C）和胸腺嘧啶（T）（对于RNA而言，替代的碱基是尿嘧啶（U）而不是胸腺嘧啶）。

在人类和许多其他生物中，DNA是以双螺旋结构存在的，由两个互补的链构成。

每个链上的碱基以氢键相互配对，A和T之间有两个氢键，G和C之间有三个氢键。

这种特定的碱基配对确保了DNA的稳定性和准确性。

基因组的序列组成是由成千上万个基因组成的。

基因是DNA的特定区域，包含了编码蛋白质或RNA的信息。

基因组的其余部分可能包括非编码RNA、调控元件、反转录转座子等。

整个基因组的序列组成对生物体的发育、生长、功能和遗传特性等方面都具有重要影响。

不同生物体的基因组序列组成存在差异，这也是生物多样性的基础之一。

随着技术的进步，科学家们能够测定各种生物的基因组序列，从而更深入地了解生物的遗传信息和进化关系。

病毒全基因组测序流程

病毒全基因组测序流程下载温馨提示:该文档是我店铺精心编制而成，希望大家下载以后，能够帮助大家解决实际的问题。

文档下载后可定制随意修改，请根据实际需要进行相应的调整和使用，谢谢!并且，本店铺为大家提供各种各样类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，如想了解不同资料格式和写法，敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!1. 样本采集：从患者或病毒携带者身上采集合适的样本，如血液、唾液、鼻咽拭子等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2014年成都理工大学校内数学建模竞赛论文二0一四年五月二十五日摘要：本文所要研究的就是全基因组的从头测序的组装问题。

首先，本文简要介绍了测序技术及测序策略，认真分析了基因系列拼装所面临的主要挑战，比如reads数据海量、可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况，探讨了当前基因组序列拼接所采用的主要策略，即OLC（Overlap/Layout/Consensus）方法、de Bruijn图方法，且深入探讨了de Bruijn图方法。

其次，针对题中问题，以一条reads为基本单位，分为reads拼接和contig组装两个阶段，其中contig是由reads拼接生成的长序列片段。

Reads的拼接阶段主要包括数据预处理、de-Bruijn 图、contig构建等，而contig的组装阶段主要包括序列的相对位置的确定以及重叠部分overlap的检测，用序列比对的方法来提高拼接的精度。

最后，进行了算法的验证与性能的评价，并且针对问题2，进行了组装分析与验证，结果表明，得到的拼接基因组序列在小范围内与原基因组序列大致吻合。

关键词：基因组系列拼接； reads；de Bruijn图；contig组装；k-mer片段；一.问题重述基因组组装快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。

对每个生物体来说，基因组包含了整个生物体的遗传信息，这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。

获得目标生物基因组的序列信息，进而比较全面地揭示基因组的复杂性和多样性，成为生命科学领域的重要研究内容。

确定基因组碱基对序列的过程称为测序（sequencing）。

测序技术始于20世纪70年代，伴随着人类基因组计划的实施而突飞猛进。

从第一代到现在普遍应用的第二代，以及近年来正在兴起的第三代，测序技术正向着高通量、低成本的方向发展。

尽管如此，目前能直接读取的碱基对序列长度远小于基因组序列长度，因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。

通常的做法是，将基因组复制若干份，无规律地分断成短片段后进行测序，然后寻找测得的不同短片段序列之间的重合部分，并利用这些信息进行组装。

例如，若有两个短片段序列分别为ATACCTT GCTAGCGTGCTAGCGT AGGTCTGA则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。

当然，由于技术的限制和实际情况的复杂性，最终组装得到的序列与真实基因组序列之间仍可能存在差异，甚至只能得到若干条无法进一步连接起来的序列。

对组装效果的评价主要依据组装序列的连续性、完整性和准确性。

连续性要求组装得到的（多条）序列长度尽可能长；完整性要求组装序列的总长度占基因组序列长度的比例尽可能大；准确性要求组装序列与真实序列尽可能符合。

利用现有的测序技术，可按一定的测序策略获得长度约为50–100个碱基对的序列，称为读长（reads）。

基因组复制份数约为50–100。

基因组组装软件可根据得到的所有读长组装成基因组，这些软件的核心是某个组装算法。

常用的组装算法主要基于OLC（Overlap/Layout/Consensus）方法、贪婪图方法、de Bruijn 图方法等。

一个好的算法应具备组装效果好、时间短、内存小等特点。

新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点，现有算法的性能还有较大的改善空间。

问题一：试建立数学模型，设计算法并编制程序，将读长序列组装成基因组。

你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。

问题二：现有一个全长约为120,000个碱基对的细菌人工染色体（BAC），采用Hiseq2000测序仪进行测序，测序策略以及数据格式的简要说明见附录一和附录二，测得的读长数据见附录三，测序深度（sequencing depth）约为70×，即基因组每个位置平均被测到约70次。

试利用你的算法和程序进行组装，并使之具有良好的组装效果。

附录一：测序策略测序策略如下图所示。

DNA分子由两条单链组成，在图中表现为两条平行直线，两条直线上相对位置的两个碱基相互结合形成碱基对（bp），并且与碱基A 结合的碱基必为T，与碱基C结合的碱基必为G。

将一个含120,000个bp的完整基因组，随机打断成500bp的片段，然后对500bp的片段进行测序。

测序方法如第3步所示，分别从500bp片段的两端，对两条单链进行测序，测得的读长记为reads1，reads2。

reads1，reads2的长度均为88bp，且该对reads相距500bp。

图1 测序策略示意图附录二：数据格式读长数据格式为fastq格式：每4行表示一条reads第一行：@序列ID，包含index序列及read1或read2标志；第二行：碱基序列，大写“ACGTN”；第三行：“+”，省略了序列ID；第四行：质量值序列：字符的ASCII码值-64=质量值。

附录三：读长数据测序得到的读长数据存放于两个fastq文件中（见附件一），其中McMc_BAC_1.fq.gz.clean.dup.clean和McMc_BAC_2.fq.gz.clean.dup.clean分别存放reads1和reads2的数据。

二.问题分析正如上面问题所描述的一样，我们要解决的是要将基因小序列read组装成连续的基因大序列乃至最终的完整基因序列，而这就要将两个read1和read2片段进行比较与拼接，比较的时候，因为相似片段的长短问题而不能确定拼接正确性，因此可以用两片段相似的权值来判断拼接的合理性，这样，若用点来代替read，用加权的边来判断到底要和哪个片段进行拼接，我们在查阅资料后，发现可以通过de bruijn图并对其进行相应的改进后来建立数学模型对问题进行求解。

设想一本杂志被复制成多份,将每份杂志均以不同的方式剪切,将多份剪切的杂志放在一起。

在剪切的过程中,一些碎片丢失,一些碎片被污渍浸染,一些碎片存在着重叠现象。

根据上述情况来寻找恢复原始杂志的方法。

这是DNA序列拼接问题的现实模型描述。

基于de Bmijn图的序列拼接原理主要是通过构造并简化de Bmijn图结构来实现整个序列拼接的过程。

三.基于De Bruijn图的序列拼接技术分析与比较二十世纪八十年代末，Pevzner等人提出基于de bruijn图的算法，并首次将该算法用于DNA序列拼接。

基于de bruijn图的算法的核心思是将序列拼接问题转换为人们所熟悉的欧拉路径问题。

Pevzner等人认为传统的overlap-layout-consensus算法导致了将DNA序列拼接问题转换为Hamilton路径问题，他们受到杂交测序方法SBH(Sequencing by Hybridization)的启发，创造性地提出了在de Bruijn图中寻找欧拉路径的构想，尽管杂交测序方法SBH 从未在测序工程中实际应用过，但它直接引发了基因芯片工业的诞生。

构造de Bruijn图的方法如下所述：（1）在read集合R={r1，r2，…，rn}中，首先将每一条read分割成若干k-mer(长度更短的DNA片段)，分割方法如图1-1所示。

假定集合R中任意一条read的长度均为l，k-mer长度值设为k，那么集合R中的任意一条read均可被分为l–k+1条k-mer，并且这些k-mer作为de Bruijn图的顶点。

（2）对于给定的两条k-mer x和y，如果在某read ri中存在一条长度为k+1的子串，且该子串的前k个碱基与k-mer x(或y)精确匹配，同时该子串的后k个碱基与k-mer y(或x)精确匹配，那么该算法认为两条k-mer x和y之间存在一条公共边。

将采用上述方法构造的de Bruijn图记作G。

对于read集合R={r1，r2，…，rn}中的任意一条read ri，若在de Bruijn图G中存在一条路径P，且该路径P 访问ri中的每一条k-mer仅一次，则欧拉路径问题便可理解为：给定某一de Bruijn图G以及G中的路径集合P，在de Bruijn图G中确定某一条欧拉路径Q，使得路径集合P中的每一个元素都是欧拉路径Q的子路径。

利用欧拉路径算法进行DNA序列拼接的主要步骤如下所述：首先利用纠错软件修正read中测序错误的碱基；然后按照上述方法构建de Bruijn图；构建deBruijn图之后，应将read 集合中的所有read排列在de Bruijn图中，在deBruijn图中，每一条read均被视作一条路径；最后在de Bruijn图中寻找一条欧拉路径，使得该路径包含de Bruijn图中所有read所对应的路径。

在OLC中,在Overlap步骤中,采用了序列比对算法来寻找read之间的重叠信息,该算法的时间复杂度为0(?2),其中,《SDNA序列中read的数量。

当前DNA 测序数据序列越来越短,对同一个物种进行测序,其产生的read数量大大增加,这使得OLC的计算量增加;而基于deBruijn图原理的序列拼接中,抛弃了 OLC中序列比对算法,而是采用以k-mer为图中顶点构建图,从而减少了序列比对算法所消耗的时间,提高了算法的效率与overlap-layout-consensus算法相比，基于de bruijn图的算法有更低的时间复杂度，这是因为欧拉路径问题实际上是一个线性时间的问题。

利用欧拉路径思想的拼接算法有EULER-SR、ALLPATHS、Velvet和EULER等。

四．模型建立4.1.1模型的假设1.假设模型中的read片段都是由一条完整的DNA经过测序而来，它们进过拼接后可以形成一个大片段。

2.模型中出现的各个序列中DNA的双链都准确3.模型中read在拼接时合理地去掉的公共部分在误差允许的范围内。

4.由于总会在测序中出现read的碱基错误，因此，假设这少量的错误在模型求解时时在误差允许的范围内的。

5.在基因组的剪切过程中未发生基因的丢失，DNA改变，基因的重叠等4.1.2数据在拼接的预处理Reads在拼接时，由于新一代序列数据很多，准确度较低，导致reads中含有大量错误碱基。

在这种错误下，de Bruijn图的实际大小会随着reads数据量的增加呈现指数型增长，并且容易造成错误拼接。

因此，在此之前需要对reads 进行预处理，修正或消除初始reads中的碱基错误。

（1）新一代测序数据错误率高，且主要分布在靠近reads3’端部分，并且越靠近3’出错率越高，而5’端比较正确，如图3-1[2]所示。

为减少错误，我们的方法是：计算3’端reads长度一般的碱基的平均质量，过滤掉该区域平均质量小于15的reads。