(完整)高通量测序(NGS)数据分析中的质控

高通量测序错误总结

一、生信分析部分

1）Q20/Q30

碱基质量分数与错误率是衡量测序质量的重要指标，质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%，错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%，错误率为1%。对于整个数据来说，我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中，背景颜色沿y-轴将坐标图分为3个区：最上面的绿色是碱基质量很好的区，Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区，Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中，比如以检查差异表达为目的的RNA-seq分析，一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中，一般要求碱基质量要在Q30以上。

一般来说，测序质量分数的分布有两个特点：

1.测序质量分数会随着测序循环的进行而降低。

2.有时每条序列前几个碱基的位置测序错误率较高，质量值相对较低。

在图中这个例子里，左边的数据碱基质量很好，而右边的数据碱基质量就比较差，需要做剪切（trimming），根据生信分析的目的不同，要将质量低于Q20或者低于Q30的碱基剪切掉。

2）序列的平均质量

这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值，纵坐标代表序列数量。通过序列的平均质量报告，我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说，当绝大部分碱基序列的平均质量值的峰值大于30，可以判断序列质量较好。如这里左边的图，我们可以判断样品里没有显著数量的低质量序列。但如果曲线如右边的图所示，在质量较低的坐标位置出现另外一个或者多个峰，说明测序数据中有一部分序列质量较差，需要过滤掉。

3）GC含量分布

这个是GC含量分布报告图。GC含量分布检查是检测每一条序列的GC含量。将样品序列的GC含量和理论的GC含量分布图进行比较，用来检测样品数据是否有污染等问题。理论上，GC含量大致是正态分布，正态分布曲线的峰值对应基因组的GC含量。如果样品的GC含量分布图不是正态分布，如右图出现两个或者多个峰值，表明测序数据里可能有其他来源的DNA序列污染，或者有接头序列的二聚体污染。这种情况下，需要进一步确认这些污染序列的来源，然后将污染清除。

4）序列碱基含量

碱基含量模块是统计在序列中的每一个位置，四种不同碱基占总碱基数的比例。它的目的是检测有无AT、GC分离的现象，而这种现象可能是测序或建库的系统误差所带来的，并且会影响后续的生信分析。理论上，在随机的DNA文库中，G和C含量以及A和T含量在每个测序循环上应分别相等，而且整个测序过程稳定不变。所以碱基含量

整个测序过程中，四条碱基含量线都出现波动，可能是样品库里有过多的接头序列的二聚体（图C，D）。在建库过程中，如果加入的接头序列过量，两个接头序列可能会连在一起，中间没有要测序的插入序列，形成接头序列二聚体。这些二聚体可以利用adapter trimmer 软件去除。

5）过量出现的序列

过量序列模块是查看数据是否有污染的另一种方法。如果某个序列的数量占全部序列的0.1%以上，FASTQC就定义该序列为over-represented。这些over-represented序列通常标示着污染序列的存在。这种污染如果是建库测序中的接头序列，fastqc可以检测并标示出可能的来源（possible source）。但如果污染是由于其他来源的DNA，比如其他生物的DNA，FASTQC就没法判断污染序列的来源。这就需要生信分析人员利用其他方法找出污染源。比如将大量出现的序列和NCBI的DNA数据库进行blast，看看污染序列是否来自其他物种。

6）过量出现的Kmer

检查是否有接头序列，还可以查看k-mer含量。如果有些k-mer过量出现，很有可能有序列污染。过量出现的k-mer可能会有三种情况：序列５'－端，序列中间，或者序列３'－端。５’－端过量出现的k-mer是建库PCR扩增时PCR引物无法和DNA模板很好地结合导致的，是技术误差。出现在中间的k-mer比较少见，可能是接头序列拼接到测序序列中间导致的。3'-端出现过量k-mer往往标示着接头序列的污染。

7）接头序列含量

对接头序列污染的查看还有一个更直观的模块，就是接头序列含量。这里的两个例子中，左图没有显著的接头序列污染，右图的接头序列污染就比较显著。

8）去除duplication序列

重复序列是怎么来的呢？在全基因组或全外显子组测序的建库过程中，需要进行多轮的PCR扩增。由于扩增引物和不同模板结合力的差异，有些地方的序列扩增产物大于1。这些重复序列的存在会造成等位基因频率的定义以及基因型识别不准确。去除重复序列的原理是将所有比对到完全相同位置的序列对减少至一对。一般用picardtools软件里的Markduplcate功能去除重复序列。

9）碱基质量分数重新校正

对原始比对结果的另一个质量控制是对碱基的质量分数进行校正。为什么要对碱基质量进行校正呢？这是因为由于各种系统误差，测序仪报告的碱基质量不精确，比实际质量分数偏高或者偏低。系统误差和随机误差不同，不像随机误差，它其实是一种error。这可能来自于测序反应中的物理化学原因，也可能是测序仪本身存在的缺陷造成。碱基质量分数校正的原理是：利用机器学习的方法建立误差模型，根据建立的模型对碱基分

说明的一点是：碱基质量分数校正不能纠正碱基。也就是说，我们无法通过这个方法确定一个低质量的A是否应该为T。但可以告诉变异识别软件，它可以在多大程度上信任这个碱基A是正确的。

二、实验分析部分

测序错误主要有三大类，分别来自样品制备、文库制备，以及测序和成像。参考文献：The role of replicates for error mitigation in next-generationsequencing

1）来源于样品制备的测序错误

1. 用户错误；例如，贴错标签。虽然这是个低级错误，但肯定不会没犯过。在芯片分析中，贴错标签和样品搞混可都是真事，有文献可查。

2. DNA或RNA的降解；例如，组织自溶，福尔马林固定石蜡包埋（FFPE）组织制备过程中的核酸降解和交联（甲醛固定样品会随机产生C-T转化，导致肺癌T790M假阳性增多）。

3. 异源序列的污染；例如，那些支原体和异种移植的宿主。

4. DNA起始量低。早在2005年人们就发现，在PCR过程中，DNA起始量低的模板会以序列依赖的方式产生虚假的突变，主要是从G转变为A。

2）来源于文库制备的测序错误

1. 用户错误；例如，一个样品的DNA残留到下一个，之前反应的污染。

2. PCR扩增错误。这个同上面第4点。

3. 引物偏向；例如，结合偏向，甲基化偏向，错配导致的偏向，非特异性结合和引物二聚体的形成，发夹结构和干扰环，熔解温度太高或太低引入的偏向。

4. 短捕获偏向，在高通量RNA测序的poly(A)富集过程中引入。

5. 独家突变；例如，那些由重复区域或独家变异的错配而引入的突变。

6. 机器故障；例如，PCR循环温度不正确。

7. 嵌合读取。

8. 条形码和/或接头错误；例如，接头污染，缺乏条形码多样性和不兼容的条形码。

3）来源于测序和成像的测序错误

1. 用户错误；例如，流动槽过载引起的簇crosstalk。

2. 移相；例如，不完整的延伸以及多个核苷酸而不是单个核苷酸的添加。

3. “Dead”荧光基团，受损的核苷酸以及重叠信号。

4. 序列背景；例如，富含GC，同源和低复杂度的区域，及均聚物。

5. 机器故障；例如，激光器、硬盘、软件和流体系统出故障。

6. 链的偏向。

三、小知识

1. 为什么碱基质量在序列的5’-端要差一些？

答：这是由NGS的测序特点造成的。NGS使用的是pyrosequencing (sequencing by synthesis)的方法。在这个方法里，用来合成的4个碱基的混合物里A，C，T，G四个碱基分别带有绿色，蓝色，红色和黑色的荧光标记。而且每个碱基上面都有一个blocker cap，使得每轮反应只能有一个碱基被加入到每个分子中。然后把没有加入分子的游离碱基全部洗去后，对每个分子进行荧光检测来确定新加入的碱基是什么。在下一轮开始之前，这个blocker cap要去被掉才可以加入下一个碱基。如果某个序列的blocker cap 没有能有效地去除，在下一个反应中就没有新的碱基加入，那这个序列的荧光和其他的序列是不一样的，这样总体的荧光强度就被消弱，碱基识别的可信度就被降低。这种错误发生的概率很低，但随着测序长度的增加，这种错误的总数就越来越多，对荧光的影响就越来越大，测序的错误率就越来越大。

2. 什么是接头序列？为什么会有接头序列污染？为什么要清除接头序列？

答：在构建高通量测序的DNA文库时，需要在待测的DNA片段两头分别连一段人工合成的DNA序列。这两段人工合成的序列被称为接头序列。接头序列里一般包含三个重要组成部分：区分样品的barcode序列，PCR primer序列和测序引物结合的序列。在一般情况下，待测的插入序列在5’-接头序列下游，5’-段的接头序列不会出现在测序结果序列里。但当插入测序列过短时，测序反应会超过待测序列而测到3’-端的接头序列，从而造成接头序列的污染。当reads中有接头序列，会导致比对错误和非比对的序列书面增加。所以要清楚接头序列。

3. 测序深度不均一性是测序建库技术操作的问题，还是每个人的个体化差异导致不均一的现象？

答：不均一的原因个体DNA和测序应该都有，看不同的情况。比如我们曾经分析过一个WES, 在一个本应该检测到变异的基因，我们无论如何检测不到。可视化发现该区域内没有reads。而查看这段基因序列，发现是100% 的G。而对测序仪来说，如果G含量超过80%，就很难成功测序。而如果个体某段DNA含有比较多的SNP，捕获探针就无法很好和DNA杂交，而不能有效的捕获。

4. 测序是否越深越好?

NGS属于“深度测序”，可以1次并行对几十万甚至上百万条DNA分子进行序列测定，从而实现每个位点被覆盖几十次甚至上百次。通过计算测序得到的碱基总量与测序区域大小的比值，可以获得测序的平均深度，是评价测序质量的重要指标之一。测序深度的增加使得目标区域覆盖的读长增多，获得区域的序列信息更为精确。然而，测序深度的增加意味着测序成本的提高。因此，在测序之前需对数据精确度和成本进行综合考虑，根据临床应用需求选择合理的测序深度。测序深度的选择主要基于以下4个方面的考虑：

首先，常规的测序项目采用普遍被接受或推荐的测序深度。正常组织全基因组测序建议的测序深度为10X～30X。有研究表明，30X的测序深度可以覆盖80%的全基因组信息，基本满足常规的全基因组测序需求。正常组织全外显子测序的测序深度为100X～200X。转录组测序虽不以深度来衡量，但对测序读长数有明确的要求，一般为百万数量级。常规的染色质免疫共沉淀测序则需要100X左右。这些测序深度都经过多方验证，基本能满足不同测序目的的数据需求。

其次，特殊目的的测序项目可通过检索文献数据库，选择与相关研究类似的测序深度，如在开展循环肿瘤DNA（circulating tumor DNA，ctDNA）检测时，可参考CAPP-Seq方法中的测序深度（10 000X以上），以保证可以覆盖低频率的ctDNA突变信息。开展高深度的肿瘤基因组测序，可选择60X～100X的测序深度。

再次，根据已有的测序项目进行深度优化，如根据已知现有Panel检测项目靶向区域各碱基的深度分布情况，90%以上的碱基覆盖深度＞0.2（均值归一化结果），要实现平均测序深度在10X以上的深度测序，其实际测序深度则要达到50X（10/0.2=50），类似的策略可参阅illumina技术手册(???)。这种优化策略对于新检测项目的研发有重要的帮助。

最后，根据测序目的选择测序深度。例如我们开展的遗传乳腺癌高危人群筛查项目，采用靶向捕获测序检测血液样本中的胚系突变，由于胚系突变频率理论值为0%、50%和100%，此时采取较低的深度（200X）就可获得该突变信息。但在肿瘤体细胞的突变检测中，由于肿瘤组织样本中肿瘤细胞的异质性和样本纯度等原因，可能存在低频率的体细胞突变（5%、1%，甚至更低），为了获得这些突变信息，我们在肿瘤用药指导检测项目中采取深度测序，保证1 000X以上的测序数据。

值得强调的是，测序深度的增加往往意味着建库阶段PCR扩增次数的增加，会导致重复读长的增多，这些冗余数据不仅增加了数据处理的计算量，同时会对变异检测产生干扰。总之，测序深度不是随意指定的，在检测项目的建立过程中，必须根据项目需求选取合适的测序深度。同时，在开展的检测项目中，必须对测序数据进行质量评估，判断其是否达到预期的测序深度，深度不够则必须补测，若差异太大，则必须重新测序。

5. 靶向测序是否真的完全覆盖靶向区域？

靶向测序是通过捕获或扩增的手段抓取基因组特定区域的片段进行NGS，这个特定区域既可以是单个或多个基因，也可以是全外显子组甚至全基因组。必须注意的是，由于现有的测序技术很难捕获高GC区域、短重复片段等基因组区域，全外显子组测序和全基因组测序并不能完全覆盖全外显子组或全基因组区域，最好的全基因组测序覆盖度可达97%。Illumina公司的外显子组捕获技术（TruSeq Exome）可实现99.45%的RefSeq、98.83%的一致性编码序列（consensus coding sequence，CCDS）、99.68%的Ensembl、99.68%的GENCODE v19的覆盖度。此外，不同的全基因组或外显子组捕获体系，如NimbleGen、Agilent、Illumina TruSeq和Illumina Nextera的捕获效率/覆盖度也存在差异。

在测序过程中，由于试剂差异、人员操作、仪器维护等因素，实际的捕获效率和覆盖度也会与期望值存在偏差，可能会捕获到非目标区域序列，也可能漏捕目标区域序列。非目标区域序列对于靶向测序没有意义，而脱靶序列会导致测序信息缺失。因此，对于任何检测项目，每一次测序必须给出靶向区域的覆盖度统计，这是衡量测序质量的重要指标之一。当覆盖度过低时，则需补测数据或对样本重测。

值得强调的是，靶向区域内碱基覆盖深度的分布并不是均匀的，在靶向区域的5＇端和3＇端，其测序深度较低，甚至只有1个或几个读长覆盖，这种低深度的序列信息不能提供可靠的信息用于后续分析。因此，在实际操作中，评估测序的覆盖度往往结合测序深度，如靶向区域内10X以上的覆盖率。

6. 不要忽视重复读长带来的数据损失

测序深度和覆盖度是大家比较关注和容易接受的质控指标，但测序数据中的重复率（即重复读长在所有读长中的比例）常被忽视。重复读长出现的类型有2种：1种是文库构建前PCR扩增的原因导致的完全一样的读长；另1种是比对到参考基因组上同一位置不同的读长，该现象可能是由测序错误、比对错误、等位基因等原因导致的，即使读长序列不一致，但也被认为是重复读长。第1种重复读长去除比较简单，可以根据序列是否一致来判断。常用的数据质控软件FastQC就是根据该原理来估计数据中的重复率。第2种重复读长来源复杂，是否去除难以判断，如同一基因不同拷贝的片段，其中1个拷贝发生突变，其他拷贝无突变，此时去掉重复读长则会丢掉该变异信息。目前，在broad研究所推荐的流程（GATK Best Practice）中，建议去除重复读长，否则获得的突变频率可能会存在偏移，见下图。非真实的突变频率会对肿瘤异质性、克隆演化等研究数据产生重要影响。

去除重复读长导致的突变频率偏倚

在实际数据分析中，Samtools、PICARD等软件常用来统计数据的重复率和去除重复读长。一般情况下，靶向捕获测序的重复率在20%以下，如果低于10%，说明数据质量较好；若重复率过高（达40%或60%），去除重复读长后位点的实际测序深度会大大减少，过低的测序深度难以保证突变位点的准确信息。在我们的测序实践中，扩增子测序的平均重复率要高于捕获测序的重复率：扩增子测序的重复率通常为20%～50%，而捕获测序的平均重复率为10%～20%。因此，不仅要关注有效数据的测序深度，还需关注数据中的重复读长比例，以真实地评估样本中的靶向区域是否被有效覆盖。

7. 测序数据质量和数量并重

在测序过程中，测序仪会给每个碱基赋予1个质量值，代表这个碱基测序的准确性。若碱基质量值为20，则表明该碱基有1%的可能性是错误的；若碱基质量值为30，则表明碱基有0.1%的可能性是错误的。碱基质量值与错误率的关系如下。

碱基质量值与错误率的关系

注：Q=-log10P；Q为碱基质量值；P为错误率；1-P为准确度

如果碱基质量值较低，对应碱基测错的概率会很高，此时若该位点发生了突变，则难以判断该突变是真实发生的，还是测序错误。因此，统计数据中高质量碱基的比例是衡量测序数据质量的又一个重要指标。Ion Proton测序仪要求的下机数据中，碱基质量值在20以上的碱基比例为80%；Illumina HiSeq系列测序仪的标准是碱基质量值在30以上的比例要达到75%。

另外，一些未测出的碱基以N表示。若读长中未知碱基太多，则读长包含的有效信息减少。在数据分析前，该读长必须去掉，否则会对后续分析造成影响。同时，文库构建时添加的接头序列也会出现在测序的原始数据中。这些接头序列不是目标区域和样本的真实序列，也必须去除掉，否则会对真实的数据造成干扰，影响后续的分析结果。

8. raw cluster密度

正常raw cluster密度：20~30万/GA tile；200-350万/Hiseq tile；

cluster制备时，控制文库浓度，达到适当的raw cluster：密度过低-产量低；密度过高-质量差

样品差异：200bp小片段能够容忍的密度较高，800bp片段以及RNA样品、特殊样品，应适当减低密度

通过默认质量筛选标准比率（PF）

用read1前25cycle的信噪比进行筛选；正常PF比例：DNA≥80%，RNA大于等于70%；raw cluster密度越高，PF比例越低；当raw cluster密度超高时，图像分析识别出的raw cluster数量小于真实值，此时PF比例会低于正常；

高通量测序基础知识

高通量测序基础知识简介陆桂什么是高通量测序？高通量测序技术（High-throughput sequencing，HTS）是对传统Sanger测序（称为一代测序技术）革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。什么是Sanger法测序（一代测序） Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。什么是基因组重测序（Genome Re-sequencing）全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。什么是de novo测序 de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。什么是外显子测序（whole exon sequencing）外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

DNA测序结果分析

学习通常一份测序结果图由红、黑、绿和蓝色测序峰组成，代表不同的碱基序列。测序图的两端（本图原图的后半段被剪切掉了）大约50个碱基的测序图部分通常杂质的干扰较大，无法判读，这是正常现象。这也提醒我们在做引物设计时，要避免将所研究的位点离PCR序列的两端太近（通常要大于50个碱基距离），以免测序后难以分析比对。我的课题是研究基因多态性的，因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。实际上，要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。由于临床专业的研究生，这些东西是没人带的，只好自己研究。开始时大概的知道等位基因位点在假如在测序图上出现像套叠的两个峰，就是杂合子位点。实际比对了数千份序列后才知道，情况并非那么简单，下面测序图中标出的两

个套峰均不是杂合子位点，如图并说明如下：说明：第一组套峰，两峰的轴线并不在同一位置，左侧的T峰是干扰峰；第二组套峰，虽两峰轴线位置相同，但两峰的位置太靠近了，不是杂合子峰，蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成，此处的序列被机器误判为“C”，实际的序列应为“A”，通常一个高大碱基峰的前面1～2个位点很容易产生一个相同碱基的干扰峰，峰的高度大约是高大碱基峰的1/2，离得越近受干扰越大。一个摸索出来的规律是：主峰通常在干扰峰的右侧，干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较；一个位点的多个样本相比较；你得出的该位点的突变率与权威文献或数据库中的突变率相比较。通常，对于一个疑似突变位点来说，即使是国际上权威组织大样本的测序结果中都没有报道的话，那么单纯通过测序结果就判定它是突变点，是并不严谨的，因一份PCR产物中各个碱基的实际含量并不相同，很难避免不产生误差的。对于一个未知

DNA测序技术的发展和其最新进展

DNA测序技术的发展及其最新进展摘要：自从诺贝尔奖得主桑格于1977年发明了第一代DN测序技术以来，DNA测序技术已经作为重要的实验技术广泛的应用于现代生物学研究当中。经过了几十年的发展，DNA测序技术日臻成熟，并且以单分子测序为特点的第三代测序技术也已经诞生。本文主要就每一代测序技术原理和特点及其最新进展做简要介绍。关键词：DNA测序技术；第三代DNA测序技术；最新进展 The Development and New Progress of DNA Sequencing Technology Abstract: Since Nobel Prize Winner Sanger have founded the first generation of DNA Sequence technology in 1977, DNA sequencing technology has been widely used in modern biological researches as an important experimental. Over decades of year’s development, DNA sequence technology mature gradually and the third generation sequencing technologies characterized by single-molecule sequencing have also emerged. The mechanisms and features of each generation of sequencing technology and their latest progress will be discussed here. Key Words: DNA Sequence technology ; third generation DNA sequencing ;latest development 1.引言 DNA测序技术是分子生物学研究中最常用的技术,它的出现极大地推动了生物学的发展。自从1953年Watson和Crick发现DNA双螺旋结构后[1]，人类就开始了对DNA序列的探索，在世界各地掀起了DNA测序技术的热潮。1977年Maxam和Gilbert报道了通过化学降解测定DNA序列的方法[2]。同一时期,Sanger发明了双脱氧链终止法[3]。20世纪90年代初出现的荧光自动测序技术将DNA测序带入自动化测序的时代。这些技术统称为第一代DNA测序技术。最近几年发展起来的第二代DNA测序技术则使得DNA测序进入了高通量、低成本的时代。目前,基于单分子读取技术的第三代测序技术已经出现,该技术测定DNA序列更快,并有望进一步降低测序成本,推进相关领域生物学研究。本文主要介绍DNA测序技术的发展历史及不同发展阶段各种主要测序技术的特点，并针对目前新一代DNA测序技术及目前国际DNA测序最新进展做简要综述。

转录组高通量测序

转录组高通量测序 2010-11-22 09:48 （第二代高通量测序技术-454）转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和，是研究细胞表型和功能的一个重要手段。与基因组不同的是，转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下，其基因表达情况是不完全相同的。罗氏GS-FLX-Titanium第二代高通量测序仪平均读长超过 400bp，在测序读长上遥遥领先于其它第二代高通量测序仪，使其成为转录组学研究的首选测序平台，已被广泛应用于基础研究、临床诊断和药物研发等领域。一、罗氏454测序技术在环境微生物生态多样性研究中的突出优势体现在：（1）测序序列长，便于聚类拼接，可以对转录本进行从头组装（de novo assembly）。（2）测序通量高，可以检测到低丰度转录本信息。（3）可以对无基因组参考序列的新物种进行转录组测序，发现新的转录本和亚型。（4）实验操作简单、结果稳定，可重复性强。无需进行克隆的文库构建，双链cDNA连接454接头后可以直接进行测序，实验周期短。（5）测序数据便于进行生物信息分析，可以进行基因差异表达分析、鉴定基因的可变剪切以及预测新基因。二、美吉公司在环境微生物生态多样性研究中的突出优势体现在：（1）拥有自主实验室和高通量测序平台，可以根据客户要求灵活安排实验，实验周期短，取样方便，质量可靠。（2）技术人员经验丰富，可以稳定地进行总RNA的提取和双链cDNA的合成，可以根据顾客要求第一时间提供实验方案。（3）有专业的生物信息团队和大型计算机，可以为客户提供个性化的生物信息分析服务。（4）开放式实验室，参与式服务。客户不但可以参与整个实验过程，而且可以参与生物信息分析，提供最为增值的售后服务。三、服务流程（1）客户提供样本背景信息、实验目的和实验预期。（2）美吉公司设计实验方案，提供测序深度建议和生物信息分析建议。（3）客户认可实验方案，双方签订项目合作协议。（4）项目开始运作，美吉公司指定专人和客户保持无障碍沟通。（5）项目结束，美吉公司提供标准结题报告。（6）客户可以和美吉公司签订长期合作协议，享受折扣和VIP服务。四、送样要求（1）动物、植物、微生物组织： > 请提供足量的新鲜样品，样品量≥5g；植物材料应避免过老的组织，尽量用柔嫩部位。 > 新鲜程度要求：采样后将样品立即液氮速冻－80℃保存（保存期不超过1个月），干冰运输，运输时间不超过72h。 > 样本保存期间切忌反复冻融。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述摘要：转录组测序（RNA-Seq）作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。RNA-Seq利用高通量测序技术对组织或细胞中所有RNA 反转录而成cDNA文库进行测序，通过统计相关读段(reads)数计算出不同RNA的表达量，发现新的转录本；如果有基因组参考序列，可以把转录本映射回基因组，确定转录本位置、剪切情况等更为全面的遗传信息，已广泛应用于生物学研究、医学研究、临床研究和药物研发等。文章主要比较近年来转录组研究的几种方法和几种RNA-Seq的研究平台，着重介绍RNA-Seq的原理、用途、步骤和生物信息学分析，并就RNA-Seq技术面临的挑战和未来发展前景进行了讨论及在相关领域的应用等内容，为今后该技术的研究与应用提供参考。关键词: RNA-Seq；原理应用；方法；挑战；发展前景 Abstract：Transcriptome sequencing (RNA-Seq) is a kind of high efficiency, quick transcriptome research methods are changing our understanding of transcriptome. RNA-Seq to use high-throughput sequencing of tissues or cells of all RNA reverse transcription into cDNA library were sequenced, through statistical correlation read paragraph (reads) numbers were calculated from the expression of different RNA transcripts, find new; if the genome reference sequence, the transcripts mapped to genomic, determine the position of the transcription shear condition, more genetic information, has been widely used in biological research, medical research, clinical research and drug development. This paper compared several methods of platform transcriptome studies and several kinds of RNA-Seq in recent years, RNA-Seq focuses on the principle, purpose, steps and bioinformatics analysis, and discusses the RNA-Seq technology challenges and future development prospect and the application in related field and other content, provide the reference for the research and application of the technology future. Key word：RNA-Seq ;application; principle; method; challenge; development prospects

高通量测序RNA-seq数据的常规分析

案例一虽然RNA-seq早已被大家所熟知，特别是在高通量测序越来越便宜的今天，但是RNA-seq数据的分析仍令多数小菜抓狂。多个软件的使用，参数设置，参考基因组准备，输出结果的解读等等，都让很多初次接触测序数据或者非生物信息专业的人头疼不已。哈哈，不用怕，有云生信，这都不是事儿！今天我就向大家简单介绍一下如何用云生信做RNA-seq数据的常规分析。不过在此之前，我要稍稍啰嗦一下RNA-seq的常规分析流程，请不要拍砖头。图1是RNA-seq数据从产生到分析的常规分析流程：根据实验设计，提取细胞RNA，并将RNA提交给测序公司，就可以坐等测序数据了。测序公司会根据客户提供的RNA进行建库，上机测序。拿到测序数据后，就到了我们大显身手的时候了。首先，我们要对测序结果做个简单的质量评估，剔除低质量的数据。然后，根据基因组数据（这里我们讲的是基因组数据已知的物种，基因组未知的有套独立的流程，这里不讲），将测序数据组装。根据组装结果，计算基因或转录本的表达量。最后，同芯片数据一样，我们可以根据表达量数据做很多分析，如差异表达分析，网络分析（包括蛋白互作网络，共表达网络等），也可以结合临床数据做分析（如预后，亚型分类、关联，药效等）。图1. RNA-seq常规分析流程

叨叨完毕，进入正题。进入尔云后，打开“测序数据处理”模块，我们会看到图2的结果。在这一模块，我们可以完成RNA-seq数据分析的前两步：1、数据质控和过滤低质量数据；2、基因组组装，计算基因表达量。对于上面两部，尔云又根据是双端测序还是单端测序，分了两块。以edgeR 为例，输出的DEGs.txt就是根据我们设定的参数得到的差异表达基因的列表，有geneSymbol, logCPM, PVlue信息。图2. 测序数据处理模块质控结束后，尔云会给出全部的质控结果。图3是以demo数据为例的双端测序的质控结果，好多好多呀，可以下了慢慢看。建议主要关注一下xxx_qc_TABLE，该表格是对质控前后的数据统计，反应了测序的好坏。Clean_xxx.fq是质控后的干净的fastq数据，是第2步组装的输入文件。图3.质控结果组装完成后，会返回一个expression.txt的表达矩阵文件，该文件是下一步差异表达分析的输入分析。得到表达矩阵后，我们就可以进入到第3步差异表达数据分析。进入尔云的“差异分析”模块（如下图所示），它针对芯片和测序两种检测技术提供了不同的分析方案。对于RNA-seq

高通量测序的生物信息学分析

附件三生物信息学分析一、基础生物信息学分析 1.有效测序序列结果统计有效测序序列：所有含样品barcode（标签序列）的测序序列。统计该部分序列的长度分布情况。注：合同中约定测序序列条数以有效测序序列为准。图形示例为： 2.优质序列统计优质序列：有效测序序列中含有特异性扩增引物、不含模糊碱基、长度大于可供分析标准的序列。统计该部分序列的长度分布情况。图形示例为：

3.各样本序列数目统计：统计各个样本所含有效测序序列和优质序列数目。结果示例为： 4.OTU生成：根据序列的相似性，将序列归为多个OTU（操作分类单元），以便后续分析。 5.稀释曲线（rarefaction 分析）根据第4条中获得的OTU数据，做出每个样品的Rarefaction曲线。本合同默认生成OTU相似水平为0.03的rarefaction曲线。 rarefaction曲线结果示例：

6.指数分析计算各个样品的相关分析指数，包括： ?丰度指数：ace\chao ?多样性指数：shannon\simpson ?本合同默认生成OTU相似水平为0.03的上述指数值。多样性指数分析结果示例：注：默认分析以上所列指数，如有特殊需要请说明。 7.Shannon-Wiener曲线利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线，反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时，说明测序数据量足够大，可以反映样品中绝大多数的微生物信息。绘制默认水平为：0.03。例图：

8.Rank_Abuance 曲线根据各样品的OTU丰度大小排序作丰度分布曲线图。结果文件默认为PDF格式（其它格式请注明）。例图： 9.Specaccum物种累积曲线（大于10个样品）物种累积曲线( species accumulation curves) 用于描述随着抽样量的加大物种增加的状况，是理解调查样地物种组成和预测物种丰富度的有效工具，在生物多样性和群落调查中，被广泛用于抽样量充分性的判断以及物种丰富度( species richness) 的估计。因此，通过物种累积曲线不仅可以判断抽样量是否充分，在抽样量充分的前提下，运用物种累积曲线还可以对物种丰富度进行预测。

高通量测序名词解释

高通量测序基础知识汇总一代测序技术：即传统的Sanger测序法，Sanger法是根据核苷酸在待定序列模板上的引物点开始，随机在某一个特定的碱基处终止，并且在每个碱基后面进行荧光标记，产生以A、T、C、G结束的四组不同长度的一系列核苷酸，每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，通过检测得到DNA碱基序列。二代测序技术：next generation sequencing（NGS）又称为高通量测序技术，与传统测序相比，二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定，从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序（Deep sequencing）。NGS主要的平台有Roche（454 & 454+），Illumina（HiSeq 2000/2500、GA IIx、MiSeq），ABI SOLiD等。基因：Gene，是遗传的物质基础，是DNA或RNA分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代，使后代出现与亲代相似的性状。 DNA：Deoxyribonucleic acid，脱氧核糖核酸，一个脱氧核苷酸分子由三部分组成：含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过3',5'-磷酸二酯键按一定的顺序彼此相连构成长链，即DNA链，DNA链上特定的核苷酸序列包含有生物的遗传信息，是绝大部分生物遗传信息的载体。

DNA测序常见问题及分析

DNA测序过程可能遇到的问题及分析对于一些生物测序公司（如Invitrogen等），我们的菌液或质粒经过PCR和酶切鉴定都没问题，但几天后的测序结果却无法另人满意。为什么呢？ PCR产物直接进行测序，在PCR产物长度以后将无反应信号，机器将产生许多N值。这是由于Taq酶能够在PCR反应的末端非特异性地加上一个A碱基，我们所用的T载体克隆PCR产物就是应用该原理，通常PCR产物结束的位点，PCR产物测序一般末端的一个碱基为A（绿峰），也就是双脱氧核甘酸ddNTP终止反应的位置之前的A,A后的信号会迅速减弱。 N值情况一般是由于有未去除的染料单体造成的干扰峰。该干扰峰和正常序列峰重叠在一起，有时机器377以下的测序仪无法正确判断出为何碱基。有时，在序列的起始端的小片段容易丢失，导致起始区信号过低，机器有时也无法正确判读。在序列的3’端易产生N值。一个测序反应一般可以读出900bp以上的碱基（ABI3730可以达到1200bp），但是，只有一般600bp以前的碱基是可靠的，理想条件下，多至700bp的碱基都是可以用的。一般在650bp以后的序列，由于测序毛细管胶的分辩率问题，会有许多碱基分不开，就会产生N值。测序模板本身含杂合序列，该情况主要发生在PCR产物直接测序，由于PCR产物本身有突变或含等位基因，会造成在某些位置上有重叠峰，产生N值。这种情况很容易判断，那就是整个序列信号都非常好，只有在个别位置有明显的重叠峰，视杂合度不同N值也不同。测序列是从引物3’末端后第一个碱基开始的，所以就看不到引物序列。有两种方法可以得到引物序列。1.对于较短的PCR产物（<600bp），可以用另一端的引物进行测序，从另一端测序可以一直测通，可以在序列的末端得到该引物的反向互补序列。对于较长的序列，一个测序反应测不通，就只能将PCR产物片段克隆到载体中，用载体上的通用引物(T7/SP6)进行测序。载体上的通用引物与所插入序列间

三代测序原理技术比较

导读从1977年第一代DNA测序技术（Sanger法）1，发展至今三十多年时间，测序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从长到短，再从短到长。摘要：从1977年第一代DNA测序技术（Sanger法）1，发展至今三十多年时间，测序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从长到短，再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置，但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革，也都对基因组研究，疾病医疗研究，药物研发，育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。图1：测序技术的发展历程生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上（图1）所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来，整个测序技术的发展历程。第一代测序技术第一代DNA测序技术用的是1975年由桑格（Sanger）和考尔森（Coulson）开创的链终止法或者是1976-1977年由马克西姆（Maxam）和吉尔伯特（Gilbert）发明的化学法（链降解）. 并在1977年，桑格测定了第一个基因组序列，是噬菌体X174的，全长5375个碱基1。自此，人类获得了窥探生命遗传差异本质的能力，并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年，完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础，Sanger法核心原理是：由于ddNTP的2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA 合成反应，在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP（分为：ddATP,ddCTP,ddGTP和ddTTP），通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列（图2）。这个网址为 sanger测序法制作了一个小短片，形象而生动。值得注意的是，就在测序技术起步发展的这一时期中，除了Sanger法之外还出现了一些其他的测序技术，如焦磷酸测序法、链接酶法等。其中，焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4，而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4，但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

高通量测序及分析

高通量测序与功能分析微生物群落测序是指对微生物群体进行高通量测序，通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系，寻找标志性菌群或特定功能的基因。对微生物群落进行测序包括两类，一类是通过16s rDNA，18s rDNA，ITS区域进行扩增测序分析微生物的群体构成和多样性；还有一类是宏基因组测序，是不经过分离培养微生物，而对所有微生物DNA进行测序，从而分析微生物群落构成，基因构成，挖掘有应用价值的基因资源。以16s rDNA扩增进行测序分析主要用于微生物群落多样性和构成的分析，目前的生物信息学分析也可以基于16s rDNA的测序对微生物群落的基因构成和代谢途径进行预测分析，大大拓展了我们对于环境微生物的微生态认知。目前我们根据16s的测序数据可以将微生物群落分类到种（species）（一般只能对部分菌进行种的鉴定），甚至对亚种级别进行分析，几个概念： 16S rDNA（或16S rRNA）：16S rRNA基因是编码原核生物核糖体小亚基的基因，长度约为1542bp，其分子大小适中，突变率小，是细菌系统分类学研究中最常用和最有用的标志。16S rRNA基因序列包括9个可变区和10个保守区，保守区序列反映了物种间的亲缘关系，而可变区序列则能体现物种间的差异。16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。 OTU：operational taxonomic units (OTUs)在微生物的免培养分析中经常用到，通过提取样品的总基因组DNA，利用16S rRNA或ITS的通用引物进行PCR 扩增，通过测序以后就可以分析样品中的微生物多样性，那怎么区分这些不同的序列呢，这个时候就需要引入operational taxonomic units，一般情况下，如

测序基础知识

转录组高通量测序中，reads、contigs、scaffold、unigene、singleton 高通量测序时，在芯片上的每个反应，会读出一条序列，是比较短的，叫read，它们是原始数据；有很多reads通过片段重叠，能够组装成一个更大的片段，称为contig（克隆群）；多个contigs通过片段重叠，组成一个更长的scaffold；一个contig被组成出来之后，鉴定发现它是编码蛋白质的基因，就叫singleton；多个contigs组装成scaffold之后，鉴定发现它编码蛋白质的基因，叫unigene。基因组测序方法：链中止法测序：通过合成与单链DNA互补的多核甘酸链，由于合成的互补链可在不同位置随机终止反应，产生只差一个核苷酸的DNA分子，从而来读取待测DNA分子的顺序。化学降解法测序：在待定的核苷酸碱基中引入化学集团，再用化合物处理，使DNA分子在被修饰的位置降解。自动化测序：与链终止测序原理相同，这姿势用不同的荧光色彩标记ddNTP，如ddA TP 标记红色荧光，ddCTP标记蓝色荧光，ddGTP标记黄色荧光，ddTTP标记绿色荧光。由于每种ddNTP带有各自待定的荧光颜色，二简化为由1个泳道同时判读4种碱基。非常规DNA测序毛细管电泳、光点测序、DNA芯片测序、随机的组装（鸟枪法）鸟枪法：就有可能出现错装。鸟枪法策略指导测序策略不需要背景信息构建克隆群时间短需要几年时间需要大型计算机得到的是草图（Draft）得到的是精细图谱 EST （Expressed sequence tag）测序 EST是一种重要的基因组图分子标记，以EST为探针很容易从cDNA文库中筛选全基因，又可从BAC克隆中找到其基因组的基因序列。优点：mRNA可直接反转录成cDNA，而且cDNA文库也可比较容易构建。对cDNA文库大量测序，即可获得大量的EST序列 EST为基因的编码区，不包括内含子和基因间区域，一次测序的结果足以鉴定所代表的基因。人类基因组计划于1990年启动，我国于1999年加入，承担1%任务，即人类3号染色体短臂上约30MB的测序任务。 2000年6月26完成草图。测序错误率低于1%%。

DNA测序结果分析比对(实例)

DNA测序结果分析比对（实例）关键词：dna测序结果2013-08-22 11:59来源：互联网点击次数：14423 从测序公司得到的一份DNA测序结果通常包含.seq格式的测序结果序列文本和.ab1格式的测序图两个文件，下面是一份测序结果的实例： CYP3A4-E1-1-1(E1B).ab1 CYP3A4-E1-1-1(E1B).seq .seq文件可以用系统自带的记事本程序打开，.ab1文件需要用专门的软件打开。软件名称：Chromas 软件Chromas下载 .seq文件打开后如下图： .ab1文件打开后如下图：通常一份测序结果图由红、黑、绿和蓝色测序峰组成，代表不同的碱基序列。测序图的两端（下图原图的后半段被剪切掉了）大约50个碱

基的测序图部分通常杂质的干扰较大，无法判读，这是正常现象。这也提醒我们在做引物设计时，要避免将所研究的位点离PCR序列的两端太近（通常要大于50个碱基距离），以免测序后难以分析比对。我的课题是研究基因多态性的，因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。实际上，要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。一般认为等位基因位点假如在测序图上出现像套叠的两个峰，就是杂合子位点。实际比对后才知道，情况并非那么简单，下面测序图中标出的两个套峰均不是杂合子位点，如图并说明如下：

说明：第一组套峰，两峰的轴线并不在同一位置，左侧的T峰是干扰峰；第二组套峰，虽两峰轴线位置相同，但两峰的位置太靠近了，不是杂合子峰，蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成，此处的序列被机器误判为“C”，实际的序列应为“A”，通常一个高大碱基峰的前面 1~2个位点很容易产生一个相同碱基的干扰峰，峰的高度大约是高大碱基峰的1/2，离得越近受干扰越大。一个摸索出来的规律是：主峰通常在干扰峰的右侧，干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较；一个位点的多个样本相比较；你得出的该位点的突变率与权威文献或数据库中的突变率相比较。通常，对于一个疑似突变位点来说，即使是国际上权威组织大样本的测序结果中都没有报道的话，那么单纯通过测序结果就判定它是突变点，是并不严谨的，因一份 PCR产物中各个碱基的实际含量并不相同，很难避免不产生误差的。对于一个未知突变位点的发现，通常还需要用到更精确的酶切技术。 (责任编辑：大汉昆仑王)

测序技术的发展历程

测序技术的发展历程随着1953年沃森和克里克发现了DNA的双螺旋结构，到2001年，首个人类基因组图谱的绘制完成，人们越来越多的认识到测序在生物医学中的重要作用。测序技术的发展历史 Sanger测序技术 1975年由桑格和考尔森开创的链终止法测序技术标志着人类第一代DNA测序技术的诞生。1977年，人类历史上第一个基因组序列噬菌体X174由桑格团队测序完成。自此，人类获得了窥探生命遗传差异本质的能力，并以此为开端步入基因组学时代。 SangerJ.D. Waston、F.Crick

虽然第一代测序技术的测序读长可达1000bp，准确性高达99.999%，但其测序成本高，通量低等方面的缺点，严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。从那时起人们开始了二代测序技术的探索。第二代测序技术第二代测序技术的核心思想是边合成边测序（Sequencing by Synthesis)，在Sanger等测序方法的基础上，通过技术创新，用不同颜色的荧光标记四种不同的dNTP，当DNA聚合酶合成互补链时，每添加一种dNTP就会释放出不同的荧光，根据捕捉的荧光信号并经过特定的计算机软件处理，从而获得待测DNA的序列信息。现有的技术平台主要包括Roche/454 FLX（已宣布停产）、Illumina Hiseq Miseq等系列和Applied Biosystems SOLID system。 Roche/454 FLX Illumina Hiseq 2500 AB SOLID 第三代测序技术第二代测序技术虽然较Sanger测序有了巨大的突破，但是其测序的理论基础仍然建立在PCR扩增的基础之上。为了有效的避免测序过程中由于PCR扩增带来的偏差，科学家们积极投身到第三代单分子测序仪研究当中。目前最具代表性的包括Heliscope单分子实时合成测序法，纳米孔测序技术等。

高通量测序入门

很高兴成为论坛特邀专家，鄙人会接下来的一段时间内写一些高通量测序数据方面的帖子，由浅入深，可能刚开始会比较简单一些，后面会有一些针对性的专题，也欢迎各位大侠或小菜提出建议或问题大家一起探讨。为了活跃论坛建议大家直接跟帖或发新帖，我会尽快回复大家。本人方向也仅限在RNA-seq 领域，所以其他领域的问题可能不太了解，只能按照自己的背景知识和请教别人解答，请大家慢拍砖！另外，由于实验室课题比较忙，所以可能不能及时发帖或回复大家，也请见谅。既然是入门专题，那就先简单说一下，要分析高通量测序数据的配置要求吧：声明：该配置不适用与从华大拿回分析结果直接写paper 的同学。我认识的一位同学一点生物信息背景也没有，直接用华大返回分析结果发了很好的文章，如果想这样的同学可直接跳过这篇，等待以后的专题。言归正传： 1. 软配置：生物理论知识：熟悉生命活动的基本过程，对复制、转录、翻译、转录后修饰有较清晰的认识，如果知道cis-element 和trans-factor 的区别就更好了。推荐朱玉贤的分子生物学，能够掌握60% 就差不多了（这是对想通过测序数据进行生物分析同学的要求，如果是做软件开发等就无所谓了，比如国内做的很好的一些实验室，都是数学或自动化专业的牛人，以下一些配置也不适用这些牛人）实验理论知识：不一定要做过实验，但至少要知道实验的过程，比如测序前样本的处理过程，序列片段化、加接头、PCR 扩增等。也许没有用，但将来出了问题，你可以很容易知道问题出在哪里编程知识：要求不用太高，学一些perl 就可以了，对于生物专业的同学（本人就是生物专业），强烈推荐perl 语言入门，好像现在已经出到第五版了。此书极为搞笑，本人当时看了一个星期，其中幽默的语言导致本人经常笑出声音引得实验室同学以为神经了。对于有C 语言基础的同学来说简直就是菜，两天就可以通了。另外，学有余力的同学可以学一些R 以及python 或java. 因为好多软件都是用R 或python 写的，如果要是比较懒或三国杀很忙抽不出空就算了，学学perl 就好了。切记一点：perl 的学习过程中除了基础知识，一定要看一下哈希和模块这两部分。当然如果你们导师允许你对数据去个冗余也要半个月的话，你只学到循环就可以了。统计学知识：只要大学上过生物统计也就差不多了（遇到二百五的老师你就比较悲剧了），最基本的知道什么是标准化，正态分布，p value 以及卡方检验或Fisher 精确检验，多重检验,，FDR 这些概念和计算方法也就差不多了。推荐从以下统计软件中择一精通之： SAS(比较变态，硕士期间学了，后来就还给老师了) excel(入手比较容易，好好学学，功能比较全，我学的差) matlab(本人认为最牛的统计软件，有专门的论坛，有兴趣的同学可以google 一下) SPSS(上手比较容易，而且很多汉化的非常好，新手同学比较推荐，但是精通比较

高通量测序：第二代测序技术详细介绍

在过去几年里，新一代DNA 测序技术平台在那些大型测序实验室中迅猛发展，各种新技术犹如雨后春笋般涌现。之所以将它们称之为新一代测序技术（next-generation sequencing），是相对于传统Sanger 测序而言的。Sanger 测序法一直以来因可靠、准确，可以产生长的读长而被广泛应用，但是它的致命缺陷是相当慢。十三年，一个人类基因组，这显然不是理想的速度，我们需要更高通量的测序平台。此时，新一代测序技术应运而生，它们利用大量并行处理的能力读取多个短DNA 片段，然后拼接成一幅完整的图画。 Sanger 测序大家都比较了解，是先将基因组DNA 片断化，然后克隆到质粒载体上，再转化大肠杆菌。对于每个测序反应，挑出单克隆，并纯化质粒DNA。每个循环测序反应产生以ddNTP 终止的，荧光标记的产物梯度，在测序仪的96或384 毛细管中进行高分辨率的电泳分离。当不同分子量的荧光标记片断通过检测器时，四通道发射光谱就构成了测序轨迹。在新一代测序技术中，片断化的基因组DNA 两侧连上接头，随后运用不同的步骤来产生几百万个空间固定的PCR 克隆阵列（polony）。每个克隆由单个文库片段的多个拷贝组成。之后进行引物杂交和酶延伸反应。由于所有的克隆都是系在同一平面上，这些反应就能够大规模平行进行。同样地，每个延伸所掺入的荧光标记的成像检测也能同时进行，来获取测序数据。酶拷问和成像的持续反复构成了相邻的测序阅读片段。

Solexa高通量测序原理

--采用大规模并行合成测序法(SBS,Sequencing-By-Synthesis)和可逆性末端终结技术（ReversibleTerminatorChemistry） --可减少因二级结构造成的一段区域的缺失。 --具有高精确度、高通量、高灵敏度和低成本等突出优势 --可以同时完成传统基因组学研究（测序和注释）以及功能基因组学（基因表达及调控，基因功能，蛋白/核酸相互作用）研究 ----将接头连接到片段上，经PCR扩增后制成Library。 ----随后在含有接头（单链引物）的芯片（flowcell）上将已加入接头的DNA片段变成单链后通过与单链引物互补配对绑定在芯片上，另一端和附近的另外一个引物互补也被固定，形成“桥” ----经30伦扩增反应，形成单克隆DNA簇 ----边合成边测序（Sequencing By Synthesis）的原理，加入改造过的DNA 聚合酶和带有4 种荧光标记的dNTP。这些dNTP是“可逆终止子”，其3’羟基末端带有可化学切割的基团，使得每个循环只能掺入单个碱基。此时，用激光扫描反应板表面，读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后，将这些基团化学切割，恢复3'端粘性，继续聚合第二个核苷酸。如此继续下去，直到每条模板序列都完全被聚合为双链。这样，统计每轮收集到的荧光信号结果，就可以得知每个模板DNA 片段的序列。目前的配对末端读长可达到2×50 bp，更长的读长也能实现，但错误率会增高。读长会受到多个引起信号衰减的因素所影响，如荧光标记的不完全切割。 Roche 454 测序技术 “一个片段= 一个磁珠= 一条读长（One fragment =One bead = One read）”1）样品输入并片段化：GS FLX 系统支持各种不同来源的样品，包括基因组DNA、PCR 产物、BAC、cDNA、小分子RNA 等等。大的样品例如基因组DNA 或者BAC 等被打断成300－800 bp 的片段；对于小分子的非编码RNA 或者PCR 扩增产物，这一步则不需要。短的PCR 产物则可以直接跳到步骤3)。 2）文库制备：借助一系列标准的分子生物学技术，将A 和B 接头（3’和5’端具有特异性）连接到DNA 片段上。接头也将用于后续的纯化，扩增和测序步