高通量测序NGS数据分析中的质控
二代测序质控各参数标准

二代测序质控各参数标准一、引言二代测序(Next-GenerationSequencing,NGS)是一种高通量的基因组测序技术,广泛应用于生物医学研究、农业育种、疾病诊断等领域。
在二代测序过程中,质量控制(QualityControl,QC)是至关重要的一步,其中质控参数的设定和标准是关键。
本文将介绍二代测序质控各参数的标准。
二、样本质量评估1.完整性:样本应保持完整,无断裂或降解。
可通过测定样本的分子量、片段长度分布等指标进行评估。
2.浓度:样本浓度应在合理范围内,过高或过低的浓度都可能导致测序质量下降。
3.特异性:样本应具有特异性,不应包含其他杂质序列。
可通过序列特异性指数(Sequence-SpecificityIndex)进行评估。
三、测序数据质量评估1.序列深度:测序深度是指测得的有效序列数量。
理想情况下,测序深度应覆盖目标区域的每个碱基。
2.覆盖度:覆盖度是指测序序列对目标区域的整体覆盖程度。
理想情况下,应具有广泛的覆盖度,以保证准确性和可信度。
3.质量值分布:测序质量值应在合理范围内,过低或过高的质量值都可能导致错误率升高。
4.碱基错配率:碱基错配率是指非特异性碱基的比例。
应尽可能降低错配率,以保证结果的准确性。
四、质量控制标准1.严格控制样本质量和浓度,确保样本具有特异性。
2.确保测序深度和覆盖度达到预期要求,同时关注质量值和错配率。
3.对数据进行多维度分析,包括序列长度、GC含量、突变位点等,以确保结果的全面性和准确性。
4.根据实验需求和样本特性,制定合适的质控参数标准,并定期评估和调整。
5.建立完善的质控流程和标准,确保实验数据的可靠性和可信度。
五、结论二代测序质控各参数标准的设定和评估是质量控制的关键环节。
通过严格控制样本质量和浓度、确保测序深度和覆盖度、关注质量值和错配率、多维度分析数据等措施,可以提高二代测序的准确性和可信度。
同时,建立完善的质控流程和标准,定期评估和调整质控参数,可以确保实验数据的可靠性和可信度,为后续研究提供有力支持。
赛福基因公开课第四节《高通量测序(NGS)数据分析中的质控》

赛福基因公开课第四节《高通量测序(NGS)数据分析中的质控》大家好,很高兴今天有机会和大家一起来探讨高通量数据分析中质量控制的相关知识和技术。
这次探讨的内容包括三个方面:高通量测序和数据分析的基本流程,高通量数据分析中的原始数据质控和高通量数据分析中的比对结果质控。
首先,为什么需要做质量控制呢?我们知道,要想有一个好的分析结果,必须要有一个质量好的数据。
理想的情况是:高通量测序的结果里只有我们想要的序列,而且每个序列碱基的可信度都是100%。
但现实并非如此。
比如在建库过程中的各种物理化学原因或污染,测序仪本身的缺陷等,都会造成测序结果里有不利用分析的序列存在,比如碱基的质量过低或者含有其他来源的污染序列。
为了后续生信分析的的可靠性,就要把这些不利于分析序列部分或整条清除。
那怎样来查看数据质量,怎样处理不理想的数据以得到相对可靠的分析结果呢?首先我们来看看高通量数据分析的基本流程,看看哪些步骤应该做质控。
第一个部分:高通量测序和数据分析的基本流程。
在高通量数据测序和分析的流程中,首先,要从需要测序的组织里提取DNA,然后将提取的DNA片段化。
如果要测全基因组(全基因组测序即WGS)的话,这些片段就可以直接用来扩增和测序。
如果只要测外显子区域(全外显子测序即WES)的话,就要利用这些片段和探针对外显子区进行捕获和富集,然后对捕获的外显子区DNA进行测序。
如果这些测序得到的结果里只含有我们需要的序列而且测序仪识别的每个碱基都正确的话,下面所需要做的只是将序列比对到参考基因组,从比对结果里识别DNA变异,最后对识别到的变异进行功能注释用来寻找致病的变异。
但事实上,通过全基因组测序或全外显组测序得到的结果里不只是含有我们需要的序列,而且碱基的可信度也不是100%。
所以,为了得到可靠的生信分析结果,我们就必须做质控(quality control)。
如右边的示意图所示,质控包括拿到数据之后对原始数据的质控和比对到参考序列以后对原始比对结果的质控。
NGS数据质量评估方法与标准说明

NGS数据质量评估方法与标准说明一、引言在当前快速发展的基因组学研究中,下一代测序(Next Generation Sequencing,NGS)技术已成为重要的工具。
然而,随着数据量的增加,保证NGS数据质量的准确性和可靠性对于研究结果的解释和应用至关重要。
因此,本文将从NGS数据质量评估的方法和标准两个方面进行探讨与说明。
二、NGS数据质量评估方法NGS数据质量评估的目的是通过分析测序数据中的错误和偏差,确定数据的准确性和可靠性。
下面介绍几种常用的NGS数据质量评估方法。
1. 物理测序质量评估物理测序质量评估是通过分析测序reads中的错误类型和频率来评估测序数据的质量。
常用的质量评估工具包括FastQC、PRINSEQ等。
这些工具可以分析碱基质量、碱基序列分布、测序错误率等指标,并将结果以图表的形式展示出来。
研究人员可以通过这些指标来评估测序的准确性和可靠性,并选择合适的后续分析策略。
2. 比对质量评估比对质量评估是针对已经比对到参考序列的测序数据进行质量评估。
常用的比对质量评估工具包括SAMtools、Picard 等。
这些工具可以根据比对的结果,分析比对率、比对质量、插入和删除错误率等指标。
研究人员可以通过这些指标来评估测序数据的比对质量,进一步确定其准确性和可靠性。
3. 变异质量评估变异质量评估是针对检测到的 DNA 变异进行质量评估。
常用的变异质量评估工具包括GATK、VarScan等。
这些工具可以分析变异的类型、频率、覆盖度等指标,并通过统计学方法来评估变异的可靠性和真实性。
研究人员可以根据这些指标来判断变异是否具有生物学意义和研究价值。
三、NGS数据质量评估标准NGS数据质量评估标准是用于衡量测序数据质量的参考指标,旨在提供统一的标准和规范。
以下是常见的NGS数据质量评估标准。
1. 碱基质量阈值碱基质量阈值是评估DNA测序数据质量的重要指标之一。
常见的衡量方法是通过phred评分系统,通常设置阈值为Q20或Q30。
基因测序技术的高通量分析与质量控制方法研究

基因测序技术的高通量分析与质量控制方法研究随着生物学研究的不断深入和生物技术的迅猛发展,基因测序技术已成为一种关键的分析工具。
基因测序技术的高通量分析与质量控制方法的研究对于准确获取测序结果和确保实验结果的可靠性至关重要。
本文将围绕基因测序技术的高通量分析和质量控制方法展开讨论。
首先,高通量分析方法的研究是基于下一代测序(Next Generation Sequencing,NGS)技术的基因测序领域中的一个关键方向。
传统的测序方法往往以Sanger测序为代表,但其低通量性和高成本限制了其在大规模测序中的应用。
而NGS技术的出现,以其高通量、高效率和低成本等特点,已经在基因组学、转录组学和蛋白质组学等多个研究领域得到了广泛应用。
高通量分析方法的研究主要集中在提高测序效率、降低误差率和优化实验流程等方面。
例如,基于改进的碱基识别算法和样本标记技术,可以提高碱基识别的准确性和测序的可靠性;基于微流控技术,可以实现高通量的并行测序,提高测序效率;基于引物设计和文库构建优化,可以减少错误扩增和文库损失,提高测序产出。
其次,质量控制方法在基因测序中起着至关重要的作用。
由于测序样本的复杂性和数据量的庞大,必然存在一定的测序误差。
因此,质量控制作为测序数据分析的重要环节,旨在准确识别和过滤掉低质量的测序数据,从而提高测序结果的可靠性。
常用的质量控制方法包括测序数据预处理、质量评估和质量过滤等。
测序数据预处理主要包括去除接头序列、低质量碱基修剪和过滤低质量的reads。
质量评估通常使用基于比对率和错误率的质量评分算法,如Phred质量评分系统,来评估测序数据的可靠性。
质量过滤则是通过设置阈值,并据此剔除低质量的测序数据,以提高后续分析的准确性。
在高通量测序中,质量控制方法的研究还面临一些挑战和问题。
首先,测序数据的体积庞大,如何高效地进行质量控制成为一个亟待解决的问题。
针对这一问题,研究人员提出了一些基于分布式计算和并行计算的质量控制方法,以提高处理速度和效率。
高通量测序数据分析的基本流程与软件介绍

高通量测序数据分析的基本流程与软件介绍高通量测序技术的广泛应用已经在基因组学、转录组学、表观基因组学等领域产生了巨大的影响。
高通量测序数据分析是将测序仪输出的原始数据转化为有意义的生物学信息的过程。
本文将介绍高通量测序数据分析的基本流程以及一些常用的软件工具。
1. 数据质控与预处理高通量测序数据的质量对后续分析结果至关重要。
首先,需要对测序数据进行质量控制,检查测序质量值、测序错误率、测序深度等指标,以评估数据的可靠性。
常用的质控软件包括FastQC和NGS QC Toolkit。
在质控后,还需要对原始测序数据进行预处理,包括去除接头序列、过滤低质量序列、去除PCR扩增引物等。
这些步骤可以使用Trimmomatic、Cutadapt等软件来完成。
2. 序列比对与变异检测在得到高质量的测序数据后,下一步是将测序reads比对到参考基因组或转录组上。
常用的比对软件有Bowtie、BWA、STAR等。
比对结果可以用于检测基因组上的变异,如单核苷酸多态性(SNP)、插入缺失(Indel)等。
变异检测软件包括GATK、SAMtools等。
3. 基因表达分析基因表达分析是高通量测序数据分析中的一个重要方面。
它可以帮助我们了解哪些基因在不同条件下的表达水平发生了变化。
常用的基因表达分析流程包括表达定量、差异表达分析和功能富集分析。
表达定量是将测序reads映射到基因组或转录组上,并计算每个基因的表达水平。
常用的表达定量软件有HTSeq、featureCounts等。
差异表达分析可以帮助我们找到在不同条件下表达水平有显著变化的基因。
常用的差异表达分析软件有DESeq2、edgeR等。
功能富集分析可以帮助我们了解差异表达基因的功能特征,如富集通路、功能分类等。
常用的功能富集分析工具有DAVID、GSEA等。
4. 转录因子结合位点分析转录因子结合位点是转录因子与DNA结合的特定区域,对基因的调控起重要作用。
高通量测序数据可以用于预测转录因子结合位点。
【新知解读】二代测序核酸质控环节怎么做?看完就懂!

【新知解读】二代测序核酸质控环节怎么做?看完就懂!核酸质控是NGS(Next Generation Sequencing)实验中必不可少的环节,精确的NGS实验结果也离不开合格的核酸质控。
核酸质控主要是评估核酸的浓度,完整性、纯度及片段大小。
核酸样本涉及的下游实验很多,质控不合格会影响实验结果的准确性,甚至得到错误的结论。
NGS实验中使用质量差,如降解程度高的核酸样本建库可能导致文库浓度低,文库复杂度低,甚至文库构建失败等;文库浓度定量不准确可能导致测序实际分配数据量不均,或簇密度波动甚至导致实验失败。
详情可参考往期内容【新知解读】测序失败风险排查——多的是你不知道的事现在市面上主流的核酸质控方法有紫外可见吸收光度法(UV-Vis)(如Nanodrop)、荧光染料法(如Qubit)、琼脂糖凝胶电泳法(如Gel-electrophoresis)、自动化电泳法(如2100 Bioanalyzer)、荧光定量PCR法(如qPCR)等。
如何挑选合适的核酸质控方法来保证NGS实验的顺利进展?相信是小伙伴们十分关注的问题。
不要担心!今天小石头带大家来回顾各种核酸质控方法的原理及应用。
常用的核酸质控方法01紫外可见吸收光度法生物有机分子中的芳香环,具有紫外吸收的特性。
核酸,蛋白质、多肽、芳香基团、苯酚以及碳氢化合物均可吸收紫外光。
核酸在260 nm波长处具有最高吸收峰,蛋白质在280 nm波长处具有最高吸收峰,碳水化合物在230 nm波长处具有最高吸收峰。
根据朗伯-比尔(Beer-Lambert)光吸收定律:当一束平行单色光垂直入射通过均匀、透明的吸光物质的稀溶液时,溶液对光的吸收程度(K)与溶液的浓度(c)及液层厚度(b)的乘积成正比。
即:A=Kbc,式中K为吸光系数;A为吸光度;b为溶液液层厚度(或称光程长度);c为溶液浓度。
一般在260 nm下,1 μg/ml DNA溶液在1 cm光径比色皿中的吸光系数为0.020,1 μg/ml RNA溶液在1 cm光径比色皿中的吸光系数为0.022。
高通量基因测序数据分析研究

高通量基因测序数据分析研究1. 引言随着NGS(Next Generation Sequencing)技术的快速发展,人们能够获取到前所未有的巨大的基因组学数据。
高通量基因测序(High-throughput sequencing)是NGS技术的一种,它快速且准确地生成了数量巨大的DNA序列数据。
这些数据包含了基因组的各个方面信息,如基因表达、突变等。
然而,为了从这些数据中获取有意义的信息,需要经过复杂的数据处理和分析流程。
本文将介绍高通量基因测序数据分析的基本原理和流程。
2. 数据质控高通量基因测序数据的质量对下游数据分析的可靠性和准确性具有重要影响。
数据质量评估包括测序质量评估、读长长度分布、碱基分布、序列复杂性等。
一般情况下,数据质检的数据来源包括:测序仪器提供的仪器参数、FastQC、自定义脚本等。
数据质检的主要目标在于发现测序数据存在的问题或者错误,以便后续的处理和分析。
3. 序列比对将高通量基因测序得到的reads序列比对到参考序列是NGS数据分析流程中的一项重要工作。
序列比对的主要目的是找出reads在参考序列上的位置以及其与参考序列上的差异。
比对算法应该考虑到不同来源的误差,如测序误差、分析软件的误差等。
此外,还需要考虑基因组重复序列的影响。
4. 变异检测变异分析是高通量基因测序数据分析中的重要环节。
变异分析可以鉴定出基因组变异的类型及其精确位置,为研究人员深入理解生物现象提供重要信息。
变异检测的主要方法包括SNP/InDel检测、复杂变异检测、结构变异检测等。
变异检测的具体流程包括过滤低质量比对、去除fasta序列的重复在于变异检测等,流程多样,可以根据数据类型和研究目的进行调整。
5. 基因表达分析高通量基因测序不仅可以用于描述基因组中的变异信息,还可以用于研究基因的表达水平。
基因表达分析是通过将reads比对到参考基因组或转录组,计算每个转录本的读取数,进而计算差异表达,比如基因的上调或下调。
ngs hla分型流程

ngs hla分型流程
NGS(下一代测序)HLA分型是通过高通量测序技术对人类白细
胞抗原(HLA)基因进行分型的过程。
HLA基因编码了人体免疫系统
中的重要蛋白质,对于器官移植、疾病易感性和药物治疗反应等方
面具有重要意义。
下面是NGS HLA分型的流程:
1. 样品准备,首先需要从受试者的血液或组织样本中提取DNA。
这可以通过标准的DNA提取方法来实现。
2. 文库构建,提取的DNA样本需要通过文库构建过程进行准备,这包括DNA片段的制备、末端修饰和连接DNA测序接头等步骤。
3. 文库质控,对构建好的DNA文库进行质控,确保文库中的DNA片段长度和浓度符合测序要求。
4. 下一代测序,将文库进行高通量测序,通常采用Illumina
或Ion Torrent等平台进行测序。
在测序过程中,通过对DNA片段
进行大规模的并行测序,可以获得大量的测序数据。
5. 数据分析,得到的测序数据需要进行生物信息学分析,包括
序列比对、HLA基因的定量和定性分析等步骤。
这一步通常需要借
助专业的生物信息学软件和数据库进行。
6. 结果解读,最后,根据数据分析的结果进行HLA基因型的解
读和分型。
这包括确定HLA基因的等位基因,即确定受试者的HLA
基因型。
总的来说,NGS HLA分型是一个复杂的过程,涉及到样品准备、文库构建、高通量测序、数据分析和结果解读等多个环节。
通过这
一流程,可以准确地确定受试者的HLA基因型,为临床诊断和治疗
提供重要的信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高通量测序错误总结一、生信分析部分1)Q20/Q30碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。
Q30代表碱基的正确判别率是99.9%,错误率为0.1%。
同时我们也可以理解为1000个碱基里有1个碱基是错误的。
Q20代表该位点碱基的正确判别率是99%,错误率为1%。
对于整个数据来说,我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y-轴将坐标图分为3个区:最上面的绿色是碱基质量很好的区,Q值在30以上。
中间的橘色是碱基质量在一些分析中可以接受的区,Q值在20-30之间。
最下面红色的是碱基质量很差的区。
在一些生信分析中,比如以检查差异表达为目的的RNA-seq分析,一般要求碱基质量在Q在Q20以上就可以了。
但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30以上。
一般来说,测序质量分数的分布有两个特点:1.测序质量分数会随着测序循环的进行而降低。
2.有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。
在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要做剪切(trimming),根据生信分析的目的不同,要将质量低于Q20或者低于Q30的碱基剪切掉。
2)序列的平均质量这个是碱基序列平均质量报告图。
横坐标为序列平均碱基质量值,纵坐标代表序列数量。
通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。
一般来说,当绝大部分碱基序列的平均质量值的峰值大于30,可以判断序列质量较好。
如这里左边的图,我们可以判断样品里没有显着数量的低质量序列。
但如果曲线如右边的图所示,在质量较低的坐标位置出现另外一个或者多个峰,说明测序数据中有一部分序列质量较差,需要过滤掉。
3)GC含量分布这个是GC含量分布报告图。
GC含量分布检查是检测每一条序列的GC含量。
将样品序列的GC 含量和理论的GC含量分布图进行比较,用来检测样品数据是否有污染等问题。
理论上,GC含量大致是正态分布,正态分布曲线的峰值对应基因组的GC含量。
如果样品的GC含量分布图不是正态分布,如右图出现两个或者多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。
这种情况下,需要进一步确认这些污染序列的来源,然后将污染清除。
4)序列碱基含量碱基含量模块是统计在序列中的每一个位置,四种不同碱基占总碱基数的比例。
它的目的是检测有无AT、GC分离的现象,而这种现象可能是测序或建库的系统误差所带来的,并且会影响后续的生信分析。
理论上,在随机的DNA文库中,G和C含量以及A和T含量在每个测序循环上应分别相等,在整个测序过程中,四条碱基含量线都出现波动,可能是样品库里有过多的接头序列的二聚体(图C,D)。
在建库过程中,如果加入的接头序列过量,两个接头序列可能会连在一起,中间没有要测序的插入序列,形成接头序列二聚体。
这些二聚体可以利用adapter trimmer 软件去除。
5)过量出现的序列过量序列模块是查看数据是否有污染的另一种方法。
如果某个序列的数量占全部序列的0.1%以上,FASTQC就定义该序列为over-represented。
这些over-represented序列通常标示着污染序列的存在。
这种污染如果是建库测序中的接头序列,fastqc可以检测并标示出可能的来源(possible source)。
但如果污染是由于其他来源的DNA,比如其他生物的DNA,FASTQC就没法判断污染序列的来源。
这就需要生信分析人员利用其他方法找出污染源。
比如将大量出现的序列和NCBI的DNA数据库进行blast,看看污染序列是否来自其他物种。
6)过量出现的Kmer检查是否有接头序列,还可以查看k-mer含量。
如果有些k-mer过量出现,很有可能有序列污染。
过量出现的k-mer可能会有三种情况:序列5'-端,序列中间,或者序列3'-端。
5’-端过量出现的k-mer是建库PCR扩增时PCR引物无法和DNA模板很好地结合导致的,是技术误差。
出现在中间的k-mer比较少见,可能是接头序列拼接到测序序列中间导致的。
3'-端出现过量k-mer往往标示着接头序列的污染。
7)接头序列含量对接头序列污染的查看还有一个更直观的模块,就是接头序列含量。
这里的两个例子中,左图没有显着的接头序列污染,右图的接头序列污染就比较显着。
8)去除duplication序列重复序列是怎么来的呢?在全基因组或全外显子组测序的建库过程中,需要进行多轮的PCR扩增。
由于扩增引物和不同模板结合力的差异,有些地方的序列扩增产物大于1。
这些重复序列的存在会造成等位基因频率的定义以及基因型识别不准确。
去除重复序列的原理是将所有比对到完全相同位置的序列对减少至一对。
一般用picardtools软件里的Markduplcate功能去除重复序列。
9)碱基质量分数重新校正对原始比对结果的另一个质量控制是对碱基的质量分数进行校正。
为什么要对碱基质量进行校正呢?这是因为由于各种系统误差,测序仪报告的碱基质量不精确,比实际质量分数偏高或者偏低。
系统误差和随机误差不同,不像随机误差,它其实是一种error。
这可能来自于测序反应中的物理化学原因,也可能是测序仪本身存在的缺陷造成。
碱基质量分数校正的原理是:利用机器学习的方法建立误差模要说明的一点是:碱基质量分数校正不能纠正碱基。
也就是说,我们无法通过这个方法确定一个低质量的A是否应该为T。
但可以告诉变异识别软件,它可以在多大程度上信任这个碱基A是正确的。
二、实验分析部分测序错误主要有三大类,分别来自样品制备、文库制备,以及测序和成像。
参考文献:The role of replicates for error mitigation in next-generationsequencing1)来源于样品制备的测序错误?1. 用户错误;例如,贴错标签。
虽然这是个低级错误,但肯定不会没犯过。
在芯片分析中,贴错标签和样品搞混可都是真事,有文献可查。
2. DNA或RNA的降解;例如,组织自溶,福尔马林固定石蜡包埋(FFPE)组织制备过程中的核酸降解和交联(甲醛固定样品会随机产生C-T转化,导致肺癌T790M假阳性增多)。
3. 异源序列的污染;例如,那些支原体和异种移植的宿主。
4. DNA起始量低。
早在2005年人们就发现,在PCR过程中,DNA起始量低的模板会以序列依赖的方式产生虚假的突变,主要是从G转变为A。
2)来源于文库制备的测序错误1. 用户错误;例如,一个样品的DNA残留到下一个,之前反应的污染。
2. PCR扩增错误。
这个同上面第4点。
3. 引物偏向;例如,结合偏向,甲基化偏向,错配导致的偏向,非特异性结合和引物二聚体的形成,发夹结构和干扰环,熔解温度太高或太低引入的偏向。
?4. 短捕获偏向,在高通量RNA测序的poly(A)富集过程中引入。
5. 独家突变;例如,那些由重复区域或独家变异的错配而引入的突变。
?6. 机器故障;例如,PCR循环温度不正确。
7. 嵌合读取。
?8. 条形码和/或接头错误;例如,接头污染,缺乏条形码多样性和不兼容的条形码。
3)来源于测序和成像的测序错误?1. 用户错误;例如,流动槽过载引起的簇crosstalk。
2. 移相;例如,不完整的延伸以及多个核苷酸而不是单个核苷酸的添加。
?3. “Dead”荧光基团,受损的核苷酸以及重叠信号。
4. 序列背景;例如,富含GC,同源和低复杂度的区域,及均聚物。
?5. 机器故障;例如,激光器、硬盘、软件和流体系统出故障。
6. 链的偏向。
?三、小知识1. 为什么碱基质量在序列的5’-端要差一些?答:这是由NGS的测序特点造成的。
NGS使用的是pyrosequencing (sequencing by synthesis)的方法。
在这个方法里,用来合成的4个碱基的混合物里A,C,T,G四个碱基分别带有绿色,蓝色,红色和黑色的荧光标记。
而且每个碱基上面都有一个blocker cap,使得每轮反应只能有一个碱基被加入到每个分子中。
然后把没有加入分子的游离碱基全部洗去后,对每个分子进行荧光检测来确定新加入的碱基是什么。
在下一轮开始之前,这个blocker cap要去被掉才可以加入下一个碱基。
如果某个序列的blocker cap没有能有效地去除,在下一个反应中就没有新的碱基加入,那这个序列的荧光和其他的序列是不一样的,这样总体的荧光强度就被消弱,碱基识别的可信度就被降低。
这种错误发生的概率很低,但随着测序长度的增加,这种错误的总数就越来越多,对荧光的影响就越来越大,测序的错误率就越来越大。
2. 什么是接头序列?为什么会有接头序列污染?为什么要清除接头序列?答:在构建高通量测序的DNA文库时,需要在待测的DNA片段两头分别连一段人工合成的DNA序列。
这两段人工合成的序列被称为接头序列。
接头序列里一般包含三个重要组成部分:区分样品的barcode序列,PCR? primer序列和测序引物结合的序列。
在一般情况下,待测的插入序列在5’-接头序列下游,5’-段的接头序列不会出现在测序结果序列里。
但当插入测序列过短时,测序反应会超过待测序列而测到3’-端的接头序列,从而造成接头序列的污染。
当reads中有接头序列,会导致比对错误和非比对的序列书面增加。
所以要清楚接头序列。
3. 测序深度不均一性是测序建库技术操作的问题,还是每个人的个体化差异导致不均一的现象?答:不均一的原因个体DNA和测序应该都有,看不同的情况。
比如我们曾经分析过一个WES, 在一个本应该检测到变异的基因,我们无论如何检测不到。
可视化发现该区域内没有reads。
而查看这段基因序列,发现是100% 的G。
而对测序仪来说,如果G含量超过80%,就很难成功测序。
而如果个体某段DNA含有比较多的SNP,捕获探针就无法很好和DNA杂交,而不能有效的捕获。
4. 测序是否越深越好?NGS属于“深度测序”,可以1次并行对几十万甚至上百万条DNA分子进行序列测定,从而实现每个位点被覆盖几十次甚至上百次。
通过计算测序得到的碱基总量与测序区域大小的比值,可以获得测序的平均深度,是评价测序质量的重要指标之一。
测序深度的增加使得目标区域覆盖的读长增多,获得区域的序列信息更为精确。
然而,测序深度的增加意味着测序成本的提高。
因此,在测序之前需对数据精确度和成本进行综合考虑,根据临床应用需求选择合理的测序深度。
测序深度的选择主要基于以下4个方面的考虑:首先,常规的测序项目采用普遍被接受或推荐的测序深度。
正常组织全基因组测序建议的测序深度为10X~30X。
有研究表明,30X的测序深度可以覆盖80%的全基因组信息,基本满足常规的全基因组测序需求。