2020版:高通量测序技术临床规范化应用北京专家共识(肿瘤部分)

2020版:高通量测序技术临床规范化应用北京专家共识(肿瘤部分)
2020版:高通量测序技术临床规范化应用北京专家共识(肿瘤部分)

2020版:高通量测序技术临床规范化应用北京专家共识(肿瘤部分)

随着个体化医学的发展和"精准医学"概念的提出,肿瘤药物治疗发展迅速,临床研究逐渐发现并证实更多与药物治疗疗效预测相关的基因突变[1]。传统的基因突变检测方法如Sanger测序、焦磷酸测序和实时荧光PCR等仅能对单个基因,或者单个基因的部分外显子突变进行检测,采用上述传统基因突变检测方法同时检测多个基因,一则需要的样本量大,其次需要更长的检测时间和更大的工作量。高通量测序(HTS)即下一代测序(NGS),能够同时对上百万甚至数十亿个DNA片段进行测序,可实现在较低的成本下,一次对多至上百个肿瘤相关基因、全外显子以及全基因组进行检测,而且需要的样本量并不增加。因其在通量、成本和效率方面的优势,NGS在实体肿瘤体细胞基因突变中展现了其广阔的应用前景[2]。

NGS检测流程复杂,对实验室环境条件、人员能力及质量管理要求高。前期,北京市临床检验中心、北京医学会检验医学分会、首都医科大学临床检验诊断学系、北京市医学检验质量控制和改进中心牵头制定了《高通量测序技术临床检测规范化应用北京专家共识(第一版通用部分)》(以下简称"通用共识")[3]。实体肿瘤体细胞基因突变NGS检测中,低频突变、肿瘤异质性、样本种类多样、样本质量差别较大等均给实验室检测带来了挑战,因此其在方法建立、分析前、中、后质量控制等方面均有其特殊之处。为规范实体肿瘤体细胞基因突变NGS检测,在借鉴相关指南、规范及权威发表的文献基础上,专家组又起草了《高通量测序技术临床规

范化应用北京专家共识(第一版肿瘤部分)》。本共识中的声明内容为专家讨论并推荐的要点。

实体肿瘤体细胞基因突变NGS检测实验室建设的总体要求开展高通量测序临床检测的实验室应依据卫办医政发[2010]194号文件《医疗机构临床基因扩增检验实验室管理办法》,通过省级卫生行政部门相应技术审核和登记备案后,方可开展临床检测工作。实验室环境条件(如通风、温湿度、洁净度和防震要求等)、实验室人员的专业知识和能力、试剂耗材的质检、仪器设备配备与维护校准等应满足"通用共识"的要求[3]。

一、实验室分区

实验室分区在满足"通用共识"要求的基础上,同时考虑肿瘤基因突变NGS检测的特点,根据项目、测序平台、检测技术流程、样本类型和样本量等进行合理设置。实体肿瘤体细胞基因突变检测通常分析敏感性较高,以单核苷酸变异(SNVs)为例,肿瘤组织和血浆样本分别能够检出突变等位基因百分比低于5%和1%的SNVs,因此开展实体肿瘤体细胞基因突变NGS检测的实验室应尤其注意对实验室进行合理分区,以防止污染。以杂交捕获法NGS为例,建议分区考虑以下方面:"试剂准备区"是最洁净的区域,应独立成区;福尔马林固定石蜡包埋(FFPE)样本需要设置"样本制备前区",进行样本的切片,注意该区域不要与常规病理检测区域共用;"样本制备区"用于样本DNA提取;组织或细胞DNA样本如通过超声打断进行片段化处理,在有条件的情况下建议实验室单独设置"打断区";DNA片段分析如采用琼脂糖凝胶电泳,可以单独设置"电泳区";"文库制

备区"用于打断后的DNA加A尾、加接头、标签等;"扩增一区"进行文库的预扩增和纯化等;"杂交捕获区"进行序列的捕获、富集和纯化;"扩增二区"进行文库的扩增、定量和混合;"测序区"完成高通量测序。

不同检测流程,其分区设置有所不同,实验室应根据"通用共识"的"32字原则"来考虑实验室分区设置。如果实验室采用多重PCR捕获,在扩增的同时进行捕获,则根据检测流程可以考虑某一扩增区和捕获区域合并;如果采用的片段化方式是酶消化,则无需设置"打断区",可以和"文库制备区"共用;如果使用生物分析仪对提取核酸进行片段分析,无需单独设置"电泳区",可以和"文库制备区"共用;血浆提取的循环肿瘤DNA(ctDNA)如直接建库,无需设置"打断区"。若使用自动化建库的设备,在确认不产生交叉污染的前提下,可适当合并某些区域。若实验室同时开展组织或细胞学样本基因组DNA和ctDNA检测时,因为两类样本的测序深度及检测限有较大差别,为避免高浓度组织核酸对低浓度ctDNA的污染,需要设置不同的样本制备区和文库制备过程中所涉及的相关区域。

【共识1】实体肿瘤体细胞突变检测通常分析敏感性较高,临床实验室应尤其注意合理分区,以防止污染。杂交捕获法NGS建议的分区包括试剂准备区、样本制备前区、样本制备区、打断区、电泳区、文库制备区、扩增一区、杂交捕获区、扩增二区和测序区。但是不同检测流程,分区设置有所不同,临床实验室应根据"通用共识"的"32字原则"来考虑实验室分区设置。若实验室同时检测血浆和组织或细胞学两类样本,则需设置不同的样本制备区及其后续的文库制备过程中的相应区域。

二、实验室人员及能力要求

实验室应具有可满足开展检测要求的相关专业人员,包括实验室负责人或技术负责人、"湿实验"的操作人员和"干实验"的生物信息学分析人员、遗传咨询人员(必要时)和信息系统建立及管理相关人员等,所有人员均需持续接受岗位相关的培训,并定期进行内部的能力评估[3]。NGS实验室负责人或技术负责人应有全面的NGS及其实验室质量管理知识,对所开展的NGS检测项目及其质量保证关键环节具有清晰的认识。"湿实验"操作人员应具有完成实验操作的能力,采用组织样本进行检测的实验室,还应包含病理医(技)师人员,制备组织切片进行HE染色,并能对切片中肿瘤组织的坏死情况、肿瘤细胞的含量和数量进行评估[4]。生物信息学分析人员团队除需熟练掌握肿瘤基因突变NGS检测原理及常用软件外,还应配备具有临床肿瘤学和临床分子检测基本知识的人员。签发报告人员应具备医学分子生物学和临床肿瘤学知识背景,能够熟练使用肿瘤基因相关数据库,掌握相关临床诊疗指南,了解肿瘤靶向和免疫治疗药物及其相关肿瘤基因突变研究的最新进展。对于疑难病例或必要时,可由相关临床医生、病理医生、影像医生、医学遗传学家、肿瘤突变分子检测人员、相关的实验室其他人员、相关药师等来自不同专业的专家组成分子肿瘤专家组(MTB),依据基因突变检测结果,结合患者状况、临床表现、病理和影像学检查结果等,经充分讨论后,给出合理的个体化精准治疗方案[5]。使用实验室自建检测(LDTs)的实验室,应配备"湿实验"和"干实验"研发人员,具备"湿实验"和"干实验"方法建立、优化和性能确认的能力。其中生物信息学分析人员具有搭建序列比对、突变过滤、临床意义及靶向用药

类、突变注释类以及本实验室内肿瘤基因突变临床有效性等的数据库的能力。

【共识2】NGS实验室负责人或技术负责人应有全面的NGS及其实验室质量管理知识。采用组织样本进行检测的实验室,"湿实验"团队成员应包括病理医(技)师人员。生物信息学分析团队中应有具备临床肿瘤学和临床分子检测基本知识的人员。签发报告人员应具备医学分子生物学和临床肿瘤学知识背景,熟练使用相关数据库,掌握本领域的指南,了解相关研究的最新进展。对于疑难病例或必要时,可由不同专业的专家组成的分子肿瘤专家组给出个体化治疗方案。使用LDTs的实验室,应配备"湿实验"和"干实验"研发人员,其应具有正确设定肿瘤体细胞突变NGS检测临床预期用途、建立检测系统(含试剂配制和生物信息分析流程搭建等)及其使用SOPs以及完成LDTs性能确认的能力。

肿瘤基因突变NGS检测流程的建立与质量保证

实验室可选择国家药品监督管理局(NMPA)批准的试剂盒,使用前应进行分析性能验证;如没有可用的批准试剂,或对批准试剂根据研究及临床诊疗指南进展进行了修改,即可设计建立LDTs。使用LDTs进行NGS 检测的实验室,在建立检测流程前,应首先明确拟开展的NGS检测项目的临床预期用途,确定合适的检测基因及其突变[6,7],建立并优化"湿实验"和"干实验"分析流程,并对测序平台、生物信息学分析流程分别进行性能确认,最后对检测方法进行全面的分析性能确认和一定的临床性能确认(适用时)[8,9]。

一、临床预期用途

检测项目必须基于医学科学证据,有明确的临床预期用途。实体肿瘤体细胞基因突变NGS检测的临床预期用途是用于药物疗效预测,即通过体细胞基因突变检测选择可能在靶向或免疫治疗药物中受益的患者以及监测耐药的出现[10]。临床预期用途的叙述中应包括但不限于适用人群、样本类型、检测基因及其突变位点或突变类型和检测的临床意义[7]。原则上,建议选择医学科学证据支持的、临床意义明确或有潜在临床意义的基因进行检测。如果检测的临床意义是伴随诊断,预期用途中必须明确伴随诊断的药物和每种药物对应的实体肿瘤患者人群。如果是非伴随诊断,预期用途中必须说明检测项目为非伴随诊断,由临床医生根据相应的疾病诊疗指南选择治疗药物。

二、NGS方法学建立及其关键环节的优化

实体肿瘤体细胞基因突变NGS检测方法的建立与优化涉及分析前的样本采集、运送、保存及处理;分析中的"湿实验"(引物或探针设计及合成、核酸提取、文库制备、上机测序)和"干实验"即生物信息学分析流程等检测全过程;分析后的结果报告及解读、信息贮存及传递和保密(实验室信息管理系统)以及临床有效性数据的收集等。此外,实验室需设计体细胞基因突变的识别策略,无论是否采用肿瘤组织与该患者正常组织或白细胞进行配对检测,都需要确认检测方法是否能有效区分体细胞突变和胚系突变。

1.待测基因位点的选择:

需根据检测目的,依据医学科学证据选择待测基因位点。如美国FDA 根据基因位点的临床意义等级将肿瘤基因突变NGS检测分为3个等级

[11,12]:第一级为肿瘤的伴随诊断(CDx),为安全有效使用治疗药物所进行的必要检测,所测的基因位点具有明确的分析有效性和临床有效性,如EGFR、ALK、BRAF突变检测;第二级为专业指南推荐的具有显著临床意义的基因位点,其分析有效性和临床有效性可通过临床试验、指南或已发表的文献证实,如用于肿瘤突变负荷(TMB)和微卫星不稳定性(MSI)的检测;第三级为除第一、二级以外的,具有潜在临床价值的基因位点,已有基础或临床研究显示其临床意义,此类检测有可能用于临床试验受试者的筛选。检测基因盘(以下简称panel)的大小决定了测序成本、实验室检测工作量以及分析和临床解释的复杂性,实验室应合理选择基因和panel大小。如用于指导初诊患者用药治疗时,可选用第一级的基因位点,检测panel较小;靶向治疗耐药监测或免疫治疗疗效预测,则可设计泛癌种的panel,选择包括第一级、第二级和第三级的基因位点,检测panel 通常较大[13,14]。

NGS检测的基因突变类型包括SNVs、小的缺失和插入、拷贝数变异(CNAs)、结构变异(SVs)如基因融合[14]。实验室应根据拟检测的基因突变类型和位点,确定基因panel内每个基因的覆盖范围,如拟检测整个基因水平上的CNAs时,需要覆盖所有外显子区域,甚至向非编码区延伸以保证准确性;若检测基因融合时,可选择杂交捕获的方法进行DNA 测序或是RNA测序,融合基因的断点位置通常位于非编码区域,并且很少具有聚集性,若使用DNA测序,检测panel需要覆盖最常见的内含子/外显子、或者整个基因[14]。微卫星(MS)是遍布人类基因组中的短串联重复序列,由1~6个碱基的序列重复构成[15],在探针设计时可优先考虑

单碱基重复,如果单碱基重复不佳,可对双/多碱基单元重复进行严格筛选后纳入[16]。用于检测MSI的panel,需要保证有足够的MS位点数,目前文献报道的MS位点数已达到数千个[17,18,19]。在对TMB进行检测时,最理想的方法是全外显子测序[20],也可使用靶向测序,测序panel的大小影响TMB检测的准确性,文献报道panel大小位于1 Mb~39 Mb之间[21],检测前应利用全外显子测序的数据对panel的编码区范围进行TMB分析的饱和度评估[22]。使用扩增子法进行建库时还需要重点考虑引物的扩增效率、扩增子密度等,以保证检测的重复性和再现性。

2.核酸提取的建立和优化:

实验室需根据待检样本类型选择核酸提取试剂,不同样本类型对核酸提取试剂要求不同,实验室可使用商业化的提取试剂盒、设备或已经过确认的自建核酸提取方法。使用前,应对拟采用的试剂或设备进行评估,评估是否适用拟检测的癌种和样本类型。如肿瘤患者血浆样本中含有的游离DNA以主峰在140~170 bp的小片段为主,而且浓度很低,与组织和细胞样本中提取的人基因组DNA有很大不同。因此,实验室需确认核酸提取的重复性、提取效率、提取纯度及不同大小核酸片段提取的偏好性(必要时)等方面。

NGS检测所需的核酸量与测序平台、panel大小以及文库富集方法有关[23],核酸质量是决定检测成功的关键因素。使用FFPE提取DNA时,若FFPE保存年限过长,DNA中胞嘧啶脱氨基转变为尿嘧啶,PCR扩增后C>T现象较为严重,可以通过尿嘧啶DNA糖基酶(UNG酶)或5-甲基胞嘧啶DNA糖基化酶(5-methylcytosine DNA glycosylase)处理DNA

以降低检测的背景噪音[14]。使用血浆样本进行ctDNA提取,可通过PCR 法分析ctDNA的片段分布,来监测是否受到基因组DNA的"污染"[24]。3.文库制备的建立和优化:

文库制备步骤较多,接头与样本DNA片段的连接效率、PCR反应体系(聚合酶、引物、缓冲液和扩增反应条件等)均可能影响文库的质量,此外,实验室还可在PCR扩增前,使用特异分子标签(UMIs或UMD)标记技术,以便于准确识别天然重复序列,区分低频突变和检测过程中引入的错误[25,26]。实验室需确认文库制备流程可以产生满足检测要求的文库(文库浓度、文库片段大小等),评估交叉污染发生率,必要时通过特异双端标签建库策略以及合适的生物信息学分析流程降低污染[27]。4.测序平台的性能确认:

实验室应优先选择NMPA批准的测序平台,并根据所选定的基因panel,并综合考虑测序通量、测序数据准确度、可支持读长、运行时间、测序成本等选择测序平台型号。对已知不同突变类型的样本进行检测,建立测序平台检测不同突变类型的性能指标(如精密度、准确度),并明确所用测序平台是否满足临床预期用途[9,13]。

5.生物信息学分析流程的搭建与性能确认:

在生物信息学分析流程搭建和优化过程中,实验室应确定测序深度和阳性判断值(cut-off)。测序深度和阳性判断值密切相关,即适宜的测序深度需在已知阳性判断值的前提下方可确定;而合理的阳性判断值也需在一定的测序深度条件下明确。实验室应根据所检测的突变类型,选择合适的算法和软件,提高对肿瘤基因突变检测的敏感性。不同软件或算法识别

某种变异类型的能力有所不同,应采用多种算法,以提高不同突变类型的检出准确率[28]。另外还应建立完善包括数据质控与过滤、数据比对、变异识别和变异注释在内的生物信息学数据分析流程、软件及数据库[29]。

生物信息学分析流程建立后,实验室应对其进行性能确认,并建立数据分析质量标准,包括但不限于最低测序深度、平均测序深度、覆盖均一性、GC含量、碱基识别质量值、比对质量值和在靶率等。(1)测序深度:测序深度与拟定的基因panel临床预期用途、文库的复杂性和测序成本等因素相关[30]。实验室可根据相关文献、统计学方法(如功效分析、二项式分布)或工作经验,估算测序深度[14,31]。也可先用较高的测序深度进行测序,通过数据抽样,分析部分原始测序数据来模拟不同的测序深度[32]。通过分析在不同测序深度条件下,不同突变频率(包括检测限)的阳性样本检出率而确定。(2)阳性判断值:阳性判断值用于区分阴阳性结果,实验室应清楚证明阳性判断值设定的依据。如果实验室检测不同突变类型,则需要分别说明每一种突变类型阳性判断值设定的依据。有文献通过检测一定数量的阴性临床样本(如FFPE样本)或正常细胞系(如HapMap细胞系NA12878),统计分析各个基因位点的reads数和标准差,并以reads数加上3倍的标准差作为暂定的阳性判断值[33]。也有文献报道通过检测一定数量的阴性和阳性样本,采用统计学方法如ROC曲线或PR(precision-recall)曲线来确定合适的阳性判断值[30,34]。

当生物信息学分析流程经过上述过程建立完成后,需对其进行性能确认以进一步优化。性能确认的样本可为:(1)临床样本的测序数据。对临床样本进行NGS全流程检测后得到的测序数据是最重要的性能确认样

本;(2)计算机模拟的测序数据。如通过Varsim、BAMSurgeon或Mutationmaker等软件对已有样本的测序数据再编辑后产生的测序数据;(3)参考物质(如Hapmap的细胞系NA12878、NA19240、NA18507或商品化参考物质)的测序数据。计算机模拟和参考物质的测序数据只能作为补充数据,不能完全替代临床样本测序数据[35]。性能确认的指标包括精密度、准确度、分析敏感性、分析特异性和可报告范围等[35]。

【共识3】实体肿瘤体细胞基因突变NGS检测的临床预期用途为通过体细胞基因突变检测选择可能在靶向或免疫治疗药物使用中受益的患者以及耐药监测。临床实验室应在预期用途中包括但不限于适用人群、样本类型、检测基因及其突变位点或突变类型和检测的临床意义等。在NGS 方法学建立和优化阶段,实验室需根据临床预期用途,选择具有临床意义的待测基因位点;优化核酸提取方法,所提取核酸的质量应满足检测要求;建立和优化文库制备方法;对测序平台进行性能确认,建立测序平台检测不同突变类型的性能指标;搭建和优化生物信息学分析流程,确定测序深度和阳性判断值,并对生物信息学分析流程进行性能确认。

三、性能验证或性能确认

如果NMPA批准试剂可以满足实验室拟开展检测项目的临床预期用途,则实验室应优先选择NMPA批准试剂。实验室使用已批准的NGS试剂开展临床检测服务前,必须进行性能验证。如果实验室改变已批准试剂指定的预期用途、试剂组分、操作流程,则按照LDTs试剂要求进行管理。如所用试剂为LDTs,在临床检测前需进行检测系统(包含人、机、料、法、环等)的分析性能确认[8]。实验室应通过试剂方法建立和性能确认的

过程,建立及完善检测系统,明确日常检测质量控制标准及关键点,形成检测操作全过程说明书(即分析前、分析中和分析后SOPs),建立试剂的分析性能指标以及明确检测局限性。以下将分析性能确认和分析性能验证统称分析性能评价。

进行分析性能评价的指标至少应包括精密度、准确度、分析敏感性、分析特异性(包括干扰物质)、可报告范围[36]。其中,精密度是指同一样本在多次检测中结果的一致程度,包括重复性和再现性两个方面。重复性指在同一条件下(相同环境、相同操作人员、相同检测流程、相同仪器)进行多次测量同一序列,测定结果的一致程度。再现性指由不同操作人员、不同仪器(相同型号)和不同批试剂进行同一序列测量结果的一致性程度[6]。准确性指测定检出的序列与参考序列的一致性程度。对准确性的评价可通过两部分进行。一是通过检测已知序列的人基因组DNA(如标准细胞株),来评价测序本身的准确性。如果为疾病相关的多基因或全外显子测序,可只评价靶向区域的测序结果。测序的准确性可通过碱基的正确率来表示;二是通过检测临床样本进行验证,包括含有疾病相关突变的样本和含有与待检突变相同突变类型的样本,评价范围应包括具有明确临床意义的位点,较难测序或比对的区域、不同GC含量的区域等[6,14]。可将NGS与另一已经过确认的方法同时检测临床样本来评价,比较NGS与另一方法之间结果的差异,不一致的结果再用第三种方法进一步确认,通过阳性符合率(PPA)和阴性符合率(NPA)来评价定性测定的准确度[14]。检测点突变、短片段缺失和短片段插入的比较方法可以采用Sanger测序、等位基因特异性PCR等;检测拷贝数变异的比较方法,可以采用实时荧光

定量PCR、荧光原位杂交(FISH)等;基因融合可以采用FISH、实时荧光PCR等方法作为NGS检测的比较方法。分析敏感性,这里指LoD,通常使用LoD95%表示,即有95%的可能性能够正确检出突变位点的最低等位基因百分比[8]。通常采用已知突变等位基因百分比的样本,用另一基因组DNA(或游离DNA)混合稀释来进行评价。实验室需建立不同突变类型和不同样本类型的LoD95%。分析特异性是评价样本中的同源序列或其他交叉反应的序列和内源及外源干扰物质对检测结果的影响[6,37,38,39]。干扰物质即可能对检测结果产生影响的物质,内源性的如黑色素、血红蛋白等;外源性的如标本处理过程中加入的乙醇、蛋白酶K、加入的标签等。此外,在准确性确认中,可部分确认可报告范围,实验室在日常检测中,应对可报告范围持续关注和确认。

用于性能评价的样本最理想的是与检测范围内肿瘤类型、样本类型和组织来源相同的临床样本[40]。特别是预期将来临床应用检测的样本类型,是最佳的选择。如果临床实验室可接受多个样本类型,那么对每种样本类型均需分别进行性能确认。未经分析性能评价的样本类型应被视为无法准确检出的样本。没有足够的、能代表各种突变类型、并且有适合浓度的临床样本,可以使用类似的模拟样本来代替。如FFPE样本可以部分使用细胞系或人基因组DNA样本;如血浆样本可以使用模拟游离DNA样本等;但不能完全代替临床样本[41]。实验室可通过福尔马林固定和石蜡包埋,将细胞系制备成FFPE样本以模拟临床样本[14,42]。

对每种突变类型或样本类型进行分析性能确认时,所用的样本量需达到统计学意义。有文献建议进行精密度性能确认时至少需3例样本,进行

准确性评价时应至少检测59例样本,进行LoD95%评价时至少需要进行60次检测,若无法获得足够的检测次数,则应在后续临床检测中设置弱阳性质控,以保证能准确检测位于LoD的突变[14,43]。检测FFPE样本时,由于DNA质量可能不高,实验室需增加性能确认的样本量,以保证低质量样本检测结果的可靠性[14]。若某种突变类型(如大片段的缺失、结构变异、拷贝数变异等)的样本不易获得,实验室无法短时间内获得足够的样本进行性能确认,则应按NGS无法准确检出的位点对待,需使用其他方法(如PCR法、Sanger测序法或杂交芯片法等)对这类位点的阳性结果进行确认,或在NGS的检测报告中注明检测的局限性[14]。

分析性能确认需明确分析前、分析中、分析后涉及影响检测结果的关键质量控制参数如肿瘤细胞含量、文库构建所需的DNA量、文库片段分布、文库浓度、最低测序深度、平均测序深度、覆盖均一性、符合要求质量值的碱基百分比(如Q30百分比)等及检测的局限性,最终完成建立"湿实验"试剂配制和"干实验"生物信息学分析流程SOPs,包括采血管(如适用)、核酸提取试剂、合成相应的引物探针、文库制备试剂、通用测序反应试剂、仪器、质控品、软件/算法及其版本、分析参数、质量标准、数据库等。所有日常检测中均需全员严格遵循,不得随意改变。若试剂、软件及其版本、参数和数据库发生改变,实验室应根据影响程度进行全流程或部分检测环节的重新分析性能确认。实验室在进行分析性能确认过程中,若发现重要区域的测序质量值无法达到预定的可接受范围,实验室需继续修改、优化检测体系,或是将其从可报告范围中删除[40]。对于预期用途为伴随诊断的NGS检测,还需进行临床性能确认和临床有用性评价

[41]。临床性能确认的指标包括适用人群中的临床敏感性、临床特异性[44,45]。实验室需结合预期用途和患者临床资料(如病理检查、影像学检查或临床发现)进行临床性能确认指标分析[41]。单个实验室若无法通过本实验室的检测样本统计临床性能指标,可以通过检测无疾病人群获得临床特异性的指标。此外,还可以根据相关文献,建立临床性能指标[41,46]。

【共识4】使用NMPA批准的NGS试剂进行检测前应进行分析性能验证;LDTs试剂应根据临床预期用途进行试剂方法的设计和优化,至少要对体细胞基因突变的识别策略、样本前处理、核酸提取、文库制备、靶向捕获、高通量测序平台、生物信息学分析、测序深度和阳性判断值等环节进行确认。在完成试剂方法的设计和优化后,实验室应对LDTs检测的全流程进行整体的性能确认。分析性能确认应至少证明NGS对各种不同突变类型的检测能力,证明对重要常见基因的检测能力。如果临床实验室可接收多个样本类型,那么对每种样本类型均需分别进行性能确认。没有足够的临床样本,可以使用模拟样本来代替。分析性能确认包括但不限于精密度、准确度、分析敏感性、分析特异性和可报告范围等。在确认分析性能特征可以满足临床预期用途后,最终完成建立"湿实验"试剂配制和"干实验"生物信息学分析流程SOPs。对预期用途为伴随诊断的NGS检测需进行临床性能确认。性能评价应包含检测范围内样本类型和突变类型。通过性能评价,建立性能参数,明确检测的局限性。若实验室流程发生改动,需根据对检测的影响进行全面或部分性能确认。

四、实验室检测SOPs的建立

实验室应对检测操作全过程建立具有可操作性的SOPs,并在日常检测中对检测全流程进行记录,以保证检测结果具有可追溯性。

(一)分析前

在分析前阶段,为保证临床医生能为患者开具正确的检测申请单以及采集到符合质量要求的样本,实验室需提前告知临床医生有关NGS检测的临床预期用途和适用症、检测方法及其性能、检测的局限性、样本采集运输和预处理的注意事项以及报告周转时间等。临床医生应为患者提供必要的分析前咨询,使其知情同意。为能使实验室对检测申请单的合理性进行审核,送检申请单应包含必要的信息,包括采样相关信息(包括样本类型、采样部位、采样时间等)和相关的临床信息(包括疾病诊断、疾病分期分型、治疗情况)等[46]。此外,实验室还需建立分析前质量指标(如样本不合格率、样本容器错误率、检测申请单错误率等),监控分析前关键环节的质量[47]。

可用于实体肿瘤体细胞基因突变检测的样本类型包括FFPE样本、新鲜组织、血浆、胸腹水等。实验室应对样本的采集容器、采样量、保存及运送条件、预处理方式等进行确认,保证样本质量,避免交叉污染。应制定样本采集SOPs,明确样本接收和拒收标准,建立合适的样本运输和保存要求。对于不满足样本接收标准,无法重新取样,但又有检测需求的特定样本,可在实验室主任或相关负责人同意以及与临床医生充分沟通并同意的情况下,实施让步检测,并在结果报告中进行风险提示和免责声明。1.FFPE:

为保证核酸的质量,手术或活检组织应在离体10 min内浸入10%中性福尔马林固定液中进行固定,固定时间为6~48 h[48]。组织固定后石蜡包埋并连续切片,建议切片厚度4~5 μm。对其中1张FFPE切片进行HE染色,并在显微镜下观察肿瘤细胞的含量和数量。若肿瘤细胞含量不足,实验室可标记肿瘤细胞区域并富集肿瘤细胞。需要注意的是,肿瘤细胞含量与数量的评估易受到观察者主观因素的影响[49]。为避免样本处理带来的交叉污染,切片制备过程中,应使用一次性耗材(如切片的刀片、挑切下蜡片的棉签或毛笔等),并在每个样本操作完成后及时清理切片机并保证每个样本的切片有单独展片水缸,每个患者的FFPE样本应单独脱蜡[50,51]。FFPE样本可常温运输和保存,为防止样本之间的交叉污染,应保证"一盒一样"。强酸处理的脱钙组织DNA损伤严重,不适合NGS检测。实验室可用弱酸进行骨组织脱钙,但需对脱钙时间和脱钙方法进行验证,保证提取核酸的质量满足要求[52]。

2.新鲜组织:

新鲜组织(包括手术和活检组织)可提取得到高质量的核酸。新鲜组织应在离体后30 min内置于液氮中,进行快速病理切片,以评估肿瘤细胞的含量[50]。若肿瘤细胞含量不足,可通过标记肿瘤区域进行富集[53]。新鲜冰冻组织可于液氮、-70℃冰箱或稳定剂中长期保存[50]。

3.血浆样本:

血浆样本采集、运送、接收和保存的核心是避免外周血有核细胞裂解释放基因组DNA稀释游离DNA和游离DNA降解。可使用血浆游离DNA 专用采血管或EDTA抗凝管采集外周血。不同采血管的样本保存温度及保

存时间不同[24,54]。血浆游离DNA专用采血管可参考厂家建议。采集血液样本时应注意避免溶血,EDTA抗凝管采集样本后需要对血液样本进行血浆分离处理,以避免ctDNA降解或外周血有核细胞裂解释放基因组DNA稀释ctDNA[24]。建议进行两次离心,第一次为1 600×g离心10 min,第二次为16 000×g离心10 min。血浆分离最好在采集后6 h内完成。运输过程中需避免血液样本发生剧烈振荡。血浆分离后,如果不能立即进行游离DNA提取,可在-20 ℃可保存1个月,长期保存应置于-70 ℃[55],避免反复冻融。如果可以提取,可暂时在4℃保存3 h。ctDNA 的含量与肿瘤类型、肿瘤分期、采样时间和临床治疗等有关[56,57]。实验室应制定ctDNA检测的临床适应证[58]。

4.胸腔积液及腹腔积液样本:

临床上可采用胸腔积液及腹腔积液上清或离心后得到的细胞沉淀进行NGS检测。使用细胞沉淀检测前,应先制成蜡块,进行切片和HE染色,镜检确认肿瘤细胞含量[23]。不同的样本类型(上清或细胞沉淀)所需的样本采集容器不同,实验室应制定适宜的保存条件[50]。

【共识5】实验室应制定每一种类型样本采集、运送、接收和保存的SOPs,明确样本接收和拒收标准,建立合适的样本运输和保存要求。适用于肿瘤基因突变NGS检测的样本主要包括FFPE、血浆、新鲜组织、胸腹水等。采用FFPE、胸腹水细胞沉淀或新鲜组织进行NGS检测前,需先评估样本质量和肿瘤细胞的含量。为避免交叉污染,切片制备过程中,应使用一次性耗材。血浆样本采集、运送、接收和保存的核心是避免外周血有核细胞裂解释放基因组DNA稀释游离DNA或游离DNA降解。分析前

记录的关键点为样本接收、拒收和预处理的记录。当样本质量未达到SOPs 要求时,可进行让步检测,但应建立对应的异常情况处理程序。

(二)分析中

实验室应根据性能确认或性能验证的结果,建立分析中检测的标准操作程序。各环节的质量标准是标准操作程序的重要组成,包括核酸提取后,核酸浓度、核酸纯度和核酸的片段分布要求,文库制备的DNA上样量和文库制备后进行杂交捕获上样量的要求,最低测序深度、平均测序深度、覆盖均一性、GC含量、碱基识别质量值、比对质量值和在靶率等要求[41]。这些要求也同时是分析中实验记录的关键点。当上述质量标准要求未达到时,可进行让步检测,但应建立对应的异常情况处理程序。

实验室应建立室内质量控制的标准操作程序。室内质控品应尽可能涵盖检测范围内的所有样本类型和突变类型。临床样本是最理想的质控品,但特定标志物的阳性标本常常难以获得,因此肿瘤体细胞突变NGS检测多采用模拟样本作为质控品。模拟样本的分析物生物特征和基质应尽可能与临床样本一致。如可将细胞系进行福尔马林固定石蜡包埋,模拟FFPE 样本;采用核小体特异切割位点的机制,形成肿瘤游离DNA核小体单体大小为主的片段分布特征,以模拟血浆中的ctDNA[59]。自制质控品应有质控品制备和验证的程序和记录。单个质控品可能无法覆盖检测范围内的所有突变位点或突变类型,实验室可轮换使用多个含有不同突变类型的质控品。质控品的设置应至少包含弱阳性、阴性和无模板对照(如水样本),且与待检样本同批检测。质控标准至少应符合以下要求:如果弱阳性质控品未检出,判为失控;阴性质控品检出阳性,判为失控。无模板对照中应

包含在所有的扩增步骤中,如在文库质控环节中出现目的片段,说明检测操作过程中出现了核酸的交叉或遗留污染,判为失控。出现失控,应分析失控原因,并采取相应的纠正措施和预防措施。实验室还可阶段性统计核酸提取不合格率、文库构建不合格率、下机数据质控不合格率、测序深度不合格率、覆盖均一性不合格率、污染率、各体细胞突变位点阳性率等,动态监测统计日常检测样本和室内质控数据,观察变化以进行改善。DNA 质量、文库质量或测序质量不合格时,实验室应建立异常情况处理程序(如让步检测、确认检测或不发出检测报告)。

实验室应定期参加室间质量评价(EQA)或能力验证(PT)。如使用肿瘤/正常双样本配对检测肿瘤基因突变的实验室,应尽量选择双样本配对的EQA/PT项目。具体要求可参考"通用共识"[3]。

【共识6】实验室应根据性能确认或性能验证的结果,建立分析中检测的标准操作程序。各环节的质量标准是标准操作程序的重要组成,包括核酸提取后,核酸浓度、核酸纯度和核酸的片段分布要求,文库制备的DNA上样量和文库制备后进行杂交捕获上样量的要求,最低测序深度、平均测序深度、覆盖均一性、GC含量、碱基识别质量值、比对质量值和在靶率等要求,这些要求也同时是分析中实验记录的关键点。若某一关键环节的检测质量控制参数不符合要求,则实验室应根据所建立的异常情况的处理程序进行处理。此外,实验室应根据可检测的样本类型、突变类型、检测下限等设置合适的包括所检测的所有突变类型的弱阳性、阴性和无模板对照(如水样本)质控品,且与待检样本同批检测。定期参加EQA/PT

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

DNA测序技术的发展和其最新进展

DNA测序技术的发展及其最新进展 摘要:自从诺贝尔奖得主桑格于1977年发明了第一代DN测序技术以来,DNA测序技术已经作为重要的实验技术广泛的应用于现代生物学研究当中。经过了几十年的发展,DNA测序技术日臻成熟,并且以单分子测序为特点的第三代测序技术也已经诞生。本文主要就每一代测序技术原理和特点及其最新进展做简要介绍。 关键词:DNA测序技术;第三代DNA测序技术;最新进展 The Development and New Progress of DNA Sequencing Technology Abstract: Since Nobel Prize Winner Sanger have founded the first generation of DNA Sequence technology in 1977, DNA sequencing technology has been widely used in modern biological researches as an important experimental. Over decades of year’s development, DNA sequence technology mature gradually and the third generation sequencing technologies characterized by single-molecule sequencing have also emerged. The mechanisms and features of each generation of sequencing technology and their latest progress will be discussed here. Key Words: DNA Sequence technology ; third generation DNA sequencing ;latest development 1.引言 DNA测序技术是分子生物学研究中最常用的技术,它的出现极大地推动了生物学的发展。自从1953年Watson和Crick发现DNA双螺旋结构后[1],人类就开始了对DNA序列的探索,在世界各地掀起了DNA测序技术的热潮。1977年Maxam和Gilbert报道了通过化学降解测定DNA序列的方法[2]。同一时期,Sanger发明了双脱氧链终止法[3]。20世纪90年代初出现的荧光自动测序技术将DNA测序带入自动化测序的时代。这些技术统称为第一代DNA测序技术。最近几年发展起来的第二代DNA测序技术则使得DNA测序进入了高通量、低成本的时代。目前,基于单分子读取技术的第三代测序技术已经出现,该技术测定DNA序列更快,并有望进一步降低测序成本,推进相关领域生物学研究。本文主要介绍DNA测序技术的发展历史及不同发展阶段各种主要测序技术的特点,并针对目前新一代DNA测序技术及目前国际DNA测序最新进展做简要综述。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述 摘要:转录组测序(RNA-Seq)作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。RNA-Seq利用高通量测序技术对组织或细胞中所有RNA 反转录而成cDNA文库进行测序,通过统计相关读段(reads)数计算出不同RNA的表达量,发现新的转录本;如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗传信息,已广泛应用于生物学研究、医学研究、临床研究和药物研发等。文章主要比较近年来转录组研究的几种方法和几种RNA-Seq的研究平台,着重介绍RNA-Seq的原理、用途、步骤和生物信息学分析,并就RNA-Seq技术面临的挑战和未来发展前景进行了讨论及在相关领域的应用等内容,为今后该技术的研究与应用提供参考。 关键词: RNA-Seq;原理应用;方法;挑战;发展前景 Abstract:Transcriptome sequencing (RNA-Seq) is a kind of high efficiency, quick transcriptome research methods are changing our understanding of transcriptome. RNA-Seq to use high-throughput sequencing of tissues or cells of all RNA reverse transcription into cDNA library were sequenced, through statistical correlation read paragraph (reads) numbers were calculated from the expression of different RNA transcripts, find new; if the genome reference sequence, the transcripts mapped to genomic, determine the position of the transcription shear condition, more genetic information, has been widely used in biological research, medical research, clinical research and drug development. This paper compared several methods of platform transcriptome studies and several kinds of RNA-Seq in recent years, RNA-Seq focuses on the principle, purpose, steps and bioinformatics analysis, and discusses the RNA-Seq technology challenges and future development prospect and the application in related field and other content, provide the reference for the research and application of the technology future. Key word:RNA-Seq ;application; principle; method; challenge; development prospects

高通量测序RNA-seq数据的常规分析

案例一 虽然RNA-seq早已被大家所熟知,特别是在高通量测序越来越便宜的今天,但是RNA-seq数据的分析仍令多数小菜抓狂。多个软件的使用,参数设置,参考基因组准备,输出结果的解读等等,都让很多初次接触测序数据或者非生物信息专业的人头疼不已。 哈哈,不用怕,有云生信,这都不是事儿!今天我就向大家简单介绍一下如何用云生信做RNA-seq数据的常规分析。不过在此之前,我要稍稍啰嗦一下RNA-seq的常规分析流程,请不要拍砖头。图1是RNA-seq数据从产生到分析的常规分析流程:根据实验设计,提取细胞RNA,并将RNA提交给测序公司,就可以坐等测序数据了。测序公司会根据客户提供的RNA进行建库,上机测序。拿到测序数据后,就到了我们大显身手的时候了。首先,我们要对测序结果做个简单的质量评估,剔除低质量的数据。然后,根据基因组数据(这里我们讲的是基因组数据已知的物种,基因组未知的有套独立的流程,这里不讲),将测序数据组装。根据组装结果,计算基因或转录本的表达量。最后,同芯片数据一样,我们可以根据表达量数据做很多分析,如差异表达分析,网络分析(包括蛋白互作网络,共表达网络等),也可以结合临床数据做分析(如预后,亚型分类、关联,药效等)。 图1. RNA-seq常规分析流程

叨叨完毕,进入正题。 进入尔云后,打开“测序数据处理”模块,我们会看到图2的结果。在这一模块,我们可以完成RNA-seq数据分析的前两步:1、数据质控和过滤低质量数据;2、基因组组装,计算基因表达量。对于上面两部,尔云又根据是双端测序还是单端测序,分了两块。以edgeR 为例,输出的DEGs.txt就是根据我们设定的参数得到的差异表达基因的列表,有geneSymbol, logCPM, PVlue信息。 图2. 测序数据处理模块 质控结束后,尔云会给出全部的质控结果。图3是以demo数据为例的双端测序的质控结果,好多好多呀,可以下了慢慢看。建议主要关注一下xxx_qc_TABLE,该表格是对质控前后的数据统计,反应了测序的好坏。Clean_xxx.fq是质控后的干净的fastq数据,是第2步组装的输入文件。 图3.质控结果 组装完成后,会返回一个expression.txt的表达矩阵文件,该文件是下一步差异表达分析的输入分析。 得到表达矩阵后,我们就可以进入到第3步差异表达数据分析。进入尔云的“差异分析”模块(如下图所示),它针对芯片和测序两种检测技术提供了不同的分析方案。对于RNA-seq

基因测序技术的优缺点及应用

基因测序技术的优缺点及应用 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序 (next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的 DNA 片段存在于反应体系中,具有单个碱基差别的 DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用 Sanger 直接测序 FGFR 2 基因证实单基因 Apert 综合征和直接测序 TCOF1 基因可以检出多达 90% 的

高通量测序的生物信息学分析

附件三生物信息学分析 一、基础生物信息学分析 1.有效测序序列结果统计 有效测序序列:所有含样品barcode(标签序列)的测序序列。 统计该部分序列的长度分布情况。 注:合同中约定测序序列条数以有效测序序列为准。 图形示例为: 2.优质序列统计 优质序列:有效测序序列中含有特异性扩增引物、不含模糊碱基、长度大于可供分析标准的序列。 统计该部分序列的长度分布情况。 图形示例为:

3.各样本序列数目统计: 统计各个样本所含有效测序序列和优质序列数目。 结果示例为: 4.OTU生成: 根据序列的相似性,将序列归为多个OTU(操作分类单元),以便后续分析。 5.稀释曲线(rarefaction 分析) 根据第4条中获得的OTU数据,做出每个样品的Rarefaction曲线。本合同默认生成OTU相似水平为0.03的rarefaction曲线。 rarefaction曲线结果示例:

6.指数分析 计算各个样品的相关分析指数,包括: ?丰度指数:ace\chao ?多样性指数:shannon\simpson ?本合同默认生成OTU相似水平为0.03的上述指数值。 多样性指数分析结果示例: 注:默认分析以上所列指数,如有特殊需要请说明。 7.Shannon-Wiener曲线 利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物信息。绘制默认水平为:0.03。 例图:

8.Rank_Abuance 曲线 根据各样品的OTU丰度大小排序作丰度分布曲线图。结果文件默认为PDF格式(其它格式请注明)。 例图: 9.Specaccum物种累积曲线(大于10个样品) 物种累积曲线( species accumulation curves) 用于描述随着抽样量的加大物种增加的状况,是理解调查样地物种组成和预测物种丰富度的有效工具,在生物多样性和群落调查中,被广泛用于抽样量充分性的判断以及物种丰富度( species richness) 的估计。因此,通过物种累积曲线不仅可以判断抽样量是否充分,在抽样量充分的前提下,运用物种累积曲线还可以对物种丰富度进行预测。

三代测序原理技术比较

导读从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序 技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1:测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA 合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为 sanger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

高通量测序及分析

高通量测序与功能分析 微生物群落测序是指对微生物群体进行高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。对微生物群落进行测序包括两类,一类是通过16s rDNA,18s rDNA,ITS区域进行扩增测序分析微生物的群体构成和多样性;还有一类是宏基因组测序,是不经过分离培养微生物,而对所有微生物DNA进行测序,从而分析微生物群落构成,基因构成,挖掘有应用价值的基因资源。 以16s rDNA扩增进行测序分析主要用于微生物群落多样性和构成的分析,目前的生物信息学分析也可以基于16s rDNA的测序对微生物群落的基因构成和代谢途径进行预测分析,大大拓展了我们对于环境微生物的微生态认知。 目前我们根据16s的测序数据可以将微生物群落分类到种(species)(一般只能对部分菌进行种的鉴定),甚至对亚种级别进行分析, 几个概念: 16S rDNA(或16S rRNA):16S rRNA基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,而可变区序列则能体现物种间的差异。16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。 OTU:operational taxonomic units (OTUs)在微生物的免培养分析中经常用到,通过提取样品的总基因组DNA,利用16S rRNA或ITS的通用引物进行PCR 扩增,通过测序以后就可以分析样品中的微生物多样性,那怎么区分这些不同的序列呢,这个时候就需要引入operational taxonomic units,一般情况下,如

测序技术的发展历程

测序技术的发展历程 随着1953年沃森和克里克发现了DNA的双螺旋结构,到2001年,首个人类基因组图谱的绘制完成,人们越来越多的认识到测序在生物医学中的重要作用。 测序技术的发展历史 Sanger测序技术 1975年由桑格和考尔森开创的链终止法测序技术标志着人类第一代DNA测序技术的诞生。1977年,人类历史上第一个基因组序列噬菌体X174由桑格团队测序完成。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。 SangerJ.D. Waston、F.Crick

虽然第一代测序技术的测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。从那时起人们开始了二代测序技术的探索。 第二代测序技术 第二代测序技术的核心思想是边合成边测序(Sequencing by Synthesis),在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。 现有的技术平台主要包括Roche/454 FLX(已宣布停产)、Illumina Hiseq Miseq等系列和Applied Biosystems SOLID system。 Roche/454 FLX Illumina Hiseq 2500 AB SOLID 第三代测序技术 第二代测序技术虽然较Sanger测序有了巨大的突破,但是其测序的理论基础仍然建立在PCR扩增的基础之上。为了有效的避免测序过程中由于PCR扩增带来的偏差,科学家们积极投身到第三代单分子测序仪研究当中。目前最具代表性的包括Heliscope单分子实时合成测序法,纳米孔测序技术等。

高通量测序:第二代测序技术详细介绍

在过去几年里,新一代DNA 测序技术平台在那些大型测序实验室中迅猛发展,各种新技术犹如雨后春笋般涌现。之所以将它们称之为新一代测序技术(next-generation sequencing),是相对于传统Sanger 测序而言的。Sanger 测序法一直以来因可靠、准确,可以产生长的读长而被广泛应用,但是它的致命缺陷是相当慢。十三年,一个人类基因组,这显然不是理想的速度,我们需要更高通量的测序平台。此时,新一代测序技术应运而生,它们利用大量并行处理的能力读取多个短DNA 片段,然后拼接成一幅完整的图画。 Sanger 测序大家都比较了解,是先将基因组DNA 片断化,然后克隆到质粒载体上,再转化大肠杆菌。对于每个测序反应,挑出单克隆,并纯化质粒DNA。每个循环测序反应产生以ddNTP 终止的,荧光标记的产物梯度,在测序仪的96或384 毛细管中进行高分辨率的电泳分离。当不同分子量的荧光标记片断通过检测器时,四通道发射光谱就构成了测序轨迹。 在新一代测序技术中,片断化的基因组DNA 两侧连上接头,随后运用不同的步骤来产生几百万个空间固定的PCR 克隆阵列(polony)。每个克隆由单个文库片段的多个拷贝组成。之后进行引物杂交和酶延伸反应。由于所有的克隆都是系在同一平面上,这些反应就能够大规模平行进行。同样地,每个延伸所掺入的荧光标记的成像检测也能同时进行,来获取测序数据。酶拷问和成像的持续反复构成了相邻的测序阅读片段。

Solexa高通量测序原理

--采用大规模并行合成测序法(SBS,Sequencing-By-Synthesis)和可逆性末端终结技术(ReversibleTerminatorChemistry) --可减少因二级结构造成的一段区域的缺失。 --具有高精确度、高通量、高灵敏度和低成本等突出优势 --可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究 ----将接头连接到片段上,经PCR扩增后制成Library。 ----随后在含有接头(单链引物)的芯片(flowcell)上将已加入接头的DNA片段变成单链后通过与单链引物互补配对绑定在芯片上,另一端和附近的另外一个引物互补也被固定,形成“桥” ----经30伦扩增反应,形成单克隆DNA簇 ----边合成边测序(Sequencing By Synthesis)的原理,加入改造过的DNA 聚合酶和带有4 种荧光标记的dNTP。这些dNTP是“可逆终止子”,其3’羟 基末端带有可化学切割的基团,使得每个循环只能掺入单个碱基。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3'端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA 片段的序列。目前的配对末端读长可达到2×50 bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。 Roche 454 测序技术 “一个片段= 一个磁珠= 一条读长(One fragment =One bead = One read)”1)样品输入并片段化:GS FLX 系统支持各种不同来源的样品,包括基因组DNA、PCR 产物、BAC、cDNA、小分子RNA 等等。大的样品例如基因组DNA 或者BAC 等被打断成300-800 bp 的片段;对于小分子的非编码RNA 或者PCR 扩增产物,这一步则不需要。短的PCR 产物则可以直接跳到步骤3)。 2)文库制备:借助一系列标准的分子生物学技术,将A 和B 接头(3’和5’端具有特异性)连接到DNA 片段上。接头也将用于后续的纯化,扩增和测序步

高通量测序中常用的生物信息分析名词解释

高通量测序中常用的生物信息分析名词解释 1. 什么是Read? 高通量测序平台产生的序列就称为reads。 (测序读到的碱基序列片段,测序的最小单位;) 2. 什么是Contig? 拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。 (由reads通过对overlap区域拼接组装成的没有gap的序列段;) 3. 什么是Scaffold? 基因组de novo测序(没有参考基因组的测序,需要研究人员从头拼接得到的序列),通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig 之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。 (通过pair ends信息确定出的contig排列,中间有gap) 4. 什么是Contig N50? Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。

高通量测序领域常用名词解释大全

高通量测序领域常用名词解释大全 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行 细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大

基因芯片与高通量测序

基因芯片: 将大量(通常每平方厘米点阵密度高于400 )探针分子固定于支持物上后与标记的样品分子进行杂交,通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列信息。通俗地说,就是通过微加工技术,将数以万计、乃至百万计的特定序列的DNA 片段(基因探针),有规律地排列固定于2cm2 的硅片、玻片等支持物上,构成的一个二维DNA探针阵列,与计算机的电子芯片十分相似,所以被称为基因芯片。当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列。据此可重组出靶核酸的序列。基因探针是人工合成的碱基序列。,所谓基因探针只是一段人工合成的碱基序列,在探针上连接一些可检测的物质,根据碱基互补的原理,利用基因探针到基因混合物中识别特定基因。它将大量探针分子固定于支持物上,然后与标记的样品进行杂交,通过检测杂交信号的强度及分布来进行分析。基因芯片通过应用平面微细加工技术和超分子自组装技术,把大量分子检测单元集成在一个微小的固体基片表面,可同时对大量的核酸和蛋白质等生物分子实现高效、快速、低成本的检测和分析 基因芯片制作 、芯片制备 目前制备芯片主要以玻璃片或硅片为载体,采用原位合成和微矩阵的方法将寡核苷酸片段或cDNA作为探针按顺序排列在载体上。芯片的制备除了用到微加工工艺外,还需要使用机器人技术。以便能快速、准确地将探针放置到芯片上的指定位置。 2、样品制备 生物样品往往是复杂的生物分子混合体,除少数特殊样品外,一般不能直接与芯片反应,有时样品的量很小。所以,必须将样品进行提取、扩增,获取其中的蛋白质或DNA、RNA,然后用荧光标记,以提高检测的灵敏度和使用者的安全性。 3、杂交反应 杂交反应是荧光标记的样品与芯片上的探针进行的反应产生一系列信息的过程。选择合适的反应条件能使生物分子间反应处于最佳状况中,减少生物分子之间的错配率。 4、信号检测和结果分析 杂交反应后的芯片上各个反应点的荧光位置、荧光强弱经过芯片扫描仪和相关软件可以分析图像,将荧光转换成数据,即可以获得有关生物信息。基因芯片技术发展的最终目标是将从样品制备、杂交反应到信号检测的整个分析过程集成化以获得微型全分析系统(micro total analytical system)或称缩微芯片实验室(laboratory on a chip)。使用缩微芯片实验室,就可以在一个封闭的系统内以很短的时间完成从原始样品到获取所需分析结果的全套操作。

高通量测序(NGS)数据分析中的质控

高通量测序错误总结 一、生信分析部分 1)Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%,错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%,错误率为1%。对于整个数据来说,我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y-轴将坐标图分为3个区:最上面的绿色是碱基质量很好的区,Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区,Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中,比如以检查差异表达为目的的RNA-seq分析,一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30以上。 一般来说,测序质量分数的分布有两个特点: 1.测序质量分数会随着测序循环的进行而降低。 2.有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。

在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要做剪切(trimming),根据生信分析的目的不同,要将质量低于Q20或者低于Q30的碱基剪切掉。

2)序列的平均质量 这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值,纵坐标代表序列数量。通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说,当绝大部分碱基序列的平均质量值的峰值大于30,可以判断序列质量较好。如这里左边的图,我们可以判断样品里没有显著数量的低质量序列。但如果曲线如右边的图所示,在质量较低的坐标位置出现另外一个或者多个峰,说明测序数据中有一部分序列质量较差,需要过滤掉。

高通量测序技术及原理介绍

高通量测序技术及原理介绍 高通量测序技术(High-throughput sequencing)又称“下一代”测序技术(“Next-generation”sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。 高通量测序技术应用测序技术推进科学研究的发展。随着第二代测序技术的迅猛发展,科学界也开始越来越多地应用第二代测序技术来解决生物学问题。比如在基因组水平上对还没有参考序列的物种进行从头测序(de novo sequencing),获得该物种的参考序列,为后续研究和分子育种奠定基础;对有参考序列的物种,进行全基因组重测序(resequencing),在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。在转录组水平上进行全转录组测序(whole transcriptome resequencing),从而开展可变剪接、编码序列单核苷酸多态性(cSNP)等研究;或者进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,与染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。 这边需要特别指出的是第二代测序结合微阵列技术而衍生出来的应用--目标序列捕获测序技术(Targeted Resequencing)。这项技术首先利用微阵列技术合成大量寡核苷酸探针,这些寡核苷酸探针能够与基因组上的特定区域互补结合,从而富集到特定区段,然后用第二代测序技术对这些区段进行测序。目前提供序列捕获的厂家有Agilent和Nimblegen ,应用最多的是人全外显子组捕获测序。科学家们目前认为外显子组测序比全基因组重测序更有优势,不仅仅是费用较低,更是因为外显子组测序的数据分析计算量较小,与生物学表型结合更为直接。 目前,高通量测序开始广泛应用于寻找疾病的候选基因上。内梅亨大学的研究人员使用这种方法鉴定出Schinzel-Giedion 综合征中的致病突变,Schinzel-Giedion综合征是一种导致严重的智力缺陷、肿瘤高发以及多种先天性畸形的罕见病。他们使用Agilent SureSelect序列捕获和SOLiD对四位患者的外显子组进行测序,平均覆盖度为43倍,读长为50 nt,每

相关文档
最新文档