1.DNA测序原理进展

DNA测序原理和方法 DNA序列测定分手工测序和自动测序，手工测序包括Sanger双脱氧链终止法和Maxam-Gilbert化学降解法。自动化测序实际上已成为当今DNA序列分析的主流。美国PE ABI公司已生产出373型、377型、310型、3700和3100型等DNA测序仪，其中310型是临床检测实验室中使用最多的一种型号。本实验介绍的是ABI PRISM 310型DNA测序仪的测序原理和操作规程。【原理】ABI PRISM 310型基因分析仪(即DNA测序仪)，采用毛细管电泳技术取代传统的聚丙烯酰胺平板电泳，应用该公司专利的四色荧光染料标记的ddNTP(标记终止物法)，因此通过单引物PCR测序反应，生成的PCR产物则是相差1个碱基的3''''末端为4种不同荧光染料的单链DNA混合物，使得四种荧光染料的测序PCR产物可在一根毛细管内电泳，从而避免了泳道间迁移率差异的影响，大大提高了测序的精确度。由于分子大小不同，在毛细管电泳中的迁移率也不同，当其通过毛细管读数窗口段时，激光检测器窗口中的CCD(charge-coupled device)摄影机检测器就可对荧光分子逐个进行检测，激发的荧光经光栅分光，以区分代表不同碱基信息的不同颜色的荧光，并在CCD摄影机上同步成像，分析软件可自动将不同荧光转变为DNA序列，从而达到DNA测序的目的。分析结果能以凝胶电泳图谱、荧光吸收峰图或碱基排列顺序等多种形式输出。它是一台能自动灌胶、自动进样、自动数据收集分析等全自动电脑控制的测定DNA片段的碱基顺序或大小和定量的高档精密仪器。PE公司还提供凝胶高分子聚合物，包括DNA测序胶(POP 6)和GeneScan胶(POP 4)。这些凝胶颗粒孔径均一，避免了配胶条件不一致对测序精度的影响。它主要由毛细管电泳装置、Macintosh电脑、彩色打印机和电泳等附件组成。电脑中则包括资料收集，分析和仪器运行等软件。它使用最新的CCD摄影机检测器，使DNA 测序缩短至2.5h，PCR片段大小分析和定量分析为10～40min。由于该仪器具有DNA测序，PCR片段大小分析和定量分析等功能，因此可进行DNA测序、杂合子分析、单链构象多态性分析(SSCP)、微卫星序列分析、长片段PCR、RT-PCR(定量PCR)等分析，临床上可除进行常规DNA测序外，还可进行单核苷酸多态性(SNP)分析、基因突变检测、HLA配型、法医学上的亲子和个体鉴定、微生物与病毒的分型与鉴定等。【试剂与器材】 1．BigDye测序反应试剂盒主要试剂是BigDye Mix，内含PE专利四色荧光标记的ddNTP 和普通dNTP，AmpliTaq DNA polymerase FS，反应缓冲液等。 2．pGEM-3Zf (+) 双链DNA对照模板0.2g/L，试剂盒配套试剂。 3．M13(-21)引物TGTAAAACGACGGCCAGT，3.2μmol/L，即3.2pmol/μl，试剂盒配套试剂。 4．DNA测序模板可以是PCR产物、单链DNA和质粒DNA等。模板浓度应调整在PCR 反应时取量1μl为宜。本实验测定的质粒DNA，浓度为0.2g/L，即200ng/μl。 5．引物需根据所要测定的DNA片段设计正向或反向引物，配制成3.2μmol/L，即3.2pmol/μl。如重组质粒中含通用引物序列也可用通用引物，如M13(-21)引物，T7引物等。 6．灭菌去离子水或三蒸水。 7．0.2ml或和0.5ml的PCR管盖体分离，PE公司产品。 8．3mol/L 醋酸钠(pH5.2) 称取40.8g NaAc·3H2O溶于70ml蒸馏水中，冰醋酸调pH至5.2，定容至100ml，高压灭菌后分装。 9．70%乙醇和无水乙醇。 10．NaAc/乙醇混合液取37.5ml无水乙醇和2.5ml 3mol/L NaAc混匀，室温可保存1年。11．POP 6测序胶ABI产品。

基因组重测序背景介绍全基因组重测序，是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。与已知序列比对，寻找单核苷酸多态性位点（SNP ）、插入缺失位点（InDel ，Insertion/Deletion ）、结构变异位点（SV ，Structure Variation ）位点及拷贝数变化(CNV) 。可以寻找到大量基因差异，实现遗传进化分析及重要性状候选基因的预测。涉及临床医药研究、群体遗传学研究、关联分析、进化分析等众多应用领域。随着测序成本的大幅度降低以及测序效率的数量级提升，全基因组重测序已经成为研究人类疾病及动植物分子育种最为快速有效的方法之一。利用illumina Hiseq 2000 平台，将不同插入片段文库和双末端测序相结合，可以高效地挖掘基因序列差异和结构变异等信息，为客户进行疾病研究、分子育种等提供准确依据。重测序的两个条件：（1）该物种基因组序列已知；（2）所测序群体之间遗传性差异不大（ >99% 相似度）在已经完成的全基因组测序及其基因功能注释的基础上，采用全基因组鸟枪法（WGS ）对DNA 插入片段进行双末端测序。技术路线生物信息学分析

送样要求 1.样品总量：每次样品制备需要大于5ug 的样品。为保证实验质量及延续性，请一次性提供至少20ug的样品。如需多次制备样品，按照制备次数计算样品总量。 2.样品纯度：OD值260/280应在1.8～2.0 之间；无蛋白质、RNA或肉眼可见杂质污染。 3.样品浓度：不低于50 ng/μL。 4.样品质量：基因组完整、无降解，电泳结果基因组DNA主带应在λ‐Hind III digest 最大条带23 Kb以上且主带清晰，无弥散。 5.样品保存：限选择干粉、酒精、TE buffer或超纯水一种，请在样品信息单中注明。 6.样品运输：样品请置于1.5 ml管中，做好标记，使用封口膜封好；基因组DNA如果用乙醇沉淀，可以常温运输；否则建议使用干冰或冰袋运输，并选择较快的运输方式。提供结果根据客户需求，提供不同深度的信息分析结果。

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变，结构变异-SNV，包括重排突变（deletioin, duplication 以及copy number variation）以及SNP的座位；针对重排突变和SNP的功能性进行综合分析；我们将分析基因功能（包括miRNA），重组率（Recombination）情况，杂合性缺失（LOH）以及进化选择与mutation之间的关系；以及这些关系将怎样使得在disease（cancer）genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学，群体遗传学综合层面上深入探索疾病基因组和癌症基因组。实验设计与样本（1）Case-Control 对照组设计；（2）家庭成员组设计：父母-子女组（4人、3人组或多人）；初级数据分析 1．数据量产出：总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计，测序深度分析。 2．一致性序列组装：与参考基因组序列（Reference genome sequence）的比对分析，利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，并组装出该个体基因组的一致序列。3．SNP检测及在基因组中的分布：提取全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4．InDel检测及在基因组的分布: 在进行mapping的过程中，进行容gap的比对并检测可信的short InDel。在检测过程中，gap的长度为1~5个碱基。对于每个InDel的检测，至少需要3个Paired-End序列的支持。 5．Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。

高通量基因组测序中，什么是测序深度和覆盖度？ 1G=1024M 测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。(测序深度=总数据量20M/基因组大小2M=10X) 覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。 1、全基因组重测序是对已知基因组序列的物种进行不同个体的基因序的个体，通过序列比对，可以找到大量的单核苷酸多态性位点(SNP)，插入缺失位点(InDel，Insertion/Deletion)、结构变异位点(SV，技术路线提取基因组DNA，利用Covaris进行随机打断，电泳回收所需长度的DNA片段(0.2~5Kb)，加上接头, 进行cluster制备(Solexa)或E-PCR (SOLiD)，最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序。图1-1，以SOLiD为例，说明整个实验方案。

也称目标外显子组捕获，是指利用序列捕获技术将全基因组外显子区域DNA 捕捉并富集后进行高通量测序的基因组分析方法。是一种选择基因组的编码序列的高效策略，外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel 等具有较大的优势。外显子(expressed region)是真核生物基因的一部分，它在剪接(Splicing)后仍会被保存下来，并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列，又称表达序列。既存在于最初的转录产物中，也存在于成熟的RNA分子中的核苷酸序列。在人类基因中大约有180,000外显子，占人类基因组的1%，约30MB。

DNA样品总量: ≥3 μg 适用范围样品要求文库类型测序策略与深度分析内容项目周期群体进化（基于全基因组重测序）标准分析时间为120天，个性化分析需根据项目实际情况进行评估 HiSeq PE150推荐测序深度≥5X/个体350 bp小片段DNA文库 1. 已有参考基因组序列的物种中不同亚群（自然群体） 2. 各亚群间划分明显，同一亚群内的个体有一定代表性 3. 每个亚群选取10个样本左右（推荐动物≥10个，植物≥15个） 4. 总体不少于30个样本与参考基因组比对群体SNP检测、注释及统计系统进化树构建群体遗传结构分析群体主成分分析连锁不平衡分析选择消除分析候选基因GO和KEGG富集构建单体型图谱种群历史和有效群体大小技术参数针对已有参考基因组的物种，对其各亚种进行全基因组重测序获得基因组信息，通过与参考基因组比对，得到大量高准确性的SNP、InDel、SV等变异信息，讨论群体的遗传结构、遗传平衡和影响遗传平衡的因素，从而从分子层面揭示该物种的进化机制、环境适应性等系列问题。该技术能精准地得到全基因组内所有遗传信息，最大程度地挖掘出群体内遗传变异。诺禾具有丰富的群体遗传学项目经验，研究成果发表于Nature Genetics（Li, M, et al. 2013& Zhou, XM, et al. 2014）等。参考文献 [1] Li M, Tian S, Jin L, et al . Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars [J]. Nature genetics, 2013, 45(12): 1431-1438. [2] Zhan S, Zhang W, Niitepo ～ld K, et al . The genetics of monarch butterfly migration and warning colouration [J]. Nature, 2014.案例解析［案例一］家猪和藏猪的群体进化分析[1] 2013年，诺禾致源科技服务团队与四川农业大学研究者合作发表该成果。本研究对6个代表性藏猪群体、5个四川盆地特有猪种，共48个样本进行全基因组重测序，并结合55个欧亚野猪及家猪的基因组数据进行群体遗传学分析。在藏猪中鉴定出低氧适应、能量代谢等共268个适应高原环境的快速进化基因，揭示了藏猪高原适应性的遗传机制。与自然选择相比，人工选择可更有效地塑造驯养动物基因组；欧亚猪种存在明显的遗传背景差异，欧亚地理隔离造成的遗传结构差异甚至超过了野生和驯化的差异。［案例二］帝王蝶长距离迁飞遗传机制被解密[2] 北美地区的帝王蝶具有迁飞习性，而分布于热带地区的帝王蝶及其近缘种不具有迁飞特性。该研究从涵盖当今世界上主要的帝王蝶分布区域中，选取了包括迁飞型和非迁飞型的22个地理种群、 5个近缘种的101只班蝶属蝴蝶进行了全基因组重测序和群体遗传学分析。结果表明，现存的帝王蝶起源于北美地区，且祖先属于迁飞型，打破了先前认为包括鸟类等在内的迁飞物种均是热带起源的普遍认知。其次，利用群体遗传学分析对全基因组进行精细扫描发现，与飞行相关的肌肉发育进化是帝王蝶实现长距离迁飞的主要适应性选择。图1 藏猪及其它猪种的群体遗传结构图2 帝王蝶样本分布及系统进化树

导读从1977年第一代DNA测序技术（Sanger法）1，发展至今三十多年时间，测序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从长到短，再从短到长。摘要：从1977年第一代DNA测序技术（Sanger法）1，发展至今三十多年时间，测序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从长到短，再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置，但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革，也都对基因组研究，疾病医疗研究，药物研发，育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。图1：测序技术的发展历程生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上（图1）所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来，整个测序技术的发展历程。第一代测序技术第一代DNA测序技术用的是1975年由桑格（Sanger）和考尔森（Coulson）开创的链终止法或者是1976-1977年由马克西姆（Maxam）和吉尔伯特（Gilbert）发明的化学法（链降解）. 并在1977年，桑格测定了第一个基因组序列，是噬菌体X174的，全长5375个碱基1。自此，人类获得了窥探生命遗传差异本质的能力，并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年，完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础，Sanger法核心原理是：由于ddNTP的2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA 合成反应，在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP（分为：ddATP,ddCTP,ddGTP和ddTTP），通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列（图2）。这个网址为 sanger测序法制作了一个小短片，形象而生动。值得注意的是，就在测序技术起步发展的这一时期中，除了Sanger法之外还出现了一些其他的测序技术，如焦磷酸测序法、链接酶法等。其中，焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4，而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4，但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

Pyrosequencing技术的原理 Pyrosequencing是一项全新的DNA测序技术，可以快速、准确地测定一段较短的目标片段。其基本原理如下：第1步：1个特异性的测序引物和单链DNA模板结合，然后加入酶混合物（包括DNA Polymerase、ATP Sulfurylase、Luciferase和Apyrase）和底物混合物（包括APS和Luciferin）。第2步：向反应体系中加入1种dNTP,如果它刚好能和DNA模板的下一个碱基配对，则会在DNA 聚合酶的作用下，添加到测序引物的3‘末端，同时释放出一个分子的焦磷酸（PPi）。第2步图示(图片来自互联网) 第3步：在ATP硫酸化酶的作用下，生成的PPi可以和APS结合形成ATP;在荧光素酶的催化下，生成的ATP又可以和荧光素结合形成氧化荧光素，同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰，峰值的高低则和相匹配的碱基数成正比。第3步图示(图片来自互联网) 第4步：反应体系中剩余的dNTP和残留的少量ATP在Apyrase的作用下发生降解。第4步图示(图片来自互联网) 第5步：加入另一种dNTP,使第2-4步反应重复进行，根据获得的峰值图即可读取准确的DNA序列信息。

第4步图示(图片来自互联网) Pyrosequecing技术操作简单，结果准确可靠，可应用于SNP位点检测、等位基因频率测定、细菌和病毒分型等领域。 →如果您认为本词条还有待完善，请编辑词条上一篇SNP（单核苷酸多态性）下一篇阅读质粒图谱具体事例【摘要】建立了一种将序列标记反转录聚合酶链反应(PCR)与焦磷酸测序技术结合的相对基因表达量测定法(简称“SRPP”)。先用来源特异性引物对不同来源的同一基因通过反转录标记上特异性标签，PCR后用焦磷酸测序法对扩增产物进行序列解码，使得测序结果中的序列代表基因的来源，峰高代表基因在不同来源中的相对表达量。用实时荧光定量PCR法对本方法的准确性进行了验证，结果表明，SRPP可以同时准确测定同一基因在3个不同来源中的表达量，并实际测定了Egr1基因在糖尿病、肥胖和正常小鼠肝中的表达量差异。【关键词】序列标记反转录, 聚合物链反应，焦磷酸测序，基因表达 1 引言差异表达基因与疾病密切相关，深入研究可在基因水平揭示疾病的发病机制。目前，用于检测基因表达水平的技术主要有SAGE法[1]、实时荧光定量PCR法[2,3]和基因芯片法[4]等。但这些方法存在仪器设备昂贵、定量性能差以及同时测定基因表达量的来源数目受限等缺点。焦磷酸测序技术是新近发展起来的一种基于酶催化化学反应的测序技术[5～8]，不需要使用荧光标记，定量性能好。目前，焦磷酸测序技术多用于单核苷酸多态性(SNP)分析、微生物分型和基因甲基化分析等。本研究将焦磷酸测序技术用于基因表达量差异的比较分析，考察了其可行性和准确性，并将其应用于检测Egr1基因在糖尿病、肥胖症和正常小鼠中的差异表达。 2 实验部分仪器、试剂与材料

新一代高通量测序技术SOLiD简介目前市场上有四种高通量测序仪，分别是Solexa，454 (GS-FLX)，SOLiD和Polonator。根据测序原理，它们可以被分为两大类：使用合成法测序(Sequencing by Synthesis)的Solexa和454，及使用连接法测序(Sequencing by Ligation)的Polonator和SOLiD。这些高通量测序仪的共同点是不需要大肠杆菌系统进行DNA模板扩增，且测序所得序列较短：其中的454序列最长，为200～300个碱基，其余三种序列都只有几十个碱基。测序原理及序列长度的差异决定了各种高通量测序仪具有不同的应用领域。这就要求我们在熟悉各种高通量测序仪内在技术特点的基础上进行选择。基因组所引进的SOLiD (Sequencing by Oligonucleotide Ligation and Detection)是ABI（Applied Biosystems）公司生产的高通量测序仪。目前这台SOLiD运行稳定，SOLiD实验及数据分析小组也可以为大家提供专业的技术服务。所以接下来的关键是如何把SOLiD测序仪应用到符合其技术特点的科研项目中。本短文将简单介绍SOLiD测序流程，双碱基编码原理及数据分析原理，以帮助大家了解SOLiD测序仪的技术特点和应用范围。 1.SOLiD关键技术及其原理 SOLiD使用连接法测序获得基于“双碱基编码原理”的SOLiD颜色编码序列，随后的数据分析比较原始颜色序列与转换成颜色编码的reference序列，把SOLiD颜色序列定位到reference上，同时校正测序错误，并可结合原始颜色序列的质量信息发现潜在SNP位点。 1.1. SOLiD文库构建使用SOLiD测序时，可根据实际需要，制备片段文库(fragment library)或末端配对文库(mate-paired library)。简单地说，制备片段文库就是在短DNA片段（60～110 bp）两端加上SOLiD 接头（P1、P2 adapter）。而制备末端配对文库，先通过DNA环化、Ecop15I酶切等步骤截取长DNA片段（600bp到10kb）两末端各25 bp进行连接，然后在该连接产物两端加上SOLiD接头。两种文库的最终产物都是两端分别带有P1、P2 adapter的DNA双链，插入片段及测序接头总长为120～180 bp。 1.2:油包水PCR 我们知道，文库制备得到大量末端带P1、P2 adapter但内部插入序列不同的DNA双链模板。和普通PCR一样，油包水PCR也是在水溶液进行反应，该水相含PCR所需试剂，DNA模板及可分别与P1、P2 adapter结合的P1、P2 PCR引物。但与普通PCR不同的是，P1引物固定在P1磁珠球形表面(SOLiD将这种表面固定着大量P1引物的磁珠称为P1磁珠)。PCR反应过程中磁珠表面的P1引物可以和变性模板的P1 adapter负链结合，引导模板合成，这样一来，P1引物引导合成的DNA链也就被固定到P1磁珠表面了。油包水PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”，基本过程是在PCR反应前，将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面，水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR 反应空间。理想状态下，每个小水滴只含一个DNA模板和一个P1磁珠，由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应，这个DNA模板的拷贝数量呈指数级增加，PCR反应结束后，P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。A BI公司提供的SOLiD 实验手册已经把小水滴体积及水相中DNA模板和磁珠的个数比等重要参数进行了技术优化和流程固定，尽可能提高“优质小水滴”(水滴中只含一个DNA模板一个P1磁珠)的数量，为后续SOLiD 测序提供只含有一种DNA模板扩增产物的高质量P1磁珠。

三代基因组测序技术原理简介【写在前面的话】：首先，这一篇博文中的内容并非原创，而是对多篇文献中内容的直接摘录，有些图片和资料还来自身边的同事（在此深表谢意！），再夹杂自己的零星想法，写在这里分享与大家，同时也是为了方便自己日后若有需要能够方便获得，文章比较长。摘要：从1977年第一代DNA测序技术（Sanger法）1，发展至今三十多年时间，测序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从长到短，再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置，但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革，也都对基因组研究，疾病医疗研究，药物研发，育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。图1：测序技术的发展历程生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上（图1）所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来，整个测序技术的发展历程。第一代测序技术第一代DNA测序技术用的是1975年由桑格（Sanger）和考尔森（Coulson）开创的链终止法或者是1976-1977年由马克西姆（Maxam）和吉尔伯特（Gilbert）发明的化学法（链降解）. 并在1977年，桑格测定了第一个基因组序列，是噬菌体X174的，全长5375个碱基1。自此，人类获得了窥探生命遗传差异本质的能力，并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年，完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础，Sanger法核心原理是：由于ddNTP的2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA合成反应，在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP（分为：ddATP,ddCTP,ddGTP和ddTTP），通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列（图2）。这个网址为sanger测序法制作了一个小短片，形象而生动。

导从1977年第一代DNA测序技术（Sanger法）1,发展至今三十多年时间，测导序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从读长到短，再从短到长。摘要：从1977年第一代DNA测序技术（Sanger法）1，发展至今三十多年时间，测序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从长到短，再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置，但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革，也都对基因组研究，疾病医疗研究，药物研发，育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。图1 :测序技术的发展历程生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上（图1）所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来，整个测序技术的发展历程。第一代测序技术第一代DNA测序技术用的是1975年由桑格（Sanger）和考尔森（Coulson ）开创的链终止法或者是1976-1977年由马克西姆（Maxam和吉尔伯特（Gilbert ）发明的化学法（链降解）?并在1977年，桑格测定了第一个基因组序列，是噬菌体X174的，全长5375个碱基1。自此，人类获得了窥探生命遗传差异本质的能力，并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年，完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础，Sanger法核心原理是：由于ddNTP的2' 和3'都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA 合成反应，在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP分为：ddATP,ddCTP,ddGTP和ddTTP），通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列（图2）。这个网址为san ger测序法制作了一个小短片，形象而生动。值得注意的是，就在测序技术起步发展的这一时期中，除了San ger法之外还出现了一些其他的测序技术，如焦磷酸测序法、链接酶法等。其中，焦磷酸测序法是后来Roche公司454技术所使用的测序方法2 - 4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4，但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP 图2: Sanger法测序原理

基于全基因组重测序获得的具LRR结构域基因的抗黄瓜白粉病功能鉴定黄瓜白粉病是黄瓜(CucumissativusL.)生产上的三大主要病害之一,发病时不但降低植株的光合效能,同时影响植株产量和果实品质,发病严重时常常引起30%左右的减产。黄瓜抗白粉病新品种选育及应用是克服白粉病危害的根本技术途径。基于基因组测序技术和生物信息学的方法探究抗病基因已成为可能。本研究利用高通量Illumina测序技术,对实验室多年筛选获得的一个具有高抗白粉病且能稳定遗传的片段代换系SSL508-28和高感白粉病受体亲本D8进行了全基因组重测序,对比黄瓜9930参考基因组信息,在SSL508-28中发现了 468,616 个单核苷酸多态性位点(single nucleotide polymorphisms,SNPs)和 67,259小片段插入缺失位点(insertion/deletion,InDel),在D8 中获得了 537,352 个 SNPs 和 91,698个InDels。通过对比SSL508-28与D8基因组,共得到了 15,682个SNPs和6,262个InDels,这些SNPs和InDels趋向于集中分布在五号染色体上。基于以上结果,我们对获得的SNPs和InDels进行了功能注释,发现有120个SNPs为非同义(non-synonymous)突变,30个InDels为移码突变(frameshift mutation),这些非同义突变SNPs和移码突变InDels分布在94个基因当中。为了进一步验证94个突变基因对SSL508-28抗白粉病表型的贡献,我们对这94个基因进行了功能分类,其中有5个基因属于抗病(resistance,R)基因家族中NBS-LRR(Nucleotide binding site-leucine-rich repeats)类,利用 qRT-PCR 对这 5 个NBS-LRR基因在D8和SSL508-28中接种白粉菌前后的表达量进行检测,

全基因组重测序解决方案 ※ 概述全基因组重测序是对已有参考序列（Reference Sequence）的物种的不同个体进行基因组测序，并以此为基础进行个体或群体水平的差异性分析。通过全基因组重测序，研究者可以找到大量的单核苷酸多态性位点（SNP）、拷贝数变异（Copy Number Variation，CNV）、插入缺失（InDel，Insertion/Deletion）、结构变异（Structure Variation，SV）等变异位点。这在人类疾病及动植物育种研究等方面具有重大的指导意义。基于此，我们推出重测序的完整解决方案，协助您一起探索生物奥秘。 ※ 实验技术流程 ※ 生物信息分析策略

1、数据量产出分析总碱基数量、Totally mapped reads、Uniquely mapped reads统计，测序深度分析。 2、一致性序列组装与参考基因组序列（Reference genome sequence）的比对分析，利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，并组装出该个体基因组的一致序列。 3、SNV检测及在基因组中的分布提取全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNV数据集。并根据参考基因组序列对检测到的变异进行注释。 4、InDel检测及在基因组的分布在进行mapping的过程中，进行容Gap的比对并检测可信的Short InDel。在检测过程中，Gap的长度为 1~5个碱基。 5、Structure Variation检测及在基因组中的分布检测主要的结构变异类型有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。 ※ 参考文献 1、Erin D, et al., A small-cell lung cancer genome with complex signatures of tobacco exposure. Nature, 2010, 463:184-190. 2、Carl-Johan Rubin, et al. Whole-genome resequencing reveals loci under selection during chicken domestication. Nature, 2010, 464:587-597. 3、Qingyou Xia,et al. Complete resequencing of 40 genomes reveals domestication events and genes in silkworm (Bombyx). Science, 2009, 326:433-436.

首页科技服务测序指南基因课堂市场活动与进展文章成果关于我们全基因组选择1. Meuwissen T H, Hayes B J, Goddard M E.Prediction of total genetic value using genome-wide dense marker maps[J]. Genetics, 2001, 157(4): 1819 1829. 阅读原文>> 2. Haberland A M, Pimentel E C G, Ytournel F, et al. Interplay between heritability, genetic correlation and economic weighting in a selection index with and without genomic information[J]. Journal of Animal Breeding and Genetics, 2013, 130(6): 456-467. 阅读原文>> 3. Wu X, Lund M S, Sun D, et al. Impact of relationships between test and training animals and among training animals on reliability of genomic prediction[J]. Journal of Animal Breeding and Genetics, 2015, 132(5): 366-375. 阅读原文>> 4. Goddard M E ,Hayes BJ. Genomic selection [J]. Journal of Animal Breeding and Genetics,2007,124:323:330. 阅读原文>> 5. Heffner E L, Sorrells M E, Jannink J L. Genomic selection for crop improvement [J]. Crop Science, 2009, 49(1): 1-12. 阅读原文>> 参考文献全基因组选择简介 Meuwissen等[1]在2001年首次提出了基因组选择理论(Genomic selection , GS)，即利用具有表型和基因型的个体来预测只具有基因型不具有表型值动植物的基因组育种值(GEBV)。例如，提高奶牛的产奶量一直是奶牛研究者的研究重点，传统育种的方法需要牛生长至成年后，才能进行产奶量的测定，再进行后续的育种进程。如果在犊牛刚出生时就可以通过某种技术预测出其产奶量，就可以大大的减少育种时间，节省大量的育种成本。全基因组选择（GS）利用覆盖全基因组的高密度分子遗传标记进行标记辅助选择，可以在奶牛的幼年时期就预测出其生产性状和营养性状，快速筛选出具有优良性状的奶牛或者种公牛，加速育种的进程。全基因组选择技术参数提供领先的基因组学解决方案 Leading Edge Genomic Services & Solutions 动植物重测序变异检测BSA性状定位遗传图谱群体进化全基因组关联分析Hi-C测序人类基因组测序全基因组测序外显子测序目标区域测序单细胞基因组测序动植物基因组测序全基因组survey 全基因组 de novo 测序泛基因组测序组装变异检测微生物基因组测序16S/18S/ITS等扩增子测序细菌基因组 de novo 测序真菌基因组 de novo 测序微生物重测序宏基因组测序建库测序建库测序诺禾致源微信文章精彩阅读 >> 版权所有：北京诺禾致源科技股份有限公司转录调控测序真核有参转录组测序医学转录组测序真核无参转录组测序比较转录组与泛转录组测序原核转录组测序宏转录组测序单细胞转录组测序LncRNA测序circRNA测序small RNA测序ChiP-seq RIP-seq 全基因组甲基化测序 GS 重测序新产品发布群体大小参考群体的选择十分重要，表型信息及固定效应信息记录需要准确完整。此外，选择出的参考群体要满足内部亲缘关系比较远，数量达到1000个以上[2]。候选群体最好与参考群体的亲缘关系较近，这样可以保证育种值预测的准确性[3]。测序策略测序深度：平均每个样本≥10×；测序平台：Illumina HiSeq PE150测序；全基因组选择技术优势全基因组选择与传统的分子标记辅助选择相比，具有很多优势[5]：能够在得到物种个体DNA的时候即对其进行育种值评估，可以缩短世代间隔，加快遗传进展并且降低经济投入。全基因组范围内的标记能够解释尽可能多的遗传变异，可以对遗传效应进行较为准确的检测和估计。能够较准确的评估遗传力较低、难测定的性状或测定费用较高的性状。通过基因组选择的方式，即使单个标记的效应很微小，导致遗传变异的所有遗传效应也都能够被SNP标记捕获，所以比传统的基于系谱和表型数据的最佳线性无偏模型得到更高的可靠性。 a b c d

三代基因组测序技术简介及其原理整理第一代测序技术第一代DNA测序技术用的是1975年由桑格（Sanger）和考尔森（Coulson）开创的链终止法以及1976-1977年由马克西姆（Maxam）和吉尔伯特（Gilbert）发明的化学法（链降解）。 1977年，桑格测定了第一个基因组序列——噬菌体X174，全长5375个碱基。自此，人类获得了窥探生命遗传差异本质的能力，并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年，完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。 Sanger法原理： 1）在模板指导下，DNA聚合酶不断将dNTP（N=A/G/T/ C）加到引物的3’- OH末端，合成出新的互补链。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP，在互补链在DNA聚合酶作用下延伸时，一旦连接上ddNTP，由于双脱氧核糖的2’和3’都不含羟基，故不能同后续的dNTP形成磷酸二酯键而终止反应，随即形成一系列不同长度的、以同样引物为起始、以同一碱基终止的短片段混合物。 2）双脱氧核苷酸在每个DNA分子中掺入的位置不同，采用聚丙烯酰胺凝胶电泳区分长度差一个核苷酸的单链DNA，从而读取DNA核苷酸序列。化学裂解法原理：与Sanger法类似，将DNA模板分成4个反应。在每个反应中，先在模板5’端进行放射性标记，再加入能特异性在其中一种碱基处切开DNA的化学试剂。反应进行时，平均一个DNA分子只在随机位点产生一次裂解。接着，通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。第二代测序技术第一代测序技术的主要特点是测序读长可达1000bp，准确性高达99.999%，但其测序成本高，通量低等方面的缺点，严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。经过不

全基 1. 简通过变（d 的功况，dise 比较实验（1）（2）基因组重测序简介(Introduc 过高通量测序识deletioin, du 功能性进行综合杂合性缺失ease （cance 较基因组学，群验设计与样本 Case-Contr ）家庭成员组序数据分析 ction) 识别发现de plication 以及合分析；我们（LOH ）以及r ）genome 中群体遗传学综ol 对照组设计组设计：父母novo 的som 及copy numb 们将分析基因及进化选择与中的mutation 综合层面上深计； -子女组（4 人matic 和germ ber variation 因功能（包括与mutation 之n 产生对应的深入探索疾病基人、3 人组或m line 突变，）以及SNP miRNA ），重之间的关系；以的易感机制和基因组和癌症多人）；结构变异-SN 的座位；针对重组率（Rec 以及这些关系功能。我们将症基因组。 NV ，包括重排对重排突变和combination ）系将怎样使得将在基因组学排突 SNP ）情在学以及

初级数据分析 1．数据量产出：总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计，测序深度分析。 2．一致性序列组装：与参考基因组序列（Reference genome sequence）的比对分析，利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，并组装出该个体基因组的一致序列。3．SNP检测及在基因组中的分布：提取全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4．InDel检测及在基因组的分布: 在进行mapping的过程中，进行容gap的比对并检测可信的short InDel。在检测过程中，gap的长度为1~5个碱基。对于每个InDel的检测，至少需要3个Paired-End序列的支持。 5．Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。高级数据分析 1.测序短序列匹配（Read Mapping）（1）屏蔽掉Y染色体上假体染色体区域（pseudo-autosomal region）, 将Read与参考序列NCBI36进行匹配（包括所有染色体，未定位的contig，以及线粒体序列mtDNA（将用校正的剑桥参考序列做替代）)。采用标准序列匹配处理对原始序列文件进行基因组匹配，将Read与参考基因组进行初始匹配；给出匹配的平均质量得分分布；（2）碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分，并校准一些显著性误差，包括来自测序循环和双核苷酸结构导致的误差。（3）测序误差率估计。 pseudoautosomal contigs，short repeat regions（包括segmental duplication，simple repeat sequence-通过tandem repeat识别算法识别）将被过滤； 2. SNP Calling 计算（SNP Calling）我们可以采用整合多种SNP探测算法的结果，综合地，更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析，保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法，以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。统计SNV的等位基因频率在全基因组上的分布