一代至四代测序技术详细讲解

一代至四代测序技术详细讲解
一代至四代测序技术详细讲解

一、我们将如何应对海量的基因信息

新一代测序技术带给人们大量遗传信息的同时,却成为限制其广泛应用的一个障碍。

1980年,英国生物化学家Frederick Sanger与美国生物化学家Walter Gilbert建立了DNA测序技术并获得诺贝尔化学奖,至今已有近三十年了。在这三十年,DNA测序技术取得了令人瞩目的进展。目前已进入市场的循环阵列测序平台采用的是与Sanger生物化学测序方法完全不同的原理。在过去几年,应用极为广泛的毛细管电泳测序法采用的则是多线并行阵列格式,它运用尖端的荧光成像技术进行碱基识别。上述各类新技术为生物学研究领域开辟了新的视角,也使实验研究达到一个新的水平。学界对开发这类新技术的兴趣持续高涨,与此同时,人们却发现这些技术存在一定的不足——大量信息数据的产生限制了技术更加广泛的应用,并降低了其市场价值。

过去,研究人员使用Applied Biosystems(ABI)公司的3730XL毛细管电泳测序仪进行基因分析,每年至多能完成六千万碱基的测序量。随着测序技术日新月异的发展,这种情况已经成为历史。在2005年刚刚开始进行新一代测序技术开发时,Roche公司和454公司联合开发的焦磷酸测序仪的分析速度就已经达到了上述提及的ABI仪器速度的50倍之上。也就是从那时起,因基因数据过多而产生的问题凸显了出来,而且这个问题随着其他制造商开发出更多更快的测序仪而愈加严重。举个例子,ABI的新一代测序平台SOLiD(supported oligonucleotide ligation and detection)单次运行,便可以分析6Gb的碱基序列;而Roche/454测序仪单次运行可以将上述结果转换成12-15个千兆字节(gigabytes)的数据信息;Illumina Genome Analyzer(GAII)测序系统仅在两个小时的运行时间里,就得到10兆兆字节(terabytes)的信息。尽管对于像Applied Biosystems这样的制造商而言,可以为用户提供高达11.25TB的存储量,但对于多数实验室所具有的信息管理系统来说,规模如此庞大的数据信息,就好像是迎面而来的洪水,让人感到难以控制。

过量信息所带来的一个副作用在于,用户无法将初始图像数据进行分类存档,而必须交给相关公司,利用软件对数据进行读取,然后才能对数据进行保存。对于大多数研究人员来说,像这样在每次实验后对原始数据进行处理的方式既繁琐又不经济。与花费上万美元对每一段序列进行备份分析相比,对每一次测序结果进行重新测定显然是一个更简单、更便宜的选择。测序仪制造商称,对原始数据再次进行分析并不能得到更多新的信息。但是,对于454测序仪而言,用户至少可以通过更新的软件从原始数据得到质量更高的序列,从而提高碱基识别分辨率,减少误差。

除数据处理问题之外,研究人员还需要拥有一个足够强大的计算机平台,以便将来自多个测序技术的短小基因片段进行组合,形成基因组外显子。目前问题在于,测序仪生产商仅仅提供用于某些特定基因信息分析的软件,如靶标重测序、基因表达分析、染色质免疫沉淀反应或基因组从头测序等,而并未提供任何其它类型的下游生物学信息分析软件。研究界越来越熟悉这些测序平台对循证生物学的巨大潜力,这也就产生了新的研究问题以及全新类型的试验方法,而这单凭依赖目前的生物学信息是无法满足的。

从这个角度看,SOLiD软件研发公司(https://www.360docs.net/doc/7f4962902.html,/gf/)于今年七月刚刚兼并了两个新的软件公司,这一举动无疑朝正确的方向迈进了一步。该公司在开放源码许可证下开发软件分析工具,目的就是为了给生物信息学领域提供支持,并为其开发新的算法。

对用户而言,如果能够将数据格式与不同测序平台获得的结果进行比较所得的统计数字进行标准化,无疑具有重大的意义。特别是由于目前以测序平台为核心的市场竞争激烈,因此每个生产商都努力提供最好的数据结果。

在这样的大环境下,对数据及不同产品的比较结果进行标准化,便显得尤为重要。有一个方法可以更好地对不同的新一代测序技术进行比较,那就是建立一个微阵列定性分析小组(Microarray Quality Control consortium),不仅可以对不同的技术结果进行比较,而且还可以将新技术结果与DNA微阵列或定量PCR 进行比较。

综合以上各类因素,可以预见的是,新一代测序平台在近几年内,仍然会局限于少数实验室及研究者,而大多数缺少能够对基因信息进行进一步分析的实验室则无法从新测序技术中获益。对大多数实验室而言,即使新一代的测序平台能够提供更多的信息,DNA微阵列分析仍然是一个相对便宜的选择。例如,在转录分析中,虽然新一代测序结果不仅能给出具有很大动态范围的基因丰度信息,同时还可提供剪切变异信息以及SNP数据,但是这些数据结果都需要进行不同的DNA微阵列分析才能获得。

那么,有没有什么方法可以解决这些问题呢?首先,相关的资金授予机构应该对生物信息学的发展予以与测序技术同等的关注;此外,由于生物信息学发展中的瓶颈已经限制了测序机器的销售,测序仪生产商也应该联合起来解决这一难题。同时,制造商应该致力于制定以研究领域为基础而不是以不同公司为基础的生物信息学解决方案。

因此,如果新一代测序平台真的能够带动基因组测序“普及化”——让基因组测序从大型测序中心走入每个研究人员的实验室或者小型研究小组,那么还需要研究人员付出更多努力,开发出经济实惠的分析软件以及数据管理系统。目前的状况是,与新一代测序技术相关的生物信息学分析工作仅仅掌握在少数人手里,但是这一具有重要价值的技术毫无疑问应该由大多数人掌握。如果数据处理问题不能得到有效解决,那么ABI公司的SOLiD系统、454公司的超高通量基因组测序系统——GS FLX、Illumina公司的GAII系统等新一代测序仪就永远无法真正出现在能够展现其价值的舞台上。

原文检索:Editorial. (2008) Prepare for the deluge. Nature Biotechnology, 26(10): 1099.

二、传统的DNA测序技术——Sanger测序法

自上世纪90年代初,所有的DNA测序操作几乎无一例外地全部采用半自动化毛细管电泳Sanger测序法。而后来出现的高通量测序方法则首先采用以下两种方法中的一种对DNA进行预处理。

无论采用以上哪种方法处理后,我们均可以得到大量的待测序模板片段——质粒或PCR产物。随后,测序仪会进行“循环测序”反应。在每一轮测序反应的引物延伸步骤中,会随机引入已被四种不同颜色荧光分别标记的ddNTP(ddATP、ddTTP、ddGTP、ddCTP)以终止延伸反应。这样就形成了大量末端被荧光标记的、长短不一(终止位点不同)的延伸产物。接着,再用高分辨率的毛细管凝胶电泳分离这些延伸产物,通过对延伸产物末端四种不同荧光颜色的区分,计算机软件会自动“读出”DNA序列。不过,该方法在“读取”每一个碱基信息时都有可能出错。后续操作中,比如基因组组装或者找出变异位点等就是具体情况具体解决了。一般,这种高通量测序仪一次最多只能同时进行96个或384个样品测序。

Sanger DNA测序技术经过了30年的不断发展与完善,现在已经可以对长达1,000bp的DNA片段进行测序了,而且对每一个碱基的读取准确率高达99.999%。在高通量基因组鸟枪法测序操作当中,使用Sanger测序法的费用大约为0.5美元/1,000个碱基。

原文检索:Jay Shendure & Hanlee Ji. (2008) Next-generation DNA sequencing. Nature Biotechnology,

26(10):1135-1145.

三、新一代DNA测序技术

DNA测序技术已广泛应用于生物学研究的各个领域,很多生物学问题都可以借助高通量DNA测序技术予以解决。过去三年,大规模平行测序平台(massively parallel DNA sequencing platform)已经发展为主流的测序技术,这项测序技术的出现不仅令DNA测序费用降到了以前的百分之一,还让基因组测序这项以前专属于大型测序中心的“特权”能够被众多研究人员分享。目前,新的测序技术及手段还在不断涌现,比如最新的进展就包括建立序列数据库、建立序列数据分析新方法以及设计测序试验等等。新一代DNA测序技术有助于人们以更低廉的价格,更全面、更深入地分析基因组、转录组及蛋白质之间交互作用组的各项数据。今后,各种测序将成为一项广泛使用的常规实验手段,这有望给生物学和生物医学研究领域带来革命性的变革。

DNA测序技术经历了漫长而曲折的发展历程。迄今为止,我们获得的绝大部分DNA序列都是基于Sanger 测序法获得的。在过去5年间,人们至少从以下四个方面刺激了DNA测序技术的发展。

1. 具有代表性的新一代DNA测序仪

最近市面上出现了很多新一代测序仪产品,例如美国Roche Applied Science公司的454基因组测序仪、美国Illumina公司和英国Solexa technology公司合作开发的Illumina测序仪、美国Applied Biosystems公司的SOLiD测序仪、Dover/Harvard公司的Polonator测序仪以及美国Helicos公司的HeliScope单分子测序仪。所有这些新型测序仪都使用了一种新的测序策略——循环芯片测序法(cyclic-array sequencing),也可将其称为“新一代测序技术或者第二代测序技术”。

所谓循环芯片测序法,简言之就是对布满DNA样品的芯片重复进行基于DNA的聚合酶反应(模板变性、引物退火杂交及延伸)以及荧光序列读取反应。2005年,有两篇论文曾对这种方法做出过详细介绍。与传统测序法相比,循环芯片测序法具有操作更简易、费用更低廉的优势,于是很快就获得了广泛的应用。

虽然这些新一代测序仪以及芯片的实际制作过程似乎都和传统的测序方法有很大的不同,而且各有特点(表3),但实际上它们背后的原理和技术都是非常相似甚至是相同的(图1b)。新一代测序法首先也是将基因组DNA 随机切割成小片段DNA分子,然后在体外给这些小片段分子的末端连接上接头制成文库,也可以使用配对标签(mate-paired tag)制成跨步文库(jumping libraries)。随后可以通过原位polony(in situ polony,小词典1)、微乳液PCR(emulsion PCR)或桥式PCR(bridge PCR)(图5)等方法获得测序模板。

上述方法有一个共同点,那就是任何一个小片段DNA分子的PCR扩增产物都是在空间上聚集的:原位polony法和桥式PCR法中所有的产物都集中在平板的某处,在微乳液PCR法(emulsion PCR)中所有的产物都集中在微珠的表面。真正的测序反应本身和传统测序法一样,是由重复的聚合酶促反应和最后的荧光读取分析反应组成(图6)。本文讨论的所有测序仪都是使用合成测序法(sequencing by synthesis),即通过聚合酶或连接酶不断地延伸引物获得模板序列,最后对每一轮反应的结果进行荧光图像采集、分析,获得序列结果。

1.1 454测序仪

454测序仪的出现极大促进了测序业务的开展,科研人员已经将测序技术作为解决科研工作中许多常见问题的利器。这是因为454测序仪在以下几个方面取得了质的突破:首先是解决了高通量测序问题;其次它简化了样品准备步骤,将以往转化大肠杆菌扩增质粒的繁琐过程全部用简单的体外PCR扩增法替代了;最后,它缩小了测序反应体积,节省了试剂。这样,454测序仪做到了以极其低廉的价格进行大规模平行测序反应。它的测序规模之大、测序费用之低是以往的测序仪无法匹敌的。454测序仪与其它的新一代测序仪一起,降低了测序检测的费用,推动了测序技术平民化进程,使得小实验室也能开展测序检测项目,打破了以往只有少数几个大型测序中心才能进行测序研究的“垄断地位”。在过去的18个月里,由于有了454测序仪的帮助,人们对人类基因组的结构有了更深入的了解,同时第一次使用非Sanger测序法对个人进行了测序,还建立了一种发现小RNA的新方法。不过,要能让更多的人使用上新一代的测序产品,它们还需要变得更便宜,并且更加容易操作。在一段时间之内,454测序仪必定会进一步降低测序费用,帮助人们迎接个人基因组时代的到来。

自从诺贝尔奖得主Frederick Sanger和Walter Gilbert(图2)分别发明了链终止法DNA测序技术(sequencing by chain termination technique)和链断裂法DNA测序技术(sequencing by chain fragmentation technique)之后,人们就一直希望能够扩大DNA测序技术的处理规模。到了今天,我们对测序技术的需求和对计算机技术的需求一起出现了迅猛的增长,因为测序技术的发展速度已经远远跟不上实验要求的增长速度。于是出现了好几种替代Sanger测序法的新型测序方法,比如杂交测序法、借助原子力显微镜(atomic force microscopy)直接DNA成像测序法(direct imaging of DNA sequence)、质谱分析法、合成测序法以及微液流测序法等等。在我们进行人类基因组计划时还出现了三项技术改进方法,即使用荧光标记物取代了放射性标记物来标记终止碱基(双脱氧碱基);使用毛细管电泳(capillary electrophoresis)取代了传统的平板凝胶电泳;建立了末端配对测序法(paired-end sequencing)来对质粒、fosmid、人工细菌染色体(BAC)等短片段序列进行测序,解决了测序长度带来的限制问题。同时,开展研究的自动化液体分装技术(liquid-handling robotics)帮助我们摆脱了人工试管操作,可以用自动化的方式在微量滴定板(microtiter plate)上装载待测序样品(质粒等),极大地降低了测序的费用和劳动强度。

随着美国454 Life Sciences公司(该公司现已被美国罗氏公司收购)的第一台新一代测序仪——454测序仪的面世,我们获得了一种完全不同的测序方式。454测序仪引领的新一代测序技术在一直困扰传统测序技术的三个瓶颈问题上取得了突破。这三个问题分别是文库制备、模板制备和测序。而且,在随后出现的其

它新一代测序仪产品身上,我们或多或少都会发现在454测序仪上使用到的技术,这也足以说明454测序仪的技术创新的确取得了巨大的成功。

454测序仪的先行者地位使它对整个测序业的影响远远超过了其它新一代测序仪竞争对手。这一点从Leamon、Rothberg等人撰写的一篇介绍2005年技术进展的论文被引用了570多次的事实,以及有100多

篇经过同行审议的关于人类遗传学、代谢组学、生态学、进化学以及古生物学的论文(peer-reviewed publications)都是使用454测序仪开展的研究多个事实中都能够得到证明。454测序仪技术是继Sanger测

序技术之后出现的第一个用于对细菌基因组进行从头测序的新技术,也是第一个被用来对人类基因组进行测序的非Sanger测序技术。其它使用454测序仪开展的重要研究项目包括探究蜜蜂消失原因的项目、研

究人类基因组重排复杂性的项目、建立用于研究传染性疾病新方法的项目以及对尼安德特尔人(Neanderthal)基因组的测序项目等。

1.1.1 摩尔定律对454测序仪的影响

454测序仪的迅猛发展不是因为我们想要Sanger测序仪小型化,而是因为新型奔腾芯片的出现以及摩尔定

律法则给我们带来的希望。很明显,常规的人类基因测序项目会对我们处理测序技术的能力提出更高要求,这与我们对计算机处理能力的要求是一样的。不过,只有将计算机的电子管换成晶体管,才为后来集成电路技术的发展提供了可能,这正是计算机产业发展的关键所在。而希望对传统的毛细管电泳技术进行改良,提高它的速度和处理规模,正如只用电子管直接制作集成电路一样不可能。因此,如果将各种测序技术比作一个个晶体管,将一系列测序步骤整合起来比作集成电路,那么也就可以用摩尔定律来预测DNA测序

技术的发展速度了。

合成测序法概念虽然在提出的时候还不算成功,但它的出现为测序仪小型化奠定了基础。基于合成测序法

出现了两种策略:一种是循环可切除终止测序法(cyclic reversible termination technology),即依次逐个添加荧光标记的碱基,继而检测荧光信号,切除荧光基团,如此往复;另一种策略是焦磷酸测序法(sequenced by detecting pyrophosphate release)。454测序仪采用的正是焦磷酸测序法,因为它似乎比第一种方法的效

率更高。结果证明,454公司的选择是正确的。454测序仪采用的是小型化焦磷酸测序反应,测序模板准

备和焦磷酸测序反应步骤都是在固态芯片上完成的。

实际上,早在上世纪90年代中期,焦磷酸测序技术就已经被科研界用来进行基因分型工作了,但那时的焦磷酸测序技术还不能够满足标准的测序实验要求,因为它的测序长度太短,因此只能用于旨在发现SNP

的基因分型研究当中。当时进行基因分型操作时,是在微量滴定板(microtiter plate)上进行的,可以连续

进行最多96次基因分型实验,平均每个样品花费20美分。那时焦磷酸测序还不能用于从头测序工作,因为从头测序需要对每一个尤其是第一个碱基都能准确地区分清楚,而焦磷酸测序只能简单地对已知位点的碱基进行检测,而且从头测序要求的测序长度也是焦磷酸测序法无法达到的。

不过,由于焦磷酸测序的原理是通过检测碱基掺入时发出的光来进行测序的(图3),所以它并不需要类似于电泳之类的物理分离过程来对碱基进行区分。这也就是说焦磷酸测序仪可以“缩小(减)”到只需要检测光线就够了,而不需要像传统的测序仪还需要电泳设备,而这正是限制传统电泳仪小型化的关键所在。发光检测方法还能够进行多路平行操作,但是直到454测序仪出现之前,还没有人这样做过,以前都是依次进行检测的。和晶体管早期的遭遇一样(当时人们也怀疑晶体管替代不了电子管),人们同时对高密度的,用于并行焦磷酸测序的反应也充满了疑问。不过,当我们不再在溶液中进行测序反应,而是将测序模板、所有的试剂(酶)都固定在平板上制成芯片之后,就获得了小型化的,能进行多路并行处理的测序仪,这就与晶体管被小型化并整合成

集成电路的过程一样。此外,借助微量滴定板上一个个的小孔所达到的将不同测序反应进行分隔这一目的,也能通过在单个固相支持物上进行严密包裹(隔离)的反应来实现。在这些各自隔绝的反应体系中,链聚合反应速度和发光速度都能通过对反应试剂和产物弥散状况进行严密的控制来进行精密的调整。

1.1.2 新的并行试验方法

在开发新型高通量、高并行运行方法时碰到的一个关键问题是,如何将反应试剂同时加入数量如此之多的各个反应体系中?在焦磷酸测序的过程当中需要反复加入不同的碱基以供测序反应使用,而当时的自动化加样设备无法有效地做到对这么多的反应体系同时循环加样。于是,开发一种全新的高密度并行处理方法这一重要课题又再一次摆在了科研人员的面前。这一次,我们找到了一个非常简单但是又很巧妙地方法。在高密度的反应芯片表面使用层流(laminar flow)加样方式,反应试剂会通过扩散作用很好地进入每一个反应体系,而且也可以用层流的方式洗去多余的反应试剂。现在,所有的新一代测序仪都采用了这种层流加样方法。

为了将每个单独的测序反应都分隔开来,我们一开始使用平板(芯片),不过在平板上平均每一平方厘米的面积上最多只能同时进行数百至数千个反应。但我们希望达到的是在每平方厘米的面积上同时进行100万个测序反应,这样才能令测序仪小型化,同时节省试剂并进行快速成像和测序。为了实现更高密度的测序反应,我们在平板上制作了很多小孔,将每个反应体系都安置在这些小孔中,这些小孔都足够深,足以分隔每个反应体系。虽然这种方法极大提高了测序反应的密度,缩小了平板的面积,但是要达到我们的要求还是需要60mm×60mm大小的芯片才行。

针对图像采集问题使用了商业化的天文学照相(astrological grade camera)器材,在电荷偶合装置(CCD)的表面连接上光纤束(fiber-optic bundle)。这些光纤是锥形排列的,这样可以将大范围的光信号都传输到CCD表面上很小的一个范围。采取下面两个步骤,我们就可以制成含有高密度小孔的芯片:先将光纤束连接到类似于载玻片一样的一次性芯片上,然后用酸蚀刻(acid etching procedure)技术在玻片的另一面打上小孔。这种酸蚀刻技术是根据制作生物传感器的技术改进而来的。

454公司制作的每张芯片上可以达到数百万个小孔,每一个小孔都是一个独立的“反应站”,互不干扰,测序反应发出的光被连接在芯片上的光纤传送到CCD记录下来(图4)。这种芯片就好像集成电路一样一次可以同时处理数百万个测序反应。这种芯片同样也能被其它通过发光检测技术的产品所使用。454测序仪也没有像以前的96孔板焦磷酸测序仪那样使用液态的试剂,而是将试剂和模板统统都吸附在一个个微珠上,然后把这些微珠一个个地放到芯片上的小孔中,每孔一个微珠。这种固定步骤不仅保证了每孔测序反应的独立性,也极大地节省了试剂消耗费用。

要想实现高通量基因组测序,只对测序步骤进行优化还是远远不够的。人类基因组计划花费的30亿美元经费中有很大一部分都用在了测序样品制备阶段。当时即使是采用最简单的制备样品方法也需要将目标片段克隆到细菌中,挑克隆,再转到96孔板,然后进行克隆扩增,提取质粒,制备测序模板。这种工作流程既耗时也耗钱。

如果采用新型的文库制备方法就可以极大地节省这部分开支,这种新型的方法是先分离基因组DNA,随机切割成小片段分子,然后通过有限稀释(limiting dilution)和聚合酶扩增反应,即体外克隆方式(clones without bacterial)制备模板片段。这样,从模板制备到最后的测序反应整个过程都能够在体外完成。

1.1.3 从发明到创新

从概念的提出到最后技术上的实现,454测序仪主要关注两个方面,首先是开发蚀刻光纤玻片;其次,改

进焦磷酸测序方法使其能在固相支持物上进行,即将其改造成固态焦磷酸测序法,同时也对模板及文库构

建方法进行了改进,让454测序仪能进行长片段测序工作和从头测序工作。

1.1.3.1 在蚀刻板上的小孔中进行固态、长片段焦磷酸测序反应

蚀刻技术经过改良之后能在75mm×75mm的玻片上刻出深55μm、宽44μm的小孔。而开发固态测序方法和改良测序长度则是两个紧密相关的问题,因为在固定的小孔中反应实际上就能改进测序质量和测序长度。由于反应试剂能迅速渗透到小孔中,因此反应速度也会加快。而且这里也没有使用三磷酸腺苷双磷酸酶(apyrase)提取未参与反应的碱基,而是将芯片置入反应池中通过层流液体的快速渗透作用将多余的未参与反应的碱基和反应副产品洗掉,由此得到100bp~500bp的测序长度。在能有效去除多余碱基的同时,每轮反应中聚合酶的效率也得到了极大提高。这样高效率的聚合反应使得454测序仪具有较长测序长度的同时也保证了高准确性,测序长度在200bp时的准确率高达99.5%。这是因为通过降低小孔中残存的未参与

反应的碱基浓度,可以降低这些碱基对聚合酶活性的抑制作用,或者降低这些碱基导致的延后错误

(carry-forward error,即由于未参与反应的碱基导致的测序反应不同步现象)的发生率。454测序仪在测序长度和准确率方面具有优势还因为其在应用流体学、表面化学和酶学(包括选择更好的聚合酶、在更高的温度进行测序反应以及更换及平衡各个酶组分)等方面都有创新(表4)。

还有一些能提高测序精度和测序长度的技术,不过暂时还没有商业化产品。这些技术包括使用可切除的终

止碱基(reversible terminator)提高对同聚物(homopolymers)的检测精度;双末端测序法(double-ended sequencing),即同一模板的两条链均不测序;以及选择性酶固定法(alternative enzyme-immobilization method)等。这些技术改进还都没有用到测序仪产品中,有一部分原因是因为现在还没有必要使用。

注:蜜蜂群崩溃症(honeybee colony collapse),指的是来自养蜂业的蜂箱或自然界存在的欧洲蜜蜂群的工蜂突然消失的现象,又称作Colony collapse disorder(CCD)。

1.1.3.2 模板制备程序

完全的体外大规模模板制备工作是达成高通量、低价格测序技术的前提。已广泛使用的乳液PCR扩增技术就是一种很好的方法。不过,由于很难在热循环测序反应中保证乳液微滴的稳定性,因此最开始实验的模

板扩增方法是恒温扩增法(isothermal)。

乳液PCR不需要借助细菌的帮助就能扩增模板,虽然这一点非常诱人,但最开始时并没有合适的表面活

性剂能帮助乳液在热循环过程中保持稳定。于是出现了恒温扩增法,即滚环扩增反应(RCA)。虽然滚环扩增反应的产量非常高,但这些产物中大部分都不能用来作为测序模板。因此,还需要找到一种不需要细

菌扩增,能用于有限稀释的模板扩增新方法。于是,人们又把目光转回了PCR法。在RCA法中,首先将模板克隆有限稀释之后置入光纤玻片上的小孔中,然后用橡胶衬垫把光纤玻片封闭起来,将玻片放入传统的平顶PCR仪进行扩增。这种方法取得了成功,但是效率不高,因为在玻片中的热质量(thermal mass)

和它的钳效应(clamping mechanism)需要更长的PCR循环时间,而且模板的有限稀释度不能低于10%。孔与孔之间的相互污染现象也是一个不容忽视的问题。不过无论如何,该方法还是第一个首先从全基因组文库中扩增模板然后使用非Sanger、非Gilbert测序法对基因组进行从头测序的方法,也是第一个使用体外模板扩增技术进行全基因组(腺病毒基因组)测序的方法。

乳液滴的热稳定性问题最终通过加入用于制造炸药的表面活性剂得到了解决,于是乳液PCR技术马上在众多新一代测序仪中得到了广泛的应用。因为乳液PCR技术具有高效性、可扩展性,既能从30Kb的腺病毒基因组中扩增模板,也能从好几Mb的肺炎链球菌(Streptococcus pneumoniae)基因组中扩增模板。

随着测序精度、测序长度、乳液滴稳定性等各方面技术的不断发展,454测序仪已经不仅仅用于对细菌级别的基因组进行测序了,还能对更高级、更复杂的生物基因组进行测序,例如现代人类基因组、尼安德特人基因组以及环境基因组等。

1.1.3.3 文库制备

文库制备包括以下几个步骤,首先随机切割样品基因组,获得大量DNA片段,然后接上接头进行扩增反应。454测序仪的样品制备程序和Craig Venter等人的鸟枪法样品制备程序有着本质的差别。454公司采用的是如图4中所示的有限稀释、乳液PCR扩增法,而没有鸟枪法中的细菌克隆繁殖步骤。去掉了细菌繁殖步骤极大地提高了整个测序工作的速度和效率,同时避免了由于细菌繁殖导致的序列丢失的可能性。这种方法同样对古老DNA和代谢基因组学的研究也非常适用。末端配对文库制备方法的建立同样帮助454测序仪获得了对复杂基因组从头测序、对重复片段测序以及对基因组结构(复制、重排)展开系统研究三种能力。这种末端配对文库的制备方法是受到了Bender科研小组对果蝇(Drosophila)制备跨步文库(jumping library)方法的启发而发展得来的。

1.1.4 应用范围

随着越来越多重要的研究领域受到测序技术的影响,454公司开始和其它商业和学术机构开展合作,进行样品测序和分析工作。这些合作项目又进一步验证了454测序仪使用的技术能够在众多领域中发挥作用,例如末端配对文库技术对于研究基因组结构的作用和乳液PCR技术捕获目的DNA片段的作用等。

1.1.4.1 细菌基因组测序和比较基因组研究

为了测试454测序仪在全基因组测序方面的能力,454公司一开始就参与了一项合作项目,该研究项目会对4株结核分支杆菌基因组进行测序,这四株结核分支杆菌分别是一株对R207910具有耐药性的结核分枝杆菌(Mycobacterium tuberculosis)菌株,基因组大小约4Mb;两株对R207910具有耐药性的耻垢分支杆菌(Mycobacterium smegmatis),基因组大小约6Mb;以及一株正常的耻垢分支杆菌(Mycobacterium smegmatis),基因组大小约6Mb。他们希望能发现结核分枝杆菌(Mycobacterium tuberculosis)对R207910产生抗药性的机制。该项研究清晰的展现了454测序仪在测序速度和测序精度方面的优势。使用传统的Sanger测序法对一个4Mb的基因组和3个6Mb的基因组进行测序需要好几个月的时间,而用454测序仪,在只有一位实验人员参与实验的情况下,包括样品制备等步骤在内所用的时间仅需要一周。而且使用454测序仪还避免了传统测序方法中细菌克隆阶段可能出现的错误,获得了高质量的测序结果,发现了导致结核分枝杆菌对R207910产生抗药性的两个点突变位点。这项研究成果让我们在最近的40年内第一次找到了特异性治疗结核病的药物,同时也对454测序仪在细菌基因组测序方面的应用价值有了深刻的体会。随后,454测序仪又参与了比较基因组学研究项目、对高致病性细菌空肠弯曲菌(Campylobacter jejun)基因组的从头测序项目、对幽门螺杆菌(Helicobacter pylori)在慢性胃炎致病过程中的进化研究项目、从南极

海冰细菌(Antarctic sea ice bacterium)中新发现冰结合蛋白(ice-binding protein)并对其测序的研究项目,以及在引起肺炎、脑膜炎和泌尿道感染的细菌中发现致病因素的研究项目等。

由于454测序仪不会因为细菌克隆产生测序误差,所以在对结核分枝杆菌抗药性的研究中表现出了非常强的发现突变位点的能力,这一点也被后来的其它研究项目所证实。此外,最近在用454测序仪进行的人类基因组测序项目中发现了长达29Mb的片段与人类基因组参考序列build-36不相符,这些片段被认为是参考序列中不存在的序列,属于基因组中的常染色质部分。不过,还需要注意的是,有些报道称由于重复片段的存在会出现序列组装错误,而且小模板片段雾化(nebulization)处理这种方式也会造成测序错误出现。

1.1.4.2 小RNA测序

对于包括miRNA在内的小RNA的研究兴趣从2005年开始就持续不断升温,而2005年恰好也是454测序仪上市的那一年。454测序仪以其不需要进行传统的细菌克隆步骤和足以覆盖只有21bp长的miRNA的测序长度等优势,很快就在miRNA的作用研究之中占据了一席之地。454测序仪最早参与进行的miRNA研究是对拟南芥(Arabidopsis thaliana)miRNA开展的研究。随后马上又参与了另一项研究项目,在这个项目中我们在小鼠体内发现了一种新型的小RNA——piRNA。这些研究项目为我们在人类、黑猩猩、斑马鱼和肿瘤细胞系中开展小RNA研究铺平了道路。454测序仪具有的这种对小RNA进行研究的能力使它在众多有关RNA的研究领域都能有所作为,例如转录体研究领域、EST研究领域、5?-RATE研究领域和基于转录体的SNP研究领域等。

1.1.4.3 在古生物学和古DNA研究领域的作用

要用传统的测序方法对尼安德特人的基因组进行测序研究非常困难,因为这些古老DNA量非常少,而且都早已裂解成了片段。一开始,454公司使用比较容易得到的不太重要的古代DNA样品检验了454测序仪对它们的测序能力,结果非常好,尽管当时454测序仪的测序长度只有100bp。不过,尼安德特人的基因组片段长度基本上都介于40bp~90bp之间,而且最近开发的乳液PCR方法也能够对微量(单分子)样本进行很好的扩增。于是,454测序仪参与了对38,000年前古老的尼安德特人的基因组进行测序的工作,研究结果分别发表在了好几篇论文当中,引起了广泛的关注,并促进了古生物学基因组的研究。随后有人对长毛象(woolly mammoth)和更新世狼(Pleistocene wolves)的基因组开展了测序研究。

1.1.4.4 环境基因组学和感染性疾病研究领域

美国在2001年爆发了炭疽恐怖袭击危机之后,454公司便对如何使用454测序仪对复杂的、未知的、未人工培养的环境微生物基因组进行测序展开了研究。前后两个合作研究项目均表明454测序仪能够用于从DNA混合样品中发现未知微生物并对其进行分类。在第一个研究项目中,有三名患者都接受了同一名澳大利亚器官捐赠者的器官,之后均因不明原因而死亡。从这三名死者身上提取了非人类DNA样品进行测序,结果获得了144,000条序列。分析后发现,这些序列分别属于一种沙粒病毒科(Arenaviridae)家族病毒的14个不同基因。随后进行的第二项研究在对健康蜂群和患病蜂群进行环境基因组学比较研究之后发现,以色列急性麻痹病毒(Israeli acute paralysis virus)是导致蜜蜂蜂群崩溃症的元凶。上述这些研究都突出了454测序仪的一个特点,即在样品准备前不需要进行克隆或预扩增步骤,因此非常适用于对未知的未能人工培养的物种进行测序。这些特点也在其它对地下矿藏、深海、土壤和高盐等环境下进行的环境微生物构成方面的研究所证实。

1.1.4.5 基因组结构研究领域

454测序仪技术的进步使它能够适用于更多的科研领域。最新开发的末端配对测序法(paired-end sequencing)就非常适合用于发现人类基因组当中的结构变异。末端配对作图过程(paired-end mapping),简单来说就是对一个非洲人和一个欧洲人的基因组进行测序后发现结构变异并对其作图,最终将1,000多个3Kb或更

长的结构变异片段定位到人类基因组参考序列中。研究发现,在人类基因组当中存在的结构变异远远超过了人们的预计,其中有很多变异都会造成非常重要的表型改变。这项对诺贝尔奖得主James Watson基因

组进行测序的项目和其它相关研究,一起使得“人类基因多样性(human genetic variation)”这一科学命题成为了《科学》(Science)杂志的年度重大科技突破。

1.2 Illumina测序仪

Illumina测序仪通常也被称作Solexa测序仪(Illumina测序仪的特点见表5)。它适用于采用各种方法制备的DNA文库,文库中DNA片段可以长达数百bp,并可通过桥式PCR来扩增模板片段(图5b)。在桥式PCR反应中,正向引物和反向引物都被通过一个柔性接头(flexible linker)固定在固相载体(solid substrate)上。经过PCR反应,所有的模板扩增产物就都被固定到了芯片上固定的位置。

值得注意的是,Illumina测序仪使用的桥式PCR与传统的桥式PCR有所不同,它会交替使用Bst聚合酶进行延伸反应以及使用甲酰胺(formamide)进行变性反应。这样,经过桥式PCR扩增之后,也会在固相载体上形成一个个的模板“克隆”。一块芯片的8条独立“泳道”上每一条泳道都可以容纳数百万的模板“克隆”,这样一次就可以同时对8个不同的文库进行测序。

经过上述PCR扩增步骤之后,所有的模板都被线性化处理(linearization)而形成单链模板,接着与测序引物退火、杂交。随后使用修饰的DNA聚合酶和四种核苷酸混合试剂进行单碱基延伸测序反应(图6b)。这些核苷酸试剂都经过两种方式处理过,它们都是可逆的终止子(reversible terminator)。这些核苷酸的3?羟基端都有一个可被化学法切除的基团,这样每一次反应都只会掺入一个核苷酸,同时每种核苷酸都标记

上了可被化学法切除的不同颜色的荧光基团,以标识每种碱基。经过一轮单碱基掺入反应采集到信号之后,就可以通过化学方法切除上述被掺入核苷酸上标记的两个基团,然后就能够继续掺入下一个核苷酸,重复测序反应了。这种测序方法对36bp长度的序列测序准确率是非常高的,不过如果处理更长的序列,准确率就会有所降低了(丁丁博客注:目前llumina的测序长度已经可以达到150bp,对于前60bp的准确率都很高)。

1.3 AB SOLiD测序仪

AB SOLiD测序仪可以对由任何方法制成的DNA文库进行测序。AB SOLiD测序仪有一个极大的特点就是能够将富集模板片段的微珠在芯片上进行高度可控的任意排列。AB SOLiD测序仪也是使用如图5a中所示的微乳液PCR方法扩增模板片段的,不过,它这里使用的是直径只有1μm的小磁珠。PCR扩增反应结束之后,微乳液滴被打破,小磁珠被富集起来固定到固态平板上,制成高密度测序芯片。后面的合成测序法由DNA连接酶而非DNA聚合酶完成。

首先,通用引物与模板片段两端的接头序列互补结合,然后连接酶将一个被荧光标记的8bp长的核酸探针片段(fluorescently labeled octamers)连接到引物末端(图6c)。这段8bp长的核酸探针片段是经过设计的,比如其中第五位碱基上就标记了荧光。连接反应完成之后,就可以采集荧光图像,然后在第五位碱基和第六位碱基之间切断,去掉荧光标签。如此反复,就可以获得每间隔四个碱基的第五号碱基的确切信息,比如第5号碱基、第10 号碱基、第15号碱基以及第20号碱基等等。经过几轮这样的循环之后,已经获得延伸的引物会变性脱落,再重新结合上新的引物从头开始新一轮测序,不过这一次可能获得的是第4号碱基、第9号碱基、第14号碱基以及第19号碱基的信息。我们可以使用不同长度的引物(+1或者-1)或者使用在不同位点(比如第2 号碱基)标记荧光的8bp核酸探针片段达到这个目的。如此反复,最终就能获得整条模板片段的完整序列信息。

AB SOLiD测序仪还有一个特点就是使用了双碱基编码技术(two-base encoding),该技术具有误差校正功能,因为它是通过两个碱基来对应一个荧光信号而不是传统的一个碱基对应一个荧光信号,这样每一个位点都会被检测两次,因此出错率明显降低。

Polonator测序仪是一个和AB SOLiD测序仪比较相似的产品,因为它也运用了J.S等人和哈佛大学Church 研究小组开发的部分系统。Polonator测序仪同样也使用微乳液PCR法扩增模板片段,使用连接酶法测序。不过,Polonator测序仪的价格要比其它第二代测序仪低得多。而且更重要的是,Polonator测序仪是一个开源的设备,用户可以通过自己编程“设计”出最适合自己的测序仪。不过,Polonator测序仪目前可测序的长度还非常有限。

值得注意的是,454测序仪、SOLiD测序仪以及Polonator测序仪还都存在一个共同的不足,那就是微乳液PCR技术实在是太过麻烦并且对实验操作的技术要求较高。不过从另一方面来说,使用仅仅只有1μm大小的磁珠构成的高密度测序芯片进行测序(不论是使用聚合酶法、连接酶法,还是其它的生化方法)是最有可能实现的高通量测序方法。因为1μm是衍射技术(diffraction)所能分辨的极限大小了。另一方面,最近报道的使用1μm磁珠进行高分辨率芯片点样技术的突破,使我们有望实现每个测序模板一个像素(one pixel per sequencing feature)的愿望。

1.4 HeliScope测序仪

HeliScope测序仪是由Quake团队设计开发的,它实际上也是一种循环芯片测序设备。不过,HeliScope测序仪最大的特点是无需对测序模板进行扩增,它使用了一种高灵敏度的荧光探测仪直接对单链DNA模板进行合成法测序。首先,将基因组DNA切割成随机的小片段DNA分子,并且在每个片段末端加上poly-A 尾。然后通过poly-A尾和固定在芯片上的poly-T杂交,将待测模板固定到芯片上,制成测序芯片。最后借助聚合酶将荧光标记的单核苷酸掺入到引物上(图6d)。采集荧光信号,切除荧光标记基团,进行下一轮测序反应,如此反复,最终获得完整的序列信息。根据最近的报道,经过数百轮这种单碱基延伸可以获得25bp或更长的测序长度。HeliScope测序仪的其它特点见表6。

原文检索:Jonathan M Rothberg & John H Leamon. (2008) The development and impact of 454 sequencing. Nature Biotechnology, 26(10): 1117-1124.

2. 用于处理新一代测序技术数据的软件和标准

各种新一代测序仪的飞速发展面临着一个极其重要的问题,那就是生物信息学问题,这些问题包括序列质量评分(sequence quality scoring)问题、序列比对问题、序列组装问题、数据发布问题等。下面将逐个进行讨论。

2.1 序列质量问题

目前,序列质量评分问题是受到广泛关注的一个问题。造成这种现象的原因主要是因为所有新一代测序仪的测序质量都不高,而且不同的序列情况都有各自的误差率。随着新一代测序仪产品的不断成熟,在临床及科研工作中的应用范围越来越广,它们的测序质量也就变得重要起来,而且我们也需要对各个测序仪的测序质量有一个清晰的、可靠的评价标准。由于这个问题还只是刚刚出现,所以我们有机会设立一个全球统一的、标准化的评价体系对目前现有的以及将来即将出现的测序仪进行评价。我们希望避免再次发生类似过去几个芯片厂家之间进行数据比较的尴尬局面。对于测序仪的应用范围进行标准化的质量评价也是有好处的。比如评价从头测序的质量、评价测序结果与参考序列的相似度、评价测序仪发现突变以及多态性的能力以及对测序仪在进行大规模测序项目研究时的质量可靠性进行评价等。表7列出了几项应该被重点评价的项目。

这些质量数据都应该以一种简单、标准化的方式包含在测序结果中。现在所有的测序仪器生产商也都在他们的测序报告中加入了测序质量信息,消费者可以借此对数据进行交叉比较,甚至还有可能各取所长,将不同测序仪的测序结果整合起来,获得最佳的测序结果。目前,旨在从短片段测序结果中发现多态性以及突变位点的重测序项目经常会依靠“主要投票机制(majority voting scheme)”。该方法易于操作,但是容易出错,假阴性率较高。诸如Brockman小组和Quinlan小组开发的,更多更好的用于发现单核苷酸多态性的方法是将误差率与单个碱基信号联系起来,即误差率与测序质量和序列内容相关,这样就能获得更准确的结果。我们估计,像phred样质量值之类的评价体系以及“第三方”算法的不断发展,最终一定会诞生一个很好的发现多态性的工具。

2.2 用于分析数据的软件以及生物信息学工具

虽然这些软件和工具都还没有完全商业化,但我们还是能获得一些软件用来分析新一代测序仪的测序结果(表8)。这些软件和工具的功能主要集中在4个方面(表9)。

序列比对和组装是一个颇受关注的问题。虽然BLAST和BLAT等序列比对工具对于长片段的序列比对来说非常有用,但是它们不适合新一代测序仪获得的短片段序列。因此,有大量的针对短测序片段的比对工具出现,这些工具中允许错配或者空隙出现。这些工具中有些借鉴了非常成熟的序列比对算法,例如Smith-Waterman算法等,不过还是有很多新的专门针对短序列片段的算法出现。比如SOAP就是这样一种新型算法,这个软件包能非常有效地进行有空隙或者无空隙的序列比对。该软件包使用了一种内存密集种

子(memory-intensive seed)算法和查表格(look-up table)算法来加快比对速度,同时能够对最容易出错的3?端序列进行反复调整。

其它用来加速比对过程的方法还包括“字节编码(bit encoding)”技术。该技术能将序列信息压缩成计算机信息,这样更利于计算机管理和分析。越来越多的比对软件在进行比对时开始考虑数据质量,比如能处理Solexa测序仪测序结果和SOLiD测序仪测序结果的MAQ软件,以及能用最新的“字符空隙转化成彩色空隙(color-space to letter-space)”的Smith-Waterman算法对SOLiD测序仪的双碱基编码测序结果进行分析的SHRiMP 工具(https://www.360docs.net/doc/7f4962902.html,/shrimp/)。

和序列比对算法的进展情况不同,如何将相对低质量的短片段序列从头组装起来还是一大难题。不过,已经有好几种组装工具开始投入使用了。对于这种短片段序列的从头组装工作来说,配对序列对于整个工作的成功与否影响最大,因此已经有人开始利用配对序列设计新的组装工具了。

2.3序列数据出版、发行、组织存档原则

目前对于如何组织、存档以及发布这些新一代测序仪产生的短片段序列结果正处于热烈的讨论之中,人们希望制定一个类似芯片试验(microarray experiments,https://www.360docs.net/doc/7f4962902.html,/)时制定的MIAME

(Minimum Information About a Microarray Experiment)规则。这些早期的工作经验在如何处理包括生物学注释信息、临床原始数据、关键试验细节(比如样品特征、样品处理方法)在内的元数据,以及如何处理、

出版发行这些数据等方面给了我们良好的建议。如何对这些新一代测序仪的测序结果数据进行公共管理也是一个需要探讨的问题。NCBI最近专门为短片段序列建立了数据库Short Read Archive(SRA),并同步制定数据提交格式。SRA数据库不仅会收集包括实验注释信息、试验参数等信息的数据,而且还会被整合到Entrez查询系统当中。目前的工作主要包括开发线上搜索工具、数据图形化工具,这些工作有望在近期完成。

3. 新一代测序技术的前景

在2007年6月,James Watson的基因组序列登录到了GenBank数据库当中,这是第一次使用非Sanger测序法获得了人类个体基因组序列,并且第一次将个人基因组序列公之于众。整个测序过程在两个月之内就完成了,花费不到100万美元,这只占耗时10年之久的人类基因组计划使用经费的千分之一,同时还是2007年5月在网上公布结果的Venter基因组计划费用的百分之一。我们比较了454测序仪最初的技术参数(每次可以获得两千万碱基序列,测序长度100bp,准确率96%)和用于对James Watson进行测序时的技术参数(每次可以获得一亿碱基序列,测序长度250bp,准确率超过99%),结果发现摩尔定律真的适用于基因组测序领域。

454测序仪和其它的新一代测序仪(图7)一起,展示出了小型化技术和并行处理技术的威力,它们提高了处理通量,降低了测序费用。除了引领新一代测序技术的发展之外,454公司的研发团队还开发了体外DNA文库构建、模板扩增等技术,而且这些技术现在都已经被市场上其它新一代测序仪所广泛使用。很快,随着计算机技术的飞速发展,个体基因组测序的费用将会由100,000美元降低到10,000美元,继而降低到1,000美元甚至更低。

个人基因组时代马上就要到来了!

从费用角度、适用范围和限制性来说,传统测序仪和新一代测序仪之间具有明显的差距。因此,对于每一个具体的项目来说,都需要仔细考虑,选择出最合适的测序仪。传统的Sanger测序法适用于对kb~mb长

度的DNA片段进行的小规模的测序项目。Sanger测序法相比新一代测序法而言具有极大的“间隔尺寸(granularity)”,既能用于大型项目也能用于小型项目。虽然与传统测序仪相比,新一代测序仪在某些方面很明显地处于劣势,比如在测序长度和准确率方面,但即便如此,在处理大规模的测序项目时大家还是倾向于选择新一代测序仪。

看看新一代测序仪对以往使用传统测序仪进行的生殖细胞突变和体细胞突变研究的帮助就可以认识到它们的作用有多么强大。在这项研究里,使用Sanger测序法除了试剂这一项费用之外,其它的费用也远远高过了使用其它新一代测序仪。这些其它费用包括在96孔板或384孔板中处理样品的费用、电泳费用、大量的生物信息学处理费用以及设备维护人工费用等。研究人员最近对100份样品中的100个基因使用传统测序方法究竟需要花费多少费用进行了一次非正式的调查,假设每个基因平均由10个外显子组成,结果发现整体费用在30万美元至100万美元不等,价格依据测序单位是非盈利的基因组测序中心还是商业化的测序服务机构而不同。很显然,这么高昂的费用对于任何一个实验室来说都是难以承受的。新一代测序仪除了能将测序费用降低好几个数量级之外,它们还具有所需仪器设备少的优点,不过新一代测序仪在后续数据处理方面会碰到问题。

各款新一代测序仪之间也有非常明显的差异(表10),它们都有各自“拿手”的绝活(表11)。有一些测序项目,比如重测序(resequencing)对于测序仪的测序长度要求就没有从头测序的要求高。对于需要依靠标签计数(tag counting)的测序项目,例如在定量分析蛋白质与DNA之间的相互作用时,我们就会更加需要能将待测片段分割成尽量多、尽量小片段的测序方法。测序的准确度和各自相对拿手的项目,比如是善于发现插入、缺失突变还是善于发现碱基替换突变也是需要着重考虑的问题。另外,在进行从头测序或发现结构性变异的研究时使用的配对测序法已经广泛应用于各种新一代测序仪当中。这时,这些配对的模板片段在芯片上的分布情况,比如相互之间的距离远近等就是需要重点考虑的问题了。

注:DNA测序领域的快速发展使得对各类测序方法的价格及读长的评估在很短时间内便失去意义。Roche Applied Science、Illumina及Applied Biosystems公司目前都在不断推出新的产品。表中列出的测序费用只是对使用的反应试剂费用的一个估算。测序长度指的是单链长度。

最后,需要考虑的当然是价格因素,各个新一代测序仪的费用都不相同,作为消费者,当然希望各个测序仪生产厂家之间的竞争更加激烈一点。单纯比较每个碱基的测序费用是一个不错的选择方法,不过有时这也会误导我们,比如准确率更高的方法当然费用会高一些。

5. 总结

过去几年间,新一代测序技术获得了突飞猛进的进展,同时有好几款使用大规模平行循环芯片测序技术的测序仪得到了广泛的应用。这几款测序仪虽然使用的技术有所差异,但是在测序数据的质量和数量方面都有着同样的特征,因此也都面临着同样的试验设计、数据分析和注释的问题。不过,这些新一代测序仪将以往的测序费用降低了好几个数量级。鉴于此,以前只有大型测序中心才能够开展的项目,现在在小型实验室里也能顺利进行了。由于新一代测序仪的出现,测序研究领域也开始升温,有些研究团队正在努力开发新的测序技术希望能够取代现有的新一代测序仪。按照目前的发展速度,我们很难估计几年之后的情况。不过,能够预计的是,下、下一代或者说是第三代测序仪一定会像十年前的芯片技术一样,迅速地普及开来,从而成为常规的技术。希望人们不仅关注测序技术本身的发展,更加关注如何利用测序技术来揭开生物学和医学上的众多谜团。

原文检索:

Jay Shendure & Hanlee Ji. (2008) Next-generation DNA sequencing. Nature Biotechnology, 26(10):1135-1145. Jonathan M Rothberg & John H Leamon. (2008) The development and impact of 454 sequencing. Nature Biotechnology, 26(10): 1117-1124.

原文地址是:https://www.360docs.net/doc/7f4962902.html,/archives/153(推荐看原文,此外丁丁的其他文章也写得不错

四、新型纳米孔测序技术

新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,因而可以在此基础上使用多种方法来进行高通量检测。此外,纳米级别的孔径保证了检测具有良好的持续性,所以测序的准确度非常高。对于长达1,000个碱基的单链DNA分子、RNA分子或者更短的核酸分子而言,根本无需进行扩增或标记就可以使用纳米孔测序法进行检测,这使得便宜、快

三代测序原理技术比较

导读从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序 技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1:测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA 合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为 sanger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

DNA测序技术的发展和其最新进展

DNA测序技术的发展及其最新进展 摘要:自从诺贝尔奖得主桑格于1977年发明了第一代DN测序技术以来,DNA测序技术已经作为重要的实验技术广泛的应用于现代生物学研究当中。经过了几十年的发展,DNA测序技术日臻成熟,并且以单分子测序为特点的第三代测序技术也已经诞生。本文主要就每一代测序技术原理和特点及其最新进展做简要介绍。 关键词:DNA测序技术;第三代DNA测序技术;最新进展 The Development and New Progress of DNA Sequencing Technology Abstract: Since Nobel Prize Winner Sanger have founded the first generation of DNA Sequence technology in 1977, DNA sequencing technology has been widely used in modern biological researches as an important experimental. Over decades of year’s development, DNA sequence technology mature gradually and the third generation sequencing technologies characterized by single-molecule sequencing have also emerged. The mechanisms and features of each generation of sequencing technology and their latest progress will be discussed here. Key Words: DNA Sequence technology ; third generation DNA sequencing ;latest development 1.引言 DNA测序技术是分子生物学研究中最常用的技术,它的出现极大地推动了生物学的发展。自从1953年Watson和Crick发现DNA双螺旋结构后[1],人类就开始了对DNA序列的探索,在世界各地掀起了DNA测序技术的热潮。1977年Maxam和Gilbert报道了通过化学降解测定DNA序列的方法[2]。同一时期,Sanger发明了双脱氧链终止法[3]。20世纪90年代初出现的荧光自动测序技术将DNA测序带入自动化测序的时代。这些技术统称为第一代DNA测序技术。最近几年发展起来的第二代DNA测序技术则使得DNA测序进入了高通量、低成本的时代。目前,基于单分子读取技术的第三代测序技术已经出现,该技术测定DNA序列更快,并有望进一步降低测序成本,推进相关领域生物学研究。本文主要介绍DNA测序技术的发展历史及不同发展阶段各种主要测序技术的特点,并针对目前新一代DNA测序技术及目前国际DNA测序最新进展做简要综述。

新一代测序技术的发展及应用前景

2010年第10期杨晓玲等:新一代测序技术的发展及应用前景 等交叉学科的迅猛发展。 1.1第二代测序——高通量低成本齐头并进以高通量低成本为主要特征的第二代测序,不再需要大肠杆菌进行体内扩增,而是直接通过聚合酶或者连接酶进行体外合成测序¨】。根据其原理又可分为两类:聚合酶合成测序和连接酶合成测序。1.1.1聚合酶合成测序法Roche公司推出的454技术开辟了高通量测序的先河。该技术通量可达Sangcr测序的几百倍,而成本却只有几十分之一,因此一经推出,便受到了国际上基因组学专家的广泛关注。454采用焦磷酸合成测序法HJ,避免了传统测序进行荧光标记以及跑胶等繁琐步骤,同时利用乳胶系统对DNA分子进行扩增,实现了大规模并行测序。截止到2010年4月,已有700多篇文献是采用了454测序技术(http://454.com/publications.and—resources/publications.asp),对该技术是一个极大的肯定。 Illumina公司推出的Solexa遗传分析仪是合成技术的进一步发展与延伸。该技术借助高密度的DNA单分子阵列,使得测序成本和效率均有了较大改善。同时Solexa公司提出的可逆终止子”1也是该技术获得认可的原因之一。与454相比。Solexa拥有更高的通量,更低的成本。虽然片段长度较短仍是主要的技术瓶颈,但是对于已有基因组的物种来说,Solexa理所当然成为第二代测序技术的首选。2008年以来,利用该技术开展的研究大幅度上升,报道文献达400多篇(http://www.illumina.com/systems/genome—analyzer_iix.ilmn)o 1.1.2连接酶合成测序法2007年ABI公司在Church小组拍1研究成果的基础上推出了SOLID测序仪。该技术的创新之处在于双碱基编码…的应用,即每个碱基被阅读两次,因此大大减少了测序带来的错误率,同时可以方便的区分SNP和测序错误。在测序过程中,仪器自动加入4种荧光标记的寡核苷酸探针,探针与引物发生连接反应,通过激发末端的荧光标记识别结合上的碱基类型。目前SOLID3.0测序通量可达20G,而测序片段仅有35—50bp,这使得该技术与Solexa相比,应用范围还不够广泛。ABI公司正加快研发进度,争取在片段长度方面做出重大突破。 DanaherMotion公司推出Polonator¨1测序仪同样也是基于Church小组的研究成果,但是该设备的成本要低很多,同时用户在使用时可以根据自己的研究目的设置不同的测序条件。而CompleteGe—nomics公司推出的DNA纳米阵列与组合探针锚定连接测序法"1则具有更高的容错能力,试剂的消耗也进一步减少,目前已顺利完成3个个体基因组的测序工作。 1.2第三代测序——单分子长片段有望实现第二代测序技术虽然在各方面都有了较大的突破,但是仍然建立在PCR扩增的基础上。为了避免PCR扩增带来的偏差,科学家目前正在研制对DNA单个分子直接测序的第三代测序仪。最具代表性的包括Heliscope单分子测序仪,单分子实时合成测序法,纳米孔测序技术等。 Helicos技术仍然是基于合成测序原理¨…,它采用了一种新的荧光类似物和灵敏的监测系统,能够直接记录到单个碱基的荧光,从而克服了其他方法须同时测数千个相同基因片段以增加信号亮度的缺陷。PacificBioscienees公司研发的单分子实时合成测序法充分利用了DNA聚合酶的特性,可以形象的描述为通过显微镜实时观测DNA聚合酶,并记录DNA合成的整个过程。纳米孔测序技术[11’121则是利用不同碱基在通过纳米小孔时引起的静电感应稍有不同,或者不同碱基通过小孔的能力各有差异,来加以区分不同的碱基信号。 2应用与实践 Kahvejian在2008年的一篇综述中提到¨“:“如果你可以随心所欲地测序,你会开展哪些研究?”。人类基因组计划的完成和近年来高通量测序的兴起,使越来越多的科研工作者认识到,我们对于生物界的认识才刚刚起步。基因图谱的绘制并不意味着所有遗传密码的破解,癌症基因组的开展也没有解决所有的医学难题。DNA变异的模式和进化机制,基因调控网络的结构和相互作用方式,复杂性状及疾病的分子遗传基础等,仍是困扰生物学家和医学家的难题,而高通量测序的广泛应用,也许可以让我们知道的更多。 2.1DNA水平的应用 2.1.1全基因组测序新一代测序技术极大地推

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

基因测序技术的优缺点及应用

基因测序技术的优缺点及应用 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序 (next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的 DNA 片段存在于反应体系中,具有单个碱基差别的 DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用 Sanger 直接测序 FGFR 2 基因证实单基因 Apert 综合征和直接测序 TCOF1 基因可以检出多达 90% 的

新一代测序法简介

新一代测序法简介 新一代测序方法是一种直接测序法,它既可以分析基因和DNA的组成(定性分析),也可以测定同一类型基因在表达过程中产生的数量(定量分析),以及不同类型基因或DNA 之间的差别所在(交叉对比分析)。自2004年,454测序技术发展以来,已经出现的测序产品超过六种之多。这些产品的技术特点见下表: 产家名称产品技术特点优缺点 化学反应测序方法误读率样品准备高通量程度 Roche (454 Life Science) 焦磷酸标记的链 反应 焦磷酸基 标记 <1% 较复杂,需PCR 中等 Illumina(Solexa)四色可逆终止码合成法1%—3% 较复杂,需PCR 中—高ABI(SOLID) 双色可逆终止码合成法1%—5% 较复杂,需PCR 中—高Helicos Bioscience 单色可逆终止码合成法2%—8% 简单,无需PCR 高—超高Intelligent Biosystm 四色可逆终止码合成法1%—5% 较复杂,需PCR 中—高 Pacific Bioscience 四色焦磷酸基标 记焦磷酸基 标记 3%—8% 简单,无需PCR 高 VisiGen 焦磷酸基标记 FRET 焦磷酸基 标记 3%—8% 简单,无需PCR 高 在这些技术中,从所分析的样本在测序前是否需要扩增,大致可以分为两类,即克隆扩增型和单分子测序型。两种类型在测序技术上区别并不大,但对结果的影响却有不小的差别。主要体现在两个方面:(1)单分子测序更能反应细胞或组织内分子的真实情况,尤其是在需要定量分析的情况下。而克隆扩增型中的PCR反应使得样品中DNA分子的扩增机会并不完全均等,这会对基因表达的定量分析造成影响;(2)单分子测序具有通量更高的优势。克隆扩增使得同一类型的分子数目急剧上升,在提高同类型分在在固相表面出现的几率同时,也降低了不同类型分子出现的机会。 面重点介绍Pacific Biosciences公司推出的Single Molecule Real Time (SMRT?) DNA Sequencing(单分子实时DNA测序)。 首先,在这一测序技术中有主要有两个关键的技术: 一、荧光标记的脱氧核苷酸避免了碱基的空间位阻效应。显微镜现在也无法实现实时看到“单分子”,但是它可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入DNA 链的时候,它的荧光就同时能在DNA链上探测到。当它与DNA链形成化学键的时候,它的荧光基团就被DNA聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响DNA聚合酶的活性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样; 二、纳米微孔(Zero-mode waveguide (ZMW))。因为在显微镜实时记录DNA链上的荧光的时候,DNA链周围的众多的荧光标记的脱氧核苷酸形成了非常强大的荧光背景,这种强大的荧光背景使单分子的荧光探测成为不可能。Pacific Biosciences公司发明了一种直径只有10nm的纳米孔,单分子的DNA聚合酶被固定在这个孔内。在这么小的孔内,DNA链周围的荧光标记的脱氧核苷酸有限,而且由于A,T,C,G这四种荧光标记的脱氧核苷酸非常快速地从外面进入到孔内又出去,它们形成了非常稳定的背景荧光信号。而当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色的荧光会持续一小段时间,直到新的化学

纳米孔测序是极具前景的下一代测序技术

纳米孔测序是极具前景的下一代测序技术 Nanopore Sequencing 2019 - Patent Landscape Analysis 随着各种技术的新产品推出,哪些公司将在知识产权方面引领纳米孔测序? 纳米孔测序是极具前景的下一代测序技术 据麦姆斯咨询介绍,纳米孔测序是新一代测序(NGS)技术之一,被认为能够彻底革新DNA分析。随着时间地推移,目前已经开发出了不同形式的纳米孔测序技术,包括蛋白质纳米孔、固态纳米孔和复合纳米孔。该技术可以高速生成超长读数,减少样品制备时间以及将读数重组成原始序列所需要的数据处理时间。 这项新技术可以开发一个需要遗传指纹来快速识别癌症类型和病原体的全新客户群。根据DataBridge的数据,全球下一代测序市场将快速增长,市场规模预计将从2017年的48.3亿美元增长到2024年的163.5亿美元,2018~2024年期间的复合年增长率(CAGR)预计为19.2%。 目前,Oxford Nanopore Technologies是唯一一家将基于纳米孔的测序仪推向市场的公司。不过,还有其它几家公司正在开发自己的相关技术,Oxford Nanopore Technologies公司可能很快将不再是纳米孔测序仪的唯一供应商。例如,Two Pore Guys公司宣布将在2019年春季发布其产品套件。 随着新产品在未来的相继推出,了解纳米孔测序市场相关参与者的知识产权(IP)状况和策略,同时发现专利新申请人及其所带来的威胁至关重要。为此,著名市场研究机构Yole 子公司Knowmade深入调研了基于纳米孔的测序技术(蛋白质、固态和复合)及其应用(肿瘤学、植物遗传学等)中涉及的知识产权主要参与者。本报告可以帮助读者发现业务风险和机遇,预测新兴应用,支持战略决策以加强市场地位。 纳米孔测序全球专利申请趋势 对专利申请趋势的分析表明,从2008年到2013年,纳米孔测序相关的专利申请获得了重要增长。这一增长源自于学术研究团队(哈佛大学和加州大学)对纳米孔测序概念的验证。

新一代DNA测序技术总览

作者:尹银亮、陈会平、毛良伟译来源:生物谷 原文刊登于《分析化学》综述Analytical Chemistry 原文标题:Landscape of Next-Generation Sequencing Technologies 索引信息:https://www.360docs.net/doc/7f4962902.html,/10.1021/ac2010857 | Anal. Chem. 2011, 83, 4327–4341 原文作者:Thomas P. Niedringhaus, Denitsa Milanova, Matthew B. Kerby, Michael P. Snyder,and Annelise E. Barro 译者资料: 尹银亮,香港华大基因研发中心有限公司email:stevenyinbio@https://www.360docs.net/doc/7f4962902.html, 陈会平,毛良伟,武汉华大基因科技有限公司 【内容】 第二代测序 第二代测序成本 第三代测序技术 单分子测序法 边连接边测序法 边合成边测序法 纳米孔测序技术 蛋白质纳米孔测序法 固态纳米孔测序法 长距离阅读DNA的扩展方法 总结性评论 DNA测序正处在技术上天翻地覆剧变的阵痛之中,其突出特点是,测序通量(测序数据量)的大幅增长,原始数据中每个碱基的测序成本急剧下跌,并伴随着以巨资购买仪器以引进新技术的需求。以前看似高不可攀的奢侈性研究活动(如个人基因组测序,宏基因组学研究,以及对大量重要物种的测序),在短短几年之间,正以急速的步伐而变得越来越切实可行了。本篇综述将集中讨论在第三,第四代测序方法背后的故事:它们所面临的挑战;各种方法的局限性;以及它们带给我们的充满诱惑的前景。 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 在1977年,桑格测定了第一个基因组序列,是噬菌 体X174的,全长5375个碱基。其测序方法和历史过程以前已做过详细回顾。 后来的四色荧光桑格测序法(每一种荧光代表四种碱基中的一种)被用在自动毛细管电泳测序系统中,此系统由应用生物系统有限公司(Applied Biosystems Inc.)推上市场,后来该公司被整合入生命技术公司(Life Technologies)和贝克曼.考尔特公司(Beckman Coulter inc.)(见表1)。发表于2001年的第一个人类基因组

三代基因组测序技术原理(简介)

三代基因组测序技术原理简介 【写在前面的话】:首先,这一篇博文中的内容并非原创,而是对多篇文献中内容的直接摘录,有些图片和资料还来自身边的同事(在此深表谢意!),再夹杂自己的零星想法,写在这里分享与大家,同时也是为了方便自己日后若有需要能够方便获得,文章比较长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1: 测序技 术的发 展历程 生命体 遗传信 息的快 速获得 对于生 命科学 的研究 有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为sanger测序法制作了一个小短片,形象而生动。

三代测序原理技术比较

导从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测导序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从读长到短,再从短到长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到 长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势 位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变 革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在 这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1 :测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson )开创的链终止法或者是1976-1977年由马克西姆(Maxam和吉尔伯特(Gilbert )发明的化学法(链降解)?并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱 基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。 研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基 因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2' 和3'都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA 合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为san ger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了San ger法之外还出现了一 些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2 - 4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方 法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP 图2: Sanger法测序原理

一代、二代、三代测序技术

三代基因组测序技术原理简介 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1:测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和 ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为sanger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

基因组测序的数学模型分解

基因组组装 摘要 基因组测序是生物信息学的核心,有着极其重要的应用价值。新的测序技术大量涌现,产生的reads长度更短,数量更多,覆盖率更大,能直接读取的碱基对序列长度远小于基因组长度。所以测序之前DNA分子要经过复制若干份、随机打断成短片段。要获取整个DNA片段,需要把这些片段利用重合部分信息组织连接。如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。 本文建立改进后OLC算法模型。该模型首先使用了特定的编码规定,通过C++程序对庞大的数据先后进行十进制和二进制的处理,不改变数据准确性的前提下尽可能减小内存和缩短计算机操作时间,并引入解决碱基识别错误问题的一般思路消除初始reads中的碱基错误。然后通过深度优先算法,设定适当的阈值,找出具有重叠关系的碱基片段并形成一有向赋权图,其中点是碱基片段,边代表具有重叠关系,权值代表片段重叠的多少,将问题转化为图论中寻找最大赋权通路的问题,从而对OLC算法进行改进,采用图论的方法更直观和更具操作性的解决DNA的拼接问题,从而对OLC算法进行改进。最后再根据OLC算法对Hamilton 路径进行拼接,生成共有序列,通过多序列比对等方法,获得最终的基因组序列。 关键词:基因组测序 OLC算法深度优先算法Hamilton路径

一问题的重述 1.1 问题背景 快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。 1.2 问题提出 确定基因组碱基对序列的过程称为测序。目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为 ATACCTT GCTAGCGT GCTAGCGT AGGTCTGA 则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。 由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。 利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。具体解决问题如下: (1)建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。 (2)现有一个全长约为120,000个碱基对的细菌人工染色体,采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度约为70×,即基因组每个位置平均被测到约70次。试利

三代基因组测序技术简介及其原理整理.

三代基因组测序技术简介及其原理整理 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法以及1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解)。 1977年,桑格测定了第一个基因组序列——噬菌体X174,全长5375个碱基。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。 Sanger法原理: 1)在模板指导下,DNA聚合酶不断将dNTP(N=A/G/T/ C)加到引物的3’- OH末端,合成出新的互补链。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP,在互补链在DNA聚合酶作用下延伸时,一旦连接上ddNTP,由于双脱氧核糖的2’和3’都不含羟基,故不能同后续的dNTP形成磷酸二酯键而终止反应,随即形成一系列不同长度的、以同样引物为起始、以同一碱基终止的短片段混合物。 2)双脱氧核苷酸在每个DNA分子中掺入的位置不同,采用聚丙烯酰胺凝胶电泳区分长度差一个核苷酸的单链DNA,从而读取DNA核苷酸序列。 化学裂解法原理: 与Sanger法类似,将DNA模板分成4个反应。在每个反应中,先在模板5’端进行放射性标记,再加入能特异性在其中一种碱基处切开DNA的化学试剂。反应进行时,平均一个DNA分子只在随机位点产生一次裂解。接着,通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。 第二代测序技术 第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。经过不

新一代高通量测序技术SOLiD简介

新一代高通量测序技术SOLiD简介 目前市场上有四种高通量测序仪,分别是Solexa,454 (GS-FLX),SOLiD和Polonator。根据测序原理,它们可以被分为两大类:使用合成法测序(Sequencing by Synthesis)的Solexa和454,及使用连接法测序(Sequencing by Ligation)的Polonator和SOLiD。这些高通量测序仪的共同点是不需要大肠杆菌系统进行DNA模板扩增,且测序所得序列较短:其中的454序列最长,为200~300个碱基,其余三种序列都只有几十个碱基。测序原理及序列长度的差异决定了各种高通量测序仪具有不同的应用领域。这就要求我们在熟悉各种高通量测序仪内在技术特点的基础上进行选择。 基因组所引进的SOLiD (Sequencing by Oligonucleotide Ligation and Detection)是ABI(Applied Biosystems)公司生产的高通量测序仪。目前这台SOLiD运行稳定,SOLiD实验及数据分析小组也可以为大家提供专业的技术服务。所以接下来的关键是如何把SOLiD测序仪应用到符合其技术特点的科研项目中。本短文将简单介绍SOLiD测序流程,双碱基编码原理及数据分析原理,以帮助大家了解SOLiD测序仪的技术特点和应用范围。 1.SOLiD关键技术及其原理 SOLiD使用连接法测序获得基于“双碱基编码原理”的SOLiD颜色编码序列,随后的数据分析比较原始颜色序列与转换成颜色编码的reference序列,把SOLiD颜色序列定位到reference上,同时校正测序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。 1.1. SOLiD文库构建 使用SOLiD测序时,可根据实际需要,制备片段文库(fragment library)或末端配对文库(mate-paired library)。简单地说,制备片段文库就是在短DNA片段(60~110 bp)两端加上SOLiD 接头(P1、P2 adapter)。而制备末端配对文库,先通过DNA环化、Ecop15I酶切等步骤截取长DNA片段(600bp到10kb)两末端各25 bp进行连接,然后在该连接产物两端加上SOLiD接头。两种文库的最终产物都是两端分别带有P1、P2 adapter的DNA双链,插入片段及测序接头总长为120~180 bp。 1.2:油包水PCR 我们知道,文库制备得到大量末端带P1、P2 adapter但内部插入序列不同的DNA双链模板。和普通PCR一样,油包水PCR也是在水溶液进行反应,该水相含PCR所需试剂,DNA模板及可分别与P1、P2 adapter结合的P1、P2 PCR引物。但与普通PCR不同的是,P1引物固定在P1磁珠球形表面(SOLiD将这种表面固定着大量P1引物的磁珠称为P1磁珠)。PCR反应过程中磁珠表面的P1引物可以和变性模板的P1 adapter负链结合,引导模板合成,这样一来,P1引物引导合成的DNA链也就被固定到P1磁珠表面了。 油包水PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”,基本过程是在PCR反应前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR 反应空间。理想状态下,每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应,这个DNA模板的拷贝数量呈指数级增加,PCR反应结束后,P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。A BI公司提供的SOLiD 实验手册已经把小水滴体积及水相中DNA模板和磁珠的个数比等重要参数进行了技术优化和流程固定,尽可能提高“优质小水滴”(水滴中只含一个DNA模板一个P1磁珠)的数量,为后续SOLiD 测序提供只含有一种DNA模板扩增产物的高质量P1磁珠。

高通量测序:第二代测序技术详细介绍

在过去几年里,新一代DNA 测序技术平台在那些大型测序实验室中迅猛发展,各种新技术犹如雨后春笋般涌现。之所以将它们称之为新一代测序技术(next-generation sequencing),是相对于传统Sanger 测序而言的。Sanger 测序法一直以来因可靠、准确,可以产生长的读长而被广泛应用,但是它的致命缺陷是相当慢。十三年,一个人类基因组,这显然不是理想的速度,我们需要更高通量的测序平台。此时,新一代测序技术应运而生,它们利用大量并行处理的能力读取多个短DNA 片段,然后拼接成一幅完整的图画。 Sanger 测序大家都比较了解,是先将基因组DNA 片断化,然后克隆到质粒载体上,再转化大肠杆菌。对于每个测序反应,挑出单克隆,并纯化质粒DNA。每个循环测序反应产生以ddNTP 终止的,荧光标记的产物梯度,在测序仪的96或384 毛细管中进行高分辨率的电泳分离。当不同分子量的荧光标记片断通过检测器时,四通道发射光谱就构成了测序轨迹。 在新一代测序技术中,片断化的基因组DNA 两侧连上接头,随后运用不同的步骤来产生几百万个空间固定的PCR 克隆阵列(polony)。每个克隆由单个文库片段的多个拷贝组成。之后进行引物杂交和酶延伸反应。由于所有的克隆都是系在同一平面上,这些反应就能够大规模平行进行。同样地,每个延伸所掺入的荧光标记的成像检测也能同时进行,来获取测序数据。酶拷问和成像的持续反复构成了相邻的测序阅读片段。

Solexa高通量测序原理

--采用大规模并行合成测序法(SBS,Sequencing-By-Synthesis)和可逆性末端终结技术(ReversibleTerminatorChemistry) --可减少因二级结构造成的一段区域的缺失。 --具有高精确度、高通量、高灵敏度和低成本等突出优势 --可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究 ----将接头连接到片段上,经PCR扩增后制成Library。 ----随后在含有接头(单链引物)的芯片(flowcell)上将已加入接头的DNA片段变成单链后通过与单链引物互补配对绑定在芯片上,另一端和附近的另外一个引物互补也被固定,形成“桥” ----经30伦扩增反应,形成单克隆DNA簇 ----边合成边测序(Sequencing By Synthesis)的原理,加入改造过的DNA 聚合酶和带有4 种荧光标记的dNTP。这些dNTP是“可逆终止子”,其3’羟 基末端带有可化学切割的基团,使得每个循环只能掺入单个碱基。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3'端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA 片段的序列。目前的配对末端读长可达到2×50 bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。 Roche 454 测序技术 “一个片段= 一个磁珠= 一条读长(One fragment =One bead = One read)”1)样品输入并片段化:GS FLX 系统支持各种不同来源的样品,包括基因组DNA、PCR 产物、BAC、cDNA、小分子RNA 等等。大的样品例如基因组DNA 或者BAC 等被打断成300-800 bp 的片段;对于小分子的非编码RNA 或者PCR 扩增产物,这一步则不需要。短的PCR 产物则可以直接跳到步骤3)。 2)文库制备:借助一系列标准的分子生物学技术,将A 和B 接头(3’和5’端具有特异性)连接到DNA 片段上。接头也将用于后续的纯化,扩增和测序步

相关文档
最新文档