基因组序列拼接

基因组序列拼接
基因组序列拼接

硕士学位论文

基于reads引导的基因组序列拼接GENOME ASSEMBLY GUIDED BY READS

曾培龙

哈尔滨工业大学

2012年6月

国内图书分类号:TP391 学校代码:10213 国际图书分类号:621.3 密级:公开

工学硕士学位论文

基于reads引导的基因组序列拼接

硕士研究生:曾培龙

导师:王亚东教授

申请学位:工学硕士

学科:计算机科学与技术

所在单位:计算机科学与技术学院

答辩日期:2012年6月

授予学位单位:哈尔滨工业大学

Classified Index: TP391

U.D.C: 621.3

Dissertation for the Master Degree

GENOME ASSEMBLY GUIDED BY READS

Candidate:Zeng Peilong

Supervisor:Prof. Wang Yadong

Academic Degree Applied for:Master of Engineering Speciality:Computer Science and Technology Affiliation:School of Computer Science and

Technology

Date of Defence:June, 2012

Degree-Conferring-Institution:Harbin Institute of Technology

哈尔滨工业大学硕士学位论文

摘要

基因组序列拼接是生物信息学领域的核心问题,测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。新一代测序技术的快速发展,为生命科学重大问题的研究提供巨大帮助的同时,其数据海量、读取片段reads长度短、精确度低等特点也为全基因组序列拼接提出了相当严峻的挑战,而传统的序列拼接算法已不再适用。针对新一代测序的数据特点,研发能满足实际应用需要的基因组序列拼接软件,已显得极为迫切。

本文首先简要介绍了新一代测序技术的产生背景、测序策略及技术特点等,认真分析了基因组序列拼接所面临的主要挑战,比如大量重复片段的存在,reads数据海量、长度短及含有测序错误等,深入探讨了当前基因组序列拼接所采用的主要策略,即贪心策略,交叠-排序-生成共有序列(OLC)策略和De Bruijn图策略等,总结了不同算法的优势及不足,并提出了序列拼接算法的改进方向。

接着,本文提出了基于reads引导的基因组序列拼接算法,以整条reads为拼接的基本单位,并率先在拼接算法中提出了基于信息累计和数据特征相结合的评分方法。该算法分为reads拼接和contigs组装两个阶段,contigs是由reads拼接生成的长序列片段。reads拼接阶段主要包括数据预处理、De Bruijn图的建立、contigs构建等,而contigs组装阶段则主要有contigs相对位置的确定、交叠overlap检测、contigs连接及空隙gaps填充等过程,其中在确定contigs的相对位置时首次提出了配对数目数组PEN的概念,并用序列比对的方法消除或纠正contigs末端的碱基错误,提高了拼接精度。

最后,进行了算法验证和性能评价。选取若干组数据对该算法软件进行测试,并用评测软件Mauve Assembly Metrics将拼接结果与主流的拼接软件进行比较,分析评测结果,得出了该算法在序列拼接时无论是拼接的长度还是拼接的准确度都表现不错的结论。

关键词: 生物信息学;新一代测序技术;基因组序列拼接;reads;De Bruijn图

哈尔滨工业大学硕士学位论文

Abstract

Genome assembly is the core issue of bioinformatics, and assembling reads produced by DNA sequencing can generate genome sequences. The emergence of next generation sequencing has provided great aid for the life science research on major issues, but at the same time, it brings genome assembly an unprecedented challenge due to its data of mass, short length and relatively low precision, while traditional algorithms are no longer applicable. Development of sequence assembly software that could meet practical application has become the most important research topic.

Firstly, this paper makes a brief introduction of next generation sequencing, such as background, sequencing strategies and technology features, analyzes the main challenges of genome assembly, for instance, existence of many repeats, data of mass, short length and relatively low precision and investigates main genome assembly strategies deeply, including greedy, overlap-layout-consensus and De Bruijn graph. Besides, this paper also sums up the advantages and disadvantages of different algorithms, and provides specific suggestions for future algorithms.

Secondly, this paper proposes a new genome assembly guided by reads, regarding entire reads sequences as the basic assembly unit. This algorithm firstly invents a scoring mechanism based on accumulated assembly information and data characteristics. This algorithm is divided into two phases, reads assembly and contigs assembly. Reads assembly mainly consists of data preprocessing, De Bruijn graph construction and contigs generation.While contigs assembly includes determining the relative positions of contigs, overlap detection, contigs link and gaps filling, puts forward the concept of paired reads number PEN array and removes or corrects contigs end errors using sequence alignment methods to improve assembly quality.

Finally, this paper introduces algorithm verification and performance evaluation. Several sets of data is choosed to test this algorithm software and Mauve Assembly Metrics is used to compare the assembly results of this algorithm and other main assembly software. After analyzing the evaluation results, this paper comes to a conclusion that our assembly algorithm performs well in both assembly length and assembly precision.

.

Keywords: bioinformatics, next-generation sequencing, genome assembly, reads, De Bruijn graph

哈尔滨工业大学硕士学位论文

目录

摘要....................................................................................................................... I Abstract .................................................................................................................... I I 第1章绪论 (1)

1.1 课题研究背景及意义 (1)

1.2 国内外研究现状及分析 (2)

1.3 本文内容和结构 (5)

第2章新一代测序与基因组序列拼接 (7)

2.1 新一代测序技术简介 (7)

2.1.1 新一代测序技术的产生背景 (7)

2.1.2 新一代测序技术的测序平台及测序策略 (7)

2.1.3 新一代测序技术的特点 (10)

2.2 基因组序列拼接面临的主要挑战 (11)

2.3 基因组序列拼接的主要策略 (13)

2.3.1 贪心策略 (13)

2.3.2 交叠-排列-生成共有序列(OLC)策略 (13)

2.3.3 De Bruijn图策略 (14)

2.3.4 拼接算法的比较 (15)

2.4 基因组序列拼接的改进方向 (16)

2.5 本章小结 (16)

第3章基于reads引导的基因组序列拼接算法 (17)

3.1 总体思路 (17)

3.2 reads拼接 (18)

3.1.1 拼接前reads数据预处理 (18)

3.1.2 De Bruijn图的建立 (19)

3.1.3 contigs构建 (22)

3.3 contigs组装 (28)

3.3.1配对文库参数的校正 (28)

3.3.2 contigs相对位置的确定 (29)

3.3.2 contigs连接 (34)

哈尔滨工业大学硕士学位论文

3.4 本章小结 (38)

第4章算法验证及结果分析 (39)

4.1 算法的输入与输出 (39)

4.2 序列拼接的评价标准 (41)

4.3 评测结果及分析 (42)

4.4 本章小结 (44)

结论 (45)

参考文献 (46)

攻读硕士学位期间发表的论文 (46)

哈尔滨工业大学硕士学位论文原创性声明 (51)

哈尔滨工业大学硕士学位论文使用授权书 (51)

致谢 (52)

哈尔滨工业大学硕士学位论文

第1章绪论

1.1课题研究背景及意义

基因组包含了生物体的遗传信息,因此,获得生物体基因组的全部序列对于生物学研究,探索与认识生命本质具有十分重要的现实意义。自从1977 年Sanger 建立了“双脱氧链终止反应测序法[1]”和Maxam与Gilbert建立的“DNA化学降解测序法[2]”以来,DNA 测序已经成为了现代生物学研究的常规手段之一。在过去的30 年中,基于Sanger 测序方法发展了各种改进型测序方法和测序仪器。

2005 年以来,454、Illumina(前身Solexa)和ABI 公司相继推出新一代测序仪,大规模高通量的新一代测序技术能够让更多的测序反应在同一表面同时进行,其最显著优点就是大幅度降低了测序时间和花费。2007 年,Baylor医学院(Baylor College of Medicine)和454 Life Sciences 公司的研究人员,用两个月时间,花费一百万美元,对“DNA之父”James Watson 的基因组进行了测序[3]。2008 年11 月,《Nature》杂志刊登三个使用Solexa测序技术的人类基因组图谱:炎黄一号─第一个亚洲人图谱[4];第一个癌症病人图谱[5];第一个非洲人图谱[6]。2008年,由中国、英国和美国的科学家启动了“千人基因组计划”。这一宏伟计划将采用几种新的高通量测序平台,测定选自全世界各地的至少一千个人类个体的全基因组DNA序列,绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱。这些成果标志着人类基因组测序领域的又一个里程碑,新一代测序技术正朝着个人化基因组这一伟大目标迈进[7]。

与传统测序方法相比,新一代测序技术测序通量高,现如今SOLiD3运行一次即获得20GB可定位测序数据,相当于人类基因组的7倍覆盖度。国内东南大学自主研发的新一代测序技术运行一次将有可能产生60GB可定位测序数据,一次测序可以覆盖人类基因组20倍。但是新一代测序技术目前产生的DNA序列比毛细管测序仪器产生的序列要短很多,毛细管测序仪产生的序列的长度可以达到900 bp,而454测序仪的序列长度为250 -400bp,Solexa为50-75bp。新一代测序技术的这些数据特征为生物信息学提出了挑战,尤其对于基因组拼接问题,短的序列长度和配对末端的缺乏,使拼接算法难于消除重复区域,导致拼接出现碎片[8]。目前,新一代测序技术产生的原始数据对数据分析及基因组功能注释提出了迫切的需求,生物信息学需要研究相关数据分析方法与生物信息挖掘算法,为生命科学的发展提供帮助。

基因组从头测序拼接组装(de novo assembly)是生物信息学研究领域的核心问题,测序产生的读取片段reads数据通过序列拼接、组装,获得基因组的碱基排列,为

哈尔滨工业大学硕士学位论文

本课题拟结合新一代测序数据的数据特征,提出基于拼接信息累计和数据特征相结合的评分方法,并进一步提出适合新一代测序数据的基因组序列拼接算法,设计优化的数据处理方法,减少不必要的重复计算,采用GC含量校正拼接结果中重复段的拷贝数,提高数据拼接组装的速度和质量。本课题的完成将为新一代测序数据的分析和处理提供理论指导和技术支持,加快全基因组测序研究的步伐,具有重要的理论与现实意义,并具有重要的应用价值,必将较大提升我国在生物信息学领域的国际地位。

1.2国内外研究现状及分析

新一代测序技术的出现为生命科学重大问题研究提供新的手段的同时,其海量数据及长度短、精度相对较低等特点,对生物信息学提出了前所未有的严峻挑战[9-11]。海量读取片段reads数据的处理能力远远落后于测序数据的爆炸性增长速度。测试数据的快速、准确的分析已经成为生命科学研究的瓶颈。如图1-1所示,2006年到2010年积累的新一代短片段数据量远远超过了过去10年所获得的基因组测序的总和。

图1-1 GenBank数据增长趋势

如图1-2所示,符合SRA标准的新一代测序数据在过去几年的增长情况,与图

1-1相比可以看出数据分析速度远远落后于数据产生速度,尤其是2010年数据的增长更是“爆炸式的”,而且这些只是目前产生的新一代测序数据的很小部分,目前一台SOLiD测序仪一次运行即可获得0.2 T的数据量。比较两图,可以看出当前数据

哈尔滨工业大学硕士学位论文

面临极大挑战。

图1-2 SRA数据增长趋势

基因测序的根本目的是获取生物体的全基因组序列,并对全基因组序列进行相关的数据分析,从而为生命科学领域的重大问题提供帮助。测序产生的reads数据是短的序列片段,尚满足不了应用需要,需要进一步的拼接组装。基于新一代测序的全基因组拼接组装问题,从应用问题类别来可分为重测序问题(已经测序过的物种的新样本测序)和新物种测序问题(未测序过物种的测序)以及混合物种基因组分析问题(提取环境,如土壤、水或者人身体的一部分中的DNA,并且对此包含多个物种混合信息的样本进行测序)。测序技术的快速发展,为获取更多新物种的全基因组序列创造了条件。本文着重研究的是新物种测序,即全基因组从头测序拼接组装(de novo assembly)。

传统的序列拼接方法是针对Sanger测序数据而设计的,Sanger测序的拼接组装问题主要有以下几方面的特点:reads比较长(750~1000bp)、测序精度高(每个碱基的准确率高达99.999%)、采用配偶成对(mate-pairs)文库技术等,以及每次拼接范围较小(~10Mbp大小的DNA片段)、测序速度较慢(900,000 bp/天)。为此,传统的拼接算法是以巨大的测序费用和时间开销为代价降低了计算复杂性压力。新一代测序技术的出现,对传统的拼接组装方法提出了挑战。新一代测序的reads长度普遍较短,测序的错误率较高,产生的数据量大(一次测序产生的数据能够覆盖~1Gbp范围内DNA序列),要求算法具有海量数据拼接的能力,因此传统的基于Sanger测序数据的拼接方法遇到了性能极限,很难直接用于新一代测序数据。由于新一代DNA测

哈尔滨工业大学硕士学位论文

人们对新一代测序技术的研究[12-16],相继出现了不同研究团队针对各自研究课题,研发基因组序列拼接软件工具来解决具体生物学问题的局面。

短序列从头拼接是新物种从头测序的关键。根据测序物种基因组规模可分为小型基因组从头测序和大型基因组从头测序。小型基因组从头测序(基因组规模小于10Mb)一般直接通过某种拼接算法完成全基因组序列组装;而大型基因组(基因组规模一般在1Gb左右)由于很难通过某种具体的算法直接拼接生成完整的基因组序列,往往采用迭代的方式。首先拼接成3kb~10Mb以内的若干基因组连续片段contigs,然后把这些contigs作为参考序列进行延伸,逐步合并成更长的contigs,反复迭代该过程直至得到完整的全基因组序列。

从基因组拼接软件的研发历程来看,序列拼接主要有贪婪(greedy)、交叠-排列-生成共有序列(Overlap-Layout-Consensus, OLC)和De Bruijn图等方法。就传统的测序方法产生的测序数据而言,由于其reads长度较长,准确度高,数据量小,往往采用前两种方法。贪婪和OLC方法以reads为计算中心,都是利用reads片段之间的交叠,通过寻找最优的公共路径来进行拼接。然而,新一代测序数据的reads 长度较短、准确度较低、数据海量,序列拼接面临着海量计算的困境[17]。虽然也有若干新一代测序数据的拼接软件依然采用贪婪和OLC方法,但拼接效果往往很不理想[18,19,20]。针对新一代测序技术的数据特点,De Bruijn图架构借鉴了Pevzner和Waterman等人针对传统传统测序产生的reads提出的欧拉路径方法[21],并在此基础上进行了进一步的改进,为新一代测序数据的拼接组装提供了很好的思路。

目前,从头测序的短序列拼接组装算法普遍采用De Bruijn图。在De Bruijn图中,每个(读取片段reads的子串)k-mer都构成图的节点,如果两个k-mers在某条read 中相邻,那么这两个节点之间就有一条边。reads集合中的每条read都对它所含的节点和边加权,这样,就构造了节点和边都具有权值的De Bruijn图。

第一个基于De Bruijn图拼接算法是的Newbler[22],之后2007年末到2010年,陆续出现了很多直接或间接使用De Bruijn图的拼接算法,不同的方法在处理测序错误的方式和使用reads信息的程度上(例如是否使用mate-pair信息)有所不同。ALLPATHS [23-24]适用于大型基因组的拼接,通过构建reads的唯一公共路径,来简化De Bruijn图。其拼接算法需要多个配对数据文库,并且在De Bruijn图中存储了碱基的质量信息,虽然其拼接结果具有较高的准确性,但同时也需要更大的计算复杂性,更高的硬件要求和更长的运行时间。ABySS[25]是一个可扩展的并行化拼接软件,使用网格(grid)上的分布存储的De Bruijn图来克服大型基因组拼接时的内存限制。EULER-SR[26]为了避免由于重复序列导致的错拼,采用不同k-mer大小(一般

哈尔滨工业大学硕士学位论文

端包含不准确碱基的reads,并通过配对数据的限制以提高结果的准确性。Velvet[27]采用一系列独立的算法,通过移除De Bruijn图中尖端结构(tips)和泡状结构(bubble)的方法来避免拼接过程中的错误,并用基于配对数据的Pebble算法平滑节点之间的连接来提高结果的准确性[28]。SOAPdenovo[29]巧妙结合了De Bruijn图策略和OLC 策略,通过移除错误连接、尖端结构(tips)和泡状结构(bubbles),以及多路径的分离来简化De Bruijn图,生成contigs;并利用配对数据对生成的contigs进行组装,最终生成全基因组目标序列。其中,部分拼接算法还考虑了覆盖深度信息[27,29],但是没有采用GC含量校正拼接结果中重复段的拷贝数。

新一代测试数据在提高测序速度、降低测序成本的同时,也给后续的数据处理带来了严峻的挑战。尽管目前人们针对各自的研究课题开发了一些处理全基因组序列拼接组装软件,并且成功地进行了许多物种的全基因组拼接组装。然而,数据的处理和分析过程一般局限在大型集群的并行平台上完成,并且效率也不高(小型基因组也需要若干小时的拼接组装时间),迫切需要适合于新一代测序的海量reads数据拼接组装算法。此外,当前短序列拼接组装算法,没有足够合理地将数据处理方法和数据结合起来,导致了一些不必要的计算,拼接组装效率不高,结果的准确性也有待提高。因此,如何深入研究新一代测序数据特征,提出新的优质高效的基因组序列拼接组装算法,提高海量reads数据精确处理能力,是本课题研究的关键问题。

因此,本课题针对全基因组从头测序中的拼接组装问题,从reads拼接信息的角度入手,提出适合新一代测序数据的快速、高精度的短序列拼接组装算法。本课题拟结合新一代测序数据的碱基出错特征,优化数据处理方法,提出基于拼接信息累计与数据特征相结合的评分方法,并在此基础上研发全基因组短序列拼接组装算法,建立拼接组装软件系统。本课题的完成将为新一代测序数据的处理与分析提供理论指导和技术支持,使我国在基因组从头测序的理论与实践方面上一新台阶。1.3本文内容和结构

本课题主要研究内容:认真分析新一代测序数据的特点,深入探讨当前基因组序列拼接所面临的主要挑战及所采用的主要策略,抽象出序列拼接的计算模型,提出并实现新的基因组序列拼接算法。本文主要分为以下几个部分:

第一章:介绍本课题的研究背景及意义,以及国内外的研究现状和发展动态,并说明本课题的主要研究内容。

第二章:简要介绍新一代测序技术,包括新一代测序技术的产生背景、测序策略及技术特点等,重点分析基因组序列拼接所面临的主要困难,以及被广泛采用的

哈尔滨工业大学硕士学位论文

和不足,并指出基因组序列拼接算法的发展趋势和改进方向。

第三章:在前几阶段工作的基础上,提出基于reads引导的基因组序列拼接算法。该算法主要包括两个阶段,即reads拼接阶段和contigs组装阶段。reads拼接阶段主要有De Bruijn图的建立,构建contigs等过程,重点介绍基于拼接信息累计和reads数据区域特征的打分导航机制,以及配对数据在序列拼接过程中的应用。contigs组装阶段主要包括contigs相对位置的确定、contigs连接及gaps填充等内容,重点分析确定contigs相对位置时PEN数组的应用以及用序列比对的方法检测contigs之间overlap和gaps等。

第四章:进行算法验证和性能评价。介绍系统的输入与输出,讨论系统评价时常用的指标,选取若干组数据对所研发的软件系统进行测试,将序列拼接结果和常用的序列拼接软件做比较,并对比较结果进行分析。

哈尔滨工业大学硕士学位论文

第2章新一代测序与基因组序列拼接

2.1新一代测序技术简介

DNA是细胞中的信息储藏分子,其4种不同核苷酸的特定序列经RNA聚合酶转录成mRNA,然后在核糖体中被翻译成蛋白质。蛋白质是生命活动的载体,DNA 通过蛋白质调控具体的生命活动。任何DNA片段的基本分子特征都来自其核苷酸的排列顺序。碱基是核苷酸的组成部分,有A、C、G、T四种。DNA测序就是指通过一定的技术手段,来获取DNA分子的碱基序列。

2.1.1新一代测序技术的产生背景

DNA测序技术已广泛地应用于生命科学的各个领域,很多重大的生命科学问题都可以借助于高通量DNA测序技术来解决。自从链终止法DNA测序技术被发明以来,科学家们就一直希望能够进一步扩大DNA测序技术的处理规模,因为测序技术的发展速度已经远远跟不上实验要求的增长速度。过去的几年中,DNA测序技术受到了以下几个方面的促进。

(1)人类基因组计划的出现,使科学家们面临了巨大的经费问题,因为传统的Sanger测序法几乎没有留下任何优化途径以实现大幅降低DNA测序成本。

(2)短读取片段测序的潜在效用得到了极大加强,由于几乎所有主要模式生物都经过了全基因组的拼接组装,因此以它们作为参考序列,短序列读取片段能够拼接组装成目标序列。

(3)多种分子生物学方法得到了发展,需要高通量的DNA测序进行评估(例如遗传变异,RNA的表达,蛋白质-DNA相互作用和染色体构象等)。

(4)总体技术取得重大进展,包括显微镜、表面化学、核苷酸生物化学、聚合酶工程、计算机应用、数据存储等,在DNA测序技术方面越来越多的替代性实际技术相继出现。

2.1.2新一代测序技术的测序平台及测序策略

目前,主流的新一代测序平台主要有美国Roche Applied Science公司的454测序仪[22]、美国Illumina公司和英国Solexa technology公司合作开发的Illumina测序仪[30,31]、美国Applied Biosystems公司的SOLiD测序仪[32] 、Dover/Harvard公司的Polonator测序仪以及美国Helicos公司的HeliScope单分子测序仪等。这些测序平台都使用了新的测序策略——循环芯片测序法(cyclic-array sequencing),也通常称之

哈尔滨工业大学硕士学位论文

循环芯片测序法,简言之就是对布满DNA样品的芯片重复进行基于DNA的聚合酶反应(模板变性、引物退火杂交及延伸)以及荧光序列读取反应。与传统测序法相比,循环芯片测序法操作更简易、费用更低廉、通量高,很快就获得了广泛的应用。

图2-1 传统的Sanger测序法及新一代DNA测序技术工作流程如图2-1所示,(a)高通量鸟枪Sanger测序法。首先基因组DNA被随机切割成小片段分子,接着重多小片段DNA被克隆入质粒载体,随后转化到大肠杆菌中,最后培养大肠杆菌提取质粒,进行测序。每一个测序反应都在只有几微升的反应体系中完成,测序后获得一系列长短不一的末端标记有荧光的片段,最后通过对每一个延伸反应产物末端荧光颜色进行识别来读取DNA序列。

哈尔滨工业大学硕士学位论文

图2-2 循环芯片测序技术示意图

(b)鸟枪循环芯片测序法。首先将基因组DNA随机分割成小片段DNA分子,然后在这些小片段DNA分子的末端连接上普通的接头,最后用这些小片段DNA分子制成polony芯片。每一个polony中都含有一个小片段DNA分子的许多拷贝,许多这样的polony集合在一起就形成了polony芯片。这样一次测序反应就尅同时对

哈尔滨工业大学硕士学位论文

荧光颜色进行识别来读取DNA序列,重复上述步骤就能获得完整的序列。

如图2-2所示,(a)454测序仪的使用方法,经微乳液PCR法扩增后,携带有大量填充分子的微珠被放置到芯片上的微孔中,随后使用焦磷酸法测序。每一轮测序反应都会掺入一个核苷酸,随后加入反应试剂荧光素和5’端腺苷酰硫酸,这样在每个小孔中每当有聚合酶将核苷酸掺入时都会发光,最后用腺苷三磷酸双磷酸酶洗去多余的核苷酸。

(b)Solexa测序仪采用桥式PCR直接在芯片上进行填充板片段扩增,然后同时加入四种经过修饰的脱氧核苷酸。每个核苷酸都带有一种荧光基因和一个可以去除的终止基因,经过修饰的DNA聚合酶通过引物延伸测序反应。采集图像,切除荧光基因和终止基因。重复上述反应,完成测序。

(c)SOLID测序仪和Polonator测序仪,使用微乳液PCR法扩增填板片段。在SOLID测序仪中,每次反应都会在引物末端加上一个荧光标记的8bp的探针,在探针中央的两个碱基上标有荧光基因,探针被连接上后会发出荧光。随后荧光基因部分被切成,重新进行下一轮反应。经过几轮这样的测序反应后会得到一段不连续的碱基序列,然后变性去掉已被延伸的引物,重新结合上新的引物进行新一轮测序反应。

(d)Heliscope测序仪,单核酸分子不经扩增直接测序。Poly-A尾被添加到DNA 文库末端,通过与固定在芯片上的Poly-T互补杂交将填板链固定在芯片上,制成测序芯片,填板上标记有Cy3以标记出他们在芯片上的位置。DNA聚合酶将有荧光标记的核苷酸掺入到引物上,采集荧光信息,获取序列信息。切除荧光基因,重复上述步骤,完成测序。

2.1.3新一代测序技术的特点

相对于传统的Sanger测序,新一代测序有以下几个特点:

(1)突破了一系列限制平行测序规模的瓶颈。

新一代测序技术在测序过程中体外构建DNA文库,并且体外克隆扩增待测DNA片段,这就解决了传统Sanger测序技术中比如转化大肠杆菌以及阳性克隆挑选等好几个限制平行测序规模的瓶颈问题。

(2)极大地提高了平行测序的能力。

新一代测序采用了基于芯片的测序方式。由于每一个待测DNA片段克隆的直径非常小,通常都不到1μm,因此可以同时对数亿个待测DNA片段进行测序。

(3)极大地降低了测序费用。

哈尔滨工业大学硕士学位论文

每一个待测DNA片段都被固定在芯片上的固定位置,因此可以一次性对芯片上的所有片段进行测序,而该过程只需要使用几微升的反应试剂,也就是说每一个待测片段单独只使用了几皮升(picoliter)或几飞升(femtoliter)的酶等反应试剂,从而测序反应的费用得到了极大的降低。

(4)读取片段长度短。

传统的Sanger测序法已经可以对长达1000bp的DNA片段进行测序,几乎所有的新一代测序技术的读取片段长度都要明显短于传统测序技术的长度,为后续的数据分析及应用带来了严峻的挑战。

(5)测序准确率偏低。

平均起来,新一代测序的准确率要低于传统的Sanger测序至少10倍以上。2.2基因组序列拼接面临的主要挑战

新一代测序技术在降低测序费用的同时,其读取片段短、测序精度低等特点,再加上基因组本身固有的特性,使短序列的拼接组装面临着巨大的挑战。

(1)基因组存本身在着大量的重复区域。

基因组的重复区域repeats是指在基因组全序列中出现两次或两次以上的基因组序列片段。重复区域短的往往只有几bp,而长的则可达几十kb。据统计真核生物的重复区域往往多达50%以上,即使基因组较为简单的细菌也有5%的重复区域。序列拼接是个NP-Hard[33]问题,而重复区域的存在大大加深了这个问题的难度。首先,这些重复区域不稳定,比较难克隆。其次,它们能够干扰DNA聚合酶,影响测序的进行。此外,由于重复区域相似的序列结构,在进行序列拼接时常把一个序列弄错成其它序列。重复区域的存在极易造成错误拼接,是序列拼接组装过程中最难解决的问题,如图2-3所示。在拼接过程中,往往利用增加reads长度和使用配对数据来试着解决重复区域引起的错误拼接问题[34]。reads长度的增加与具体的测序技术紧密相关,在reads长度一定的前提下,如何合理的使用配对数据对提高基因组的拼接质量至关重要。

(2)DNA读取片段reads长度较短。

由于测序技术的限制,现阶段还无法对DNA分子直接进行测序,需要先将DNA 分子打碎成小的片段,对这些小片段进行测序。一般而言,读取片段的长度越长,其交叠性也就越强,即读取片段reads越长越容易拼接。Whiteford et al.研究了短reads 测序的可行性,表明了人类基因组唯一映射的reads数量随着reads长度的增加而增加,但在~40nt的时候会初步趋于平衡,之后长度的增加给重测序(resequencing)带

哈尔滨工业大学硕士学位论文

般是足够的,但是对于从头测序(de novo sequencing)确实太短了,它需要长度更长的reads ,以跨过重复序列的区域[34]。Whiteford et al.进一步分析了BRAC1基因测序中reads 长度对重组装的影响,指出在该基因中绝大多数的外显子能够被50nt 的reads 覆盖,25nt 的覆盖更少;100nt 的reads 产生的两个contigs 覆盖了该基因中所有的外显子。虽然~50nt 的reads 能够覆盖人类基因组中85%以上的区域,但是这些区域都是零散的,彼此之间的联系信息不足以用于拼接。因此,增加长度才是解决拼接的最有效的方法。

A

R

B R A 原基因组:

A R

B R 拼接之后:A R B

R C 原基因组:B R D

A 拼接之后:R D C A B

C B A 原基因组:拼接之后:A

B C B A 图2-3 基因组重复片段引起的错拼

(3)DNA 读取片段含有测序产生的碱基错误。

由于新一代测序产生的数据,其数据准确度至少比传统的Sanger 测序低10倍以上,再加上新一代测序产生的数据海量,这就导致了待拼接的reads 中含有大量的错误碱基。不同的测序平台碱基的错误类型不同,454测序仪主要是插入删除indel 错误, Ilumina 及Solid 测序仪主要是替代sub 错误,而Heliscope 主要是删除del 错误。大量的碱基错误在序列拼接时会造成数据的冗余,增加拼接的困难。比如在De Bruijn 图架构中,碱基错误会使内存消耗随reads 数量呈指数性增长,图的构成也更为复杂。在overlap 图架构中,当计算reads 之间的overlap 时,错误的碱基很容易造成reads 之间连接错误等。在数据纠错时,reads 碱基质量和reads 中k-mer 的出现次数是纠错的主要依据。在新一代测序数据高覆盖度的前提下,当碱基质量低于一个特定的阈值或reads 片段中某个k-mer 出现的次数少于特定值时,我们就有理由认为该reads 含有碱基错误。目前比较常用的数据纠错软件是Quake [36],它将reads 质量信息和k-mer(reads 的子序列片段)出现次数巧妙地结合起来,实现了对reads 数据的高效快速纠错。如何消除reads 数据存在的碱基错误,剔除数据噪声,

哈尔滨工业大学硕士学位论文

(4)DNA序列片段数据海量

测序片段数据海量主要是由于测序片段过短以及测序片段的覆盖度高造成的,是序列拼接中需要面对的又一困难。数据海量必然对拼接算法的要求更为严格,至少从时间上讲,拼接的时间不宜过长;从内存上讲,要尽量减少内存消耗,否则就失去了拼接的意义。因此,如何优化海量计算、高效处理海量数据,是DNA序列拼接中必须考虑的另一个问题。

2.3基因组序列拼接的主要策略

DNA序列拼接组装是指以基因组测序所得的序列片段reads数据为输入,利用序列片段之间的交叠关系,再加上配对数据、碱基质量等辅助信息,通过一定的方法手段重建目标基因组序列的过程。基于新一代测序数据的拼接算法,通常包括如下三个阶段:(1) 数据的预处理阶段,该阶段通过特定的数据优化方法,降低数据冗余度,并移除测序数据中的错误碱基进行纠错;(2) 基因长序列片段contigs的生成阶段,该阶段短reads片段被拼接成长度较长的contigs;(3) 基因组超长序列片段scaffolding的生成阶段,该阶段使用配对数据,利用contigs之间的方向和位置关系,对contigs进行组装。不过,有些早期的拼接算法没有scaffolding阶段,conigs 是其最终的输出。

目前,基于新一代测序数据的从头测序拼接组装算法,主要基于3种策略:贪心(greedy),交叠-排列-生成共有序列(Overlap-Layout-Consensus, OLC)及De Bruijn 图(DBG)等策略[37]。

2.3.1贪心策略

贪心策略类型的序列拼接算法主要采用种子迭代扩展的方法,按一定条件选择初始reads作为待生成contigs的种子,通过启发式搜索策略使得每一步都合并与其具有最交叠的reads,直至reads或contigs两端都不能再进一步的扩展。一般而言,reads的选择是按照拼接质量递减的顺序考虑的,拼接质量通常用碱基质量和覆盖度来衡量。为避免错拼,有些扩展操作在发现冲突的信息时就停止。SHARCGS[19],SSAKE[20],QSRA[38]采用了该类拼接策略。SSAKE和QSRA能够处理非完全匹配的reads,SHARCGS适用于均匀分布、非配对的reads。贪心策略适用于小型基因组,而对有大量重复序列存在的大型基因组进行拼接时,拼接效果往往很差。

2.3.2交叠-排列-生成共有序列(OLC)策略

OLC策略在第一代测序中被广泛采用,并取得了很好的结果。该种策略主要包

基因组学的研究内容

基因组学的研究内容 结构基因组学: 基因定位;基因组作图;测定核苷酸序列 功能基因组学:又称后基因组学(postgenomics基因的识别、鉴定、克隆;基因结构、功能及其相互关系;基因表达调控的研究 蛋白质组学: 鉴定蛋白质的产生过程、结构、功能和相互作用方式 遗传图谱 (genetic map)采用遗传分析的方法将基因或其它dNA序列标定在染色体上构建连锁图。 遗传标记: 有可以识别的标记,才能确定目标的方位及彼此之间的相对位置。 构建遗传图谱 就是寻找基因组不同位置上的特征标记。包括: 形态标记; 细胞学标记; 生化标记;DNA 分子标记 所有的标记都必须具有多态性!所有多态性都是基因突变的结果! 形态标记: 形态性状:株高、颜色、白化症等,又称表型标记。 数量少,很多突变是致死的,受环境、生育期等因素的影响 控制性状的其实是基因,所以形态标记实质上就是基因标记。

细胞学标记 明确显示遗传多态性的染色体结构特征和数量特征 :染色体的核型、染色体的带型、染色 体的结构变异、染色体的数目变异。优点:不受环境影响。缺点:数量少、费力、费时、对生物体的生长发育不利 生化标记 又称蛋白质标记 就是利用蛋白质的多态性作为遗传标记。 如:同工酶、贮藏蛋白 优点: 数量较多,受环境影响小 ?

缺点: 受发育时间的影响、有组织特异性、只反映基因编码区的信息 DNA 分子标记: 简称分子标记以 DNA 序列的多态性作为遗传标记 优点: ? 不受时间和环境的限制 ? 遍布整个基因组,数量无限 ?

不影响性状表达 ? 自然存在的变异丰富,多态性好 ? 共显性,能鉴别纯合体和杂合体 限制性片段长度多态性(restriction fragment length polymorphism , RFLP ) DNA 序列能或不能被某一酶酶切,

DNA测序结果分析比对(实例)

DNA测序结果分析比对(实例) 关键词:dna测序结果2013-08-22 11:59来源:互联网点击次数:14423 从测序公司得到的一份DNA测序结果通常包含.seq格式的测序结果序列文本和.ab1格式的测序图两个文件,下面是一份测序结果的实例: CYP3A4-E1-1-1(E1B).ab1 CYP3A4-E1-1-1(E1B).seq .seq文件可以用系统自带的记事本程序打开,.ab1文件需要用专门的软件打开。软件名称:Chromas 软件Chromas下载 .seq文件打开后如下图: .ab1文件打开后如下图: 通常一份测序结果图由红、黑、绿和蓝色测序峰组成,代表不同的碱基序列。测序图的两端(下图原图的后半段被剪切掉了)大约50个碱

基的测序图部分通常杂质的干扰较大,无法判读,这是正常现象。这也提醒我们在做引物设计时,要避免将所研究的位点离PCR序列的两端太近(通常要大于50个碱基距离),以免测序后难以分析比对。 我的课题是研究基因多态性的,因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。 实际上,要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。一般认为等位基因位点假如在测序图上出现像套叠的两个峰,就是杂合子位点。实际比对后才知道,情况并非那么简单,下面测序图中标出的两个套峰均不是杂合子位点,如图并说明如下:

说明: 第一组套峰,两峰的轴线并不在同一位置,左侧的T峰是干扰峰;第二组套峰,虽两峰轴线位置相同,但两峰的位置太靠近了,不是杂合子峰,蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成,此处的序列被机器误判为“C”,实际的序列应为“A”,通常一个高大碱基峰的前面 1~2个位点很容易产生一个相同碱基的干扰峰,峰的高度大约是高大碱基峰的1/2,离得越近受干扰越大。 一个摸索出来的规律是:主峰通常在干扰峰的右侧,干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较;一个位点的多个样本相比较;你得出的该位点的突变率与权威文献或数据库中的突变率相比较。 通常,对于一个疑似突变位点来说,即使是国际上权威组织大样本的测序结果中都没有报道的话,那么单纯通过测序结果就判定它是突变点,是并不严谨的,因一份 PCR产物中各个碱基的实际含量并不相同,很难避免不产生误差的。对于一个未知突变位点的发现,通常还需要用到更精确的酶切技术。 (责任编辑:大汉昆仑王)

基因组序列拼接

2014年成都理工大学校内数学建模竞赛论文 二0一四年五月二十五日

摘要:本文所要研究的就是全基因组的从头测序的组装问题。 首先,本文简要介绍了测序技术及测序策略,认真分析了基因系列拼装所面临的主要挑战,比如reads数据海量、可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况,探讨了当前基因组序列拼接所采用的主要策略,即OLC(Overlap/Layout/Consensus)方法、de Bruijn图方法,且深入探讨了de Bruijn图方法。 其次,针对题中问题,以一条reads为基本单位,分为reads拼接和contig组装两个阶段,其中contig是由reads拼接生成的长序列片段。Reads的拼接阶段主要包括数据预处理、de-Bruijn 图、contig构建等,而contig的组装阶段主要包括序列的相对位置的确定以及重叠部分overlap的检测,用序列比对的方法来提高拼接的精度。 最后,进行了算法的验证与性能的评价,并且针对问题2,进行了组装分析与验证,结果表明,得到的拼接基因组序列在小范围内与原基因组序列大致吻合。 关键词:基因组系列拼接; reads;de Bruijn图;contig组装;k-mer片段;

一.问题重述 基因组组装 快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。 确定基因组碱基对序列的过程称为测序(sequencing)。测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为 ATACCTT GCTAGCGT GCTAGCGT AGGTCTGA 则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。 利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。常用的组装算法主要基于OLC(Overlap/Layout/Consensus)方法、贪婪图方法、de Bruijn 图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。 问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。 问题二:现有一个全长约为120,000个碱基对的细菌人工染色体(BAC),采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度(sequencing depth)约为70×,即基因组每个位置平均被测到约70次。试利用你的算法和程序进行组装,并使之具有良好的组装效果。 附录一:测序策略 测序策略如下图所示。DNA分子由两条单链组成,在图中表现为两条平行直

基因组序列的差异分析

基因组序列的差异分析 ----mVISTA的在线使用说明 当然,除了在线版的,我们还可以在网站上填写信息申请离线的软件。但我试用了一下,需要先自己比对,然后要按照一定的格式来制作文件,当然你还必须得安装java才能运行软件;总之,我感觉没有在线版的方便。 1 将数据放入服务器中 在首页,你将被要求确定你想要分析的基因组序列的数量。输入这个数字之后,点击“提交”,将带你到主提交页面。 mVISTA服务器最多可以同时处理100条序列。 1.1主提交页面必填的内容 E-mail 地址 通过E-mail,我们可以提示你的在线处理已经得到结果。

序列 你可以用2种方式来上传你的序列: 1.使用“Browse”按钮从你的电脑上,上传纯文本的Fasta格式文件。如果是一个作为参 考的生物体的DNA序列必须作为一个contig提交(可以进行一定的定向排列将多个片段合并为一个contig),而其他非参考序列可以在一个或多个contig中提交(draft)。 Fasta格式的示例序列(您可以在NCBI站点上找到关于该格式的更多细节): >mouse ATCACGCTCTTTGTACACTCCGCCATCTCTCTCT … !!!注意:序列里面我们只接受字母CAGTN和X。请确保提交序列是作为一种纯文本格式,而不是Word或HTML文件格式。 如果您以FASTA格式提交序列,我们建议您为它取一个有意义的名称(比如直接是你的物种名之类的),因为这些名称将出现在我们生成的图形中。如果您使用的是一个draft草图序列,那么结果中每个contigs的命名都将按照您在“>”符号后指示的命名进行。 2.您可以给出它的GenBank登录号,系统将自动从GenBank数据库里进行检索序列。 在这两种情况下,序列的总大小都不应超过10M,而且任何一条序列都不应超过2M。 1.2主提交页面选填的内容 这些选项允许您自定义您的VISTA分析。您可以使用独立获得的基因注释,选择合适的Repeat Masker选项,给分析的序列指定名称,并改变序列保存分析的参数。如果您没有填写这些选填选项,我们将使用它们的默认值。 比对程序 根据您分析的具体内容(参见“about”-链接中的详细信息),您可以选择以下比对程序之一:1、AVID----全局两两比对。如果您选择使用这个程序,其中一个序列应该被完成比对,其他 所有序列可以完成或以草图draft格式完成。对于集合中所有已完成的序列,AVID生成所有相对所有成对的比对结果,可以使用任何序列作为基础(参考)来显示。如果某些序列是草图格式,AVID将生成它们与最终序列的比对,这将被用作基础(参考)。这是该服务器上唯一可以处理草图序列的比对程序。 (小知识:草图序列与完整序列DNA sequence, draft: Sequence of a DNA with less accuracy than a finished sequence. In a draft sequence, some segments are missing or are in the wrong order or are oriented incorrectly. A draft sequence is as opposed to a finished DNA sequence.)2、LAGAN----完成完整序列的全局两两比对和多重比对。如果某些序列是草图格式,您的查 询将被重定向到AVID以获得两两比对。多重比对将由VISTA可视化,它将计算并显示序列的保守区,以您指示的任何序列作为参考。这是该服务器上唯一能够产生真正的多重

实验--基因结构预测分析

学院:______ 班级:_______ 学号:_________ 姓名:__________ 成绩:______ 实验五基因结构预测分析 目的: 1、熟悉并掌握从基因组核酸序列中发现基因的方法。 内容: 1、用NCBI的ORF Finder分析原核生物核酸序列或真核生物的cDNA序列中的开放阅读框; 2、使用GENSCAN在线软件预测真核生物基因; 3、使用POL YAH在线预测转录终止信号; 4、使用PromoterScan在线预测启动子区域。 操作及问题: 随着测序技术的不断发展,越来越多的模式生物启动了全基因组测序计划,完成全基因组测序的物种也越来越多,使得基因结构和功能的预测成为可能。同时,通过基因组文库筛选也可得到目的基因所在克隆。获得克隆序列后,同样也需要对目的基因做结构预测以便指导后续功能研究。本实验介绍几种常用的基因预测分析工具,预测核酸序列的开放阅读框、转录终止信号、启动子、CpG岛等信息。 一、开放阅读框(open reading frame,ORF)的识别 ORF是指从核酸序列上5’端翻译起始密码子到终止密码子的蛋白质编码序列。原核生物与真核生物的基因结构存在很大不同,真核生物的ORF除外显子(平均150bp)外,还含有内含子,因此真核生物基因的预测远比原核生物复杂。 (一)利用NCBI ORF Finder预测原核生物核酸序列或真核生物的cDNA序列中的开放阅读框。https://www.360docs.net/doc/d512477478.html,/gorf/gorf.html 1、在NCBI上查找AC 号为AE008569 的核酸记录。(见实验五中的AE008569.mht) 问题1:这个序列的名称? 问题2:这个序列来源物种所属的生物学大分类?

人类基因组图谱定义(精)

人类基因组图谱定义 1543年,比利时解剖学家A·维萨里(1514-1564)发表了划时代的著作《人体的构造》,开创了人体解剖学,使人们从宏观上了解了自己。“人类基因组计划”建立的人类基因组图,被誉为“人体的第二张解剖图”,它将从微观上或者说从根本上使人类了解自己。 人类第一个基因组草图 2000年6月26日,美国总统克林顿和英国首相布莱尔联合宣布:人类有史以来的第一个基因组草图已经完成。2001年2月12日中、美、日、德、法、英等6国科学家和美国塞莱拉公司联合公布人类基因组图谱及初步分析结果。 人类基因组计划中最实质的内容,就是人类基因组的DNA序列图,人类基因组计划起始、争论焦点、主要分歧、竞争主战场等都是围绕序列图展开的。在序列图完成之前,其他各图都是序列图的铺垫。也就是说,只有序列图的诞生才标志着整个人类基因组计划工作的完成。 2003年4月15日,在DNA双螺旋结构模型发表50周年前夕,中、美、日、英、法、德六国元首或政府首脑签署文件,六国科学家联合宣布:人类基因组序列图完成。 人类基因组图谱的绘就,是人类探索自身奥秘史上的一个重要里程碑。它被很多分析家认为是生物技术世纪诞生的标志,也就是说,21世纪是生物技术主宰世界的世纪。正如一个世纪前量子论的诞生被认为揭开了物理学主宰的20世纪一样。 全球专家拟绘癌症基因图谱 国际癌症基因组协会4月29日在英国伦敦成立。这一组织计划通过统筹各国和地区专家的合作,耗资10亿美元,历时10年,绘制较为完整的致癌基因突变图谱。目前已有英国、中国和美国等9国加入这一计划。 专家认为,图谱将为癌症预防、诊断和治疗带来一场革命,开辟癌症个案化治疗的新时代。 方法 国际癌症基因组协会计划利用更加先进、快速的基因组测序新技术,详细研究50种不同类别的癌症,希望找到所有与癌症相关的基因突变现象。 英国剑桥韦尔科姆基金会桑格研究所是这一计划的主要参与者之一。 英国《泰晤士报》援引桑格研究所专家迈克·斯特拉顿的话说:“借助更快速的脱氧核糖核酸(DNA)测序新技术,国际癌症基因组协会雄心勃勃,志在为数以千计癌症基因组测序,制作一个涵盖所有DNA变异的目录,绘制完整的癌变图谱。” 越来越多科研成果表明,癌症并非单一类型。而每种癌症都包括大量由不同类型基因突变导致的不同亚种类别,需要分别对症治疗。 国际癌症基因组协会计划在每种癌症的研究中,提取500名病人的细胞并测序基因组,与健康细胞作比对,以期找出导致癌细胞形成和扩散的基因突变。 意义 专家认为,图谱绘制对于癌症治疗具有革命性意义。 如果图谱绘制成功,医生就可准确掌握单个患癌病人的致癌基因突变因素,进而更为轻松地对症下药,寻找对特定病人或特定癌症种类具有针对性的治疗药物。 比如,医学界目前普遍认为,赫赛汀(Herceptin)是特定种类乳癌的治疗药物。 图谱还有助于发明新的癌症治疗药物。 韦尔科姆基金会负责人马克·沃尔波特说,识别致癌基因突变是癌症治疗领域内的一次“大跨步”进展,目的在于实现“对症治疗”。 沃尔波特披露,桑格研究所的斯特拉顿等专家已启动一项致力于研发癌症治疗新药的计划。 合作 国际癌症基因组协会成立的作用还在于促进各国专家合作。 目前已确定加入这一计划的国家为英国、中国、美国、澳大利亚、加拿大、法国、印度、日本和新加坡。 协会计划对每一种类癌症的研究资助2000万美元,因而整个研究项目将耗资约10亿美元。

实验三蛋白序列比对到基因组

实验三蛋白序列比对到基因组(GeneWise and exonerate)实验目的 1)了解基因结构,acceptor, sponsor 等概念 2)理解将蛋白序列比对到基因组的应用 3)掌握利用GeneWise 将蛋白序列定位到基因组上并得到基因结构 实验数据及软件 ftp://172.28.137.55/pub/lab_materia/biosoft/lab03/ 1、Genewise 简介 Genewise 是EBI 的Ewan Birney 和他的同事们开发的一套 软件系统,用来做蛋白质序列和DNA 序列之间的比对,软件比对过程中会考虑剪切位点信息,所以能够定义出intron/exon 结构,同时它和blast 的最大区别是它能够把基因的多个exon 的链接起来,从而得到基因整体的比对情况。Genewise 只能一次进行 一条蛋白序列和一条核酸序列的比对,同等运算量的情况下,运行时间较blast,blat,sim4 等慢,由于进行的是蛋白质水平的比对,所以敏感性比blat,sim4 等要高。 2、下载 可从EBI 网站上下载,下载地址: ftp://https://www.360docs.net/doc/d512477478.html,/pub/software/unix/wise2/wise2.2.0.tar.gz(FTP 服务器上已经下载有) 3、安装 1)解压缩 2)编译, $ cd src $ make all 3)设置环境变量:WISECONFIGDIR 4、使用语法 genewise genewise –genesf [other options] 参数提示 1.默认情况下,蛋白序列和dna 序列的正链进行比对,即-tfor 参数;如果用户 不确定蛋白质序列是在dna 序列的正链上还是反链上,可以改用-both 参数; 2.当用户需要使用genewise 比对得到的dna 序列时,可以通过添加-cdna 得到;可以通过-trans参数得到对应的氨基酸序列; 应用1—确定基因结构 genewise –both –genesf input-protien3.fa input-dna3.fa > output3.genewise.out 结果(部分)

生物信息学实验指导—实验三

实验三核酸序列分析 【实验目的】 1、掌握已知或未知序列接受号的核酸序列检索的基本步骤; 2、掌握使用BioEdit软件进行核酸序列的基本分析; 3、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析); 4、了解基因的电子表达谱分析; 5、熟悉密码子偏好性分析。 【实验原理】 针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。 1. 重复序列分析 对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。 2. 数据库搜索 把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。 3. 编码区统计特性分析 统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。 4. 启动子分析 启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,

基因组学名词解释

1、C值:一个单倍体基因组中DNA的总量. C值悖理 2、假基因:来源于功能基因但已失去活性的DNA 顺序. 3、遗传图 :采用遗传学分析方法将基因或其它DNA顺序标定在染色体上构建连锁图。遗传图距单位为厘摩(cM), 每单位厘摩定义为1%交换率。 4、物理图(Physical mapping):采用分子生物学技术直接将DNA分子标记、基因或克隆标定在基因组实际位置。 5、重叠群:一群相互重叠的克隆或DNA顺序,可以是草图顺序或精确顺序(finished), 包括连续的(内部无间隙)或不连续的(内部含间隙)DNA顺序,未锚定到染色体上. 6、序列间隙:指测序时遗漏的序列,这些序列仍然保留在尚未挑选到的克隆中。 7、物理间隙:指构建基因组文库时被丢失的DNA序列,已从已有的克隆群体中永久性消失 8、全基因组鸟枪法测序:将基因组打成小片段后将其克隆到质粒载体中,然后随机挑取克隆对插入片段测序,并以获得的测序序列构建重叠群。在此基础上进一步搭建序列支架,最后以分子标记为向导将序列支架锚定到基因组整合图上。 9、支架(scaffold):一组已锚定在染色体上的重叠群, 内部含间隙或不含间隙. 10、作图测序: 按照大分子DNA克隆绘制的物理图分别在单个大分子DNA 克隆内部进行测序与序列组装,然后将彼此相连的大分子克隆按排列次序搭建支架,最后以分子标记为向导将搭建好的支架逐个锚定到基因组整合图上. 11、开放阅读框 ORF:指由一系列指令氨基酸的密码子组成,包括一个起始密码子(ATG),还有一个终止密码子(TAA,TAG,TGA) 12、基因敲除:将一段无关的DNA片段用来取代某一特定的基因。 13、同源性(homology):基因(序列同源性) 指起源于同一祖先但顺序已经发生变异的基因成员, 分布在不同物种间的同源基因又称直系基因. 同一物种的同源基因则称水平基因, 水平基因由重复后趋异产生. 14、一致性(identity):指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同氨基酸成员, 可用百分比表示. 15、相似性(similarity):指同源蛋白质的氨基酸顺序中一致性氨基酸和可取代氨基酸所占的比例. 可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员, 它们之间的代换不影响蛋白质(或酶)的生物学功能. 16、异染色质:深色区分布在细胞核的周缘,称为异染色质

实验一 生物序列统计分析

实验一生物序列统计分析 一.实验目的 一般情况下,真核细胞中的线粒体是主要的能量生产中心。人类线粒体基因组在GenBank中的编号为“NC_001807”。以这条序列为例,学习有关DNA序列和蛋白质序列的统计分析方法。 1.学习和掌握在MATLAB平台上应用Bioinformatics工具包访问GenBank,并读取DNA序列。 2.学习和掌握在MATLAB平台上应用Bioinformatics工具包统计DNA序列的组成成分及含量,分析DNA序列的性质。 3.学习和掌握在MATLAB平台上应用Bioinformatics工具包搜索DNA序列的开放阅读框ORFs。 4.学习和掌握在MATLAB平台上应用Bioinformatics工具包,根据已定位的ORFs,实现DNA序列向蛋白质序列的转换。 5.学习和掌握在MATLAB平台上应用Bioinformatics工具包统计蛋白质序列中各种氨基酸含量。 二.实验内容 1.在MATLAB平台上应用Bioinformatics工具包访问GenBank,读取DNA序列。 ①用“web”命令在MATLAB平台上打开NCBI网页。 web('https://www.360docs.net/doc/d512477478.html,/') web('https://www.360docs.net/doc/d512477478.html,/genomes/framik.cgi?db=Genome&gi=12188') ②用“getgenbank”功能从GenBank中读序列信息到MARLAB mitochondria = getgenbank('NC_001807','SequenceOnly',true); 选项“SequenceOnly”使我们从GenBank中只读取“NC_001807”的序列信息。 “Mitochondria”是我们定义的变量,存在MATLAB的Workspace中。 ③查看变量mitochondria whos mitochondria 2.在MATLAB平台上应用Bioinformatics工具包统计DNA序列的组成成分及含量,分析DNA序列的性质。 ①查看DNA序列的性质 ntdensity(mitochondria)

测序名词解释

什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)**性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger 法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP 缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和**性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、

实验总结-3’race

应用3'Full-RACE技术克隆PCDHB1基因3'非翻译区 廖柔霞:汕头大学医学院2008级本科一班 指导教师:许丽艳,方王楷,黄俏,吴健谊,吴炳礼,李恩民 【摘要】目的:克隆PCDHB1基因3'非翻译区,为深入研究该基因在食管癌等肿瘤或内分泌性疾病中的功能提供基本实验材料。方法:3'Full-RACE技术。结果:未能成功获得PCDHB1基因3'非翻译区克隆。结论:1)提示PCDHB1基因的结构组织形式可能十分复杂;2)今后,拟在具体方法学上改进,争取获得该基因3'非翻译区克隆。 PCDHB1(别名PCDH-BETA1),位于5q31。该基因共含有2534个碱基。这个基因是原钙黏连蛋白基因簇的一员,是5号染色体上的三个串连连接的成员之一。该基因组显示了与B的细胞和T细胞受体基因簇的一个不寻常的基因相似。其具体职能是未知的,但它很有可能在神经细胞间的连接和建立中发挥关键的作用。β钙黏连蛋白在特定的细胞粘连的事件扮演一个重要的角色。见诸于人类恶性肿瘤中的表达和调控功能,在很多情况下,导致肿瘤细胞浸润和转移的加剧。由于该基因的3'端还未知,所以必须用3'Full RACE的技术将PCDHB1的3'端测出来。对此实验设计如下:应用3’RACE试剂盒及设计好的基因特异性引物扩增得到的基因片段,并将其连接到pEASYTM-Blunt Simple coloning vector 并测序。该基因片段由于出现“双峰”现象导致测序失败。 关键词:基因克隆,PCDHB1基因,3'非翻译区,3'Full-RACE The clone of 3' untranslational region of PCDHB1 gene using 3'Full-RACE RX Liao: 2008 Undergraduates of Medical College of Shantou University Supervisor: LY Xu, WK Fang, Q Huang, JY Wu, BL Wu, EM Li Abtract:Objective Methods Results Conclusion PCDHB1(PCDHB-BETA1),is located in 5q31. This gene is a member of the protocadherin beta gene cluster, one of three related gene clusters tandemly linked on chromosome five. The gene clusters demonstrate an unusual genomic or ganization similar to that of B-cell and T-cell receptor gene clusters. Their specific functions are unknown but they most likely play a critical role in the

基因组测序术语解释

DNA关键词: WG-BSA (全基因组重测序BSA) 对已有参考基因组序列的物种的所有作图群体(F1、F2、RIL、DH 和BC1等),对亲本进行个体重测序,对某个极端性状材料混池测序,检测SNP,获得与性状紧密关联的分子标记和精细定位区域,是目前最高效的基因定位方法。通过选取某个极端性状,利用高效率低成本的混池测序技术,勿需开发分子标记进行遗传图的构建,快速定位与性状相关的候选QTL。 MP-Reseq (多混池全基因组重测序) 针对特有的优良地方品种中的不同品种/品系,通过群体内pooling 建库的方法,进行全基因组重测序,采用生物信息学方法全基因组范围内扫描变异位点,能快速的定位不同混池样品基因组中明显经过人工或自然选择的区域,检测与性状相关的基因区域及其功能基因。 全基因组个体重测序 基于全基因组重测序的变异图谱通过测序手段结合生物信息分析研究同一物种不同个体之间的变异情况,获得大量的变异信息,如SNP、Indel、SV 等。主要可以快速地获得大量的分子标记以及不同个体在基因组水平上的差异。 全基因组关联分析-GWAS 通过重测序对动植物重要种质资源进行全基因组基因型鉴定,与关注的表型数据进行全基因组关联分析,找出与关注表型相关的SNP位点,定位数量性状基因,与数量性状相关的基因紧密连锁的SNP标记,后续可用于分子标记辅助育种,助力育种进程。 全基因组重测序-遗传进化 通过对来自全国各地、具有代表性的XX 份XX 材料进行全基因组重测序,检测SNP、Indel、SV,并利用获得的SNP 与SV 数据进行群体多样性分析,包括连锁不平衡分析、群体进化分析、群体结构分析、群体主成分分析等。 全基因组重测序-遗传图谱 基于全基因组重测序技术对已有参考基因组序列的物种进行个体或群体的全基因组测序,利用高性能计算平台和生物信息学方法,检测单核苷酸多态性位点(SNP),并计算多态性标记间的遗传连锁距离,绘制高密度的遗传图谱。通过与表型性状进行关联分析,利用获得的强关联性标记进行下游基因的精细定位。遗传图可用于分子标记辅助育种,重要性状候选基因克隆,辅助基因组组装,比较基因组学等研究。 细菌基因组de novo 测序 细菌是生物的主要类群之一,是所有生物中数量最多的一类。细菌广泛分布于土壤和水中,或者与其他生物共生,也有部分种类分布在极端环境中,例如温泉,甚至是放射性废弃物中。由于细菌自身的营

实验七 核酸序列分析(附加部分)

实验七核酸序列分析(附加部分) 1、发现核酸序列中的蛋白质编码区域。 1)利用NCBI ORF Finder。https://www.360docs.net/doc/d512477478.html,/gorf/gorf.html A、在NCBI上查找AC号为AE008569的核酸记录,思考:1、这个序列的名称?2、 这个序列所属的生物学分类? B、进入OFR Finder,首先在页面下方的Genetic codes 下拉菜单中浏览现有的22种遗 传密码选择项(这里我们只使用默认的standard code),利用AC号或其裸序列(想 一想怎么能得到)进行ORF finding。 C、在结果显示页面中,按照序列的正向+1、+2、+3以及反向的-1、-2、-3进行的六框 翻译结果以图形的方式显示在页面中。利用默认的100bp阈值所发现的各框内的 ORF以绿色条状显示。同时,按照六框内所有发现的ORF的大小顺序,在页面的 右侧有一个列表,分别显示了ORF的翻译框、在基因组上的位置以及ORF的长度。 你可以改变ORF鉴别中的长度阈值(50,100,300),点击Redraw重新进行计算。 D、点击图形上的绿色条框,就可以对这个ORF进行检查(当然也可以点击右侧的ORF 列表),页面上会显示预测的氨基酸序列,同时页面上还嵌入了BLAST程序以及 NCBI的有关序列数据库以便于发现与此ORF相似的库记录。非常方便! E、SixFrames是以另外一种方法计算并显示结果,点击SixFrames,结果中各框上边拉 下的绿色短线表示为一个起始密码子,而各框下方的粉色短线表示为一个终止密码 子。 F、如果你拥有一个高等生物的cDNA时,可以利用ORF finder这个简单的工具来找到 你的蛋白编码区域。因为cDNA不含有intron,因此可拥有与微生物相似的ORF结 构。 G、ORF finder可以正确地鉴定85%左右的蛋白编码区,但要发现一些很短的蛋白序 列,shadow gene或使用了非常用遗传密码子的基因,则需要使用那些包含了密码 子使用频率及使用偏好等统计学特性的程序,如GeneMark。这里给出两个GeneMark 网址:https://www.360docs.net/doc/d512477478.html,/GeneMark/ , https://www.360docs.net/doc/d512477478.html,/genemark/。2)发现真核生物基因组(如脊椎动物)序列中的蛋白质编码区域。 A、剪切位点(splice site)的预测。 脊椎动物的外显子很小(平均150bp),它们的剪切位点还有一定的变化。因此发现外显子要比利用ORF finder或GeneMark发现ORF困难得多。下面是一种外显子预测程序:MZEF。点击https://www.360docs.net/doc/d512477478.html,/,这是位于冷泉港实验室Michae Q. Zhang’s的主页,点击左侧的databases and Software Tools,进入的页面中包含了多个物种的启动子数据库、外显子发现工具等,点击页面中间的Gene –Finding (public)连接,则进入了MZEF页面(https://www.360docs.net/doc/d512477478.html,/tools/genefinder/)。程序的相关说明文件在页面下方的For more information about MZEF行的here链接中,事先阅读一下此文件,有助于程序的使用以及对输出结果的理解(https://www.360docs.net/doc/d512477478.html,/tools/genefinder/readme.htm ),你也可以阅读实验数据-实验七中的MZEFexample.PDF文件,这一文件也可以从Michae Q. Zhang’s的数据库及软件工具页面上找到(https://www.360docs.net/doc/d512477478.html,/reprints/mzefexample.pdf)。回到MZEF主页,点击Human 链接(https://www.360docs.net/doc/d512477478.html,/tools/genefinder/human.htm),进入由先前统计数据校准的人类编码外显子预测MZEF程序页面。 在NCBI上找到一条AC号为AF018429的人类核酸记录,这是一个包含了外显子1和外显子2的dUTPase基因(注意一下这两个外显子在基因上的位置)。将FASTA格式的序列粘贴到人类MZEF程序页面的检索框中,点击submit。程序很快给你返回结果。它发现

基因组信息学实验课课件--序列

基因组信息学实验课 序列分析 第一部分:课堂知识复习 形式:题目问答,请同学单独回答以下问题,并陈述答题理由。 1.判断对错:两条序列的同源程度为60%。 2.判断对错:两条序列的相似性很高,所以它们一定是同源序列。错误3.计算下面两条序列的海明距离: AGCAAACACACTA ACATAAGCACACA 4.通过字符编辑操作将序列s转换成t s:AG-CA t:ACAC- 5.分析两条序列的关系时,()方法可以通过观察矩阵对角线迅速发现可能的序列比对。 A Dot-plot B Pairwise-Alignment C BLAST D FASTA E Score Matrix 6.下列哪些是核酸序列数据库()。 A GenBank B PDB 蛋白质结构数据库 C Entrez D EMBL-Bank E DDBJ 7.下列哪些是蛋白质序列数据库()。 A PIR蛋白质信息资源 B SWISS-PROT C TrEMBL D EPD 真核生物启动子 E PDB大分子结构图 8.PDB文件的显示序列信息中,关键字()作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。 A HEADER B REMARK C SEQRES D EXPDTA 9.下列哪些是可以用来显示分子结构的软件()。 A GCG-DS Visualizer B RasMol C ChemView D DSSP 10.Entrez数据库集成系统中集成了NCBI中哪些数据库中的信息()。 A 核酸序列 B 蛋白质序列 C 生物大分子结构 D 基因组数据 E 生物 分类数据库 F 孟德尔人类遗传学数据(OMIM)G Pubmed

全基因组重测序数据分析

全基 1. 简 通过变(d 的功况,dise 比较 实验 (1)(2) 基因组重测序简介(Introduc 过高通量测序识deletioin, du 功能性进行综合杂合性缺失ease (cance 较基因组学,群验设计与样本 Case-Contr )家庭成员组序数据分析 ction) 识别发现de plication 以及合分析;我们(LOH )以及r )genome 中群体遗传学综ol 对照组设计 组设计:父母novo 的som 及copy numb 们将分析基因及进化选择与中的mutation 综合层面上深计 ; -子女组(4 人matic 和germ ber variation 因功能(包括与mutation 之n 产生对应的深入探索疾病基人、3 人组或m line 突变,)以及SNP miRNA ),重之间的关系;以的易感机制和基因组和癌症多人); 结构变异-SN 的座位;针对重组率(Rec 以及这些关系功能。我们将症基因组。 NV ,包括重排对重排突变和combination )系将怎样使得 将在基因组学排突 SNP )情在 学以及

初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。 高级数据分析 1.测序短序列匹配(Read Mapping) (1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomal region), 将Read与参考序列NCBI36进行匹配(包括所有染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做替代))。采用标准序列匹配处理对原始序列文件进行基因组匹配, 将Read与参考基因组进行初始匹配;给出匹配的平均质量得分分布; (2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。 (3)测序误差率估计。 pseudoautosomal contigs,short repeat regions(包括segmental duplication,simple repeat sequence-通过tandem repeat识别算法识别)将被过滤; 2. SNP Calling 计算(SNP Calling) 我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。 统计SNV的等位基因频率在全基因组上的分布

相关文档
最新文档