2014-基因组学——最终版
基因组学

基因表达调控的研究
蛋白质组学(proteomics) • 鉴定蛋白质的产生过程、结构、功能和 相互作用方式
2 基因组图谱的构建
基因组计划的主 要任务是获得全 基因组序列 但是,现在的测 序方法每次只能 测800~1000bp 小基因组物种常 用鸟枪射击法
(restriction fragment length polymorphism,RFLP)
如有两个 DNA 分子(一对染色体),一 个具有某一种酶的酶切位点,而另一个 没有这个位点,酶切后形成的DNA片段长 度就有差异,即多态性。
• 利用限制性内切酶消化基因组DNA,形成大小 不等、数量不同的分子片段, • 经电泳分离, • 通过Southern印迹将DNA片段转移至支持膜 (尼 龙膜或硝酸纤维素膜)上, • 然后用放射性同位素(32P)或非同位素 (如地高 辛,荧光素)标记的探针与支持膜上的DNA片 段进行杂交。 • 不同基因组DNA酶切位点的改变,会使得 RFLP谱带表现出不同程度的多态性.
中英联合实验室
双脱氧终止法测序反应体系包括:
DNA polymerase
Template:(单链DNA模板)
Primer:(带有3-OH末端的单链寡核苷酸引物)
Mg2+ dNTP(dATP,dGTP,dCTP和dTTP) ddNTP(ddATP,ddGTP,ddCTP和ddTTP)
DNA自动测序
形态标记
能够用肉眼识别和观察、明确显示遗传多样性 的外观性状。 形态性状:株高、颜色、白化症等 又称表型标记 简单直观 数量少 很多突变是致死的 受环境、生育期等因素的影响
基因组学概论PPT课件

3. 比较基因组学
研究不同物种之间在基因组结构和功能 方面的亲源关系及其内在联系的学科。
比较基因组学的研究内容:
(1)绘制系统进化树,显示进化过程中最主要的 变化所发生的时间及特点。据此可以追踪物种的 起源和分支路径。 (2)了解同源基因的功能。
(3)对序列差异性的研究有助于认识产生大自然生 物多样性的基础。
1. 基因(Gene)
基因(gene)是1909年丹麦植物学家W.Johannsen 根 据希腊文单词genos(birth,给予生命)创造的。
现代分子生物学的基因概念:
基因是储存和表达某一多肽链信息或RNA分析 信息所必需的全部核苷酸序列,即一个基因不仅 包括编码蛋白质或RNA的核酸序列,还应包括为 保证转录所必ቤተ መጻሕፍቲ ባይዱ的调控序列。
(三)基因组学的意义
生物学研究 医学 生物技术 制药工业 社会经济 生物进化 伦理,法律及社会
尤其是人类疾病基因的研究
(1)单基因病疾病基因研究,如血友病等
人类基因组计划使我们了解基因组序列。 现在采用定位候选克隆方法极大地提高了 发现疾病基因的效率。
(2)多基因病疾病基因研究, 例如心脏病,糖尿病,癌症等。
经典遗传学时代
1879年 染色体的发现,并认为染色体最可能是DNA 、 RNA和蛋白质的一种;
1902年 染色体学说的产生,合理解释了Mendel的实验结果;
1910年 发现了遗传学的第三大遗传规律——连锁遗传规律
(决定两对性状的两对基因位于同一对染色体上,就会发生连锁遗传现象)
郑州大学生命科学学院
基因组学
(Genomics)
马珊珊
课程安排
32 学时:16周,2学时/周 考试方式:闭卷考试 考试成绩:30%平时成绩(出勤率 +课堂表现)+70%卷面成绩
基因组学考试资料 整理版

基因组学考试资料整理版第一章一、基因组1、基因组:生物所具有的携带遗传信息的遗传物质的总和,是指生物细胞中所有的DNA,包括所有的基因和基因间区域。
2、基因组学:指以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。
基因组学包括3个不同的亚领域结构基因组学(structural genomics) :以全基因组测序为目标功能基因组学(functional genomics):以基因功能鉴定为目标比较基因组学(xxparative genomics)二、基因组序列复杂性1、C值是指一个单倍体基因组中DNA的总量,以基因组的碱基对来表示。
每个细胞中以皮克(pg,10-12g)水平表示。
C 值悖理:指基因内部被一个或更多不翻译的编码顺序即内含子所隔裂。
3、异常结构基因分类重叠基因:编码序列彼此重叠的基因,含有不同蛋白质的编码序列。
基因内基因:一个基因的内含子中包含其他基因。
反义基因: 与已知基因编码序列互补的的负链编码基因,参与基因的表达调控,可以干扰靶基因mRNA转录与翻译。
4、假基因:功能基因但已失去活性或者改变原来活性功能的DNA序列. 四、基因组特征比较真核生物基因组的特征:复杂性较高的生物基因组结构松弛,在整个基因组范围内分布大量重复顺序;含有大量数目不等的线性DNA分子,并且,每个长链DNA都与蛋白质组成染色体结构;含有细胞器基因组原核生物基因组的特征 :原核生物基因数目比真核生物少,大小在5 Mb以下; 原核生物基因组结构更紧凑;第二章一、为何要绘制遗传图与物理图?1)基因组太大,必需分散测序,然后将分散的顺序按原来位置组装,需要图谱进行指导。
2)基因组存在大量重复顺序,会干扰排序,因此要高密度基因组图。
3)遗传图和物理图各有优缺点,必须相互整合校正。
二、基因组测序方法、原理及特点:1. 克隆重叠群法:先构建遗传图,再利用几套高度覆盖的大片段基因组文库获得精细的物理图,选择合适的BAC 或PAC克隆测序,利用计算机拼装。
基因组学

基因组复习基因组(genome),又称染色体组一个物种单倍体的染色体数目,物种全部遗传信息的总和基因组学研究的最终目标: 获得生物体全部基因组序列; 鉴定所有基因的功能; 明确基因之间的相互作用关系; 阐明基因组的进化规律。
经典遗传学:在20世纪初,遗传学刚刚诞生的时候,遗传学家的工作主要是鉴别感兴趣的基因,确定这些基因在染色体上的位置。
第一个环节:寻找自发突变体,或者利用物理、化学因素诱发突变。
第二个环节:通过连锁分析确定新基因与已知基因的相互关系,绘制遗传连锁图。
基因组学的研究内容结构基因组学:基因定位;基因组作图;测定核苷酸序列功能基因组学:又称后基因组学(postgenomics)基因的识别、鉴定、克隆;基因结构、功能及其相互关系;基因表达调控的研究蛋白质组学:鉴定蛋白质的产生过程、结构、功能和相互作用方式遗传图谱(genetic map)采用遗传分析的方法将基因或其它DNA序列标定在染色体上构建连锁图。
遗传标记:有可以识别的标记,才能确定目标的方位及彼此之间的相对位置。
构建遗传图谱就是寻找基因组不同位置上的特征标记。
包括:形态标记;细胞学标记;生化标记;DNA 分子标记所有的标记都必须具有多态性!所有多态性都是基因突变的结果!形态标记:形态性状:株高、颜色、白化症等,又称表型标记。
数量少,很多突变是致死的,受环境、生育期等因素的影响控制性状的其实是基因,所以形态标记实质上就是基因标记。
细胞学标记明确显示遗传多态性的染色体结构特征和数量特征:染色体的核型、染色体的带型、染色体的结构变异、染色体的数目变异。
优点:不受环境影响。
缺点:数量少、费力、费时、对生物体的生长发育不利生化标记又称蛋白质标记就是利用蛋白质的多态性作为遗传标记。
如:同工酶、贮藏蛋白优点:数量较多,受环境影响小缺点:受发育时间的影响、有组织特异性、只反映基因编码区的信息DNA分子标记:简称分子标记以DNA序列的多态性作为遗传标记优点:不受时间和环境的限制遍布整个基因组,数量无限不影响性状表达自然存在的变异丰富,多态性好共显性,能鉴别纯合体和杂合体限制性片段长度多态性(restriction fragment length polymorphism,RFLP)DNA序列能或不能被某一酶酶切,相当于一对等位基因的差异。
基因组学有哪些内容(基因组学重点整理)

基因组学有哪些内容(基因组学重点整理)生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物,我来为大家科普一下关于基因组学有哪些内容?下面希望有你要的答案,我们一起来看看吧!生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物具有催化活性的RNA分子称为核酶(ribozyme)核酶催化的生化反应有:自我剪接、催化切断其它RNA、合成多肽键、催化核苷酸的合成新基因的产生:基因与基因组加倍1)整个基因组加倍;2)单条或部分染色体加倍;3)单个或成群基因加倍。
外显子洗牌与蛋白质创新:产生全新功能蛋白质的方式有二种:功能域加倍,功能域或外显子洗牌基因冗余:一条染色体上出现一个基因的很多复份(复本)当人们分离到其中一新基因时,为了鉴定其生物学功能,常常使其失活,然后观察它们对表型的影响。
许多场合,由于第二个重复的功能基因可取代失活的基因而使突变型表型保持正常。
这意味着,基因组中有冗余基因存在。
看家基因很少重复,它们之间必需保持剂量平衡,因此重复的拷贝很快被淘汰。
与个体发育调控相关的基因表达为转录因子,具有多功能域的结构。
这类基因重复拷贝变异可使其获得不同的表达控制模式,促使细胞的分化与多样性的产生,并导致复杂形态的建成,具有许多冗余基因。
非编码序列扩张方式:滑序复制、转座因子模式生物海胆、果蝇、斑马鱼、线虫、蟾蜍、小鼠、酵母、水稻、拟南芥等。
模式生物基因组中GC%含量高,同时CpG岛的比例也高。
进化程度越高,GC含量和CpG岛的比例就比较低如果基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的可能只会发生在非编码区。
细菌基因组中缺少内含子,非编码序列仅占11%, 对阅读框的排查干扰较少。
细菌基因组的ORF阅读相对比较简单,错误的机率较少。
高等真核生物DNA的ORF阅读比较复杂:基因间存在大量非编码序列(人类占70%);绝大多数基因内含有非编码的内含子。
《基因组学》PPT课件

ppt课件
1
Structural Genomics 结构基因组学 Functional Genomics 功能基因组学
Transcriptomics 转录物组学 Proteomics 蛋白质组学
ppt课件
2
第一节 真核生物基因组组成
Organization of Eukaryotic Genome
ppt课件
16
1. Genetic map 遗传图
The map in which mutant alleles or DNA markers are assigned relative positions along a chromosome on the basis of the recombination frequencies between them
Tetrahymena, GGGGTT Human, GGGATT Telomere-associated sequences: is repetitive and is found both adjacent to and within the telomere. The sequences vary among organisms.
ppt课件
5
Highly repetitive sequences 高度重复序列 5~300bp , 105 copies
Middle-repetitive sequences 中度重复序列 10~1000 copies
Unique sequences 单拷贝序列
ppt课件
6
▪ Gene family(基因家族): a set of genes in one genome all descended from the same ancestral gene.
基因组学课件基因组

大肠杆菌
智人
拟南芥
热海栖热袍菌
Buchnerasp. APS 嗜酸热原体
Escherichia coli 家鼠
Homo sapiens 秀丽小杆线虫
Arabidopsis thaliana Thermotoga maritima
大白鼠
疏螺旋体-眼莱姆病
Thermoplasma acidophilum Mus musculus
大肠杆菌(Escherichia coli)
人类研究得最为详尽的模式生物 如:K12菌株,全基因组于1997年测定,长460万bp 长度1.6 m,单细胞原核生物,繁殖快
大肠杆菌及其全基因组
Escherichia coli K12
Escherichia coli O157:H7
基因组学课件基因组
模式生物(Model Organism) 酿酒酵母(Saccharomyces cerevisiae, yeast)
Nature390:580,1997
Welcome Trust资助英、法科学家于 Sanger中心完成,1997, 12宣布 Science281,375,1998
Science 282:2012,1998
Science291,1304,2001 Nature408:796,2000
Science287,2185,2000
基因组大小与人类相近,约30亿个核苷酸对,有19条染色体 2002年
基因组学课件基因组
第1章 什么是基因组
所有生命都具有指令其生长与发育,维持 其结构与功能所必需的遗传信息,生物所 具有的携带遗传信息的遗传物质总和称为 基因组(genome) 基因组(genome)一词出现于80年前,基 因 组 学 (genomics) 则 是 由 美 国 科 学 家 Thomas Roderick在1986年提出的,是指对 所有基因进行基因组作图 (包括遗传图谱、 物理图谱、转录本图谱) ,核苷酸序列分 析,基因定位和基因功能分析的一门科学
基因基因组及基因组学ppt课件

遗传图与物理图的整合
有些标记既是遗传标记,又是物理标 记,如RFLP标记、SSR标记和某些基 因序列
借助这些标记可以将遗传图和物理图 整合起来
43
序列图谱(分子水平的物理图谱)
以某一染色体上所含的全部碱基顺序绘制的图 谱。
既包括可转录序列,也包括非转录序列,是转 录序列、调节序列和功能未知序列的总和。
优点:不受环境影响 缺点:数量少、费力、费时、对生物体的生
长发育不利
19
生化标记
又称蛋白质标记 就是利用蛋白质的多态性作为遗传标记。
如同工酶 优点:数量较多,受环境影响小 缺点:受发育时间的影响、有组织特异性、
只反映基因编码区的信息
20
DNA分子标记
简称分子标记,以DNA序列的多态性作为遗 传标记 随着分子生物学的发展,相继建立 了RFLP、TRS、SNP等多种分子遗传标记检 测技术,开创了遗传标记研究的新阶段。 优点:
用于确定各遗传标记间的物理距离有两种物理图谱:
(1)以已定位的DNA序列标记位点(STS)为位标,以DNA实际长 度为图谱距离的基因组图谱。
(2)由YAC和/或细菌人工染色体(BAC)连续克隆重叠群组成的 物理图谱。
36
物理作图的方法
1、限制酶作图 2、依靠克隆的基因组作图 3、荧光原位杂交 4、序列标签位点作图
16
形态标记
形态性状:株高、颜色、白化症等 又称表型标记 控制性状的其实是基因,所以形态标记实
质上就是基因标记。
数量少 很多突变是致死的 受环境、生育期等因素的影响
17
伯乐相马
按图索骥
18
细胞学标记
明确显示遗传多态性的染色体结构特征和数 量特征: 染色体的核型 染色体的带型 染色体的结构变异 染色体的数目变异
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因组学题库一基因组学介绍1 基因组与基因组学基因组是指生物的整套染色体所含有的全部DNA序列,是生物体所有遗传信息的总和。
基因组学(Genomics)是以生物信息学分析为手段研究基因组的组成、结构、表达调控机制和进化规律的一门学科,研究对象是基因组结构特征、变演规律和生物学意义。
2 C质与C质悖论C值(C value)通常是指某一生物单倍体基因组DNA的总量。
C值悖论(C Value Paradox):生物的复杂性与基因组的大小并不完全成比例增加。
3 人类基因组计划及其8个目标人类基因组计划(human genome project, HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。
美、英、法、德、日和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。
按照这个计划的设想,在2005年,要把人体内约10万个基因的密码全部解开,同时绘制出人类基因的谱图。
其8个目标:1)人类DNA序列(Human DNA sequence);2)开发测序技术(Develop sequencing technology);3)识别人类基因组序列变异(Identify human genome sequence variation);4)功能基因组学技术(Functional genomics technology);5)比较基因组学(Comparative genomics);6)伦理、法律、社会问题(ELSI: ethical, legal, and social issues);7)生物信息学和系统生物学(Bioinformatics and computational biology);8)Training and manpower。
4 什么是宏基因组(metagenomics)?研究一类在特殊的或极端的环境下共栖生长微生物的混合基因。
生境中全部微小生物遗传物质的总和。
它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。
二数据库介绍1 GenBank一级数据库和二级数据库一级数据库:是指由实验的原始数据构成,不进行任何的处理,其内容由提交者控制。
如Genbank,SNP,GEO。
二级数据库:是指基于一级数据库建立的, 对生物学知识和信息的进一步整理,内容由第三方(NCBI)控制,如Refseq,TPA,Unigene。
2 refSeq和Havana基因集RefSeq会为收录的最优典型序列提供一个专业的拉丁文收录号,该序列是非冗余的,高质量的,经检验校正的序列信息;RefSeq记录了目前关于一个基因和它的转录子的知识的汇编,它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM,RefSeq标准为人类基因组的功能注解提供一个基础。
Havana是人和动物基因组注释数据库,提供人工注释的人类、小鼠、斑马鱼以及其他脊椎动物的基因组,可以在Vega 浏览器上搜索到,由sanger实验室团队通过人工方法提供更加准确和全面的基因组注释信息,包括剪接变异体、假基因、基因复制和非编码基因。
Havana基因集特别强调剪切变体和假基因,还有多聚腺苷酸化的特征。
很多Havana中的转录本被注释为不存在编码区,这些转录产物可能作为非编码RNA或者它们可能是目前无法确定的一个编码基因的不完全片段。
3 UCSC genome browser 是什么类型数据库,提供哪些基因组学研究资源UCSC GENOME BROWSER是二级数据库,给浏览基因组数据库提供了可靠和迅速的方式。
约有一半的注释信息是UCSC通过来自公开的序列数据计算出来的,另一半是来自世界各地的科学工作者。
本身并不下任何结论,而只是收集各种相关信息供用户参考。
支持数据库检索和序列相似性搜索。
UCSC Genome Browser 是由UCSC 创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。
站点用户可以通过它可靠和迅速地浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因,预测基因,表达序列标签,信使RNA,CpG岛,克隆组装间隙和重叠,染色体带型,小鼠同源性等。
用户也可以因为教育或科研目的加上他们自己的注释信息。
UCSC Genome Browser 目前应用相当广泛,比如Ensembl 就是使用它的人类基因组序列草图为基础的。
三遗传图谱1 遗传图谱和作图原理遗传图是应用遗传学分析方法将基因或其他DNA分子标记标定在染色体上构建的连锁图,也叫遗传连锁图(genetic linkage map) 。
这一方法包括杂交实验,家系分析等。
遗传图距单位为厘摩(cM ),每单位厘摩定义为1%交换率。
作图原理:遗传作图(Genetic mapping) 即遗传图谱的构建。
它是利用遗传学的原理和方法,构建能反映基因组中遗传标记之间遗传关系的图谱。
连锁(linkage linkage linkage))分析为遗传分析的重要手段,更是遗传作图的基础。
而连锁关系是通过重组率来反映的。
假设交换是随机发生的,,一对并列的染色单体上一对并列的染色单体上任何两点发生交换的机会是均等的;两个彼此靠近的基因之间因交换而分离的的几率要比互相远离的2个基因之间发生分离的几率要小。
因此重组率可以成为测量两个基因之间相对距离的尺度。
计算出不同基因间的重组率计算出不同基因间的重组率,就可以构建出显示基因在染色体上相对位置的图。
2 遗传作图有哪些标记,各有什么优缺点遗传标记的类型:基因标记,DNA标记。
基因标记:又称性状标记。
包括个体上可以看见的遗传标记基因,(如花色、株高)和生化性状基因,如血型系列(ABO)分析、血清蛋白、免疫蛋白、同工酶等。
优点:直观,易操作;缺点:①数量有限。
虽然经过近百年的努力,目前这些标记的数量仍然不多,因此限制了这些标记的利用;②操作上比较麻烦,难以开展大规模的研究和利用;③高等生物基因组存在大量基因间隔区,纯粹的基因标记在遗传图中会留下大片的无标记区段;④部分基因其等位基因可以通过常规实验区分。
DNA标记:是指以DNA片段为标记,通过DNA片段的电泳使DNA产生多态性,如RFLP、SSLP、SNP等。
优点:①在数量上是巨大的;②操作相对简单,适合大规模开展工作;③遗传作图的标记遗传作图的标记;④操作相对简单,适合大规模开展工作;⑤标记比较明显,容易识别;⑥受环境影响少,标记本身就是遗传物质。
缺点:大多数只有两个等位基因,限制了其在人类基因作图上的应用价值。
3 多态信息含量(PIC)在连锁分析中一个遗传标记多态性可提供的信息量的度量。
它是一个亲本为杂合子,另一亲本为不同基因型的概率。
现常用来衡量座位多态性高低的程度。
四物理图谱1 什么是物理图谱,与遗传图谱的差别物理图是应用分子生物学技术直接将DNA分子标记、基因或克隆标定在基因组实际位置所构建的位置图。
差别:物理图谱表示某些基因和或遗传标记之间在基因组上的精确位置和距离的图谱,而遗传图谱反映了基因组中遗传标记之间遗传关系,描述的是基因相对位置。
2 序列标记位点(STS)及其特点序列标记位点(STS Sequence tagged site, STS):指一段短的DNA序列,通常长度在100--- -500bp,易于识别,在待研究的染色体或基因组中仅存有1个拷贝。
因此当2个片段含有同一STS顺序时,可以确认这两个片段彼此重叠。
特点:①在染色体上的位置独一无二;②序列已知,方便PCR检测。
3 细菌人工染色体(BAC)及其应用BAC (Bacterial artificial chromosome) BAC (Bacterial artificial chromosome)即细菌人工染色体,具有细菌染色体的特性,以细菌细胞为宿主,能在细菌细胞中复制。
BAC为载体,可以乘载约300kb的大片段DNA,是物理作图中目前用得最多的大片段DNA载体。
BAC载体已广泛应用于基因组文库的构建及筛选、基因组测序、新基因的发现、克隆作图、BAC微阵列、转基因和动物品种资源保存等方面。
4 如何组建克隆重叠群?染色体步移法(chromosomal walking):先从基因文库的一个克隆开始,然后从文库中寻找与之重叠的第二个克隆,再继续确定第三个克隆,依次类推。
克隆指纹法:指纹是指确定DNA样品所具有的特定DNA片段组成,一个克隆的指纹表示了该克隆所具有的指定序列的特征,可以同其他克隆产生的同类指纹比较。
克隆指纹法的原理是,如果2个克隆彼此重叠,它们一定含有相同的顺序。
五Sanger测序原理与组装1 Sanger双脱氧末端终止法的原理核酸模板在核酸聚合酶、引物、四种单脱氧碱基存在条件下复制或转录时,如果在四管反应系统中分别按比例引入四种双脱氧碱基,只要双脱氧碱基掺入链端,该链就停止延长,链端掺入单脱氧碱基的片段可继续延长。
如此每管反应体系中便合成以共同引物为5’端,以双脱氧碱基为3’端的一系列长度不等的核酸片段。
反应终止后,分四个泳道进行电泳。
以分离长短不一的核酸片段(长度相邻者仅差一个碱基),根据片段3’端的双脱氧碱基,便可依次阅读合成片段的碱基排列顺序。
2 基因组框架图、完成图框架图能覆盖基因组常染色体区域90%,覆盖基因区域95%,contig N50达到5 kb,scaffold N50达到20 kb,单碱基错误率在十万分之一以下。
完成图能覆盖基因组常染色体区域95%,覆盖基因区域98%,contig N50达到20 kb,scaffold N50达到300 kb,单碱基错误率在十万分之一以下。
3 Phred-Phrap-Consed 软件包中各软件的作用Phred执行如下任务:读trace文件,调用bases,分配属性值到bases,生成输出文件;Phrap组装鸟枪法DNA序列数据;Consed浏览和编辑Phrap组装产物。
4 lander-waterman model 及其原理一段序列没有被覆盖的概率P0=e-(LN/G)或者P0=e-c;L片段的长度,N总的序列数量,G总长度,LN/G一个碱基被覆盖的平均次数,P0是指在平均次数为LN/G的情况下这个碱基一次没有被覆盖的概率,1-P0即可计算出一个碱基被覆盖的概率。
令c=LN/G,计算某一点不能被测序的概率P0= e-c,总的gap的长度=G e-c,总的gap的数量=N e-c。
5 Pair-end reads, Mate-pair reads, Contig, Scaffold, N50 sizeReads:pair-end reads 基于序列文库克隆两端的序列读框;mate-pair reads 基于插入片段大于mate-pair文库克隆两端的序列读框;Contig(重叠群):指相互间存在重叠顺序的一组克隆;Scoffold:连接非重叠的重叠群;N50:Reads拼接后会获得一些不同长度的Contigs。