生物信息学 第七章 基因组信息学

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

原核生物(prokaryote)的基因组
▪ 细菌和古细(生)菌(archaea)等的细胞内不包含膜结构的部分,多数基因组为单 个环状DNA分子,还可含有环状或线性的质粒(plasmid),大小105-107bp
▪ 基因比低等真核生物更紧凑,有操纵子(operon),无内含子(除少数古细菌外),
重复序列少(只有少数转座子)
来自多个途径,除了可使用寡聚核苷酸探针,也可使用较长的基因片段以及核酸类似物探
针(如PNA等)。 探针制备方法可以用常规DNA探针合成方法、或PCR扩增的cDNA、EST文库等。固定的 方式也多种多样。 点样法的优越性在于可以充分利用原有的合成寡核苷酸的方法和仪器或cDNA探针库,探 针的长度可以任意选择,且固定方法也比较成熟,灵活性大适合于研究单位根据需要自行 制备科研型基因芯片,制作点阵规模较小的商品基因芯片。
基因芯片(gene chip)
▪ 基因芯片也叫DNA chip或microarray(微阵列),是
由大量DNA或寡核苷酸探针密集排列所形成的探 针阵列。
▪ 基因芯片是将DNA短片段附着于固体(玻璃、塑料、
硅等)表面以形成阵列,然后通过与目的基因进行 杂交,从而检测信息。
▪ 本质是由DNA印迹(Southern blotting)而来
遗传语言的奥秘。
3
真核生物(eukaryote)的基因组
▪ 动物、植物、真菌(fungi)等真核生物的细胞内包含膜结构的部分,如细胞核、 细胞器(如线粒体,植物的叶绿体),大小107-1011bp ▪ 重复序列多,LINE(long interspersed nuclear elements,长散布重复序列), SINE(short interspersed nuclear elements,短散布重复序列), LTR, transposon(转座子),微卫星(microsatellite) ▪ 较低等的真核生物基因更紧凑,内含子少
15
序列装配软件作业(LasergeneSeqMan)
1、需要破解版
2、运行SeqMan ▪ ▪ [新版] SeqMan Pro (含在Lasergene 7.2中)的新特征(能处理如 下数据) large

▪ ▪ ▪
contains repeated sequences
has noisy ends being used for SNP analysis need vector trimming (矢量微调)
生物信息学 第七章 基因组信息学
生物科学与技术学院
本课目录
一、总括 二、基因组组装 三、基因芯片 四、PCR引物设计
2
一、总括
基因组(Genome):一个细胞、细胞器或病毒中的所有DNA(或RNA)
功能基因组学:以解释基因组的功能及控制机制为目标,其核心问 题是研究基因组多样性,表达及调节,模式生物 比较基因组学:将不同物种基因组进行比较,其有助于根据同源性 方法分析基因组功能;有助于发现人类和其他生物的本质差异,探索
基于芯片的序列分析
▪测序:通过与寡核苷酸探针(长度为k,有重叠)的杂交结果确定靶序列中存在的
所有k长度片段,然后根据这些片段重构靶序列。 ▪直接检测目标序列 ▪探针的长度在20到30之间,同一组探针之间相互尽可能不重叠或少重叠,以提 高探针的敏感性和特异性。 ▪突变检测(对于目标序列上已知的突变点) ▪单探针设计:以该点为中心,从目标序列选取一个片段,作为设计探针的参考 序列,根据参考序列,分别设计四个高度特异的探针,这四个探针除中心位置外 均相同并与参考序列互补 ▪多探针设计:将上面的四个变异探针改为(组内互有重叠的)四组探针
生物信息学在基因芯片中的作用
1.确定芯片检测目标
▪提取什么信息 (what) 2.芯片设计 ▪如何提取信息 (how) ▪可靠性分析 (whether) 3.实验数据管理与分析 ▪如何处理和利用信息/数据挖掘 (data-mining)
芯片设计
▪主要包括两个方面:
1、探针的设计:通过数据库搜索:,取得序列数据、序列特征(突变等) 2、探针布局的设计:根据变异检测型芯片的要求,设计出能检测出发生变异的 位置,能发现发生了什么样的变化的芯片。 ▪注意:检测变化点应位于探针中心,以得到最大分辨率
单探针和多探针的突变检测芯片设计示意
单探针
多探针(其中一组)
基于芯片的基因功能分析
▪基因表达分析
1、表达型基因芯片:采用高通量(high-throughput)基因表达检测技术,全面分析 基因的表达水平,了解基因的功能。
2、基因表达图谱:基于芯片的表达监控实验产生大量的数据,在这些数据背后
隐藏着丰富的基因相互作用、基因功能信息,需通过数据分析揭示这些信息。 ▪这种根据基因芯片获得的表达图谱有别于以前的物理图和功能图,能更直接地
揭示基因组中各基因相互关系。
基因芯片检测结果的分析
▪荧光检测图像处理
1、图像的预处理(除噪等) 2、基因芯片与样本杂交后,用图像扫描仪器捕获芯片上的荧光图像,计算机的
图像常由象素点所组成,每个象素点的灰度值或颜色对应一个数
▪检测结果可靠性分析 1、根据实验误差,计算可靠性(后)
2、(更精确)建立芯片杂交过程的计算机仿真实验模型),以便在制作芯片之前分
(1)基因标记
(2)分子/DNA标记: RFLP,SSLP(小卫星/VNTR,微卫星),SNP 遗传标记的特征:
(1)个体间存在着多态性(差异),可被识别
(2)多态性可在后代中重演,即可遗传 ▪ 遗传作图方法: 连锁分析
8
果 蝇 的 遗 传 图 谱
物理作图(physical mapping)
▪ 物理作图:采用分子生物学技术直接检验DNA分子来作图以标示序列特征(基
DNA序列,其在待分析的基因组或染色体上是唯一的。 ▪ 特点:数据量大,只能用计算机完成
10
限制作图
FISH
STS
基因组组装(genome assembly)
▪基因组组装:将大量短序列拼装成完整基因组的过程,其核心是序列装配过程
(sequence assembly )。 ▪步骤: Step 1、将所有短序列比对,以查找重叠的部分 Step 2、将重叠部分合并 ▪困难: 1、本身是个很难的计算问题 2、有很多重复序列(repeat) 3、有的重复序列可长达几千bp 4、有些重复序列可出现在几千个不同的地方 5、在拥有巨大基因组的植物和动物中普遍存在以上困难
析所设计芯片的性能,预测可靠性
基因芯片信息的管理和利用
▪ 芯片信息管理
▪ 芯片信息管理数据库 ▪ 主要收集、管理表达型基因芯片的实验数据
▪ 数据集成和交叉索引
PCR引物设计(PCR primer design)
▪ 什么是PCR(polymerase chain reaction) ?
30
PCR引物设计内容
因等)在基因组上的位置,遗传图的解析度和精确度较低,需物理图补充,单位 为bp。
▪ 物理作图方法(很多,可大致分为3类)
1、限制作图(restriction mapping) 2、FISH (fluorescent in situ hybridization)
Biblioteka Baidu
3、STS(sequence tagged site) mapping:STS是指一段200-500bp的已知
31
一些概念
▪退火(annealing/hybridisation):两条互补单链由氢键形成双链,退火温度Ta
理成大小不同的片段,再将这些片段的序列连接起来的
测序方法),测序后的序列便可正确置于图上。
6
人 的 基 因 图 谱
遗传作图(genetic mapping)
▪ 遗传作图:采用遗传技术(杂交,谱系等)作图以标示序列特征(基因等)在染色体
上,形成遗传连锁图,单位为cM(厘摩,即减数分裂的重组频率为1%) ▪ 遗传标记:遗传图谱上的特征性位置标记。
刻胶保护合成法、微流体模板固相合成技术、分子印章多次压印原位合成的方法、
喷印合成法。
实现高密度芯片的标准化和规模化生产。
在片合成法可以发挥微细加工技术的优势,很适合制作大规模DNA探针阵列芯片,
在片(原位)合成法
探针手臂阵列
杂交后发出荧光信号区域
荧光标记靶基因
2、点样法:首先按常规方法制备cDNA(或寡核苷酸)探针库,然后通过特殊的针头和微 喷头, 分别把不同的探针溶液,逐点分配在玻璃、尼龙或者其它固相基底表面上不同位点, 并通过物理和化学的结合使探针被固定于芯片的相应位点。这种方式较灵活,探针片段可
在片合成法制备,用于RNA表达或序列分析 ~30万点/cm2 (光刻法可达百万),~3万基因
基因芯片制备方法
1、在片(原位)合成法:它通过一组定位模板来决定基片表面上不同化学单体的偶
联位点和次序。 在片合成法制备DNA芯片的关键是高空间分辨率的模板定位技术和固相合成化学
技术的精巧结合。
目前,已有多种模板技术用于基因芯片的在片合成,如光去保护并行合成法、光
contig 1
contig 2
装配软件
▪ 商业软件
1、sequencher, ATGC (PC) 2、TraceTuner/PGA (workstation) 3、SeqMan [Pro] (DNAStar/Lasergene) ▪ 学术免费软件 1、phred/phrap/consed 2、CAP3
14
phred/phrap/consed(略)
▪ 对学术用途免费,使用需作者同意
▪ 至少能计算20万以上短序列(reads)的装配 ▪ 支持系统:Sun Solaris (Sparc) (2.5.1以上)、Sun Solaris (Intel) (2.8以上)、DEC-Alpha Digital Unix (OSF1 V4.0以上)、HP HPUX (11.0以上)、SGI Irix (6.2以上)、Linux (Redhat 7.1-1以上) phred/phrap/consed是什么意思?干什么的? ▪ phred: 准备(basecall) ▪ phrap: 装配(产生consensus sequences/contigs) ▪ consed: 浏览(browse)
4
高等、低等真核生物和原核生物的基因组
酿酒酵母
5
基因组作图(mapping genomes)
对生物的基因进行鉴定(测序),以此测定它的染色体 上的特定位置,然后用图示的方式把它表示出来,就形 成了基因图谱。 ▪ 为什么要作图? 主要是为了测序 一次实验一般只能得到<2000bp的序列片断,而直接把片 断拼接起来对于大的基因组易出错。 ▪ 有了图如何测序? 利用图把基因组分成较大片断(105-106bp),并对大片断 用鸟枪法(shotgun)测序(鸟枪法是将目的DNA随机地处
▪ 从实验设计到结果分析都离不开生物信息学
18
基因芯片的作用和意义
1. 可研究生命体系中不同部位、不同生长发育阶段的基因表达,比较不同个体或
物种之间的基因表达,比较正常和疾病状态下基因及其表达的差异 2. 有助于研究不同层次的多基因协同作用的生命过程,发现新的基因功能,研究生
物体在进化、发育、遗传过程中的规律
12
序列装配(sequence assembly)
1、reads/segments
2、assemble 3、contig: A sequence contig is the extended
contiguous sequence that is produced by the
assembly process that joins overlapping sequences
▪ 目的:是为了找到一对合适的核苷酸片段,使其能有效地扩增模板DNA序列。 ▪ 引物的优劣直接关系到PCR的特异性与成功与否 ▪ 一般引物长度为15~30b,理想的扩增片段长度为200~1000bp ▪ 方法: Step 1、找到DNA序列的保守区 Step 2、预测将要扩增的片段单链是否形成二级结构
基因芯片分类
1、较长的DNA探针(>100b)芯片,多是PCR产物,点样法制备,用于RNA表达
分析
macroarray/high microarray:
density filter:≤25点/cm2,用于初步测试mRNA丰度
~1千点/cm2, 数万点/片,200~2000bp
2、短的寡核苷酸探针(~25b)芯片(oligonucleotide chip)
相关文档
最新文档