大规模表达序列标签测定及分析

合集下载

EST序列

EST序列

EST序列表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。

这一概念首次由Adams等于1991年提出。

近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。

在通过mRNA差异显示、代表性差异分析等方法获得未知基因的cDNA部分序列后,研究者都迫切希望克隆到其全长cDNA序列,以便对该基因的功能进行研究。

克隆全长cDNA序列的传统途径是采用噬斑原位杂交的方法筛选cDNA文库,或采用PCR的方法,这些方法由于工作量大、耗时、耗材等缺点已满足不了人类基因组时代迅猛发展的要求。

而随着人类基因组计划的开展,在基因结构、定位、表达和功能研究等方面都积累了大量的数据,如何充分利用这些已有的数据资源,加速人类基因克隆研究,同时避免重复工作,节省开支,已成为一个急迫而富有挑战性的课题摆在我们面前,采用生物信息学方法延伸表达序列标签(ESTs)序列,获得基因部分乃至全长cDNAycg,将为基因克隆和表达分析提供空前的动力,并为生物信息学功能的充分发挥提供广阔的空间。

文本将就EST 技术的应用并就其在基因全长cDNA克隆上的应用作一较为详细的介绍。

1、ESTs与基因识别EST技术最常见的用途是基因识别,传统的全基因组测序并不是发现基因最有效率的方法,这一方法显得即昂贵又费时。

因为基因组中只有2%的序列编码蛋白质,因此一部分科学家支持首先对基因的转录产物进行大规模测序,即从真正编码蛋白质的mRNA出发,构建各种cDNA文库,并对库中的克隆进行大规模测序。

Adams等提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。

虽然ESTs序列数据对不精确,精确度最高为97%,但实践证明EST技术可大大加速新基因的发现与研究。

Medzhitov等通过果蝇黑胃TOLL蛋白进行dbEST数据库检索,该蛋白已证实在成熟果蝇抗真菌反应中发挥重要作用,通过同源分析的方法,找到相应的人类同源EST(登录号为H48602),这为接下来研究人类TOLL同源蛋白的功能提供了很好的条件。

EST介绍

EST介绍

表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。

这一概念首次由Adams等于1991年提出。

近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。

在通过mRNA差异显示、代表性差异分析等方法获得未知基因的cDNA部分序列后,研究者都迫切希望克隆到其全长cDNA序列,以便对该基因的功能进行研究。

克隆全长cDNA序列的传统途径是采用噬斑原位杂交的方法筛选cDNA文库,或采用PCR的方法,这些方法由于工作量大、耗时、耗材等缺点已满足不了人类基因组时代迅猛发展的要求。

而随着人类基因组计划的开展,在基因结构、定位、表达和功能研究等方面都积累了大量的数据,如何充分利用这些已有的数据资源,加速人类基因克隆研究,同时避免重复工作,节省开支,已成为一个急迫而富有挑战性的课题摆在我们面前,采用生物信息学方法延伸表达序列标签(ESTs)序列,获得基因部分乃至全长cDNAycg,将为基因克隆和表达分析提供空前的动力,并为生物信息学功能的充分发挥提供广阔的空间。

文本将就EST技术的应用并就其在基因全长cDNA克隆上的应用作一较为详细的介绍。

1、ESTs与基因识别EST技术最常见的用途是基因识别,传统的全基因组测序并不是发现基因最有效率的方法,这一方法显得即昂贵又费时。

因为基因组中只有2%的序列编码蛋白质,因此一部分科学家支持首先对基因的转录产物进行大规模测序,即从真正编码蛋白质的mRNA出发,构建各种cDNA文库,并对库中的克隆进行大规模测序。

Adams等提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。

虽然ESTs序列数据对不精确,精确度最高为97%,但实践证明EST技术可大大加速新基因的发现与研究。

Medzhitov等通过果蝇黑胃TOLL蛋白进行dbEST数据库检索,该蛋白已证实在成熟果蝇抗真菌反应中发挥重要作用,通过同源分析的方法,找到相应的人类同源EST(登录号为H48602),这为接下来研究人类TOLL同源蛋白的功能提供了很好的条件。

稻瘟病菌发育cDNA文库构建与表达序列标签分析pdf

稻瘟病菌发育cDNA文库构建与表达序列标签分析pdf

农业生物技术学报JournalofAgriculturalBiotechnology2006,14(6):963 ̄969・研究论文・稻瘟病菌发育cDNA文库构建与表达序列标签分析*金庆超1,董海涛1**,彭友良2,陈保善3,邓晔1,戴承恩1,方永启1,邵菁1,娄沂春1,李有志3,李德葆1**(1.浙江大学农业与生物技术学院生物技术研究所,杭州310029;2.中国农业大学农业部分子植物病理学重点实验室,北京100094;3.广西大学亚热带生物资源保护和利用实验室,南宁530004)摘要:利用稻瘟病菌(Magnaporthegriesa)连续6个发育时期的材料构建了一个混合cDNA文库。

文库滴度,重组率和插入片段长度等质量分析表明,构建的文库包含完整的稻瘟病菌基因,可用于病菌基因表达分析。

利用该文库获得了7456条5′端表达序列标签(ESTs)(GenBank收录号:(CK909944 ̄CK913666和CK928583 ̄CK932582),生物信息分析表明:EST序列拼接出2975个假定独立转录本(TUTs),冗余度为60.1%;从cDNA文库中筛选出大量的低丰度表达基因,约占TUT总数的79.8%,说明在文库中基因组成类型的复杂性较高;在所有TUTs中,功能未知基因约占85.5%,编码ECM33蛋白和疏水蛋白等病菌致病相关的注释基因高丰度表达,进一步表明该cDNA文库反映了病菌侵染和发育过程中基因表达的状况。

关键词:稻瘟病菌;cDNA文库;表达序列标签中图分类号:S188文献标识码:A文章编号:1006-1304(2006)06-0963-07MagnaporthegrisesaDevelopmentcDNALibraryConstructionandExpressedSequenceTagsAnalysis*JINQing-chao1,DONGHai-tao1**,PENGYou-liang2,CHENBao-shan3,DENGYe1,DAICheng-en1,FANGYong-qi1,SHAOJing1,LOUYi-chun1,LIYou-zhi3,LIDe-bao1**(1.InstituteofBiotechnology,CollegeofAgricultureandBiotechnology,ZhejiangUniversity,Hangzhou310029,China;2.TheKeyLaboratoryofMolecularPlantPathology,MinistryofAgriculture,ChinaAgriculturalUniversity,Beijing100094,China;3.LaboratoryofSubtropicalBioresourceConservationandUtilization,GuangxiUniversity,Nanning530004,China)Abstract:TheinfectionmodelofmechanicalpenetrationofplantsurfacesbyMagnaporthegriseahasbecomeafocusofmolecu-larmechanismofthefungalpathogenesis.Inordertooverallanalyzegeneexpressionduringinfectionanddevelopment,amixedcD-NAlibrarywasconstructedwithmaterialsfromcontiguoussixdevelopmentstagesofM.grisea.Somequalityanalysis,suchasthetiter,therecombinantrateandinsertcDNAlengthofthecDNAlibrary,indicatedthatthelibrarycontainedintactgenesandcouldbeusedforgeneexpressionanalysisofM.grisea.Total7456expressedsequencetags(ESTs)(GenBank(CK909944 ̄CK913666andCK928583 ̄CK932582)of5′endswereobtainedfromthecDNAlibrary.ResultsofbioinformaticsanalysisforallESTsdatashowedthatESTsequencesassembledout2975tentativeuniquetranscripts(TUTs)andendued60.1%redundancy;mostgenesex-pressedwithlowabundancegeneratedfromthecDNAlibraryandoccupied79.8%ofallTUTs,indicatingthelibraryhadagoodcomplexityofgenecomposition;about85.5%TUTscouldnotbeassignedfunctionaldescriptionandinfectionrelatedgenes,suchasECM33proteinandhydrophobinexpressedathighabundancelevelamongtheremainedannotatedgenes,furtherlyindicatedthatthecDNAlibraryreflectedcorrectlygeneexpressionduringM.griseadevelopment.SothemixedcDNAlibraryprovidesaneffectivere-sourceforfunctionalstudyofthefungusandissuitableforfurtherstudyformolecularmechanismofinfectionanddevelopmentofM.grisea.Keywords:Magnaporthegrisea;cDNAlibrary;expressedsequencetags*基金项目:国家高技术研究与发展计划(863)项目(No.2002BA711A15)资助。

基因组学试题

基因组学试题

基因组学试题1、什么是基因组(5分)?什么是转录组(5份)?说明基因组合的关系和异同(10分)基因组是生物体(细胞或病毒)中所有的DNA的总和, 包括所有的基因和基因间区域,包括染色体之外的遗传物质,如线粒体、叶绿体、质粒等。

基因组:物种内恒定(♀/♂),生物体或细胞内恒定,没有时空变化(?)。

事实上有特例,1、盲鳗(Hugfish) ,性细胞和体细胞DNA量差异; 2、部分昆虫,性细胞和体细胞染色体数目差异; 3、动物雌雄个体差异转录组:•生物体、组织、细胞不同生长发育阶段的转录产物不同。

•生物体不同组织、同一组织不同细胞的转录产物不同。

•生物体、组织、细胞不同环境、不同生理状态下的转录产物不同。

•转录产物中包含大量不翻译蛋白的RNA,如rRNA; sRNA2、简述原核生物基因组和真核生物基因组的特点和差异(10分)原核生物基因组•一条环状DNA;•只有一个复制起始点;•有操纵子(Operon)结构1.结构基因为多顺反子,若干个功能相关的功能基因串联在一起,手统一调控区调控。

2.数个操纵子还可以受同一个调节基因(regulaterygene),即调节子(regulon)调控。

•结构基因无重叠现象,基因组中任何一段DNA不会用于编码2种蛋白质•基因是连续的,无内含子,转录后不剪接;•重复序列少,蛋白质基因一般为单拷贝基因,但编码rRNA的基因一般为多拷贝,有利于核糖体快速组装。

真核生物基因组•复杂的染色体结构,一般有多条染色体•每条染色体上有多个复制起始点;•基因组中有大量的重复序列(轻度、中度、高度重复);•基因是不连续的,有内含子,转录后经过剪接加工成成熟RNA;•有许多来源相同、结构相似、功能相关的基因组成的单一基因簇,或基因家族•有细胞器基因,真核生物除具有核基因外,还有存在于线粒体和叶绿体中基因,编码同功酶等。

3、什么是遗传图谱(5分)?遗传图谱在基因组研究中的意义何在(15分)?采用遗传学分析方法将基因或其它DNA标记按一定的顺序排列在染色体上,这一方法包括杂交实验,家系分析。

表达序列标签数据库搜索鉴定小鼠UBAP1基因及其数字化表达分析

表达序列标签数据库搜索鉴定小鼠UBAP1基因及其数字化表达分析

UA1 B P 基因在小 鼠中的同源基 因,为今后 以小鼠 动物模 型深 人 研 究 UB 1基 因 的 功 能 奠 定 了基 AP 础 .基于 E T的数字化表达分析 ,显示 U A 1 S B P 基 因在小 鼠组织中广泛高表达.
( blan z e 3 U - rge y )E 等,在转录水平的调节、蛋 i i nm g 白 降解、细胞凋亡、细胞周期调控等过程 中具有 质 重要作用 l.该家族成员的共 同特征是具有 一个 2 J 或 多 个 在 进 化 中 高 度 保 守 的 U A 功 能 域 B
成员 UB P uiut soi e rti )基 因 . A 1(bqinasc tdpoe 1 i a n UB I基 因在 人 正常 组 织 中广 泛 表 达 ,初 步 研 究 AP
导蛋白的氨基酸序列采用 B s程序与 G n ak lt a eB n 和 S i -rt r MB ws Po E L数据库进行 同源性搜索 .蛋 白 s / T 质基序 、结构域的查询和家族分析使用 It P n rm数 e 据库( t :/ w ei eu / t p s n h ) ht /w w. . .k i e m/ a .t . p bR nr c m1
维普资讯
2 0  ̄2 2 0 2 9( )
生物化学与生物物理进展
n .Bohm.Bo h s i e c ip y.
・33 2
表 达序 列标 签 数 据库 搜 索鉴定 小 鼠 UB 1基 因 AP
及 其 数字 化 表 达分 析
钱 骏 董 利 张必 王 如 周 成 洁 呜 李忠 李 花 伟芳 李小 李 玲 桂源
Q8 7 ,R 3 79 学科 分类 号
泛肽相关蛋白是真核生物中一个重要基 因家族 在目 前发现的一百多个家族成员 中,大多数成员主 要参与泛肽介导的蛋白质水解途径,如泛肽羧端水

生物信息学中的基因组序列比对与表达分析

生物信息学中的基因组序列比对与表达分析

生物信息学中的基因组序列比对与表达分析近年来,随着高通量测序技术的快速发展,生物学研究的范围和深度不断拓展。

基因组序列比对和表达分析是生物信息学中两个重要的研究方向。

本文将针对这两个任务进行详细的探讨。

1. 基因组序列比对基因组序列比对是指将新测序得到的DNA序列与已知的参考序列进行比对,以确定两个序列之间的相似性和差异性。

这种比对可以帮助我们研究基因组变异、基因家族的演化以及基因组的进化等重要的生物学问题。

常用的基因组序列比对方法包括Smith-Waterman算法和BLAST算法。

Smith-Waterman算法是一种局部比对方法,可以寻找序列中的区域性匹配。

而BLAST算法则是一种更快速和高效的比对方法,可以在大规模的数据库中快速找到相似序列。

除了算法的选择,比对的质量也是非常重要的。

比对结果的准确性往往取决于参数的设置和序列的质量。

因此,在进行基因组序列比对之前,我们需要对原始数据进行预处理,包括质量控制、去除接头序列和低质量的序列等。

2. 表达分析基因的表达分析是研究基因在不同组织、时间和环境条件下的表达水平和模式的过程。

通过表达分析,我们可以了解基因在不同生物学过程中的功能和调控机制,从而揭示生物系统的运作方式。

常用的表达分析方法包括DGE(Digital Gene Expression)和RNA-seq(RNA sequencing)。

DGE是一种通过纯化和测序技术直接分析基因表达水平的方法。

而RNA-seq则是一种高通量测序技术,可以同时检测转录组中的所有序列,包括编码基因和非编码RNA。

进行表达分析的关键在于数据处理和差异表达基因的筛选。

在数据处理方面,需要对原始测序数据进行质量控制、去除接头序列、去除低质量的碱基等。

差异表达基因筛选的目的是找出在不同处理组之间具有显著差异表达的基因。

一般来说,我们会使用统计学方法,如DESeq2、edgeR等,来对表达谱数据进行差异分析。

此外,功能注释和信号通路分析也是表达分析中的重要步骤。

表达序列标签EST分析及其在林木研究中的应用

表达序列标签EST分析及其在林木研究中的应用

林业科学研究 2004,17(6):804~809Forest Research 文章编号:100121498(2004)0620804206表达序列标签(EST)分析及其在林木研究中的应用李 虹1,2,卢孟柱2,蒋湘宁1(11北京林业大学,北京 100083;21中国林业科学研究院林业研究所,北京 100091)摘要:简要叙述了表达序列标签EST技术的原理和流程,综述了EST在研究林木木材形成和其它生物学过程时新基因的发现、基因表达分析和基因芯片方面的应用进展以及在开发林木单核苷酸多态性和简单序列重复等分子标记和构建遗传图谱方面的应用进展,并对其在林木基因组研究中的应用前景进行了展望。

关键词:EST;新基因发现;基因表达;分子标记中图分类号:Q78 文献标识码:A1991年Adams等人从三种人脑组织的cDNA文库中随机挑取609个克隆进行测序,从而得到一组人脑组织的表达序列标签EST(ex pressed sequence tags),并将其与数据库进行序列同源性对比,结果表明:该组EST中有36个代表已知基因,337个代表未知基因,这是关于EST技术应用的首次报道,并首次提出了EST的概念[1]。

随着人类基因组计划的顺利进行,EST技术首先被广泛应用于寻找人类新基因,绘制人类基因组图谱,识别基因组序列编码区等研究领域,之后又被广泛应用于植物基因组研究[2]。

随着EST测序的飞速发展,到2003年6月,美国国家生物技术信息中心(NC BI)的EST数据库中(dbEST)(http:ΠΠw w w.ncbi.nlm.nih.g ovΠdbESTΠindex.html)已录入的来自不同物种的不同组织的EST共有17291123条,其中人和鼠的最多。

EST也被广泛应用于新基因的发现、基因鉴定、基因克隆、构建基因组图谱、基因定位分析、基因表达分析等方面。

在植物方面,除了拟南芥(Arabidopsis thaliana(L.)Heynh.)、水稻(Oryza sativa L.)、小麦(T riticum aesti2 vum L1)、大麦(Hordeum vulgare L.)、大豆(G lycine max(L.)Merr.)、玉米(Zea mays L.)、棉花(G os2 sypium herbaceum L1)等模式植物和农作物以外,近年来也开展了一些木本植物的EST研究,首先报道的是火炬松(Pinus taeda L.)EST分析,随后是杂交杨(Populus tremula L.×P.tremuloides M ichx.)和毛果杨(P.trichocarpa‘T rich obel.’)等其它林木。

表达序列标签研究进展及其在甲壳动物中的应用概况

表达序列标签研究进展及其在甲壳动物中的应用概况

表达序列标签研究进展及其在甲壳动物中的应用概况表达序列标签研究进展及其在甲壳动物中的应用概况(1.中国石油天然气管道工程有限公司,河北廊坊 065000;2.南昌大学,a.食品科学与技术国家重点实验室;b.生命科学与食品工程学院,南昌330031)摘要:随着生物信息学的发展,表达序列标签(est)在分子标记开发、新基因分离鉴定、基因表达谱分析、基因组功能注释、基因电子克隆等方面具有重要作用。

简要介绍了est分析的原理及其在基因识别、基因预测、物理图谱的构建、dna芯片制备等方面的应用概况。

综述了甲壳动物est的研究现状,并对est的应用前景进行了展望。

关键词:表达序列标签(est);甲壳动物;生物信息学researchadvanceofexpressedsequencetag(est)and its applicationincrustaceanqi ji-bin1,zhaoda-xian2a,2b(1. china petroleum pipeline engineering limited corporation langfang 065000,hebei,china;2a.statekeylaboratoryoffoodscienceandtechnology;2b.collegeoflifescienceandfoodengineering,nanchanguniversity,nanchang330031,china)abstract:withthedevelopmentofbioinformatics,expressedsequencetag(est) played animportantrole inmolecularmarkersdevelopment,newgenesisolationandidentification,geneexpressionprofileanalysis,genomefunctionalannotationandsilicogenecloning. theprincipleofestanalysisanditsapplications ingeneidentification,geneprediction,physicalmapconstructionanddnachippreparation was briefly introduced.inaddition,theresearchstatusofcrustaceanestand the prospectofestapplicationwerealsosummarized.keywords:expressedsequencetag(est);crustacean;bioinformatics表达序列标签(expressedsequencetag,est)是从一个随机选择的cdna克隆进行5’端和3’端单一次测序获得的短的cdna部分序列。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


发现新基因 有序列 主要问题 EST SAGE 是 是 是(可直接进行可 变剪切的分析) 否 采样量 实验过程 Microarray 否 否 重复性 GeneChip 否 否 成本高
ESTs数据的不足
◆ ESTs很短,没有给出完整的表达序列; ◆ 低丰度表达基因不易获得。 ◆ 由于只是一轮测序结果,出错率达2%-5%; ◆ 有时有载体序列和核外mRNA来源的cDNA污染或 是基因组DNA的污染; ◆ 有时出现镶嵌克隆; ◆ 序列的冗余,导致所需要处理的数据量很大。
Gene Chip
读取光密度
表达量 矩阵
• Rice genomewide DNA chip (60,000+预测基 因) • 果蝇基因芯片 …
EST分析
0.1 0.06 0.05 0.04 … 0 0 0.07 0.01 …
聚类分析(非同源功能注释)
G1,G3,G5
G2,G4

G6,G9
几种大规模分析基因表达水平的方法的比较
Growth of dbEST 40
Number of ESTs (millions)
35 30 25 20 15 10 5 0
19 93 19 94 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 and house-keeping gene expression level
Library
Lib 1 Lib 2 Lib 3 Lib 4 Lib 5 Lib 6 Lib 7 Lib 8 Lib 9 Mean STDEV STDEV/Mean
rRNA 0.25% 0.66% 1.99% 0.09% 0.64% 0.40% 0.20% 0.18% 0.35% 0.53% 0.58%

5’端
5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基 因或研究基因差异表达时用5’端EST较好,大部分EST计划都是选 用5’端进行测序的,而且从5’端测序有利于将EST拼接成较长的基 因序列。

3’端
3’端mRNA有一20-200bp的plyA结构,同时靠近plyA又有特异性 的非编码区,所以从3’端测得EST含有编码的信息较少.但研究也 表明,10%的mRNA3’端有重复序列,这可以作为SSR标记;非编码 区有品种的特异性,可以作为STS标记.
●重复序列(RepBase,) ● 污染序列 (如核糖体RNA、细菌或其它物种的基因组DNA 等) 3. 去除其中的镶嵌克隆。 4. 最后去除长度小于100bp的序列。
家猪脂肪的EST数据分析结果
1 2 3 4 5 6 7
1:线粒体基因(8.76%) 2:E.Coli污染基因(0.23%) 3:核糖体基因(0.14%) 4:重复序列(0.10%) 5:基因组DNA(1.95%) 6:新基因或EST(27.07%) 7:其他已知基因(61.75%)
Year
● 1993年前ESTs数据收录于GenBank, EBI和DDBJ。 ● ● 1993年NCBI(National Center of Biotechnology Information)建立了一 个专门的EST数据库dbEST来保存和收集所有的EST数据。 ● 1995年中期GenBank 中EST的数目超过了非EST的数目。 ● 至2007年9月底,GenBank中EST的数目已经超过了四千六百万,超 过GenBank中序列数的60%.
后续分析
EST软件平台

EST序列
库/序列的质量检查
测序量监控
全长ORF寻找
发现全长基因
聚类和拼接检查 (借助于基因组信息)
交替剪接检测
EST特有信息
表达量分析
功能分类
研究表达基因概况的主要实验手段 (DNA chip、proteomics的先驱)
SAGE的先驱
测序方向的选择
根据不同的实验目的选择不同的测序方向:

两端测序 获得更全面的信息。
序列前处理 (pre-processing)
1. 去除低质量的序列(Phred)
2. 应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属 于表达的基因的赝象序列(artifactual sequences)。
●载体序列(ftp:///repository/vector)
大规模EST序列测定的开始
ESTs的来源
上世纪80年代,对cDNA序列进行大规模测序的想 法就曾提出,但对此一直存在争论,有人认为这种方 法能发现成千上万的新基因;而反对者则认为cDNA序 列缺少重要的基因调控区域的信息。90年代初Craig Venter 提出了EST的概念,并测定了609条人脑组织的 EST,宣布了cDNA大规模测序的时代的开始 (Adams et al.,Science,1991)。
◆ STACK (http://www.sanbi.ac.za/Dbases.html)
EST的应用 1
ESTs与基因识别
ESTs已经被广泛的应用于基因识别,因为ESTs的数目比 GenBank中其它的核苷酸序列多,研究人员更容易在EST库 中搜寻到新的基因(Boguski et al., 1994). ● 在同一物种中搜寻基因家族的新成员(paralogs)。 ● 在不同物种间搜寻功能相同的基因(orthologs)。 ● 已知基因的不同剪切模式的搜寻。【注:不过很难确 定一个新的序rg et al., 1997)】
Mitochondria mRNA 4.90% 0.78% 0.18% 0.31% 0.65% 0.22% 0.30% 0.31% 0.31% 0.88% 1.52%
MADS G3PD 0.56% 0.71% 0.50% 0.78% 0.76% 0.44% 0.55% 0.92% 0.78% 0.67% 0.16% 0.24 Actin 0.29% 0.20% 0.36% 0.76% 0.50% 0.66% 0.59% 0.62% 0.17% 0.46% 0.21% 0.46 Tubulin 0.09% 0.20% 0.19% 0.83% 1.10% 1.04% 1.31% 2.25% 0.20% 0.80% 0.72% 0.89 0.06% 0.00% 0.06% 0.34% 0.00% 0.13% 0.10% 0.40% 0.10% 0.13% 0.14% 1.08
EST的应用 2
ESTs与基因图谱的绘制
EST可以借助于序列标签位点(sequence-tagged sites)用于 基因图谱的构建. STS本身是从人类基因组中随机选择出来的长 度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。 来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图 谱的绘制。其优点主要包括: ● 由于没有内含子的存在,因此在cDNA及基因组模板中其 PCR产物的大小相同; ● 与编码区具有很强的保守性不同,3’UTRs序列的保守性 较差,因此很容易将单个基因与编码序列关系非常紧密的相 似基因家族成员分开。 (James Sikela等,1991年)
EST相关数据库
储存EST原始数据的一级数据库
◆ EMBL ◆ GenBank (dbEST) ◆ DDBJ
对EST进行聚类拼接的二级数据库
◆ UniGene (/UniGene) ◆ TIGR Gene Indices (。(可用于基因表达量的译区由于不含有编码序列,与编码区保守序列相比所受到的选择压力比较小,因 而其多态性程度比较高,便于多态性位点的选择以用于遗传图谱的构建。 )
◆ CGAP
为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genome Anatomy Project , CGAP)构建了很多正常的酶切 连接
测序
单条测序==对30-40条EST测序
分析
由于采样量大大提高,可对低表达基因进行分析: 基因表达量分析、寻找新基因等等
基因芯片或微阵列技术流程
反转录
原位 合成 反转录(可选)
…. ….
Clone
连接, 转化
标记 杂交
…………. …………. ………….
利用EST,SAGE分析结果 制作芯片(研究已发现的 基因)
● ●
Digital Gene Expression Displayer (DGED) cDNA xProfiler
◆ 基因表达系列分析(Serial Analysis of Gene Expression, SAGE) 基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescu et al., 1995)。SAGE的 原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-14个碱基对),这些短的序列被连接、克 隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。 ◆ DNA微阵列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优 点。在许多情况下,cDNA芯片的探针来源于3'EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探 针的定时具有更多的信息含量,并且在构建EST数据库时更有 优势,同时有利于利用EST数据库聚类完整的基因和阅读框的寻找,便于利用更敏感的蛋 白质比较来寻找同源基因。 )
二、序列测定及数据分析
随机挑取克隆进行5’或3’端测序
序列前处理
聚类和拼接
基因注释及功能分类
EST技术流程
体内:翻译 体外研究:反转录
连接, 转化
转化效率问题(基因芯片) 大数据量分析理念Hale Waihona Puke 经形成构建技术已经成熟
测序采样问题(SAGE) 测序成本已经大大降低
Serial analysis of gene expression (SAGE) 技术流程
相关文档
最新文档