基因表达差异分析方法进展
基因双打和基因差异表达的分析方法介绍

基因双打和基因差异表达的分析方法介绍基因双打和基因差异表达是现代生物学领域中重要的研究方向。
这两个概念都与基因表达相关,但它们的研究方法和目的不同。
本文将分别介绍基因双打和基因差异表达的分析方法。
一、基因双打基因双打是指一个基因拥有两个等效的拷贝。
这通常发生在有性生殖生物的细胞分裂过程中,即在染色体复制的过程中,每个染色体都会在有丝分裂阶段分裂成两份,并随后分配给新的细胞。
这个过程中,某些基因可能会被复制两次,形成基因双打。
基因双打的研究方法主要是通过基因分型来确定个体是否存在基因双打。
分型的方法可以有PCR扩增、序列比对和SNP芯片等。
其中,SNP芯片已经成为了检测基因双打的主要工具之一。
基因双打的存在对个体表现形态和疾病风险等方面都有着重要影响。
比如,研究发现,具有某些基因双打的个体可以更好地适应高海拔环境。
而另一些研究则表明,某些基因双打可能导致肿瘤的发生。
二、基因差异表达基因差异表达是指不同个体或不同条件下同一基因的表达水平不同。
这个概念可以帮助我们理解不同个体之间或者在不同环境下基因表达的差异。
基因的表达水平通常由mRNA的实际表达量来衡量,这个过程需要通过测序或者芯片技术等设备来获得。
基因差异表达的分析方法通常包括差异分析和路径分析。
差异分析是比较不同个体之间或不同条件下同一基因的表达水平,找出其差异。
而路径分析则是分析基因在特定的细胞环境中所参与的途径,为了理解基因功能和生物过程提供支持。
在差异分析中,主要的技术工具包括T-test、ANOVA和Fisher精确检验等。
这些技术可以帮助我们确定基因是否呈现出显著的表达差异,并为我们提供准确可靠的数据分析。
而在路径分析中,主要的技术工具包括基因集富集分析和信号通路分析等。
这些分析方法可以帮助我们理解某些基因在特定生物过程中的作用以及它们之间的相互关系。
总之,基因双打和基因差异表达都是现代生物学领域中重要的研究方向,它们的分析方法和实践不仅有助于理解基因功能和生物过程,也为我们发现新的生物标志物和治疗靶点提供了深入的研究基础。
基因表达数据分析中的差异分析方法

基因表达数据分析中的差异分析方法随着基因组学和生物信息学的发展,基因表达数据分析在生物学研究中扮演着至关重要的角色。
基因表达数据的分析可以帮助我们寻找不同条件下的基因差异,从而进一步了解基因的功能以及生物系统的调控机制。
而在基因表达数据分析中,差异分析方法是最常用和重要的工具之一。
本文将介绍几种常见的基因差异分析方法,包括差异基因筛选、聚类分析和生物学功能注释等。
一、差异基因筛选差异基因筛选是基因表达数据分析中最常见的任务之一。
它的目的是从两个或多个不同条件下的基因表达数据中找出在两个条件之间有显著表达差异的基因。
在差异基因筛选中,常用的方法有t检验、方差分析和Wilcoxon秩和检验等。
t检验是一种基本的统计方法,适用于两个条件的差异分析。
它可以通过比较两个条件下基因的平均表达水平,来判断它们之间的差异是否具有统计学意义。
方差分析则适用于三个以上条件的差异分析。
它基于方差的分解,通过比较组内和组间的方差差异,判断基因的表达是否受到不同条件的显著影响。
Wilcoxon秩和检验是一种非参数检验方法,适用于数据不满足正态分布的情况。
它利用数据的秩次而非具体数值进行比较,更加鲁棒。
二、聚类分析除了差异基因的筛选,聚类分析也是基因表达数据分析中常用的方法之一。
聚类分析可以将基因表达数据分为若干个类别,从而发现具有相似表达模式的基因。
常见的聚类方法包括层次聚类和k均值聚类。
层次聚类是一种树状图分析方法,可以将样本或基因聚成一颗层次树。
它基于距离或相似性的度量,通过自下而上或自上而下的合并或分割,将数据划分为不同的类别。
而k均值聚类则是一种基于样本的聚类方法。
它将数据分为k个类别,并试图使得每个样本到其所属类别的中心距离最小。
三、生物学功能注释在差异分析之后,对差异基因的生物学功能进行注释是进一步理解基因调控机制的重要步骤。
生物学功能注释可以揭示差异基因所参与的生物过程、细胞部位和分子功能等信息。
在生物学功能注释中,常见的工具和数据库包括Gene Ontology (GO)注释、KEGG和Reactome等通路注释以及蛋白质-蛋白质相互作用网络等。
生物大数据技术中的差异表达基因分析方法

生物大数据技术中的差异表达基因分析方法生物大数据的快速发展为生物学研究提供了前所未有的机遇。
其中,差异表达基因分析方法是生物大数据技术中的重要研究内容。
差异表达基因分析是比较两个或多个样本中基因表达差异的研究。
它的目的是找出在不同条件或状态下表达水平发生显著变化的基因,从而深入研究与生物学过程相关的机制和调控网络。
在生物大数据技术中,有多种差异表达基因分析方法可供选择。
下面将介绍其中的几种主要方法。
首先,最为常用的方法之一是差异表达分析的统计学方法。
这种方法通过对比两个或多个不同条件下的基因表达数据,运用统计学模型进行分析。
常见的统计学方法包括t检验、方差分析 (ANOVA)、贝叶斯统计学等。
它们在差异检验、基因表达水平的显著性评估等方面有着广泛的应用。
此外,不同的统计学方法还可以结合其他技术,如机器学习等,来提高分析的准确性和可信度。
其次,基因差异表达的模式识别算法也是研究生物大数据技术中常用的方法。
模式识别算法可以通过对基因表达数据进行聚类分析、主成分分析 (PCA)、自组织映射 (SOM) 等,来寻找潜在的基因表达模式或特征。
其中,基于聚类分析的模式识别算法可以将样本或基因分成不同的簇,从而发现不同基因表达的模式。
这种方法有助于理解基因与生物学过程之间的关系,为后续的功能注释和生物学机制研究提供重要参考。
此外,基因表达的差异分析还可以采用机器学习方法。
机器学习通过构建模型来进行预测和分类,可以将基因表达数据作为输入,利用已知的类别标签进行训练,进而对未知样本进行分类或预测。
常用的机器学习算法包括支持向量机 (SVM)、随机森林 (Random Forest)、人工神经网络 (Artificial Neural Network) 等。
这些算法可以挖掘出隐藏在基因表达数据中的模式和规律,从而对差异表达基因进行分类和预测。
最后,差异表达基因分析方法还可以结合到功能注释和通路分析中。
功能注释可以通过对差异表达基因进行GO (Gene Ontology)、KEGG (Kyoto Encyclopedia of Genes and Genomes)、Reactome等数据库的富集分析,来探索差异基因与生物学功能之间的关联。
基因差异表达分析方法及其在作物遗传育种中的应用

基因差异表达分析方法及其在作物遗传育种中的应用苏在兴高闰飞李强【摘要】植物基因的差异表达是细胞形态和功能多样性的根本原因,也是各种生理及病变过程的物质基础.分析基因差异表达是近30年来分子生物学研究的重点,研究方法也从最早的差减杂交、差异显示PCR和cDNA代表性差异分析等,不断地发展到基于测序的表达系列标签和转录组测序技术,其中高通量测序技术的应用,使得分子生物学进入后基因组时代,特别是转录组测序可高效率、大批量地获取差异表达基因.通过基因差异表达分析,可挖掘农作物的优异农艺性状、高品质、抗性以及杂种优势等相关基因,辅助常规育种,提高农作物的品质、产量、抗性等综合性状,并为探究其机理、机制奠定基础.【期刊名称】《江苏师范大学学报:自然科学版》【年(卷),期】2017(035)001【总页数】8页(P38-45)【关键词】基因差异表达;转录组测序;农艺性状;品质性状;抗性;杂种优势【作者】苏在兴高闰飞李强【作者单位】[1]江苏徐淮地区徐州农业科学研究所/农业部甘薯生物学与遗传育种重点实验室,江苏徐州221131;[2]中国农业科学院甘薯研究所,江苏徐州221131;[3]江苏师范大学生命科学学院,江苏徐州221116【正文语种】中文【中图分类】Q786植物基因差异表达是在转录水平上对基因的表达情况进行研究,包括2个及2个以上材料之间存在差异基因或者差异基因在相同环境条件下具有不同的表达模式,以及同一材料在不同处理下,同一基因呈现不同的表达模式2种情况.在真核生物基因组中,仅约10%~15%的基因在细胞中表达,而且在不同发育阶段、不同生理状态和不同类型的细胞中基因表达也不同[1].基因的差异性表达是细胞形态及功能多样性的根本原因,也是植物生长发育和各种生理及病变的物质基础[2].通过基因差异表达,分离新的功能基因、挖掘和鉴定差异表达基因的新功能等,对作物遗传改良具有十分重要的意义.目前,分子生物学技术逐步应用到作物遗传育种中,分子标记辅助育种、转基因育种以及分子设计育种正在成为作物遗传改良的重要手段[3].1990年代开始,基因差异表达分析方法逐渐得到发展[4-12],并在挖掘新的功能基因以及揭示基因的新功能方面表现出优势.随着研究的深入,对差异性表达基因的富集程度要求更高,从而促使基因差异表达的筛选方法不断得以丰富和改进,尤其是测序技术的发展,使得差异表达基因的获得更加便捷,数量更多,效率更高[13].本实验室也采用基因差异表达分析技术,解析徐薯18和徐781 2个甘薯品种在新陈代谢、抗逆性和碳水化合物积累等方面的机理机制,已获得一批与新陈代谢、抗逆性、物质积累等相关的功能基因.本文简要综述不同基因差异表达分析方法的特点、原理及优缺点,进一步阐述基因差异表达分析技术在作物农艺性状分析、品质性状分析、抗性分析以及杂种优势分析等方面的应用,以期对后续的研究工作有所裨益.1.1 基因差异表达分析方法1.1.1 差减杂交(subtractive hybridization,SH) 最初由Lamar等[4]于1984年报道,用于分离老鼠Y染色体的特异性探针.该方法也叫扣除杂交或减法杂交.差减杂交是对2种遗传背景大致相同而性状有差异的材料进行研究,基因组DNA或者mRNA(反转录成cDNA)经特定的核酸限制性内切酶消化后,在一定的条件下进行分子杂交,选择性地去除2部分共有基因杂交后形成的复合物,将含有目的基因的未杂交部分收集后装入载体,从而构建差减文库.佘卫炜等[14]用该方法成功地分离到6条与藏红花苷合成相关的特异性表达cDNA片段.该方法克服了示差筛选技术的局限性,灵敏度较高,也能有效检测转录丰度低的基因[15],但操作难度大,费时费力,重复性较差,并且在酶切不彻底等情况下很难得到满意的结果[16].1.1.2 mRNA差异显示逆转录PCR(differential display of reverse transcriptional PCR,DDRT-PCR) 1992年,Liang等[5]根据高等生物成熟的mRNA具有poly(A)尾巴的特性,建立了mRNA差异显示逆转录PCR.该方法利用含Oligo(dT)n的寡聚核苷酸作为锚定引物,通过逆转录酶的催化,将真核生物细胞中全部表达的mRNA逆转录为cDNA,通过PCR扩增,利用变性聚丙烯酰胺凝胶电泳将有差异的片段分开,从而筛选出差异表达基因.张弛等[17]利用该方法研究水稻77-170(Oryza Sativa var. Japoinca)及其耐盐突变体M-20在盐胁迫下基因表达的差异,克隆到13个与盐诱导相关的cDNA片段,其长度范围在200~600 bp 之间.该方法具有技术应用成熟、效率高、灵敏度高的优点,实验每一步均可检测,无需实验结束,但假阳性率高,最高达70%,所得的cDNA片段较短,很难扩增到ORF(open reading frame)内部[18-19].1.1.3 cDNA代表性差异分析(cDNA-RDA) 在Lisitsyn等[20]建立的DNA代表性差异分析(representational difference analysis,RDA)方法的基础上,1994年,Hubank等[6]建立了cDNA代表性差异分析技术.该技术对2组材料的cDNA 进行酶切消化,并为酶切片段连接特异寡聚核苷酸接头,进行PCR扩增,分别获得实验组(T)和对照组(D)的扩增子.再次酶切2组扩增子并对T组扩增子添加新接头,然后将T组扩增子与富余的D组扩增子混合,形成杂交体,用与新接头互补的特异引物对杂交体进行PCR扩增,其中T/T杂交体进行指数扩增,T/D杂交体进行线性扩增,D/D杂交体不扩增.对差异产物进行多轮PCR后,可用普通琼脂糖凝胶检测差异表达条带[21-22].Ling等[23]将该技术运用于分离大豆不同萌发期子叶中的差异表达基因,并成功克隆到CysP1和CysP2 2个编码半胱氨酸蛋白酶的新基因.1.1.4 表达系列标签(serial analysis of gene expression,SAGE) 1995年,Velculescua等[7]首先提出基因表达系列分析技术,该方法通过限制性酶切含有生物素标记的cDNA,产生能够代表其相应转录物的cDNA短标签(9~14 bp),然后随机连接并进行测序分析.单一转录体由其特异性的短标签所代替,用SAGE软件定量分析标签的丰度,代表转录体的表达水平.Song等[24]采用SAGE法分析超级杂交稻LYP9及其亲本93-11、PA64s在不同时期、不同组织部位的差异表达基因,获得12种主要的基因表达模式,其中406个基因上调表达,469个基因下调表达,这些基因可能与水稻的杂种优势有关.该方法可以将多个短标签串联测序,能够寻找低丰度的转录物,但其依赖已测序的基因序列,过短的序列标签所涵盖的信息无法被准确注释到基因组上[25-26].1.1.5 抑制差减杂交(suppression subtractive hybridization,SSH) 1996年,Diatchenko等[8]提出抑制差减杂交,也叫抑制性消减杂交,结合了抑制PCR和差减杂交技术,利用抑制性PCR,选择性地扩增目的cDNA片段,显著增加了低丰度差异表达cDNA获得的概率.Tirumalaraju等[27]应用SSH技术从抗花生根结线虫和感花生根结线虫2份材料中获得70个差异表达ESTs,并证实各种非生物、生物(含根结线虫)胁迫和植物应答此类胁迫时与水杨酸(SA)、茉莉酸(JA)及乙烯信号传导之间的关系.这些差异表达候选基因为获得抗根结线虫种质资源并培育优良抗性花生新品种提供可能.该方法简单、成熟、易操作,且效率高,筛选周期短,通常3~4 d可获得基因差异表达片段.但是SSH技术得到的cDNA是限制酶消化的cDNA,不是全长cDNA;材料之间最好是存在细微差异,小片段缺失时也不能有效检测;实验中酶切后的cDNA与接头连接的效率是该方法的关键,若连接效率低,有些差异表达的基因就会漏检[18].1.1.6 cDNA限制性片段长度多态性分析(cDNA-AFLP) 在Botstein等[28]建立的限制性片段长度多态性(restriction fragment length polymorphism,RFLP)方法的基础上,1995年,Vos等[29]结合PCR扩增提出一种新的DNA指纹技术,即扩增片段长度多态性(amplification fragment length polymorphism,AFLP).1996年,Bachem等[9]结合RT-PCR和AFLP提出cDNA-AFLP技术,用于对转录组表达情况进行分析.该技术采用2种不同的内切酶切割cDNA片段,并添加含有与引物序列互补的人工接头,进行PCR预扩增后用聚丙烯酰胺凝胶区分差异条带.Nie等[30]运用cDNA-AFLP技术从玉米亲本和杂交种的叶、根和成熟胚中分别分离到180、170和108个差异表达基因,为揭示玉米杂种优势提供了线索.cDNA-AFLP 技术具有很好的重复性,假阳性比较低,不需要预先知道基因的序列信息,能够通过扩增条带显色强度判断基因表达量的差异[31].1.1.7 基因芯片(DNA Chips)技术是指把大量核酸片段固定在载体上,组成密集的按序排列的探针群,通过与标记样品的核酸杂交,判断靶核苷酸的有无或数量多少的一项技术,主要包括芯片的制备、杂交与检测等3个步骤.常见的芯片可分为2大类:一种是原位合成,适用于寡核苷酸;另一种是直接点样,多用于大片段DNA.姜兆远等[32]将Affymetrix表达谱芯片运用于水稻与稻瘟病不同小种的互作研究,水稻与稻瘟病菌非亲和互作的基因表达谱及其亲和互作的基因表达谱之间存在较大差异,将基因芯片筛选到的差异表达基因通过GO注释,明确了差异基因的分子功能及信号通路,有利于进一步了解植物抗病机制,并可能为稻瘟病防治提供新的途径.该方法同时将大量的探针固定于支持物上,可以同时对大量序列进行检测,克服了传统的核酸印迹杂交操作复杂、自动化程度低,且检测序列数量少等缺点.但该方法所用仪器及软件价格较昂贵,探针的合成和固定比较复杂,难以检测低丰度表达的基因[33].1.1.8 半定量RT-PCR和实时荧光定量PCR 半定量逆转录多聚合酶链式反应(reverse transcription polymerase chain reaction,RT-PCR)是探究基因差异表达的有效手段之一[10].采用PCR技术同时对2组或多组材料的目的基因和内参基因(internal reference genes)进行扩增,运用琼脂糖凝胶电泳PCR扩增产物,并调节内参基因条带强度一致,便可直观地呈现出目的基因在不同组织或者不同材料中是否表达,且能对比其表达丰度[11,34].1993年,Higuchi等[35]根据PCR延伸阶段随着DNA双链的生成,含有荧光的EB(ethidium bromide)染料能嵌入DNA链内部而激发荧光,提出实时荧光定量PCR(real time quantitative RT-PCR,qRT-PCR)的概念.荧光定量PCR具有很好的特异性,重复性好,操作简单快捷,全反应过程在一个封闭的PCR管中进行,可以实时地进行监测,而且扩增结束后不需要进一步处理.Applied Biosystems、Bio-RAd等公司推出实时荧光定量PCR配套的仪器和试剂,使得该技术在研究基因表达方面逐渐成为主流手段[36]. Fu等[37]采用SSH法从3份水稻材料中获得一批抗旱相关的基因,并用半定量RT-PCR和实时荧光定量PCR对300多条特异条带进行确证,为完善水稻抗旱相关QTLs及获得候选功能基因奠定基础.1.1.9 转录组测序(RNA-Seq)技术转录组(transcriptome),广义上指特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的总和,主要包括信使RNA(message RNA,mRNA)、核糖体RNA(ribosome RNA,rRNA)、转运RNA(transport RNA,tRNA)和非编码RNA(non-coding RNA,ncRNA).狭义上,一般指特定组织或细胞中转录的全部mRNA[25].转录组测序就是利用高通量技术对转录组进行测序分析,并对获得的读段进行过滤、组装以及生物信息学分析.RNA-Seq需要将mRNA反转录成cDNA,并对合成的cDNA作末端修复、加poly(A)尾巴及连接测序接头,片段化为测序平台所需的长度,PCR扩增,构建测序文库,利用相应的测序平台进行序列测定.对于有参考基因组序列的物种,可根据其参考序列(reference assembly)组装,没有参考基因组序列的物种,则进行从头组装(denovo assembly)[12,38].根据组装情况,以单位长度的转录物上覆盖的读段数来衡量基因的表达水平(reads per kilo bases per million reads,RPKM).RNA-Seq 主要用于研究2个及以上样本中基因的差异表达情况,如正常条件下的棉花幼苗和盐胁迫下的棉花幼苗等[39].转录组测序技术具有较高的灵敏度,可以同时获得组织内的全部转录本;能检测出SNP等单个核苷酸的差异,具有很高的精确度;通过组装分析能得出基因家族中的不同拷贝或可变剪接.随着测序仪器的升级,RNA-Seq 费用逐渐下降,除了从测序数据中挖掘差异表达基因外,还可以挖掘SSR、SNP信息以及组装出尽可能完整的Unigenes序列,为后续的基因克隆和功能验证奠定坚实基础[40-45].1.1.10 基因编辑技术近年来,锌指核酸酶(zinc-finger nucleases,ZFNs)、类转录激活样效应核酸酶(artificial transcription activator-like effector nucleases,TALENs)和CRISPR-Cas9等[46]基因编辑技术(gene editing)逐步发展并得到广泛应用.基因编辑技术能在基因组水平上对DNA序列进行剪辑或插入,从而导致目的基因的表达受到抑制或表达产物失去相应的功能.Piffanelli等[47]发现,在与小麦亲缘关系较近的大麦中,MLO基因功能的缺失突变使其对白粉病产生广谱和持久的抗性.Wang等[48]采用TALEN和CRISPR-Cas9技术对小麦MLO基因进行编辑,已经获得具有广谱抗白粉病的小麦材料.Qi等[49]结合qRT-PCR检测NgAgo酶与不同引导序列组合作用下目标基因fabp11a的差异表达情况,表明NgAgo技术在降低基因表达水平方面表现出优异的特性.1.2 基因差异表达方法的特点比较SH、DDRT-PCR、cDNA-RDA等方法都是研究基因差异表达的有效工具(表1),其中SAGE、cDNA-AFLP等5种技术能检测出差异表达基因的表达丰度,而其他4种方法则不能;除SH外,其他基因差异表达分析方法均基于PCR技术.应用DDRT-PCR时,结合PCR扩增,可检测出低丰度的mRNA样品,而cDNA-RDA、SSH和cDNA-AFLP等需要经过2~3次PCR扩增,高度富集差异表达基因,保证有较高的特异性,减少假阳性率;SH、cDNA-RDA和SSH技术需要在2个材料之间进行杂交,故仅能检测2组mRNA的差异表达,其他方法可以同时比较多组材料;SAGE 和RNA-seq需要结合测序以及相应软件分析,才能获取差异表达片段以及各自的表达量,其他技术则通过扩增或杂交即可;DNA Chips和RT-PCR/qRT-PCR分别在设计杂交探针和扩增引物时需要预先知道基因序列信息,其他方法均不需要[8,11,28].2.1 挖掘重要农艺性状相关基因农艺性状是指农作物的株高、生育期、育性及产量等可以代表作物特点的重要因子,是作物育种重要考察指标.Firon等[41]通过分析甘薯起始膨大根(initiating storage roots,ISRs)和纤维根(fibrous roots,FRs)的转录组信息,发现至少2.5倍的表达差异短片段8 353个,采用qRT-PCR法对其中Sporamin、AGPase和GBSS1等9个基因进行检测,表明这些差异表达基因参与碳水化合物的代谢和淀粉合成,促使储藏根的形成.Tao等[43]利用Illumina paired-end(PE)转录组测序技术,结合重头组装策略对甘薯7个不同组织的转录组进行分析,为甘薯组织特异表达基因和非生物逆境基因的研究奠定基础.程立宝等[50]对莲藕进行转录组测序分析,发现86个可能与莲藕根茎膨大相关基因,得到10 个贮藏蛋白合成和5 个淀粉合成相关基因,其中Lrplp8和Lrgbss对莲藕根状茎的膨大起到重要作用.育性是有性繁殖作物重要的农艺性状.雄性不育性的发现及三系配套育种、光温不育等概念的提出及成功运用,为新品种的培育和推广带来了极大的方便[51].黄鹂等[52]利用拟南芥ATH1基因芯片与3种不同类型的白菜不育系及其共同保持系的花蕾的mRNA进行杂交,发现各不育系与保持系的花蕾中基因表达存在巨大差异,不同类型不育系之间花蕾转录组的组成特征也有差异.由于3种不育系与保持系花蕾的差异仅表现在花粉的形成和绒毡层的发育上,而其他花器官均无差别,从而推断这些差异表达的基因可能与花粉花药的发育有关.刘冬梅等[53]用陆地棉洞A 的不育株和可育株小孢子单核早期花药进行转录组测序,获得51个激素相关差异表达基因,首次分析小孢子时期激素相关基因在转录组水平上的差异,并对其中2个关键基因进行验证,为深入研究陆地棉洞A的不育机理和挖掘关键基因奠定了基础.2.2 挖掘重要品质性状相关基因随着农作物新品种的更迭以及栽培技术的革新,我国的粮食产量已达到比较理想的水平,人均收入逐步提高的同时,人们的食物消费开始转向有营养、益健康且口感佳的方向,所以对农产品的外观品质和营养品质等要求更高.外观品质是农产品商品价值的重要指标,如水稻种子灌浆不充分、胚乳中的淀粉粒等营养物质排列疏松导致垩白,影响稻米的外观品质[54].Chen等[55]采用RNA-Seq法,在垩白率及胚乳垩白度均低的籼稻品种PYZX和垩白率及胚乳垩白度均高的粳稻品种P02428中发现5 552个差异表达基因,与PYZX相比,P02428中表达量较高的基因有3 603个,较低的基因1 949个;而与2亲本的高垩白重组自交系(recombinant inbred lines,RIL)混样相比,低垩白RIL混样中有88个基因表达量较高,623个基因表达量较低,从中分析确定33个可能与垩白相关的候选差异表达基因,为后续的基因功能验证和育种应用奠定了基础.营养品质包括淀粉及可溶糖等碳水化合物、蛋白质、脂肪酸等,不同加工用途对营养成分的要求不尽相同[56].小麦、甘薯等是重要的淀粉类作物,利用基因差异表达技术分析淀粉合成相关的基因,对育种研究至关重要.小麦材料CB037A具有A 型(直径>10 μm)、B型(直径5~10 μm)和C型(直径<5 μm)3种淀粉粒,而PI330483仅有A型淀粉粒,Cao等[57]采用qRT-PCR法对这2份小麦材料的淀粉粒大小与AGPase大亚基、AGPase小亚基、SSⅠ、SSⅡa和SBEⅠ等淀粉合成相关基因的表达模式进行研究,发现SBEⅡa、SBEⅡb、WaxyD1和AGPase大亚基基因在2份材料中呈截然不同的表达模式.2.3 挖掘耐逆相关基因全球气候逐渐恶化,极端天气逐渐增多,其中干旱是非常普遍的现象,正考验着农业生产.Li等[58]利用基因芯片对玉米抗旱相关小RNA的基因差异表达进行分析,得到miR156、miR159、miR319等3个与抗旱相关的家族基因.Deng等[59]用差异表达的方法从耐旱玉米品系中分离到4个差异表达cDNA片段,并用实时荧光定量PCR分析这4个基因在干旱胁迫下的6个玉米近交系中的表达模式,证实候选基因在耐旱品系中呈上调表达,而在干旱敏感品系则相反.现代农业的投入逐渐加大,而农药、除草剂、化肥以及工业废弃物等各种形式的土地污染严重影响我国的粮食和其他经济作物的产出,植物功能基因的差异表达使其能最大限度地耐受逆境胁迫.Gao等[60]通过转录组测序技术获得紫花地丁镉处理与非镉处理条件下892个差异表达基因,且随机选取15个DEGs进行qRT-PCR 结果验证,为进一步研究其耐镉胁迫机制提供遗传学基础.印莉萍等[61]比较正常供铁和缺铁胁迫下铁高效型小麦(京-411)和铁低效型小麦(三属麦-3)的基因表达差异模式,获得ATP结合转运体(ATP binding cassette,ABC)的cDNA片段并进行Northern杂交,证明它的基因表达受缺铁胁迫的抑制.Kato等[62]利用基因芯片分析硝酸铵诱导下拟南芥和水稻中eIF6(eukaryotic translation initiation factor 6)基因的差异表达,发现该基因在这2种植物中呈现出不同的表达模式,表明eIF6基因在不同的物种中具有表达特异性.除了非生物胁迫外,病虫害等生物胁迫也给农业生产造成巨大的损失,所以挖掘生物胁迫应答基因,辅助选育抗病虫新品种,能有效地缓减农药的使用,增加农民收入和提高生产效率.Evers等[63]以抗马铃薯晚疫病品系Solanum phureja和感晚疫病双单倍体S. tuberosum subsp. tuberosum为材料,用差异显示mRNA法,获得与抗病性、胁迫应答、初级新陈代谢和次级新陈代谢相关的基因.2.4 挖掘与作物杂种优势相关的基因作物杂种优势是杂种后代在表型上优于亲本的现象,涉及作物病虫抗性、高产、高油以及高蛋白等多个方面.杂种优势在自然界比较普遍,但对其具体机理却知之甚少.近年来研究者试图运用基因差异表达技术揭示杂种优势的成因,并取得一定的进展.Zhao等[64]用棉花杂交种及其亲本进行杂种优势研究,发现其中差异表达基因有定量和定性的区别,定性差异是在亲本中高表达或低表达的基因在杂交种中显著高表达;而定量差异有4种基本模式,即在双亲中表达,但后代不表达(BPnF1);其中一个亲本表达,后代不表达(UPnF1);亲本均不表达,后代表达(UF1nP);双亲之一有表达,同时后代也表达(UPF1).在亲本及其后代整个生长期叶片中观察到的基因差异表达可能是杂种优势现象的成因.Wang等[65]通过分析12个玉米近交系及其配组的33个杂交系的基因差异表达情况,发现基因在双亲及其杂种后代中均表达的模式占大多数,故杂种优势不仅与基因表达与否有关,还与基因的表达丰度有关;在玉米雌幼穗发育初期,杂交种的基因表达与双亲的基因表达差异最大;另外,某些基因在杂种中不表达,可以促进籽粒的发育并抑制幼穗中小花发育.利用基因差异表达分析技术,能挖掘新的功能基因,揭示基因的新功能等,为探究农作物的农艺性状、品质性状以及抗逆性等方面的机理机制奠定基础.随着生命科学进入后基因组时代,通过测序及功能注释将对DNA序列、基因表达通路、蛋白质结构及其互作关系等进行初步的鉴定.高通量测序技术和生物信息学的运用,结合qRT-PCR验证提高研究的准确性,也加快了该领域的研究进程.本课题组采用转录组测序技术,对比分析甘薯徐薯18和徐781的转录组信息,在一定程度上解释2种材料的淀粉含量差异和抗性差异(数据未发表),但其具体的调控机制有待进一步研究.未来,从基因差异表达分析入手获得相关功能的候选基因,采用基因编辑技术对目标基因进行敲除或降低其表达量,可逐步实现分子设计育种的目标[66-67].*通讯作者:李强,男,研究员,博士,主要从事甘薯遗传与分子育种研究,E-mail:****************.【相关文献】[1] 吴乃虎.基因工程原理[M].2版.北京:科学出版社,1998.[2] 刘凯,曾继吾,夏瑞,等.mRNA差异显示技术及其在园艺植物上的应用(综述)[J].亚热带植物科学,2009,38(1):78.[3] 黎裕,王建康,邱丽娟,等.中国作物分子育种现状与发展前景[J].作物学报,2010,36(9):1425.[4] Lamar E E,Palmer E.Y-encoded,species-specific DNA in mice:evidence that the Y chromosome exists in two polymorphic forms in inbred strains[J].Cell,1984,37(1):171. [5] Liang P,Pardee A B.Differential display of eukaryotic messenger RNA by means of the polymerase chain reaction[J].Sci,1992,257(5072):967.[6] Hubank M,Schatz D G.Identifying differences in mRNA expression by representational difference analysis of cDNA[J].Nucl Acids Res,1994,22(25):5640.[7] Velculescu V E,Zhang L,Vogelstein B,et al.Serial analysis of geneexpression[J].Sci,1995,270(5235):484.[8] Diatchenko L,Lau Y F,Campbell A P,et al.Suppression subtractive hybridization:a method for generating differentially regulated or tissue-specific cDNA probes and libraries[J].Proc Natl Acad Sci USA,1996,93(12):6025.[9] Bachem C W,van der Hoeven R S,de Bruijn S M,et al.Visualization of differential gene expression using a novel method of RNA fingerprinting based on AFLP:analysis of gene expression during potato tuber development[J].Plant J,1996,9(5):745.[10] Cottrez F,Auriault C,Capron A,et al.Quantitative PCR:validation of the use of a multispecific internal control[J].Nucl Acids Res,1994,22(13):2712.[11] 金凤媚,薛俊,郏艳红,等.半定量RT-PCR技术的研究及应用[J].天津农业科学,2008,14(1):10.[12] 张春兰,秦孜娟,王桂芝,等.转录组与RNA-Seq技术[J].生物技术通报,2012,28(12):51.[13] 白根本,沈昕,王沙生.差减杂交方法的原理和应用[J].生物工程进展,1998,18(6):54.[14] 佘卫炜,郭志刚,刘瑞芝.用扣除杂交法分离藏红花苷合成相关基因的克隆[J].清华大学学报(自然科学版),2004,44(12):1592.[15] 李捷,印莉萍,刘维仲.示差扣除杂交法及其在分子生物学中的应用[J].生物技术通报,1999,15(3):9.[16] 白根本,沈昕,王沙生.胡杨盐诱导基因与盐抑制基因的差减杂交显示研究[J].林业科学,2003,39(2):168.[17] 张弛,陈受宜.利用DDRT-PCR技术分析在盐胁迫下水稻耐盐突变体中特异表达的基因[J].中国科学(B辑),1995,25(8):840.。
生物大数据分析中的表达量差异分析方法

生物大数据分析中的表达量差异分析方法在生物学研究中,表达量差异分析是一种常用的方法,用于比较不同生物样品中基因或蛋白质的表达水平的差异。
这种分析可以帮助研究人员识别潜在的生物标记物,并了解基因表达与各个生物过程之间的关系。
随着高通量测序技术的快速发展,生物大数据分析在表达量差异分析中扮演着重要的角色。
本文将介绍几种常见的生物大数据分析中的表达量差异分析方法。
首先,常用的差异表达基因分析方法是RNA-seq(转录组测序)。
RNA-seq是一种通过测序RNA分子来分析其转录产物数量和结构的方法。
在RNA-seq实验中,首先提取RNA样品,然后进行cDNA合成,接着进行文库构建和测序。
通过比对测序数据到参考基因组或转录组,可以计算基因的表达量,进而比较不同样品之间的表达量差异。
一般采用的分析工具包括DESeq2、edgeR和limma等,通过这些工具可以识别差异表达基因,并进行差异表达基因的注释和功能分析。
其次,基于微阵列芯片技术的差异表达分析方法也是常见的。
微阵列芯片是一种高通量的基因表达分析的方法,通过固定在平台上的探针检测目标DNA或RNA 的水平。
在实验中,首先提取RNA样品,然后进行反转录和标记,接着进行芯片杂交,并进行扫描和数据分析。
常用的分析方法有SAM(Significant Analysis of Microarrays)和limma等。
这些方法可以通过比较不同样品之间的信号强度,识别差异表达基因,并进行差异表达基因的功能注释和通路分析。
此外,对于一些非常规的生物样品(如:单个细胞)的表达量差异分析,常常采用单细胞测序技术。
单细胞测序技术允许研究人员在单个细胞的水平上进行转录组测序,从而可以发现罕见细胞类型和子群,以及细胞间的差异。
在单细胞测序中,首先对细胞进行分离和取材,然后进行单细胞测序文库构建和测序。
常用的分析软件包括scater、Seurat和scRNA-Seq等,可以对单个细胞的基因表达进行聚类、可视化和差异表达分析。
基因表达差异的分析方法研究

基因表达差异的分析方法研究基因表达差异是指在不同生物或不同条件下,对同一基因进行的表达实验中,所测得的表达量之间的差异。
对基因表达差异的研究可以帮助我们更好地理解基因功能和调控机制,并为疾病的诊断和治疗提供新的思路和方法。
接下来,将介绍一些基因表达差异分析的方法。
1. 微阵列技术微阵列技术是最早被用于基因表达差异分析的方法之一。
该技术利用DNA芯片上固定的互补DNA序列与待测RNA样品进行杂交,测定样品中各个基因的表达水平。
具体操作步骤包括:样品采集、RNA提取、标记、杂交与扫描等多个步骤。
虽然微阵列技术具有高通量、高灵敏度和高精度等优点,但也存在着成本高、样品处理复杂和标记的局限性等问题。
2. RNA测序技术随着二代测序技术的发展,RNA测序技术已成为一种常用的基因表达差异分析方法。
RNA测序技术利用高通量测序平台对RNA样品进行测序,可以对基因的转录和剪切等过程进行全面的检测和定量。
与微阵列技术相比,RNA测序技术不需要依赖于基因组序列信息,同时还可以检测未知序列和新基因的表达情况。
但RNA测序技术也存在着不同的测序深度和质量、样品处理和分析方法等影响分析结果的因素。
3. 质谱技术质谱技术是一种基于蛋白质组学的方法,也可以用于基因表达差异的分析。
该技术主要包括两个步骤:蛋白质消化和质谱分析。
在蛋白质消化步骤中,蛋白样品被加入胰酶等酶类,将多肽生成后进行分离。
在质谱分析中,分离后的多肽样品被注入质谱仪,得到其质量和放电荷比例的信息。
由此可以推断出蛋白的氨基酸组成和序列等信息。
质谱技术的优点包括定量、选择性和灵敏度高,同时可以进行定量分析和鉴别分析。
4. 基因编辑技术随着基因编辑技术的发展,我们还可以通过CRISPR-Cas等技术对基因表达差异进行分析。
在这种方法中,我们可以将CRISPR-Cas系统引导的RNA处理后注入细胞内,选择性地打靶并对目标基因进行编辑,从而直接体现基因在表达水平上的变化。
差异表达基因的筛选及其在遗传学和病理学中的研究

差异表达基因的筛选及其在遗传学和病理学中的研究随着基因组学和生物信息学技术的发展,越来越多的研究者开始利用基因表达谱研究生物发育、疾病发生机制等问题。
而差异表达基因的筛选是基因表达谱分析的关键步骤之一。
本文将介绍差异表达基因的筛选方法,以及其在遗传学和病理学中的研究进展。
一、差异表达基因的筛选方法1. 统计学方法统计学方法是目前最常用的差异表达基因筛选方法之一。
基于某个样本组的基因表达值,在不同组别之间进行比较,通过一些统计学分析方法,如t检验、方差分析等,筛选出表达差异显著的基因。
2. 机器学习方法机器学习方法是一种通过计算机算法进行差异表达基因筛选的方法。
它通过建立不同模型,如支持向量机(SVM)、人工神经网络(ANN)等,对基因表达数据进行分类,从而筛选出差异表达基因。
在机器学习方法中,特征选择是非常关键的一步,它可以去除无效的特征并提高筛选的准确性。
3. 基于基因网络的方法基于基因网络的方法是利用生物学知识和计算模型来确定差异表达基因的筛选方法。
它通过分析基因互作网络、信号通路、基因调控网络等方面的数据,筛选出在这些网络中起关键作用的基因。
二、差异表达基因在遗传学中的研究差异表达基因在遗传学研究中有着广泛的应用。
比如,在基因功能研究中,可以利用差异表达基因的筛选方法,筛选出与特定生物过程或机制相关的基因。
同时,在基因组学研究中,差异表达基因也可以用来分析不同品种、不同基因型之间的基因表达差异,揭示基因间的相互作用及其对物种进化和适应的影响。
例子:比如,在人类学科中,对发育障碍和智力障碍的遗传学研究中,可以通过对差异表达基因的筛选,分析患者与正常人群之间基因表达差异,揭示相关遗传变异及其在疾病发生中的作用。
此外,在肿瘤遗传学研究中,差异表达基因也可以用来分析癌细胞和正常细胞之间基因表达差异,从而揭示癌细胞的发生机制,为肿瘤治疗提供新的靶点。
三、差异表达基因在病理学中的研究差异表达基因可以被用来分析疾病特异性基因表达的变化及其与疾病发生、发展的关系。
RNA测序数据中的差异表达基因分析方法研究

RNA测序数据中的差异表达基因分析方法研究随着高通量测序技术的快速发展,RNA测序成为了研究基因表达和转录组的重要方法之一。
通过RNA测序,我们可以获取到细胞或组织中全部转录本的信息,进而揭示出与疾病发生、发展以及生物学过程相关的差异表达基因。
差异表达基因分析是RNA测序数据分析的重要组成部分,它可以帮助我们识别出在不同样本中表达量有显著差异的基因,从而研究这些基因在生物学过程中的功能和调控机制。
在进行差异表达基因分析时,我们首先需要对RNA测序数据进行质量控制和预处理。
这包括去除低质量的reads、去除接头序列、去除rRNA和tRNA序列等。
接下来,我们需要将清洗后的reads进行比对,将其与参考基因组或转录组进行比对,以确定每个read的来源。
常用的比对工具包括Bowtie、STAR等。
比对完成后,我们需要对reads进行计数,统计每个基因的表达量。
这一步骤可以使用HTSeq、FeatureCounts 等软件实现。
在得到基因的表达矩阵后,接下来可以进行差异表达分析了。
差异表达分析的目的是找出在不同条件下表达显著差异的基因。
常用的差异表达分析方法包括DESeq2、edgeR、limma 等。
这些方法都基于数学模型,通过对基因表达矩阵进行统计学分析,找出在不同样本间表达水平差异显著的基因。
这些方法在差异分析中会考虑到基因间的离散和基因长度的偏差,并进行合适的统计假设检验。
通过设置合适的统计显著性阈值,我们可以筛选出差异表达显著的基因。
在差异表达基因分析中,我们通常会根据富集分析对差异表达基因进行功能注释,以了解其在生物学过程中的功能。
富集分析可以帮助我们发现差异表达基因富集在哪些生物学通路、功能模块以及进化树上。
常用的富集分析方法包括基于基因本体论的GO分析和基于生物通路的KEGG分析。
这些分析方法能够帮助我们从大量的差异表达基因中挖掘出具有重要生物学意义的基因。
此外,差异表达基因分析还可以进行聚类分析和可视化分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高等真核生物的基因组一般具有80 000~100 000个基因,而每一个细胞大约只表达其中的15%[1]。
基因在不同细胞间及不同生长阶段的选择性表达决定了生命活动的多样性,如发育与分化、衰老与死亡、内环境稳定、细胞周期调控等。
比较细胞间基因表达的差异为我们揭示生命活动的规律提供了依据。
由于真核细胞mRNA 3′端一般含有Poly(A)尾,因此现有的方法基本上都是利用共同引物将不同的mRNA反转录成cDNA,以cDNA为对象研究基因表达的差异。
1992年Liang等[2]建立了一种差异显示反转录PCR法(differential display reverse transcription PCR,DDRT-PCR),为检测成批基因表达的差异开辟了新天地。
迄今为止已出现了大量应用该技术的研究报道[3,4]。
然而,尽管应用DDRT-PCR方法已经取得了不少成果,而且该方法还在不断改进之中,但它仍然存在几个难以解决的问题:(1) 重复率低,至少有20%的差异条带不能被准确重复[5];(2) 假阳性率可以高达90%[6];(3) 获得的差异表达序列极少包含编码信息。
近年来,针对DDRT-PCR方法的不足,又有几种新的检测差异表达基因的方法出现,现仅就这方面的进展做一简要介绍。
1.基因表达指纹(gene expression fingerprinting,GEF):GEF技术使用生物素标记的引物Bio-T13合成cDNA第一链,用dGTP对其进行末端加尾,再以富含C的引物引发合成cDNA第二链。
用限制性内切酶消化双链cDNA,以交联有抗生物素蛋白的微球捕获cDNA3′端,以T4DNA连接酶连接同前述内切酶相对应的适配子,并以Bio-T13及适配子中的序列作为新的引物进行特异的PCR 扩增,得到大量的特异cDNA片段。
适配子末端被32P-dATP标记后,固定于微球上的cDNA片段经过一系列酶切,产生的酶切片段从微球表面释放出来,其中那些含有标记末端的片段经凝胶电泳后构成mRNA指纹图谱。
通过分析不同细胞间的指纹图谱就能得到差异表达的序列[7]。
GEF技术所需的工作量较DDRT-PCR明显减少,由于用酶切反应替代了条件不严格的PCR反应,其重复性也较好,假阳性率低,并且所获得的片段中包含有一定的编码信息。
GEF技术最大的缺点在于电泳技术的局限。
由于它的指纹图谱要显示在同一块电泳胶上,经过几轮酶切之后常会得到1 000~2 000条电泳带,而现有的PAGE电泳很少能分辨超过400条带,故只有15%~30%的mRNA能够被辨认出来,因此得到的只能是高表达基因。
如果希望寻找部分新基因,这是一种比较简单有效的方法;如果希望得到有关某种细胞的基因表达谱,可能比较困难;采用双向电泳技术可能会有所帮助[8]。
2.基因表达系统分析(serial analysis of gene expression,SAGE):SAGE法的建立基于两条理论。
首先,一段来自某个转录子确定位置的核苷酸,其长度只要有9~10个bp,就能够特异地确认该转录子。
第二,对短片段标签的链接有利于在同一克隆中对多个标签测序。
SAGE也是用生物素标记的Bio-Oligo(dT)为引物合成双链cDNA,然后以限制酶(锚定酶)进行酶切,捕获cDNA3′端。
在此处产物被分为两部分,分别与包含有IIS型内切酶(标签酶)位点的A、B 连接子相接。
IIS型内切酶的特点是作用位点处于识别位点之外。
这样经过酶切,就有可能得到只有9~10bp的标签序列。
每两个标签的钝端结合后成为PCR的模板,以基于A、B连接子的引物进行PCR反应的结果是得到了大量每条包含两个不同来源标签的序列,接下来再用锚定酶酶切、连接,就能将多个不同的标签链接在一起(大约为每条包含数十个不同来源的标签),克隆至质粒载体中后集中测序[9,10]。
SAGE的最终结果是通过计算机统计得到的,根据某个标签出现频率的高低来判断并计算其所属基因表达的丰度。
对于在数据库中找不到对应序列的标签,还可以利用13bp的寡核苷酸探针(9bp加上锚定酶识别位点的4bp)对cDNA文库进行筛选,以寻找新基因。
SAGE可以检测不同细胞间已知基因表达的具体差异,精确到每个细胞中大约有多少拷贝,可以建立较全面的基因表达谱,系统地分析基因表达的差异。
它的缺点在于工作量非常大,有大量的测序及计算机分析任务;而且,对于寻找新基因而言,仅用长度为13bp的寡核苷酸探针筛选cDNA文库是很不严格的,根据我们的经验,往往是假阳性结果居多。
3 . cDNA3′端限制酶切片段显示(display of 3′ end restriction fragments of cDNAs):cDNA3′端RFD利用带有“踵”结构的锚定Oligo(dT)引物合成cDNA第一链,以Okayama和Berg的置换法合成cDNA第二链,然后将双链cDNA以限制酶消化。
本方法的适配子由A1和A2两条寡核苷酸构成,其序列与所用限制酶识别位点相符合,先将A2的5′端磷酸化,再加入A1退火,就会形成一个Y 型结构;把Y型适配子与酶切后的cDNA片段相连接,以适配子及锚定引物中所含序列为特异引物进行PCR反应,则只有cDNA3′末端的一段被扩增出来,这时的产物可用凝胶电泳表示出来构成差异表达图谱。
对于每次切割6bp的限制酶来说,每种大概只能切割8%的cDNA,因此至少需要12种以上的限制酶才能使所有cDNA都显示出来[11]。
cDNA3′端RFD与GEF的思路比较相似,由于它利用多种限制酶进行酶切,因此不会象GEF因凝胶电泳分辨率不够而漏掉信息。
它的重复性较好,假阳性率低,尤其是对于已知基因,可以根据选择内切酶的作用位点确定该基因在凝胶电泳中的位置并判断其含量,从而避免了进一步的分析。
对于精力有限的研究人员,这可能是个值得一试的方法。
cDNA3′端RFD方法也存在一些和DDRT-PCR相类似的缺点,它得到的片段中包含的编码信息比较少,需要多花一些时间对所得到的差异条带进一步分析。
4.分子指数的RNA指纹(RNA fingerprinting by molecular indexing,MI):MI 是一种能够较好地显示mRNA中编码序列的方法。
它利用Ⅱs型内切酶的作用位点在识别位点之外可以形成一个4bp的突出端的特点,设计43共64种(最外侧一个核苷酸随机)适配子,使得获取编码序列片段成为可能。
首先是以常规方法合成双链cDNA,用Ⅱ类限制酶进行酶切后连接5′端磷酸化的相应适配子,再以Ⅱs类内切酶酶切后形成一个随机的4 bp突出端,用连接有生物素的64种适配子予以结合,可将这些限制片段分为64类,用包被抗生物素蛋白的磁珠捕获连接产物,就可以利用前后两个适配子所携带的特异序列为引物进行PCR扩增反应,凝胶电泳显示表达差异[12]。
由于扩增的序列位于cDNA内部,因此最后得到编码序列的可能性很大,这是该方法最大的优点。
鉴于并不是所有cDNA 都含有某一识别位点,故采用不同的内切酶组合。
理论上可以显示所有的差异表达基因,但这样一来工作量就变得十分巨大。
因此,该方法只适合对样本的快速分析和部分差异表达基因的研究;如果要对某种细胞的基因表达进行全面的研究,可能还要采用其它的方法。
5.抑制性消减杂交(suppression subtractive hybridization,SSH): SSH方法源于代表性差异分析法(representational difference analysis' RDA)。
它原是一种研究基因组之间差异的以杂交为基础的方法。
Diatchenko等[13]将“抑制性PCR”理论[14]与RDA相结合,建立了一种分离差异表达基因的新方法。
SSH将需要检测的细胞称为“检测子”,将对照细胞mRNA称为“驱赶子”,把mRNA合成cDNA后,通过仅仅两轮杂交和PCR过程,就能有效地分离到在检测子中表达,而在驱赶子中不表达或表达丰度不同的mRNA(图5)。
通过SSH有可能得到某种细胞中相对其他组织的差异表达基因的全面信息,它较好地克服了其它方法中低丰度基因难以得到的问题,据称对低拷贝基因的富集可以达到 1 000~5 000倍,因此可能发现一些用原有方法没有检测到的新基因。
这方面已经有人进行了尝试[15,16],获得了一些成果。
SSH的不足之处在于它需要mRNA的量较大,检测子和驱赶子都要达到2微克以上,这在某些情况下是非常难以做到的,因此目前有关SSH的报道基本上都以肿瘤细胞为研究对象。
基因表达差异的研究方法在DDRT-PCR出现之后又有了很大的发展,每种方法都各有自己的优缺点,研究人员应该根据自己的侧重点选择适合于自己的方法。
目前真正能够做到简单、准确、全面地揭示基因表达差异的方法仍在不断探索之中,因此许多研究机构仍采用DDRT-PCR来达到自己的目的,毕竟经过最近数年的完善,该技术在许多方面都有了一定的改进,完成一般的研究项目已是绰绰有余。
SSH作为一种基因表达差异研究的新方法,假阳性率低,所得到的结果也更加全面,因此,希望以不太复杂的方法全面揭示差异表达基因的研究者,可以尝试一下这种方法。
如何进行基因表达差异分析?答:很多RNA-seq实验的目的是为了比较两种或多种样本中基因表达或整个转录组的差异,如比较癌症组织和正常组织的转录组差异等。
这些差异既包括通常意义下的差异表达基因,也主要包括选择性剪接模式的差异、剪接异构体表达的差异、非编码转录本的差异等。
这些差异一般可以用一些统计假设检验方法检测,但这种检验有时会受到测序深度、基因长度等因素的影响,需要对结果进行仔细分析,消除可能的混杂因素,必要时可以用reads的绝对表达值倍数变化(fold-change)来作为补充。
虽然新一代测序相对第一代测序的单位成本大大降低,但是,利用RNA测序进行基因表达研究的成本仍很高,因此,很多实验室没有条件进行样本重复. 如果两类样本均没有生物重复,例如只对两个细胞系各进行一次mRNA样本测序,则可以用随机采样模型通过假设检验来分析差异表达. 对于某个基因,如果一个read来自于这个基因,我们称事件A发生。
对于一次RNA-seq实验,事件A发生的概率可以用这个基因上的read数n除以所有基因上的读段总数N来估计,即RPM. 事件A发生的概率反应了这个基因的表达水平。
如果要判断某个基因在两个样本中的表达水平是否一致,就可以通过检验事件A在两种条件下发生的概率是否一致来实现,采用似然比检验、Fisher精确检验以及基于MA 图的统计检验方法等. 同样,也可用RPKM作为统计量来进行假设检验分析,由于是比较同一个基因在两个样本间的差异,基因长度的影响被抵消,用RPKM 和用RPM得到的结果相似。