基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现
基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现

1.表达谱芯片及其应用

表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。

cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。

基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里,相同基因的表达差异。

③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计

奠定基础。

2.表达谱芯片的数据处理技术

2.1探针水平数据(probe-level data)的获得

提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号⑺,山此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平数据。获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(gene expression data)。基因表达数据是芯片数据处理的基础。

2.2预处理

2.2.1背景(background)处理

背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个朵交点周圉区域各像素吸光度的平均值作为背景。但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%?5%【7】的点产生无意义的负值。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景同。Brown国等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。

背景处理之后,我们可以将芯片数据放入一个矩阵中:

M=叫加22…叫N

???

???

???

皿叫2…叫丿

其中,各字母的意义如下:

N:条件数;

G:基因数目(一般情况下,G?N);

行向量皿=伽〃,〃"2,…,加沏表示基因i在N个条件下的表达水平(这里指绝对表达水平,亦即荧光强度值);

列向量nij=(mij,ni2j,…Jg)表示在第j个条件下各基因的表达水平(即_张芯片的数据);

元素〃巧表示第基因i在第j个条件下(绝对)基因表达数据。m可以是R (红色,Cy5,代表样品组)。也可以是G (绿色,Cy3,代表对照组)。

2.2.2数据清洗(data cleaning)

经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。另外,对于负值和噪声信号,通常的处理方法就是将其去除。然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统讣分析(尤其是层式聚类和主成分分析)有

致命的影响。所以对数据的删除,通常是删去所在的列向量或行向量。一个比较常用的做法是,事先定义个阈值M。若行(列)向量中的缺失数据量达到阈值M,则删去该向量。若未达到M,有两种方法处理,一是以0或者用基因表达谱中的平均值或中值代替,另一个是分析基因表达谱的模式,从中得到相邻数据点之间的关系,据此利用相邻数据点估算得到缺失值(类似于插值)。

2.2.3归一化(normalization)

经过背景处理和数据清洗处理后的修正值反映了基因表达的水平冏。然而在芯片试验中,各个芯片的绝对光密度值是不一样的,在比较各个试验结果之前必需将其归一化(normalization,也称作标准化)。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据,也需归一化。常用的标准化方法有“看家基因法”、基于总光密度的方法、回归方法、比率统计法"°】等。

(1)"看家基因(house-keeping gene)"法

此法最为常用,可以用于儿张芯片的数据归一化。它预先选择一组表达水平不变的看家基因,计算出这组基因平均ratio值为1时标准化系数,然后将其应用于全部的数据以达到归一化的U的。但是U前尚未找到理想的看家基因山】,另外此前?有研究表明,所谓“看家基因”在不同实验条件下其表达水平同样发生变化问。

(2)基于总光密度的方法21

此方法用于标准化同一块芯片上杂交的两种样品,它假设两批待标记的mRNA的量相同;相对于对照组样品,实验组的表达应既有上调也有下调。而且,扫描所得的所有Cy5和Cy3荧光分子的光密度值是相同的。据此计算出一个标准化系数,用以重新计算芯片上每个基因的光密度。

(3)回归的方法R】

此方法用于标准化同一块芯片上杂交的两种样品。如果mRNA来自紧密相关的样品,那么大部分基因的表达水平是相近的。这样,在以Cy5和Cy3为坐标的散点图上,这些基因应呈一直线。如果两批样品的标记和检测效率相同,则直线的斜率也是惟一的。那么,标准化这些数据就等同于用回归的方法计算其最适斜率。但在实际试验中,光密度值常为非线性,此时应该使用局部回归方法,如LOWESS (locally weighted scatterplot smoothing)回归法。

(4)比率统汁法I⑶

此方法用于标准化同一块芯片上杂交的两种样品,并且建立于以下的假设之上:在近似的两个样品中,虽然基因有上调和下调,但一些基本的基因(如管家基因)的表达量是近似相同的。山此得出一个近似概率密度公式:比率T二R /G (R和G分别是芯片上笫K个点的红光和绿光的强度),经过迭代算法处理得到一个平均表达比率及其可信限,用于数据的标准化计算。

2.3基因表达数据

经过预处理,探针水平数据转变为基因表达数据。为了便于应用一些统讣和数学术语,基

因表达数据仍釆用矩阵形式。

随着生物学进入后基因组学时代,类似芯片数据这样的的非序列生物数据儿乎呈指数形式膨胀。这些生物数据往往维数高,具有异质性和网络性,传统的分析方法已不能胜任,发展优秀的算法分析生物数据成为生物学研究的瓶颈。数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位冲】。

数据挖掘也被称为数据库知识发现(knowledge discovery in database, KDD),是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的、模式的非平凡过程“】。迄今还没有一套完整、统一的数据挖掘理论体系来指导如何获取有用信息"1。

2.4 差异表达基因(differentially expressed genesQEGs)筛选

用于检测基因表达水平的DNA微阵列的应用之一是比较实验,LI的是比较两个条件下的基因差异表达,从中识别出与条件相关的特异性基因或显著差异表达的基因。

2.4.1倍数变化法(foldchang,FC)

比较两个各不同生物样本时,可根据ratio值来筛选,一般认为ratio值在0.5 —2.0范用内的基因不存在显著表达差异,该范圉之外则认为表达有显著差异。当然,上述范围需要根据不同实验条件作调整。

FC法的优点是简单直观,需要的芯片量少,节约研究成本2】;缺点是结论过于简单,其阈值的划分主观性较强、缺乏生物学和统计学支持,尤其对于分析样本中的低拷贝或高拷贝转录子,容易产生假阳性和假阴性问题"21。一般而言,FC法可用于对于预实验和实验初筛。

2.4.2参数分析(parameter analysis)

(1)t-检验(t-test)

t检验可用于两个生物条件下多个重复样本的差异表达基因的筛选。当t 超过根据可信度选择得标准时,比较的两样本被认为存在着差异。受样本量和成本的限制,研究者提出了调节性t 检验(regi皿edt-test)。它根据在基因表达水平和变异之间存在着相互关系,相似的基因表达水平有着相似的变异这个经验,应用贝叶斯条件概率统计方法,通过检测同一张芯片上其他临近基因表达水平,理论上可对任何基因的变异程度估计进行弥补。调节性t检验法对基因表达的标准差估计优于一般t检验和FC法I?。】。

(2)F检验

F检验乂称变异数分析或方差分析(analysis of variance, ANOVA)。F检验适用于多个生物条件下DEGs的检测,它检验两个或多个样本均数的差异是否有统计学意义。方差分析需要参照实验设计,参照样本常用多种细胞的mRNA混合而成,由于所有的细胞同时表达基因众多,结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性,因此,增加参照样本的细胞不会提高参照样本的代表性。

方差分析的缺点在于虽然能计?算出那些基因有统计差异,但是他没有对那些组之间有统计

差异进行区分。如果相区分组间的统计差异,则需要使用均值间的两两比较(post-hoc comparisons)检验,该检验是对方差分析后的基因进行下一水平更细节的分析I⑸。

(3)回归分析(regression analysis)

基因表达谱的回归分析可以处理多个基因变量间线性依存关系,研究者提出了“使用回归分析的基因表达谱数据”。Li等卩2】使用互变量(Cox)回归方法分析基因表达谱数据,用于患者的生存率预判;Huang等㈢】将线性回归方法应用于肿瘤的分类研究中。

2.4.3非参数分析(nonparameter analysis)

由于噪声的存在,通过数据转换后微阵列数据可能仍然不呈正态分布,因此使用参数分析法可能有风险。非参数检验的优点在于不必假设数据满足特殊的正态分布,尽管其对数据进行筛选有些粗放,而且其对表达数据分析的敬感性不如参数分,但是仍然可行。常用的基因表达谱数据分析的非参数检验方法有:传统的非参数t-检验(nonparametric t-test)|24L Wilcoxon秩和检验(Wilcoxon rank sun test)㈣和新的非参数法如检验贝叶斯法(empirical Bayes method)匸“、芯片显著性分析法(signifcance analysis of micorarray,SAM ) I26\ 混合模型法(the mixture model method,MMM)卩刀等。

2.4.4假表达谱(pseudo profile)

假表达谱常用于鉴别基因的某一特定性为。比如要鉴别在肺癌中高表达而在正常肺组织中和其他肿瘤组织中低表达的基因,就可以先假设具有这样一个假表达谱,然后在实际芯片数据中去寻找与其相吻合的基因⑺。

关于DEGs的检测,日前尚无统一性标准,芯片后验证性实验(RT-PCR、荧光定量RT-PCR. Northern等)是确定样本基因差异表达的黄金标准。2.5基因芯片数据分析的非监督方法在基因表达谱中找出差异表达基因只是对表达谱数据进行统计学分析第一步,通过建立共调控网络,发掘未知和已知基因功能才是芯片实验的最终LI 的。前者可以看成是基因表达的单基因水平分析,后者则为基因与蛋口质网络分析。

根据对所研究的基因表达规律和实验分组是否了解,可将分析方法分为监督的(supervised)和非监督导的(unsupervised)。前者根据特定样本或基因的已知生物学信息对表达谱建立分类器,进而对各基因进行功能分类和预测,后者则通过计算和比较表达谱各基因统计学距离,聚类“相似性”样本或基因。两者都假设功能相似的基因其表达谱也是相似的,但Zhou"91等认为,一些相似功能的基因并不总是表现相似的表达谱,针对此他们提出了“过渡共表达基因”概念及相应的数学模型鉴定表达谱中此类基因。

2.5.1非监督的分析方法概述

芯片数据统计分析的非指导的方法即聚类分析(clusteranalysis),在目前最为常用。聚类分析是研究事物分类的一种方法,是在事物分类面貌尚不清楚的情况下研究事物的分类,其原理是直接比较样本中各指标之间的性质,将性质相近的归为一类,性质差别较大的归在另一类。统计学

上通过计算相似距离(similarity distances)来比较数据,常用相关系数或欧氏距离表示。

2.5.2非监督分析中的数据降维(dimension reduction)

在芯片数据中,有些数据并未提供有显著意义的信息,反而会给数据分析带来不必要的复杂。理想情况下,经过数据降维处理后,剩余数据即为非冗余数据(non-redimdantdata),不同组间的数据提供的信息是互相独立的。数据降维技术也分为监督的方法和非监督的方法。

非监督分析中的数据降维主要是指删除不提供信息的数据。如果某一基因在不同条件下的表达水平相同,则它对区分这些不同条件没有任何作用,该基因所提供的数据即为冗余数据。为了去除兀余数据,可将冗余的数据整合到一个新的杂合分组中。主成分分析可很好的完成这一任务。

2.5.3非监督分析的各种技术简介

(1)系统聚类(hierarchical clustering) 1,01

系统聚类根据聚类的方式分为凝聚法(agglomerative approach)和分裂法(divisive approach)。

a.凝聚法

按照从下到上的方式对个体进行聚类,初始每个个体从各为一类、按照一定的规则进行逐步合并,直到所有个体都归为一类或达到预定的终止条件。凝聚法因类问相似性的度量方法的不同而乂有所差异。

b.分裂法

按照从上到下的方式对个体进行聚类,初始所有个体为一类,然后按照一定规则逐渐分裂,直到每个个体形成一类或满足某个特定的结束条件,如达到预定的类数或两个最邻近的类之间的距离超过某预定值。

系统聚类方法简单,但有时在选择分裂点或合并点时存在困难。一旦将一组个体分裂或合并,后续的类将在新类的基础上产生,而不能取消己经完成的分裂或合并,也不能在类问对个体进行调整。系统聚类不适于分析基因表达谱复杂的数据19】。

(2)分割聚类(partitioning methods)110,1111

对于一个给定的基因芯片矩阵,分割算法将把观察个体分为预定的儿部分,使得对个体的

分割达到最优的客观标准,即类内个体间的相似性达到最大, 而类间个体间的相似性达到最小。最常用的分割算法为k-means法和k-medoids 法。

a.k-means法

把n个观察个体分成k个类,使类内的相似性高,而类间的相似性低。类的相似性用类内

观察个体的均值来度量,此均值被视为类的重心。通过计算新形成的k类的类均数,达到LI标函数收敛。具体步骤如下:所有数据随机分入k 个簇中,每个簇的平均向量用于计算各簇间的距离。然后用迭代方法计算簇间数据移动后的距离,某个数据只有在比原先所在的簇更为接近现

在所在的簇时,才能留在LI前所在的簇,每次移动后簇的平均向量都重新讣算,如此不断重

复,直至一旦有任何移动,都会增加簇内的距离或减小簇间的非相似性为止。

该法的局限性在于:①此方法在较大数据量时的扩展性和效率都较理想,但可能陷入局部最优。②只能用于类均数确定的情况下,若包含分类变量时就不适用。③必须提前确定类数。

④受噪声和异常值的影响较大。LI前?常先使用凝聚算法确定类数和初始的类,再利用迭代重定位技术提高聚类的效果。k-medoids算法中用模式代替类均数,使用新的非相似性指标处理分类资料,用以频数为基础的方法对类的模式进行更替,而k-prototypes算法(k-means和k-medoids的结合)可以处理数值变量和分类变量的混合资料。EM (expectation maximization)算法是k-means算法的另一种扩展,把每一个体不是划为具体的某种类别,而是赋予其属于各类的概率。

b.k-medoids法

k-means算法对于异常值敬感,因为极端值可能歪曲资料的分布ok-medoids 算法选择类的最中心的一点作为参照点,而不是类中所有个体的均数。当数据中存在噪声和奇异值多时,k-medoids算法比k-means算法具有更高的稳健性,因为一个类中具有代表性的中心点比该类中所有个体的均数更不易受异常值的影响。但k-medoids方法同样需要预先确定类数"°】。

分割聚类分析适合于对具有相似性的基因进行分类。系统聚类和分割聚类是基因芯片数据分析中最传统、应用最广泛的方法,对于一般资料具有较理想的分类效果,但在处理复杂非线性及变量问的交互作用时效果较差。

(3)主成分分析(principal component analysis, PCA) 1281

在大规模基因表达数据的分析工作中,山于组织样本例数远远小于所观察基因个数(G?N),如果直接采用前述聚类分析可能产生较大误差,故需要对聚类算法进行改进。LI前已经提出很多改进的聚类方法,其中较为流行的方法是应用主成分分析方法对数据进行分析。主成分分析的U的是要对多变量数据矩阵进行最佳综合简化。使用的方法是寻找这些变量的线性组合一一称之为 "主成分” (principal component),使这些主成分间不相关。为了能用尽量少的主成分个数去反映原始变量间提供的变异信息,要求各主成分的方差从大到小排列,第一主成分最能反映数据间的差异。主成分分析通过合并原来的维数得到更少的维数来表示对象,同时要求新的维数必须尽可能地反映原有维数所反映的信息,它有较少的信息丢失.主成分分析有助于简化分析和多维数据的可视化”】。

(4)自组织映射图网络(self-organizing map clusterings SOM) 1101

所谓自组织特征映射是指神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器。自组织映射网络图的基本原理是:将多为数据输入成儿何学节点,相似的数据模式聚成节点, 相隔较近的节点组成相邻的类,从而使多维的数据模式聚成2维节点的自组织映射图。SOM适合于复杂的多维数据的模式识别和特征分类等探索性分析,它允许对聚类的部分结构施加干预。相对于系统聚类中的严格结构和k-means聚类的无结构,SOM更灵活。与主成分分析(PCA)类似,SOM可以对数据集中的不同表达模式实现

可视化,从而判断某种模式是否为另外一种模式的变异。SOM同样需要实现确定类数。

(5)模糊聚类法(fuzz clustering) 1,01

在真实情况下,基因各功能类间的边界经常是不能截然分开的,模糊聚类适合于解决此类问题。该方法首先lIlBezdek提出,后被Guthke用于基因芯片数据中的基因的分类。它给出向量(代表观察个体或基因)隶属于各类的隶属度, 亦即该向量属于各类的概率。非监督模糊聚类的应用包括模糊c-means法、概率SOM 和Gustafson-plaid 法。

(6)双向聚类(two-way clustering, TWC)

基因表达谱常釆用单向聚类法(one-way clustering),即要么以整个样本中特性相似的基因进聚类,或者以基因表达相似的样本进行聚类。对样本和基因同时进行聚类就是双向聚类法(two-wayclustering),目前基因表达谱的数据分析常用的双向聚类有基因剃须(gene shaving, GS)和格子模型(plaid models) o基因剃须是通过基因的共同表达值或表达量来鉴定基因的亚类,基因表达谱分析方法常用监督进行聚类,没有考虑一个基因可能属于多个类。基因剃须对基因或样本进行分类既可以是监督的,也可以是非监督的。基因剃须近年逐渐被应用于基因表达谱的分析中,Hastie⑺】使用基因剃须方法分析了B 细胞淋巴瘤患者的基因表达谱,鉴定了一小类可用于生存率预判的基因。2.6基因芯片数据分析的监督方法

监督的方法乂称判别分析(discriminant analysis),以判别样本所属的类型。判别分析在已有数据的基础上建立分类器,并利用所建立的分类器对未知样品的功能或状态进行预测。与聚类分析不同,判别分析使用某种方法将研究对象分成若干类的前提下,建立判别函数,用以判定未知对象属于已知分类中的哪一类叫2.6.1监督方法的数据降维

监督的方法中的数据降维主要指数据选择,其LI的有二:(1)挑选相对基本的数据了;(2)减少同济分析所必须的数据量。最简单的降维方法是,不断重复为每个数据加权的分类算法。首先用分类算法去除加权最小的数据,然后在剩下的数据中再用分类算法去除加权最小的数据,如此不断重复,直到这种处理已经失去统计显著性的时候,表明有重要信息已经被错误删去了。此时,立即停止计算,然后找回被误删的数据,这样剩下的数据则为非冗余的。当然, 这个方法的缺点在于难以确定统计显著性的大小。

2.6.2各类监督方法技术简介

(1)线性判别分析(linear discriminant analysis, LDA)

线性判别分析是指在输入变量上构造线性判别函数的方法。即寻找一种变换,使得在某种意义下类间分离性最大,类内相异性最小。它是一种有监督的维数约简方法|30]|3l]o线性判别分析的特点是计算简单,易于应用,一般具有较低的误差率,但不能处理基因(或个体)间的交互作用。因此,当基因(或个体)间存在复杂的交互作用时,线性判别分析不易发现数据中的规律性I 有研究指出,在基因芯片的分类中,Diagonal线性判别分析具有与最临近分类相接近的较高的判别性能,而Fisher线性判别分析的判别性能比其他方法要差l,0,o另外,与LDA接近的还包括二次方判别分析等。Ch。等阳应用Fisher判别方法分析肿瘤患者的基因表达谱资料以判别肿瘤的分型;

Dangond'33>等将Fisher判别方法应用于计算肌萎缩侧索硬化病的基因表达谱研究中。

(2)k最临近分类法(k-nearest neighbor classfiers )

k最临近分类法建立在通过类比进行学习的基础上,训练样本山n维讣量变量描述,而每个观察个体曲n维空间中的一点来描述。当给定一个未知样本,k-最临近分类算法将在模式空间中搜寻与此样本最临近的k个观察个体,这k个个体就是该位置观察个体的k个最临近点。一般釆用欧氏距离来衡量临近程度。未知样本被赋予k个租赁金的个体中类数最多的类。与复杂的分类算法相比,k-最邻近算法具有简单、直观、误差率较低等特点,能够以“黑箱”的方式处理基因间的交互作用,但不能洞悉数据的结构。

(3)决策树(decision trees) 1161

决策树是一种常用于预测模型的算法,它通过将大量数据有LI的的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快, 特别适合大规模的数据处理旳】。

(4)人工神经网络法(artificial neural network’ANN)

ANN是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在ANN中,大量节点(“神经元”或“单元”)之间相互联接构成网络, 即“神经网络”,以达到处理信息的目的。其优势是运行分析师无需在心中有特定模型,而且神经网络可以发现交互作用效果。Sawa等对酵母属基因表达谱数据进行欧式距离、相关系数、相互信息和基于神经网络的聚类分析,发现基于神经网络的聚类结果较前3种更为合理。

(5)支持向量机(support vector machine,SVMs) [1111351

支持向量机是数据挖掘中的一个新方法。支持向量机能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的新基因。它起源于统计学习理论,研究如何构造学习机,实现模式分类问题。支持向量机使用结构风险最小化,使每一类数据之间的分类间隔最大。SVM用构建训练组的方法来学习如何区分不同的类别,它可以利用生物学的信息决定如何分组,也可以找出已分类组中的错误值。例如WilliamsI36'为了鉴定出肾母细胞瘤复发的基因表达谱模型,研究了27例肾母细胞瘤患者的肿瘤组织,其中13例2 年内复发,对复发和未复发的肿瘤组织进行基因芯片实验,并应用支持向量机对基因表达谱数据进行分析,结果发现了一小类可能用于肿瘤预诊的基因。

2.7数据的可视化方法H】

生物信息数据量大,形式复杂,直观地显示数据挖掘结果使其易于理解棋至关系到数据挖掘的成功与发展。U前已有一些可视化方法和工具,如Stanfold 大学的TreeView软件采用色彩图与树图显示聚类的结果,树图能够清楚地显示层次聚类的每一步骤。另外,Bioconductor也提

供芯片数据可视化的方法。

3. R & Bioconductor应用于表达谱芯片的数据处理

3.1R & Bioconductor简介

R语言是一种计算机程序设计语言,也是一个开放式的软件开发平台,它具有强大的数学统计分析和科学数据可视化功能,能提供给各种数据处理和统计分析工具,如线性和非线性建模、经典的统计测试、时间序列分析、分类和聚类,同时也提供各种图形显示和分析工具。山于R语言是一个开放式的软件开放平台,软件开发人员可以再这个平台上不断扩充R语言的功能,并开发出面向特定应用的软件,如Bioconductoro

Bioconductor实际上是一个开源和开放式的软件开发项目,该项目起始于2001年秋季,项目核心成员主要是哈佛医学院/哈佛公共卫生学院的Dana Farber?癌症研究所生物统讣组,还有来自美国和国际上的其他研究机构的一些研究人员。该项LI的LI标是建立多方面的、强有力的基因组数据的统计与图形分析方法,促进各种生物数据的集成,推动数据的综合分析和利用,促进各种生物数据的集成,推动数据的综合分析和利用,促进形成高质量的文档,同时加速发展各种开放式软件,并加强基因组数据分析方法和技术的培训。

Bioconductor的应用功能主要是以包(package)的集成形式呈现在用户面前的,Bioconductor 提供了大量开放式生物信息学软件包。其所提供的软件包包括各种基因组数据分析和注释工具,其中,大多数工具是针对DNA微阵列数据的处理、分析、注释及可视化的。同时,Bioconductor 还提供许多鱼DNA 微阵列相关的数据包,并将生物元数据与实验数据分析紧密结合起来。

3.2Bioconductor用于表达谱芯片数据处理

3.2.1预处理数据包

这类包的主要功能是对Affymetrix寡核昔酸芯片和双色cDNA微阵列产生的实验数据进行预处理,如背景校正、归一化等。它定义了各种给类及相关的处理方法,用于在探针水平上对微阵列实验数据进行各种形式的预处理;此外, 它还具有各种统计图的绘制函数,提供可视化分析手段;它也提供各种函数和窗口小部件,用于从文件中输入数据,或者自动产主微阵列数据对象。下面是这类包的较详细地介绍。

(1)affy:

Affymetrix芯片上每一条探针的荧光强度的检测数据称为探针水平的数据,对这些数据需要进行背景校正、归一化、探针值校正等处理,然后得到基因表达数据。affy包提供了一系列的分析算法来实现这个分析过程,并提供了一组绘图函数,对芯片数据和分析结果进行可视化分析。

(2)affycomp

affydata包提供了一组图形化工具,通过对预处理的分析结果一一基因表达数据进行统计分

析,用来评价那些affy芯片数据分析算法的性能。

(3)affydata

affydata包本质上是一个数据包,提供DILUTION数据集中的4块芯片的数据。实验样本来自人肝组织和中枢神经系统的细胞系,分别以两种不同浓度的样本与Affymetrix公司的人类hgu95av2芯片杂交,检测实验结果,形成affydata包中的数据。

(4)affypdnn包、affyPLM包、germa包分别用不同的方法计算基因表达数据

affypdnn釆用PDNN算法(探针位置依赖最邻近法)分析探针水平的数据,计算基因表达数据。

affyPLM包提供了一种鲁棒的探针水平模型,用来计算Affmetrix基因芯片的比到达数据。affyPLM包的核心函数是fitPLMo

genna包使用RMA方法并结合探针序列信息分析微阵列的探针水平数据,并计算基因表达数据。

(5)makeedfenv

makeedfenv包根据Affymetrix芯片描述文件创建与affy包配套使用的CDF 环境。CDF环境是保存R语言环境中芯片描述信息,为探针集标识符与探针在芯片上的位置索引号之间构建了映射关系。

(6)annaffy

annaffy包提供了Affymetrix分析结果与多个Web数据库之间的接口。利用这个包可以通过交互式方式访问网络数据库,搜索元数据,获取注释数据,并可以产生静态的HTML报告。这个包与Bioconductor中的注释类的包密切相关。

⑺ marray:

marray包用于cDNA微阵列数据的诊断性作图和归一化处理,是Bioconductor中的最重要组成部分,主要功能有:cDNA微阵列数据的读取,通过简单的作图来评价数据质量,对数据进行归一化处理。

(8)matchprobes

matchprobes包的功能是计算微阵列上的探针序列和相关信息。

⑼vsn

vsn包中含有一种针对微阵列数据额特殊预处理方法,用于微阵列探针水平数据的校正处理和图形化分析。

3.2.2数据分析包

该类包主要用于分析微阵列数据,研究基因之间的关系,研究样本之间的关系,识别差异基因,其基本方法包括分类分析、聚类分析、基因过滤等。该类包的14个包提供了对实验数据

的后续处理操作。

(1)daMA

daMA包中含有一组函数,主要应用于设计双色因子微阵列实验,并对相关的实验结果数据进行统计分析。

(2)edd

edd进行表达密度诊断,包括用于分布形状分类的图形化方法和模式识别算法,该包提供一系列工具,计算基因表达谱的分布函数,并根据分布函数对基因进行分类。

⑶ actDesign

factDesign提供一组工具,用于分析因子微阵列实验的数据,用于评价对照的正确检验和单个起一点的检测,采用线性模型的方法筛选某条件下的LI的基因。

(4)genefilter

genefilter使用一组过滤函数,根据芯片实验数据过滤、筛选基因,过滤器釆用的过滤标准包括缺失数据的数LI,反映表达水平变化的方差,协方差分析的p值,Cox回归模型的p值等,这些工具可以用来对基因进行连续筛选。

(5)globaltest

globaltest主要分析与临床参数相关的一组基因是否具有显著性。

(6)gpls

gpls使用GPLS (广义偏最小二乘法)算法对DNA微阵列实验数据进行分类,可以对数据进行两组或多组分类。

⑺ multtest

multtest用于控制FWER和FDR (假发现率)的多重检验步骤,提供基于单因子和双因子设计的t或F统计量检验,提供重排过程来估计调整的p值,改稿有多种统计检验函数或可视化函数。

(8) pamr

pamr包的主要功能是对基因表达数据进行分类,提供各种基于最临近法、缩小质心法等统计方法的样本分类函数,同时提供分类结果的显示工具。

(9)MeasurementError.cor

MeasurementError.cor是一种两步测量误差模型,用于估计双变量正态下两个随即变量之间的相关性,主要应用于分析基因表达数据间的相关性,相对于通常的样本相关性而言,有更小的相关习惯估计偏差。

(10)limma

Limma包是关于基因表达芯片数据分析工具的一个库,提供读取微阵列数据和基因信息的基本函数,使用线性模型来设讣和评估差异表达,还提供针对双色点样芯片数据的归一化和其他分析的函数。

(11)ROC

ROC包是与ROC曲线相关的R语言的类和函数的集合,这些函数对DNA 芯片实验进行ROC分析。

(1Z) siggenes

siggenes识别差异表达基因,利用对芯片数据的显著性分析(SAM)以及对芯片的经典贝叶斯分析(EBAM),确定差异表达基因并估计检出率。另外, 该报还提供了针对多类型数据以及未加工的原始数据的芯片显著性分析工具。

(13)splicegear

用于选择性剪切分析的一组工具。

(14)RMAGEMEL

RMAGEMEL包的主要功能是处理Bioconductor中的MAGE-ML文档。

参考文献

[1]许杨,阮琼芳,李燕萍?表达基因分析方法[J]食品与生物技术报,1673-1689 (2008)01 -0122-05

[2] Lodish H, Berk A, Zipursky SL, et al. Molecular cell biology[M]. New York:

Media Connected, 1999

[3]Aimut Schulze, Julian Downward? Navigating gene expression using microar Jays?

atechnology review[J]? Nature Cell Biology, 2001, (3): 190一195.

[4]Sofia K GruVberger一Saal, Heather E Cunliffe, Kristen M Carr, et al.Microarrays in breast cancer research and clinical practice-the future lies ahead[J]. Endocrine-Related Cancer, 2006, 13: 1017—1031

[5]张辛燕,李小平,赖娟等.cDNA微矩阵筛选卵巢癌相关基因的研究1J].癌症,2003, 22(9):943—947.ZHANG Xing—yan, LI Xiao-ping, LAN Juan,

et al ? Screening for ovarian cancer-associated genes with cDNA microarravs

[J]? Chinese Journal ofCancer, 2003, 22(9): 943—947 .(in Chinese)

[6]Anson W. Lowe, Marl Olsen, Ying Hao, et a 1 ? Gene expression patterns in pancreatjc

tumors,cells and tissues[J]< ? plosone? org, 2007, 2(3): e323?

[7]王永煜,张幼怡,基因芯片数据分析与处理[J],生物化学与生物物理进展,2003; 30(2).

[8]BROWN C S, GOODWIN P C, SORGOR P K. Image metrics in the statistical analysis of

DNA microarray data. [J]? Proc Natl Acad Sci USA, 2001,98(16): 8944—8949.

[9]Kooperberg C,Fazzio TG,Delrow J J. Improved background correction for spotted cDNA niicroarrays[J]? J Conipm Biol, 2002,9:55

[10]荆志伟,王忠;王永炎,高思华.基因芯片数据分析方法研究进展[J].生物技术通讯.1009-

0002(2007)01 -0144-05

[11]杨畅,方福德.基因芯片数据分析[J].生命科学,1004.0374(2004)01.0041.08.

[12]高利宏,曹佳.基因芯片可靠性分析及数据处理[J]?第三军医大学学报.

1000-5404(2006)01 -0080-03

[13]Quackenbush J. Computational genetics: computational analysis ofmicroarray

data. NatRev Genet,2001. 2: 418,427

[14]李荣?基因表达谱芯片数据挖掘系统[J].计算机应用研究,

1001—3695(2009)08—2938—04.

[15]Fayyad UM, Piatetsky—Shapiro G, Smyth P, et al ? Knowledge Discovery and Data

mining:Toward a Uniting Frame work[M]- CA: AAAI-Press. 1996. 82

[16]吴斌.沈自尹.基因表达谱芯片的数据分析.世界华人消化朵志.2006:

14(1): 68—74

[17]Jin H? YangR, AwadTA, etal. Effectsof earlyACEinhibition on cardiac gene expression

following acute myocaidial infarction Circulation, 2001, 103(5): 736-742

[18]Liu A Zhan g Gehan E, Clarke R. Block principal component analysis with application to

gene microarray data classification. Star Med 2002: 21 :3465—3474

[19]ZHOUX, KAO M C, WONG WH. Transitive functional annotation by shortest-path analysis

of gene expression data[J]? Proc Natl Acad Sci USA, 2002, 99(20): 12783—12788. [20]Long AD.Mangalam HJ,Chan BY^Tolleri L,Hatfield GW, Baldi P? Improved statistical

inference from DNA mi croarray data using analysis of varian ce and a Bayesian statistical framework? Analysis of global gene expression in Escherichia coli KI2. J Biol Chem

2001 ; 276: 19937-19944

[21]Aubert J.Bar—Hen A,Daudin LRobin S.Correction: Determination of the differentially

expressed genes in niicroarray experiments using local FDR. BMC Bioinformatics 2005;

6: 42

[22]Li H.Gui J.Partial Cox regression analysis for high-dimensional mi croarray gene expression

data. Bioinformatics 2004: 20: 1208一1215

[23]Huang X,Pan W.Linear regression and two-class classification with gene expression data.

Bioinformatics 2003; 19: 2072—2078

[24]Troyanskaya OG,Garber ME,Brown PO.Botstein D,Altman RB.Nonparametric methods for

identifying differentially expressed genes in mi croarray

data.Bioinformatics 200Z 18: 145 146

[25]Efron B,Tibshirani R? Empirical bayes methods and false discovery rates for microarrays?

Genet Epidemiol 2002 : 23: 7o? 86

[26]Tusher VG,Tibshirani R,Chu G ? Significance analysis of niicroarrays applied to the

ionizing radiation response ? Proc Natf Acad Sc USA 2001 ; 98:5116. 5121

[27]Pan WXin J,Le CT. A mixture model approach to detecting differentially expressed genes

with microarray data? Funct lntegr Genomics 2003: 3: 117-124

[28]胡煜.主分量分析法和K-近邻法应用于基因芯片数据分析[J].北华大学学报(自然科学

版)1009-4822(2008)01. . 0012-04

[29 Hastie T, Tibshirani R,Eisen MB.Alizadeh A,Levy R,Staudt L,Chart WC.Botstein D,Brown

P.c Gene shaving' as a method for identifying distinct sets of genes with similar expression patterns? Genome Biof 2000; 1: RESEARCH0003

[30]胡煜?线性判别分析和降维方法应用于基因芯片数据分析.甘肃联合大学学扌艮(自然科学

版).1672—691 X(2008)01—0029—06

[31]杨建,杨静字,叶辉.Fisher线性鉴别分析的理论研究及其应用[J].自动化学扌艮,

2003(2): 35一11.

[32]Cho JH,Lee D,Park JH,et al.Gene selection and classification from microarray data using

kernel machine[J]? FEBS Lett, 2004, 571: 93

[33]Dangond F^Hwang D,Camelo S5et al.Molecular signature of late-stage human ALS revealed

by expression profiling of post-mortem spinal cord gray

matter[J].Physiol Genomics, 2004, 16: 229

[34]Podgorelec Kokoi , Stiglic B,Rozman I.Decision trees: an overview and their use in

medicine- J Med Svst 2002: 26: 445-463

[35]陈冰梅,樊晓平,周志明,李雪荣.支持向量机原理及展望.制造业自动化.

1009-0134(2010)12(上)-0136-03

[36]Williams RD.Hing SN,Greer BT,Whiteford CC,Wei JS,Natrajan R KelSey

A,Rogers S, Campbell C,Pritchard-Jones K,Khan J.Progostic classfication of relapsing

faVorable histology W illns tumor using cDNA niicroarray expression Profiling and support vector machines.Genes Chromosomes Cancer 2004;41:65:79

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法(DGE)----基于新一代测序技术的 技术路线 该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量;通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下: 1、样品准备: a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品; 2、样品制备(见图1-1): a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段,用来标记该基因,称为TAG; b) 在TAG片段两端连接上用于测序的接头引物; 3、上机测序: a) 通过高通量测序每个样品可以得到至少250万条TAG序列; 4、基本信息分析: a) 对原始数据进行基本处理,得到高质量的TAG序列; b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量; c) 对TAG进行注释,建立TAG和基因的对应关系; d) 基因在正义链和反义链上表达量间的关系; e) 其它统计分析; 5、高级信息分析: a) 基因在样品间差异表达分析; b) 库容量饱和度分析;

c) 其它分析; 测序优势 利用高通量测序进行表达谱研究的优势很明显,具体如下: 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300 万~600万个表达标签。

(生物科技行业)CT法分析基因相对表达量

利用实时定量PCR和2-△△CT法分析基因相对表达量METHODS 25, 402–408 (2001) Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2-△△CT Method Kenneth J. Livak* and Thomas D. Schmittgen?,1 *Applied Biosystems, Foster City, California 94404; and ? Department of Pharmaceutical Sciences, College of Pharmacy, Washington State University, Pullman, Washington 99164-6534 摘要: 现在最常用的两种分析实时定量PCR 实验数据的方法是绝对定量和相对定量。绝对定量通过标准曲线计算起始模板的拷贝数;相对定量方法则是比较经过处理的样品和未经处理的样品目标转录本之间的表达差异。2-△△CT方法是实时定量PCR 实验中分析基因表达相对变化的一种简便方法,即相对定量的一种简便方法。本文介绍了该方法的推导,假设及其应用。另外,在本文中我们还介绍了两种2-△△CT衍生方法的推导和应用,它们在实时定量 PCR 数据分析中可能会被用到。 关键词:反转录PCR 定量PCR 相对定量实时PCR Taqman 反转录 PCR (RT-PCR )是基因表达定量非常有用的一种方法(1 - 3 )。实时PCR 技术和RT-PCR 的结合产生了反转录定量 PCR 技术(4 ,5 )。实时定量PCR 的数据分析方法有两种:绝对定量和相对定量。绝对定量一般通过定量标准曲线来确定我们所感兴趣的转录本的拷贝数;相对定量方法则是用来确定经过不同处理的样品目标转录本之间的表达差异或是目标转录本在不同时相的表达差异。 绝对定量通常在需要确定转录本绝对拷贝数的条件下使用。通过实时 PCR 进行绝对定量已有多篇报道(6 - 9 ),包括已发表的两篇研究论文(10,11 )。在有些情况下,并不需要对转录本进行绝对定量,只需要给出相对基因表达差异即可。显然,我们说 X 基因在经过某种处理後表达量增加 2.5 倍比说该基因的表达从1000 拷贝/ 细胞增加到2500 拷贝/ 细胞更加直观。 用实时PCR 对基因表达进行相对定量分析需要特殊的公式、假设以及对这些假设的验证。2-△△CT方法可用于定量PCR 实验来计算基因表达的相对变化:2-△△CT 公式的推导,以及实验设计,有效性评估在Applied Biosystems User Bulletin

基因表达谱测序

基因表达谱测序 背景介绍 基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序,获得10M读长为49nt的原始reads,每一个reads可以对应到相应的转录本,从而研究基因的表达差异情况。与转录组测序相比,基因表达谱分析要求的读长更短,测序通量更小,仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点,能很好的替代以往的数字化表达谱分析。 技术路线

生物信息学分析 送样要求 样品要求 1. 所需Total RNA 的量均不少于 20μg/文库,Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中,具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料,样品质量需大于2g ; 3. 如提供实验材料为植物样品,样品质量需大于4g ; 4. 如提供实验材料为培养细胞,请提供1×107培养好的细胞; 5. 如提供实验材料为血液样品,请提供≥2ml 的样品。 我们强烈建议在送样的同时客户做好备份,以备后续实验之用。 样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间,RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰(其

大小决定于用于抽提RNA的物种类型),28S的密度大约是18S的2倍;Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染,如有污染请去蛋白并进行DNase I处理。 请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片,并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。 样品采集 为了保证提取RNA的完整性,确保后续实验的顺利进行,请务必确保样品的新鲜,对于如何确保样品的新鲜针对不同的样品获取材料的方法如下: 1. 动物组织:从活体上迅速的取下组织(切成黄豆粒大小的块状),每切成一个黄豆粒大小的块状立即放入液氮中,重复上述操作,直至足够提取总RNA的量;准备一个50ml的离心管,做相应的标记(样品名称、编号、客户姓名、时间),最好既在管盖上做好标记,也在管壁上做好相应的标记,先放入液氮中预冷2-3min,拿出离心管(离心管的下部分还是保持在液氮中),打开离心管的盖子,将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织: (1)如所采集的是果实、麦穗等体积偏大的样品,收集样品请参照1.动物组织取样方法;(2)如采集的是叶片等体积偏小的样品,请尽量采集嫩叶、幼芽等,每采集一片叶片立即放入液氮中,直至足够提取总RNA的量,后续操作请参照动物组织的采集。 (3)如是植物的花,在采集花骨朵的时候请尽量不要采集到花萼、叶片等,每采集一个花骨朵请立即放入液氮中,直至足够提取总RNA的量;后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体,请取500μl的菌液于1.5ml离心管中,离心去上清,剩余菌丝体放入液氮或干冰中,请提供不少于5管的菌丝体。 样品运输 从液氮中取出准备好的样品,请立即放入干冰中,并用干冰掩埋好样品。请填写完整订单,放入自封袋中与样品一起邮寄。为防止RNA的降解,请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。 如是特殊样品,关于送样量和保存问题请与我们联系沟通,以便双方共同协商解决。 提供结果 根据客户需求,提供不同深度的信息分析结果。

(完整版)小鼠表达谱芯片及服务

小鼠表达谱芯片及服务 热点推荐 芯片名称:Agilent SurePrint G3 Mouse Gene Expression 8x60K HOT! 芯片介绍:安捷伦基于G3平台最新设计的小鼠表达谱芯片。涵盖39,430 条Entrez Gene RNAs 外,及16,251条lincRNA。除了检测蛋白编码RNA表达量变化,还能检测非编码lincRNA 的表达量变化。探针设计参照的数据库为:RefSeq Build 37;Ensembl Release 55;Unigene Build 176;GenBank (April 2009);RIKEN 3。lincRNA探针是Agilent和John Rinn 实验室(麻省理工学院-哈佛大学Broad研究所)共同设计的。 Agilent 小鼠表达谱芯片服务 芯片名称:Agilent SurePrint G3 Mouse Gene Expression 8x60K NEW! 芯片介绍:安捷伦基于G3平台最新设计的小鼠表达谱芯片。涵盖39,430 条Entrez Gene RNAs 外,及16,251条lincRNA。除了检测蛋白编码RNA表达量变化,还能检测非编码lincRNA 的表达量变化。探针设计参照的数据库为:RefSeq Build 37;Ensembl Release 55;Unigene Build 176;GenBank (April 2009);RIKEN 3。lincRNA探针是Agilent和John Rinn 实验室(麻省理工学院-哈佛大学Broad研究所)共同设计的。 芯片推荐:Agilent Whole Mouse Genome Oligo Microarray(4×44K) 芯片介绍:Agilent小鼠全基因组表达谱芯片,真正代表小鼠基因组中所有已知基因及其产生的转录本,代表了超过41,174 个小鼠基因和转录本。设计该产品所用的序列信息源于UCSC、NIA、RefSeq、Ensembl、Unigene和RIKEN等数据库,而且绝大多数探针经过Agilent专利的实验验证程序的检验和优化。 Affymetrix 小鼠表达谱芯片服务 芯片名称:GeneChip Mouse Genome 430 2.0 Array 详细介绍:涵盖了39,000个转录本,代表34,000个的小鼠基因。序列信息基于GeneBank、dbEST、RefSeq,The sequence clusters 在UniGene database (Build 107, June 2002)创建,并通过了Whitehead Institute for Genome Research (MGSC, April 2002)小鼠基因组进行了分析比较。 芯片推荐:Affymetrix GeneChip HT MG-430 PM Array Plate 芯片介绍:该款芯片信息与Affymetrix 小鼠基因组430 2.0芯片相同。涵盖了39,000个转录本,代表34,000个的小鼠基因。序列信息基于GeneBank、dbEST、RefSeq,The sequence clusters 在UniGene database (Build 107, June 2002)创建,并通过了Whitehead Institute for Genome Research (MGSC, April 2002)小鼠基因组进行了分析比较。 Phalanx小鼠表达谱芯片及服务 芯片名称:Phalanx MOA V5 Mouse OneArray? 芯片介绍:源自台湾工业研究院专利生产技术,依据美国食品药品管理局(FDA)制定的生物芯片质量评估标准MAQC计划规范,总探针数27,294个,基因探针数26,423个,参考数据库:RefSeq release 42;Ensemble release 59。 Illumina小鼠表达谱芯片服务 芯片推荐:Illumina Mouse WG-6 expression beadchips

第24章 基因表达谱分析的生物信息学方法思考与练习参考答案

第24章 基因表达谱分析的生物信息学方法 思考与练习参考答案 1.据教材表24–3提供的数据信息可以构建一棵决策树,请利用最大信息增益方法写出如何选出根结点中用于分割的特征。 教材表24-3 天气情况与是否去打球的关系数据集 注:该信息表示根据天气情况决定是否出去打球,数据集共包含14个样本,两个类别信息(Yes 、No ),每个样本包含3 个特征信息(Outlook 、Temp 、Windy )。 解:计算用每一个特征进行分割时所获取的信息增益,取信息增益最大的那个特征作为分割特征,以Outlook 特征为例计算(参照练习图24-1) 练习图24-1 同Outlook 特征进行分割所获得的信息增益 )14 9 log 149145 log 145()(220+-=S H

)5 2 log 5253 log 53()(2211+-=S H 0)4 4 log 44()(212=-=S H )52 log 5253 log 53()(2213+-=S H )(14 5 )(144)(145)(1312111S H S H S H S H ++= infor-gain (Outlook )=)()(10S H S H - 同理,计算其他两个特征的信息增益,最后从三个值中选取最大的一个对应的特征作为根结点的分割特征。 2.请从https://www.360docs.net/doc/62447873.html,/上下载一原始未经标准化的表达谱数据,并对该数据进行如下分析: (1)对数据进行标准化处理。 (2)对数据进行分类分析。 (3)分别对基因和样本进行聚类分析。 (4)选择特征基因。 (答案略)

基因芯片的数据分析

基因表达谱芯片的数据分析 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。 1.1倍数变化(fold change, FC) 倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。此外倍数取值是任意的,而且可能是不恰当的,例如,假如以2倍为标准筛选差异表达基因,有可能没有1条入选,结果敏感性为0,同样也可能出现很多差异表达基因,结果使人认为倍数筛选法是在盲目的推测[8,9]。 1.2 t检验(t-test) 差异基因表达分析的另一种方法是t检验[10],当t超过根据可信度选择的标准时,比较

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签:杂谈分类:生物信息 摘要 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析 吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.360docs.net/doc/62447873.html,/1009-3079/14/68.asp 0 引言 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

基因芯片数据功能分析

生物信息学在基因芯片数据功能分析中的应用 2009-4-29 随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era),向基因的功能及基因的多样性倾斜。通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析,研究相应基因在生物体内的功能,阐明不同层次多基因协同作用的机理,进而在人类重大疾病如癌症、心血管疾病的发病机理、诊断治疗、药物开发等方面的研究发挥巨大的作用。它将大大推动人类结构基因组及功能基因组的各项基因组研究计划。生物信息学在基因组学中发挥着重大的作用, 而另一项崭新的技术——基因芯片已经成为大规模探索和提取生物分子信息的强有力手段,将在后基因组研究中发挥突出的作用。基因芯片与生物信息学是相辅相成的,基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的,可以为生物信息学研究提供必需的数据库,同时基因芯片的数据分析也极大地依赖于生物信息学,因此两者的结合给分子生物学研究提供了一条快捷通道。 本文介绍了几种常用的基因功能分析方法和工具: 一、GO基因本体论分类法 最先出现的芯片数据基因功能分析法是GO分类法。Gene Ontology(GO,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675 个Entrez Gene注释基因中的17348个,并把它们的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功能信息的分级结构。这样,GO中每一个分类术语都以一种被称为定向非循环图表(DAGs)的结构组织起来。研究者可以通过GO分类号和各种GO数据库相关分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。 EASE(Expressing Analysis Systematic Explorer)是比较早的用于芯片功能分析的网络平台。由美国国立卫生研究院(NIH)的研究人员开发。研究者可以用多种不同的格式将芯片中得到的基因导入EASE 进行分析,EASE会找出这一系列的基因都存在于哪些GO分类中。其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。EASE 能进行的统计学检验主要包括Fisher 精确概率检验,或是对Fisher精确概率检验进行了修饰的EASE 得分(EASE score)。 由于进行统计学检验的GO分类的数量很多,所以EASE采取了一系列方法对“多重检验”的结果进行校正。这些方法包括弗朗尼校正法(Bonferroni),本杰明假阳性率法(Benjamini falsediscovery rate)和靴带法(bootstraping)。同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。2002年,挪威大学和乌普萨拉大学联合推出的Rosetta 系统将GO分类与基因表达数据相联系,引入了“最小决定法则”(minimal decision rules)的概念。它的基本思想是在对多张芯片结果进行聚类分析之后,与表达模式

基因芯片数据处理流程与分析介绍

基因芯片数据处理流程与分析介绍 关键词:基因芯片数据处理 当人类基因体定序计划的重要里程碑完成之后,生命科学正式迈入了一个后基因体时代,基因芯片(microarray) 的出现让研究人员得以宏观的视野来探讨分子机转。不过分析是相当复杂的学问,正因为基因芯片成千上万的信息使得分析数据量庞大,更需要应用到生物统计与生物信息相关软件的协助。要取得一完整的数据结果,除了前端的实验设计与操作的无暇外,如何以精确的分析取得可信数据,运筹帷幄于方寸之间,更是画龙点睛的关键。 基因芯片的应用 基因芯片可以同时针对生物体内数以千计的基因进行表现量分析,对于科学研究者而言,不论是细胞的生命周期、生化调控路径、蛋白质交互作用关系等等研究,或是药物研发中对于药物作用目标基因的筛选,到临床的疾病诊断预测,都为基因芯片可以发挥功用的范畴。 基因表现图谱抓取了时间点当下所有的动态基因表现情形,将所有的探针所代表的基因与荧光强度转换成基本数据(raw data) 后,仿如尚未解密前的达文西密码,隐藏的奥秘由丝丝的线索串联绵延,有待专家抽丝剥茧,如剥洋葱般从外而内层层解析出数千数万数据下的隐晦含义。 要获得有意义的分析结果,恐怕不能如泼墨画般洒脱随兴所致。从raw data 取得后,需要一连贯的分析流程(图一),经过许多统计方法,才能条清理明的将raw data 整理出一初步的分析数据,当处理到取得实验组除以对照组的对数值后(log2 ratio),大约完成初步的统计工作,可进展到下一步的进阶分析阶段。

图一、整体分析流程。基本上raw data 取得后,将经过从最上到下的一连串分析流程。(1) Rosetta 软件会透过统计的model,给予不同的权重来评估数据的可信度,譬如一些实验操作的误差或是样品制备与处理上的瑕疵等,可已经过Rosetta error model 的修正而提高数据的可信值;(2) 移除重复出现的探针数据;(3) 移除flagged 数据,并以中位数对荧光强度的数据进行标准化(Normalized) 的校正;(4) Pearson correlation coefficient (得到R 值) 目的在比较技术性重复下的相似性,R 值越高表示两芯片结果越近似。当R 值超过0.975,我们才将此次的实验结果视为可信,才继续后面的分析流程;(5) 将技术性重复芯片间的数据进行平均,取得一平均之后的数据;(6) 将实验组除以对照组的荧光表现强度差异数据,取对数值(log2 ratio) 进行计算。 找寻差异表现基因 实验组与对照组比较后的数据,最重要的就是要找出显著的差异表现基因,因为这些正是条件改变后而受到调控的目标基因,透过差异表现基因的加以分析,背后所隐藏的生物意义才能如拨云见日般的被发掘出来。 一般根据以下两种条件来筛选出差异表现基因:(i) 荧光表现强度差异达2 倍变化(fold change 增加2 倍或减少2倍) 的基因。而我们通常会取对数(log2) 来做fold change 数值的转换,所以看的是log2 ≧1 或≦-1 的差异表现基因;(ii) 显著值低于0.05 (p 值< 0.05) 的基因。当这两种条件都符合的情况下所交集出来的基因群,才是显著性高且稳定的差异表现基因。

1表达谱芯片

康成生物全基因组表达谱芯片技术服务 康成生物为您提供全基因组表达谱芯片技术服务,您只需要提供保存完好的组织或细胞标本,康成的芯片技术服务人员就可为您完成全部实验操作, 并提供完整的实验报告。根据您的需要您可选择不同厂家提供的全基因组表达谱芯片,包括Phalanx , Agilent和NimbleGen。 Phala nx 全基因组表达谱芯片 华联生物科技开发的标准规格的高密度基因组芯片(Phalanx Whole Genome Microarray)在开发过程中透过台湾工业技术研究院与英国 Sanger Institute等国外权威研究机构合作,从设计到生产再到实验的各个步骤中均执行严格标准,采用创新技术,广泛吸收现有芯片的优点,使得其生产的高密度基因组芯片获得了优异的国际品质。康成生物为您提供华联生物高密度基因组芯片及全程技术服务。 Phalanx Slide TM专利片基处理技术 华联生物的高密度基因组芯片,探针设计采用台湾工业技术研究院特有探针设计软件平台( Integrated Massive Probes Optimal Recognition Tool ,IMPORT )。在芯片的制作过程中,华联生物应用表面化学专利技术( PhalanxSlide TM Technology )对片基表面进行处理,使得片基与寡核苷酸探针的亲和活力更高,背景噪音更低,点阵的均一性更强。 高速的PhalanxArray探针布放技术 华联生物在点样过程中,采用非接触式基因探针布放技术,并以方阵基因探针高速布放技术(PhalanxArray Technology)之优势,大量生产。PhalanxArray 同时使用196个排列整齐的PhalanxJets,在一张芯片上布放39,200个均一的探针。PhalanxArray能够布放多达1,000,000张高 密度芯片,布放效率和产量是目前市场上一般芯片布放系统的100倍。 先进的PhalanxJet TM专利点样技术 华联生物开发出独特的PhalanxJet TM系统,结合其先进的非接触式基因探针布放技术和专利的片基处理技术,保证了探针布放的高重复性。尤其重要 的是,PhalanxJet TM系统可以最大限度的避免探针布放中可能的探针交叉污染。每个单独的PhalanxJet TM包含200个独立的点样针,分别对应不同 的探针,在布放时彼此独立,不会相互干扰。 严谨的检测探针和控制探针设计 华联生物的的高密度基因组芯片,寡核苷酸探针均经过严格筛选,能特异性检测数据库中的基因,灵敏度高,特异性强。人类基因组表达谱芯片,探针 信息主要基于数据库UniGene V.175版,同时整合了各大重要数据库信息。小鼠基因组表达谱芯片,探针信息基于数据库MEEBO (Mouse Exonic Evidence Based Oligonucleotide) 。 华联生物的高密度基因组芯片,实验控制探针设计严谨,包括GAM,OGAM,CGAMs,IHCs,ITQC,ETQC等等,并且还采用了多家公司已经设计好的芯片检测探针,如SpotReport Oligo Array 验证系统,Stratagene 的Alien Oligo Array 验证系统,以及Ambion 公司的ArrayControl Sense Oligo Spots系统等等,从而全面检测样品质量,杂交反应效果,标记反应效果等。使得芯片质量与实验效果得到双重保障。 生物芯片质量评估标准MAQC规范 依据美国食品药物管理局(FDA)与国际上主要生物芯片企业协商制定的生物芯片质量评估标准MAQC计划规范,华联全基因组表达谱芯片各项指标,

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里,相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计 奠定基础。 2.表达谱芯片的数据处理技术

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法 聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于

基因表达分析

基因表达分析 1、EST(Expressed Sequence Tag)表达序列标签(EST)分析 1、EST基本介绍 1、定义: EST是从已建好的cDNA库中随机取出一个克隆,进行5’端或3’端进行一轮单向自动测序,获得短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此,EST也能说明该组织中各基因的表达水平。 2、技术路线: 首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo(dT)作为引物进行RT-PCR 合成cDNA,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。

3、EST数据的优点和缺点: (1)相对于大规模基因组测序而言,EST测序更加快速和廉价。 (2)EST数据单向测序,质量比较低,经常出现相位的偏差。 (3)EST只是基因的一部分,而且序列里有载体序列。 (4)EST数据具有冗余性。 (5)EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比,更可能穿越家系与种的限制。因此,EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。具体说,EST的作用表现在:

Bioconductor基因芯片数据分析系列(一):数据的读取

Bioconductor基因芯片数据分析系列(一):R包中数据的读取 R软件的Bioconductor包是分析芯片数据的神器,今天小编打算推出芯片数据的系列教程。首先讲数据读取,以CLL数据包中的数据为例。 打开R studio。 #安装所需的R包以及CLL包,注意大小写,一般函数都是小写的 source("https://www.360docs.net/doc/62447873.html,/biocLite.R"); biocLite(“CLL”) 图1.显示已经安装好Bioconductor了,版本为3.4 #打开CLL包 library(CLL)

图2.显示打开CLL成功

图3.右侧栏内可见看到目前载入的程序包 data(CLLbatch) #调用RMA算法对数据预处理 CLLrma<-rma(CLLbatch) #读取处理后所有样品的基因表达值 e<- exprs(CLLrma) #查看数据 e 我们可以看到,CLL数据集中共有24个样品(CLL10.CEL, CLL11.CEL, CLL12.CEL, 等),此数据集的病人分为两组:稳定组和进展组,采用的设计为两组之间的对照试验(Control Test)。从上面的结果可知,Bioconductor具有强大的数据预处理能力和调用能力,仅仅用了6行代码就完成了数据的读取及预处理。

Bioconductor基因芯片数据分析系列(二):GEO下载数据CEL的读取首先得下载一个数据,读取GEO的CEL文件采用如下命令: 登陆pubmed,找到一个你感兴趣的数据库

在底下栏目下载CEL文件 打开R软件 #安装所需的R包以及CLL包,注意大小写,一般函数都是小写的 source("https://www.360docs.net/doc/62447873.html,/biocLite.R"); biocLite(“CLL”) >library(affy) >affybatch<- ReadAffy(celfile.path = "GSE36376_RAW") 请注意目录的路径,在window下,反斜杠‘\’要用转义字符“\\”表示。 然后可以使用RMA或者MAS5等方法对数据进行background.correction, normaliztion, pm.correct等等一系列处理。如果你一切用默认参数,则可以使用如下命令: >eset<- rma(affybatch),or eset<- mas5(affybatch) >exp<- exprs(eset) exp就是数字化的表达谱矩阵了 请注意,rma只使用匹配探针(PM)信号,exp数据已经进行log2处理。mas5综合考虑PM和错配探针(MM)信号,exp数据没有取对数。 下一期就得等到2017年春节期间啦,敬请期待~ 另外一种是直接利用GEO上面的GEO2R按钮里面的R script下载文件: # Version info: R 3.2.3, Biobase 2.30.0, GEOquery 2.40.0, limma 3.26.8 # R scripts generated Mon Dec 26 06:54:42 EST 2016 Server: https://www.360docs.net/doc/62447873.html, Query: acc=GSE36376&platform=GPL10558&type=txt&groups=&color s=&selection=XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXX&padj=fdr&logtransform=auto&col umns=ID&columns=adj.P.Val&columns=P.Value&columns=F&c

基因表达谱数据分析技术

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场 革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、 全局的观念去研究生命现象及其本质。还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等,因此对基因表达谱的研究具有重要的理论价值和应用意义。微阵列基因表达数据具有维数高、样本小、非线性的特点,这对一些传统的机器学习方法提出了新的挑战,对其数据的分析已成为生物信息学研究的焦点。 1基因表达数据采集 基因表达数据采集可分为三个步骤:微阵列设计、 图像分析和数据获取、过滤、标准化。基因芯片(gene chip ),简称为微阵列,就是指固着在载体上的高密度 DNA 微点阵,具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。mRNA (信使核糖核酸)的表达水平的获得是通过选取来自不同状态的样本(如正常组织与肿瘤组织、不同发育阶段组织,或用药之前与用药之后组织等,一种称为实验样本,另外一种称为参考样本),在逆转录过程中,实验样本和参考样本RNA (核糖核酸)分别用不同的红、绿荧光染料去标记,并将它们混合,与微阵列上的探针序列进行杂交,经适当的洗脱步骤与激光扫描仪对芯片进行扫描,获得对应于每种荧光的荧光强度图像,通过专用的图像分析软件,可获得微阵列上每个点的红、绿荧光强度(Cy5和Cy3),其比值(Cy5/Cy3)表示该基因在实验样本中的表达水平。在通常情况下,考虑Cy5和Cy3的数值时,还应考虑相应的背景数值,如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低,则该基因的表达水平无法确定。为了方便数据处理,常 孟令梅等:一种基于DCT 变换的图像认证算法文章编号:1005-1228(2010)06-0017-03 基因表达谱数据分析技术 刘 玲 (江苏财经职业技术学院,江苏淮安 223001) 摘 要:人类基因组计划的研究已进入后基因组时代,后基因组时代研究的焦点已经从测序转向功能研究,主要采用无监 督和有监督技术来分析基因表达谱和识别基因功能,通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示,说明生命功能在基因表达层面的展现,对目前基因表达谱数据分析技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。关键词:基因表达谱;分类;无监督;有监督;基因调控网络中图分类号:Q81;TP181 文献标识码:A Gene Expression Data Analysis LIU Ling (Jiangsu Vocational College of Finance &Econimics ,huai ’an 223001,China ) Abstract :As the work of sequencing the genome of the human has been fully finished,the post-genomic era has begun.Scientists are turning their focus toward identifying gene function from sequencing.Clustering technology,as one of the important tools of analyzing gene expression data and identifying gene function,has been used widely.Transcriptive regulatory networks are the global representation of multiple interactions between genes and their products ,which can help us understand the cell ’s function at the level of gene expression In this paper we discuss main clustering technology about gene expression data at present,analyze their advantages and disadvantages ,present the methods to solve the problems and given approaches to study gene expression data. Key words:gene expression profile ; classification ;gene regulatory network Vol.18No.6Dec 2010 第18卷第6期2010年12月 电脑与信息技术Computer and Information Technology 收稿日期: 2010-06-09项目资助: 江苏省淮安市科技发展计划项目(HAG08015)作者简介: 刘玲(1964-),山东胶州人,副教授,硕士,主要研究方向:生物信息。

相关文档
最新文档