基因表达数据分析的方法

基因表达数据分析的方法
基因表达数据分析的方法

基因表达数据分析的方法

摘要:基因表达数据的一个重要应用是给疾病样本分类,如鉴别白血病的类型。而对成千上万个基因表达进行分析,必产生总量巨大的数据集。近年来,支持向量机(SVM)的理论已经取得重大进展,其算法实现策略以及实际应用也发展迅速,开始成为克服“维数灾难”和“过学习”等传统困难的有力手段。利用这一技术分析与整理这些基因表达数据,已有效地解决了生物信息学上这一海量数据的瓶颈问题。本文就支持向量机在基因表达数据分析方面的算法和应用进行了介绍和分析。

关键词:生物信息学;基因表达数据;支持向量机

Methods of gene expression data analysis Abstract:Gene expression data has an important application to the classification of disease samples, such as identifying the types of leukemia. The analysis of thousands of gene expression data, will produce a tremendous amount of data sets. In recent years, support vector machine (SVM) theory that significant progress has been made towards its strategy and practical applications of algorithms has been developing rapidly and became overcome the "Dimension disaster" and "Over-study", a powerful means of the traditional difficulties. Using this technology analysis and collation of these gene expression data have been effectively solved bottleneck on the enormous bioinformatics data. This paper discusses the algorithms and application of support vector machine in gene expression data analysis.

Keywords:Bioinformatics ;Gene expression data; Support vector machine

目录

1引言 (1)

2生物技术的发展前景 (1)

2.1生物信息学的研究现状 (2)

2.2 基因芯片与基因表达数据 (2)

2.2.1 基因芯片 (3)

2.2.2 基因表达数据 (3)

3 基因表达数据分析的方法 (3)

3.1 支持向量机 (4)

3.1.1 支持向量分类 (4)

3.1.2 分类问题的识别算法 (4)

3.1.3 支持向量机模型 (6)

3.2 支持向量机在基因表达数据分析中的应用 (6)

3.2.1基因的选择:t统计法 (7)

3.2.2 降维方法:PCA和PLS (7)

3.2.3 分类结果和评价 (8)

4 结论 (12)

致谢 (13)

参考文献 (13)

基因表达数据分析的方法

数学与应用数学专业本科函授校内班李冠斌

指导教师:宋杰副教授

1 引言

随着人类基因组计划的完成,人们逐步关注不同人群、正常与疾病状态下DNA序列的变化。DNA序列的变化是有机体种属之间存在差异或种属内存在差异的根本原因,也是影响有机体正常状态和疾病状态的关键因素,对这些基因型差异进行定位、识别以及分类有着重要的定义,这是研究基因型变化与表型变化关系的第一步,是有针对性地预防和治疗疾病的基础。单核苷酸多态性(SNP)[1]是人类基因组中最常见的一种变化。

获得一个基因的序列之后,下一个问题自然就是:怎样利用已知的基因组序列来认识该基因产品的作用是什么?为了了解一个基因的功能,必须知道该基因在什么时候、什么地方表达,其表达所需要的环境条件是什么?也就是要知道该基因所对应的mRNA产生的时间和环境条件以及mRNA的数量。弄清基因在不同组织中、不同条件下及不同的发展阶段的转录丰度,对于解决上述问题是非常重要的。尽管mRNA不是基因的最终产物,但转录是基因法则的第一步,而且认识基因调节网络需要了解转录水平信息。

通过测定基因在某一器官中,不同条件下、不同的发展阶段和不同的组织中的转录水平,可以建立基因表达谱,用以描绘基因组中每一个基因的动态功能。基因表达矩阵是用来描述基因表达数据的矩阵,行代表基因,列代表样本(如:不同的组织,发展阶段和处理);每个格子的数字表示某一基因在某组织(发展阶段或某种处理)中的表达水平。建立这样的矩阵有助于给疾病样本分类,如鉴别肿瘤的类型,以达到最大疗效同时使毒性最低。

2 生物技术的发展前景

生物技术是20世纪末期,在现代分子生物学等生命科学的基础上,发展起来的一个新兴独立的技术领域,已被广泛应用于医疗保健、农业生产、食品生产、生物加工、资源开发利用、环境保护,对农牧业、制药业及其相关产业的发展有着深刻的影响,成为全球发展最快的高新技术之一。

2.1生物信息学的研究现状

生物信息学(Bioinformatics)是一门新兴的交叉学科。它所研究的材料是生物学的数据,而它进行研究所采用的方法。则是从各种计算技术衍生出来的[2]。

20世纪50年代,DNA双螺旋结构的阐明开创了分子生物学的时代。以生物学和医学为主要研究内容的生命科学研究从此进入了前所未有的高速发展的阶段。分子生物学和遗传学的文献积累到90年代中期约40多万篇,到2000年则增长至约50万篇,即在约5年间,增长了10万篇。与此同时,更为大量的数据已经不再以传统的文献形式发表了;这里,最为典型的是DNA序列的数据。至2001年初,国际数据库中记录的接近一千万条DNA序列的碱基数已超过110亿!事实上,现在这一数目已达500亿!在今天的一个大型的基因组测序中心,每天可进行十万个测序反应,产生出107的序列数据。自1999年6月开始进入大规模测序阶段,在短短的8个月内,测序能力上升了将近8倍。至2000年6月,这些中心在6个星期内的测序量就相当于一个人的基因组。也就是说,每周7天,每天24小时,每秒即可产生1000个碱基的数据!随着各国政府和工业界对此的重视,资金大量投入。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(National Center for Biotechnology Informatics,NCBI)、欧洲生物信息学研究所 (European Bioinformatic Institute,EBI)、日本信息生物学中心(Center for Information Biology,CIB)等。NCBI、EBI 和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。进而促使测序能力的高速上升,使得DNA序列数据每14个月增长一倍!

与上述生物学数据的海量特征相比,生物学数据的复杂特征更具有挑战性。生物学数据的复杂性一方面固然是源于生物体的结构和功能,以及生命活动过程本身的多样性和复杂性,另一方面则是由生物学研究的“社会学原因”所造成的。即生物学的实验数据,一般是在既无标准词法(semantics)、又无句法(syntax)的条件下生成的。这一情况必然进一步加剧生物学数据的复杂性。

生物学数据在海量和复杂性方面所提出的挑战是严峻的。

2.2 基因芯片与基因表达数据

十分幸运的是,在过去的二十多年里,电子计算机芯片对于数字处理的能力的增长基本符合Moore定律(指数增长)。如今的大型计算机的数据处理能力,

已经发展到每秒数千亿次乃至数万亿次计算的水平了。有了这一技术支持条件,基因组研究所产生的海量数据,才能够得以有效地加以管理和运行。

2.2.1 基因芯片

基因芯片(gene chip),又称DNA微阵列(DNA micro array),是由大量DNA 或寡核苷酸探针密集排列做形成的探针阵列,其工作的基本原理是通过杂交检测信息。基因芯片把大量已知序列探针集成在同一个基片上,经过标记的若干靶核酸序列通过与芯片特定位置上的探针杂交,便可根据碱基互补匹配的原理确定靶基因的序列,通过处理和分析基因芯片杂交检测图象,可以对生物细胞或组织中大量的基因信息进行分析[3]。因而,基因芯片能够在同一时间内分析大量的基因,实现生物基因信息的大规模检测。

2.2.2 基因表达数据

大部分的基因芯片的研究主要是监控基因表达水平,获得基因表达图谱。基因芯片技术是革命性的基因分析,这使得可以监测表达特定组织的基因和比较不同条件下组织的基因表达的等级成为可能,因而,基因表达的数据集已越来越丰富。

基因芯片实验将产生大量的数据,管理与分析这些数据是生物信息学所面临的一个挑战。数据管理的目的是为了更好地利用和共享数据,而数据分析的目标则是从大量的实验数据中提取隐含的生物学信息。特别是对基因表达数据在大规模数据集上进行分析、归纳,可以深入了解基因的功能,理解遗传网络,提供许多疾病发病机制的信息。

然而,计算与检测能力的提高并没有有效地解决生物学的数据问题。海量的数据通过分析与整理后所产生的有用信息(基因表达数据)量变得更巨大,而最大的挑战则是数据分析。基因芯片的表达监控实验产生大量的数据,在这些数据背后隐藏着丰富的信息,需要通过细致的数据分析揭示这些信息,得到有益的结果。但海量的、复杂的基因表达数据使得这一挑战变得不可能。

概括地讲,我们就需要一个好的数据挖掘方法从大型数据库或数据仓库中提取人们感兴趣的、事先未知的、有用的或潜在有用的信息。

3 基因表达数据分析的方法

就生物信息而言,挖掘生物分子数据库已经过二十多年的历程。以前生物信

息学的数据挖掘工作主要集中在序列信息方面,而现在通过分析处理基因表达数据挖掘基因功能信息已成为生物信息学研究的一个重点。

数据挖掘常用的方法有:统计分析、聚类分析、决策树、自组织映射、神经网络、遗传算法等[4]。在基因表达数据分析研究中,有一个基本假设,即基因在何时、何地表达的信息携带了关于基因功能的信息。这样,数据挖掘的重要应用就是按照基因表达图谱的相似性分类组织基因。这里主要介绍支持向量机方法。

3.1 支持向量机

支持向量机(support vector machine)是数据挖掘中的一项新技术,它是由Vapnik及其合作者发明。在20世纪90年代中后期得到了全面发展,现已成为机器学习和数据挖掘领域的标准工具。

支持向量机是机器学习领域若干标准技术的集成者。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术[5]。在若干挑战性的应用中,获得了目前为止最好的性能,开始成为克服“维数灾难”和“过学习”等传统困难的有力手段。

3.1.1 支持向量分类

支持向量分类的目的是开发有效计算的途径,从而能在高维特征向量空间中学习“好”的分类超平面(优化泛化界),而“有效计算”意味着算法能处理的样本数目在100000数量级上。泛化理性论清楚地说明了如何控制容量,因此通过控制超平面的间隔度量可以抑制拟合,而最优化理论提供了必要的数学技术来找到优化这些度量的超平面。而我们可以把这一类分类问题简化为一个最小化权重向量的范数问题。

3.1.2 分类问题的识别算法

统计学习理论是针对小样本情况研究统计学习规律的理论,其核心思想是通过控制学习机器的容量实现对推广能力的控制。

对于训练样本集(x1 , y1), …, (x L , y L) , x∈R n ,y∈{+1,-1} (L为样本数,n为输入维数),如果训练数据可以无误差地被划分,并且每一类数据距超平面距离最近的向量与超平面之间的距离最大,见图1,则称这个超平面为最优超平面[6]。

设最优超平面方程为(w ·x )+ b = 0,其中,“·”是向量点积符号。分类判别如下:

y i [(w ·x )+ b ] ≥1 ,i = 1,2,…,L (1)

在式(1)中,使等号成立的向量称为支持向量(support vector ,SV )。

在2类样本线性可分情况下,求解基于最优超平面的决策数,可以看成解二次型规划问题,即对于给定训练样本,寻找权值w 和偏移b 的最优值,使得权值代价函数Φ(w )最小:

min Φ(w )= 0.5‖w ‖2 (2)

并满足约束条件(1)。

引入拉格朗日乘子 ≥α0 ,i = 1,2,…,L 根据Kuhn-Tucker 条件,问题可转化为在约束条件(3)下:

01=∑=i L

i i y α ,i α≥0 ,i = 1,2,…,L (3) 令泛函w (α)最大:

w (α)= ∑=L

i i 1α-21)(1,j i j i j L j i i x x y y ?∑=αα (4) 设,,(02010ααα=…,)0L α为这个二次型优化问题的解,

)))1(())1(((5.0000-?+?=**x w x w b (5)

式中:)1(*x 为属于第1类的某个支持向量,)1(-*x 为属于第2类的某个支持向量,则基于最优超平面的分类规划即为指示函数f (x ):

??

????-?=∑00svm )(sgn )(b x x y x f i i i α (6)

3.1.3 支持向量机模型

支持向量机的实现基于如下思想[7]:通过某种事先选择的非线性影射,将输入向量x 映射到一个高维特征空间Z ,在这个高维空间中构造最优分类超平面,其过程见图2。

特征空间的维数可能会很高,例如要在一个200维空间中构造一个4或5阶多项式,需要构造一个超过10亿维的特征空间。支持向量机采用内积回旋技术较好地解决这一“维数灾难”问题。

在Hilbert 空间中,内积回旋是指:),()(i i x x K z z =?,其中,Z 是输入空间中的向量x 在特征空间中的象。根据Hilbert-Schmidt 理论,K (x ,x i )可以是满足一定条件的任意对称函数。为了在特征空间Z 中构造最优分类超平面,并不需要以显示形式来考虑特征空间,只需在输入空间中用非线性决策函数:

??

????-=∑b x x K y x f i i i ),(sgn )(svm α (7) 它等价于在高维特征空间中)(,),(1x x N Φ?Φ的线性决策函数(K 是这个特征空间中内积的一种回旋)。在SVM 中构造决策函数式(7)的复杂程度取决于支持向量的数目,而不是特征空间的维数。

支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变化到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。

3.2 支持向量机在基因表达数据分析中的应用

目前,关于表达数据分析方法的研究仍处于起步阶段。但随着技术的成熟和试验控制标准的引入,学界中已出现了多种有针对性的SVM 软件,如Proximal SVM (PSVM )对那些预期协同控制的功能分类能够提供较为准确的预测,并能在训练集(Leave-out-one 交叉验证)分类中达到100%的准确率,而在测验集中

也能达到不低于79.63%的准确率。但本文的重点不在于软件的应用,而在于数学算法在其中的渗透,因此本文只讨论应用方法。

为了能取得好的分类预报结果,在使用分类方法前使用降维方法,把原来的P 维空间降至K 维空间,并且满足K

3.2.1基因的选择:t 统计法

由于基因表达数据通常是测定几十个样本中成千上万个基因的表达值,得到的数据矩阵通常是变量数(基因数)为7000~ 8000,而样本数最多也只能有70~80个。所以直接对这么庞大的矩阵使用降维方法(PCA 或PLS )来处理不仅计算量大,而且效果也并不理想。所以,我们首先使用t 统计来对原始基因进行筛选。对于一个两类的问题,t 统计法的表达式如(8)所示[8]:

2221212

1N s N s x x t +-= (8)

其中,1s 和2s 分别表示两类,为类的均值,N 为类的大小,s 为类的方差。然后,对每个基因计算t 值,按t 值大小顺序排列。最后取出*p 基因,其中2*p 个基因是t 值排在最前面的(对应此基因在类1中有高表达值),而另外2*p 个基因是t 值排在最后面的(对应此基因在类2中有高表达值)。

3.2.2 降维方法:PCA 和PLS

主成分分析的中心目的是将数据降维,以排除众多信息共存中相互重叠的信息,是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量数据结构特征而不丢失信息。新变量互不相关,即正交[9]。在数学上是通过求x 的协方差矩阵的特征向量和特征值来找到低维空间的各个方向,如式(9)所示:

i i x i b b λ=∑ (9)

式中∑x x 为协方差矩阵,i b 为特征向量,i λ为特征向量所对应的特征值。 偏最小二乘与主成分分析很相似,其主要差别在于用于描述变量Y 中因子的同时也用于描述变量X 。为了实现这一点,在数学上是以矩阵Y 的列去计算矩阵X 的因子,与此同时,矩阵Y 的因子则由矩阵X 的列去预测。其数学模型为式(10)

和式(11):

X = TP + E (10)

Y = UQ + F (11)

其中,T 和U 的矩阵元分别为X 和Y 的得分,而P 和Q 的矩阵元分别为X 和Y 的载荷,E 和F 分别为运用偏最小二乘模型去拟合X 和Y 所引进的误差。

在理想的情况下,X 中的误差的来源与Y 中的误差来源完全相同,即影响X 与Y 的因素相同。但实际上,X 中的误差与Y 中的误差并不相同。因而,u t ≠,但当两个矩阵同时用于确定因子时,则X 和Y 的因子具有如下式(12)的关系:

u = bt + e (12)

式中b 所表征的即u 和t 间的内在关系。

3.2.3 分类结果和评价

本预测实验使用re-randomozation 方法来评价分类结果和方法的稳定性,这种方法具体有以下步骤:

(1)随机从N 个样本数据集中抽取1N 个样本数据作为训练集,这1N 个样本将用来建模,剩余的12N N N -=个样本将作为测试集用来验证模型。

(2)使用训练集建模,并使用Leave-out-one 对模型进行交叉验证。

(3)使用剩余样本对模型进行验证,这可以有效地防止过拟合现象。 (4)为了进一步防止过拟合现象,重复1-3步来验证模型。

这里先引用同济大学俞振超副教授等在这应用方面的一个数据。其使用的数据集是Golub 等在1999年发表的急性白血病(Acute Leukemia )数据集[10]。原始的训练集包括38个骨髓样本,其中27个样本是急性淋巴细胞白血病(Acute Lymphoblastic Leukemia ,ALL )和11个是急性骨髓性白血病(Acute Myeloid Leukemia ,AML )样本,这些样本均来自成人。测试集包括24个骨髓样本和10个血液样本,它们取自成人和孩子(20个ALL 和14个AML )。Golub 等分别对每个样本测试了6871个基因的表达值。而且,训练集是一个6871行38列的数据矩阵,测试集是6871行34列的数据矩阵。

首先使用Golub 等使用的方法,得到一个没有负值的数据矩阵。然后,对数据取对数,中心化和归一化。在数据预处理后,我们对训练集选择基因分别取*p =50,100,500,1000和1500。然后使用PCA 和PLS 降维,再用SVM 分别

对各种情况进行数据处理,其中PCA 和PLS 均取15个主成分,SVM 权重均取1:3。对训练集使用Leave-out-one 交叉验证,对测试集进行预报,结果如表1所示:

表1 急性白血病数据分类结果

最后我们利用re-randomozation 方法检验模型和分类结果的稳定性,分别取1N 和2N 均为36,随机做了100次,结果如表2所示:

表2 重复随机学习的急性白血病数据分类结果

从表2我们可以看到,无论是对训练集的交叉验证,还是对测试集的预报,PLS 均优于PCA ,但PCA 的总体预报效果也不错,两者在处理急性白血病数据时效果相差不大。这也是因为我们在选择基因时选择了t 统计值最大和最小的,所以被选择的基因通常在类1中表达高时,在类2中必定表达比较低,反之亦然。 然而降维方法(PLS 和PCA )和SVM 均有固定的标准算法和选值,为了测试此应用的通用性,我选择了另一白血病(Leukemia )数据集(此癌症基因表达分类数据由宋杰副教授提供)。该数据集包含72 个骨髓样本,其中包括47例淋巴性白血病(ALL )样本和25 例急性骨髓性白血病(AML )样本,基因数是7129。此数据包含A 和d 两矩阵(A 是数据,d 是类别),其中A 是一个72行7129列的数据矩阵,d 是一个72行1列的数据矩阵,两矩阵均为双字节的Matlab 数据文

件。数据处理后,在选择*p 个基因时不再提取t 值的最大和最小值,而是选取比较接近这些值的部分即最大和最小部分中随机选取。由此,我们仍然对训练集选择基因分别取*p =50,100,500,1000和1500,其他训练环境均不改变。我们先从72个样本中随机选取1N =38作为训练集,剩下的2N =34作为测试集。对测试集进行预报,结果如表3所示:

表3 白血病数据分类结果

由表3我们看到预报结果仍然理想,而且PCA 的预报效果有所提高,并优于PLS 。同样利用re-randomozation 方法检验模型和分类结果的稳定性,分别取1N 和2N 均为36,再随机做了100次,结果如表4所示:

表4 重复随机学习的白血病数据分类结果

由表4我们可以看到PLS 依然优于PCA ,但PCA 的预报效果有所提升。尽管我们改变了预测的对象,而且对象的构成和规格大不相同,但很幸运地,我们从表3和表4可以发现,在改变了基因表达数据集后,预报结果的准确率基本没有发生太大的变化,甚至在最大和最小部分内改变了所选择的t 统计值,准确率依然没有发生质的改变。这大大地证明了此方法的通用性和广泛性。说明了这一分类方法基本适合各种基因表达分类数据,并且在预报过程中对所选基数的精度依赖性不强(即在最优范围内的取值都能作出好的预报效果),使得这一应用方法

能够广泛地被使用。因为不需要依赖高精度的计算和严密的测试,从而易于被各类型人员所接受和使用。当然科学是严紧的,基因表达数据的分析必须遵守其标准和规律。

在上面的两个预报中,我们都选择了t统计值的最大和最小部分,这样PLS 和PCA在处理的数据本身已有很强的类分辨能力,这相当于在使用PCA降维时也用到了已知的分类信息,因此,使用PLS和PCA对最终的分类效果差别不大。为了检验出PLS和PCA在效果上的差别和t统计值对分类效果的影响,我们在选择*

p个基因时不再取t值最大和最小部分的基因,而是从中间向两边取,例如,当*p=50时,首先找到t值排在最中间的基因,然后向前后分别取25个。为了更好的对比预报结果,我们依然取同济大学俞振超副教授等应用的数据作为预报结果(即预报对象为Golub等在1999年发表的急性白血病数据集)。我们对38个样本组成的训练集分别取*p=50,100,500,1000,1500。交叉验证和预报结果如表5所示:

表5 改变选择基因标准后急性白血病数据分类结果

从表5中可以清楚的看到,由于基因选择使用了新的标准使得PLS和PCA处理数据本身对类的分辨能力很弱,也就是数据本身并没有反映样本的分类信息,所以使用PCA对数据处理时它只是找到了一些数据本身方差很大的方向,它与分类信息关系不大,因而在做交叉验证时结果不是很好,也就是显而易见的;虽然PLS处理的数据本身对类的分辨能力很弱,但PLS在处理数据时用到了样本的分类信息,因而,用PLS找到的方法是考虑了样本分类的信息方向,这一点在训练交叉验证中可以看到。用SVM对PLS建立的模型明显优于对PCA建立的模型,从而在预报测试集样本时也明显优于PCA。表5的结果也明确的展现了t统计法在其中的地位。

为了验证模型和结果的稳定性,我们依旧利用re-randomozation 方法来验证,分别取1N 和2N 均为36,再随机做了100次,结果如表6所示:

表6 改变选择基因标准后重复随机学习的急性白血病数据分类结果

从表6的结果中可以看到模型和结果比较稳定,而且同样反映出PLS 明显优于PCA 。

4 结论

由于基因表达数据具有变量数(基因数)远大于样本数的特点,本文选择了用t 统计法选择基因,并使用降维方法处理数据,最后用SVM 进行建模预报。本文就支持向量机在基因表达数据分析方面的算法和应用进行了介绍和分析,并突出了t 统计法在当中的地位和比较了PLS 和PCA 两种降维方法的效果,在文章里给出的是PLS 的效果优于PCA ,但在t 统计法的最优取值范围内两者的处理效果均为较好。

目前,关于表达数据分析方法的研究仍处于起步阶段。例如,目前的相似性检测方法多适用于特定的情况下,广泛适用的相似检验方法仍待系统地研究开发。随着技术的更加成熟和试验控制标准的引入,以及广泛接受的数据标准化和质量控制方法的形成,系统地描绘基因在不同的器官、组织、发展阶段和试验条件下的表达谱是可能的。描绘各种化合物的表达谱,将有助于发现它们可能存在的毒性机制和细胞过程,会产生各种不同的标记。这个过程类似系统基因组测序。可靠地搜索相似的表达谱或发现相关表达谱或发现相关表达谱的共同标记依赖于可靠的算法,所以数学在其中的渗透和应用还有很大的空间,要达到算法的完善,这还有很长的路要走。

致谢

本文是在导师宋杰副教授的悉心指导下完成的。宋老师高尚的品格、渊博的知识、严谨的作风使我受益匪浅,在此谨向宋老师致以由衷的敬意、真诚的感谢和美好的祝愿。

衷心感谢每一位教导过我的老师,是他们使我拥有良好的专业基础,因而有能力完成这一毕业论文。

衷心感谢我身边的每一位好友。

最后我要感谢我的父母和亲人的支持和鼓励。

参考文献

[1]赵国屏等. 生物信息学[M]. 北京: 科学出版社, 2002.4.

[2]陈润生.生物信息学[J]. 生物物理学报,1999,15(1): 6-12.

[3]Ramsay R. DNA chips: State-of-the-art[J]. Nature Biotechnology,

1998.16:40-44.

[4]Michael PSB et al. Knowledge-based analysis of micro array gene expression

date by using support vector machine[J]. PNAS, 2000.97:262-267.

[5](英)克里斯特安尼(Cristianini N)等,支持向量机导论[M]. 李国正,王猛,曾华军译.

北京: 电子工业出版社, 2004.3.

[6]史忠植. 知识发现[M]. 北京:清华大学出版社,2002.

[7]Vladimir NV. 统计学习理论的本质[M]. 张学工译. 北京:清华大学出版社,2000.

[8]Nguyen DV,Rocke DM. Tumor classification by partial least squares using

microarray gene expression date[J]. Bioinformatics, 2002.18:39-50.

[9]许禄. 化学计量学方法[M]. 北京:科学出版社, 1995.

[10]Golub TR,Slonim D,T amayo P,Huard C,Gaasenbeed M,Mesirov J,Coller

H,Loh M,Downing J,Caligiuri MA,Bloomfield CD and Lander ES. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J].Science, 1999.286: 531-537.

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法(DGE)----基于新一代测序技术的 技术路线 该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量;通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下: 1、样品准备: a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品; 2、样品制备(见图1-1): a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段,用来标记该基因,称为TAG; b) 在TAG片段两端连接上用于测序的接头引物; 3、上机测序: a) 通过高通量测序每个样品可以得到至少250万条TAG序列; 4、基本信息分析: a) 对原始数据进行基本处理,得到高质量的TAG序列; b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量; c) 对TAG进行注释,建立TAG和基因的对应关系; d) 基因在正义链和反义链上表达量间的关系; e) 其它统计分析; 5、高级信息分析: a) 基因在样品间差异表达分析; b) 库容量饱和度分析;

c) 其它分析; 测序优势 利用高通量测序进行表达谱研究的优势很明显,具体如下: 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300 万~600万个表达标签。

(生物科技行业)CT法分析基因相对表达量

利用实时定量PCR和2-△△CT法分析基因相对表达量METHODS 25, 402–408 (2001) Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2-△△CT Method Kenneth J. Livak* and Thomas D. Schmittgen?,1 *Applied Biosystems, Foster City, California 94404; and ? Department of Pharmaceutical Sciences, College of Pharmacy, Washington State University, Pullman, Washington 99164-6534 摘要: 现在最常用的两种分析实时定量PCR 实验数据的方法是绝对定量和相对定量。绝对定量通过标准曲线计算起始模板的拷贝数;相对定量方法则是比较经过处理的样品和未经处理的样品目标转录本之间的表达差异。2-△△CT方法是实时定量PCR 实验中分析基因表达相对变化的一种简便方法,即相对定量的一种简便方法。本文介绍了该方法的推导,假设及其应用。另外,在本文中我们还介绍了两种2-△△CT衍生方法的推导和应用,它们在实时定量 PCR 数据分析中可能会被用到。 关键词:反转录PCR 定量PCR 相对定量实时PCR Taqman 反转录 PCR (RT-PCR )是基因表达定量非常有用的一种方法(1 - 3 )。实时PCR 技术和RT-PCR 的结合产生了反转录定量 PCR 技术(4 ,5 )。实时定量PCR 的数据分析方法有两种:绝对定量和相对定量。绝对定量一般通过定量标准曲线来确定我们所感兴趣的转录本的拷贝数;相对定量方法则是用来确定经过不同处理的样品目标转录本之间的表达差异或是目标转录本在不同时相的表达差异。 绝对定量通常在需要确定转录本绝对拷贝数的条件下使用。通过实时 PCR 进行绝对定量已有多篇报道(6 - 9 ),包括已发表的两篇研究论文(10,11 )。在有些情况下,并不需要对转录本进行绝对定量,只需要给出相对基因表达差异即可。显然,我们说 X 基因在经过某种处理後表达量增加 2.5 倍比说该基因的表达从1000 拷贝/ 细胞增加到2500 拷贝/ 细胞更加直观。 用实时PCR 对基因表达进行相对定量分析需要特殊的公式、假设以及对这些假设的验证。2-△△CT方法可用于定量PCR 实验来计算基因表达的相对变化:2-△△CT 公式的推导,以及实验设计,有效性评估在Applied Biosystems User Bulletin

基因表达谱测序

基因表达谱测序 背景介绍 基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序,获得10M读长为49nt的原始reads,每一个reads可以对应到相应的转录本,从而研究基因的表达差异情况。与转录组测序相比,基因表达谱分析要求的读长更短,测序通量更小,仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点,能很好的替代以往的数字化表达谱分析。 技术路线

生物信息学分析 送样要求 样品要求 1. 所需Total RNA 的量均不少于 20μg/文库,Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中,具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料,样品质量需大于2g ; 3. 如提供实验材料为植物样品,样品质量需大于4g ; 4. 如提供实验材料为培养细胞,请提供1×107培养好的细胞; 5. 如提供实验材料为血液样品,请提供≥2ml 的样品。 我们强烈建议在送样的同时客户做好备份,以备后续实验之用。 样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间,RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰(其

大小决定于用于抽提RNA的物种类型),28S的密度大约是18S的2倍;Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染,如有污染请去蛋白并进行DNase I处理。 请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片,并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。 样品采集 为了保证提取RNA的完整性,确保后续实验的顺利进行,请务必确保样品的新鲜,对于如何确保样品的新鲜针对不同的样品获取材料的方法如下: 1. 动物组织:从活体上迅速的取下组织(切成黄豆粒大小的块状),每切成一个黄豆粒大小的块状立即放入液氮中,重复上述操作,直至足够提取总RNA的量;准备一个50ml的离心管,做相应的标记(样品名称、编号、客户姓名、时间),最好既在管盖上做好标记,也在管壁上做好相应的标记,先放入液氮中预冷2-3min,拿出离心管(离心管的下部分还是保持在液氮中),打开离心管的盖子,将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织: (1)如所采集的是果实、麦穗等体积偏大的样品,收集样品请参照1.动物组织取样方法;(2)如采集的是叶片等体积偏小的样品,请尽量采集嫩叶、幼芽等,每采集一片叶片立即放入液氮中,直至足够提取总RNA的量,后续操作请参照动物组织的采集。 (3)如是植物的花,在采集花骨朵的时候请尽量不要采集到花萼、叶片等,每采集一个花骨朵请立即放入液氮中,直至足够提取总RNA的量;后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体,请取500μl的菌液于1.5ml离心管中,离心去上清,剩余菌丝体放入液氮或干冰中,请提供不少于5管的菌丝体。 样品运输 从液氮中取出准备好的样品,请立即放入干冰中,并用干冰掩埋好样品。请填写完整订单,放入自封袋中与样品一起邮寄。为防止RNA的降解,请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。 如是特殊样品,关于送样量和保存问题请与我们联系沟通,以便双方共同协商解决。 提供结果 根据客户需求,提供不同深度的信息分析结果。

第24章 基因表达谱分析的生物信息学方法思考与练习参考答案

第24章 基因表达谱分析的生物信息学方法 思考与练习参考答案 1.据教材表24–3提供的数据信息可以构建一棵决策树,请利用最大信息增益方法写出如何选出根结点中用于分割的特征。 教材表24-3 天气情况与是否去打球的关系数据集 注:该信息表示根据天气情况决定是否出去打球,数据集共包含14个样本,两个类别信息(Yes 、No ),每个样本包含3 个特征信息(Outlook 、Temp 、Windy )。 解:计算用每一个特征进行分割时所获取的信息增益,取信息增益最大的那个特征作为分割特征,以Outlook 特征为例计算(参照练习图24-1) 练习图24-1 同Outlook 特征进行分割所获得的信息增益 )14 9 log 149145 log 145()(220+-=S H

)5 2 log 5253 log 53()(2211+-=S H 0)4 4 log 44()(212=-=S H )52 log 5253 log 53()(2213+-=S H )(14 5 )(144)(145)(1312111S H S H S H S H ++= infor-gain (Outlook )=)()(10S H S H - 同理,计算其他两个特征的信息增益,最后从三个值中选取最大的一个对应的特征作为根结点的分割特征。 2.请从https://www.360docs.net/doc/de12107184.html,/上下载一原始未经标准化的表达谱数据,并对该数据进行如下分析: (1)对数据进行标准化处理。 (2)对数据进行分类分析。 (3)分别对基因和样本进行聚类分析。 (4)选择特征基因。 (答案略)

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签:杂谈分类:生物信息 摘要 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析 吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.360docs.net/doc/de12107184.html,/1009-3079/14/68.asp 0 引言 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里,相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计 奠定基础。 2.表达谱芯片的数据处理技术

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法 聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于

基因表达分析

基因表达分析 1、EST(Expressed Sequence Tag)表达序列标签(EST)分析 1、EST基本介绍 1、定义: EST是从已建好的cDNA库中随机取出一个克隆,进行5’端或3’端进行一轮单向自动测序,获得短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此,EST也能说明该组织中各基因的表达水平。 2、技术路线: 首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo(dT)作为引物进行RT-PCR 合成cDNA,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。

3、EST数据的优点和缺点: (1)相对于大规模基因组测序而言,EST测序更加快速和廉价。 (2)EST数据单向测序,质量比较低,经常出现相位的偏差。 (3)EST只是基因的一部分,而且序列里有载体序列。 (4)EST数据具有冗余性。 (5)EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比,更可能穿越家系与种的限制。因此,EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。具体说,EST的作用表现在:

表达谱

对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。 基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。 聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。 8.4.1 相似性度量函数 对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近;反之,则表达模式差异大。 常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。假设两个基因表达谱分别为X = (x 1 ,x 2 ,…,x m )和Y = (y 1 ,y 2 ,…, y m ) , 距离函数 d( X ,Y ) 必须满足如下条件: d( X ,Y ) ≧ 0 d( X ,Y ) = d( Y ,X ) d( X ,Y ) = 0 if X = Y

基因表达谱数据分析技术

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场 革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、 全局的观念去研究生命现象及其本质。还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等,因此对基因表达谱的研究具有重要的理论价值和应用意义。微阵列基因表达数据具有维数高、样本小、非线性的特点,这对一些传统的机器学习方法提出了新的挑战,对其数据的分析已成为生物信息学研究的焦点。 1基因表达数据采集 基因表达数据采集可分为三个步骤:微阵列设计、 图像分析和数据获取、过滤、标准化。基因芯片(gene chip ),简称为微阵列,就是指固着在载体上的高密度 DNA 微点阵,具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。mRNA (信使核糖核酸)的表达水平的获得是通过选取来自不同状态的样本(如正常组织与肿瘤组织、不同发育阶段组织,或用药之前与用药之后组织等,一种称为实验样本,另外一种称为参考样本),在逆转录过程中,实验样本和参考样本RNA (核糖核酸)分别用不同的红、绿荧光染料去标记,并将它们混合,与微阵列上的探针序列进行杂交,经适当的洗脱步骤与激光扫描仪对芯片进行扫描,获得对应于每种荧光的荧光强度图像,通过专用的图像分析软件,可获得微阵列上每个点的红、绿荧光强度(Cy5和Cy3),其比值(Cy5/Cy3)表示该基因在实验样本中的表达水平。在通常情况下,考虑Cy5和Cy3的数值时,还应考虑相应的背景数值,如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低,则该基因的表达水平无法确定。为了方便数据处理,常 孟令梅等:一种基于DCT 变换的图像认证算法文章编号:1005-1228(2010)06-0017-03 基因表达谱数据分析技术 刘 玲 (江苏财经职业技术学院,江苏淮安 223001) 摘 要:人类基因组计划的研究已进入后基因组时代,后基因组时代研究的焦点已经从测序转向功能研究,主要采用无监 督和有监督技术来分析基因表达谱和识别基因功能,通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示,说明生命功能在基因表达层面的展现,对目前基因表达谱数据分析技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。关键词:基因表达谱;分类;无监督;有监督;基因调控网络中图分类号:Q81;TP181 文献标识码:A Gene Expression Data Analysis LIU Ling (Jiangsu Vocational College of Finance &Econimics ,huai ’an 223001,China ) Abstract :As the work of sequencing the genome of the human has been fully finished,the post-genomic era has begun.Scientists are turning their focus toward identifying gene function from sequencing.Clustering technology,as one of the important tools of analyzing gene expression data and identifying gene function,has been used widely.Transcriptive regulatory networks are the global representation of multiple interactions between genes and their products ,which can help us understand the cell ’s function at the level of gene expression In this paper we discuss main clustering technology about gene expression data at present,analyze their advantages and disadvantages ,present the methods to solve the problems and given approaches to study gene expression data. Key words:gene expression profile ; classification ;gene regulatory network Vol.18No.6Dec 2010 第18卷第6期2010年12月 电脑与信息技术Computer and Information Technology 收稿日期: 2010-06-09项目资助: 江苏省淮安市科技发展计划项目(HAG08015)作者简介: 刘玲(1964-),山东胶州人,副教授,硕士,主要研究方向:生物信息。

基因表达数据在数据库中的预处理(1)

数据库与信息管理本栏目责任编辑:闻翔军Computer Knowledge and Technology 电脑知识与技术第5卷第16期(2009年6月)基因表达数据在数据库中的预处理 刘春菊,刘自伟,姜遥 (西南科技大学计算机科学与技术学院,四川绵阳621010) 摘要:存在不完整的、不一致的和含噪声的数据是现实世界大型的数据库或数据仓库的共同特点,基因表达数据也存在这种情况。因此,在数据挖掘之前对基因表达数据进行预处理非常必要。 关键词:基因表达;数据库;数据预处理 中图分类号:TP274文献标识码:A 文章编号:1009-3044(2009)16-4101-02 Gene Expression Data Pre-processing in the Database LIU Chun-ju,LIU Zi-wei,JIANG Yao (College of Computer Science &Technology,Southwest University of Science &Technology,Mianyang 621010,China) Abstract:The existence of incomplete,inconsistent and with the noise of the data in large-scale real-world database or data warehouse is a common feature.Gene expression data also has such situation.Therefore,pre-processing is necessary before data mining. Key words:gene expression,database,data pre-processing 1引言 在数据挖掘中,数据预处理就是在对数据进行知识发现前,先对将要研究的原始数据进行必要的清洗、集成、变换和约简等一系列的处理工作,使之达到挖掘算法进行知识获取研究所要求的最低规范和标准[1]。 2数据来源 实验数据来源于美国国立生物技术信息中心,网址:https://www.360docs.net/doc/de12107184.html,/sites/entrez 。数据主要包括正常组织的基因表达值,患乳腺癌的基因表达值。每一组值来源于二个表。其一,Table1,包括探针ID 号及测得的基因表达值;其二,Table2,主要包括探针ID 号,基因的制作日期、基因名、基因符号、基因描述等共15个属性。 3数据集成 数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题[2]。 由于实验数据在二个表中,需要进行多表连接操作。根据二个表中都有相同的探针ID 号,因此,可以采用等值连接将二个表集成为一个表,并将集成后的表命名为Table_Integration 如: SELECT Table1.*,Table2.*into Table_Integration FROM Table1,Table2 WHERE Table1.ID=Table2.ID 4数据清理 当属性出现缺少值时,有忽略元组、填充最可能的值等补充方法。在缺少类标号且元组有多个属性缺少值时通常采用忽略元组法,填充最可能值的方法比较常用,它能够通过现存数据的最多信息推测出相对准确的缺少值。噪音数据是由一种随机错误或被测变量的差变引起的,可采用分箱、丛聚、人机交互检查、回归等数据平滑技术去除。对于数据集成或有些事务记录中数据可能存在的不一致性,可以采用附加材料给予更正。知识工程工具也可以用来检测违反数据限制的数据。 由于探针与基因并不是一一对应的关系,因此,集成的表中出现多个ID 号对应同一个基因,此时需要将这种多对一的关系转换为一对一的关系,这里采用平均值法和分组法来解决,对每一个基因进行分组,同一基因的值进行平均化[3],并将转换后的数据保存在Table_Clean 中,如: SELECT gene,avg(value)INTO Table_Clean FROM Table_Integration group by gene 由于Table2中有些ID 号并没有给出相应的基因名,因此,在Table_Clean 中出现了有些样本有对应的基因表达值却没有对应的基因名,此时需要对基因为空的样本进行处理,由于此处涉及到很深生物学知识,而且这些空缺基因很难对应,此处采取忽略元组策略[4],如: DELETE FROM Table_Clean WHERE gene IS NULL 5数据归约 由于实验设备容量的限制,所有基因芯片杂交实验不能同时在一个实验炉中进行,而多次试验时炉内的温度、液体密度等微环收稿日期:2009-05-06 基金项目:国家自然科学基金资助项目(10676029) ISSN 1009-3044Computer Knowledge and Technology 电脑知识与技术Vol.5,No.16,June 2009,pp.4101-4102E-mail:jslt@https://www.360docs.net/doc/de12107184.html, https://www.360docs.net/doc/de12107184.html, Tel:+86-551-569096356909644101

基因表达谱公共数据库

基因表达谱公共数据库(2010-04-17 11:17:21)转载▼ 标签:教育分类:系统生物学 gene expression profiles: NCBI: GEO EBI ArrayExpress和SMD 功能基因组相关信息分析 功能基因组学是后基因组研究的核心内容,它强调发展和应用整体的(基因组水平或系统水平)实验方法分析基因组序列信息阐明基因功能,特点是采用高通量的实验方法结合的大规模数据统计计算方法进行研究,基本策略是从研究单一基因或蛋白上升到从系统角度一次研究所有基因或蛋白。随着功能基因组实验研究的深入,大量的数据不断涌现,生物信息学将在功能基因组学研究中的扮演关键角色。 7.1 大规模基因表达谱分析 随着人类基因组测序逐渐接近完成,科学家发现即使获得了完整基因图谱,对了解生命活动还有很大距离。我们从基因图谱不知道基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的,等一系列问题。这些问题的实质是不了解按照特定的时间、空间进行的基因表达谱。获得基因表达的信息是比DNA 序列测定艰巨得多的任务,因为基因表达是依赖于许多因素的动态过程。 国际上在核酸和蛋白质两个层次上发展了分析基因表达谱的新技术,即核酸层次上的cDNA 芯片(cDNA微阵列)技术和蛋白质层次上的二维凝胶电泳和测序质谱技术,即蛋白质组(proteome)技术。DNA芯片技术能够在基因组水平分析基因表达,检测许多基因的转录水平。对大规模基因表达谱的分析存在新的方法学问题,它们从数学角度看不是简单的NP问题、动力系统问题或不确定性问题,而是基因表达网络,因此需要发展新的方法和工具。同时,在芯片等的设计上,也需要从理论到软件的支持 下面主要围绕cDNA芯片相关的数据管理和分析问题进行讨论。 1.实验室信息管理系统 cDNA芯片实验的目的是要在一次实验中同时得到成千上万个基因的表达行为,这样的实验需要有管理实验前后大量数据的能力。设计构建检测基因表达的微阵列需要获得生物体基因的所有序列、注释和克隆。在杂交反应和扫描后,收集到的数据必须以某种方式保存,以便很容易进行图象处理和统计及生物学分析。因此需要建立与大规模高通量实验方法相匹配的实验材料和信息管理系统。 该系统除用来定位和跟踪材料来源(例如,克隆,微阵列,探针)外,还必须管理实验前后大量的数据。此外,还包括实验室设备软件系统,如斯坦福大学Brown实验室免费的控制自制机器点样设备软件(https://www.360docs.net/doc/de12107184.html,/pbrown) 芯片图象处理已有各种软件工具,基本的功能是将不同信号强度点的图像转换为每个点的强度数值。这方面没有一致的方法,许多研究小组仍在开发这类软件。图象分析软件的质量对精确解释玻片和膜上的信号非常关键。NHGRI的Yidong Chen开发了一种复杂的图象分析程序,deArray,可免费获取。 美国国立卫生研究院人类基因组研究所(NHGRI)开发的免费的cDNA芯片数据管理分析系统ArrayDB,涉及微阵列的设计、实验室信息管理、实验结果的处理和解释。下面加以简单介绍。 ArrayDB ArrayDB是用来储存、查询和分析cDNA芯片实验信息的实验室管理系统。ArrayDB整合了cDNA芯片实验中的多个方面,包括数据管理、用户介面、机器自动点样、扫描和图象处理。

基因表达谱分析技术

基因表达谱分析技术 1微阵列技术(microarray) 这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”(cDNA、ESTs或基因特异的寡核苷酸),并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因,甚至整个基因组的基因表达进行对比分析。包括cDNA芯片(cDNA microarray)和DNA芯片(DNA chips)。 cDNA芯片使用的载体可以是尼龙膜,也可以是玻片。当使用尼龙膜时,目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据,只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式,而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物,标记探针使用32PdATP。如果使用玻片为载体,点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品,然后将两份样品混合起来与一张芯片杂交。洗去未杂交的探针以后,能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言,所发出的两种不同荧光的强度的比值,就代表它在不同样品中的丰度。一般来讲,显示出来的图像中,黄色的点表示在不同的样品中丰度的差异不大,红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低,因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异,只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高,而且可以使用2种探针同时与芯片杂交,从而降低了因为杂交操作带来的差异;缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等(2004)将包含104个重组子的cDNA文库点在芯片上,用于检测拟南芥叶片衰老时的基因表达模式,得到大约6200差异表达的ESTs,对应2491个非重复基因。其中有134个基因编码转录因子,182个基因预测参与信号传导,如MAPK级联传导路径。Li等(2006)设计高密度的寡核苷酸tiling microarray方法,检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针,基于籼稻全基因组shot-gun测序的序列合成,大约81.9%(35,970)的基因发生转录事件。Hu等(2006)用含有60,000寡核苷酸探针(代表水稻全部预测表达基因)的芯片检测抗旱转基因植株(过量表达SNAC1水稻)中基因的表达情况,揭示大量的逆境相关基因都是上升表达的。 2基因表达系列分析(Serial analysis of gene expression,SAGE) 基因表达系列分析(SAGE)是一种转录物水平上研究细胞或组织基因表达模式的快速、有效的技术,也是一种高通量的功能基因组研究方法,它可以同时将不同基因的表达情况进行量化研究(Velculescu et al.,1995)。SAGE的基本原理是:每一条mRNA序列都可以用它包含的9bp的小片段(TAG)代替,因此考查这些TAGs出现的频率就能知道每一种mRNA 的丰度。首先利用生物素标记的oligo(dT)引物将mRNA反转录成双链cDNA,然后利用NlaIII 酶切双链cDNA。NlaIII酶的识别位点只有4bp,因此cDNA都被切成几十bp的小片段。带有生物素标记的小片段cDNA被分离出来,平均分成2份。这2份cDNA分别跟2个接头连接,2个接头中均有一个FokI酶切位点。FokI是一种II S型核酸内切酶,其识别位点不对称,切割位点位于识别位点下游9bp且不依赖于特异的DNA序列。FokI酶切分成2份的cDNA之

基因表达及分析技术

基因表达及其分析技术 生命现象的奥秘隐藏在基因组中,对基因组的解码一直是现代生命科学的主流。基因组学研究可以说是当今生命科学领域炙手可热的方向。从DNA 测序到SNP、拷贝数变异(copy number variation , CNV)等DNA多态性分析,到DNA 甲基化修饰等表观遗传学研究,生命过程的遗传基础不断被解读。 基因组研究的重要性自然不言而喻。应该说,DNA 测序技术在基因组研究 中功不可没,从San ger测序技术到目前盛行的新一代测序技术(Next Gen eration Seque ncing NGS)到即将走到前台的单分子测序技术,测序技术是基因组解读最重要的主流技术。而基因组测序、基因组多态性分析、DNA 甲基化修饰等表观遗传分析等在基因组研究中是最前沿的课题。但是基因组研究终究类似“基因算命”,再清晰的序列信息也无法真正说明一个基因的功能,基因功能的最后鉴定还得依赖转录组学和蛋白组学,而转录作为基因发挥功能的第一步,对基因功能解读就变得至关重要。声称特定基因、特定SNP、特定CNV、特定DNA修饰等与某种表型有关,最终需要转基因、基因敲除、突变、 RNAi 、中和抗体等技术验证,并必不可少要结合基因转录、翻译和蛋白修饰等数据。 基因实现功能的第一步就是转录为mRNA或非编码RNA,转录组学主要研究基因转录为RNA 的过程。在转录研究中,下面几点是必须考虑的: 1,基因是否转录(基因是否表达)及基因表达水平高低(基因是低丰度表达还是中、高丰度表达)。特定基因有时候在一个细胞中只有一个拷贝的表达,而表达量会随细胞类型不同或发育、生长阶段不同或生理、病理状态不同而改变。因此任何基

综合microRNA和基因表达谱分析

综合microRNA和基因表达谱分析 在肺癌新的肿瘤标记物和机制的研究 摘要 背景: microRNA(miRNA)在非小细胞肺癌诊断中准确性的研究仍有争议。因此,我们系统的识别非小细胞肺癌相关的miRNA,使用微阵列数据来观察目标基因改变。 方法:我们从非小细胞肺癌中,筛选出五组miRNAs,从基因表达数据库里,筛选出六组基因微列阵数据。 结果:我们研究表明,非小细胞肺癌中,有14对miRNA发生显著性变化。其中五对上调(miR-9,miR-708,miR-296-3p,miR-892b,miR-140-5p),9对下调(miR-584,miR-218,miR-30b,miR-522,miR-486-5p、miR-34c-3p,miR-34b,miR-516b,miR-592)。其诊断敏感性(SE)和特异性(SP)分别为82.6%和89.9%.有14对目标基因(P<0.05,倍数变化>2.0)和14对发现的miRNA显著相关,我们建立了一个受检者分类,使得验证有了较高的准确度(SE=0.987,SP=0.824) 结论:我们研究发现,综合的miRNA和目标基因对发现和识别非小细胞肺癌的生物标记物有价值,而且为发现非小细胞肺癌的机制提供了新的视角,此外,我们精心设计了实验,对目标基因相关的14种miRNA在非小细胞肺癌的预测和预后进行了研究。 前言:

在世界范围内,非小细胞肺癌因其高死亡率仍然是引起癌症死亡的主要原因之一,在2014年,其死亡率占到了癌症死亡人数的1/4.近年来,在很多研究报道了非小细胞肺癌鉴别诊断的潜在标记物,然而,精确的非小细胞肺癌的生物学标记物仍需摸索。 当前,microRNA (miRNA),一组小的非编码RNA的发现,为肿瘤的预测提供了新的视野,为肿瘤如非小细胞肺癌的初始筛选提供了新的方法。新的研究数据表明,miRNA在肿瘤中显著改变,和非小细胞肺癌的发生和发展有关。此外,由于miRNA的固有性质,它在标本中高度稳定,可提供更多的精准预测因素。以上发现表明,miRNA可作为非小细胞肺癌诊断的稳定的生物学标记物。 然而,一些独立的研究中,对此仍有不少争议,这往往通过不同的miRNA的表达谱的系统和平台解释。虽然他们分别证实了miRNA在肿瘤分化中的价值,然而收集资料系统的分析对进一步探讨miRNA作为非小细胞肺癌预测的标记物的适用性仍然是 必不可少的。 所以,我们的荟萃分析回答了一下3个问题:(1)是否有miRNA可以识别或抑制非小细胞肺癌组织。(2)和目标基因功能注释的潜在miRNA和通路是否有关系,(3)这些miRNA的靶向基因是否和非小细胞肺癌的起始和进程有关。 讨论: 研究中,我们主要关注利用miRNA数据集,是否可以将潜在的miRNA可以作为精准的生物标记物,从而从正常组织中来区分

相关文档
最新文档