基因芯片差异表达和聚类分析

合集下载

基因芯片的数据分析

基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析，通过有效数据的筛选和相关基因表达谱的聚类，最终整合杂交点的生物学信息，发现基因的表达谱与功能可能存在的联系。

然而每次实验都产生海量数据，如何解读芯片上成千上万个基因点的杂交信息，将无机的信息数据与有机的生命活动联系起来，阐释生命特征和规律以及基因的功能，是生物信息学研究的重要课题[1]。

基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析，假如分类还没有形成，非监督分析和聚类方法是恰当的分析方法；假如分类已经存在，则监督分析和判别方法就比非监督分析和聚类方法更有效率。

根据研究目的的不同[2,3]，我们对基因芯片数据分析方法分类如下。

（1）差异基因表达分析：基因芯片可用于监测基因在不同组织样品中的表达差异，例如在正常细胞和肿瘤细胞中；（2）聚类分析：分析基因或样本之间的相互关系，使用的统计方法主要是聚类分析；（3）判别分析：以某些在不同样品中表达差异显著的基因作为模版，通过判别分析就可建立有效的疾病诊断方法。

1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验，可以对2样本的基因表达数据进行差异基因表达分析，具体方法包括倍数分析、t检验、方差分析等。

1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4]，该方法是通过对基因芯片的ratio值从大到小排序，ratio 是cy3/cy5的比值，又称R/G值。

一般0.5-2.0范围内的基因不存在显著表达差异，该范围之外则认为基因的表达出现显著改变。

由于实验条件的不同，此阈值范围会根据可信区间应有所调整[5,6]。

处理后得到的信息再根据不同要求以各种形式输出，如柱形图、饼形图、点图等。

该方法的优点是需要的芯片少，节约研究成本；缺点是结论过于简单，很难发现更高层次功能的线索；除了有非常显著的倍数变化的基因外，其它变化小的基因的可靠性就值得怀疑了；这种方法对于预实验或实验初筛是可行的[7]。

差异表达基因分析技术及基因芯片在血液学研究中的应用

1.6 基因确认整合步骤法 (integrated procedure for gene identification，IPGI)
IPGI 综合运用了 SSH 与基因表达连续分析法的原理，是一种 SSH 的改良法；含相同接头的双链 cDNA 由于两端有长序列的反向重复,可互补形成“锅-柄”结构而不能扩增；而含不同接头的双链 cDNA 能与引物配对而扩增。扩增后的 PCR 产物即可直接插入载体，经测序后与基因
断芯片，如肝癌及糖尿病诊断芯片；检测芯片，如商品检疫和病原检测芯片。根据芯片上核苷酸的长度不同又可分为寡核苷酸芯片(oligo— chip)、cDNA 芯片(cDNA chip)和基因组芯片(genomic chip)。
基因芯片技术是在传统的 Southern blot 和 Northern blot 分析方法基础上发展起来的，优越性在于可自动、定量、快速检测目的材料中成千上万个基因的表达情况，在基因诊断、表达、突变和发现新基因、多态性检测、基因组作图及各种病原体的诊断等生物医学领域中具有重大应用价值，已应用于许多疾病的研究。近来有文献报道应用此技术对白血病、恶性淋巴瘤等进行了基因表达研究[110,111]，现就 DNA 芯片技术在恶性血液系统疾病研究中的应用进行简要介绍。
认整合步骤法及目前最为有效的基因芯片技术等。这些研究方法根据
其原理大体上分为 3 大类[106](表 2-1)。
表 l 差异表达基因研究方法
杂交的技术
PCR 的技术方法测序的方法
Northen 斑点杂交差异显示
表达序列标签
RNA 酶保护实验代表性差异显示基因表达系列分析
减数克隆
抑制性消减杂交 DNA 测序芯片
1 差异表达基因的分析技术

基因芯片数据挖掘分析表达差异基因

基因芯片数据挖掘分析表达差异基因基因芯片(genechip)（又称DNA芯片、生物芯片）的原型是80年代中期提出的。

基因芯片的测序原理是杂交测序方法，即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法，在一块基片表面固定了序列已知的靶核苷酸的探针。

当溶液中带有荧光标记的核酸序列TATGCAATCTAG，与基因芯片上对应位置的核酸探针产生互补匹配时，通过确定荧光强度最强的探针位置，获得一组序列完全互补的探针序列。

据此可重组出靶核酸的序列。

目前已有许多数据库，包括NCBI的GEO数据库(/geo/)，ArrayExpress数据库(/arrayexpress/)，和TCGA数据库(/)等等，记录和储存着大量芯片相关的数据，其中GEO数据库是目前最大最全的数据库，可供科研人员查询和下载相关数据。

下面和大家分享一下基因芯片数据的预处理方法。

1）分析前需要对数据进行背景信号处理：背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。

一般以图像处理软件对芯片划格后，每个杂交点周围区域各像素吸光度的平均值作为背景，但此法存在芯片不同区域背景扣减不均匀的缺点。

也可利用芯片最低信号强度的点（代表非特异性的样本与探针结合值）或综合整个芯片非杂交点背景所得的平均吸光值做为背景。

其中，各字母的意义如下：N：条件数；G：基因数目（一般情况下，G>>N）；行向量mi=(mi1,mi2,…,miN)表示基因i在N个条件下的表达水平（这里指绝对表达水平，亦即荧光强度值）；列向量mj=(m1j,m2j,…,mGj)表示在第j个条件下各基因的表达水平（即一张芯片的数据）；元素mij表示第基因i在第j个条件下（绝对）基因表达数据。

m可以是R（红色，Cy5，代表样品组）。

也可以是G（绿色，Cy3,代表对照组）。

2）芯片数据清理：经过背景校正后的芯片数据中可能会产生负值，还有一些单个异常大（或小）的峰（谷）信号（随机噪声）。

生物芯片数据分析方法_聚类和分类分析

生物芯片数据分析方法
聚类和分类分析
聚类
一、引言
• 物以类聚，人以群分。
1.相似性指标
基于物体的相似性将物体分成不同的组
2.聚类算法
二、基因表达谱数据的聚类分析
• 聚类分析是基因表达数据分析最常用的多变量技术。
• 在没有关于数据的先验知识时，对不同的样本或实验间的相似性进行研究。
• 机器学习：无监督学习。
• 绝对距离(q=1 ）
曼哈顿距离
• 欧氏距离（q=2 ）
• 切比雪夫距离(q=∞)
p
dij (1) X ik X jk k 1
p
dij (2) (
X ik X jk )2 1/ 2
k 1
dij
()

max
1k p
X ik

X jk
明氏距离的不足之处及解决办法：
① 明氏距离没有考虑指标的数量级水平及量纲。当各变量数量级相差悬殊且量纲不同时，采用明氏距离并不合理。
则由初等几何可知这个中线的平方为：
Dk2r

1 2
Dk2p

1 2
Dk2q

1 4
Dp2q
• 由于此公式中出现的全是距离的平方，所以为了计算的方便，距离矩阵的元素也可以都为平方。
• 上述八种系统聚类法的步骤完全一样，只是距离的递推公式不同。兰斯（Lance）和威廉姆斯（Williams）于1967年给出了一个统一的公式，即将Gp和Gq合并为新类Gr，类Gk与新并类Gr的距离公式为：
5.明考夫斯基距离（Minkowski distance）
• 令dij 表示向量Xi与Xj的距离，则明考夫斯基
的距离公d式ij (q为) ：( p X ik X jk )q 1/ q k 1

基因表达数据分析及相关统计算法研究

基因表达数据分析及相关统计算法研究随着生物技术的飞速发展，越来越多的基因表达数据被生成和积累。

这些数据提供了宝贵的信息，可以帮助我们更好地了解基因的功能、调控机制以及与疾病相关的变化。

然而，对于海量的基因表达数据如何进行有效的分析和挖掘，仍然是一个具有挑战性的问题。

本文将介绍基因表达数据分析的基本概念和涉及的相关统计算法的研究进展。

基因表达数据是指在细胞或组织中，基因在特定条件下的转录水平的测量值。

常用的基因表达数据包括基因芯片数据和基因测序数据。

基因芯片技术是最早应用于基因表达数据分析的方法之一，它通过测量RNA分子与特定基因探针的配对情况来反映基因的表达水平。

而基因测序技术则可以提供更详细的基因表达信息，可以测量到具体的转录本和外显子的表达。

基因表达数据的分析涉及的主要任务包括差异表达基因分析、基因表达聚类分析以及功能富集分析等。

差异表达基因分析旨在识别在不同条件下表达水平存在显著差异的基因。

这一任务可以帮助我们理解基因在不同生物过程或疾病状态下的特定功能。

基因表达聚类分析是指将基因或样本根据其表达模式进行分类，寻找共同调控或具有相似表达模式的基因。

功能富集分析则是通过比较差异表达基因集合与已知的功能注释数据库中的基因集合，来发现具有富集功能的基因集合。

为了解决这些基因表达数据分析的问题，研究人员提出了许多统计算法和机器学习方法。

其中最常用的方法之一是差异表达分析中的t检验和方差分析。

t检验可以用于比较两组样本间的表达差异，而方差分析可以用于同时比较多组样本间的表达差异。

除了传统的统计方法，还有基于机器学习的方法，如支持向量机（SVM）和随机森林（Random Forest）等。

这些机器学习算法可以通过构建分类模型来预测基因是否差异表达或进行样本分类。

近年来，随着单细胞测序技术的发展，单细胞基因表达数据的分析也成为了热点研究领域。

单细胞测序可以提供单个细胞的基因表达信息，揭示细胞间的表型差异和功能特化。

基因芯片数据分析中的标准化算法和聚类算法

基因芯片数据分析中的标准化算法和聚类算法北京大学生命科学院生物信息专业王向峰学号：10211058摘要：基因芯片技术已经广泛的应用于各种模式生物的功能基因组的研究中，应用芯片技术可以高效，高通量的检测基因表达行为。

芯片数据分析中的标准化主要分为芯片内标准化和芯片间标准化，芯片内标准化根据目的不同可分为消除染色偏差的Lowess Normalization ，消除点样针头引起的空间差异的Print-tip Normalization 。

常用的芯片间标准化有Quantile Normalization ，Global Normalization 。

芯片数据分析中常见的聚类算法有分层聚类(Hierarchical clustering)、K 均值聚类(K-means clustering)、自组织图谱SOM (self organizing map)、PCA (principle component analysis)等等。

所有的聚类方法归结为有监督的学习和无监督的学习两种方法。

第一部分基因芯片的数据标准化(Normalization)对基因芯片数据的标准化处理，主要目的是消除由于实验技术所导致的表达量(Intensity)的变化，并且使各个样本(sample)和平行实验的数据处于相同的水平，从而使我们可以得到具有生物学意义的基因表达量的变化。

标准化的方法根据芯片的种类、数据处理的阶段和目的不同而有所差异。

这里主要讨论一下双荧光染色(Red and Green Chip)的cDNA 微列阵(cDNA microarray)的标准化方法。

一、实验数据的预处理（data transformation ）的细胞进行培养(Cultured Cell)，以保证绝大部分的基因可以表达。

样本基因是根据试验设计的目的从不同组织，不同发育阶段，不同条件下培养的细胞中提取的cDNA 样本。

通过样本基因对参照基因的比值，而判断不同条件下的基因表达量的变化。

用基因芯片寻找差异表达基因

性,即个人遗传基因的特点,在药品选用和用量、配伍等方面必须实行个体化治疗,方可提高用药的准确性,减少毒副作用。

中医经常采用同病异治的法则,中医治疗常需因人、因地制宜,方药不尽相同。

基因组学研究表明,由于基因的多态性,即使同一种癌,如同样为乳癌,其临床症状大不相同,治疗方案及用量亦就酌情变化。

中药的化学实体是活性物质群,具有多靶点、多效性的特点,作用的基本形式是调整,而肿瘤是多因素、多阶段形成的,药病相合,能抑制其发生、发展,尤其是在改变机体生癌环境,抗肿瘤复发、转移中可发挥化疗药物不可替代的作用。

其具体表现在,可诱导癌细胞向正常细胞逆转;促进癌细胞凋亡;调节信息传递,抑制肿瘤的生长与发展;可抗多药耐药,从而增加癌细胞对阿霉素、长春花碱、长春新碱等抗癌药物的敏感性;调节生物反应,活化巨噬细胞,促使B细胞产生抗体,调节T细胞亚群,提高NK、L A K细胞的活性,诱导IL-2、IN F,抑杀靶细胞;并可直接攻击、杀伤癌细胞。

针刺介导下基因表达的研究进展吴学飞上海市针灸经络研究所　200030 近年来有关针刺对基因表达的影响几乎完全集中于动物实验方面,主要涉及疼痛、癫痫、老年性痴呆、神经系统再生与修复、免疫系统及内分泌系统等一些疑难及重大疾病,并且研究方向已触及到凋亡、信号转导及神经再生及发育等热门领域,所采用的方法有免疫组化、P CR、原位杂交、点杂交、No rt hem blot.So ut hem blot等分子生物学技术。

应该说所有这些研究都为我们在目前正发生的基因革命时代进一步深入研究经络腧穴及针刺感传和效应打下了良好的基础。

但是在这些研究中仍然存在这一些不可忽视的问题,如在观察结果与结论之间往往缺乏可靠的依据,也就是说在有些研究中还存在如下的模式,A指标在针刺下发生变化而出现效应,B就可以推导出效应,B的出现就是在针刺诱导下,A指标的变化所致;但是,我们应该承认针刺具有广泛的生理调节效应,也许效应B的出现主要是由于针刺介导下C、D或者E等指标发生变化所致,而指标A在针刺下发生变化也许主要与效应F、G或者H等有关。

基因芯片数据分析

(2). DNA chips: 将寡核苷酸探针 (20~80-mer) 合成到芯片上。Affymetrix开发设计，通常为单通道，一次检验一种状态。
(1) cDNA microarrays
cDNA clones
载玻片
差异表达基因的筛选
Treatment / control Normal / tumor tissue Brain / liver …
荧光标记的靶基因
(2) DNA chips
DNA chips的制备：Affymetrix photolitography
探针长度：25 bp 每个基因：22-40个探针 Perfect Match (PM) vs.
MisMatch (MM) probes
A. 选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物 B. 采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷酸探针; 或者通过液相化学合成寡核苷酸链探针，或PCR技术扩增基因序列，由阵列复制器，或阵列机及电脑控制的机器人，将不同探针样品定量点样于带正电荷的尼龙膜或硅片等相应位置上 C. 紫外线交联固定后即得到DNA微阵列或芯片
基因芯片数据分析
1. 基因芯片(Microarray) 2. 图像处理与数据标准化 3. 基因芯片的数据分析
1. 基因芯片简介
基因芯片 (1987): 固定有寡核苷酸、DNA或cDNA等的生物芯片。利用这类芯片与标记生物样品进行杂交，可对样品基因表达谱生物信息进行快速定性和定量分析。
高通量、点阵以及Northern杂交同时测定细胞内数千个基因的表达情况将mRNA反转录成cDNA与芯片上的探针杂交
芯片的体积非常小：微量样品的检测基因表达情况的定量分析
生物芯片的基本要点

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 数据归一化 2. 缺失值处理 3. 野值剔除
芯片数据的低层次处理
1. 数据归一化等处理过程
消除芯片系统误差、试验平台偏差
cDNA芯片片内归一化的主要目的是减小由于两种颜色染色效率差异导致的系统误差。
基本假设（cDNA芯片）：在测试样本与对照样本间大多数的基因是没有显著差异表达的。
芯片数据的高层分析
经过低层处理，从芯片原始数据获得可靠的基因表达值。
一张基因芯片得到的数据成为一个列向量，维数就是芯片上基因的个数。
将一次实验的多张芯片数据放到一起就形成一个矩阵。
矩阵中的数值表示基因在样本中的表达值。
芯片数据的高层分析
高层分析通常指在得到基因表达值后对以下方面的研究：
基因表达：把储存在DNA中的遗传信息经过转录和翻译，转变为具有生物活性的蛋白质分子。
根据目前的认识，人类基因组中编码蛋白质产物的基因的总数大约在20000～30000之间或者更多。
基因的表达具有时空性，基因在人体内不同组织的细胞中、在细胞不同的发育阶段有着不同的表达量，即所转录出的mRNA的丰度。
1. Perfect Match (PM)
2. Mismatch (MM) PM-MM探针：提高特异性和灵敏度，更适合检测低丰度表达的基因。
寡核苷酸芯片
不需要对照样品，而只对待测试的样品进行杂交和检测；
从测试样品提取到mRNA 经反转录标记后与芯片杂交；
杂交后的芯片经洗涤后通过扫描得到图像；
寻找差异表达基因
1. 倍数法
f

xI xC
f值估计每个基因在实验条件下较之对照条件下表达量的倍数差异值。
一般比值在2以上或1/2以下时，判断该基因在两种条件下表达有差异。
目前通常被用于基因的大规模初筛。
寻找差异表达基因

多重假设检验问题
若芯片检测了n个基因，整个差异基因筛选过程需要做n次假设检验。
Correlation
相关性距离关心的两个基因在表达变化上的一致性。由于共表达通常是指表达的变化趋势，因此在实际分
析中关联距离使用的频率更高一些。
Pearson相关系数
(x, y)
n
(xi x)(yi y)
i 1
n
n
(xi x)2
( yi y)2
i 1
图像是单色的，每个探针在图像上的亮度反映了该探针检测到的mRNA的表达水平。
寡核苷酸芯片
每根探针都有一个相应的基因表达值，但最终每个靶基因的表达值要通过独特的统计学运算才能得到。
芯片数据的低层次处理
指在得到图像处理数据之后如何更好地计算基因表达值的问题。目的是消除实验过程中产生的系统误差、实验误差等影响因素。
1. 首先将每个数据对象（基因或样本）作为单独的一个类簇（cluster）;
2. 将距离最近的两个类簇合并形成一个较大的类簇；
3. 重复步骤2直到所有数据对象都在一个类簇中。
层次聚类
层次聚类
树状图:一种树形结构用来表示层次聚类的过程。
每个节点代表一个类簇；
绿色：探针对应的基因在测试样本中相对低表达
黄色：表达相当
黑色：均不表达
红绿颜色的相对强度反映出了基因在两种样品中表达的数量之比。
寡核苷酸芯片
寡核苷酸芯片技术最早是由美国昂飞（ Affymetrix）公司发明的。
寡核苷酸芯片是在公司里以工业化的形式生产出来的，因此可以进行质量控制，有利于不同实验室之间数据的比较。
(2) 寡核苷酸芯片（oligonucleotide microarray）
cDNA芯片
cDNA是从mRNA通过反转录过程得到的 DNA。
cDNA芯片以反转录的cDNA片断作为探针。
cD从实验材料中提取将要研究的基因的 mRNA，将它们反转录成cDNA，然后酶切成不同片段并克隆到载体里）
基因芯片的基本原理
基因芯片原理的基础是DNA的碱基配对原理：腺嘌呤（A）胸腺嘧啶（T）鸟嘌呤（G）胞嘧啶（C）
A和T、G和C分别能形成紧密的配对，这也是生物体内使得DNA能够复制和转录的基本机制。
这种配对的形成过程称为杂交（hybridization）。
利用杂交这一原理，基因芯片采用一段已知序列的核酸作探针（probe）来检测与之配对的核酸序列的存在及其丰度。
在具体应用中可按照相似的表达谱对基因进行聚类，从而预测组内未知基因的功能。
What is clustering?
聚类（clustering）：将不同数据对象按照彼此相似性的大小或按照一定的规则进行组织或者分类。
聚类是对整个数据集的划分；聚类的依据是“样本间的相似程度”。
What is clustering?
对整个数据集进行划分的结果是得到K 个类簇(cluster)；
在同一个类簇中，数据对象是相似的；
在不同类之间的数据对象是不相似的。
聚类是一种无监督学习：没有预定义的类簇。
Why cluster?
Cluster genes = rows
测量基因在多个时间点，不同条件下的表达水平；基本假设：若基因具有相似的表达模式，则它们可
例如，我们对20个不同的基因依次进行统计检验，假设��=0.05，表示一次检验中发生一类错误（e.g. 假阳性错误)的概率是0.05。
多重假设检验问题

�� = �� < 0.05
��
聚类在基因芯片数据分析中的应用
基因之间存在共表达（co-expressed genes)；共表达的基因可能具有相似的生物功能；从具有相似表技术进行扩增和纯化，得到所需要的各个基因的探针
通过机械手将探针滴加到基片上，从而完成芯片的制备
cDNA芯片
成本相对低廉；
探针可以根据生物学家的需要自行设计和提取，是一种可以实验室“自制”的基因芯片。
cDNA芯片
需要准备测试样品和对照样品；
Experiment 2
Gene 2
Experiment
Gene 1
Genes
Experiment 1
How do we define “similarity”?
距离度量：用来衡量两个数据对象（基因/样本向量）之间的相似程度。
距离度量是聚类方法的核心。常用的距离度量有：欧氏距离（Euclidean distance）关联距离（Pearson distance)
因此芯片上所有基因的相对表达量应该是以0为中心的分布。
cDNA芯片的M-A图。
M log2(GR )
A log2(RG )
R:红色信号强度 G:绿色信号强度 MA图反应的是基
因在对比的样品中表达差异随基因信号强度变化的分布。
归一化就是通过适当的运算，将M 调整为以0为中心
基因芯片差异表达和聚类分析
2017/10/30
概要
1. 什么是基因芯片 2. 基因芯片数据的低层次处理 3. 基因芯片数据的高层次分析 4. 常用的基因表达数据库 5. 用R和Bioconductor进行基因芯片数据分
析
中心法则提出（Crick，1958）
分子生物学的中心法则：细胞中的基因最主要是通过从DNA转录到RNA（mRNA）、再翻译成蛋白质来发挥作用的。
Number of genes (when clustering samples)
deuc=0.5846
deuc=1.1345
deuc=2.6115
欧氏距离关心的是表达量，即两个基因在表达水平之间的相似程度。
deuc=1.41
deuc=1.22
What might be going on with the expression profiles on the left? On the right?
疾病的分类基因的差异表达基因间的相关性基因的关系网络 ……
利用生物信息学方法分析基因芯片数据
最常用的方法有：基因表达差异分析聚类分析
寻找差异表达基因
差异表达分析的目的：
识别两个条件下表达差异显著的基因，即一个基因在两个条件中的表达水平，在排除各种偏差后，其差异具有统计学意义。
的分布。
芯片数据的低层次处理
2.缺失值处理（由于杂交效能低、物理刮伤、指纹、灰尘、图像污染等）
1）直接去掉含有缺失值的基因； 2）将缺失值置零； 3）采用最近邻，用和缺失值所在基因表达模式相近的
其他基因的数据，对缺失值进行估计。 3. 野值剔除
设置一定的基因表达值的上限和下限，高于上限和低于下限的数值都被认为是超出了仪器可信范围而被分别设置为上限值和下限值。
1. 固定大量的DNA探针在一张面积很小的芯片上； 2.使样品中的核苷酸片断与相应的探针杂交； 3. 通过荧光成像获得每个探针上杂交的分子的浓度； 4. 再通过后期的处理即可获得相应的基因表达量。
根ห้องสมุดไป่ตู้探针制备和固定技术的不同，基因芯片主要分为：
(1) cDNA芯片（printed cDNA microarray）
寡核苷酸芯片
寡聚核苷酸原位光刻专利技术---是生产高密度寡核苷酸基因芯片的核心关键技术
Affymetrix的原位合成技术可制作的点阵密度高达1061010/cm2
Affymetrix基因芯片上一般每一个基因（或EST）都是由一个探针组（ probe set）组成；