基因表达数据分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

断为无差异表达。
在进行差异基因挑选时,整个差异基因筛选过程需 要做成千上万次假设检验,导致假阳性率的累积增 大。对于这种多重假设检验带来的放大的假阳性率, 需要进行纠正。常用的纠正策略有Bonferroni效正, 控制FDR(false discovery rate)值等。
2. 分析步骤 计算统计量 扰动实验条件,计算扰动后的基因表达的相对 差异统计量
导入芯片数据
第二步:选择文件类型 每张芯片用单独的文件存储,多个文件保存在一个文
件夹
“Array are saved in separate files stored in one folder‖ 若多张芯片数据组织成一个矩阵形式,存储在一个文
件中
“Array are saved in horizontally aligned file‖
(二)数据对数化转换
对芯片数据做对数化转换后,数据可近似正态分布
(三)数据过滤
数据过滤的目的是去除表达水平是负值或很小的
数据或者明显的噪声数据。
• 过闪耀现象 • 物理因素导致的信号污染 • 杂交效能低 • 点样问题
• 其他
(四)补缺失值
1.数据缺失类型
非随机缺失 基因表达丰度过高或过低。 随机缺失 与基因表达丰度无关,数据补缺主要针对随机缺
MiSeq,Ion Torrent PGM
二、Microarray技术与RNA-Seq技术的比较
1.RNA-Seq技术对没有已知参考基因组信息的非模式
生物,也可测定转录信息;
2.RNA-Seq技术可以测定转录边界的精度达到一个碱 基,RNA-Seq可以用来研究复杂的转录关系; 3.RNA-Seq可以同时测定序列的变异; 4.RNA-Seq背景信号很小,测定的动态范围很大。


为什么
方法: scatter-plot smoother lowess拟合

c(A)为M 对A 的拟合函数

标化后的数据
点样针依赖的标化(within-print-tip- group normalization)

为什么 一张芯片的不同区域运用不同的点样针点样,从而 引入点样针带来的系统误差。 method

几何距离 线性相关系数


非线性相关系数
互信息
四、聚类算法
(一)层次聚类
层次聚类算法将研究对象按照它们的相似性关系用 树形图进行呈现,进行层次聚类时不需要预先设定 类别个数,树状的聚类结构可以展示嵌套式的类别 关系。
在对含非单独对象的类进行合并或分裂时,常用的 类间度量方法。
类间相似性度量方法
计算扰动后的平均相对差异统计量
确定差异表达基因阈值 • 以最小的正值和最大的负值作为统计阈 值,运用 该阈值,统计在值中超 过该阈值的假阳性基因个 数,估计假阳性发现率FDR值。 调整FDR值的大小得到差异表达基因。
(五)信息熵
运用信息熵进行差异基因挑选时,不需要用到样本 的类别信息,所以运用信息熵找到的差异基因是指
RNA-Seq Atlas
GEPdb GXD EMAGE AGEMAP
正常组织的基因表达谱数据
基因型、表型和基因表达关系 老鼠发育基因表达信息 老鼠胚胎的时空表达信息 老鼠老化的基因表达数据
疾病相关基因表达数据库
数据库名称
GENT ParkDB cMAP Anticancer drug gene expression database
失情况。
高表达基因的数据缺失
2.Hale Waihona Puke Baidu据补缺方法 (1)简单补缺法

missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene)average missing values = column (array)average
Clustering Analysis and Classification
一、聚类目的
基于物体的相似性将物体分成不同的组
二、基因表达谱数据的聚类
对基因进行聚类
识别功能相关的基因
识别基因共表达模式 对样本进行聚类 质量控制 检查样本是否按已知类别分组
发现亚型
样本
基因
三、距离(相似性)尺度函数
7.动植物的发育研究
8.环境对细胞基因表达的作用
9.环境监测 10.物种的繁育
第二节 基因表达测定平台 与数据库
Microarray Platform and Databases
一、基因表达测定平台介绍
1.cDNA 芯片
2.Affymetrix芯片
3.下一代测序技术技术如:Roche-454, Illumina
在所有条件下表达波动比较大的基因。
三、差异表达分析应用
以一套阿尔海茨默病相关的基因表达谱数据
(GSE5281)为例,详细介绍如何利用BRBArrayTools软件进行数据预处理,并对处理过的 标准化的基因芯片数据利用SAM软件进行差异表 达分析的过程。
GSE5281数据是利用Affymetrix公司的寡核苷酸芯片 HG-U133 Plus 2.0 Array检测阿尔海茨默病病人和正 常老年人大脑中六个不同区域的基因表达情况,本
一、基因芯片数据预处理
(一)基因芯片数据的提取
cDNA微阵列芯片荧光信号
Ratio (CH1I CH1B) /(CH 2I CH 2B)
原位合成芯片
定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧 光信号强度值

2000年Alizadeh
RNA-Seq在基因表达的定量上准确性很高;
RNA-Seq在测定技术上和生物上重复性很高;
RNA-Seq的测定需要很少的RNA样本。 在应用上RNA-Seq技术对ISOFORM的测定和等位 基因的区分比芯片技术有很好的优势。
三、基因表达数据库
常用基因表达数据库名称 Gene Expression Omnibus (GEO) Expression Atlas SMD 数据库内容 目前最常用的基因表达数据(NCBI) 欧洲生物信息学中心的基因表达数据库 Stanford基因表达数据库
需要将探针转换成相应的基因名(gene symbol)或 Entrez ID
第八步:运行SAM
FDR=0.01, delta=0.68 选出2209个在阿尔海茨默病病人和正常人脑组织 中表达发生显著性改变的基因。
SAM的参数设定
第九步:SAM Plot
SAM Plot
第四节 聚类分析与分类分析
是否存在,如果存在则表明基因在不同条件下的表达 有差异。
(四)SAM 法(significance analysis of microarrays)
1. 多重假设检验问题
Ⅰ型错误(假阳性)
在假设检验作推断结论时,拒绝了实际上正确的检 验假设,即将无差异表达的基因判断为差异表达。 Ⅱ型错误(假阴性) 不拒绝实际上不正确的,即将有差异表达的基因判

(2)染色互换实验(dye-swap experiment)的标化
实验组
芯片1 芯片2 cy5(R) cy3(G)
对照组
cy3(G’) cy5(R’)
前提假设:c︽c’
方法:
(3)片间标化(multiple-slide normalization) 线性标化法(linear scaling methods)
对照条件下的表达值
通常以2倍差异为阈值,判断基因是否差异表达
(二)t 检验法
运用t 检验法可以判断基因在两不同条件下的表 达差异是否具有显著性
(三)方差分析
两种或多种条件间下基因表达量的比较,用方差分析。 它将基因在样本之间的总变异分解为组间变异和组内
变异两部分。通过方差分析的假设检验判断组间变异
(2)k近邻法

选择与具有缺失值基因的k个邻居基因

用邻居基因的加权平均估计缺失值
参数
• •
邻居个数 距离函数
(3)回归法
(五)数据标准化
1.为什么要进行数据标准化:存在不同来源的系统误差
染料物理特性差异(热光敏感性,半衰期等) 染料的结合效率 点样针差异 数据收集过程中的扫描设施
与芯片内标化的尺度调整(scale adjustment)方
法类似。 非线性标化法(non-linear methods) 分位数标化法(quantile normalization) 两张芯片的表达数据的分位数标化至相同,即分
布于对角线上。
4. 芯片数据标准化 (1) 提取定性信号 对每个探针对计算R R = (PM – MM )/ (PM + MM ) 比较R与定义的阈值Tau(小的正值,默认值为 0.015 )
例仅选择其中一个区域—内侧颞回(middle
temporal gyrus,MTG)的数据进行说明 。
第一步:导入芯片数据
使用“import data‖下的“General Format
Importer‖导入基因芯片数据,数据间用Tab键分隔 (或使用Excell文件),也可使用“Data Import Wizard‖进行导入 。
基因表达的时空性
基因表达测定方法RT-qPCR
近20年来三种不同高通量基因表达测定技术的应用趋势
高通量基因表达测定的应用实例 1.测定组织特异性基因表达 2.基因功能分类
3.癌症的分类和预测
4.临床治疗效果预测 5.基因与小分子药物、疾病之间的关联 6.干细胞的全能型、自我更新和细胞命运决定研究
单侧的Wilcoxon’s Signed Rank test产生p值,根据
p值定义定量信号值 Present call
Marginal call
Absent call
(2)提取定量信号
分析步骤
获取探针水平数据→背景值效正→标准化处理→探 针特异背景值效正→探针集信号的汇总
分析方法 1
2
不同芯片间的差异
实验条件差异
2.运用哪些基因进行标准化处理
芯片上大部分基因(假设芯片上大部分基因在不
同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control) • 在不同条件下表达水平相同的合成DNA序列
或外源的DNA序列。
3. cDNA芯片数据标准化处理
(1)片内标化(within-slide normalization)方法 全局标化、荧光强度依赖的标准化、点样针组 内标准化。
全局标化(global normalization)

假设: R=k*G 方法:

c=log2k:中值或均值
荧光强度依赖的标化(intensity dependent normalization)
3
4
5
6
7
log2 ( R / G)
log2 RG
M = log2R - log2G A = (log2R + log2G)/2
8
9
前面提及的标准化方法仅效正了数据分布的中心, 在不同的栅格间log-Ratios 的方差也不同。
二、差异表达分析基本原理与方法
(一)倍数法
实验条件下的表达值
选择记忆芯片数据文件类型
第三步:选择芯片数据文件所存储的路径
注意路径中不能包含中文
第四步:选择基因芯片平台
第五步:选择文件格式
第六步:数据的过滤和标准化
第七步:基因注释 由于基因芯片检测的是探针的表达情况,而探针 和基因之间往往不是一一对应,所以,在数据导
入后软件会询问是否需要进行基因注释,及是否
数据库内容
肿瘤组织与正常组织的表达数据 帕金森病的基因表达数据库 小分子化合物对人细胞基因表达的影响 抗癌化合物的基因表达数据
CGED
癌症基因表达数据库(包括临床信息)
第三节 数据预处理与差异表达分析
Preprocessing of Microarray Data and
Analysis of Differentially Expression Gene
生物信息学
生物信息学
第五章
基因表达数据分析
苏州大学 首都医科大学 沈百荣 李冬果
第一节 引言
Introduction
基因表达组学与基因组学相比较
1.表达组信息是动态的;
2.表达组学的数据,更多的是数值分析;
3.转录组学中除了模式识别外,系统建模也十分重要。
真核生物基因表达的基本方式
基因表达调控示意图
相关文档
最新文档