第十章基因芯片微阵列数据库

合集下载

基因芯片技术及其应用

基因芯片技术及其应用

基因芯片技术及其应用随着生物学、生命科学的发展,基因芯片技术越来越受到关注。

基因芯片又称为DNA芯片,是一种利用微阵列技术来检测基因表达水平的高通量方法。

基因芯片技术的发展带来了许多应用领域的新成果,包括疾病预测、药物研发等。

本文将介绍基因芯片技术及其应用。

一、基因芯片技术的原理基因芯片技术是一种高通量的生物技术,它利用微阵列生物芯片来检测基因表达的水平。

这种技术利用了DNA分子的特异性与完整性,它可以在任何生物样品中高效地检测出其蛋白质表达水平和基因组变异情况。

基因芯片技术的工作原理基于蛋白质表达水平与基因组变异情况的探测。

首先,需要将基因DNA序列通过逆转录过程转换成mRNA序列,进而使用荧光标记标记mRNA序列。

接下来将标记好的mRNA序列通过微阵列技术固定到芯片上,并使用高通量扫描技术来观察标记后荧光强度的变化程度。

荧光值越高,则说明该基因表达水平越高。

基因芯片技术不仅可以检测基因表达水平,还可以检测基因序列的变异情况,用于了解某种疾病或细胞状态的基因组变化情况。

比如,可以用这种技术针对某种疾病相关的单核苷酸多态性位点检测基因变异情况。

二、基因芯片技术的应用1. 癌症筛查基因芯片技术可用于癌症筛查,将肿瘤组织中的RNA与正常细胞组织的RNA进行比较,寻找表达水平具有显著差别的基因,进而确定这些基因是否与癌症发展相关。

利用这种方法可以更加准确地判断某个癌症的种类、发展程度等。

2. 个性化药物设计基因芯片技术可用于个性化药物设计,通过基因芯片可以确定某个病人,是否会对某种药物产生不良反应,从而确定是否使用该药物。

同时,可以利用基因芯片技术根据病人的基因组变异情况,设计出一种更加适合该病人的药物。

3. 遗传疾病筛查基因芯片技术可用于遗传疾病筛查,利用基因芯片技术可以检测出某些基因的表达水平是否异常,从而确定在某些疾病中,基因的表达水平是否存在异常。

4. 农业和环保应用基因芯片技术不仅可以应用在医学领域,还可以应用于农业和环保领域,例如种植业、畜牧业、水产养殖业等。

基因芯片

基因芯片

a基因表达的检测 b发现新基因 c基因多态性的检测 d作物杂交优势预测 e鉴别假冒伪劣种子
a在空间科学上的用途 采用生物芯片技术,许多研究工作就可以在太空 中进行,成本低,研究效果却非常好. b商品检验、检疫 针对商检的内容和对象的不同,检验、检疫基 因芯片可分为四种:食品卫生检验芯片、植物检验 芯片、动物检验芯片、转基因植物检测芯片。 c环境保护 检测污染微生物或有机化合物对环境、人体、 动植物的污染和危害,同时也能够通过大规模的 筛选寻找保护基因、制备防治危害的基因工程药品 或能够治理污染源的基因产品。 d基因表达分析 e寻找新基因和基因功能研究
4完成了光敏保护试剂的全合成、对胸腺核苷 (T)5′﹣羟基的光敏保护N﹣酰基化和2′﹣脱 氧核苷的制备。
5开展了微型PCR装置、毛细血管电泳微芯片等方 面的研究工作,包括毛细血管制作、光学检测系统 温度控制系统等方面的研究工作。
中国的基因芯片的发展方向 1发展具有自主知识产权的高密度基因芯片制备的 关键技术,发展一个可进行高密度基因芯片加工基 因芯片的加工设备和工艺。 2发展和研制的基因芯片设计和分析软件。 3发展出高集成度的生物活性单元微阵列芯片,包 括DNA、PNA、多肽、蛋白质、病毒、细胞组和细 胞以及微小生物组织等生物活性微阵列芯片。玻片修饰技术、固定技术的研究, 以满足cDNA在不同修饰玻片上的高效率固定、杂 交的需要,成功地制作了每平方厘米超过25000点 的DNA芯片。 2多病毒基因检测芯片的研究,主要完成了4﹣6种 病毒基因的PCR共扩增、DNA探针的固化和简易 信号检测技术研究。 3高灵敏度的DNA芯片检测系统研究,现已初步建 立了DNA芯片检测仪,包括成像系统、软件和样品 平台等
一药物筛选 A 通过基因芯片的筛选,可以了解中药在基因水平 的调控机制,为中药的应用奠定坚实的理论基础。 B 通过基因芯片的筛选,能为中药的进一步开发和 设计提供理论指导,有利于研制单位重新组织中 药复方中的有效组分,得到专一性更强、疗效更 显著、毒性更低的新药。 C 基因芯片技术可以筛选药物的毒副作用和致畸 致突变作用。 意义:应用生物芯片来进行药物筛选寻找,查检药 物的毒性或副作用,用芯片做大规模的筛选研究可 以省略大量的动物试验,缩短药物筛选所用的时间 从而带动创新药物的研究和开发。

生物信息学讲义——基因芯片数据分析资料

生物信息学讲义——基因芯片数据分析资料

生物信息学讲义——基因芯片数据分析资料基因芯片是一种高通量的技术,可以用于同时检测和量化数以千计的基因在一个样本中的表达水平。

通过分析基因芯片数据,我们可以获得大量的基因表达信息,并进一步了解基因在不同条件和疾病状态下的调控和功能。

下面是一份关于基因芯片数据分析的讲义。

一、基因芯片数据的处理与预处理1.数据获取与质控-从基因芯片实验中获取原始数据(CEL文件)。

-进行质控,包括检查芯片质量、样本质量和数据质量。

2.数据预处理-背景校正:去除背景信号,减小非特异性杂音。

-样本标准化:对样本间进行标准化处理,消除技术变异和样本间差异。

-基因过滤:去除低表达和不变的基因,减少多重检验问题。

二、差异基因分析1.统计分析-基于统计学的差异表达分析方法,如t检验、方差分析(ANOVA)等。

-根据差异分析结果,获取差异表达的基因列表。

2.功能注释与生物学解释-对差异表达的基因进行功能注释,包括富集分析、通路分析和基因功能类别分析等。

-通过生物学数据库查询和文献阅读,解释差异表达基因的生物学意义和可能的调控机制。

三、基因共表达网络分析1.相关性分析-计算基因间的相关系数,筛选出相关性较高的基因对。

-构建基因共表达网络,通过网络可视化方式展示基因间的关系。

2.模块发现和功能注释-使用聚类算法将基因分组成不同的模块,每个模块表示一组具有相似表达模式的基因。

-对每个模块进行功能注释,了解模块内基因的共同功能或通路。

四、基因云图和热图分析1.基因云图-使用基因注释信息和基因表达水平,绘制基因表达的云图。

-通过颜色和大小表示基因的表达水平、功能注释等信息。

2.热图分析-根据基因表达水平计算基因间的相似性,将相似性转换为颜色,绘制热图。

-热图可用于显示基因表达模式的相似性和差异。

五、整合分析与生物信息学工具1.基因集富集分析-将差异表达的基因列表输入基因富集分析工具,寻找与特定通路、功能或疾病相关的基因集。

2.数据可视化工具- 使用生物信息学工具和软件,如R、Bioconductor、Cytoscape等,进行数据可视化和交互式分析。

微阵列芯片

微阵列芯片
微阵列芯片
Microarray
1
OUTLINE
微阵列芯片概述
微阵列芯片如何工作?
微阵列芯片设计
两种主要的微阵列芯片
基于芯片的序列分析
微阵列芯片检测结果的分析
微阵列数据库
2
微阵列芯片概述
3
什么是微阵列芯片?
简单的概念:点样 + 杂交
定义:
– 将探针有规律地排列固定于载体上, 与标记荧光分子的样品进行杂交,通 过扫描仪扫描对荧光信号的强度进行 检测,从而迅速得出所要的信息
Cente -0.0 -1.0 0.0 -0.1 0.5 1.0 -0.2 -0.1
44
数据归一化
log intensity ratio
M
log intensity MA plot,M = log2(Ch1/Ch2); A=1/2(log2Ch1+log2Ch2)
A
45
基因表达差异的显著性分析
表达差异
表 达 水 平
相同条件下 均高表达
条件
51
微阵列数据库
52
基因表达数据库
Stanford Microarray Database (SMD) – /MicroArray/SMD/ – 原始数据、归一化数据和图像
The Gene Expression Database (GXD) – /mgihome/GXD/aboutGXD.s html
直方图
39
伪彩色阵列图
40
散点图
41
数据归一化
Ratios值的引入:
– 微阵列表达数据由于实验条件 与芯片的因素,检测到的信号强度 往往与细胞中实际的mRNA丰度之 间无对应关系

基因芯片及其数据分析

基因芯片及其数据分析

Page 3
2.基因芯片发展历史
Southern & Northern Blot
Dot Blot
Macroarray
Microarray
3.基因芯片癿杂交原理
如图,在一块基片表面固定了序列已知癿八核苷酸癿探针。当溶液中带有荧 光标记癿核酸序列TATGCAATCTAG,不基因芯片上对应位置癿核酸探针产 生互补匹配时,通过确定荧光强度最强癿探针位置,获得一组序列完全互补 癿探针序列。据此可重组出靶核酸癿序列。
Page 6
5.制备基因芯片癿固定方法
目前已有多种方法可以将寡核苷酸或短肽固定到固相支持 物上。这些方法总体上有两种,即原位合成( in situ synthesis )不合成点样两种。支持物有多种如玻璃片、 硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等,但需经特殊 处理。 作原位合成癿支持物在聚合反应前要先使其表面衍生出羟 基或氨基(视所要固定癿分子为核酸或寡肽而定)幵不保 护基建立共价连接;作点样用癿支持物为使其表面带上正 电荷以吸附带负电荷癿探针分子,通常需包被以氨基硅烷 或多聚赖氨酸等。
Page 7
6.基因芯片癿合成原理
基因芯片在片合成原理图 美国Affymetrix公司制备癿基因芯片产品在1.28*1.28cm2表面上可包含 300,000个20至25mer寡核苷酸探针,每个探针单元癿大小为10um X 10um。 其实验室芯片癿阵列数已超过到1,000,000个探针。
Page 8
Page 10
光纤微珠芯片癿组装
Page 11
光纤微珠芯片癿优点
光纤微珠芯片是利用独特癿微珠阵列(BeadArray)技术生产 癿芯片,具有高密度、高重复性、高灵敏度、低上样量、 定制灵活等特点,兊服了传统芯片癿多个技术瓶颈,丌仅 检测筛选速度很高,也显著降低了研究成本。光纤微珠芯 片有可能成为以后基因芯片癿发展方向。

GEO数据库简介

GEO数据库简介

GEO数据的数据检索——关键词
例如:在GEO Profiles数据库中可以用检索词 fto[Gene Symbol] AND (Smok*)搜索所有 与吸烟相关并包含肥胖基因的相关实验的基因 表达谱。
GEO数据的处理
以数据集组GDS402为例来介绍一下GEO数据 库提供的一些数据挖掘分析工具。
GEO (Gene Expression Omnibus)数据库简介
报告人:沈健 2014.3.8
近几年来,随着分子生物 学技术的发展,微阵列芯 片技术已成为生物学研究 最重要的实验之一,尤其 是基因芯片的广泛应用, 产生了海量的数据,为基 因研究提供大量高通量数 据资料。
基因芯片发展历程
(DNA&RNA印记杂交) (斑点印迹法)
数据集组(DataSets)
GEO存储的是一个分类广泛的、经过多种手段处理和 不同方法分析的高通量实验数据。为了说明这些内容 ,GEO还增添了一个辅助分析工具,该工具可以把被 提交的样本归纳集中到有生物学意义和在统计学上可 比较的GEO数据集组(GEO DataSets),能提供关 于一个实验的相关梗概,以此作为下游数据挖掘和数 据显示工具的基础。
平台(Platform)
平台是描述一联串在特定实验中被检测或被定量分析的
因素,同一个提交者、许多样本有关,是关于用于以高 通量方式检查样本的物理试剂的信息。比如寡核苷酸
探针组,cDNA, SAGE标签,抗体等。
平台(Platform)
平台数据包含阵列或序列 以及阵列平台的简要描述, 每一个平台都分配了一个 特有的检索号GPL***。
3. 直接从GEO数据库的ftp服务器下 载。ftp:///geo/
GEO数据的数据检索——方法

零基础大数据挖掘实例讲解—基因芯片数据库(二)

零基础大数据挖掘实例讲解—基因芯片数据库(二)

零基础大数据挖掘实例讲解—基因芯片数据库(二)2016-02-24Freescience由浙江大学医学院几个硕博士发起创建,旨在最广泛分享有价值的科研技能和知识;FreeScience的宗旨:“科学自由分享、人人平等,共求真理”。

先来解答下上期几个问题,文章的创新点在于首次整合了他人的肝内胆管癌(ICC)、肝细胞肝癌(HCC)和混合型肝癌基因芯片研究,做了类似meta一样的工作。

对于肝癌和正常肝这样的设计进行类似meta整合研究已经有许多报道,所以重复一样的工作是比较难发的。

而要寻找类似的idea可以从临床特征和分子角度去思考,例如找一些罕见的病理类型或原发灶v 转移灶或复发灶v原发灶的设计,还可以从miRNA,lncRNA,拷贝数,甲基化等不同分子角度去做类似meta一样的工作,只要是别人没做过的,都是好的idea。

接下来就是解决芯片数据哪里来,怎么找的问题。

这是文章中用到的数据库GEO和Array Express,也是全球最大两个基因芯片公共数据。

用过pubmed的小伙伴应该对geo的搜索不陌生吧。

这是Array Express的搜索界面本期先重点介绍geo数据库搜索流程1.确定关键词2.限定类型3物种选择4检测类型选择5记录信息6不断选择关键词反复验证根据流程共26个数据集,需进入到项目中具体查看实验设计的内容进一步查询判别。

具体解析:1.确定关键词:这里就以肝内胆管癌为关键词搜索,然后进入到项目中具体查看实验设计的内容,来人工寻找到肝内胆管癌(ICC),肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据。

当然也可以'intrahepatic cholangiocarcinoma and hepatocellular carcinoma'关键词搜索来缩小范围。

因为数据量不多,本着”宁可多搜不放过一个”的原则,尽量放宽搜索条件。

2.限定类型:这里选择Series,表示按数据集显示。

史丹福微阵列数据库 (SMD) 存有来自微阵列实验的原始的正规

史丹福微阵列数据库 (SMD) 存有来自微阵列实验的原始的正规

史丹福微阵列数据库生命科学院2002级生物技术孙广雷 021402172一、摘要史丹福微阵列数据库(SMD)存有来自微阵列实验的原始的正规化数据,同时它也为研究员提供网络接口来取回数据,分析数据,使数据可视化。

史丹福微阵列数据库眼前有两个目标,一是作为斯坦福大学正在研究中得出的微阵列数据的一个储藏位置,第二就是来推动曾经被出版或被研究人员公开发布的数据的公开传播。

更为重要的是它有属于在微阵列上被存放的DNA的生物学的数据和微阵列数据的连接(基因,及其他复制)。

史丹福微阵列数据库(SMD)利用许多公众的资源连接来传达一些相关生物学的信息及资料。

二、介绍微阵列实验通常被运行实施在基因组衡量尺度上的基因表达或DNA副本数字。

典型地数千DNA取样被放在载玻片上,同时在实验取样中的,被标记了的cDNA 和基因组DNA,被选择性的进行杂交编排。

然后载玻片上的图像被获得并且处理生成一个包含用数十个点来代表成千上万个数据点的数据文件。

虽然每个点突出的数据是那些实验的样品和控制样品之间的比,但是其他数值可能被用作滤除的标准来决定哪一些数据是可靠的。

因此,对每个点的全面分析需要用到对每个点所有数据的存取。

一个20000个点的单一微阵列可能在百万条数据的次序和实验的系列中产生,可能因此产生超过五千万个数据点。

史丹福微阵列数据库(SMD)的一个主要的目标要组织这笔巨大量的数据,使一个研究员能够过滤掉他们不需要的数据,而只取回那些他或她研究所需要的那部分数据, 然后在那一笔数据上进行分析和研究。

三、落实史丹福微阵列数据库(SMD)中的数据在英特网上是通过一个网络浏览器来进行存取的,没有对特别的软件客户计算机上的装置的需要。

更新运行在服务器上的软件,数据就可以自动映射到所有的客户使用端。

几个特征要求比较新近,使浏览器的Java脚本能够低些,多站台能不费事的访问SMD。

虽然一些特征确实需要最快更新,但是JavaScript使浏览器能够实现这样的功能,多种操作系统平台(MacOS,UNIX和窗口95/98/2000)均能够没有困难的存取SMD中的数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Agilent等芯片采用双荧光标记法检测和数据分 析。双荧光标记杂交技术中,两种不同样品的mRNA 被用不同的荧光标记。标记产物与芯片上的DNA探针
杂交后,在不同的激发波长和发射波长检测后,通过
激光共聚焦荧光扫描检测杂交信号。同一探针上的两
种不同荧光信号的相对强度被用于推算相应靶基因在
两种不同样品中的相对表达量。两个样品中通常一个 是对照样品,一个是待测样品。如果不同的芯片使用 相同对照样品,则不同芯片上的待测样品中基因表达 的水平也可被比较。
第十章 基因芯片微阵列数据库
基因芯片是所有生物芯片的佼佼者。其芯片制 作技术、数据分析方法及在各种生命科学领域内的 应用均遥遥领先于其他类型的生物芯片。
第一节 常用基因芯片及其数据库
一、Affymetrix芯片
Affymetrix基因芯片系同类产品的首创,
为最受欢迎的基因芯片之一,在生物各领域
应用广泛。
因芯片数据包括四项:
1、探针组代号。Affymetrix给每个探针组独特代号。
一般探针组代号与靶基因一一对应,但有例外。
2、表达值。经由MA55处理后得到的探针组表达值,
相当于靶基因表达值。
3、表达值预测。有三字母分别代表表达值是否真的存
在:P代表存在,A代表不存在,M代表介于两者之间。
基因表达的存在与否由统计学经分析探针组中每根探
芯片上的25核苷酸探针通过一种基于光刻合成 及组合化学的独特工艺直接在芯片上合成。芯 片设计的核心技术是探针对的使用:每一根匹 配探针(PM)均有一根相应的错误探针(MM) 与其相匹配。两个探针间的唯一区别在于第13 个核苷酸。PM的该位置核苷酸可同其靶基因完 全互补,MM则相反。这种设计利于对非特异杂 交作出修正。每一靶基因都有相应的多组探针 对。
原始基因芯片数据经过各种适当处理后即可用
于差异表达基因的筛选。筛选的核心是要回答
两个基本问题:一是对给定基因而言,其基因 表达程度是否有变化;二是若有变化,其差异 是否属实,即是否具有统计学意义。 计算基因的差异表达简单,但变化差异统 计学意义的衡量较复杂。
有多种建立已久的统计学方法可供选择,包 括参数类和非参数类。各种算法种类不少, 但多数最终均落点于衡量和比较组间差异与 组内差异。计算中产生的p值通常被用作衡 量统计学意义的指标。最常见的对p值为 0.05的解释是:相应的基因表达差异有5%
的统计参数,又能有效利用有限的样品。其基本方法是: 是从50个样品中随机选取45个样品,并用其建立一个预
测模型,然后用该模型来预测剩下的5个样品。如此多
次重复,最后对所有模型的预测效果做综合统计分析。
预测结果代表建立模型所选用的差异基因的综合预测效 果。
上(40%以上基因有表达)。
某些熟知的非调控基因的表达值也可被用
来检验数据质量。最常用的是GADPH及β -
actin。 Affmetrix的人基因芯片有这两个基
因的5’端和3’端的探针,每个基因5’端和3’
端表达值的比率应在1左右。0.2以下的比率表
示低质mRNA。
数据准备中另一个重要环节是异样样品探
筛选分析之前,来自微阵列的数据必须先被加
以清理,其中用到很多较为复杂的以统计学为 基础的数据处理方法,整个过程称数据准备。 数据准备必须先于任何数据分析。数据分 析是个复杂的过程,包括质量控制、异体探测 以及减少或除去系统误差为目的的数据调整。 此阶段研究人员必须根据其分析结果来决 定样品或数据的取舍。
样品有一一对应关系,则应选择做对应t检验。
对由t检验计算而来的p值应进行适当的调
整以纠正由于多重检验而带来的额外的假阳 性。可采用Bonferroni法及其改进的版本 (如Holm法或Hochberg法)。 差异倍数及从t检验而来的p值均可由微 软的Excel来计算。各种调节p值的算法则需 要用到较专业化的统计分析软件如R。
第三节 基因芯片数据分析的基本策略与方法
一、数据准备
首先从各种样品得来的原始表达值需要经过适 当比例的调整才能相互比较。这种调整称为数 据标准化,最常用的方法之一是比例缩放。 比例缩放的基本方法是将每枚芯片的所有原始 表达值放大或缩小一定倍数。最终使所有研究 中每个基因的中间值均为相等。
在实际数据处理中,目标中间值的选取往 往是由全部研究中芯片原始表达数据的总中间 值来决定。除按中间值缩放外,还可以按平均 值或平衡平均值进行按比例缩放。 平均值对异常超值的敏感度大大超过中间
针的表达值后决定。
4、表达之探测p值。统计学分析探针组每根探针的计
算结果,用来决定表达之探测所用的P或A或M。
Affmetrix的探针是依据GenBank,RefSeq及
dbEST数据库中的DNA序列设计而成,并利用
UniGene以及生物信息学中的片段组装技术来 获取探针的特异性。大多数探针的序列与DNA 正股序列相同(与mRNA序列相同),极少数与 DNA副股相同。探针多倾向位于基因的3’端, 但探针间有足够的距离以确保探针灵敏度。
双荧光标记芯片数据归一化处理:目的是消除
同一芯片上的两种荧光信号在标记、共聚焦扫
描和其他实验操作环节引入的系统误差。最简
单的方法就是将两种不同荧光信号各探针的平
均值或者中间值调整到相同。为进一步消除在
不同荧光强度范围内的标记差异的不同,常采
用LOWESS方法。经过归一化处理的信号强度
被综合而成代表两个样品中各个靶基因表达相
PCA分析会有一定程度的人为因素。尽管如 此,PCA分析应识别出明显的异样样品并指出可 能潜在的异样样品。 聚类技术是另一类有效的异样样品探测方 法。如果一个样品被归于异组,或其距组心的 距离大大超过同组其他成员的相应值,该样品 很可能会是异样样品,应对其进行进一步监测。
二、表达差异基因的筛选 表达差异基因的筛选通常涉及先计算某些统计 学数值,然后根据这些数值来决定基因的取舍。
值。实际工作中常用到平衡平均值(取平均值
之前除去异常超值-最大与最小的5%)。
下一步是检验数据的质量。数据质量会受到 mRNA样品质量及杂交技术操作质量的影响。 Affmetrix的MAS55处理过的数据包括一个代 表表达值是否真的存在的指标,其在所有基 因中的分布可在某种程度上反映出微阵列数
据的质量。P的百分比一般应在40%左右或以
型,模型证实。模型用变量即差异表达基因;
变量选择即差异表达基因选择。选择一个具 体算法来建立预测模型。算法可以是统计学 的,也可是人工智能的。具体算法选好后即 可用训练数据建立预测模型。
模型证实的目的是检测其实际预测效果,需用训练数据 以外的样品作为实际的预测对象。常用有效的模型证实 方法之一是交叉证实。其特点是既能获取模型证实所需 假如有两组样品A和B,每组25个样品。1/10交叉证实即
二、Agilent芯片和其他用于双荧光标记的芯 片及其数据分析 Agilent的长寡核糖核苷酸芯片是建立在 其母公司HP的喷墨打印技术上,把底物直接打 印到芯片上特定区域,在芯片上固相合成具有 特定核苷酸顺序的探针。探针长度60个核苷酸 残基,高于Affymetrix探针,大大提高了探针 特异性。每一靶基因通常只选一个探针。 Agilent也提供cDNA探针。
两个最常用的此类统计数值是差异倍数及从t检
验而来的p值。
差异倍数是基因表达变化量的衡量尺度。可
用算术平均值(a同b的算术平均值为(a+b)
/2)计算。亦可用几何平均值来计算( a同b的
几何平均值为10(
㏒ a+ ㏒ b
)/2或√ab)。
几何平均值受到个别超值的影响较小,常被用于组内
表达差异较强的微阵列数据。由t检验而来的p值是用
对强度的信号比值。
第二节 基因芯片数据处理与分析 所有相关的DNA微阵列数据分析按其目标所分 均可归两类:发现和预测。
发现:代谢调控中的新基因、潜在的新的药物
受体、新的致病基因。
预测:建立数学预测模型,用于药物毒性预测
及疾病诊断与分类。
发现和预测均需经过相同的基本分析途径:
有统计意义的差异表达基因的筛选。
来衡量基因表达差异的统计学意义的统计参数。P值
被用来估计两组看起来不等的平均值是否真的不一样。
P值越小,两组不等平均值的真的不同的几率越高, 表达差异越真实。做t检验要求数据的分布为正态分 布,而多数芯片数据不满足这一要求,因此要做数据 转换。t检验有独立或非对应及对应之分。其选择要
由具体的实验设计来决定。如对照组的样品和实验组
Concepts of Array Design
PM to maximize hybriegree of cross-hybridization
PM MM
Probe pair
Probe set
每根探针都会有一个相应的基因表达值。
但最终每个靶基因的表达值要通过独特的统计 学运算才能得到(如Affmetrix的MA55)。 对于Affmetrix的芯片,重要的是应懂得设 计核心是探针对;每个靶基因都有多组相应的 探针对,称探针组。 典型的经过MA55处理过的Affymetrix的基
的几率会是假的。统计学上称为假阳性。
建立数学预测模型是另一个基因数据分析的主要目标。
建立预测模型需要较多的样品。各组至少应有15个
以上。 预测模型的建立过程涉及两个主要步骤:模型建立与 模型证实。 模型建立的基本步骤包括从训练数据中选择变量,
采用一种统计学或人工智能的具体算法用所选的变量建
立预测模型,并利用训练样品对建立的预测模型作出初 步的检验。模型证实则需要用预测样品来衡量模型的实 际预测准确度。训练用样品和预测用样品不能等同,必 须是两组不同的样品。
三、差异基因的分组聚类 是常用的划分基因的分析手段,亦常用于样 品的划分与归类。将聚类技术用于微阵列数
据的分析,则是将基因或样品按其表达模式
相关文档
最新文档