实验6 基因芯片数据处理分析与GO分析

合集下载

基因芯片(Affymetrix)分析4:GO和KEGG分析

基因芯片(Affymetrix)分析4:GO和KEGG分析

基因芯片(Affymetrix)分析4:GO和KEGG分析基因列表的分析一般都会涉及GO和KEGG分析,Bioconductor 提供了很多这方面的R工具包。

选择工作目录,读入上一次分析和保存的数据:1 获取AGI、GO和KEGG注释ath1121501GO为拟南芥基因的GO数据库,ath1121501PATH 为KEGG pathway数据库。

但不是每一个基因(probeset)都有GO 或KEGG注释,哪些基因有注释可以用mappedkeys函数获得:有PATH注释的probesets只有3018个,而有GO注释的有2万多个。

通过ath1121501XXXX获得的数据是AnnotationDbi软件包定义的ProbeAnnDbBimap类型数据,它们可以用as.list转成列表形式。

列表内每一个基因的注释内容也是列表形式:转换成列表类型的ProbeAnnDbBimap数据仍然是列表,但PATH和ACCNUM数据是二级列表(列表下只有一级列表),而GO 数据是三级列表(列表下还有两级的列表)。

所以得先编写get.GO函数,它把as.list产生的GO三级列表转成二级结构,和AGI和KEGG 的列表类似,方便后面的统一处理:使用这个函数和下列代码就可以获得AGI、GO和KEGG注释:上面代码有两点要注意:•switch()函数使用。

switch()是非常神奇的条件转向开关函数,它的参数(列表)可以是各种类型,变量、表达式、函数等都可以使用。

•列表到数据框类型数据的转换,我们使用了plyr软件包的llply 和ldply函数。

plyr是很著名的软件包,用于数据糅合。

这不属于本节的讨论范围,先不介绍,请自行学习使用。

由于探针id是唯一的,上面的代码用它作为关键字糅合数据。

得到的结果是数据框:这样每一个探针都得到了对应的AGI、GO和KEGG途径注释(如果有)。

其他类型数据如Pubmed ID可以使用类似方法获得,但编程之前得先了解它们的数据结构,最直接的方法就是使用head,summary和str等函数查看。

基因芯片的数据分析

基因芯片的数据分析

基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。

然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。

基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。

根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。

(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。

1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。

1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。

一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。

由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。

处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。

该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。

生物信息学讲义——基因芯片数据分析

生物信息学讲义——基因芯片数据分析

生物信息学讲义——基因芯片数据分析生物信息学是指运用计算机技术和统计学方法来解析和理解生物领域的大规模生物数据的学科。

基因芯片数据分析是生物信息学研究的一个重要方向,通过对基因芯片数据进行分析,可以揭示基因在生物过程中的功能和调节机制。

本讲义将介绍基因芯片数据的分析方法和应用。

一、基因芯片数据的获取与处理基因芯片是一种用于检测和测量基因表达水平的高通量技术,可以同时检测上千个基因的表达情况。

获取基因芯片数据的第一步是进行基因芯片实验,如DNA芯片实验或RNA芯片实验。

实验得到的数据一般为原始强度值或信号强度值。

接下来,需要对这些原始数据进行预处理,包括背景校正、归一化和过滤噪声等步骤,以消除实验误差和提高数据质量。

二、基因表达分析基因芯片数据的最主要应用之一是进行基因表达分析。

基因表达分析可以揭示在不同条件下基因的表达模式和差异表达基因。

常用的基因表达分析方法包括差异表达分析、聚类分析和差异共表达网络分析等。

差异表达分析常用来寻找在不同条件下表达差异显著的基因,如差异表达基因的筛选和注释;聚类分析可以将表达模式相似的基因分为一组,如聚类分析可以将不同样本中的基因按照表达模式进行分类;差异共表达网络分析可以找到一组在差异表达样本中共同表达的基因,揭示潜在的功能模块。

三、功能富集分析对差异表达基因进行功能富集分析可以帮助我们理解这些基因的生物学功能和参与的生物过程。

功能富集分析可以通过对差异表达基因进行GO(Gene Ontology)注释,找到在特定条件下富集的生物学过程、分子功能和细胞组分等。

另外,功能富集分析还可以进行KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析,找到差异表达基因在代谢通路和信号传导通路中的富集情况。

四、基因调控网络分析基因调控网络分析可以帮助我们揭示基因间的调控关系和寻找关键调控基因。

基因调控网络是基于差异表达数据构建的,它可以包括转录因子-靶基因调控网络和miRNA-mRNA调控网络等。

免疫学中基因芯片的应用及数据分析方法

免疫学中基因芯片的应用及数据分析方法

免疫学中基因芯片的应用及数据分析方法基因芯片是一种新型的生物技术工具,它被广泛运用于生物学研究、医学诊断以及农业等领域。

在免疫学研究中,基因芯片可以用来分析基因表达,研究免疫系统的生物学和病理生理学,以及开发新的免疫疗法。

本文将探讨免疫学中基因芯片的应用及数据分析方法。

一、基因芯片在免疫学研究中的应用基因芯片技术基于DNA序列互补的原理,可以同时探测几千个基因在不同生理和病理条件下的表达水平。

在免疫学研究中,基因芯片技术可以用来研究免疫系统中与疾病相关的基因表达变化,为免疫治疗的开发提供重要的信息。

1. 免疫系统基因表达谱的分析免疫系统是一种复杂的网络,包括免疫细胞、激素和细胞因子等多种成分。

在不同生理和病理条件下,免疫系统中的基因表达模式会发生变化,这些变化与多种疾病的发生和发展密切相关。

利用基因芯片技术可以对免疫系统中的基因表达谱进行全面的分析,从而发现与免疫系统相关的新的治疗靶点。

2. 免疫治疗的监测免疫治疗是一种新兴的治疗模式,包括肿瘤免疫治疗、自身免疫病治疗以及感染病治疗等。

基因芯片技术可以用来监测免疫治疗的效果,并评估治疗的预后。

例如,利用基因芯片技术可以分析免疫治疗后T细胞的基因表达谱,从而预测治疗是否成功。

3. 病原体识别和分析免疫系统的主要功能是识别和清除病原体,基因芯片技术可以用来识别和分析各种病原体的基因表达模式,从而发现新的病原体治疗靶点,为针对性治疗提供依据。

二、基因芯片数据分析方法基因芯片技术可以同时测量成千上万个基因的表达水平,产生的数据量很大,数据分析也是一个复杂的过程。

一般情况下,基因芯片数据分析包括数据预处理、差异基因筛选、聚类分析、生物学意义的解释等几个步骤。

1. 数据预处理数据预处理指的是原始的基因芯片数据清洗与归一化的过程,这是数据分析的关键步骤。

数据预处理的目的是剔除芯片噪声、基准样本处理、将不同芯片数据进行标准化处理,提高数据质量和可靠性,为后续分析打下基础。

基因芯片检测原理及简要过程

基因芯片检测原理及简要过程

基因芯片检测原理及简要过程1.样本准备:首先需要从目标生物体中获得样本,可以是DNA、RNA或蛋白质。

样本处理的方式根据研究目的不同而不同,可能需要提取DNA或RNA,并对其进行纯化和扩增。

2.样本标记:为了将样本引入芯片中进行检测,样本需要与荧光标记物结合。

在样本处理过程中,可以使用反应物来标记样本中的基因或序列。

标记物的选择基于实验设计和研究目的。

3.杂交:标记的样本与芯片上的核酸探针进行杂交反应。

核酸探针是单链DNA分子,具有与目标样本中的DNA互补的序列。

这种杂交反应是通过将样本和核酸探针同时加入一个反应混合物中,使它们相互结合。

4.洗涤:经过杂交反应后,需要对芯片进行洗涤以去除未结合的标记物和杂交物。

这个过程是为了减少背景信号,提高检测的特异性和灵敏度。

5.扫描:在洗涤后,芯片被放入一台专门的扫描仪中,这个扫描仪使用激光或LED光源来激发标记物的荧光信号。

随后,该信号被检测并记录下来。

6.数据分析:通过扫描仪获得的数据可以用来分析芯片上的每个探针的荧光强度。

根据荧光强度的变化,可以推断出样本中的基因表达和变异情况。

通常使用的数据分析方法包括基因差异分析、聚类分析、富集分析和通路分析等。

总结起来,基因芯片检测是一种高通量的基因分析技术,可以同时检测数以千计的基因或序列,用于揭示基因表达和变异的情况。

其基本原理是通过将样本与芯片上的核酸探针进行杂交,再通过标记物的荧光信号检测和数据分析,得出样本中的基因信息。

这项技术已经广泛应用于基因组学、遗传学、癌症研究等领域,促进了对基因功能和疾病机制的理解。

实验6 基因芯片数据处理分析与GO分析

实验6 基因芯片数据处理分析与GO分析
实验六: 基因芯片数据处理和分析、GO 分析
实验目的:
1. 学会使用 TM4 软件集对芯片数据进行处理和分析,学会使用 Cluster 进行聚类分析 3. 学会 GO 语义及其相关注释的浏览与搜索,学会使用 DAVID 进行基因集功能富集分析
实验内容:
一、基因芯片数据处理和分析
基因芯片或称微阵列(microarray)能够平行、高通量地检测成千上万基因转录本的表 达水平, 应用芯片技术可以比较正常和异常细胞中的表达, 帮助识别疾病相关基因和药物作 用靶标,分析复杂疾病的致病机制,也可以揭示基因间的表达调控关系。基因芯片数据处理 包括芯片杂交实验芯片数据采集(扫描)数据基本处理提交数据库生物信息学分析 等步骤,涉及很多不同的实验类型。这里介绍 TIGR 中心开发的 TM4 软件包,应用 MeV、 Cluster 和 TreeView 等软件对相关基因表达谱进行聚类分析和差异表达基因的筛选。
Figure 6.11 ( 2 ) 数 据 导 入 : 点 击 “Browse” 按 钮 , 打 开 软 件 自 带 的 表 达 量 数 据 文 件 :
TDMS_format_sample.txt , 样 本 数 据 便 自 动 加 载 到 “Expression File Loader” 窗 口 下 方 的 “Expression Table”栏(Figure 6.12) 。实验数据类型有两个选项:双色芯片(Two-color Array) 和单色芯片(Single-color Array) ,本例选择双色芯片。单击“Load”按钮将数据导入。
Figure 6.12 (3)显示基因表达情况:通过 Multiple Array Viewer 窗口看热图(Heat map) ,了解每 个基因在不同样本中的相对表达量(Figure 6.13) 。

基因芯片数据处理流程与分析介绍

基因芯片数据处理流程与分析介绍

基因芯片数据处理流程与分析介绍关键词:基因芯片数据处理当人类基因体定序计划的重要里程碑完成之后,生命科学正式迈入了一个后基因体时代,基因芯片(microarray)的出现让研究人员得以宏观的视野来探讨分子机转。

不过分析是相当复杂的学问,正因为基因芯片成千上万的信息使得分析数据量庞大,更需要应用到生物统计与生物信息相关软件的协助。

要取得一完整的数据结果,除了前端的实验设计与操作的无暇外,如何以精确的分析取得可信数据,运筹帷幄于方寸之间,更是画龙点睛的关键。

基因芯片的应用基因芯片可以同时针对生物体内数以千计的基因进行表现量分析,对于科学研究者而言,不论是细胞的生命周期、生化调控路径、蛋白质交互作用关系等等研究,或是药物研发中对于药物作用目标基因的筛选,到临床的疾病诊断预测,都为基因芯片可以发挥功用的范畴。

基因表现图谱抓取了时间点当下所有的动态基因表现情形,将所有的探针所代表的基因与荧光强度转换成基本数据(raw data)后,仿如尚未解密前的达文西密码,隐藏的奥秘由丝丝的线索串联绵延,有待专家抽丝剥茧,如剥洋葱般从外而内层层解析出数千数万数据下的隐晦含义。

要获得有意义的分析结果,恐怕不能如泼墨画般洒脱随兴所致。

从raw data取得后,需要一连贯的分析流程(图一),经过许多统计方法,才能条清理明的将raw data整理出一初步的分析数据,当处理到取得实验组除以对照组的对数值后(Iog2 ratio),大约完成初步的统计工作,可进展到下一步的进阶分析阶段。

Rosetta profile error model calculation2Sqweeze replicated probes^Normalize intensities (exclude flagged ^nd wontroldata) with median scaling"Basic statistic plot and Pearson correlationcoefficient^Combine tech nicar repeatPairwise ratid calculation图一、整体分析流程。

基因芯片及其数据分析

基因芯片及其数据分析

Page 3
2.基因芯片发展历史
Southern & Northern Blot
Dot Blot
Macroarray
Microarray
3.基因芯片癿杂交原理
如图,在一块基片表面固定了序列已知癿八核苷酸癿探针。当溶液中带有荧 光标记癿核酸序列TATGCAATCTAG,不基因芯片上对应位置癿核酸探针产 生互补匹配时,通过确定荧光强度最强癿探针位置,获得一组序列完全互补 癿探针序列。据此可重组出靶核酸癿序列。
Page 6
5.制备基因芯片癿固定方法
目前已有多种方法可以将寡核苷酸或短肽固定到固相支持 物上。这些方法总体上有两种,即原位合成( in situ synthesis )不合成点样两种。支持物有多种如玻璃片、 硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等,但需经特殊 处理。 作原位合成癿支持物在聚合反应前要先使其表面衍生出羟 基或氨基(视所要固定癿分子为核酸或寡肽而定)幵不保 护基建立共价连接;作点样用癿支持物为使其表面带上正 电荷以吸附带负电荷癿探针分子,通常需包被以氨基硅烷 或多聚赖氨酸等。
Page 7
6.基因芯片癿合成原理
基因芯片在片合成原理图 美国Affymetrix公司制备癿基因芯片产品在1.28*1.28cm2表面上可包含 300,000个20至25mer寡核苷酸探针,每个探针单元癿大小为10um X 10um。 其实验室芯片癿阵列数已超过到1,000,000个探针。
Page 8
Page 10
光纤微珠芯片癿组装
Page 11
光纤微珠芯片癿优点
光纤微珠芯片是利用独特癿微珠阵列(BeadArray)技术生产 癿芯片,具有高密度、高重复性、高灵敏度、低上样量、 定制灵活等特点,兊服了传统芯片癿多个技术瓶颈,丌仅 检测筛选速度很高,也显著降低了研究成本。光纤微珠芯 片有可能成为以后基因芯片癿发展方向。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2、差异表达基因筛选与聚类分析
2.1、MeV 芯片数据分析的图形化显示 MutgiExperiment Viewer(MeV)是 TM4 软件包的子软件之一,其主要功能是实现芯片 数据分析的图形化显示。MeV 的最新版本在 TM4 主页(/mev.html)下获 取。此软件免安装,解压后即可使用。 解压后进入该软件所在的文件夹, 双击 TMEV.bat 文件打开软件的主界面 (Figure 6.10) , 由两个窗口组成,上方为应用程序窗口,下方为数据处理窗口。通过应用程序窗口可以新建 许多数据处理窗口从而实现多任务分析过程。
Figure 6.9 点击“Execution”按钮,并按照提示将结果文件保存,选好路径,软件会按照设计的流程 来处理数据。从界面下方“Process Status”处可以查看软件当前的运行情况。运行结束后,可 直接到之前选好的路径下查看结果文件 testdata_MDS.mev, 该文件中的数据已完成过滤和标 准化处理。 建议用 Excel 查看,打开文件后,计算 IB/IA 值(ratio) ,当 ratio=0.5~2.0 表示与探针杂 交时,基因表达没有显著差异。当 ratio>2 或 ratio<0.5 表示基因表达呈显著差异,分别称为 上调或下调。但这种方法比较粗略,不具有统计学意义,一般用于大规模初筛。
Figure 6.8 (4) 结果文件: 点击常用工具栏中最后 1 个图标 , 在流程窗口中显示写入数据“Write
Data”图标(Figure 6.9) ,这是将整个处理流程写到结果文件中。右侧的“Parameter”窗口有两 种选择: 勾选“Virtual Trim”表示结果文件中保留被过滤的探针, 但其信号值用零表示; 反之, 不保留被过滤的探针。勾选“Output Trimmed Data”则表示以单独文件列出被过滤的探针;反 之,则不单独列出。
Figure 6.11 ( 2 ) 数 据 导 入 : 点 击 “Browse” 按 钮 , 打 开 软 件 自 带 的 表 达 量 数 据 文 件 :
TDMS_format_sample.txt , 样 本 数 据 便 自 动 加 载 到 “Expression File Loader” 窗 口 下 方 的 “Expression Table”栏(Figure 6.12) 。实验数据类型有两个选项:双色芯片(Two-color Array) 和单色芯片(Single-color Array) ,本例选择双色芯片。单击“Load”按钮将数据导入。
Figure 6.10 MeV 支持常见的芯片数据格式,如 mev、geo、gpr 以及表格格式等。这里以表格格式 的数据文件为例说明,介绍使用 MeV 进行聚类分析和差异表达基因的筛选。 ( 1 )选择数据格式:在软件界面的 “Multiple Array Views” 窗口中选择 “File—>Load Data”,弹出“Expression File Loader”窗口(Figure 6.11) 。其中表格格式为默认设置,如采用 其他数据格式,需要在“Select File Loader”菜单中指定,另作调整。
1、芯片数据的获取与处理
芯片杂交试验完成后, 借助扫描仪将杂交信号形成 TIF 图像, 通过图像分析软件从中提 取原始杂交信号强度值, 并将其转换成数字文本文件。 但是不同扫描仪产生的数据格式不尽 相同,因此,需要对不同平台的数据进行转换和整合。 1.1、ExpressConverter 数据格式转换 TM4()的 ExpressConverter 可将其他格式的数据文件转换为 MEV 格式以供后续分析。由于该软件的运行需要 Java 运行环境支持,故第一次使用之前需要预 先安装 Java Runtime Environment() 。完成 ExpressConverter 安装后,在 开始菜单中找到 Expressconverter 并打开,出现软件主界面(Figure 6.1) 。
Figure 6.6 ,在流程窗口中显示过滤强度 ( 2 )数据过滤:点击常用工具栏中第 14 个图标 “Intensity Filter”图标(Figure 6.7) 。然后,在“Parameter”窗口中选择 Cy5 与 Cy3 的信号强度 阈值,默认值为 10000。
Figure 6.7 (3)数据标准化:分别点击常用工具栏中第 9 个 和第 13 个图标 ,在流程窗口中 显示“Locfit Normalization(Lowess)”和“Standard deviation regularization”图标(Figure 6.8) , 这两个数据标准化步骤均采取默认参数。
Figure 6.2 (3)在界面下方选择“Integrated”,然后在“File”菜单下选择“Start converting”,开始转 换格式,直到界面下方显示“Converting is successful”,完成转换。此时,在原目录中会出现 文件名相同但扩展名不同的.mev 和.ann 文件,它们可用记事本或 Excel(推荐)打开。 .mev 文件包含注释(comments)和数据(data) ,其中以“#”开头的注解部分包括文件版 本号、生成日期、数据的行数等基本信息,数据部分则详细地列出芯片中每个探针的位置、 信号强度等杂交信息(Figure 6.3) 。例如,UID 为探针标识号;IA、IB 分别表示 Cy3(对照) 和 Cy5(样本)的杂交信号强度;R 和 C、MR 和 MC、SR 和 SC 这三对数值指定了探针在 芯片中的位置;其他各列参数分别反映对照(A)和样本(B)的杂交背景、面积、信号强 度的中值等。
Figure 6.1
ExpressConverter 可以读取 Genepix、ImaGene、ScanArray、ArrayVision、Agilent、TAV、 Customized、Gal 等格式的数据并将其转换成 TM4 能够使用的 MEV 格式。这里以 Genepix 文件转换为例,说明 ExpressConverter 的使用过程。 (1)在”Input Format”菜单中选择“GenePix”,指定它为读入文件格式。 (2)在“File”菜单中选择“Select input files”,选定一个或多个需要转换的 GenePix 文件 (扩展名为.gpr) 。本例从该软件的默认安装目录下,即 C:\ExpressConverter\samples\中选择 testdata.gpr 文件(Figure 6.2) 。
Figure 6.5 这里以 ExpressConverter 转换产生的 testdata.mev 为例,介绍使用 MIDAS 进行双色(双 通道)芯片的数据处理过程。 (1)数据读取:点击常用工具栏中左起第 5 个“Read Single Data File”的图标 ,然后 在右侧参数(Parameters )窗口的“Data File Name” 项的 “Value”栏中指定读取 testdata.mev (Figure 6.6) ,并同时勾选 A 和 B 两个通道背景校正选项“ChannelA Background Checking” 和“ChannelB Background Checking”,信噪比阈值(Signal/Noise Threshold)设定为 2。通常 筛选差异表达基因时,只有当探针杂交的信号值大于背景值时,才能进入下游分析;如杂交 信号值低于阈值,其探针会被过滤。
Figure 6.12 (3)显示基因表达情况:通过 Multiple Array Viewer 窗口看热图(Heat map) ,了解每 个基因在不同样本中的相对表达量(Figure 6.13) 。
Figure 6.13
(4) SAM 参数设置: SAM 是差异表达分析的一种算法。 单击常用工具栏上的“Statistics” 按钮, 选择“Significance Analysis for Microarrays”,弹出“SAM Initialization”窗口 (Figure 6.14) 。 根据以下 5 个数据分别设置参数:两组不成对(Two-class unpaired) 、两组成对(Two-class paired) 、多组(Multi-class) 、一组(One-class) 、Censored Survival。本例选择两组不成对数 据,在“Group Assignments”选框中,将 10 个样本分成两组:将 Sample1~ Sample5 设定为 Group A, Sample6~ Sample10 设定为 Group B。单击“OK”按钮,完成 SAM 参数设置。
Figure 6.15 (6)结果分析图:主界面左侧的导航栏 SAM(1)查看或导出结果(Figure 6.16) 。有四 种不同类型:Expression Images、Centroid Graph、Expression Graphs、Table Views表达基因(Positive Significant Genes) 、显著负向表达 基因(Negative Significant Genes) 、正负向均为表达差异显著基因(All Significant Genes) 、 Non-significant Genes(正负向均为表达差异不显著基因)四种情况。
Figure 6.3
.ann 文件是一个芯片注释文件,用于存储每个探针的注释信息。其中 UID 表示探针的 标识号,R 和 C 分别表示探针在芯片中的位置,Name 和 ID 分别表示探针所代表的基因名 和检索号(Figure 6.4) 。
Figure 6.4 1.2、MIDAS 数据过滤和标准化 芯片杂交试验所产生的原始数据需要对低质量数据作过滤处理, 即表达水平是负值或很 小的数据或明显的噪音数据, 凡杂交信号值低于阈值的探针应予剔除, 使其对应的基因不再 进入下游的分析。由于芯片数据一般呈偏态分布,因此还需要对数据进行标准化处理,同时 还要消除实验操作造成的系统误差。 在 TM4 中 , 数 据 的 过 滤 标 准 化 通 过 MIDAS 软 件 完 成 , 下 载 地 址 为 : /midas.html。此软件免安装,下载后解压即可使用。进入该软件所在文件 夹,双击 Midas.bat 文件,便出现 MIDAS 软件主界面(Figure 6.5) 。
相关文档
最新文档