芯片数据预处理方法-

合集下载

基因芯片数据预处理过程

基因芯片数据预处理过程
基因芯片数据预处理是指对原始基因芯片数据进行处理、清洗和标准化的过程。

下面是基因芯片数据预处理的主要步骤：
1. 数据导入和存储：将基因芯片数据从原始格式导入到计算机中，并确定存储格式，如矩阵形式。

2. 数据清洗：去除无效数据、缺失数据、异常值和重复数据，以确保数据的质量和一致性。

3. 数据标准化：由于基因芯片数据通常具有不同的量级和分布，需要对数据进行标准化，以便在后续的分析中比较和综合不同样本或基因的表达数据。

常用的标准化方法有Z-score标准化
和最大最小值归一化等。

4. 数据变换：对数据进行变换，以满足统计分析的假设前提。

常见的变换方法包括对数变换、幂变换和Box-Cox变换等。

5. 数据分割：将数据按照实验组和对照组分割，以便在差异分析中进行比较。

6. 批次效应校正：由于实验过程中可能存在批次效应，即同一批次下的样本可能具有相似的表达模式，因此需要对数据进行批次效应校正，以消除批次效应对差异分析的影响。

7. 基因筛选：基因芯片数据通常包含大量的基因，为了减少多重比较问题和提高模型的可解释性，需要对基因进行筛选，选
择具有显著差异表达的基因进行后续分析。

8. 数据集成和整合：将不同芯片平台或实验中得到的数据进行整合，以增加样本量和数据的可靠性。

以上是基因芯片数据预处理的一般步骤，根据具体的研究目的和数据特点，可能还会有其他特定的处理方法。

芯片良率模型-概述说明以及解释

芯片良率模型-概述说明以及解释1.引言1.1 概述概述部分的内容应该包含对芯片良率模型的背景和基本概念的介绍。

可以按照以下方式组织：概述：芯片是现代电子领域中的重要组成部分，而芯片的良率模型则是对芯片生产过程中缺陷数量和良品数量的描述和预测模型。

芯片的良率模型在芯片设计、生产、测试和改进过程中起着至关重要的作用。

通过建立合适的芯片良率模型，我们可以更好地预测芯片的制造质量，提高芯片的生产效率和产品可靠性。

在芯片制造过程中，由于材料、工艺和设备的不同，可能会产生一些缺陷。

这些缺陷可能导致芯片的性能下降或者完全失效，从而影响到芯片的良率。

因此，建立一个准确可靠的芯片良率模型成为了芯片制造和改进的关键。

芯片良率模型的核心概念是对缺陷数量和良品数量的统计分析和建模。

通过对大量的芯片样本进行测试和分析，可以得到不同工艺参数和设备条件下的芯片良率数据。

基于这些数据，我们可以利用统计学和数学建模方法，建立起芯片良率模型。

对于芯片制造企业和研发人员而言，芯片良率模型的建立意义重大。

它不仅可以帮助企业提前发现和解决芯片制造中的问题，减少生产成本和不良品数量，还可以指导设计人员优化芯片的结构和工艺，提高芯片的可靠性和性能。

此外，芯片良率模型还可以为芯片的可控制造提供依据，提高生产过程的稳定性和一致性。

总之，芯片良率模型是对芯片制造过程中缺陷数量和良品数量的描述和预测模型。

它在芯片设计、生产、测试和改进中起着重要的作用，对于实现高效、可靠和可控的芯片生产具有重要意义。

接下来的文章将进一步介绍芯片良率模型的建立方法和应用前景。

文章结构部分的内容应该包括对整篇文章的章节和各个章节的内容进行简要介绍。

在这个特定的文章中，可以按照以下方式编写1.2 文章结构部分的内容：1.2 文章结构本文主要围绕芯片良率模型展开，通过以下章节对该主题进行详细讨论。

第一章引言引言部分首先对芯片良率模型的概述进行介绍，包括定义和意义。

随后，结合文章结构和目的，为读者提供清晰的阅读指南。

chip实验

Chip实验存在的问题和挑战
• Chip实验技术仍面临成本高、实验操作复杂、数据分析难度大
等问题，需要进一步改进和优化
• 通过改进芯片设计和实验技术，可以降低实验成本和误差，提
高实验结果的可靠性
• 通过引入新的数据分析和生物信息学方法，可以提高数据分析
的准确性和效率，挖掘更多生物信息
对未来Chip实验的
信度和生物学意义
表达谱，常用的芯片类型有抗体芯片、
多肽芯片等
Chip实验的优缺点
Chip实验的缺点主要有成本高、实验操作复杂、数据分析难度大
• 芯片制作和实验操作需要较高的技术要求，成本较高
• 实验过程中容易产生误差，需要严格的实验质量控制
• 数据量庞大，需要专业的生物信息学知识和统计分析方法进行分析
特异性结合
Chip实验通常采用荧光标记或放射性
标记方法
• 探针是一段与目标分子互补的DNA
• 荧光标记法是通过荧光染料标记目标
或RNA序列
分子，然后通过荧光扫描仪检测信号
• 通过探针与目标分子的结合，实现对
• 放射性标记法是通过放射性同位素标
目标分子的检测
记目标分子，然后通过放射性探测器检
测信号
Chip实验的技术手段
• 网络图是一种用于展示基因或蛋白质之间相互关系的图像，可
以帮助理解生物过程中的相互作用
06
Chip实验技术的发展趋
势
Chip实验技术的创
新
• Chip实验技术的创新主要体现在芯片设计、实验技术、数据分
析方法等方面
• 芯片设计方面，可以通过优化探针排列、提高探针密度等方法，
提高芯片的检测灵敏度和特异性
1990年代末期，蛋白质组学芯片技术逐渐兴起

芯片数据预处理方法

ห้องสมุดไป่ตู้
2.3 提取表达值
由于芯片数据的小样本和大变量的特点，导致数据分布呈偏态、标准差大。对数转换能使上调、下调的基因连续分布在0的周围，更加符合正态分布，同时对数转换使荧光信号强度的标准差减少，利于进一步的数据分析。
cDNA芯片：对双通道数据使用Cy5（红）和Cys3（绿）两种荧光标记分别标记 case和control样本的cDNA序列。扫描仪采用两种波长对基因芯片的图像进行扫描，根据每个点的光密度值计算相对应的绝对表达量(intensity)；然后图像分析软件通过芯片的背景噪音以及杂交点的光密度分析，对每个点的intensity校准，利用Cy5/Cy3的值获取case与control组不同基因的表达值ratio（（R/G ratio）；一般选择以2为底的对数转化数据，比如R/G=1，则 log2R/G=0，即认为表达量没有发生变化，当R/G=2 或者，R/G=0.5，则log值为1 或–1，这是可以认为表达量都发生两倍的变化。
信号检测与分析
基因芯片的实验流程（双通道）
单通道/双通道基因芯片实例
基因芯片数据分析：对从基因芯片高密度杂交点阵图中提取的杂交点荧光信号进行定量分析，通过有效数据筛选和相关基因表达谱聚类，发现基因的表达谱和功能之间的联系。
杂交完成后，要对基因芯片进行“读片”，即应用激光共聚焦荧光扫描显微镜，对基因芯片表面的每个位点进行检测。
对数据的删除，通常是删去所在的列向量或行向量。一个比较常用的做法是，事先定义个阈值M。若行（列）向量中的缺失数据量达到阈值M，则删去该向量。若未达到M，有两种方法处理，一是以0或者用基因表达谱中的平均值或中值代替，另一个是分析基因表达谱的模式，从中得到相邻数据点之间的关系，据此利用相邻数据点估算得到缺失值（类似于插值）。填补缺失值（ k临近法）：利用与待补缺基因距离最近的k个临近基因的表达值来预测待填补基因的表达值。根据邻居基因在样本中的加权平均估计缺失值。

基因芯片在药物疫苗研发中的应用考核试卷

A.疫苗候选分子的筛选
B.疫苗效果的评价
C.疫苗不良反应的监测
D.疫苗的大规模生产
8.基因芯片的数据分析方法包括以下哪些？（）
A.图像分析
B.数据预处理
C.差异表达分析
D.功能注释
9.基因芯片实验中可能出现的误差来源包括以下哪些？（）
A.样本污染
B.杂交条件不一致
C.数据分析错误
D.芯片质量差异
10.以下哪些疾病可以利用基因芯片技术进行疫苗研发？（）
A.分子杂交
B.质谱分析
C.电泳分离
D.荧光定量
2.基因芯片在药物疫苗研发中主要用于哪一项工作？（）
A.疫苗成分分析
B.疫苗效果评估
C.疫苗生产
D.疫苗储存
3.下列哪一项是基因芯片技术的优点？（）来自A.成本低B.操作简便
C.高通量
D.特异性差
4.基因芯片在疫苗研发过程中，主要检测哪一类基因？（）
A.病毒基因
A.提取总RNA
B.提取DNA
C.制备蛋白质
D.制备细胞悬液
8.以下哪种荧光标记物常用于基因芯片实验？（）
A. Cy3
B. FITC
C. DAPI
D. Texas Red
9.基因芯片实验中，杂交反应通常在以下哪个条件下进行？（）
A.高温
B.低温
C.高压
D.酸性
10.以下哪种方法可用于基因芯片的清洗？（）
2.基因芯片实验步骤：样本准备（提取RNA，反转录为cDNA，掺入荧光标记），杂交（与芯片上的探针杂交），清洗（去除未结合的探针），数据分析（图像分析，数据预处理，差异表达分析）。
3.优势：高通量、高灵敏度、快速、自动化程度高。挑战和限制：数据解释困难、成本较高、需要高质量样本、不能检测未知基因。

组织芯片制作流程及注意事项

组织芯片制作流程及注意事项一、组织芯片（OrganonChip，简称OoC）技术作为生物医学工程领域的创新之一，旨在模拟人体器官的微环境，为药物测试和疾病研究提供高度精确的实验平台。

本文将详细探讨组织芯片的制作流程及在实验过程中需要注意的关键事项。

二、组织芯片制作流程1. 设计与布局制作组织芯片需要一个精确的设计。

设计师必须考虑到模拟器官的结构、功能需求以及与外部环境的交互。

在这一阶段，CAD（计算机辅助设计）软件和仿真工具被广泛用于模拟和优化设计。

2. 材料选择与预处理选择合适的材料对于组织芯片的成功制作至关重要。

常用的材料包括聚合物、玻璃和硅等。

在使用前，这些材料通常需要经过表面处理或功能化，以增强其生物相容性和化学稳定性。

3. 制造芯片基板制造芯片基板可以通过微纳米加工技术实现，例如光刻、蚀刻和沉积。

这些技术能够精确地控制微米级的结构和通道，以满足组织芯片对于结构复杂性和流体动力学特性的要求。

4. 组织细胞培养一旦芯片基板制备完成，就可以开始进行细胞培养。

选择适当的细胞类型并将其培养在芯片内部的指定区域。

这需要严格控制细胞密度、培养介质和培养条件，以确保细胞的健康和功能活性。

5. 模拟生理环境组织芯片的核心是模拟器官的生理环境。

通过微流控技术控制介质的流动和化学梯度，模拟体内器官的微环境。

这不仅包括细胞的供养和排泄，还涉及到机械性刺激和生物化学信号的模拟。

6. 数据采集与分析在进行实验过程中，必须实时采集和分析数据。

传感器和成像设备用于监测细胞的生长状态、药物反应和疾病模型的进展。

数据分析则需要利用统计学和计算模型来解释实验结果并提取关键信息。

三、注意事项1. 生物安全性组织芯片设计和制作过程中必须严格遵循生物安全性标准。

使用的材料和培养条件必须能够保证细胞的健康和稳定性，避免对实验人员和环境造成潜在风险。

2. 实验重复性为了确保实验结果的可靠性和可重复性，必须严格控制每一批次组织芯片的制作工艺和细胞培养条件。

kegg与go通路数据库介绍功能富集软件介绍

42
GO组成
GO提供了一系列的语义（terms）用来描述基因、基因产物的特性。分三类：

1. 细胞组分(Cellular Component)：用于描述亚细胞结构、位置和大分子复合物，如细胞核、端粒等； 2. 分子功能(Molecular Function)：用于描述基因、基因产物个体的功能，如酶活性，分子结合等；
41
GO 简介

GO (gene ontology)是基因本体联合会(Gene Ontology Consortium)所建立的数据库，旨在建立一个适用于各种物种的，对在不同数据库中的基因和蛋白质产物进行限定和一致性描述的，并能随着研究不断深入而更新的语义词汇标准。该数据库最初是由1998年对三个模式生物数据库的整合开始：the FlyBase (果蝇数据库)，the Saccharomyces Genome Database(酵母基因组数据库SGD) 和 the Mouse Genome Informatics(小鼠基因组数据库MGI)。随后，GO 不断发展扩大，现在已是包含多种动物、植物、微生物的数据库。

2
下载数据

预处理的数据： E-GEOD 18842.processed.1.zip 原始数据： E-GEOD-18842.raw.1.zip E-GEOD-18842.raw.2.zip E-GEOD-18842.raw.3.zip 样本信息： E-GEOD-18842.sdrf.txt 平台信息： A-AFFY-44.adf.txt
3

芯片数据预处理步骤

1. 背景校正(Background Correction)； 2. 标准化(Normalization); 3. 合并(Summary).

基因芯片的操作流程及步骤

02
基因芯片操作流程
基因芯片的设计与制备
01
02
03
确定目标基因
根据研究目的，确定需要检测的目标基因或基因组区域。
设计探针
根据目标基因序列，设计特异性捕获探针，确保探针的特异性、灵敏度和稳定性。
制备芯片
将探针合成并固定在芯片基质上，形成基因芯片。
样本准备
样本收集
采集待检测样本，如组织、血液、细胞等。
背景校正
通过特定的算法和技术，对基因芯片中的背景信号进行校正，排除非特异性信号和背景噪声的干扰，提高数据的准确性和可靠性。
数据分析与结果解读
数据分析
运用统计分析、机器学习等方法，对基因芯片数据进行深入分析，包括差异表达基因的筛选、基因功能注释、通路富集分析等。
VS
结果解读
根据分析结果，结合生物学知识和文献资料，对基因表达谱进行解释和推理，揭示基因之间的相互作用和调控关系，为后续实验提供理论依据和指导。
06
应用实例
基因表达谱分析
目的
了解不同组织或不同生长条件下基因的表达情况，寻找差异表达基因。
操作步骤
提取组织或细胞的总RNA，逆转录为cDNA，将cDNA标记后与基因芯片进行杂交，洗涤、检测并分析结果。
注意事项
确保RNA质量、标记效率和杂交条件的优化。
单核苷酸多态性检测
目的
检测基因组中单核苷酸的变异，如SNPs，了解遗传变异与疾病的关系。
交，洗涤、检测并分析结果。
注意事项
03
确保DNA标记效率和杂交条件的优化，注意控制实验条件和背
景噪音。
THANKS
感谢观看
核酸提取
从样本中提取出所需的核酸（DNA或RNA）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

寡聚核苷酸芯片原始数据，并使用exprs函数()查看表达值。
了解芯片预处理的原理和步骤后，完全可以用一个R函数完成数据处理得到表达值，如Affy包提供的处理函数expresso( )。
最近的k个临近基因的表达值来预测待填补基因的表达值。根据邻居基因在样本中的
加权平均估计缺失值。
2.3 提取表达值
由于芯片数据的小样本和大变量的特点，导致数据分布呈偏态、标准差大。对数转换能使上调、下调的基因连续分布在0的周围，更加符合正态分布，同时对数转换使荧光信号强度的标准差减少，利于进一步的数据分析。 cDNA芯片：对双通道数据使用Cy5（红）和Cys3（绿）两种荧光标记分别标记 case和control样本的cDNA序列。扫描仪采用两种波长对基因芯片的图像进行扫描，根据每个点的光密度值计算相对应的绝对表达量(intensity)；然后图像分析软件通过芯片的背景噪音以及杂交点的光密度分析，对每个点的intensity校准，利用Cy5/Cy3的值获取case与control组不同基因的表达值ratio（（R/G
另一种常用基因芯片——寡核苷酸表达谱芯片的数据预处理：由于探针长度较短（20-25bp），采用匹配/失配探针对方法，即设计一个特异的寡核苷酸（ PM 匹配）、同时设计一个非特异性的寡核苷酸探针（ MM失配），该探针仅仅在中间位置有一个碱基替换。用PM与MM之间的差值作为信号强度，来解决寡核苷酸之间非特异性杂交的噪声影响。一般设计11-20对探针来检测一个转录本。寡核苷酸芯片与cDNA芯片的数据预处理差别主要集中在转录表达值的获取，即如何将11-20对探针值转化为单个转录的表达值呢，常用三种预处理方法，即 MAS、RAM法、MBEI法。MAS方法将芯片分为k（默认值为16）个网格区域，用每个区域使用信号强度最低的2%探针去计算背景值和噪声。R M A , 该方法使用回旋( convolution) 模型计算出芯片的非特异杂交背景均值, 然后以 P M 值减去该均值获得校正的 P M 值, 再以对数相加模型计算转录的表达值。使用软件提取表达值：R的affy包ReadAffy()函数可以读取Affy公司出的CEL格式
比率统计法
此方法用于标准化同一块芯片上杂交的两种样品，并且建立于以下的假设之上：在近
似的两个样品中，虽然基因有上调和下调，但一些基本的基因（如管家基因）的表达量是近似相同的。由此得出一个近似概率密度公式：比率T =R /G（R 和G分别是芯片上第K个点的红光和绿光的强度），经过迭代算法处理得到一个平均表达比率及其可信限，用于数据
先定义个阈值M。若行（列）向量中的缺失数据量达到阈值M，则删去该向量。若未
达到M，有两种方法处理，一是以0或者用基因表达谱中的平均值或中值代替，另一个是分析基因表达谱的模式，从中得到相邻数据点之间的关系，据此利用相邻数据点估算得到缺失值（类似于插值）。填补缺失值（ k临近法）：利用与待补缺基因距离
ratio）；一般选择以2为底的对数转化数据，比如R/G=1，则 log2R/G=0，即认
为表达量没有发生变化，当R/G=2 或者，R/G=0.5，则log值为1 或–1，这是可以认为表达量都发生两倍的变化。以下的数据处理都是对log2R/G的形式进行分析。
2.4 归一化
经过背景处理和数据清洗处理后的修正值反映了基因表达的水平。然而在芯片试验中，各个芯片的绝对光密度值是不一样的，在比较各个试验结果之前必需将其归一化（normalization，也称作标准化）。数据的归一化目的是调整由于基因芯片技术引起的误差，不是调整生物RNA 样本的差异。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据，也需归一化。常用的标准化方法有“看家基因法”、基于总光密度的方法、回归方法、比率统计法等。
的标准化计算。
常用的方法是平均数、中位数标准化(mean or median normalization)：将各组实验的数据的log ratio 中位数或平均数调整在同一水平。中位数标准化：将每个芯片上的数值减去各自芯片上log Ratio值的中位数，使得所有芯片的log Ratio值中位数就变成了0，从而不同芯片间logRaito具有可
基因芯片探针水平数据处理的R软件包有affy, affyPLM, affycomp, gcrma等。
2 预处理 2.1 背景（background）处理
背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后，每个杂交点周围区域各像素吸光度的
平均值作为背景，但此法存在芯片不同区域背景扣减不均匀的缺点。也
基因芯片的实验流程（双通道）
单通道/双通道基因芯片实例
基因芯片数据分析：对从基因芯片高密度杂交点阵图中提取的杂交点荧光信号进行定量分析，通过有效数据筛选和相关基因表达谱聚类，发现基因的表达谱和功能之间的联系。
杂交完成后，要对基因芯片进行“读片”，即应用激光共聚焦荧光扫描显微镜，对基因芯片表面的每个位点进行检测。
比性。
3 差异基因表达分析
经过预处理，探针水平数据转变为基因表达数据。为了便于应用一些统计和数学术语，基因表达数据仍采用矩阵形式。倍数分析方法：倍数变换fold change，单纯的case与control组表达值相比较，对没有重复实验样本的芯片数据，或者双通道数据采用这种方法（该方法是对基因芯片的ratio值从大到小排序，即cy5/cy3比值，一般0.5-2.0之间内的基因不存在差异表达，范围之外存在差异表达。缺点是倍数选取具有任意性，可能不恰当）参数法分析（t检验）：当t超过根据可信度选择的标准时, 比较的两样本被认为存在着差异。但小样本基因芯片实验会导致不可信的变异估计，此时采用调节性T检验。非参数分析：由于微阵列数据存在“噪声”干扰而且不满足正态分布假设，用t检验有风险。非参数检验并不要求数据满足特殊分布的假设，所以可使用非参数方法对变量进行筛选。如经验贝叶斯法、芯片显著性分析SAM法。
可利用芯片最低信号强度的点（代表非特异性的样本与探针结合值）或综合整个芯片非杂交点背景所得的平均吸光值做为背景。
背景处理之后，我们可以将芯片数据放入一个矩阵中：
m11 M = m21 mG1
m12 m22 mG 2
m1N m2 N mGN
其中，各字母的意义如下： N：条件数； G：基因数目（一般情况下，G>>N）；行向量mi=(mi1,mi2,…,miN)表示基因i在N个条件下的表达水平（这里指绝对表达水平，亦即荧光强度值）；列向量mj=(m1j,m2j,…,mGj)表示在第j个条件下各基因的表达水平（即一张芯片的数据）；元素mij表示第基因i在第j个条件下（绝对）基因表达数据。m可以是R（红色，Cy5，代表样品组）。也可以是G（绿色，Cy3,代表对照组）。
常用的利用R的limma包使用t检验筛选差异表达基因，利用R的siggenes包使用SAM方法筛选差异表达基因。
False Discovery Rate (FDR)
在基因芯片的实验中，每一个基因/探针，都是一个独立的实验。基因芯片：高通量，>1,000个基因/探针。因此，无论怎么比较，总会有一些基因会是统计显著性差异表的 —— 可能是随机产生的。如何评估表达差异基因预测的有效性？ FDR = p-value * No. of Genes 例：1,000个探针的双通道芯片，以p-value < 0.01为域值，发现7个上调基因，5个下调基因，分析结果是否具有统计学意义？计算： FDR= 0.01* 1,000=10 (随机) 。7个上调基因，5个下调基因 < 10，因此上例计算的结果无统计学意义。 FDR必须远小于发现的差异表达基因数目。
探针荧光值
基因表达值
计算机“读片”机理
将样品中的DNA/RNA标上荧光标记，则可以定量检验基因的表达水平。
cDNA芯片、载有较长片段的寡核苷酸芯片采用双色荧光系统：目前常用 Cy3一dUTP（绿色）标记对照组mRNA，Cy5一dUTP（红色）标记样品组 mRNA
用不同波长的荧光扫描芯片，将扫描所得每一点荧光信号值自动输入计算机并进行信息处理，给出每个点在不同波长下的荧光强度值及其比值，同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色，相反，在对照组中高表达的基因其杂交点呈绿色，在两组中表达水平相当的显黄色，这些信号就代表了样品中基因的转录表达情况。
2.2 数据清洗（data cleaning）
经过背景校正后的芯片数据中可能会产生负值，还有一些单个异常大（或小）的峰（谷）信号（随机噪声）。对于负值和噪声信号，通常的处理方法就是将其去除，常见数据经验型舍弃方法有：标准值或奇异值舍弃法；变异系数法；前景值＜200；前景值-平均数/前景值-中位数＜80%等等。然而，数据的缺失对后续的统计分析（尤其是层式聚类和主成分分析）有致命的影响。Affy公司的芯片分析系统会直接将负值修正为一个固定值。对数据的删除，通常是删去所在的列向量或行向量。一个比较常用的做法是，事
基因芯片数据预处理
基因芯片（gene chip），又称DNA微阵列（microarray），是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过碱基互补配对检测生物信息。
4个技术环节
基因芯片制备样品制备mRNA提取等杂交反应信号检测与分析
分类
实验要求：单通道—— 一张芯片检验一种状态；双通道——差异表达基因的筛选储存的生物信息：寡核苷酸芯片（常为单通道）、cDNA芯片（常为双通道）
数据预处理分析流程：算法（以cDNA芯片为例）
探针水平数据获得（计算机扫描图像）
数据预处理：背景处理、数据清洗、提取表达值、标准化、汇总
获取基因表达数据：判断差异基因表达
聚类和分析
1 探针水平数据（probe-level data）的获得