基因芯片实验设计的影响因素

合集下载

基因芯片的PCR引物设计

基因芯片的PCR引物设计PCR引物设计是基因芯片中的重要环节，因为合适的引物设计可以增强PCR反应的特异性和敏感性，提高实验的成功率和准确性。

在进行PCR引物设计时，需要考虑以下几个关键因素：1.引物长度：一般来说，引物的长度应在18-30个碱基对之间。

太短的引物可能引发引物间的非特异性扩增，而太长的引物则会影响PCR的扩增效率。

2.引物序列：引物的序列应与目标DNA序列互补，并在目标序列中有足够的特异性。

常用的引物序列选择规则是避免多个连续相同碱基的存在，以避免引物间的二聚体形成。

3.引物的GC含量：引物的GC含量是影响引物的熔解温度（Tm）的主要因素之一、Tm是指引物和模板DNA解离的温度，通常通过离子含量、序列中GC和AT碱基含量等来计算。

较高的GC含量可以增加引物和目标序列的互补性，提高引物的特异性。

4. 引物间的配对性：引物之间的互补性应尽量避免或减少，以避免引物间的非特异性扩增。

特别是在多引物PCR反应中，引物间的配对性一定要小于10bp。

在进行基因芯片的PCR引物设计时，还需要额外考虑以下几个方面：1.引物的标记：为了在基因芯片上进行分析，引物通常需要添加适当的标记，如荧光染料、生物素等。

这些标记可以帮助检测PCR产物，并与芯片上的探针结合，实现高通量芯片分析。

2.引物的选择策略：基因芯片通常需要同时检测多个基因或SNP位点。

因此，在引物设计时，需要根据目标基因或SNP的特点进行选择，考虑到引物的长度、GC含量和特异性等因素。

3.引物的设计软件：由于基因芯片中引物的数量较多，手动设计引物比较困难，因此常常使用引物设计软件。

这些软件可以根据用户输入的参数自动设计合适的引物，并进行引物的特异性、配对性和二聚体等分析。

4.引物的合成和质控：设计好的引物需要经过合成和质控，确保引物的纯度和质量。

此外，引物的浓度也需要进行准确的测定，以保证PCR反应的重复性和稳定性。

总之，PCR引物设计在基因芯片中起着关键的作用。

对虾病原检测基因芯片的设计与初步研制的开题报告

对虾病原检测基因芯片的设计与初步研制的开题报告一、选题背景对虾是世界上重要的水产养殖品种之一，在全球范围内都有广泛的分布和养殖。

但是，随着对虾养殖行业的不断发展，对虾病害问题日益突出，导致对虾养殖者不断面临着巨大的经济损失。

现有的对虾病害检测方法主要是基于传统的病毒培养和PCR技术，但是这些方法存在着测试周期长、结果不稳定、操作繁琐等问题，无法满足对虾养殖业的快速、准确和高效的检测需求。

因此，开发一种既能够快速检测对虾病原体，又能够提高检测准确率和效率的新型检测技术，成为当前对虾养殖行业的重要需求。

二、研究目的本课题旨在开发一种基于基因芯片技术的对虾病原检测方法。

主要目的如下：1. 设计一款对虾病原检测基因芯片，并实现芯片的制备和检测；2. 研究对虾病原检测技术的纯化和富集方法，提高病原体的检测灵敏度和准确性；3. 验证设计的基因芯片在对虾病原检测中的应用效果和可靠性。

三、研究内容和方法1. 对虾病原检测基因芯片的设计以对虾常见病原体为研究对象，采用测序技术对其进行病原学鉴定和拓扑分析，筛选出具有代表性的病原体基因进行标记，并建立基因芯片的探针库。

在此基础上，通过生物芯片设计软件，设计出一款针对对虾病原的多重芯片探针，并合成芯片探针。

2. 基因芯片的制备和检测利用流式细胞术纯化和富集病原体，然后加入探针让其杂交，并通过芯片扫描和图像分析技术，对芯片结果进行提取和分析，得出病原体检测结果。

3. 对虾病原检测技术的优化在实验中，将对虾体液样品分离纯化后，用基因芯片进行检测，并对结果进行验证和分析。

通过比较不同富集方法对结果的影响，优化对虾病原检测技术，提高其灵敏度和准确性。

四、预期成果开发出针对对虾常见病原体的基因芯片，建立基因芯片探针库，实现基因芯片的制备和检测；验证基因芯片在对虾病原检测中的应用效果和可靠性，并建立适合富集方法，提高检测灵敏度和准确性；为对虾病原检测提供新型检测技术，具有良好的应用前景和市场潜力。

基因芯片设计的原理和应用

基因芯片设计的原理和应用1. 引言基因芯片是一种用于测定DNA或RNA序列的高通量技术，广泛应用于基因表达分析、突变检测、基因组重排等生物学研究领域。

本文将介绍基因芯片设计的原理和应用。

2. 基因芯片设计原理基因芯片的设计原理主要包括芯片制备、探针设计和芯片检测等步骤。

2.1 芯片制备基因芯片的制备主要包括材料准备、芯片图案设计和芯片制作等过程。

•材料准备：选择合适的材料作为芯片基底，常用的有玻璃基板和硅基底。

同时准备所需的化学试剂和生物材料。

•芯片图案设计：根据研究目的和实验需求，设计芯片上的探针布局。

探针可以是DNA、RNA或蛋白质等，用于捕获目标序列。

•芯片制作：利用光刻技术将芯片图案转移到基底上，并进行化学修饰和功能化处理，使其能够与目标分子相互作用。

2.2 探针设计基因芯片的核心是探针，探针的设计需要考虑以下几个因素：•序列选择：根据研究需要选择特定的目标序列，如基因、mRNA或蛋白质，以确定需要设计的探针。

•序列特异性：探针的序列应具有特异性，能够与目标序列特异结合，避免对非特异序列的杂交。

•探针长度：探针的长度应适中，一般在20-100个碱基对之间，以保证特异性和杂交效率。

•探针浓度：根据目标浓度确定探针的浓度，以保证探针与目标分子的充分结合。

2.3 芯片检测基因芯片的检测主要通过杂交实验和芯片扫描等步骤完成。

•杂交实验：将待测分子标记，与芯片上的探针进行杂交反应。

标记分子的种类多样，如荧光标记、辐射标记等。

•芯片扫描：使用适当的扫描仪读取芯片上杂交信号的强度和位置信息。

根据信号强度确定目标序列的表达水平或特定突变的存在。

3. 基因芯片的应用基因芯片具有高通量、高灵敏度和高准确性等特点，在生物学研究和临床医学诊断中有着广泛的应用。

3.1 基因表达分析通过测定基因芯片上的探针对应的mRNA水平，可以了解基因在不同组织、不同时间点或不同疾病状态下的表达水平变化。

这有助于揭示基因在生物学过程中的功能和调控机制。

《基因芯片技术》第5章基因芯片数据质量

相关系数（correlation coefficient）

r在-1到1之间。如果r为0表示完全不相关。r等于1时为完全正相关，等于-1时为完全负相关。相关系数用于衡量芯片的重复性有一定的参考价值。
cDNA芯片中使用相关系数

衡量同一张芯片中的两种荧光信号的重复性：当Cy3和Cy5信号值之间的相关系数接近1，表明两种荧光信号的相关程度非常高，从而证明双色荧光系统可靠性高；
第一节基因芯片数据质量
一、芯片图形常见问题二、芯片误差产生原因三、如何减少芯片误差四、芯片数据质量判断五、芯片平台实验数据的评估
一、芯片图像常见问题：
（1）是否有杂质（2）信号点强度是否太高或太低（3）是否有刮擦痕迹（4）背景强度是否过高
图像和背景都很均一
信号强度不均一
整体背景高

假阳性产生的原因：
1）由随机误差引起：杂质、背景等因素 2）在双荧光系统中，Cy3和Cy5两种染料对不同基因的掺入效率略有不同，会引入一部分的假阳性，这部分差异并不是随机的，与基因序列或信号强度都有一定的关系。这些假阳性只能通过染料互换（Dye Swapping）标记的重复实验加以去除。只是染料的差异不大，因此，在很多研究中往往忽略。
单个点的质量

评估单个点质量的方法：
（1）根据点的物理特性
（2）评估点的强度：此点与同一张芯片或重复芯片上同样基因的点强度是否一致。重复点信号值：理论上是满足正态分布，利用所有的重复点求出它们所满足的正态分布，假如某个信号点的信号值显著偏离这个正态分布，那么这个信号点的数据质量可能不是很好。
M-A散点图
散点图与M-A散点图比较

基因芯片实验设计的影响因素

基因芯片实验设计的影响因素基因芯片对于同时研究成千上万的基因表达是一个强有力的技术，这种新技术在生物学、农学、医学等都有重要的应用，但严谨的实验设计是充分发挥基因芯片技术优势的基础[1]。

基因芯片实验同其它实验设计一样需要考虑因素与水平，但基因芯片实验又有它的特殊性，因此为了减少基因芯片实验和数据分析的误差，仔细地进行实验设计显得尤为重要。

我们以自己研究的经验为基础结合国外研究动态对基因芯片实验设计探讨如下。

1研究目的是实验设计的基础基因表达谱的差异包括三层[2]，一是生物差异（上层）：生物差异是所有生物的内在本质，除遗传和环境因素影响外与样本有密切的关系。

如不同人群中的个体差异、同一个体不同标本之间的差异。

二是技术差异（中层）：技术差异是由于样本的提取、标记和杂交等引起的差异，如同样的mRNA样本不同标记反应之间的差异等。

三是测量误差（下层）：测量误差是与阅读荧光信号相关，因为荧光信号可能被芯片上的灰尘等所影响。

基因表达谱的研究目的就是要寻找生物差异，故实验设计的目的是尽量减少技术差异和测量差异对实验的影响，从而使数据的分析和结果的解释尽可能简单有力。

基因芯片实验设计的问题包括决定样本标记什么样的染料？那些样品在同一张芯片上杂交？另外如果RNA样本有限，或者芯片数目有限制（如研究经费不足），我们又应当如何设计实验等一系列问题。

但基因芯片设计最重要取决于研究的目的，只有当研究的设计与目的一致时我们才可能达到我们的研究目的[3,4]，基因芯片实验的研究目的包括如下三方面。

1.1 类别比较（class comparison）类别比较是指对一些类别已经明确的实验样本之间进行基因表达谱的比较。

比如Hedenfalk et al[5]比较Brca1基因突变乳腺癌、Brca2基因突变乳腺癌以及没有上述基因突变的乳腺癌之间的差异基因表达谱。

Golub et al [6]对急性淋巴细胞白血病和急性粒细胞白血病之间的基因表达差异。

基因芯片（Affymetrix）分析1：芯片质量分析

基因芯⽚（Affymetrix）分析1：芯⽚质量分析TAIR，NASCarray 和 EBI 都有⼀些公开的免费芯⽚数据可以下载。

本专题使⽤的数据来⾃NASCarray（Exp350），也可以⽤FTP直接下载。

下载其中的CEL⽂件即可（.CEL.gz），下载后解压缩到同⼀⽂件夹内。

该实验有1个对照和3个处理，各有2个重复，共8张芯⽚（8个CEL⽂件）。

为什么要进⾏芯⽚质量分析？不是每个⼈做了实验都会得到⾼质量的数据，花了钱不⼀定就有回报，这道理⼤家都懂。

芯⽚实验有可能失败，失败的原因可能是技术上的（包括⽚⼦本⾝的质量），也可能是实验设计⽅⾯的。

芯⽚质量分析主要检测前者。

1 R软件包安装使⽤到两个软件包：affy，simpleaffy：library(BiocInstaller)biocLite(c("affy", "simpleaffy"))另外还需要两个辅助软件包：tcltk和scales。

tcltk⼀般R基础安装包都已经装有。

install.packages(c("tcltk", "scales"))2 读取CEL⽂件载⼊affy软件包：library(affy)library(tcltk)选取CEL⽂件。

以下两种⽅法任选⼀种即可。

第⼀种⽅法是通过选取⽬录获得某个⽬录内(包括⼦⽬录）的所有cel⽂件：# ⽤choose.dir函数选择⽂件夹dir <- tk_choose.dir(caption = "Select folder")# 列出CEL⽂件，保存到变量cel.files <- list.files(path = dir, pattern = ".+\\.cel$", ignore.case = TRUE,s = TRUE, recursive = TRUE)# 查看⽂件名basename(cel.files)第⼆种⽅法是通过⽂件选取选择⽬录内部分或全部cel⽂件：# 建⽴⽂件过滤器filters <- matrix(c("CEL file", ".[Cc][Ee][Ll]", "All", ".*"), ncol = 2, byrow = T)# 使⽤tk_choose.files函数选择⽂件cel.files <- tk_choose.files(caption = "Select CELs", multi = TRUE, filters = filters,index = 1)# 注意：较⽼版本的tk函数有bug，列表的第⼀个⽂件名可能是错的basename(cel.files)## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL"## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL"## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL"## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL"## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL"## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"读取CEL⽂件数据使⽤ReadAffy函数，它的参数为：# Not run. 函数说明，请不要运⾏下⾯代码ReadAffy(..., filenames = character(0), widget = getOption("BioC")$affy$use.widgets,compress = getOption("BioC")$affy$compress.cel, celfile.path = NULL, sampleNames = NULL,phenoData = NULL, description = NULL, notes = "", rm.mask = FALSE, rm.outliers = FALSE,rm.extra = FALSE, verbose = FALSE, sd = FALSE, cdfname = NULL)除⽂件名外我们使⽤函数的默认参数读取CEL⽂件：data.raw <- ReadAffy(filenames = cel.files)读⼊芯⽚的默认样品名称是⽂件名，⽤sampleNames函数查看或修改：sampleNames(data.raw)## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL"## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL"## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL"## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL"## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL"## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"sampleNames(data.raw) <- paste("CHIP", 1:length(cel.files), sep = "-")sampleNames(data.raw)## [1] "CHIP-1" "CHIP-2" "CHIP-3" "CHIP-4" "CHIP-5" "CHIP-6" "CHIP-7" "CHIP-8"3 查看芯⽚的基本信息Phenotypic data数据可能有⽤，可以修改成你需要的内容，⽤pData函数查看和修改：pData(data.raw)## sample## CHIP-1 1## CHIP-2 2## CHIP-3 3## CHIP-4 4## CHIP-5 5## CHIP-6 6## CHIP-7 7## CHIP-8 8pData(data.raw)$Treatment <- gl(2, 1, length = length(cel.files), labels = c("CK","T"))pData(data.raw)## sample Treatment## CHIP-1 1 CK## CHIP-2 2 T## CHIP-3 3 CK## CHIP-4 4 T## CHIP-5 5 CK## CHIP-6 6 T## CHIP-7 7 CK## CHIP-8 8 TPM和MM查看：# Perfect-match probespm.data <- pm(data.raw)head(pm.data)## CHIP-1 CHIP-2 CHIP-3 CHIP-4 CHIP-5 CHIP-6 CHIP-7 CHIP-8 ## 501131 127.0 166.3 112.0 139.8 111.3 85.5 126.3 102.8## 251604 118.5 105.0 82.0 101.5 94.0 81.3 103.8 103.0## 261891 117.0 90.5 113.0 101.8 99.3 107.0 85.3 85.3## 230387 140.5 113.5 94.8 137.5 117.3 112.5 124.3 114.0## 217334 227.3 192.5 174.0 192.8 162.3 163.3 235.0 195.8## 451116 135.0 122.0 86.8 93.3 83.8 87.3 97.3 83.5# Mis-match probesmm.data <- mm(data.raw)head(mm.data)## CHIP-1 CHIP-2 CHIP-3 CHIP-4 CHIP-5 CHIP-6 CHIP-7 CHIP-8 ## 501843 89.0 88.0 80.5 91.0 77.0 75.0 79.0 72.0## 252316 134.3 77.3 77.0 107.8 98.5 75.0 99.5 71.3## 262603 119.3 90.5 82.0 86.3 93.0 89.3 94.5 83.8## 231099 123.5 94.5 76.5 95.0 89.3 87.8 95.5 91.5## 218046 110.3 93.0 74.8 100.5 86.0 89.5 104.5 102.3## 451828 127.5 77.0 80.3 94.5 72.3 79.0 86.3 67.84 显⽰芯⽚扫描图像（灰度）# 芯⽚数量n.cel <- length(cel.files)par(mfrow = c(ceiling(n.cel/2), 2))par(mar = c(0.5, 0.5, 2, 0.5))# 设置调⾊板颜⾊为灰度pallette.gray <- c(rep(gray(0:10/10), times = seq(1, 41, by = 4)))# 通过for循环逐个作图for (i in 1:n.cel) image(data.raw[, i], col = pallette.gray)如果芯⽚图像有斑块现象就很可能是坏⽚。

基因芯片实验原理与方法

长征途中的感人故事（精选5篇）长征途中的感人故事篇1长征，是决定中华人民是否能站起来的重要决策，长征路上无数英雄人物用自己的胸膛，堵住了敌人的炮火，许多热血青年纷纷加入共产党，在那艰难的长征路上，是战士们用自己的身躯，才铺平了我们如今幸福的生活道路。

在长征路上，战士要走过草地，那草地一望无际，只要一不留神，就有可能陷入沼泽。

战士们的粮食吃完了，只能忍饥挨饿。

他们一天走200多公里的路，休息的时候坐下，可有的战士坐下就再也站不起来了。

穿过草地，他们又面对着一座座雪山的挑战，战士们一个个毫不犹豫的上了山。

在雪山上，他们每时每刻都有可能面临掉下去与雪崩的危险，他们饿了就杀马吃、后来就用皮带、棉花、草根来充饥，战士们的体力已经快支撑不住了，便走一百步休息一下，后来减到三十步，就不能再减了，如果再减的话，就会永远长眠在雪山上了。

过雪山时，战士们在零下30度穿着单衣，一个个冻的手发红。

牺牲的战士5个人或6个人一起埋在雪地里，剩下的战士望着那里恋恋不舍的含泪而去，那些英勇的战士翻越了20多座雪山，受尽了磨难，牺牲了成千上万名战士。

长征终于胜利了!中华人民站起来了!长征，我为你骄傲，为你自豪，泪水与血水汇成了一条小溪，翻起朵朵长征事迹的浪花，在这幸福的岁月里，这条小溪依然在人们心中流淌着……长征途中的感人故事篇2去年暑假，我读过一本让我深深感动的书——长征路上的故事。

红军在长征的时候，遇到了许多的困境：红军要过的草地是荒芜人烟的，甚至连鸟兽也没有，只有大片大片绿油油的水草，一不小心，就会踩进烂泥潭，越陷越深;红军一路上衣杉褴褛，在爬雪山的时候经常被凛冽的寒风吹袭;红军过大渡河时，由于敌人先在桥上做了埋伏，把桥上的木板全部都拿掉了，所以让红军很前进，他们一边爬铁索桥，还一边与敌人交战……红军是多么顽强啊!面对这么多的困难，他们毫不退缩。

没有粮食了，他们就用野菜、野果、树皮充饥，有的时候，甚至把自己的枪皮带、皮鞋切成小块，煮了充饥;面对自然环境极其恶劣的夹金山，战士们强帮弱，大帮小，走不动的扶着走，扶不动的抬着走，战士们都豪迈地表示：“一定要让每个战友安全地越过夹金山。

基因芯片原理及数据分析01

基因芯片数据分析流程
生物学问题实验设计芯片实验图像采集和处理（图像分析）预处理和标准化聚类分析差异表达基因分析判别分析基因网络分析
生物学解释和验证
基因芯片数据分析
基因芯片数据的预处理是一个十分关键的步
骤，通过数据过滤获取需要的数据、数据转换满足正态分布的分析要求、缺失值的估计弥补不完整的数据、数据归一化纠正系统误差等处理为后续分析工作做准备，预处理分析的重要性并不亚于基因芯片的后续分析，它将直接影响后续分析是否能得到预期的结果，Arraytools
基因芯片原理及数据分析
杨德印生物信息学系
参考教材和资料
《基因芯片数据分析与处理》李瑶化学工业出版社 2006年《生物芯片分析》 [美]M.谢纳著科学出版社《DNA芯片技术的方法与应用》马文丽郑文岭广东科技出版社《生物芯片技术》邢婉丽程京清华大学出版社《生物芯片技术》陈忠斌化学工业出版社《基因芯片与功能基因组》李瑶化学工业出版社 Google,ncbi,endnote:网络资源，文章（Paper）相关关键词microarray,gene chip，gene expression
数据

数据表示：常用矩阵表示，即行列表示
含义主要基因芯片数据库 smd,Geo(www.ncbi,/geo),EBI ArrayExpress

Outline
得到矩阵后？
芯片数据：众多基因的时空表达情况基因表达模式------聚类差异表达基因筛选（疾病相关基因筛选）疾病类型识别网络分析：通过芯片数据找出基因之间的相互作用基因注释其他

内容
基因芯片技术（概念、制作过程、应用等）基因芯片数据分析一般流程和主要内容

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

我们以自己研究的经验为基础结合国外研究动态对基因芯片实验设计探讨如下。

如不同人群中的个体差异、同一个体不同标本之间的差异。

二是技术差异（中层）：技术差异是由于样本的提取、标记和杂交等引起的差异，如同样的mRNA样本不同标记反应之间的差异等。

三是测量误差（下层）：测量误差是与阅读荧光信号相关，因为荧光信号可能被芯片上的灰尘等所影响。

1.1 类别比较（class comparison）类别比较是指对一些类别已经明确的实验样本之间进行基因表达谱的比较。

比如Hedenfalk et al[5]比较Brca1基因突变乳腺癌、Brca2基因突变乳腺癌以及没有上述基因突变的乳腺癌之间的差异基因表达谱。

Golub et al [6]对急性淋巴细胞白血病和急性粒细胞白血病之间的基因表达差异。

Ross et al [7]比较了来源于不同组织的癌细胞的差异表达等。

人们通过这些实验主要想达到三个目的：一是这些不同种类样本之间是否存在差异基因表达谱，二是哪些基因在不同种类样本之间存在差异表达；三是通过筛选基因的表达水平对不同样本进行判断，从而降低误判率。

1.2 预兆预报(prognostic prediction)一些芯片研究是为了探测在基因表达谱和临床结果之间是否存在关系，以便进一步研制基于基因表达谱基础上的预兆预报系统[8]。

例如一些药物遗传学研究企图知道那些患者在有效剂量内可能中毒等。

1.3 类别找寻(class discovery)基因芯片研究的另一个目的就是类别找寻，这是基于样本之间存在重要的生物学差异，比如临床和形态上的相似可能在分子上获得区别[9]。

又如肿瘤通常以原发的器官而命名，亚型是以细胞的类型进行分类。

通常以形态学和组织学不能探测起源细胞。

很多有关癌症的基因芯片研究目的就在于肿瘤的分类，这些研究可能揭示疾病的生物特点，通过鉴定治疗的分子靶标为改进疾病的治疗铺平道路。

2 基本的实验设计方案2.1 单因子实验设计（single-factor experiment design）单因子实验是指整个试验中只比较一个试验因子不同水平的试验。

单因子试验方案由该试验因子的所有水平构成。

基因芯片的单因子实验设计包括直接与间接比较，所有的双色基因芯片检测都是成对比较，比如治疗和非治疗之间、突变和野生型生物或者来源于不同组织的细胞之间的比较等。

如图1，假如我们想比较样本T 和C 的基因表达水平，就可以在同一张基因芯片上进行比较。

差异基因表达可以通过Log 2T/C 来计算，Log 2T 和Log 2C 的值来自样本T 和C 。

由于它们来自于同一杂交，我们称之为直接比较。

另外Log 2T 和Log 2C 可以在2个杂交中获得，T 和C 的检测都通过与另一样本R 的比较获得，Log 2T/C 值为Log 2(T/R)－Log 2(C/R)所代替。

由于Log 2T 和Log 2C 值来自于2个杂交，故称为间接比较。

具体可分为如下3类[10]。

2.1.1 参照设计(common reference resign)由于每一检测样本与参照样本配对杂交，故样本量等于芯片数，参照样品作为内参标准。

检测样本标记为一种颜色，参照样品标记为另一种颜色。

如图2所示A 组样本A1、A2和B 组样本B1、B2都标记为红色，对照品R 标记为绿色。

因为通常没有生物学意义的参照样品都在每张芯片测量，故增加了实验的干扰降低了实验的灵敏性；但它的优点是利于任何分组样本的差异基因表达分析，另外如果没有大的实验技术上的差异，使用相同参照的不同实验理论上可以相互比较。

如果将欲比较的一方样本混合后再与另一方各样本比较则称为混合样本的参照设计（pooled reference sample ），混合样本参照对于小量RNA 样本的比较是有利的，不同基因的表达量在样本混合后将起到平均的作用，缺点是混合样本掩盖了生物的多样性。

2.1.2 平衡区组设计(balanced block design)平衡设计多用于二组样本之间的比较，首先对两组样本进行任意配对，用红色、绿色染料交替标记二组检测样本，如图3，A1、A2、A3、A4分别标记为红色、绿色、红色、绿色。

B1、B2、B3、B4则分别标记为绿色、红色、绿色、红色。

芯片数目是参照设计的一半。

其缺点是如果二组之间样本不相等或者比较的样本超过二组，则必须进行复杂的修改。

如果研究者想进行诸如聚类等分类，芯片引入了人为的相关性因素可能会影响聚类分析的结果。

以肿瘤和正常组织比较为例，如果我们不考虑正常组织之间的差异，则平衡设计是研究正常组织与肿瘤组织之间差异的好方法。

2.1.3 环形设计(loop design)环形设计要求每一个样本都标记二种颜色（红色、绿色），并分别与另外二个样本杂交（图4），它要求和参照设计同样的芯片数目。

如果芯片数目固定，则环形设计就不如平衡设计效率高；但是如果只有二组样本时，则比参照设计效率高。

环形设计不适合于聚类分析，而且由于实验技术的原因导致某些芯片数据的不可靠就会打断环形，寻找合适的统计方法就变得非常困难，所以一般尽量不选用环形设计。

参照设计、平衡设计和环形设计都能够提供客观的差异基因表达，但是它们的效率不是一样的，实验设计的有效率是与统计的要求的精度是相关的[11]。

实验设计的选择依赖于样本的数目和芯片的数量，比如只能负担20张芯片，应当如何设计芯片实验；如果只有12个样本，又应当怎样设计芯片实验?Dobbin 红色绿色红色绿色和 Simon [12] 对于三种实验设计进行了比较，认为当基因芯片实验次数是固定时，平衡设计比参照设计和环形设计更有效；当样本是有限时参照设计优于环形设计和平衡设计。

图5 单因素时间进程设计2.3 复因子实验设计（multiple-factor experiment design ）复因子实验设计是指在同一试验中同时研究两个或两个以上试验因素的试验。

多因素试验方案由该试验的所有试验因素的水平组合构成。

多因素试验方案分为完全方案和不完全方案两类。

完全方案是在列出因素水平组合时，要求每一个因素的每个水平都要碰见一次，这时，水平组合数等于各个因素水平数的乘积。

由于基因芯片成本昂贵，故完全方案是不现实的。

不完全方案是将试验因素的某些水平组合在一起形成少数几个水平组合。

这种试验方案的目的在于探讨试验因素中某些水平组合的综合作用，而不在于考察试验因素对试验指标的影响和交互作用。

在基因芯片实验中如何进行水平组合取决于研究目的，Glonek [14]和Townsend [15] et al 鉴于芯片数量及mRNA 量因素等原因，探讨了以2×2析因设计为基础设计多因子实验。

3 影响实验设计的因素3.1 重复实验与实验设计为了消除实验技术等因素带来的误差，一个通常的问题是芯片的重复实验是否是必要，重复实验包括3层含义[16]：一是同一基因在同一芯片上多次布点重复；二是同一样品多次重复实验；三是多个样品多次实验。

前二者是技术重复，后者是生物重复。

回答基因芯片实验是否重复、怎样重复这个问题，首先必须了解导致基因芯片实验误差的因素。

基因芯片实验的目的是解释生物问题，因此选择来源于同一生物群体的不同样本进行实验是最好的方法，即生物重复。

技术重复主要是对同一样本进行多次杂交实验，技术重复比生物重复包含更少的差异范围，它在基因芯片实验的质量控制是必要的。

技术重复是提供基因芯片重复性能的估计，即通过同样的mRNA 样本对基因芯片的标记、杂交和定量分析过程的重复性能的探索。

技术重复可通过平均样本的表达量达到提高表达精度的测量要求。

此外还有染料交叉重复，染料交叉重复是指同样的二份RNA 样本进行二次杂交，即是二次杂交采取相反的染料标记。

染料交叉重复对于纠正红色、绿色染料偏差是有意义的，如想做单次芯片实验是可行的方法。

技术重复可以通过计算平均值而提高测量的准确性，多次的重复还可进行聚类分析。

但是技术重复是不能代替生物重复的[17]，比如对1个群体中1个样本进行了100次技术重复实验与另一群体的1个样本的100次技术重复实验结2.2 时间序贯设计（time course experiment design ）时间进程设计是以时间点的比较为基础，Yang 和Speed [13]对单因素时间进程设计如图5所示：设计Ⅰ使用T1作为共同参照，设计Ⅱ引入了连续时间点的杂交，当研究目的是观察T 1、T 2、T 3和T 4之间的差异时，设计Ⅰ是较好的。

假如要更细微地观察一个时间点与另一个时间点的差异，则设计II 将更好；设计Ⅲ是一个共同参照方法；设计Ⅳ相似设计Ⅰ使用T1 作为共同参照，并额外增加了T 2 和T 3之间的比较；设计V 是环形设计；设计VI 是直接与间接的混合应用，这比其它设计更精密。

设计V 与设计VI 的选择取决于比较兴趣。

如果对连续时间点的比较比2个时间点的比较更有兴趣，则设计V 更好。

时间序贯的多因素的时间进程则应该参照多因素果相比较。

结论只能是2个生物样本而不是2个生物群体的异同。

3.2 混合样本与实验设计混合样本是在标记杂交前，将几个不同来源的RNA 样本混合，混合样本有二个目的，一是单个样本没有足够的RNA 量进行芯片实验，二是为了降低研究成本而减少芯片实验的数目。

研究者通过混合样本而减少杂交次数，理由是通过混合可以达到平均每类样本的基因表达的目的。

但是每类样本混合的实验设计是不适合于统计处理的，因为混合样本没有考虑生物和技术的差异。

即使进行多次重复实验能够减少实验差异，但是也不能反应出生物学的差异。