微阵列资料分析(Microarray Data Analysis)
微阵列数据分析(Microarray Data Analysis)

• This is just finding the third side of the triangle: • √(x2-x1)2 + (y2-y1)2 + (z2-z1)2
wheaton June 2003, copyright Susan M. E. Smith 5
• You can extend this idea of distance to n dimensions • d = √Σ n(xi – yi)2 • You can normalize this idea of distance by using i=1 the average and standard deviation, so that the actual distance metric is • [1/(E-1)] Σ (xie-xiav/si)(xje-xjav/sj)
• The correlation coefficient closest to 1 is the set of exttern
wheaton June 2003, copyright Susan M. E. Smith
8
• • • • • select cell H2 type =log( then select cell B2 then type ,2) the entry in the fx window will look something like =log(B2,2) ; B2 is the cell you selected, and 2 is the base for the logarithm • hit enter • drag down column H to fill in the values • now do the same for the other columns; put headers on your log transformed columns
第六章 芯片的数据分析

Normalization的方法有多种,包括中值法、 的方法有多种,包括中值法、 的方法有多种 总体信号强度法以及指定使用芯片上的某些点 来对数据作标准化; 来对数据作标准化; 用一组内参照基因(如一组看家基因) 用一组内参照基因(如一组看家基因)校正 Microarray所有的基因、阳性基因、阴性基 所有的基因、 所有的基因 阳性基因、 单个基因。 因、单个基因。 标准化的结果以Excel表格的形式输出,并得 表格的形式输出, 标准化的结果以 表格的形式输出 到两种荧光信号标准化后的比值。 到两种荧光信号标准化后的比值。通过比值的 大小(大于2或小于 或小于0.5)就可知道该基因的表 大小(大于 或小于 ) 达是上调还是下调
Microarray数据库
基因表达数据库是整个基因表达信息分析管理系统的 核心。 核心。 Microarray数据库起着数据储存和查询、各种相关信 数据库起着数据储存和查询、 数据库起着数据储存和查询 息的整合的作用。 息的整合的作用。 Microarray数据库可以包含用户的管理信息、原始实 数据库可以包含用户的管理信息、 数据库可以包含用户的管理信息 验结果(图象文件、信号强度值、背景平均值行列号、 验结果(图象文件、信号强度值、背景平均值行列号、 基因号等)、各种实验参数( )、各种实验参数 基因号等)、各种实验参数(Plates/unigene /Sets/Clusters)、探针相关信息、 clone相关信息 )、探针相关信息 )、探针相关信息、 相关信息 基因名称、基因序列、 (基因名称、基因序列、GenBank accession号、克 号 隆标志符( 和内部)、代谢途径标志符、 隆标志符(IMAGE和内部)、代谢途径标志符、内部 和内部)、代谢途径标志符 克隆标志符)、分析处理结果、 )、分析处理结果 克隆标志符)、分析处理结果、芯片设计相关的资源 和数据, 和数据,等等
微阵列资料分析(Microarray Data Analysis)

微陣列資料分析(Microarray Data Analysis)蔡政安副教授前言在人類基因體定序計劃的重要里程碑陸續完成之後,生命科學邁入了一個前所未有的新時代,在人類染色體總長度約三十億個鹼基對中,約含有四萬個基因,這是生物學家首次以這麼宏觀的視野來檢視生命現象,而醫藥上的研究方針亦從此改觀,科學研究從此正式進入後基因體時代。
微陣列實驗(Microarray) 及其它高產能檢測(high-throughput screen) 技術的興起,無疑將成為本世紀的主流;微陣列實驗主要的優勢再於能同時大量地、全面性地偵測上萬個基因表現量,透過基因晶片,可在短時間內找出可能受疾病影響基因,作為早期診斷的生物指標(biomarker)。
然而,由於這一類技術的高度自動化、規模化及微型化的特性,使得他們所生成的資料量非常龐大且資料型態比一般實驗數據更加複雜,因此,傳統統計分析方法已經不敷使用。
在此同時,統計學家並未在此重要時刻缺席,提出非常多新的統計理論和方法來分析微陣列實驗資料,也廣受生物學家所使用。
由於微陣列資料分析所牽涉的統計問題層面相當廣且深入,本文僅針對整個實驗中所衍生的統計問題加以介紹,並介紹其中一些新的圖形工具用以呈現分析結果。
基因晶片的原理微陣列晶片即一般所謂的基因晶片,也是基因體計畫完成後衍生出來的產品,花費成本雖高,但效用無限,是目前所有生物晶片中應用最廣的,由於近年來不斷改進,也是最有成效的生物技術。
一般而言,基因晶片是利用微處理技術,先把人類所有的基因分別固著在一小範圍的玻璃片(glass slide)、薄膜(membrane)或者矽晶片上;然後,可以平行地、大量地、全面性地偵測基因體中mRNA的量,也就是偵測基因的調控及相互作用表現。
目前微陣列晶片大致分為以下兩種平台(如圖一) : cDNA 晶片及高密度寡核甘酸晶片(high-density oligonucleotide),兩種系統無論在晶片的製程及樣本處理上皆有相當的差異,因此在分析上也略有不同,以下便就晶片的特性約略介紹。
微阵列名词解释

微阵列名词解释介绍如下:
微阵列(microarray)是基因芯片技术的一种,它是一种用于检测大量的DNA、RNA或蛋白质的平台。
微阵列技术用于评估基因和蛋白质的表达模式,以研究复杂疾病发病的机制、诊断和治疗。
微阵列技术的核心部分是由数千到数百万个小的“探针”组成的芯片。
这些探针可以精确地探测目标分子(如DNA、RNA或蛋白质),并测定其在样本中的数量和表达水平。
使用微阵列技术,研究人员可以比较正常、疾病或治疗后人体中基因或蛋白质的表达水平,以此来确定哪些基因或蛋白质与疾病相关。
微阵列技术的应用非常广泛。
在生物学研究中,微阵列技术可用于检测细胞中的大量基因表达水平,以便确定其与细胞功能、代谢途径和发育等方面的联系。
在医学研究中,微阵列技术可以加速疾病的诊断和治疗。
例如,它可以帮助确定肿瘤细胞基因表达的差异,从而指导治疗方案的制定和个体化治疗的选择。
总之,微阵列技术是一种用于检测大量基因表达的高通量技术,具有广泛的应用前景。
通过微阵列技术,可以了解基因与疾病之间的关系,从而在医学诊断和治疗上提供更准确、更有效的解决方案。
微阵列数据分析工具PPT演示

BIOINFORMATICS LAB
13
Panther
• / • PANTHER (Protein ANalysis THrough Evolutionary Relationships)分
类系统按照基因功能来分类的唯一资源,用公布的科学实验证据和进化 关系来预测功能.随着蛋白质数据量的增加,生物学家得到了规范化的 通路中的详细的生物相互作用,而且可用交互式的方法显示出来. • 通过其Gene expression tools可用大规模的搜索现有基因的信号通路 (Pathway )、分子功能(Molecular Function)及生物学进程(Biological Process )。PANTHER英文意义是豹,该网站的目的即是生物工作者 在大规模的信息中,像猎豹一样搜寻到有意义的信息。
基于微阵列数据分析的癌症诊断

随机选样k个样本fl为聚类中心, 阻欧式聚类为林虚将所有样本门
为距聚类巾心最近的类
癌症诊断模型如图1所示。
计算类巾所什样本的甲均值作为 新的聚类『II心再次聚类
攀\避/:;是:爿 杯函数小是塌小).—一一7
一
古l
输出
飚2图2FloKw.ohmea眦ttso聚fK类惝算曲法蜥流e程fi雌
Fig.1
圈1 聚类分析癌症诊断模型
微阵列基因表达数据有高维性和高噪声,这对癌症 的检测与分类带来了极大的困难。因此,建立合适的癌 症识别模型在癌症诊断中是最先需要解决的问题。微阵 列基因表达谱中,样本数一般为几十至几百,基因的数 量却可到达几千至几万,这在癌症检测中容易导致“维 数灾难,’问题。在这些基因中,真正与疾病相关的基因 并不多,其余大量与疾病组织样本无关的基因会带来很 大干扰,增加癌症检测的复杂度。如伺将相关基因选取 出来,减小无关基因对癌症类型诊断的影响也是十分重 要的。特征选取方法是一种有效的降维方法,它不仅可 以提高癌症类型诊断的正确率,而且还为寻找对疾病有 鉴别力的特征基因排除了大量无关基因的干扰。
1.3秩和检验 基因表达谱数据的高维性不仅增加了计算量,还降
低了诊断的正确率。处理基因表达谱数据高维性问题常 用的方法是特征选择和特征变换,特征选取中,秩和检 验思想一应用广泛,同时Jaeger等【6】提出基于聚类的特
征基因选择方法,Gob等r7瞧出了组合皮尔森相关系数
(PCC)和信噪比的特征基因选择方法,李颖新等岬1提出 了基于支持向量机的特征基因选取方法,取得了较好的 效果。本文采用Knlsl【alw跚lis秩和检验对多类别基因 表达谱数据集进行相关基因的选取。
对SRBCT数据集进行诊断分析的结果如表4和 表5所示。
微阵列数据分析(MicroarrayDataAnalysis)

微阵列数据分析(MicroarrayDataAnalysis)蔡政安副教授(台湾前⾔在⼈类基因组测序计划的重要⾥程碑陆续完成之后,⽣命科学迈⼊了⼀个前所未有的新时代,在⼈类染⾊体总长度约三⼗亿个碱基对中,约含有四万个基因,这是⽣物学家⾸次以这么宏观的视野来检视⽣命现象,⽽医药上的研究⽅针亦从此改观,科学研究从此正式进⼊后基因组时代。
微阵列实验(Microarray)及其它⾼通量检测(high-throughput screen)技术的兴起,⽆疑将成为本世纪的主流;微阵列实验主要的优势在于能同时⼤量地、全⾯性地侦测上万个基因的表达量,通过基因芯⽚,可在短时间内找出可能受疾病影响的基因,作为早期诊断的⽣物标记(biomarker)。
然⽽,由于这⼀类技术的⾼度⾃动化、规模化及微型化的特性,使得他们所⽣成的数据量⾮常庞⼤且数据形态⽐⼀般实验数据更加复杂,因此,传统统计分析⽅法已经不堪使⽤。
在此同时,统计学家并未在此重要时刻缺席,提出⾮常多新的统计理论和⽅法来分析微阵列实验数据,也⼴受⽣物学家所使⽤。
由于微阵列数据分析所牵涉的统计问题层⾯相当⼴且深⼊,本⽂仅针对整个实验中所衍⽣的统计问题加以介绍,并介绍其中⼀些新的图形⼯具⽤以呈现分析结果。
基因芯⽚的原理微阵列芯⽚即⼀般所谓的基因芯⽚,也是基因组计划完成后衍⽣出来的产品,花费成本虽⾼,但效⽤⽆限,是⽬前所有⽣物芯⽚中应⽤最⼴的,由于近年来不断改进,也是最有成效的⽣物技术。
⼀般⽽⾔,基因芯⽚是利⽤微处理技术,先把⼈类所有的基因分别固着在⼀⼩范围的玻璃⽚(glass slide)、薄膜(membrane)或者硅芯⽚上;然后,可以平⾏地、⼤量地、全⾯性地侦测基因组中mRNA的量,也就是侦测基因的调控及相互作⽤表达。
⽬前微阵列芯⽚⼤致分为以下两种平台:cDNA芯⽚及⾼密度寡核⽢酸芯⽚(high-density oligonucleotide),两种系统⽆论在芯⽚的制备及样本处理上都有相当的差异,因此在分析上也略有不同,以下便就芯⽚的特性简略介绍。
微阵列数据分析和错误发现率

微阵列数据分析和错误发现率王婷;曾平;黄水平;赵华硕【摘要】Aim :To introduce the analysis of differential expression of microarray data and the multiple hypotheses testing based on the false discovery rate( FDR ). MGthodS :The t test was used for the analysis of differentially expressed genes concerning prostate cancer microarray data. FDR controlled with the procedure of Benjamini and Hochberg( BH )was empirically estimated. ReSUltS:A total of 21 differentially expressed genes were obtained by the BH procedure with the FDR of 0. 05 ;and 105 genes were obtained with an estimated FDR of 0. 20 if the rejection region was ∣t∣≥3. Conclusion :FDR is more appropriate for high-dimensional microarray data in multiple comparisons than family wise error rate; we can control and estimate the FDR at the same time.%目的:介绍微阵列数据的差异表达分析和基于错误发现率的多重假设检验.方法:通过t检验对一个关于前列腺癌的微阵列数据进行基因差异表达分析,采用BH程序进行错误发现率的控制和经验估计.结果:当错误发现率为0.05时通过BH程序得到21个差异表达基因;当以|t|≥3作为拒绝域时,得到105个基因,对应的错误发现率估计值为0.20.结论:相对传统的总体错误率,错误发现率更加适合于微阵列这种高维数据多重比较的错误控制;而且能同时控制或估计错误发现率.【期刊名称】《郑州大学学报(医学版)》【年(卷),期】2013(048)001【总页数】4页(P59-62)【关键词】微阵列数据;多重假设检验;错误发现率;控制和估计;前列腺癌【作者】王婷;曾平;黄水平;赵华硕【作者单位】徐州医学院公共卫生学院流行病学与卫生统计学教研室,徐州,221002【正文语种】中文【中图分类】R195.1现代生物和医学技术的发展使得人们能够收集到大量的数据,微阵列技术是其中的著名代表,为人们提供了一种从没有过的医学实践方式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
微陣列資料分析(Microarray Data Analysis)
蔡政安副教授
前言
在人類基因體定序計劃的重要里程碑陸續完成之後,生命科學邁入了一個前所未有的新時代,在人類染色體總長度約三十億個鹼基對中,約含有四萬個基因,這是生物學家首次以這麼宏觀的視野來檢視生命現象,而醫藥上的研究方針亦從此改觀,科學研究從此正式進入後基因體時代。
微陣列實驗(Microarray) 及其它高產能檢測(high-throughput screen) 技術的興起,無疑將成為本世紀的主流;微陣列實驗主要的優勢再於能同時大量地、全面性地偵測上萬個基因表現量,透過基因晶片,可在短時間內找出可能受疾病影響基因,作為早期診斷的生物指標(biomarker)。
然而,由於這一類技術的高度自動化、規模化及微型化的特性,使得他們所生成的資料量非常龐大且資料型態比一般實驗數據更加複雜,因此,傳統統計分析方法已經不敷使用。
在此同時,統計學家並未在此重要時刻缺席,提出非常多新的統計理論和方法來分析微陣列實驗資料,也廣受生物學家所使用。
由於微陣列資料分析所牽涉的統計問題層面相當廣且深入,本文僅針對整個實驗中所衍生的統計問題加以介紹,並介紹其中一些新的圖形工具用以呈現分析結果。
基因晶片的原理
微陣列晶片即一般所謂的基因晶片,也是基因體計畫完成後衍生出來的產品,花費成本雖高,但效用無限,是目前所有生物晶片中應用最廣的,由於近年來不斷改進,也是最有成效的生物技術。
一般而言,基因晶片是利用微處理技術,先把人類所有的基因分別固著在一小範圍的玻璃片(glass slide)、薄膜(membrane)或者矽晶片上;然後,可以平行地、大量地、全面性地偵測基因體中mRNA的量,也就是偵測基因的調控及相互作用表現。
目前微陣列晶片大致分為以下兩種平台(如圖一) : cDNA 晶片及高密度寡核甘酸晶片(high-density oligonucleotide),兩種系統無論在晶片的製程及樣本處理上皆有相當的差異,因此在分析上也略有不同,以下便就晶片的特性約略介紹。
1.cDNA 晶片: 基本上晶片上的探針(probes)及準備進行雜合反應(hybridization)
的樣本(Targets)皆來自於cDNA。
正常及癌組織中萃取的mRNA經反轉錄後,分別標上綠色(Cy3)和紅色(Cy5)螢光標記,並同時和晶片進行雜合反應,反
應後經過雷射掃描器顯像,綠色螢光點表示正常組織的基因表現高於癌組織;紅色螢光點表示癌組織的基因表現高於正常組織;當基因表現不變時,即呈黃色螢光。
經影像分析軟體可將影像強度轉換成數據資料,用以分析有顯著差異表現之基因。
2.高密度寡核甘酸晶片: 高密度寡核甘酸晶片主要由25個鹼基所構成的探針對(probe
pair)所組成,而每一個基因由16-20個探針對來代表,每組探針對包括perfect-match (PM) 和miss-match (MM) 探針,MM探針除了中間鹼基不同於PM探針外,兩者有相同的DNA序列,主要爲內部對照之用。
不同於c DNA晶片,正常及癌組織中萃取的mRNA分別和不同的晶片進行雜合反應,所以只使用單色螢光標記。
經影像分析軟體可將螢光強度轉換成數據資料,再利用不同的統計模型將每個基因所對應的探針對整合來顯示基因的表現程度。
微陣列資料統計分析
雖然微陣列實驗能快速有效地偵測表現差異的基因,也已廣泛應用在生物研究上,然而由於實驗的複雜性和特異性也使得分析上的困難度增加;近年來,由於各學術領域研究學者的加入探索並針對實驗中各步驟提出各式改進分析的方法,使得整個微陣列實驗的精確性及可靠度增加至一定的水準,從早期僅用表現差異(fold-change)的大小來篩選有差異表現基因到現在許多複雜計算的統計或數學模型。
本文將微陣列資料分析分成五大部份(如圖二),並介紹其中所牽涉相關的統計問題,這五大分析要素關係整體分析的品質及準確性,分別為:
(一)實驗設計: 透過詳細完整的實驗設計可以使得資料的品質和效度達到最佳化。
實驗
設計包括樣本數估計,其中樣本數可分為生物性(biological replicates)及技術性樣本(technical replicates);在晶片上品質管制的設計;根據不同微陣列平台及研究因子設計最佳實驗配置等。
(二)資料的前置處理: 由於微陣列實驗的雜訊、系統及非系統上變異等干擾因子,因此
在進行統計推論之前,需要對資料先行處理。
前置處理包括影像分析及正規化用以移除系統性變異;資料轉換及篩選;缺失值插補等。
資料的前置處理相當繁複,且不同微陣列平台各有不同處理程序,但是此步驟卻非常關鍵,關係著往後分析的精
確性,不可輕忽。
在雙色cDNA微陣列中常用的正規化方法如LOWESS平滑曲線調整(如圖三(b) )。
(三)顯著性分析: 以統計方法檢定有顯著差異的基因,這也是微陣列實驗主要目的之
一。
近年來有非常多學者提出不同統計方法來偵測有顯著差異的基因,但由於在微陣列實驗中需要同時檢定上萬個基因,其中有一個非常重要的統計議題,是關於多重檢定(multiple testing)的問題,有別於傳統控制family-wise error rate(FWER) 的方法太過保守以至於檢定力過低,另外控制false discovery rate(FDR) 的方法可提供有效解決方案。
常用的統計方法有SAM(如圖三(c))及混合模型(Mixture model) 等可控制挑選基因中犯錯的比率(FDR)至研究者設定的標準,此外可同時利用兩種以上檢定法則來挑選有顯著差異的基因,如圖三(d)所示之Volcano plot 利用表現平均差異質(fold-change)和統計檢定的P值(p-values)來挑選有顯著差異的基因。
(四)群集分析和預測分析: 群集分析(Clustering analysis)可由兩個方向來討論,基因和受
測組織(如圖三(a)),基因的群集分析主要想找出具有相似表現型態的基因群集,並配合生物上代謝及傳導功能來輔助解釋;而受測組織的群集分析可用來評估受測樣本的變異程度(variation)及實驗的再現性(reproducibility),同時也可藉由群集分析中發現疾病的次型態。
預測分析(Prediction)或分類法則(Classification)主要目的想利用基因表現資料建構分類法則(如圖三(e)),用以預測疾病的發生,其中包括如何從眾多基因中挑選重要的預測因子(feature selection),以及預測模型的建構等,此分析的目標是希望從微陣列實驗中找出可能受疾病影響基因,作為早期診斷的生物指標(biomarker),並成功建立診斷模型。
(五)相關分析及實驗確認: 經過以上分析,我們可找出具有表現差異或疾病診斷的基
因,但是還是要和生物現象做緊密結合,可以經由對照大型公用生物資料庫,如GO、KEGG和BioCarta Pathways等,來描述及觀察基因在生物功能註解及動態圖解模型互動關係。
此外,使用較精確的實驗(如RT-PCR)來作進ㄧ步分析確認也是不可獲缺的步驟。
結論
DNA雙股螺旋結構模型發表至今50 年,在全世界科學家不斷地探索下已了解七千多個基因的功能。
在四萬個基因中,目前尚有三萬多個基因的功能,或可能有的致病因子及生物醫學用途,我們仍一無所知。
透過基因體定序計畫及基因晶片的應用,可快速探測這些基因在各類疾病或生物體變動中的功能,加速我們對各生物體所有基因的了解。
參考文獻
David B. Allison, Xiangqin Cui, Grier P. Page, Mahyar Sabripour, (2006). Microarray data analysis: from disarray to consolidation and consensus. NATURE REVIEWS GENETICS, 7(1), 55-65.
圖一: Principles of two major microarray platforms: cDNA array and high-density oligonucleotide array.
圖二: Guidelines for the statistical analysis of microarray experiments.
圖三: Visualization tools for microarray analysis。