基于 DNA 微阵列的基因表达数据管理和分析
组织微阵列技术

组织微阵列技术组织微阵列技术是一种高通量的基因表达分析方法,它可以同时检测成千上万个基因的表达情况。
本文将从以下几个方面详细介绍组织微阵列技术的原理、流程、数据分析及应用。
一、原理组织微阵列技术是基于DNA杂交原理的。
首先,将RNA提取出来,然后将其转录成cDNA,并标记上荧光染料。
接着,在芯片上固定一系列有代表性的DNA探针,并将标记好的cDNA与之杂交。
最后,通过检测荧光信号来确定每个探针对应基因的表达水平。
二、流程1. RNA提取:从样品中提取总RNA,并进行质量和纯度检测;2. cDNA合成和标记:使用反转录酶将RNA转录成cDNA,并使用荧光染料标记;3. 杂交:将标记好的cDNA与芯片上的探针进行杂交;4. 荧光信号检测:通过扫描仪检测芯片上每个探针对应位置的荧光信号;5. 数据处理和分析:对原始数据进行预处理、归一化和差异分析等,得到差异表达基因列表。
三、数据分析数据分析是组织微阵列技术中至关重要的一环。
主要包括以下几个方面:1. 数据预处理:对原始数据进行背景校正、去噪声和标准化等处理,以提高数据质量;2. 差异分析:通过比较不同组别的样品之间的基因表达水平,筛选出差异表达基因;3. 生物信息学分析:对差异表达基因进行生物信息学分析,如GO富集分析、KEGG通路分析等,以进一步了解其功能和调控网络;4. 数据可视化:将结果可视化展示并呈现出来,如热图、散点图、折线图等。
四、应用组织微阵列技术在许多领域都有广泛的应用。
以下是一些典型应用:1. 基因表达谱研究:通过比较不同组别的样品之间的基因表达水平,了解某个生物过程或疾病发生机制;2. 药物筛选:通过检测药物对基因表达谱的影响,筛选出有潜力的药物靶点或药物组合;3. 个性化医疗:通过检测患者基因表达谱的差异,为患者提供个性化的治疗方案;4. 农业生物技术:通过检测作物基因表达谱的变化,筛选出具有优良性状的品种或杂交组合。
总之,组织微阵列技术是一种高通量、高灵敏度、高精度的基因表达分析方法,已经在许多领域得到了广泛应用。
基因表达差异的分析方法研究

基因表达差异的分析方法研究基因表达差异是指在不同生物或不同条件下,对同一基因进行的表达实验中,所测得的表达量之间的差异。
对基因表达差异的研究可以帮助我们更好地理解基因功能和调控机制,并为疾病的诊断和治疗提供新的思路和方法。
接下来,将介绍一些基因表达差异分析的方法。
1. 微阵列技术微阵列技术是最早被用于基因表达差异分析的方法之一。
该技术利用DNA芯片上固定的互补DNA序列与待测RNA样品进行杂交,测定样品中各个基因的表达水平。
具体操作步骤包括:样品采集、RNA提取、标记、杂交与扫描等多个步骤。
虽然微阵列技术具有高通量、高灵敏度和高精度等优点,但也存在着成本高、样品处理复杂和标记的局限性等问题。
2. RNA测序技术随着二代测序技术的发展,RNA测序技术已成为一种常用的基因表达差异分析方法。
RNA测序技术利用高通量测序平台对RNA样品进行测序,可以对基因的转录和剪切等过程进行全面的检测和定量。
与微阵列技术相比,RNA测序技术不需要依赖于基因组序列信息,同时还可以检测未知序列和新基因的表达情况。
但RNA测序技术也存在着不同的测序深度和质量、样品处理和分析方法等影响分析结果的因素。
3. 质谱技术质谱技术是一种基于蛋白质组学的方法,也可以用于基因表达差异的分析。
该技术主要包括两个步骤:蛋白质消化和质谱分析。
在蛋白质消化步骤中,蛋白样品被加入胰酶等酶类,将多肽生成后进行分离。
在质谱分析中,分离后的多肽样品被注入质谱仪,得到其质量和放电荷比例的信息。
由此可以推断出蛋白的氨基酸组成和序列等信息。
质谱技术的优点包括定量、选择性和灵敏度高,同时可以进行定量分析和鉴别分析。
4. 基因编辑技术随着基因编辑技术的发展,我们还可以通过CRISPR-Cas等技术对基因表达差异进行分析。
在这种方法中,我们可以将CRISPR-Cas系统引导的RNA处理后注入细胞内,选择性地打靶并对目标基因进行编辑,从而直接体现基因在表达水平上的变化。
采用DNA微阵列技术对癌症的分子分型研究

采用DNA微阵列技术对癌症的分子分型研究近年来,癌症的发病率越来越高,已经成为全球范围内的顽疾。
传统的癌症治疗方式主要依靠手术、放疗和化疗等传统治疗手段,虽然已经取得了一定的成效,但是治愈率并不高,而且常常会带来一系列副作用。
因此,研究癌症的分子机制,以及寻找更为有效和安全的治疗手段,已成为当前癌症研究的重要方向。
而DNA 微阵列技术作为一种先进的检测技术,已经被广泛应用于癌症分子分型的研究中。
DNA微阵列技术是一种基于高通量平台的基因表达分析技术,其原理是通过将目标DNA分子固定在薄膜上,并使用荧光标记的探针来检测其杂交过程中的荧光强度变化,从而实现对基因表达谱的分析。
这项技术能够同时检测上千种基因的表达状态,并进行全面的生物信息分析,在研究基因的调控机制、疾病的诊断和治疗等方面具有广泛的应用前景。
在癌症的分子分型研究中,DNA微阵列技术是一种非常有效的手段。
通过对肿瘤细胞和正常细胞的基因表达谱进行比较分析,可以发现不同癌症类型之间的分子特征,为癌症的诊断和治疗提供新的思路。
例如,通过对不同乳腺癌患者的基因表达谱进行分析,可以将乳腺癌分为4个亚型,每个亚型在分子特征和临床治疗方案上都有所不同。
此外,DNA微阵列技术还可以研究癌症发生和发展的分子机制。
如通过分析肿瘤细胞的基因表达谱,可以发现哪些基因的调控异常,影响了肿瘤细胞的增殖、转移和耐药性等关键生物学特征。
这些分子机制的研究,对临床治疗方案的制定和药物研发都具有重要的意义。
此外,DNA微阵列技术还可以发现新的癌症标志物。
例如,一些癌症在早期时并没有明显的症状,容易被忽视。
如果可以发现一些特异性的标志物,就可以在早期对癌症进行预警,从而更好地开展预防和早期治疗。
DNA微阵列技术可以通过分析不同癌症患者的血液、尿液等体液样本,寻找特异性的基因表达谱,从而找到新的标志物,为早期癌症的预警和治疗提供有力的支持。
虽然DNA微阵列技术在癌症分子分型研究中已经取得了显著的进展,但该技术也存在一些挑战。
基于文本挖掘的DNA微阵列表达数据方法研究

[ btatD A mcor y dvlpdi rcn yasiatcnqeue ns d fucoa gnmc, A src] N ir r ,ee e n eet er, hiu sdi t yo fntnl eo is aa o s e u i
adcnb sdt e t rl e n t n e e n h i epes n cn o n tok tgn mc vlt s n a eue i ni e tdf ci a gn sad te x rsi o t l e rsa e o i l e, u od  ̄ a u ol r o r w se h
语 言处理 、 于关联规 则挖掘 , 于模式识别的 4种分析方法。基于文本挖掘 的 D A微 阵列技 术 , 基 基 N 有利于发现基 因或蛋 白质
之 间的相 互作 用关系, 自动识别生物学名词, 高数据分析效率等。 提
[ 关键词 ] N D A微 阵列 ; 文本挖掘 ; 聚类分析 ; 文献轮廓 ; 关联规则 ; 自然语 言处理 ; 模式识别 [ 中图分 类号 ] 2 O; 1 G 5 R3 9 [ 文献标志码 ] A [ 文章编号 ]6 1 38 (0 0 0 — 0 1 0 17 — 9 2 2 1 )5 0 1— 5
基于矩阵变换层次聚类在基因表达数据分析中应用研究

基于矩阵变换的层次聚类在基因表达数据分析中的应用研究摘要:随着基因测序技术的不断发展和完善,基因芯片技术逐渐成熟,产生了大量可供分析的基因表达数据,使得研究和比较大量基因成为了可能。
聚类分析能够检测出表达谱相似的基因群,将基因表达谱相似程度高的基因划分到同一类中,从而识别出未知功能的基因,是目前研究基因表达数据使用的主要技术之一。
本文在对基因表达数据分析方法的研究基础上,采用了一种改进的、基于矩阵变换的基因表达数据层次聚类(nhc)方法,用于改善聚类效果。
关键词:层次聚类;基因芯片;基因表达数据中图分类号:q786 文献标识码:a 文章编号:1007-9599 (2012)24-0046-031 引言生物信息学是20世纪80年代末兴起的新学科,他是涉及数学、生物学、计算机科学和工程学的交叉学科,是一门理论和实践相结合的学科。
基因芯片技术为生物信息学中的一项非常重要的前沿技术,该技术产生于20世纪90年代。
随着基因测序技术的发展,果蝇、小鼠、线虫等生物基因测序的完成,以及人类基因组计划的顺利进行,基因序列数据正在以前所未有的速度迅速增长。
生物信息学已经进入了一个全新的时代,确定每条基因在整个生物体的发育和活动中所起的调控功能,揭示成千上万基因间的相互作用关系已经为人类基因组计划研究的重点,人类基因组计划从此进入了后基因时代。
此时,需要一种能够监测基因行为变化的技术,使研究者能够同时监测不同发育阶段、不同组织、不同健康状态下的基因表达情况。
传统的实验技术此时已经无法满足这种需求了,于是基因芯片技术应运而生,为分析基因功能提供了一个十分理想的技术平台。
它能同步研究大规模基因在各种不同生理状态下的表达状况,使得同时研究和比较大量基因的功能和特性成为可能。
近年来,数据挖掘作为知识发现的重要手段已经在越来越多的领域得到广泛地应用。
在生物信息学领域,也已有多种数据挖掘技术应用于基因表达数据分析。
由于聚类分析能够根据基因之间的相似程度将基因表达谱相似程度高的基因划分到同一子类,识别出表达谱相似的基因群,从而使研究者可以通过抑制基因或者结合特征数据来对功能未知的基因进行研究,在基因表达数据分析中得到的广泛应用。
基于微阵列的比较基因组分析

微阵列芯片(Microarray)以高密度阵列为特征。
其基础研究始于20世纪80年代末,本质上是一种生物技术,主要是在生物遗传学领域发展起来的。
微阵列分为cDNA微阵列和寡聚核苷酸微阵列.微阵列上"印"有大量已知部分序列的DNA探针,微阵列技术就是利用分子杂交原理,使同时被比较的标本(用同位素或荧光素标记)与微阵列杂交,通过检测杂交信号强度及数据处理,把他们转化成不同标本中特异基因的丰度,从而全面比较不同标本的基因表达水平的差异.微阵列技术是一种探索基因组功能的有力手段.其发展契机主要来自于现代遗传学的一些重要发现,并直接收益于该领域的某些重要研究成果,即在载体上固定寡核苷酸的基础上以杂交法测序的技术。
因此发展早期,微阵列芯片有时被通俗的称为“生物芯片(Biochip)”,目前媒体和科普读物中仍然常用该名称。
微阵列芯片经过近十年的主要发展期,国内外学术界渐渐采用名称Microarray(微阵列芯片),而Biochip(生物芯片)由于这名称容易混淆微阵列芯片和微流控芯片,渐渐该领域用的越来越少了。
比较基因组杂交技术比较基因组杂交(comparative genomic hybridization,CGH)是自1992年后发展起来的一种分子细胞遗传学技术,它通过单一的一次杂交可对某一肿瘤整个基因组的染色体拷贝数量的变化进行检查。
其基本原理是用不同的荧光染料通过缺口平移法分别标记肿瘤组织和正常细胞或组织的DNA制成探针,并与正常人的间期染色体进行共杂交,以在染色体上显示的肿瘤与正常对照的荧光强度的不同来反映整个肿瘤基因组DNA表达状况的变化,再借助于图像分析技术可对染色体拷贝数量的变化进行定量研究。
CGH技术的优点:1.实验所需DNA样本量较少,做单一的一次杂交即可检查肿瘤整个基因组的染色体拷贝数量的变化。
2.此法不仅适用于外周血、培养细胞和新鲜组织样本的研究,还可用于对存档组织的研究,也可用于因DNA量过少而经PCR扩增的样本的研究。
基于微阵列数据分析的癌症诊断

自从人类基因组计戈开展以来, 8 生命科学取得了极 大的发展。 功能基因组织的研究重点之一就是寻找与疾 病相关基因的功能 , 通过基因表达的研究实现疾病的诊 断和基因治疗。 利用微阵列基因表达谱数据的分析来检
用最为广 “ ,根据基因表达数据集如何建立有效的癌 症识别模式 , 以预测样本的癌症类型 , 在基于微阵列基
Xu h u Ja g u2 1 1 , ia z o , in s 2 16 Chn )
Absr t m al a l n ihdm e so l h et rso g n x rsin whc s l n rd n a t e e . lny o tac:S ls mp ea dhg i n inaetefau e f e ee p eso , ihr ut e u d n g n s Pe t f e si rd n a t e e l n to l e u eteda n ssa c rc , u low i ce s ec m p tt n b r e . ee oei i e u d n n swi o ny rd c h ig o i c ua y b tas l i ra et o g l ln h uai ud n Th r fr o t s n c sa' t e c eae e e r v a c rda n ssa c r c . no d rt ov h g - i e so a rb e te e e sl o s l trltd g st i o ec n e ig o i c ua y I r e o s leteh h dm n in l o lm, y e n o mp i p h
因表达数据的癌症检测中具有非常重要的地位。 现有的 癌症识别算法各有优缺点, 没有哪一种算法有绝对的压 倒性优势。目前很多的研究人员采用分类的方法建立诊 断模型,其中将 S M 应用于癌症诊断的应用比较多。 V 然而分类的方法是一种监督学习方法, 需要采用训练样 本来构造判别函数, 函数构造的好坏直接影响最终的诊
DNA微阵列数据分析及蛋白质相互作用网络研究的开题报告

DNA微阵列数据分析及蛋白质相互作用网络研究的
开题报告
一、研究背景和意义
现代生命科学研究中,DNA微阵列技术已成为分析基因组结构和功能的重要手段之一,广泛应用于基因表达、疾病诊断和预测等领域。
蛋白质相互作用网络是生物信息学的研究热点之一,也是研究蛋白质间相互作用和生物化学过程的关键方法之一。
本研究旨在进行DNA微阵列数据分析,探究关键基因和生物过程,并构建蛋白质相互作用网络,以期为生物信息学研究提供理论和实践指导。
二、研究内容和方法
本研究主要采用如下方法:
1. DNA微阵列数据分析
利用R和Bioconductor等相关软件,分析DNA微阵列数据,筛选关键基因并进行生物信息学分析,以揭示差异表达基因、功能富集和通路分析等信息。
2. 蛋白质相互作用网络构建
基于已知的蛋白质相互作用数据库,使用Cytoscape等软件,构建蛋白质相互作用网络,同时利用图形分析和拓扑算法分析网络特征和生物学意义。
三、预期成果和意义
通过本研究,将从DNA微阵列数据中挖掘出关键差异表达基因,并探究其功能和通路,进一步构建蛋白质相互作用网络,揭示蛋白质间相互作用和生物化学过程的关键环节,为研究生物基础和疾病预测提供理论基础和实践指导。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于DNA微阵列的基因表达数据管理和分析029129 谢建明2002年10月摘要:DNA微阵列是生命科学研究的重要工具,在疾病诊断、药物开发等领域得到了广泛应用。
在应用过程中,产生了大量的数据,这些数据的存储、分发和数据挖掘成为DNA微阵列能被推广应用的关键技术。
本论文简单介绍了这两方面的研究现状。
关键词:DNA微阵列数据挖掘数据仓库标准基因表达分析一、引言DNA微阵列(DNA microarray),也叫基因芯片,是近几年发展起来的一种能快速、高效检测DNA片段序列、基因型及其多态性或基因表达水平的新技术。
它将几十个到上百万个不等的称之为探针的核苷酸序列固定在微小的(约1cm2)玻璃或硅片等固体基片或膜上,该固定有探阵的基片就称之为DNA微阵列。
它利用核苷酸分子在形成双链时遵循碱基互补原则,可以检测出样本中与探阵阵列中互补的核苷酸片段,从而得到样本中关于基因结构和表达的信息。
它的技术来源追溯到一个多世纪之前,Ed Southern发现被标记的核酸分子能够与另一被固化的核酸分子配对杂交。
因此,Southern blot可被看做是最早的基因芯片。
在八十年代,Bains W.等人就将短的DNA片断固定到支持物上,借助杂交方式进行序列测定。
1995年,斯坦福大学开发出第一片cDNA芯片并用于生命科学研究,1998年美国Affymetrix公司将第一片带有13.5万个基因探阵的寡聚核苷酸芯片推向市场,标志着DNA微阵列的产业化,从此基因芯片或DNA微阵列的研究和应用得到了广泛的重视,可以说在生命科学研究界和产业界掀起了基因芯片热潮,1999年Nature出专刊介绍这门基因芯片及其应用。
基因芯片可用于DNA序列的再测序、基因SNP或多态性检测和基因表达分析。
由于基因芯片技术是一种高通量检测技术,它可是并行的同时检测成百上千,甚至成千上万个基因的活动情况或DNA片段,改变了传统的每次只能检测一个基因的情况,因此能大大提高检测效率,降低检测成本,并保证了检测质量。
基因芯片技术可广泛应用于疾病诊断和治疗、药物筛选、农作物的优育优选、司法鉴定、食品卫生监督、环境检测、国防、航天等许多领域。
它将为人类认识生命的起源、遗传、发育与进化、为人类疾病的诊断、治疗和防治开辟全新的途径,为生物大分子的全新设计和药物开发中先导化合物的快速筛选和药物基因组学研究提供技术支撑平台。
通过基因表达谱的研究可以进行进一步的理论研究或应用研究。
1、理论研究。
根据基因组基因表达谱可以进一步分析共表达基因是否存在共同的顺式调控元件,发现新的调控元件。
此外,可以研究基因的调控规律,构建调控网络。
2、应用研究包括疾病诊断和药物开发。
根据不同疾病状态下的差异表达谱的研究可以确定疾病的类型和进展。
研究药物作用后基因表达谱的改变可以确定药物的毒性、预后和疗效,从而指导药物开发和临床合理用药。
在基于DNA微阵列的基因表达分析研究中,数据的分析和管理是一个关键性的问题,它直接影响了实验结果的准确型和实验的可靠性。
量化矩阵图1 DNA微阵列的基因表达数据的获得二、数据分析数据的分析包括了三个部分:芯片图像处理获得单次实验的基因表达水平;整合多次实验得到基因表达矩阵;根据基因表达矩阵进行知识挖掘。
下面简单介绍一下其中涉及的关键技术:包括归一化和聚类分析。
归一化对于cDNA微阵列技术,包含Cy3和Cy5两个通道,通常存在两个通道荧光亮度不平衡的问题,Cy3的亮度低于Cy5[Quackenbush, 2001]。
归一化的目的是平衡实验过程中Cy3与Cy5两个通道的相对荧光亮度。
它基于如下的假设:芯片上的所有的基因,一组基因子集或一套外源的控制在标记前产生RNA,其平均表达率等于1。
使用归一化因子调整数据,弥补实验的变化,“平衡”待比较的两个样本的荧光信号。
主要有3种被广泛使用的技术用于来自同一个芯片杂交的基因表达数据的归一化。
1、总亮度归一化总的亮度归一化数据依赖于假设:两个标记的样本的起始量是一样的,此外,假设一些基因在待检测的样本中相对于控制样本是上调的,另外一些是下调的。
对于芯片上成百上千或成千上万的基因,这些变化应该是平衡的,因此,总的与芯片杂交的RNA的量是一样的。
因此,芯片上所有的元素计算得到的总的累加亮度在Cy3和Cy5通道上是一样的,在这种假设下,计算归一化因子,并用于芯片上每个基因的亮度比例计算。
2、用回归技术归一化对于起源于相关样本的mRNA,被分析的基因的显著性分数在相似的水平上被表达。
在Cy5与Cy3亮度(或对数值)的散点图上,这些基因沿着直线聚类,如果两个样本标记和检测效率是一样的则该斜率将是1。
这些数据的归一化等于用回归技术计算它的最合适斜部回归技术更合适,例如LOWESS(局部权值散点图平滑)回归。
3、使用比率统计归一化Chen描述的基于比率统计的归一化方法。
假设尽管在紧密相关的细胞中,单个基因可以上调或下调,RNA产生的总量与重要的基因近似相等,例如看家基因。
基于这种假设,他们发展了一种近似概率密度比率T k=R k/G k(R,G分别代表第k个元素的测量的红/绿亮度比)然后他们用于迭代过程,归一化平均表达率为1,计算可信度阈值用于识别差异表达的基因。
除了以上三种在应用中被广泛使用的除外,还有一些复杂的、非线性的方法用于归一化。
归一化后,每个基因的数据以表达率或表达率的对数报告。
应用对数值的优点是理解更简单,如果值大于0,则表示该基因的表达率大于1,反之小于1。
对于合成寡聚核苷酸微阵列不存在cDNA微阵列荧光不平衡导致的系统歪曲的问题,但是对于相比较的两组实验来说,需要用两块芯片与两个样本杂交两次,产生的原因包括两个样本中mRNA数量的差异或用于标记样本的染料的质量不同,都可能导致错误。
在这里归一化的目的也是去除这些错误。
聚类分析通过图1的数据获取过程,可以得到细胞的基因表达矩阵。
基因的表达矢量定义为每个基因在表达空间的位置。
用基因表达的观点看,每个实验在空间中表达一个隔离的和不同的轴,在该实验中的基因的测量值log2(比率)代表了几何坐标。
例如,如果我们有三个实验,对于一个给定的基因在实验1种的log2(比率)值是它的x坐标,在实验2中的值是y坐标,在实验3中的值是z轴,因此,我们能表示所有的信息,一个基因在x-y-z表达空间中用一个点表示。
第2个基因,对于每个实验近似相同的值(log2(比率))将在表达空间中空间相近的点表示。
不同表达模式的基因将于最初的基因离的较远。
对于更多的实验这种推广是直接的(尽管很难画出),表达空间的维度的增加与实验的数目相等。
用这种方式,表达数据可以表示为n维表达空间,n是实验的数目,每个基因表达矢量表示为该空间内的单个点。
有了测量基因间距离的方法后,聚类算法根据在表达空间中的分离度选择基因和将基因分组。
需要提及的是如果我们感兴趣聚类实验,我们将每个实验表示为一个实验矢量,包括每个基因的表达值。
这里定义的实验空间,维度等于每个实验中分析的基因数目。
同样的方法定义距离,我们能够应用任何的聚类方法来分析和分组实验。
为了解释多个实验分析的结果,直觉的可视化表示是很有帮助的。
通常使用的方法依赖于表达矩阵的建立,矩阵的每一列表示单个实验,每一行表示特定基因的表达矢量。
根据表达数据用不同的颜色表示矩阵元素建立多个实验的基因表达模式的可视化。
表达矩阵有无数的方案来着色和表示。
最常用的方法是根据每个实验的log2(比率)值,log2(比率)等于0用黑色,大于零的用红色表示,负数的用绿色表示。
对于矩阵中的每一个元素,相对亮度表示了相对表达水平,约亮的元素表示差异表达越大。
对于任何特定的实验组,表达矩阵通常没有明显的模式或顺序。
设计程序来聚类数据通常重组行、列或两者。
当以这种方式可视表示可以看到明显的表达模式。
在聚类数据前,有两个问题需要考虑:1、数据需要用某种调整方式来增强某一种关系?2、采用何种距离测量来分组相关的基因。
在许多微阵列实验中,数据分析被具有最大数据值的变量决定,这样掩盖了其他重要的区别。
为了避免这个问题,采用的一种方法是调整或重新确定数值范围,使每个基因的平均表达为0,称之为平均中心法过程。
在这个过程中,基因的基本表达水平被每次实验测量值相减。
这样增强了每个基因在每个实验中的表达水平的变异,而不考虑基因是否是上调或下调。
这种方法对于分析时间过程的实验是特别有用的,可以发现在基础表达水平周围变异相似的基因。
这些数据调整为-1~1之间的值。
或者每个表达矢量的长度为1。
基因的聚类分析方法根据不同的描述包括:层次式与非层次式(k-means);分解法、合成法;有师(使用现有的生物学知识,关于功能相关的特定基因指导分类算法)、无师分析方法等。
聚类分析技术非常有用,应该关注不同的算法、不同的归一化或者不同的距离矩阵,将把不同的目标放在不同的类中,此外,不相关数据的聚类仍将产生类,虽然他们没有生物学意义。
因此基因表达分析方法的挑战是针对特定的数据应用适当的方法,使数据明显的分开。
主要的无师聚类分析方法有层次式聚类法[Eisen,1998]、自组织神经网络[Tamayo,1999]、k平均法、模糊聚类法等,有师分类包括矢量学习机法[Brown,2000]等,此外还有主元分析法和利用统计学的SAM法等。
1、层次式聚类法(hierarchical clustering method)这是多元统计分析中常用聚类方法,对于n个样本构成的n个矢量,看作是n个类,先计算所有两类之间的相似性关系,将相似关系最近的两类生成一个新类,继续以上过程,直到最后只有一个类为止。
在这个过程中每次形成一个新类,类的数目间减少一个,最后形成一棵树,反映样本之间的相似关系。
在计算新类与其它类的相似关系时有不同的方法,有最小距离法、最大距离法、平均距离法、重心法、离差平方和法等。
如最小距离法是将组成新类的两个类分别与第三个类相似关系最近的值为新类和第三个类之间的相似关系。
该类方法可以直观的反映基因之间的关系,而且计算速度快,但使用不同的类间距离计算法会产生不同的聚类结果,而且对于一个样本被分类后,就不能再参与分类,因此它不能将所有的数据作为一个整体进行分析,是一个局部决策的方法。
同时当样本集非常大时,树型结果非常复杂,树的剪枝和类的确定比较模糊。
最简单、结果可视。
是用于分析基因表达数据用得最多的方法,它是一种合成分析的方法,单个基因被连接形成组,继续直到形成单棵层次树。
对于基因表达数据,平均连接聚类给出可接受的结果。
主要问题是随着类数目的增加,表达某一类的表达矢量也许不再表示类种的任何成员。
此外,与最初的基因顺序有关。
2、自组织神经网络法(SOM,self-organizing map)自组织映射是Kohonen,T提出的类似大脑思维的一种人工神经网络方法,是一种竞争学习算法,可以被看作是一种将N维模式空间各点到输出空间少数点的映射。