表达谱

合集下载

cmap化学物质刺激后的表达谱

cmap化学物质刺激后的表达谱

cmap化学物质刺激后的表达谱
表达谱是指在特定条件下,生物体内基因的表达情况。

在化学物质刺激后,生物体内的基因表达可能会发生变化。

化学物质刺激后的表达谱可以使用CMAP (Chemical MAP)技术来分析。

CMAP是一种全基因组表达分析技术,它通过将刺激后的生物样本中基因的表达与未刺激的对照样本进行比较,来查找差异表达的基因。

在进行CMAP分析时,首先会将细胞或组织样本分为刺激组和对照组,然后提取RNA并转录成cDNA。

接下来,将cDNA与微阵列芯片中的探针进行杂交,并使用荧光探针对杂交后的芯片进行扫描。

最后,通过对比刺激组和对照组的芯片扫描结果,确定差异表达的基因。

通过CMAP分析,可以获得刺激后基因表达的谱系图。

这个谱系图会显示哪些基因在刺激后上调表达或下调表达。

通过对这些差异表达基因的功能和通路进行分析,可以揭示化学物质刺激对生物体的生理和病理效应,进一步理解其机制,并为疾病诊断和治疗提供线索。

表达谱数据

表达谱数据

表达谱数据表达谱数据是一种描述基因在特定条件下表达水平的数据,可以反映基因在生物体内的活跃程度和重要作用。

表达谱数据通常是通过高通量测序技术获得的,例如RNA-Seq或microarray技术。

这些数据对研究基因功能及其对生物过程的贡献非常重要,因为它们可以揭示基因的功能、代谢途径和信号通路等复杂的生物过程。

表达谱是生物数据科学领域的主流,它可以用于构建生物系统的基因调控网络图,从而去了解生物物种内部的调控机制,从而识别出治疗基因表达异常疾病的潜在靶点。

表达谱数据的数据类型和学科领域是多如牛毛的,涵盖了癌症、神经学、生殖生物学、免疫学和感染病理学等众多领域。

表达谱数据可以用于许多不同的目的,例如预测细胞的类型、研究细胞的生物学特性、发现新的医疗目标等。

表达谱数据的分析包括预处理、特征提取和建模等步骤。

预处理步骤包括数据过滤、归一化、批次效应调整和缺失数据填充等,这是优化数据质量的必要步骤。

特征提取步骤包括细胞类型、生物过程、调节机制和代谢途径等关键生物学特征的提取。

建模是指将表达谱数据与其他类型的数据整合,例如蛋白质互作数据或基因组测序数据。

这就是基因表达,调控网络和系统生物学等领域的研究方向。

表达谱数据的应用范围非常广泛,从基础科学到应用科学都有着重要作用。

例如,在基础研究方面,表达谱数据可以用于研究基因调控以及基因的功能,从而进一步了解遗传学机制和生物进化的过程。

在应用科学中,表达谱数据可以用于分析药物的作用和安全性,发现影响药物代谢和毒性的基因,并为药物研发提供重要的参考信息。

另外,表达谱数据也可以用于生产领域,例如利用表达谱数据优化工业培养基和工业生物发酵生产过程,提高生产效率。

在生物安全领域,表达谱数据可以用于分析致病菌基因的表达水平,从而开发针对它们的抗菌药物。

在农业领域,基于表达谱数据,可以研究农作物的病害抵抗性、调节所属基因功能等方向进行研究。

总的来说,表达谱数据是重要的生物信息学研究领域,有着广泛的应用前景和潜在的医疗价值。

基因表达谱分析的原理与应用

基因表达谱分析的原理与应用

基因表达谱分析的原理与应用基因是指能够决定生物体遗传特征的遗传物质,基因表达则是指在特定的条件下基因启动的过程。

基因表达谱则是指对一个生物体在不同生长发育和环境等各种因素下,基因在时间和空间上不同的表达状态进行测定、分析和综合描述,以期研究基因功能以及环境施加给生物体的影响等问题。

基因表达谱分析是最近二十年来应用广泛的核酸技术之一,为我们揭示了基因的思维和特性。

一、技术原理早期研究基因表达的方法是利用Northern blotting 单点测试,即测每个基因的mRNA(信使RNA)的表达,但结果只能单点测定基因表达状态,效率很低。

后来随着 DNA芯片技术、转录后基因组学和RNA-seq等技术的发展,不同基因表达谱的测定现在已经变得可操作且具有高通量、高灵敏度和高精准度等特点。

目前应用比较普遍的芯片有两种:cDNA 核酸芯片和OLIGO 芯片。

核酸芯片通过加工和操纵DNA序列,将其固定在极小的芯片上,然后检测芯片上基因表达状态,分析结果即可反映基因在细胞状况下的表达情况。

OLIGO芯片是用聚合酶链式反应技术提取细胞内RNA,从中制备出cDNA,并将其固定在芯片上,分别测试各基因的表达浓度和变化,可以得到大量的数据。

除了芯片技术,pPCR(Real-time Quantitative Polymerase Chain Reaction)也是基因表达谱分析的常用技术,它能快速、准确地定量测定RNA、DNA拷贝数,提供高分辨率的检测结果,是基因表达谱分析的重要手段之一。

二、应用领域基因表达谱分析原理简单,有着广泛的应用领域。

1. 疾病和药物研究基因表达谱分析是疾病和药物研究领域内的常用分析技术。

通过研究基因的表达差异,可以了解特定疾病的潜在机制。

比如,在肿瘤研究中,研究人员可用该技术对肿瘤细胞和正常细胞进行DNA芯片测序以区分哪些基因会被单一肿瘤细胞过表达,哪些基因仅在正常细胞中表达。

这种基因差异分析有助于研制针对个体疾病的个性化治疗方法。

表达谱

表达谱

表达谱应该就是基因表达谱。

翻译表达谱的话,就是蛋白表达谱表达谱差异分析(differential expression profiling)主要包括基因表达谱(gene expression profiling) 和蛋白质表达谱(protein expression profiling) 。

大规模表达谱分析已经成为认识疾病分子机制的有利方法,在癌症研究等方面取得了一定的进展。

成功的表达谱分析基于实验及其过程分析的有机结合。

实验过程从关注的疾病开始,首先收集大量的疾病相关组织样本,样本数量可从10 多个到数百个,但必须足以对每一组织类型及个体差异进行比较分析,而且许多情况下不能仅简单地分为正常和疾病组织。

例如,在对糖尿病的研究中,所收集的样本来自健康人、胰岛素耐受和糖尿病病人的不同试验阶段,如胰岛素治疗前后。

样品还应包括其他器官的取材,以便进行基因表达的组织分布研究。

为了便于对后来的实验数据进行分析管理,需采集并储存所有的组织样本和临床参数。

接下来进行组织样本的处理,利用生物芯片(寡核苷酸芯片、cDNA 芯片或全基因组芯片) 进行表达谱测定,并进行生物信息学分析。

通常,表达谱的分析结果需进一步的实验加以证实。

定量RT2PCR 是最灵敏的确证方法,该方法还可以将确证实验的范围扩大到原测组织以外的更广泛的组织和组织类型,揭示基因表达的组织分布情况。

确证实验揭示了疾病相关基因。

据此,可以进行进一步研究,探索这些基因的功能,开发新的治疗手段。

例如,对于正常和疾病组织中表达有显著性变化的基因,可以进行新治疗靶点的鉴定和确定研究,或利用实验和分析工具研究分析其功能;对于疾病组织中活性升高的酶,可以当作前药活化酶进行鉴定研究。

典型的表达谱能够显示疾病过程中有大量的已知基因表达的改变,而许多已知基因的代谢通路、表达产物酶学分类和蛋白质功能业已发表,将两者对照分析,可以鉴定出酶活性,选择其中可能成为前药活化酶的部分进行进一步研究;对于疾病特异的蛋白质,可以进行抗原表型分析,决定疫苗的开发策略。

高通量基因表达谱测定方法剖析

高通量基因表达谱测定方法剖析

高通量基因表达谱测定方法剖析引言:基因表达谱测定方法广泛应用于生物学研究领域,能够揭示生物体内基因在不同组织、不同时期以及特定环境下的表达情况。

高通量技术的出现极大地提高了基因表达谱测定的效率和准确性。

本文将重点探讨高通量基因表达谱测定方法的原理、步骤以及应用,并对比分析其优缺点。

一、高通量基因表达谱测定方法的原理:高通量基因表达谱测定方法主要包括RNA测序和芯片表达谱分析两种技术。

RNA测序通过对RNA进行反转录合成cDNA,然后进行测序,得到基因的序列信息。

芯片表达谱分析则是利用预先设计的基因芯片或探针芯片,检测RNA样品中不同基因的表达水平。

二、高通量基因表达谱测定方法的步骤:1. 样品准备:样品的选择和处理是基因表达谱测定方法的关键步骤。

不同样品的表达谱可能存在差异,因此需针对不同的研究目的选择合适的样品。

2. RNA提取:RNA是高通量基因表达谱测定的关键基质。

提取纯度高、完整的RNA样品对于获得可靠的表达谱数据至关重要。

3. RNA测序:RNA测序方法主要包括第一代测序技术和第二代测序技术。

第一代测序技术包括Sanger测序和Maxam-Gilbert测序,虽然准确性高,但成本高且通量低。

第二代测序技术是目前应用最广泛的RNA测序方法,其中以Illumina测序技术最为常用。

4. 数据分析:在得到RNA测序数据后,需要对数据进行过滤、比对、定量和差异分析等步骤。

数据分析的目的是从大量的测序数据中提取有意义的信息,并进行有效的解读。

三、高通量基因表达谱测定方法的应用:1. 生物发育研究:高通量基因表达谱测定方法能够揭示生物在不同发育阶段基因表达的动态变化,有助于深入了解生物发育的分子机制。

2. 疾病诊断与治疗:通过比较患者与正常人的基因表达谱差异,可以寻找与疾病相关的生物标志物,并预测疾病的发生风险。

同时,高通量基因表达谱测定方法也有助于研究新药的作用机制和寻找新的治疗靶点。

3. 癌症研究:癌症是基因异常表达导致的严重疾病。

表达谱基因比对

表达谱基因比对

表达谱基因比对表达谱和基因比对是两个在生物学和基因研究中非常重要的概念。

表达谱指的是特定生物个体在特定环境下所有基因的转录水平,即基因的表达情况。

而基因比对则是基于不同个体的基因序列相互比较,寻找它们之间的相似性和差异性。

下面将对表达谱和基因比对进行更详细的介绍:表达谱(Transcriptome)表达谱是指一个生物体在特定时间和空间范围内的所有基因的表达情况。

即在特定条件下,所有基因的表达情况构成的基因表达谱。

通过对不同条件下的一个组织或细胞的基因表达谱的分析,我们可以了解其生理和病理过程中的基因表达变化情况。

表达谱研究的主要手段是基因芯片和高通量测序技术。

在基因芯片中,已经包含了许多基因的探针,把探针固定到芯片上,使用芯片上的探针来探测目标基因的表达情况。

而在高通量测序技术中,可以对所有基因进行高通量测序,得到基因的拷贝数或RNA浓度,进而了解基因的表达情况。

表达谱在医学研究中有着广泛的应用,例如可以用来分析癌症中的基因表达谱,发现与肿瘤相关的基因,寻找潜在的治疗靶点。

基因比对(Alignment)基因比对是指对比不同生物个体之间基因序列的相似性和差异性。

在基因比对中,首先将两个或多个基因组进行比对,找到它们之间的相似位置。

然后,再在相似位置上比较两个基因组的差异,并进行分类、注释和解释。

基因比对的主要手段是计算机算法程序。

其中最常用的是BLAST程序(Basic Local Alignment Search Tool),它是一种快速的基因比对算法,可以快速找到两个序列中的相似性区域。

基因比对在基因研究和生物学研究中有着重要的应用。

例如,可以用来发现特定物种中的家族基因、转座子和RNA序列等。

总结:表达谱和基因比对是生物学和基因研究中的两个重要概念。

表达谱可以帮助研究人员了解基因表达在特定生理和病理过程中的变化情况,而基因比对则可以揭示不同生物个体之间基因序列的相似性和差异性。

这些信息可以帮助我们更好地理解生物系统的运作机理,为生物研究提供更多的基础知识。

基因表达谱数据

基因表达谱数据

基因表达谱数据基因表达谱数据是指在不同细胞类型、生理状态、环境条件下,某些基因在RNA水平上的表达水平。

在生物体内,不同基因的表达模式是复杂、分层和多样性的。

基因表达谱数据可从不同细胞、组织、器官和物种中获得,其中包括微生物、植物和动物。

这些数据的收集和分析对于深入理解生命过程以及疾病的发生和发展具有重要意义。

基因表达谱数据通常通过RNA测序技术得到。

RNA测序是目前最常用的基因表达测量方法。

该技术利用高通量平台对细胞或组织中的RNA 进行测序,从而得到RNA序列信息。

由此可以得到多种RNA类别的信息,包括编码蛋白的mRNA,非编码RNA(如长链非编码RNA和小核RNA)以及翻译后修饰的RNA。

通过RNA测序技术,可以获得完整的基因表达图谱以及基因不同组织或环境下的表达差异。

生成的基因表达谱数据可用于许多应用,如基因功能注释、新基因发掘和疾病诊断和治疗跟踪。

其中,基因功能注释是最常用和最基础的应用之一。

它使得在不同细胞、组织和环境中特定基因的表达模式得以比较,并可用于发现不同基因的生物学功能和信号通路调节机制。

对于新基因的发掘,基因表达谱数据可以用于预测新基因的表达模式并设计特异性引物进行验证,从而促进新基因发现的进程。

在疾病诊断和治疗跟踪方面,基因表达谱数据可以用于诊断和治疗各种疾病,例如:癌症、神经系统疾病、自身免疫性疾病和代谢性疾病等。

基因表达谱数据的分析包含许多步骤和方法,它们旨在发现生物学和疾病的特征。

目前,基于RNA次级结构(如RNA-Seq)的分析方法是主流,包括基因差异分析、聚类分析、通路分析和蛋白质互作分析。

其中,基因差异分析用于确定在不同条件下基因表达水平差异显著的基因。

它是基因表达谱数据分析中最基础、最关键的步骤之一。

聚类分析是一种将基因在不同实验条件下的表达模式归纳为相似类别的统计方法。

聚类的目标是发现表达模式相似的基因群,分别分析观察到的生物学趋势。

通路分析通过评估不同基因的生物学功能,从而确定特定病理生理条件下的信号通路和生物学过程。

生物信息学中的基因表达谱分析

生物信息学中的基因表达谱分析

生物信息学中的基因表达谱分析基因表达谱是指在不同时间、不同环境或不同组织中,基因转录和翻译产生的RNA和蛋白质的数量和种类的一种定量和定性描述。

基因表达谱分析是研究生物学中基因表达的重要手段,可以帮助科学家研究基因功能、诊断疾病和开发新药。

生物信息学的发展为基因表达谱分析提供了许多新的方法和工具,让科学家能够更加快速、高效地分析和利用基因表达谱数据。

1. 基因表达谱分析的类型基因表达谱分析可以分为两种类型,即定性分析和定量分析。

定性分析主要依赖于基因表达谱的图形化展示和样本的聚类分析。

图形化展示可以帮助科学家快速地查看基因表达的变化趋势,如差异基因的表达,而聚类分析则可以将不同样本中的基因表达谱分为几类,有助于发现它们之间的相似性。

定量分析可以测量基因表达水平的数量,此类分析方法包括将基因表达谱数据和生物样本的方法学特征进行归一化,以便进行生物信息学方法的比较分析。

这些方法包括微阵列、RNA测序和蛋白质组学等技术,这些技术都可以更加准确地测量基因表达量,并能够比较不同样本之间的差异。

2. 基因表达谱分析的步骤基因表达谱分析需要经过多个步骤,通常包括数据预处理、探测器注释、归一化处理、差异基因筛选和生物功能的验证等步骤。

数据预处理涉及去除噪声、正规化和探针的标准化。

在预处理时,我们可以使用质控图来确保数据质量,同时,使用探测器注释,即对基因定位信息的注释,可以保证数据的准确性。

归一化处理用于保证基因表达量在样本之间具有可比性。

差异基因的筛选旨在发现基因表达谱中存在的显着差异,我们可以使用t-test、方差分析(ANOVA)和Pearson相关系数等统计方法来确定这些基因。

生物功能的验证是确定差异基因的生物作用和分子机制,以及它们在生物学过程中的重要性。

3. 基因表达谱分析的应用基因表达谱分析可以应用在许多领域,包括医学、农业、环境和食品安全等方面。

在医学领域中,基因表达谱分析可以用于研究基因在癌症和其他疾病中的功能,以及开发新的药物。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

对于基因表达谱数据的分析是生物信息学的研究热点和难点。

转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。

对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。

基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。

从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。

从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。

然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。

相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。

尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。

因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。

聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。

聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。

聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、 K 均值、自组织特征映射网络等。

本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。

8.4.1 相似性度量函数对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。

在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。

距离越小,表达模式越相近;反之,则表达模式差异大。

常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。

假设两个基因表达谱分别为X = (x 1 ,x 2 ,…,x m )和Y = (y 1 ,y 2 ,…, y m ) , 距离函数 d( X ,Y ) 必须满足如下条件:d( X ,Y ) ≧ 0d( X ,Y ) = d( Y ,X )d( X ,Y ) = 0 if X = Yd( X ,Y ) ≦ d( X ,Z ) + d( Z ,Y )欧氏距离( Euclidean distance )是一个通常采用的距离定义,它是在 m 维空间中两个点之间的真实距离,两个基因表达谱之间的欧氏距离计算公式如下:(8-15)相关系数也是常用的相似性度量函数,计算公式如下:(8-16)(8-17)其中,G offset是G的各分量的均值,是标准方差。

用上述两种相似性度量,可以找出表达谱相似或者变化趋势相同的基因,如图 8.2(a) 、 (b) 所示。

欧氏距离、相关系数可以反映基因之间的共表达关系,两个基因表达谱间的距离小于给定的阈值或相关系数大于某个给定的阈值,就可以认为它们之间是共表达的。

距离和相关系数之间存在关联,在具体应用时,可以根据需要进行转换。

距离和相关系数反映的都是基因表达谱之间的相似性,这种相似性反映了基因的共表达行为,而基因的行为是复杂的,它们之间存在调控和被调控的关系,或者存在调控链,例如基因 A 调控 B , B调控 C ,调控还有正性调控和负性调控之分。

对于这些调控关系,它们的表达谱往往是不相似的,或者存在时延、或者存在反相,而基因表达的幅度也可能不相等。

如何从数据中发现这些复杂的基因关系呢?互信息可能是一种有用的度量指标,其定义如下 :MI ( X , Y ) =H ( X ) +H ( Y ) -H ( X , Y )(8 -18)(8-19)MI (X,Y) 是向量 X 和 Y 的互信息, H ( X ), H(Y) 分别是 X 和 Y 的熵, H(X,Y) 是向量 X,Y 的联合熵。

归一化互信息 NMI 定义如下:NMI ( X , Y ) = MI ( X , Y ) /max[H ( X ), H ( Y ) ] (8-20)NMI 独立于单个信息熵,抓住了模式上的相似性。

互信息聚类分析没有规则上的约束,不象欧氏距离。

目前,还没有理论来指导如何选择最好的相似性度量,也许一个“正确”的距离在表达模式空间是不存在的,选择何种度量函数依赖于我们要解决的问题。

8.4.2 聚类方法对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类的先验知识,所以通常采用无监督学习方法。

在基因表达数据分析方面,层次式聚类、 K 均值、自组织映射神经网络在应用中是常用的方法。

下面主要介绍这几种常用的聚类方法,并简单介绍一些其它方法。

8.4.2.1 简单聚类假设有G个基因,它们的表达谱分别用向量表示为。

令任意一个基因的表达向量为第一个聚类的中心 , 假设选择。

然后计算到的距离D21,如果D21大于给定的阈值T,则说明不属于第一类,应该分到另外的类。

在这种情况下,建立一个新的聚类中心;如果D21小于阈值T,则将分到第一类中。

接着处理其它基因,在处理第 i 个基因时,首先计算该基因的表达谱与现有各类中心的距离,假设与第 j 类的距离D ij最小,并且D ij<T,则将基因 i 分配到第 j 类;否则生成一个新类,该类的中心为第 i 个基因的表达向量。

简单聚类算法的结果与第一个聚类中心的选择、基因的顺序、阈值 T 以及基因表达谱在其空间的分布有关。

该方法对于给定的一组基因表达数据模式进行初步分类提供了一种快速的算法。

8.4.2.2 层次聚类法层次聚类法,在统计分析中也称为系统聚类法,原理和算法与第 6 章所介绍的系统发生树连锁构造方法类似,所不同的只是将所分析的数据由生物分子序列换成了这里的基因表达谱。

该方法在基因表达谱聚类分析中是常用方法,它的优点是容易理解和实现,所得到的结果以树状图的形式表示,可以直观地观察基因之间的相互关系,尤其是类与类之间的关系。

但是,基因表达谱的数量很多,往往要多于系统发生树分析时的物种数量,而且基因之间相互关系的信息也没有物种之间的多,所以,对聚类结果的后续分析要比系统发生树分析复杂得多。

对于表达谱聚类的结果还需要进一步分析基因的功能或者基因的序列特征,一般通过剪枝得到分类结果,而剪枝的过程往往带有更多的主观性,这会导致丢失一些重要的信息或包括一些无关的信息。

此外,在构建基因表达谱聚类树时,已被合并的向量不再参与以后的分类,这会导致聚类结果与向量的次序有关,所以被认为是一种局部最优解的方法。

8.4.2.3 K 均值聚类K 均值聚类在数据划分上不考虑类的分层结构问题,该算法使待聚类的所有向量到聚类中心的距离的平方和最小,这是在误差平方和准则的基础上得到的。

K 均值聚类算法如下:(1) 任意选取 K 个基因表达谱向量作为初始聚类中心Z1 , Z2,…, Z k,在没有先验知识的情况下,一般选择前 K 个基因。

(2) 对所有的基因表达谱向量进行反复迭代计算。

在第l 次迭代过程中,如果则将 X 所代表的基因归于第 j 类。

(3)经过一次迭代计算后,聚类中心可能发生变化,因此需要重新计算 K 个新聚类中心:(8-21)其中f j(l) 为第l 次迭代中第j个聚类的基因集合,N j为该集合中基因的个数。

(4)对于所有的聚类中心,如果Z j (l+1)= Z j (l)(j=1,2,…,K) ,则迭代结束,得到最后的聚类结果;否则转第 2 步,继续进行迭代计算。

聚类中心的个数 K 、初始聚类中心的选择、基因排列的顺序以及基因表达谱数据的分布影响聚类的结果,当基因表达谱类别之间分离较远时,该算法可以取得令人满意的聚类分析结果。

8.4.2.4 自组织映射神经网络人工神经网络技术在模式识别方面有着独特的优势,神经网络能够进行非线性数据处理,发现复杂的数据关系,其中,自组织映射神经网络( Self-Organizing Map , SOM )可以对模式数据进行自动聚类。

自组织特征映射是 Kohonen 在 1990 年提出的类似大脑思维的一种人工神经网络方法,它是一种竞争学习算法,可以被认为是一种从 N 维模式空间各点到输出空间少数点的映射。

这一映射由系统本身完成,没有外部的监督,即聚类是以自组织的方式实现的。

SOM 采用无教师学习训练,训练完成后,分类信息存储在网络各节点连接权值向量中,与权值向量相似的输入向量将分为一类。

SOM 包括一维和二维模型,二维 SOM 也称为 KFM(Kohonen Feature Mapping) 。

它们的区别在于 KFM 考虑邻近神经元的相互作用,即获胜神经元对周围神经元由于距离的不同会产生不同的影响。

KFM 的结构如图 8.3 所示,输入网络的是一个 n 维向量的所有 n 个数值,输出单元呈二维排列,个数为p × p, 输入层与输出层的各单元之间是全连接的,并用 W 表示连接权重。

KFM 的学习过程就是对所有的 G 个样本向量进行迭代学习,直到权值 W 的变化小于某一个确定的阈值或迭代达到一定的次数。

测试过程比较简单,对于每一个样本向量,计算其获胜神经元,输出单元相同的样本向量属于同一类。

虽然 KFM 有学习过程,但是可以看到这种学习是从所有的样本中自动获取特征,没有教师的参与,因此称为无监督的学习方法。

Kohonen 认为,神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器。

该思想来自于大脑神经元的特性,即大脑皮层的神经元成二维空间排列,不同区域分工不同,各自对输入模式的不同特征敏感,神经元之间存在信息交互,主要是侧向交互,即某个经元对周围神经元之间存在由近到远的不同的影响作用,而不是简单的侧抑制作用。

对邻近神经元的交互作用函数有巴拿马草帽型(公式 8-22 )或矩形型(公式 8-23 )。

(8-22)(8-23)其中d cj是输出单元c与邻近单元j之间在神经元平面上的距离, R 是交互作用半径。

KFM 的学习过程如下:学习过程可以采用从全局到局部的策略。

采取这种策略时,学习初期可设定较大的交互作用半径 R ,随着学习过程的不断推进,逐步减小 R ,直至不考虑对邻近单元的影响。

邻域的形状可以是正方形或者圆形。

相关文档
最新文档