相似性度量在基因表达聚类分析中的应用研究

合集下载

基因共表达网络的构建及其相关性分析

基因共表达网络的构建及其相关性分析

基因共表达网络的构建及其相关性分析近年来,随着高通量技术的发展,基因数据的产出速度也在不断加快。

然而,单个基因的研究往往无法发现复杂疾病背后的机制,而对基因共表达网络的构建及其相关性分析能够探索基因之间的相互作用,从而揭示得疾病的本质。

基因共表达网络是指通过计算基因表达量的相似性,将基因相互联系起来形成的网络。

与传统的研究方式不同,基因共表达网络将基因看做一个整体,旨在研究基因的相互影响,从而更好地理解生物系统的复杂性。

当前,基因共表达网络已被广泛地应用于多种研究领域,比如疾病筛选、药物开发、基因调控网络的重构等。

构建基因共表达网络的基本步骤包括数据预处理、基因表达数据标准化、基因表达相关系数计算、筛选相关性达到一定标准的基因,并将它们构成一个网络图等。

常用的数据预处理方法包括质量控制、归一化、去除批次效应等。

目前主要有Pearson相关系数、Spearman相关系数和互信息等方法用于基因表达的相关系数计算。

在筛选相关性较高的基因时,常用的方法有阈值法、P值法、False Discovery Rate(FDR)法或者公认的基因相关模型等。

基因共表达网络分析不仅关注单个基因,更重视整体上基因之间的协同作用与相互关联,需要从全局的角度去探究基因网络中的基因间相互作用关系。

基因网络分析的主要内容包括度数分布、节点中心性、聚类分析和模块检测。

节点度数分布是指节点在整个网络中的连接数分布状况,通常用来表征网络的复杂性和稳健性。

而节点中心性能够评估各个节点在网络中的重要性,并说明节点在整个网络结构中所处的位置。

常见的节点中心性指标包括度中心性、介数中心性、接近中心性等。

聚类分析是基于节点的相似性来讲整个网络划分成若干个子网络并对其进行进一步分析的一种方法。

聚类分析可以使得相似的基因或样本聚集在一起,方便对其进行进一步的生物学研究。

常见的聚类算法包括Hierarchical Clustering和K-Means 算法等。

相似性分析及其应用

相似性分析及其应用

相似性分析及其应用相似性分析是一种常用的数据分析技术,其基本原理是在一组数据中找到相似性较大的数据项或者对象。

相似性分析可以应用于不同领域的问题,如推荐系统、图像识别等。

本文将介绍相似性分析的基本原理以及其在不同领域中的应用。

一、相似性分析基本原理相似性分析的基本原理是通过一定的指标或者算法计算数据项间的相似度,然后将相似度高的数据项进行归类或者推荐。

相似性度量方法一般分为两类:基于距离的相似性度量和基于特征的相似性度量。

1. 基于距离的相似性度量基于距离的相似性度量是通过计算数据项间的距离来评判其相似程度。

距离度量常用的有欧几里得距离、曼哈顿距离等。

例如,在推荐系统中,通过计算用户间的欧几里得距离来评判他们之间的相似性,进而给用户推荐相似的商品。

2. 基于特征的相似性度量基于特征的相似性度量是通过计算数据项在多个特征上的相似度来评判其相似程度。

例如,在图像识别中,通过提取图像特征,例如颜色、纹理等,来计算图像间的相似度,进而进行分类识别。

二、相似性分析的应用1. 推荐系统推荐系统是一种通过分析用户偏好和历史行为,为用户推荐合适的商品或者服务的系统。

相似性分析是推荐系统中的重要组成部分。

通过计算用户间或者商品间的相似度,对用户进行个性化推荐,提高推荐准确度和用户满意度。

2. 图像识别图像识别是一种通过计算机算法将图像转化为可识别的语义信息的技术。

相似性分析在图像识别中起到了重要作用。

例如,在人脸识别中,通过计算两张人脸图像间的相似度,判断是否为同一个人,提高识别率和准确度。

3. 文本分类文本分类是一种将文本数据按照特定的标准进行分类的技术。

相似性分析在文本分类中也有广泛应用。

例如,在情感分析中,通过计算两个句子间的相似度,来判断其情感倾向性,进而实现情感分类。

三、结论相似性分析是一种重要的数据分析技术。

它可以应用于不同领域的问题,如推荐系统、图像识别、文本分类等。

在实际应用中,相似性分析需要根据具体问题和数据特点选择合适的相似性度量方法,以提高准确度和效率。

《2024年聚类分析中的相似性度量及其应用研究》范文

《2024年聚类分析中的相似性度量及其应用研究》范文

《聚类分析中的相似性度量及其应用研究》篇一一、引言聚类分析是一种无监督学习方法,旨在将数据集划分为几个不同的组或“簇”,使得同一簇内的数据对象尽可能相似,而不同簇间的数据对象尽可能不相似。

相似性度量是聚类分析中的关键环节,它决定了数据点如何进行比较和分组。

本文将详细探讨聚类分析中的相似性度量方法及其应用研究。

二、聚类分析中的相似性度量相似性度量是聚类分析的基础,常用的相似性度量方法包括欧氏距离、曼哈顿距离、余弦相似度、皮尔逊相关系数等。

这些方法在不同的数据类型和聚类场景中有着不同的适用性。

1. 欧氏距离欧氏距离是最常用的相似性度量方法之一,它计算数据点在空间中的直线距离。

在聚类分析中,欧氏距离常用于数值型数据的相似性度量。

2. 曼哈顿距离曼哈顿距离又称街区距离,它计算数据点在空间中沿坐标轴移动的距离。

与欧氏距离相比,曼哈顿距离对数据的排列顺序更为敏感。

3. 余弦相似度余弦相似度是一种基于向量空间模型的相似性度量方法,它计算两个向量之间的夹角余弦值。

余弦相似度常用于文本数据或向量型数据的聚类分析。

4. 皮尔逊相关系数皮尔逊相关系数是一种衡量两个变量之间相关程度的统计量,其值介于-1和1之间。

在聚类分析中,皮尔逊相关系数可用于衡量数据点之间的线性关系强度。

三、相似性度量的应用研究相似性度量在聚类分析中具有广泛的应用,包括数据预处理、特征选择、异常检测等方面。

1. 数据预处理在聚类分析前,通常需要对数据进行预处理,包括数据清洗、标准化、归一化等操作。

相似性度量可以帮助我们确定合适的预处理方法,以及评估预处理效果。

例如,对于数值型数据,我们可以使用欧氏距离或曼哈顿距离来衡量数据点之间的差异,从而确定是否需要进行标准化或归一化处理。

2. 特征选择特征选择是聚类分析中的重要环节,旨在从原始特征中选择出对聚类任务有用的特征。

相似性度量可以用于评估特征与聚类结果的相关性,从而帮助我们选择出重要的特征。

例如,我们可以计算每个特征与聚类结果之间的皮尔逊相关系数,以确定哪些特征对聚类任务具有较大的影响。

聚类分析在医学中的应用

聚类分析在医学中的应用

聚类分析在医学中的应用近年来,聚类分析在医学领域中的应用越来越广泛,成为了一种重要的技术手段。

聚类分析是一种无监督学习方法,主要用于分析数据的相似性和差异性,将数据分成多个组,每个组内的数据相似度较高,组间的差异则较大。

下面将详细介绍聚类分析在医学中的应用。

1. 生物信息学生物信息学是一门较新的交叉学科,主要研究生物信息的获取、存储、处理和分析等问题。

聚类分析在生物信息学领域中有着广泛的应用,主要用于分析生物大数据,如基因、蛋白质、代谢产物等。

通过聚类分析,可以将相似的基因或蛋白质分在一组内,从而识别基因或蛋白质表达的模式与功能。

同时,在代谢组学领域中,聚类分析也被广泛应用于代谢物表达谱和代谢产物组之间的关系分析,有助于快速发现新的诊断和治疗方法。

2. 疾病分类在医疗实践中,疾病分类是非常重要的一部分。

传统的疾病分类方法主要基于病因、临床表现和预后等方面的特性,但这些方法往往存在主观性和不稳定性。

聚类分析则可以通过对患者的生理指标、症状表现和治疗反应等多个方面的数据进行分析,确定患者的疾病类型。

例如,在癌症的研究中,聚类分析可以用于分析肿瘤组织中的基因表达谱,从而确定肿瘤的类型和预后等重要信息。

3. 药效评价药物的疗效评价是药物研发过程中的一个重要环节。

聚类分析可以应用于药效评价中,通过对受试者的生理指标、药物代谢等多个方面的数据进行聚类分析,确定药物疗效和药物反应的不同模式,从而能够更加准确地评价药物的效果和安全性。

4. 图像分析医学图像分析一直是医学领域中的重要问题。

随着医疗技术的不断进步,现代医学图像面临着越来越多的数据量和复杂性。

因此,图像聚类分析成为一种重要的图像分析方法,可以自动地将大量医学图像分成不同的类别。

例如,在医学影像领域中,聚类分析可以对肺部 CT 影像进行分析,并将疾病分成不同的类型,如肺癌、肺结核等,从而为医生提供更加准确的诊断和治疗方案。

总结随着医学技术的不断发展,聚类分析在医学领域的应用将越来越广泛。

宏基因组相似度聚类-概述说明以及解释

宏基因组相似度聚类-概述说明以及解释

宏基因组相似度聚类-概述说明以及解释1.引言1.1 概述概述宏基因组相似度聚类是一种重要的生物信息学技术,它可以通过比较不同生物样品中的大量基因组序列,发现它们之间的相似性和差异性。

本文章将介绍宏基因组相似度聚类的原理、方法和应用,旨在帮助读者更好地了解这一技术在生物学研究中的重要性和价值。

通过对宏基因组的分析,人们可以深入探究微生物群落的结构和功能,为生物多样性研究、环境保护、医学诊断等方面提供重要的支持和参考。

通过本文的阐述,读者可以对宏基因组相似度聚类有一个全面的认识,并深入了解其在不同领域的应用和意义。

1.2 文章结构文章结构:本文分为三个主要部分,分别是引言、正文和结论。

引言部分主要包括对宏基因组相似度聚类的概述、文章结构的介绍以及研究目的的阐述。

正文部分将详细介绍宏基因组和相似度聚类的概念,以及它们的应用和意义。

结论部分将对全文进行总结,展望未来研究方向,并给出本文的结论。

1.3 目的本文旨在探讨宏基因组相似度聚类的方法和意义。

通过对宏基因组和相似度聚类的概念进行介绍和解释,展示其在生物信息学和生物学领域中的重要性和应用价值。

同时,希望通过本文的阐述,让读者对宏基因组相似度聚类有一个全面的认识,理解其在生物学研究中的意义和潜在应用,为相关领域的研究工作提供一定的参考和启发。

2.正文2.1 宏基因组宏基因组是指环境中的所有微生物群体的基因组总和。

与单个微生物的基因组不同,宏基因组包含了整个微生物群落的遗传信息。

这包括细菌、真菌、古菌等微生物的基因组。

宏基因组研究的主要对象是环境中的微生物群体,通过对宏基因组的研究,可以深入了解微生物群体的结构、功能和多样性。

宏基因组研究可以帮助我们理解微生物群体在生态系统中的作用和相互关系,从而为环境保护、资源利用和人类健康等方面提供重要参考。

同时,宏基因组也被广泛应用于土壤、水体、空气等环境中微生物的研究,为解决环境问题提供了新的思路和方法。

总之,宏基因组的研究对于深入了解微生物群体的结构和功能,以及环境微生物在生态系统中的作用具有重要意义,对于环境保护和人类健康等方面具有重要意义。

《2024年聚类分析中的相似性度量及其应用研究》范文

《2024年聚类分析中的相似性度量及其应用研究》范文

《聚类分析中的相似性度量及其应用研究》篇一一、引言聚类分析是数据挖掘领域的重要技术之一,旨在将一组具有相似性质或特性的数据点划分到同一类别或集群中。

在这个过程中,相似性度量作为评估数据点间相似度的重要手段,起着至关重要的作用。

本文旨在研究聚类分析中的相似性度量方法及其应用,分析其特点及在各种实际场景中的应用效果。

二、聚类分析中的相似性度量1. 欧几里得距离(Euclidean Distance)欧几里得距离是最常用的相似性度量方法之一,常用于多维空间中两点间距离的计算。

在聚类分析中,欧几里得距离常用于计算数据点间的相似度。

2. 曼哈顿距离(Manhattan Distance)曼哈顿距离是一种计算两点间距离的度量方式,特别适用于高维空间。

与欧几里得距离相比,曼哈顿距离在计算过程中考虑了每个维度上的差异。

3. 余弦相似度(Cosine Similarity)余弦相似度是一种衡量两个向量方向上相似性的方法。

在聚类分析中,常用于计算文本数据或向量空间中的数据点间的相似度。

4. 皮尔逊相关系数(Pearson Correlation Coefficient)皮尔逊相关系数是一种衡量两个变量间线性相关程度的指标,其值介于-1和1之间。

在聚类分析中,可用于衡量数据点间的相关性,从而评估其相似度。

三、相似性度量在聚类分析中的应用1. 数据预处理与特征选择在聚类分析中,相似性度量可帮助进行数据预处理和特征选择。

通过计算不同特征间的相似性,可以选择出对聚类结果影响较大的特征,从而提高聚类的准确性和效率。

2. 确定聚类数量与结构相似性度量可用于确定聚类的数量和结构。

通过计算数据点间的相似性,可以确定聚类的中心点及各聚类间的关系,从而形成合理的聚类结构。

3. 评估聚类效果相似性度量还可用于评估聚类的效果。

通过计算同一聚类内数据点间的平均相似度及不同聚类间数据点的平均差异度,可以评估聚类的效果和准确性。

四、实际应用场景及案例分析1. 图像识别与处理在图像识别与处理中,可通过计算图像间的相似性来对图像进行分类和识别。

基因聚类分析中数据预处理方式和相似度的选择

基因聚类分析中数据预处理方式和相似度的选择

随 着 人类 基 因组 计 划 的实 施 和 人基 因组 工作 草 图 的完成 ,生 命科 学 已进 入 了产 生 大 量 基 因 表 达数 据 、生命 信息 量爆 炸性 增 长 的 时代 . 呈 指 数增 长 的 生命 信息 也 为生 命 、数学 、物 理 、化 学 和 信 息 等科
学领 域提 供 了 巨大 的 研究 平 台 ,科 学 家 的主 要 工作
维普资讯
29 4
自 显科乎遗展 第1卷 第3 2 6 月 6 期 0 年3 0
用 含酵 母全 基 因组 的 D NA 微 阵 列检 测 了这 2 O个 试 验 样 品 中 GAL通 路 受 扰 动 时 的 mRNA 表达 水 平 ,
因表 达数 据集 的第 一 个 棘 手 问题 即是 如何 选 择 合 适
的 聚类 算 法. 然 而 , 目前 尚未 有 达 成共 识 的统 一 性
指导 方针 _ . 8 ]
基 因表 达 聚类 分 析 的 第 一 步 是 对 芯 片 试 验 所
产 生 的基 因 表 达 矩 阵进 行 预 处 理 , 以确 保 基 因 表 达 水 平 的 可 比性 _ . 目前 ,数 据 预 处 理 方 法 可 分 3 ]
为对 原 始 数 据 作 标 准 化 处 理 和 取 表 达 比率 的 对 数 值 两 大类 . 其 中标 准 化 包 括 对 行 ( 因 表 达 矢 量 ) 基 和列 ( 品 表 达 矢 量 ) 行 标 准 化 处 理 两 种 情 况 . 样 进 此 外 ,常 规 的基 因 表 达 聚 类 分 析 算 法 基 于 个 体 间 的 相 似 性 度 量 ( 称 相 似 度 ) 衡 量 两 个 表 达 谱 的 简 来
功 能 、基 因调控 、细胞 过 程 及 细胞 亚 型 等 进 行 综 合

聚类分析中的相似性度量及其应用研究

聚类分析中的相似性度量及其应用研究

聚类分析中的相似性度量及其应用研究聚类分析中的相似性度量及其应用研究1. 引言聚类分析是一种常用的数据挖掘方法,用于将数据集中的对象按照相似性进行分类。

而相似性度量是聚类分析中的关键步骤,它用于度量不同对象之间的相似程度。

相似性度量涉及到许多不同的方法和技术,如欧氏距离、皮尔逊相关系数、曼哈顿距离等。

本文将探讨不同相似性度量方法的原理和应用。

2. 相似性度量方法2.1 欧氏距离欧氏距离是最常用的相似性度量方法之一,它度量了两个对象之间在各个特征维度上的差异。

假设有两个特征向量A(x1, x2, ..., xn)和B(y1, y2, ..., yn),欧氏距离可以通过以下公式计算得出:d(A, B) = sqrt((x1-y1)^2 + (x2-y2)^2 + ... + (xn-yn)^2)欧氏距离适用于连续型特征,但对于存在离散型特征的数据集则不太适用。

2.2 皮尔逊相关系数皮尔逊相关系数衡量了两个变量之间的线性关系程度,其值介于-1和1之间。

皮尔逊相关系数可以通过以下公式计算得出:r = cov(X, Y) / (std(X) * std(Y))其中cov(X, Y)表示X和Y的协方差,std(X)和std(Y)分别表示X和Y的标准差。

2.3 曼哈顿距离曼哈顿距离是另一种常见的相似性度量方法,它度量了两个对象在各个特征维度上的差异的绝对值之和。

假设有两个特征向量A(x1, x2, ..., xn)和B(y1, y2, ..., yn),曼哈顿距离可以通过以下公式计算得出:d(A, B) = |x1-y1| + |x2-y2| + ... + |xn-yn| 曼哈顿距离适用于连续型和离散型特征。

3. 相似性度量的应用3.1 聚类分析相似性度量在聚类分析中起着关键作用。

聚类算法根据相似性度量将对象划分为不同的簇,使得同一簇中的对象相互之间更加相似,而不同簇之间的对象相差较大。

通过选择合适的相似性度量方法,可以获得更加准确的聚类结果,有助于发现对象之间的潜在模式和关系。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2012年3月15日第35卷第6期现代电子技术Modern Electronics TechniqueMar.2012Vol.35No.6相似性度量在基因表达聚类分析中的应用研究孙 杰,吴 陈(江苏科技大学计算机科学与工程学院,江苏镇江 212003)摘 要:聚类分析是基因表达数据分析研究的主要技术之一,其算法的基本出发点在于根据对象间相似度将对象划分为不同的类,选择适当的相似性度量准则是获得有效聚类结果的关键。

采用预处理过的基因数据集在不同相似性度量准则下进行的不同聚类算法的聚类分析,并得到聚类结果评价。

其中算法本身的缺陷及距离相似性度量的局限性都是影响结果评价的因素,为了获得更有效的聚类结果,改进相关聚类算法并提出了一种比例相似性度量准则。

关键词:DNA微阵列;聚类分析;相似性度量;基因表达中图分类号:TN911-34;TP399 文献标识码:A 文章编号:1004-373X(2012)06-0078-05Application of similarity measurement in gene expression clustering analysisSUN Jie,WU Chen(School of Computer Science and Engineering,Jiangsu University of Science and Technology,zhenjiang 212003,China)Abstract:With the rapid development of DNA microarray technology,mass gene expression data are generated.Thebasic starting point of clustering analysis algorithm which is one of the major technologies in analyzing gene expression data isto divide the objects into different classes according to their similarity.The selection of appropriate similarity measurementcriteria is a key to obtain the effective clustering results.In this paper,the pre-treated gene data sets are adopted to conductthe clustering analysis of the different clustering algorithms under different similarity measurement criterions and achieve theevaluation of clustering results.The defects of the algorithm itself and limitation of the distance similarity measurement arethe factors affecting the outcome evaluation.Correlation clustering algorithms are improved and the proportion similaritymeasurement criteria is proposed to obtain more effective clustering effect.Keywords:DNA microarray;clustering analysis;similarity measurement;gene expression收稿日期:2011-10-05 DNA微阵列(DNA Microarray)技术的日益成熟导致了基因表达数据不断扩大,尤其在近十几年内更以指数形式增长。

如何分析和处理大量的基因表达数据,从中提取有用的生物学或医学信息,已成为后基因组时代研究的瓶颈[1-2]。

由于基因芯片产生巨量的表达谱数据,数据挖掘技术已经被广泛的应用到基因表达谱的许多方面,并取得成功。

聚类分析是基因表达数据分析研究的主要技术之一[2-3],并且作为一种有效的数据分析工具,已广泛地应用于图像处理、信息检索、数据挖掘等领域。

目前,作为研究基因表达数据的主要技术之一的聚类分析算法有很多种,如分层聚类(Hierarchical Clus-tering),K-均值聚类(K_Means Clustering),自组织映射(Self Organizing Maps,SOMS),主成分分析(Princi-pal Component Analysis,PCA)等等。

但由于不同聚类算法,甚至同一聚类算法使用不同参数,一般都会产生不同的聚类结果。

因此,在对数据处理过的基因表达矩阵聚类分析时,选择合适的聚类相似性准则至关重要,同时也是获得合理、精确的聚类结果的关键。

1 DNA微阵列DNA微阵列(DNA Microarray),也叫基因芯片。

它将几十个到上百万个不等的称之为探针的核苷酸序列固定在微小的(约1cm2)玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为DNA微阵列。

1.1 基因表达数据的获得和表示在不同的实验环境条件或是不同的时间点,通过对基因芯片的扫描,可以得到不同的实验数据,所以这些数据是基因在一定实验条件下或一段时间内的表达情况。

经过对这些数据表达进行预处理和标准化后,产生得到的微阵列数据也就是基因表达数据。

微阵列基因表达数据主要为数值型,并以矩阵的方式存储,“行”为各个基因在不同环境条件下或不同时间点的表达情况,“列”是同一环境或时间下一个样本所有基因的表达谱。

每一个元素代表第i个基因在第j个样本中的表达水平。

1.2 基因数据的研究现状与已经发展了几十年的结构基因组学相比,基因表达谱的生物信息学仅处于起步阶段。

现阶段基因芯片所遇到的挑战并不在于表达芯片实验技术本身,而是发展实验设计方法及数据分析[4]。

实验数据的预处理、标准化的方式,度量相似性的方式以及所选择的聚类方法都会对分析结果产生影响。

面对海量的基因数据,聚类算法也不只是拘泥于传统的K-均值算法,层次聚类算法上,而是向着多元化、专门化、复杂化的方向发展。

2 聚类相似性研究在日常生活中进行识别时也总是利用相似性概念,但是人们又很难对“相似”或“不相似”做出明确的定量表述,因此通常所说的相似性只具有定性的或不确定的性质。

怎样对相似性概念给以明确的定量表述是模式识别工作者要解决的任务之一。

2.1 相似性度量两个样本间的相似性或离散度的测量称为相似性度量,简称相似度。

聚类通常按照样本间的相似性进行分组,因此如何描述对象间相似性是聚类分析的一个重要问题。

聚类分析按照样本之间的亲疏远近程度进行分类。

为了使类分得合理,必须描述样本之间的亲疏远近程度。

刻画聚类样本之间的亲疏远近程度主要有以下2类函数:(1)距离函数。

可以把每个样本看作高维空间中的一个点,进而使用某种距离来表示样本之间的相似性,距离较近的样本性质较相似,距离较远的样本则差异较大。

(2)相似系数函数。

两个样本愈相似,则相似系数值愈接近1;样本愈不相似,则相似系数值愈接近0。

这样就可以使用相似系数值来刻画样本性质的相似性。

d(i,j)是样本i和样本j之间相似性的量化表示,通常它是一个非负的数值,一般地,距离函数有如下数学要求:(1)d(i,j)≥0:距离是一个非负的数值;(2)d(i,i)=0:一个对象与自身的距离是0;(3)d(i,j)=d(j,i):距离函数具有对称性;(4)d(i,j)≤d(j,h)+d(h,i):从对象i到对象j的直接距离不会大于途经任何其他对象h的距离(三角不等式)。

如何选择相似性的度量方法是一个相当复杂的问题,因为相似度的选择可以在很大程度上影响聚类算法的输出[5]。

目前,有很多相似性度量应用到基因表达数据分析当中。

例如:欧式距离、曼哈坦距离、Pearson相关系数、无中心Pearson相关系数(对应两个数据向量之间角度的余弦值)、Spearman的排列相关系数等。

在基因表达数据聚类分析中,相似度普遍采用Pearson相关系数和欧氏距离[6-7]。

在上述的几个相似性度量中,欧几里德距离和曼哈坦距离满足前述4个要求。

但是其他几个度量标准是基于相关系数的函数,它们并不完全满足距离函数的要求。

通常用相关系数r定义距离d为:d=1-r。

这样,所有的基于相关系数的相似性度量标准都使用这个定义而被转化为距离。

但是注意这种距离函数并不满足三角不等式。

2.1.1 欧氏距离设有两个基因样本Xi,Xj,这两个样本可能在同一类中,也可能在不同的类中,因此,可以计算同一个类内样本与样本之间的距离,也可以计算属于不同类样本与样本之间的距离。

欧氏距离测量空间中两个点的绝对距离,故同时考虑了矢量的方向和幅度。

则基因样本Xi和Xj之间的欧氏距离定义:Di,j(Xi,Xj)=(Xi-Xj)T(Xi-Xj槡) =∑nk=1(xik-xjk)槡2Di,j越小,则两个样本距离越近,就越相似。

2.1.2 Pearson相关系数Pearson相关系数也是一种相似性测量,大的相关系数意味着相似性程度高。

Pearson相关系数从本质上说是测量两个表达矢量所指方向的相似性。

基因样本Xi和Xj之间的Pearson相关系数定义:r(Xi,Yj)=∑nm=1(Xi,m-珡Xi)(Yj,m-Yj)∑ni=1(Xi,m-珡Xi)槡2∑nj=1(Yj,m-Yj)槡2式中:珡Xi,Yj分别为基因i和j在n个实验条件下的平均表达水平;Pearson相关系数取值于[-1,1],两个相同的基因样本的相关系数为1,相关系数为0的两个基因样本被认为是不相关的,而相关系数为-1的两个基因样本是反相关的[8]。

2.2 类相似性度量层次聚类算法有两个关键问题,首先是如何选取类间相似性度量,它是由两类聚合为一类的依据;其次是聚合过程应该停留在哪一级上,这与最终聚合成几类有关,也与聚类相似性有关。

如前面所述,根据不同的相似性度量标准(这里为某一距离标准或是相关系数),可以有不同的层次聚类方法。

在层次聚类算法中需要计算两个类之间的相似度度量。

常见的类间距相似性有最短距离法层次聚类、最长距离法层次聚类、平均距离法层次聚类和重心法层次聚类。

(1)最短距离。

规定两个类间相距最近的两个点97第6期孙 杰,等:相似性度量在基因表达聚类分析中的应用研究之间的距离,为两个类的相似度。

相关文档
最新文档