基于Fisher判别的半监督天体光谱数据特征降维
半监督学习中的半监督降维算法的使用方法(八)

在机器学习领域,半监督学习是一种利用有标签和无标签数据来进行模型训练的方法。
与监督学习和无监督学习相比,半监督学习在面对大规模数据集时能够发挥更大的作用。
在半监督学习中,降维算法是一种常用的数据预处理技术,可以将高维数据映射到一个低维的子空间中,从而更好地展现数据的内在结构。
本文将介绍半监督学习中的半监督降维算法的使用方法。
首先,让我们来了解一下什么是半监督学习中的降维算法。
在实际应用中,我们常常会遇到高维数据,比如文本数据、图像数据等。
高维数据不仅难以可视化,而且在模型训练过程中会增加计算复杂度。
降维算法的主要目标就是通过保留大部分原始数据的信息,将高维数据映射到低维空间中。
半监督降维算法在此基础上,还能够利用无标签数据来提高映射的准确性。
在半监督学习中,常用的降维算法包括主成分分析(PCA)、线性判别分析(LDA)、t-SNE等。
这些算法在面对不同类型的数据时,有着不同的适用场景。
相比之下,t-SNE算法在可视化高维数据方面表现较好,而LDA算法在分类问题上有较好的效果。
因此,在选择降维算法时,需要根据具体问题的特点进行权衡和选择。
接下来,让我们来探讨一下半监督降维算法的使用方法。
首先,需要将有标签数据和无标签数据合并成一个数据集。
然后,选择合适的降维算法对整个数据集进行降维处理。
在这一过程中,需要注意的是,无标签数据的加入可以提高降维的准确性,但也可能引入噪声。
因此,需要通过实验和调参来找到合适的无标签数据的利用方式,以及合适的降维参数。
在实际操作中,可以使用Python中的sklearn库来实现半监督降维算法。
sklearn库提供了丰富的降维算法和相关工具,可以帮助用户快速实现半监督学习中的降维处理。
此外,还可以使用TensorFlow、PyTorch等深度学习框架中的降维模块,通过构建神经网络来实现半监督降维算法。
除了使用现成的库和工具外,也可以尝试自行实现半监督降维算法。
在这个过程中,可以借鉴已有的算法实现,并结合具体问题的特点进行调整和优化。
半监督学习中的半监督降维算法的使用方法(九)

半监督学习中的半监督降维算法的使用方法在机器学习领域,半监督学习是一种介于监督学习和无监督学习之间的学习范式。
与监督学习需要标记好的数据集不同,半监督学习中只有部分数据被标记,而大部分数据则是未标记的。
这种情况下,如何有效地利用未标记数据来提高学习模型的性能成为了一个重要的问题。
半监督学习中的降维算法在这方面发挥了重要作用。
本文将介绍半监督学习中的半监督降维算法的使用方法。
降维算法是指将高维数据映射到低维空间的算法。
在半监督学习中,降维算法可以帮助我们更好地利用未标记数据,从而提高模型性能。
下面将介绍两种常用的半监督降维算法:自编码器和t分布邻域嵌入(t-SNE)。
自编码器(Autoencoder)是一种无监督学习的神经网络模型。
它通过将输入数据压缩成潜在空间表示,再将潜在空间表示还原成原始数据,来学习数据的有效表示。
在半监督学习中,自编码器可以通过使用未标记数据来学习更好的数据表示,从而提高监督学习模型的性能。
使用自编码器进行半监督学习的一般步骤是:首先,使用标记好的数据训练自编码器模型;然后,使用已训练好的自编码器模型对未标记数据进行编码;最后,将编码后的数据作为输入,与标记好的数据一起训练监督学习模型。
通过这种方式,自编码器可以帮助我们更好地利用未标记数据,提高监督学习模型的性能。
另一种常用的半监督降维算法是t分布邻域嵌入(t-SNE)。
t-SNE是一种用于数据可视化的降维算法,它可以将高维数据映射到二维或三维空间,使得原始数据的局部结构在低维空间中得以保留。
在半监督学习中,t-SNE可以帮助我们理解未标记数据的分布情况,从而更好地设计监督学习模型。
使用t-SNE进行半监督学习的一般步骤是:首先,使用t-SNE将未标记数据映射到低维空间;然后,根据映射后的数据分布情况,设计监督学习模型。
通过这种方式,t-SNE可以帮助我们更好地理解未标记数据,提高监督学习模型的性能。
在实际应用中,半监督降维算法的使用方法需要根据具体问题进行调整。
半监督学习中的半监督降维与半监督聚类的关系分析(九)

半监督学习是一种介于监督学习和无监督学习之间的学习方法。
在实际应用中,往往数据标注成本高昂,导致监督学习无法充分利用大量的未标注数据,而无监督学习在处理复杂数据集时又往往缺乏有效性。
因此,半监督学习成为了解决这一难题的有效手段,其中半监督降维和半监督聚类是半监督学习中的重要技术。
半监督降维和半监督聚类在半监督学习中扮演着重要的角色。
降维技术旨在将高维数据映射到低维空间,以便更好地理解数据的结构和特性。
而聚类技术则旨在将数据集中的样本划分为不同的类别,以便对数据进行分析和处理。
在实际应用中,往往需要结合降维和聚类技术,以便更好地挖掘数据的信息和特征。
半监督降维和半监督聚类之间存在着密切的关系。
在降维过程中,往往需要借助未标注数据来辅助建立低维空间的映射关系,以便更好地保留数据的特征和结构。
而在聚类过程中,未标注数据往往可以作为辅助信息,以便更好地划分数据集中的样本。
因此,半监督降维和半监督聚类是相辅相成的,二者之间的关系非常密切。
半监督降维和半监督聚类的关系还体现在它们的算法设计和实现上。
在降维和聚类的过程中,往往需要利用未标注数据的信息,以便更好地建立模型和进行数据处理。
因此,半监督学习算法往往需要同时考虑标注数据和未标注数据,以便更好地利用数据的信息和特性。
在实际应用中,半监督降维和半监督聚类的算法设计和实现往往需要综合考虑降维和聚类的过程,以便更好地挖掘数据的特征和结构。
半监督降维和半监督聚类的关系还体现在它们的实际应用中。
在实际应用中,往往需要综合考虑降维和聚类的过程,以便更好地获取数据的信息和特性。
在数据挖掘、模式识别、图像处理等领域,半监督降维和半监督聚类技术得到了广泛的应用,取得了很好的效果。
在实际应用中,半监督降维和半监督聚类技术往往需要结合降维和聚类的过程,以便更好地挖掘数据的信息和特性,取得更好的效果。
总的来说,半监督降维和半监督聚类在半监督学习中扮演着重要的角色,二者之间存在着密切的关系。
基于Fisher准则的半监督特征提取方法

基于Fisher准则的半监督特征提取方法郝伟;刘忠宝【摘要】Mass unlabeled data and a small quantity of labeled data exist in practice.To fully utilize the labeled and unlabeled da-ta,semi-supervised feature extraction method based on Fisher criterion (SFEM)was proposed based on the depth analysis of the traditional semi-supervised feature extraction methods.The adj acent graph was constructed,and the within-class scatter matrix and the between-class scatter matrix were redefined.Fisher criterion was used to ensure the samples in different classes apart from each parative experiments on several standard datasets verify the effectiveness of SFEM in solving the problem of semi-supervised feature extraction.%针对实际应用中得到的数据往往只有少量具有类别标签,大多数类属未知的情况,在Fisher准则的基础上,提出基于Fisher 准则的半监督特征提取方法SFEM.在构造邻接图的基础上,重新定义类内离散度矩阵和类间离散度矩阵,利用Fisher准则找到的最优投影方向满足类间离散度矩阵与类内离散度矩阵之比最大,保证样本能较好地分开.若干标准数据集上的仿真结果表明,SFEM在解决半监督特征提取问题上具有一定优势.【期刊名称】《计算机工程与设计》【年(卷),期】2017(038)001【总页数】4页(P238-241)【关键词】特征提取;半监督算法;费希尔准则;类内离散度;类间离散度【作者】郝伟;刘忠宝【作者单位】山西工商学院计算机信息工程学院,山西太原 030006;中北大学计算机与控制工程学院,山西太原 030051【正文语种】中文【中图分类】TP391非负矩阵分解(non-negative matrix factorization,NMF)是一种常见的特征提取方法,其保证样本降维后的特征非负[1,2]。
半监督学习中的半监督降维与半监督聚类的关系分析(五)

半监督学习是一种介于监督学习和无监督学习之间的学习方式,它旨在利用少量的标记数据和大量的未标记数据来进行模型训练。
在实际应用中,半监督学习可以有效地解决数据标记成本高、标记数据稀缺等问题,因此受到了广泛关注。
而在半监督学习中,降维和聚类是两个重要的任务,半监督降维和半监督聚类则是半监督学习中的两个核心问题。
本文将从半监督降维和半监督聚类的关系角度来对这两个问题进行分析。
半监督降维是指在降维的过程中利用未标记数据来辅助降维,以提高降维的效果。
传统的监督降维方法如主成分分析(PCA)等只利用了标记数据的信息,而忽略了未标记数据中所蕴含的数据分布信息。
而半监督降维方法则尝试利用未标记数据的信息来更好地保留数据的结构和特征,从而达到更好的降维效果。
常见的半监督降维方法有自编码器(Autoencoder)、核主成分分析(Kernel PCA)等。
半监督降维和半监督聚类之间有着密切的联系。
降维的目的是将高维数据映射到低维空间中,聚类的目的则是在低维空间中找到数据的聚类结构。
因此,在半监督学习中,半监督降维和半监督聚类通常是相互配合的。
通过半监督降维可以将数据映射到一个更加有利于聚类的低维空间中,从而更好地进行半监督聚类。
通过利用未标记数据中的信息,半监督降维可以更好地保留数据的结构,从而为后续的半监督聚类提供更好的数据基础。
半监督聚类是指在聚类的过程中,利用未标记数据来辅助聚类,以提高聚类的准确性。
传统的聚类方法如K均值聚类、层次聚类等只利用了标记数据的信息,而忽略了未标记数据中所蕴含的数据分布信息。
而半监督聚类方法则尝试利用未标记数据的信息来更好地刻画数据的聚类结构,从而达到更好的聚类效果。
常见的半监督聚类方法有谱聚类(Spectral Clustering)、半监督支持向量机聚类(Semi-Supervised SVM Clustering)等。
半监督聚类的效果很大程度上依赖于降维的效果。
如果降维的效果很差,那么即使再好的聚类算法也很难得到好的聚类效果。
半监督学习中的半监督降维与半监督聚类的关系分析(四)

半监督学习中的半监督降维与半监督聚类的关系分析半监督学习一直以来都是机器学习领域的热门话题之一。
与监督学习和无监督学习不同,半监督学习旨在利用有标签和无标签的数据来提高模型的泛化能力。
在半监督学习中,半监督降维和半监督聚类是两个重要的任务。
本文将对半监督降维和半监督聚类进行深入探讨,并分析它们之间的关系。
半监督降维是指在降维任务中,除了利用有标签的数据,还可以利用无标签的数据来提高降维的效果。
降维旨在将高维数据映射到低维空间中,以便更好地表示数据的内在结构。
常见的半监督降维方法包括半监督主成分分析(Semi-Supervised PCA)和半监督流形学习(Semi-Supervised Manifold Learning)。
在这些方法中,无标签数据的利用可以帮助提高降维后数据的判别性,从而更好地反映数据的类别信息。
与半监督降维相对应的是半监督聚类。
聚类是一种无监督学习任务,旨在将数据划分为若干个类别,使得同一类别内的数据相似度高,不同类别之间的数据相似度低。
在半监督聚类中,除了利用有标签的数据指导聚类过程外,还可以利用无标签的数据来提高聚类的效果。
半监督聚类方法常常基于图的理论,利用数据之间的相似度构建图结构,并通过标签传播等方法来实现半监督聚类。
半监督降维和半监督聚类都是在半监督学习框架下的重要任务。
它们之间有着密切的关系,可以相互促进,共同提高数据的表示和划分效果。
首先,在实际应用中,半监督降维可以为半监督聚类提供更好的输入。
通过降维,数据的维度被减少,去除了大部分的噪声和冗余信息,使得聚类算法更加容易发现数据的内在结构。
其次,在半监督聚类中,降维后的数据可以更好地进行类别划分,提高聚类的准确性和鲁棒性。
因此,半监督降维和半监督聚类可以相互协作,为数据挖掘和模式识别任务提供更好的解决方案。
除了相互促进外,半监督降维和半监督聚类还可以相互影响。
在降维过程中,数据的表示会影响后续的聚类效果。
因此,在进行半监督降维时,需要考虑到聚类的需求,使得降维后的数据更适合进行聚类分析。
半监督学习中的半监督降维算法的使用方法
半监督学习中的半监督降维算法的使用方法半监督学习是机器学习领域的一个重要研究方向,它旨在利用已标记和未标记的数据来进行模型训练和预测。
半监督降维算法则是半监督学习中的一个重要工具,它通过将高维数据映射到低维空间来实现数据的表示和分类。
在本文中,我们将介绍半监督降维算法的使用方法,并结合实例进行详细说明。
1. 半监督降维算法概述半监督降维算法是一种将高维数据映射到低维空间的技术,它可以有效地减少数据维度,提高数据的可视化效果和分类性能。
在实际应用中,我们往往面临着大量未标记的数据和少量已标记的数据,半监督降维算法就可以利用这些未标记数据来提高模型的泛化能力。
2. 使用方法半监督降维算法的使用方法主要包括以下几个步骤:(1)数据准备首先,我们需要准备训练数据和测试数据。
训练数据包括已标记的数据和未标记的数据,而测试数据则是用来评估模型性能的数据集。
在实际应用中,我们可以从各种数据源中获取原始数据,然后进行预处理和特征提取,得到用于训练和测试的数据集。
(2)模型选择接下来,我们需要选择合适的半监督降维算法模型。
常见的半监督降维算法包括自编码器(AutoEncoder)、t-SNE、UMAP等。
不同的算法适用于不同的数据类型和任务,我们需要根据具体的应用场景选择合适的模型。
(3)模型训练一旦选择了合适的模型,就可以开始进行模型训练。
在训练过程中,我们需要将已标记的数据和未标记的数据输入到模型中,通过优化目标函数来学习数据的表示和分类边界。
训练过程中通常需要进行超参数调整和模型评估,以获得最佳的模型性能。
(4)模型预测最后,我们可以使用训练好的模型来进行数据预测。
对于新的未标记数据,我们可以将其映射到模型学习的低维空间中,然后利用模型对数据进行分类或聚类。
通过预测结果的准确性和稳定性来评估模型的性能。
3. 示例分析为了更好地理解半监督降维算法的使用方法,我们以t-SNE算法为例进行详细分析。
t-SNE是一种常用的降维算法,它可以将高维数据映射到二维或三维空间,并保持数据之间的局部结构和全局结构。
基于半监督学习的降维算法研究
基于核函数的降维方法
核方法:核方法的本质实际上就是内积。 目前核方法应用于机器学习的各个领域,包括 数据分类:SVM 数据聚类、回归; 特征降维:KPCA,KLDA,基于核函数的流形学习算法。 核方法实际上是通过非线性映射将样本点映射到高维空间, 通过在原空间中使用满足Mercer条件的核函数计算高维空间 的内积,从而巧妙地避免了在映射高维空间计算的“维数灾 难”问题。对于原空间线性不可分问题,可以在高维映射空 间实现线性或近似线性可分。
基于半监督学习的降维算法研究
姓
名:刘国胜
指导老师:王娜 副教授
选题来源:
国家自然科学基金项目——
基于成对约束的半监督谱流形非线性降维研 究及应用
降维的意义:
数据的高维性 维数灾难 计算复杂性 冗余性 可视化 数据的内在结构和规律
降维方法分类
线性降维方法: PCA、ICA、LDA和MDS等 非线性降维方法: 1. 基于核函数的降维方法 2. 流形学习算法
0.8274 0.8534 0.8721 0.9109 0.7467 0.7575 0.7848 0.8162 0.9024
0.8420 0.8716 0.8960 0.9328 0.7541 0.7706 0.8178 0.8631 0.9227
SSLPP(heat kernel)( 0.5 %) SSLPP(heat kernel) (1 %)
0.9047 (0.1) 0.66 (0.00005) 0.8137 (0.05) 0.8057 (0.05) 0.6640 (0.5)
相对熵核2
0.9447 (1) 0.8864 (1) 0.9006 (1/600) 0.7868 (1/100) 0.7243 (1/100)
半监督学习中的半监督降维与半监督聚类的关系分析(六)
半监督学习(Semi-Supervised Learning)是指在一部分有标签数据和大量无标签数据的情况下进行学习的方法。
在现实生活中,很多机器学习任务往往无法获得足够的标签数据,因此半监督学习成为了一种重要的学习范式。
在半监督学习中,降维和聚类是两个重要的任务,在本文中我将讨论半监督降维与半监督聚类的关系。
降维(Dimensionality Reduction)是指将高维数据映射到低维空间的过程。
在监督学习中,常见的降维方法有主成分分析(PCA)和线性判别分析(LDA)等。
这些方法在有标签数据的情况下能够有效地降低数据的维度,提取出最重要的特征。
然而,在半监督学习中,我们往往只有一小部分数据是有标签的,因此传统的监督降维方法无法直接应用。
在这种情况下,半监督降维方法就显得至关重要了。
半监督降维方法主要有两种:一种是基于图的方法,另一种是基于生成模型的方法。
基于图的方法将数据看作是图的节点,节点之间的相似性作为边的权重,然后通过图的特征进行降维。
典型的方法有拉普拉斯特征映射(LE)和局部线性嵌入(LLE)等。
这些方法在处理半监督降维问题时能够充分利用无标签数据的信息,从而获得更好的降维效果。
而基于生成模型的方法则是通过对数据的分布进行建模,然后利用模型进行降维。
这类方法中,最著名的就是自编码器(Autoencoder)了。
自编码器通过学习数据的特征表示,然后再将其映射到低维空间中。
这类方法在处理半监督学习问题时同样表现出了很好的效果。
与降维相似,聚类(Clustering)也是无监督学习的一种重要方法。
聚类是指将数据划分为若干个不相交的簇的过程。
在传统的无监督学习中,聚类方法如K均值(K-means)和层次聚类(Hierarchical Clustering)等被广泛应用。
然而,在半监督学习中,我们往往需要利用有标签数据的信息来指导聚类过程,因此半监督聚类方法就显得尤为重要。
半监督聚类方法可以分为基于图的方法和基于生成模型的方法两种。
半监督学习中的半监督降维与半监督聚类的关系分析(Ⅲ)
半监督学习中的半监督降维与半监督聚类的关系分析半监督学习是指在训练模型时,除了标记数据外,还利用未标记数据来提高模型的性能。
在半监督学习中,半监督降维和半监督聚类是两个重要的任务。
本文将从半监督降维和半监督聚类的概念、方法和关系等方面进行分析。
一、半监督降维半监督降维是指在降维的过程中,利用标记数据和未标记数据来实现更好的降维效果。
传统的无监督降维方法如主成分分析(PCA)和线性判别分析(LDA)等只利用标记数据,而半监督降维方法则通过结合标记数据和未标记数据进行降维。
半监督降维方法的目标是在保持数据结构的同时,利用未标记数据进行更好的降维。
半监督降维方法通常可以分为两类:基于图的半监督降维和基于生成模型的半监督降维。
基于图的半监督降维方法如拉普拉斯特征映射(LE)和局部保持投影(LPP)等是通过构建数据之间的邻接图,利用标记数据和未标记数据的相似性来进行降维。
而基于生成模型的半监督降维方法如自编码器(AE)和变分自编码器(VAE)等则是通过生成模型的方式利用标记数据和未标记数据进行降维。
二、半监督聚类半监督聚类是指在聚类的过程中,利用标记数据和未标记数据来进行更好的聚类。
传统的无监督聚类方法如K均值和高斯混合模型等只利用标记数据,而半监督聚类方法则通过结合标记数据和未标记数据来实现更好的聚类效果。
半监督聚类方法的目标是在保持聚类准确性的同时,利用未标记数据进行更好的聚类。
半监督聚类方法通常可以分为两类:基于生成模型的半监督聚类和基于图的半监督聚类。
基于生成模型的半监督聚类方法如混合判别聚类(MDC)和半监督聚类网络(SCN)等是通过生成模型的方式利用标记数据和未标记数据进行聚类。
而基于图的半监督聚类方法如谱聚类(SC)和标签传播聚类(LP)等则是通过构建数据之间的邻接图,利用标记数据和未标记数据的相似性来进行聚类。
三、半监督降维与半监督聚类的关系半监督降维和半监督聚类在实际应用中通常是相互关联的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其次构建其半监督 降维的全局 最优 化形式 , 通过特征值 分解计 算降维结果 , 而有效地克服 了天体光谱 从
降维过程 中的过分拟合 问题 ; 最后采 用高红移 类星体和晚型 星 S S D S天体光谱特征 线数据 集 , 实验验证
了该 方 法 的 有 效 性 。
关键词 : 半监 督 降 维 ;C 天 体 光 谱 数 据 ;i e 判 别 分 析 P A; Fs r h 中 图 分 类 号 :P3 1 T 1 文献标志码 : A d i1 .99 ji n 17 -07 2 1 .5 0 1 o:0 36 /. s.6 32 5 .0 2 0 .0 s
一
步 明确 了对 恒 星光 谱 数据 进 行 监督 降 维 的优 势 。
体 和非 活 动天 体光谱 的分 类 ; 福 庆 等提 出 了基 段
总 之 , R M 和 Fse 判 别 分 析 为代 表 的监 督 降 以 V i r h
于 B ys ae 决策的光谱分类 , P A特征提取 的基础 在 C 上 , 用 Bys 策实 现光谱 分类 ; 利 se 决 姜斌 等提 出 了
中 的过 分 拟 合 , 是提 高降 维 效 果 的有 效 途 径 之 一 。采 用 半监 督 学 习 , 出 了一 种 天 体 光 谱 数 据 特 征 降 维 给
方 法。该方 法首先针 对具 有标 号天体光谱数据 , 立 Fse 判别分析和 P A可 变动选择的不确定关 系; 建 i r h C
存原始数据 的绝大部分信息 , 有利于天体光谱数据 的分类 、 聚类 、 可视化等 。
目前 , 据 有 无 标 号 信 息 , 体 光 谱 数 据 降 维 依 天 主 要分 两类 : 督 降维 和 无 监督 降维 。其 中典 型 的 监
无监督降维工作 有 : 覃冬梅 、 占义等提 出一 种基 胡 于主分量分析的恒星光谱快速分类法 , 通过 P A方 C
近似 。典 型 的监 督 降维 工作 有 : 梅 芳 等提 出了基 赵
于 K近邻方 法 的 窄线 与 宽 线 活 动 星 系 核 的 自动光
中提 取 信 息 、 现 知 识 , 易 引起 维 灾 难 J 发 极 。数 据 降维 能够把 高 维数 据 映射 到 较低 维 的空 间 , 且 保 并
波 段性 以及 属 性增 加极 为迅 速 , 如 此 高维 的空 间 从
基于二维主分量分析 的光谱数据 降维方法 。总
之 , P A、 以 C 小波 变 换 等 为 代 表 的无 监 督 降维 不 足
之处是没有考虑训练样本 中的标号信息 , 仅仅在指
定 特征 向量 个数 的前 提 下 , 现对 原 始数 据 的最大 实
第3 3卷
第 5期
太
原
科
技
大
学
学
报
Vቤተ መጻሕፍቲ ባይዱ13 N . o.3 o5
O t2 1 c.0 2
21 0 2年 1 0月
J U N LO A Y A N V R IY O C E C N E H O O Y O R A FT I U N U I E ST FS IN E A D T C N L G
法 提取 恒 星光谱 的主要 主分 量 , 到 降维 后 的样 本 得 特 征点 , 现 了最 近 邻 分 类 器 的 快 速 准 确 分 类 ; 实
张 怀福 等利 用 小波包 提 取 光 谱 特征 , 究 了活 动 天 研
息, 证明了对恒星光谱数据进行监督降维分析的可
行 性 ; 乡 儒 、 占义 等运 用 Fse 判 别 分 析 法 对 李 胡 i r h 光 谱数 据进 行有监 督 特征 提取 J有效 的融 合 了训 8, 练 数据 的类 别 信 息 , 有 突 出 的 维 数 约 简 能 力 , 具 进
文 章编 号 :6 3— 0 7(0 2 0 17 2 5 2 1 ) 5—0 3 0 3 1— 6
基 于 Fse 判 别 的 半 监 督 天 体 光 谱 数 据 特 征 降 维 i r h
盛 英
( 太原科技大学计算机科学与技术学院, 太原 0 02 ) 304
摘 要: 降维是天体光谱数据预 处理 常用的手段 之 一, 如何 利 用标 号天体 光谱数据 , 克服 降维过程
32 3
太
原
科
技
大
…
学
学
报
21 0 2正
光谱数据的标号信息很难获得 , 这时传统的监督 降 维将不能实行 , 而无标号光谱数据获得较容易 , 但
标号 信 息选择 将在很 大程 度上影 响降维 的效果 。 分 类是 天体 光谱 数 据 分 析 与处 理 中 的重 要 研
由于空 间属性 的存 在 , 体具 有 了空 间位 置 和 天 距 离 的概 念 , 且相 邻 天 体 之 间存 在 一 定 的相 互 作 并 用, 天文数 据 之 间 的关 系极 其 复 杂 。与 其 它数 据 相 比, 文 数 据将 以 T 天 B甚 至 P B计 量 , 大 的数 据 量 巨 和变 化范 围给 分类 带来 很 大 的 困难 ; 文数 据 的多 天
谱 分类 , 先 根 据 给定 的 红 移 , 光 谱 移 回静 止 状 首 将 态, 然后 根 据窄线 星 系核 和 宽线 星系 核分 类 相关 的 特 征谱 线知 识 , 取 流量 , 看 作 一 个 有 监 督 特 征 截 可 提 取 的过程 ; 乡儒 等 提 出 了 R M 有 监 督 特 征 李 V 提 取与 Sy r光谱 分类 , ef t e 能有 效 的利 用 已有 的对 问题 的信念 、 验 知识 、 练 数 据 和 相 应 的类 别 信 先 训
收 稿 日期 :0 20 - 2 1 -32 9 基 金项 目 : 山西 省 自然 科 学 基金 (0 0 10 1 2 10 12 )
维, 局限于只利用 了一部 分标号信息, 降维 的结果
过 分拟 合 于 标 号 数 据 。另 外 , 现 实世 界 中 , 体 在 天
作 者 简 介 : 英 ( 95一) 男 , 究 生 , 盛 18 , 研 主要 研 究 领域 为 数 据 挖 掘 及 应 用 。