知识获取——数据离散与特征提取

合集下载

机器学习中的特征提取

机器学习中的特征提取

机器学习中的特征提取在机器学习中,特征提取是一个非常重要的概念,其作用是从原始数据中提取能够代表数据关键信息的特征来进行分析和处理。

特征提取是将数据转化为可用于机器学习算法的输入的过程。

特征提取的质量会直接影响机器学习算法的性能和准确率。

本文将从特征提取的概念、常用方法和应用场景等方面进行阐述。

一、特征提取的概念特征提取是一个从原始数据中提取相关特征的过程,这些特征可代表数据中的相关信息。

本质上,特征提取是一种特征工程,用于将原始数据转化为可被算法使用的输入,而且,一个良好的特征提取方法应当具备以下几个特点:1、提取出的特征应该具有区分度:即,同类别的数据在这些特征上的值应该有明显的差异,不同类别的数据在这些特征上的值应该有明显的相似性。

2、提取出的特征应该具有可操作性和可解释性:提取出的特征应该直观,让人们能够对其进行直接地分析和理解。

3、提取出的特征应该满足机器学习任务的需求:提取出的特征应该与所选用的机器学习算法具有很好的匹配性。

二、常用特征提取的方法1、主成分分析法(PCA)PCA是一种常用的数据降维算法,通过将高维数据映射到低维空间中,从而实现数据的压缩和降噪。

PCA的基本思想是,将原始数据在低维空间中进行正交化映射,从而去除不相关的数据维度,保留与数据相关性最高的维度。

2、线性判别分析(LDA)LDA能够将样本进行类别划分,使得相同类别的数据点聚集在一起,不同类别的数据点分离。

这种方法使得提取的特征更具有代表性和区分性,进而提高了算法的精度。

3、卷积神经网络(CNN)与传统的神经网络相比,CNN模型在处理图像等数据时具有更好的效果,因其模型的“卷积”操作可以轻松捕捉数据中的局部特征,而且由于神经元的权重共享机制,能够大大减少模型的参数量,使得模型更具可以扩展性和鲁棒性。

三、特征提取的应用场景1、图像识别在计算机视觉任务中,图片或视频中包含了大量未被显示的信息,通过特征提取来提取出图片或视频中最为重要的信息,是计算机识别任务的重要环节。

特征基本知识点总结

特征基本知识点总结

特征基本知识点总结随着人工智能和大数据技术的发展,特征工程在机器学习和数据挖掘领域中扮演着越来越重要的角色。

特征工程是指对原始数据进行预处理,提取有效的特征来帮助机器学习算法更好地理解数据和进行预测。

在实际应用中,良好的特征工程往往能够为模型的性能带来显著的提升。

因此,掌握特征工程的基本知识点对于从事机器学习和数据分析工作的人员来说是非常重要的。

本文将从特征选择、特征提取、特征变换和特征构建四个方面,对特征工程的基本知识点进行总结。

一、特征选择特征选择是指从原始数据中选择出最具有代表性和信息量丰富的特征,以提高模型的泛化能力和降低模型的复杂度。

特征选择的方法主要有过滤式、包裹式和嵌入式三种。

1. 过滤式特征选择过滤式特征选择是在训练模型之前,利用一些统计指标或者信息论方法对特征进行排序,然后选择排名靠前的特征作为模型的输入。

常用的方法有方差选择法、相关系数法、互信息法等。

- 方差选择法:将方差较小的特征去除,因为方差较小的特征往往意味着这个特征的取值变化不大,对模型的预测能力没有太大贡献。

- 相关系数法:计算特征与目标变量之间的相关系数,选取相关系数较大的特征。

相关系数越大,意味着特征与目标变量之间的线性关系越密切,对模型的预测能力越有贡献。

- 互信息法:计算特征与目标变量之间的互信息量,选取互信息量较大的特征。

互信息量衡量了两个变量之间的非线性相关性,对于发现复杂的模式和规律非常有效。

2. 包裹式特征选择包裹式特征选择是将特征选择看作是一个优化问题,即在特征子集中搜索出一个最优的特征组合,使得模型在训练数据上的性能达到最优。

常用的方法有递归特征消除法、基于模型的选择法等。

- 递归特征消除法:通过不断地删除权重系数较小的特征,从而找到一个最优的特征子集。

该方法在训练模型时会递归地进行特征删除和训练模型,因此计算成本较高,但可以得到更好的特征子集。

- 基于模型的选择法:利用一个基于模型的评估准则来选取特征,如特征重要性评分、特征权重系数等。

特征提取方法

特征提取方法

特征提取方法在机器学习和人工智能领域,特征提取是一项非常重要的技术。

它可以从原始数据中提取出最具代表性的特征,为后续的数据分析和机器学习任务提供更好的数据基础。

在本文中,我们将介绍几种常见的特征提取方法,并深入探讨它们的优缺点和适用领域。

1. 基于统计的特征提取方法基于统计的特征提取方法是一种常见的特征提取方法。

它可以通过对数据的分布和特征空间的结构进行统计分析,从而获得最具代表性的特征。

这种方法常用于图像处理、语音识别和自然语言处理等领域。

其中,常用的统计方法包括:平均值、方差、偏度、峰度等。

这些统计方法可以帮助我们提取出数据的基本特征,例如数据的中心位置、散布程度、偏斜程度和峰值等。

在图像处理领域,我们可以利用平均值和标准差等统计方法来提取图像的纹理特征;在语音识别领域,我们可以通过短时能量和短时过零率等方法来提取语音信号的声学特征。

虽然基于统计的特征提取方法在实际应用中表现出了一定的优势,但是它也存在一些缺陷,例如对数据的偏斜性和噪声敏感等问题。

因此,这种方法适用于数据分布比较均匀且噪声较小的情况下。

2. 基于频谱分析的特征提取方法基于频谱分析的特征提取方法是一种常用的信号处理技术。

它利用傅里叶变换或小波变换等方法,将时域信号转换为频域信号,并从频谱中提取出最具代表性的特征。

这种方法常用于语音识别、音乐处理和图像处理等领域。

其中,常用的频谱特征包括:能量谱密度、谱最大值、谱带宽、频率-振幅分布等。

这些频谱特征可以帮助我们分析信号的频率和振幅分布,从而提取出信号的频谱特征。

在语音识别领域,我们可以利用频率-振幅分布等特征来提取语音信号的频谱特征;在音乐处理领域,我们可以通过频带宽度等特征来提取音乐信号的音调特征。

虽然基于频谱分析的特征提取方法可以有效地分析信号的频率和振幅分布,但是它在处理复杂信号时也存在一定的局限性,例如对噪声和多路径衰落等问题比较敏感。

因此,这种方法适用于信号比较规律且噪声较小的情况下。

数据挖掘中特征提取的分析与应用

数据挖掘中特征提取的分析与应用

数据挖掘中特征提取的分析与应用特征提取是数据挖掘中的一个重要步骤,它的目的是从原始数据中提取出最具代表性和区分度的特征,以便用于后续的数据分析和建模。

特征提取可以帮助我们发现数据中的隐藏模式和关联规则,提高模型的准确性和可解释性。

本文将从特征提取的分析方法和应用两个方面进行详细介绍。

在数据挖掘中,特征提取的分析方法有很多,以下是其中几种常用的方法:1.直接特征提取:直接从原始数据中提取出特征,例如从文本数据中提取词频、TF-IDF值等;从图像数据中提取颜色直方图、边缘检测等。

直接特征提取方法简单,但可能会忽略一些重要的信息。

2.统计特征提取:通过对原始数据进行统计分析来提取特征。

例如,对于时间序列数据,可以计算统计指标如均值、标准差、峰度等作为特征。

统计特征提取方法可以反映数据的分布情况,对于数据的整体特征有一定的描述能力。

3.频域特征提取:对于信号数据,可以通过将其转换到频域来提取特征。

常用的频域特征提取方法包括傅里叶变换、小波变换等。

频域特征提取方法可以抓住信号的周期性和频率特征,对信号的时域特征进行补充和扩展。

4.主成分分析(PCA):PCA是一种常用的降维方法,可以通过线性变换将高维数据映射到低维空间。

在降维的同时,PCA还可以提取出最相关的特征。

PCA能够保留数据的最大方差,即保留了数据的最重要特征。

特征提取在各个领域都有广泛的应用,以下是几个常见的应用案例:1. 文本分类:在文本分类任务中,特征提取可以将文本数据转化为数值型特征,以便于分类模型的训练和预测。

常用的文本特征提取方法有词袋模型、TF-IDF、Word2Vec等。

这些方法可以将文本数据转化为稀疏向量或者词向量,从而帮助构建分类模型。

2.图像识别:在图像识别任务中,特征提取可以将图像数据中的颜色、纹理、形状等特征提取出来,以便于图像分类或物体识别等任务的处理。

常用的图像特征提取方法有颜色直方图、梯度方向直方图、尺度不变特征变换(SIFT)等。

特征提取步骤范文

特征提取步骤范文

特征提取步骤范文特征提取是指从原始数据中提炼出能够代表数据特性的信息,用于后续的分析和建模。

在机器学习、信号处理、图像识别等领域都有广泛的应用。

下面将介绍特征提取的一般步骤。

2.数据预处理:在进行特征提取之前,需要对原始数据进行预处理。

这包括数据清洗、数据归一化、数据平滑等操作,以消除数据中的噪声和异常值,提高特征提取的效果。

3.特征选择:特征选择是指从原始数据中选择最相关的特征。

这样可以减少特征的维度,降低计算复杂度,同时还能提高模型的性能和泛化能力。

常用的特征选择方法包括相关系数法、方差选择法、互信息法等。

4.特征提取:特征提取是指从原始数据中提取出新的特征。

这些新的特征应该具有区分度和描述度,能够更好地代表数据的特性。

常用的特征提取方法有主成分分析(PCA)、线性判别分析(LDA)、局部敏感哈希(LSH)等。

5.特征降维:在特征提取之后,可能会得到大量的特征。

为了减少特征的维度,降低计算复杂度,还需要进行特征降维。

常用的特征降维方法有主成分分析(PCA)、线性判别分析(LDA)、奇异值分解(SVD)等。

6.特征表示:在特征提取和降维之后,需要对特征进行适当的表示。

常用的特征表示方法有二进制编码、多项式编码、基函数编码等。

这些表示方法可以提高特征的可解释性和模型的性能。

7.特征重构:在特征提取和降维之后,可能会丢失一些原始数据的信息。

为了尽可能地还原数据的信息,可以进行特征重构。

常用的特征重构方法有主成分重构、最小二乘重构等。

8.特征评估:在进行特征提取之后,需要评估提取出的特征的质量和效果。

可以使用交叉验证、ROC曲线、AUC指标等方法进行评估,并根据评估结果来调整特征提取的方法和参数。

9.特征融合:在特征提取的过程中,可能会用到多种不同的特征提取方法。

为了充分利用各种方法提取出的特征,可以进行特征融合。

常用的特征融合方法有加权融合、特征组合、特征选择等。

10.特征选择:在特征提取过程中,可能会提取出大量的特征。

数据集 特征提取

数据集 特征提取

数据集特征提取
数据集的特征提取是指从原始数据中提取出有用的信息以进行进一步的处理。

在机器学习和数据分析中,特征提取是一个非常重要的步骤。

在特征提取时,可以使用各种算法和技术,包括但不限于以下几种:
1.基于统计的方法:例如主成分分析(PCA)、线性判别分析(LDA)等,这些方法
可以降维并提取数据中的主要特征。

2.基于矩阵的方法:例如独立成分分析(ICA)、稀疏成分分析(SCA)等,这些方
法可以将数据分解为独立的成分或稀疏的成分,从而提取出有用的特征。

3.基于深度学习的方法:例如卷积神经网络(CNN)、循环神经网络(RNN)等,
这些方法可以从原始数据中自动提取有用的特征。

4.基于小波变换的方法:小波变换是一种多尺度分析的方法,可以将信号分解成不同
尺度的子信号,并提取出子信号的频率、相位等特征。

5.基于灰度共生矩阵的方法:灰度共生矩阵是指在给定图像中灰度级为i的像素与其
相邻像素灰度级为j的像素出现位置关系的概率矩阵。

使用灰度共生矩阵可以提取出纹理、对比度等特征。

在实际应用中,应根据具体的数据集和任务选择适合的特征提取方法。

同时,还需要考虑特征的多样性和可解释性,以及模型的复杂度和过拟合等问题。

大数据分析中的特征提取方法

大数据分析中的特征提取方法

大数据分析中的特征提取方法在大数据分析领域,特征提取是一个至关重要的步骤。

通过对数据进行特征提取,我们可以从庞大的数据集中筛选出最具代表性和相关性的特征,从而更好地理解数据并为进一步的分析和预测建立可靠的模型。

在本文中,我们将介绍几种常见的大数据分析中的特征提取方法。

首先,常见的特征提取方法之一是主成分分析(Principal Component Analysis,PCA)。

PCA可以从高维度的数据中提取出最具代表性的主要特征,并用较低维度的变量表示。

它通过线性变换将原始数据映射到一个新的坐标系,在新的坐标系中,数据的方差会最大化,从而保留最重要的特征。

通过PCA,我们可以减少数据的维度,提高计算效率,并找到最显著的数据特征。

另一个常用的特征提取方法是独立成分分析(Independent Component Analysis,ICA)。

ICA假设数据是由独立的源信号混合而成的,通过分离混合信号,我们可以得到原始数据的独立分量。

与PCA不同,ICA不仅可以提取数据的主要特征,还可以提取数据中的相互独立的成分。

这在图像处理、语音信号分析等领域具有广泛的应用。

另外,序列模式挖掘(Sequential Pattern Mining)也是一种常见的特征提取方法。

在序列数据中,存在着时间上的相关性和顺序性。

通过挖掘序列数据中的频繁模式,我们可以发现数据中的规律和趋势。

序列模式挖掘可以应用于电商领域的用户购买行为分析、生物信息学中的DNA序列分析等领域。

除了上述方法外,还有一些基于统计学的特征提取方法,如卡方检验、互信息等。

卡方检验可以用来评估两个变量之间的相关性。

在大数据分析中,我们可以通过卡方检验来确定哪些特征与目标变量之间具有显著的相关性。

互信息则是衡量两个随机变量之间的相关性和依赖性的指标。

通过计算特征与目标变量之间的互信息,我们可以确定最具预测性的特征。

此外,基于机器学习的特征选择方法也得到了广泛的应用。

特征提取的方法有哪些

特征提取的方法有哪些

特征提取的方法有哪些特征提取是指从原始数据中提取出对问题解决有用的特征,是数据预处理的重要环节。

在机器学习、模式识别、图像处理等领域,特征提取是非常重要的一步,它直接影响到后续模型的性能和效果。

因此,特征提取的方法也是非常多样化和丰富的。

下面我们将介绍一些常用的特征提取方法。

1. 直方图特征提取。

直方图特征提取是一种常见的方法,它将数据按照一定的区间进行划分,并统计每个区间中数据的频数。

对于图像处理来说,可以将图像的像素值按照灰度级别划分成若干区间,然后统计每个区间中像素的个数,从而得到一个灰度直方图。

通过直方图特征提取,可以很好地描述图像的灰度分布特征。

2. 边缘检测特征提取。

边缘检测是图像处理中常用的一种特征提取方法,它通过检测图像中像素值的变化来找到图像中的边缘。

常用的边缘检测算子有Sobel、Prewitt、Canny等,它们可以有效地提取出图像中的边缘信息,为后续的图像分割和物体识别提供重要的特征。

3. 尺度不变特征变换(SIFT)。

SIFT是一种基于局部特征的图像特征提取方法,它具有尺度不变性和旋转不变性的特点。

SIFT算法通过寻找图像中的关键点,并提取这些关键点周围的局部特征描述子,来描述图像的特征。

SIFT特征提取方法在图像匹配、目标识别等领域有着广泛的应用。

4. 主成分分析(PCA)。

主成分分析是一种常用的特征提取和降维方法,它通过线性变换将原始数据映射到一个新的坐标系中,使得映射后的数据具有最大的方差。

通过PCA方法可以将高维数据降维到低维空间,同时保留了大部分原始数据的信息,对于高维数据的特征提取和数据可视化具有重要意义。

5. 小波变换特征提取。

小波变换是一种时频分析方法,它可以将信号分解成不同尺度和频率的小波系数。

小波变换特征提取方法可以有效地捕捉信号的时频特征,对于信号处理和图像处理中的特征提取具有重要的应用价值。

总结。

特征提取是数据预处理的重要环节,不同的领域和问题需要采用不同的特征提取方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.知识获取2.2 数据离散与特征提取目前,常用的离散化算法有等距离划分法、等频率划分法、基于条件信息熵的方法等。

2.2.1 数据离散(1) 等距离划分算法(Equal Interval Width )。

这种算法是根据用户给定的维数(要离散化的类数),将每个属性划分为属性值距离相等的断点段,每个段中的属性值个数不相等。

假设某个属性的最大值为max x ,最小值为min x ,用户给定的维数为k ,则断点间隔δ=(max x -min x )/k ,得到的断点为min x + iδ,i =0,1,…,k 。

(2) 等频率划分算法(Equal Frequency Interval )。

这种算法首先将某属性值按从小到大的顺序排列,然后根据用户给定的参数k 把这些属性值分成k 段,每一段中属性值的个数相同,则最后的断点集也可相应获得。

(3)Naive Scaler 算法。

Naive Scaler 算法如下: 对于信息表条件属性集C 中的每一个属性a 进行如下过程: 步骤1:按a (x )的值,从小到大对实例x 进行排序,其中U x ∈; 步骤2:从排序后的实例集头部开始扫描,令i x 代表当前实例:如果)()(1+=i i x a x a ,则继续扫描;如果)()(1+=i i x d x d ,则继续扫描,其中d 为决策属性 否则,得到新的断点c ,2/))()((1++=i i x a x a c 。

步骤3:结束。

该算法为“逐步增加断点算法”。

(4)Semi Naive Scaler 算法。

Semi Naive Scaler 算法是对Naive Scaler 算法的一种改进算法,它通过对Naive Scaler 算法获得的每个候选断点进行进一步处理来决定是否采用此断点,具体处理方法如下:假设c 代表属性a 的一个候选断点,i x ,j x 是断点c 的两个相邻的属性值,且c x c x j i ><,;i D 代表i x 所属的等价类所对应的决策中出现频率最高的决策值的集合,如果有两个以上的决策值出现的频率相同,则1>i D ;如果j i D D ⊆或者i j D D ⊆,则不选取该断点;否则,选取该断点。

由此可见,Semi Naive Scaler 算法所得到的断点去掉了Naive Scaler 算法所得到断点中一些不必要的断点,得到了更少的断点数。

(5)自组织竞争人工神经网络(Kohonen )算法。

R图2-1 自组织竞争神经网络结构自组织竞争人工神经网络的结构如图2-1所示。

其中的||ndist ||用来计算网络输入P 和权值1,1IW 的距离,它的输出是1S 维的向量,其中的每个元素是输入向量与权值矩阵各行向量1,1IW i 的距离并取负号,即||ndist || =-||1,1IW i -P || (2.1)竞争神经元的输入1n 是||ndist ||的输出向量与阀值向量1b 的和,当网络的阀值为0,并且输入P 与权值1,1IW 完全相等时,1n 取得最大值0。

而在网络输出的1S 维向量中,只有对应1n 中最大元素1i n 的相应元素1i a 的值为1,其余元素的值均为0,这说明网络中的第i 个神经元在竞争中取得了胜利。

Kohonen 训练规则的目标是调整网络获胜神经元的权值,即网络权值矩阵中的某一个行向量的值。

假设第i 个神经元对第q 个输入向量获胜,那么对应的权值调整公式如下:()()()()()111,11,11,1--+-=q IW q p q IW q IW i i iα (2.2)所以距离某个输入向量最近的权值向量得到的调整使它更加接近于该输入向量。

这样,当网络下次输入相似的向量时,该神经元就很可能在竞争中取得胜利。

如此反复地进行下去,网络中的各神经元就会响应某一部分输入向量,在它们作为输入的时候,网络相应的输出就为1,从而实现了分类的目的。

文献提出了采用Kohonen 网络对属性进行离散化处理的方法,该方法在离散过程中只需指定聚类数目,离散结果就能比较客观地反映实际数据分布情况。

2.2.2 模糊聚类应用模糊聚类分析对事物进行分类,一般按如下四个步骤进行:选择统计指标、数据标准化(正规化)、标定和聚类。

2.2.2.1 选择指标根据实际问题,选择那些具有明确的意义,有较强的分辨力和代表性的特征,作为分类事物的统计指标。

统计指标选择得如何,对分类效果有直接的影响。

2.2.2.2数据标准化(正规化)数据标准化处理方法: [1] 最大最小法:令'1'1'1'ijn i ij ni ij ni ijij x x x x x ===∧-∨∧-=,式中分母是原始纪录矩阵第j 列各元素的最大值与最小值之差。

[2] 正态标准化法:设x 为原始数据,x 为原始数据的平均值,σ为原始数据的标准差,则:σxx x -='。

[3] 归一化法:设'ijx 为原始数据,'1nij i x =∨为原始数据的最大值,则:''ijnijijij xx x ∨=。

或者设t x 为原始采样数据,'t x 为归一化后数据,max x 为原始采样数据最大值,min x 为原始采样数据最小值,k 为放大倍数,则:minmax min'x x x x k x t t --=。

[4] 标准差变换:设论域},,,{21n u u u U =为被分类对象,每个元素又由m 个数据表示,对第i 个元素有),,2,1}(,,,{21n i x x x u im i i i ==,这时原始数据矩阵为:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m x x x x x x x x x212222111211。

令),,2,1(11m k x n x n i ik k==∑=,()∑=-=ni k ik k x x n s 121,则)),,2,1;,,2,1('m k n i s x x x kkik ik ==-=(2.3)经过变换后,每个变量的均值为0,标准差为1,并可以消除量纲的影响,但不一定在]1,0[区间上。

[5] 极差变换设论域},,,{21n u u u U =为被分类对象,每个元素又由m 个数据表示,对第i个元素有),,2,1}(,,,{21n i x x x u im i i i ==,这时原始数据矩阵为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m x x x x x x x x x212222111211 ),,2,1(}{min }{max }{min '1'1'1'''n k x x x x x ik ni ikni ik ni ik ik =--=≤≤≤≤≤≤ (2.4)经过极差变换后有10''≤≤ik x ,且消除了量纲的影响。

2.2.2.3 标定所谓的标定,就是根据实际情况,按一个准则或某一种方法,给论域U 中的元素两两之间都赋以区间[0,1]内的一个数,称为相似系数,它的大小表征两个元素彼此接近或相似的程度。

标定的方法非常多,如数量积法、夹角余弦法、相关系数法、最大最小法、算术平均最小法、几何平均最小法、绝对值指数法、指数相似系数法、绝对值倒数法、绝对值减数法、非参数法、贴近度法、主观评定法等。

设},,,{21n u u u U =为待分类事物的全体,i u 由一组数据12,,,i i im x x x 来表征,用ij r 来表示i u 与j u 的相似系数,01(,1,2,,)ij r i j n ≤≤=;0ij r =表示i u 与j u 毫无相似之处;1ij r =表示i u 与j u 完全相似;当i j =时,ij r 就是i u 自己与自己的相似程度,恒取1。

ij r 的确定方法,最大最小法有:11()()mikjk k ij mikjk k x x r xx ==∧=∨∑∑。

2.2.2.4 聚类(1)基于模糊等价关系的传递闭包法。

根据标定所得模糊矩阵R ,求出其传递闭包)(R t ,)(R t R =为模糊等价矩阵,然后令λ从1降到0,便可按照需要对U 进行分类,这样的聚类方法称为传递闭包法。

(2)基于模糊相似关系的直接聚类法。

用传递闭包法进行分类,需要先建立U 上的模糊等价矩阵,当矩阵阶数较高时,求等价矩阵的计算量大,这给解决实际问题带来了很多困难。

所谓的直接聚类法是直接利用相似矩阵R 进行聚类:i u 与j u 在λ水平上同类当且仅当在R 的图中,存在一条权重不低于λ的路联结i u 与j u ,直接聚类法包括最大树法和编网法,它们分别是直接聚类法的图形化和表格化。

最大树法的基本步骤:[1] 画出以被分类元素为节点,以相似矩阵R 的元素ij r 为权重的一棵最大树;[2] 取定]1,0[∈λ,砍断权重低于λ的枝,得到一个不连通图,各连通分支便构成了在λ水平上的分类。

编网法的基本步骤:[1] 对给定的模糊相似矩阵R ,取定水平]1,0[∈λ,作截矩阵λR ;[2] 在λR 的主对角线上填入元素的符号,在对角线下方以结点号“*”代替1,而“0”则略去不写;[3] 由结点向主对角线上引经线和纬线,称之为编网,通过经线和纬线能相互连接起来的元素,属于同类,从而实现了分类。

(3) 基于模糊c-划分的模糊聚类法。

这类方法通过将论域U 进行普通c-划分、模糊c-划分等划分方法,从而达到聚类的效果。

2.2.2.5 最佳阀值的确定模糊动态聚类方法的不足在于选择的阀值λ是凭人的经验来确定的,当前最佳阀值的选取主要方法有:F-统计量法和λ变化率法。

λ的变化率法就是选用λ的变化率最大时对应的λ值为最佳阀值。

即以λ的变化率11----=i i ii i n n c λλ (2.5)作为λ的定量选择标准。

其中i 为λ从高到低的聚合序次数;n i 和n i-1分别为第i 和i-1次聚类的元素个数;λi 和λi-1分别为第i 和i-1次聚类时的阀值。

如果)(max j ji c c =则认为第i 次聚类的阀值λi 为最佳阀值。

如果满足要求的阀值较多,以能够得到最少分类的阀值为最佳阀值。

经过真实数据检验后发现,λ的变化率法对一维数据分类效果较好,因此本文中采用λ的变化率法确定最佳阀值,进而确定最佳分类。

2.2.3 基于模糊粗集的特征参数提取算法研究算法采用模糊聚类方法对诊断模型中各因素指标进行先分类、后离散,然后用粗糙集约简方法进行特征参数的提取。

用模糊聚类方法对事物进行分类,一般按四个步骤进行:选择影响因素指标、数据标准化、标定和聚类。

因此,基于模糊粗糙集的特征参数提取算法描述如下:步骤1:选择发动机故障因素指标{X n }和收集整理发动机故障样本数据;从标准化方法,如最大最小法、正态标准化法和归一化法中,选择合适方法对各指标数据进行标准化处理;步骤2:从标定方法,如数量积法、夹角余弦法、相关系数法、最大最小法、算术平均最小法、几何平均最小法、绝对值指数法、指数相似系数法、绝对值倒数法、绝对值减数法、非参数法、贴近度法、主观评定法中,选择一种方法将各指标数据分别进行标定,给论域中的元素两两之间都赋以区间[0,1]内的相似系数,然后求模糊相似矩阵。

相关文档
最新文档