高斯混合模型实现

合集下载

机器学习中的高斯混合模型算法详解

机器学习中的高斯混合模型算法详解机器学习中有许多强大的算法，其中之一就是高斯混合模型（Gaussian Mixture Model，简称GMM）。

GMM是一种统计模型，在很多实际应用场景中被广泛使用，如数据聚类、异常检测、图像分割等。

本文将详细介绍高斯混合模型算法的原理与应用。

高斯混合模型是一种概率模型，假设数据是由多个高斯分布混合而成的。

它的基本思想是通过一组高斯分布对数据进行建模，每个高斯分布代表一种潜在的模式或簇。

GMM的目标是通过最大化似然函数来估计模型参数，从而得到最优的拟合结果。

对于一个包含N个样本的数据集，GMM的参数包括每个高斯分布的均值、协方差矩阵以及对应的权重。

假设数据的维度为D，高斯分布的个数为K，则均值参数为K个D维向量，协方差矩阵参数为K个D×D维矩阵，权重参数为K个标量。

GMM的算法步骤如下：1. 初始化参数：随机选择K个高斯分布的均值、协方差矩阵和权重，作为模型的初始参数。

2. E步：计算每个样本点属于每个高斯分布的后验概率，即每个样本属于每个高斯分布的概率。

3. M步：根据样本点的后验概率，重新估计每个高斯分布的参数，即更新均值、协方差矩阵和权重。

4. 重复执行E步和M步，直到模型的参数收敛，或达到预定的迭代次数。

GMM的收敛判定可以通过似然函数的对数差值来判断，当差值小于某个阈值时，认为模型已经收敛。

GMM具有很多优点，使其在实际应用中备受青睐。

首先，GMM是一种非常灵活的模型，可以拟合各种形状的分布。

其次，GMM可以通过调整高斯分布的参数个数，适应不同数据集中的簇的数量。

此外，GMM还可以用于异常检测，因为异常点在模型中的概率较低。

在实际应用中，高斯混合模型有多种扩展和变体。

例如，可以通过加入约束条件来限制高斯分布的形状，如协方差矩阵的结构。

还可以引入混合成分之间的相关性，从而利用上下文信息提高模型性能。

此外，还可以使用贝叶斯方法对模型进行扩展，允许动态地调整模型的复杂度。

高斯混合模型算法

高斯混合模型算法在GMM中，假设数据的潜在分布是由多个高斯分布组成的，每个高斯分布代表了一个聚类或者类别。

GMM通过将这些高斯分布的混合系数、均值和协方差矩阵进行估计来拟合数据分布。

GMM的数学表达如下：P(x) = ∑(i=1 to k) Πi * N(x, μi, Σi)其中，P(x)表示数据分布的概率，Πi表示第i个高斯分布的混合系数，N(x,μi,Σi)表示第i个高斯分布的概率密度函数，μi和Σi分别表示第i个高斯分布的均值和协方差矩阵。

GMM算法的步骤如下：1.初始化：选择合适的聚类数k，随机初始化各个高斯分布的混合系数Πi、均值μi和协方差矩阵Σi。

2. E步（Expectation Step）：计算每个数据点属于每个聚类的概率。

使用当前的参数估计值计算每个数据点x属于每个聚类i的后验概率γi：γi = Πi * N(x, μi, Σi) / (∑(j=1 to k) Πj * N(x, μj, Σj))3. M步（Maximization Step）：根据E步计算得到的后验概率更新模型参数。

计算每个高斯分布的新混合系数、均值和协方差矩阵：Πi = (∑(n=1 to N) γi) / Nμi = (∑(n=1 to N) γi * x) / (∑(n=1 to N) γi)Σi = (∑(n=1 to N) γi * (x - μi)^T * (x - μi)) / (∑(n=1 to N) γi)其中，N表示数据点的数量。

4.对数似然比较：计算新参数的对数似然值。

若对数似然值相对于上一次迭代的值的提升不大，则停止迭代；否则返回第2步。

GMM算法的优点在于：-GMM可以用于对任意分布的数据进行建模，因为它通过多个高斯分布的组合来表示分布的形状。

-GMM可以获得每个数据点属于每个聚类的概率，而不仅仅是一个硬性分类结果。

-GMM对异常值和噪声具有一定的鲁棒性。

然而，GMM也有一些缺点：-GMM的参数估计是通过迭代求解的，因此对初始参数的选择十分敏感。

gmm高斯混合模型原理

高斯混合模型（Gaussian Mixture Model，简称GMM）是一种常用的概率模型，用于对复杂数据分布进行建模和表示。

它基于多个高斯分布的线性组合，每个高斯分布被称为一个分量（component）。

每个分量由均值、协方差矩阵和权重所定义。

GMM 的主要原理如下：
1.模型表示：GMM假设观测数据是由多个高斯分布组成的线性组合。

每个分量代表一
个高斯分布，其中包含均值向量和协方差矩阵。

GMM 的概率密度函数可以表示为
所有分量的加权和。

2.参数估计：GMM 的参数估计通常使用最大似然估计方法。

给定观测数据，通过迭
代算法（如期望最大化算法-EM算法）来估计每个分量的均值、协方差矩阵和权重。

3.概率计算：GMM 可以用于计算观测数据来自每个分量的概率。

这可以通过计算每
个分量的条件概率并进行加权求和来实现。

4.聚类和分类：GMM 可以用于聚类和分类任务。

在聚类中，每个分量可以表示一个
聚类中心，通过计算观测数据与每个分量的概率来确定其所属的聚类。

在分类中，
可以将GMM 作为生成模型，通过计算观测数据在每个类别下的后验概率进行分类。

GMM 在许多领域中得到广泛应用，如模式识别、数据压缩、图像处理等。

它可以表示和建模复杂的数据分布，并且具有灵活性和可拓展性。

但是，GMM 也存在一些限制，比如对初始参数选择敏感和计算复杂度较高等。

因此，在实际应用中需要仔细选择合适的模型和优化方法。

高斯混合模型 c语言算法

高斯混合模型 c语言算法高斯混合模型 C 语言算法一、引言高斯混合模型（Gaussian Mixture Model，简称 GMM）是一种用于概率建模和数据聚类的统计模型。

它是由多个高斯分布组成的混合模型，每个高斯分布对应一个聚类簇。

C 语言是一种广泛应用于嵌入式系统和底层开发的编程语言。

本文将介绍如何使用 C 语言实现高斯混合模型算法。

二、高斯混合模型算法原理1. 高斯分布高斯分布是一种连续概率分布，也称为正态分布。

它的概率密度函数可以通过以下公式计算：```f(x) = (1 / (σ * √(2π))) * e^(-((x - μ)^2) / (2 * σ^2)) ```其中，μ 是分布的均值，σ 是分布的标准差。

2. 高斯混合模型高斯混合模型是由多个高斯分布组成的混合模型。

每个高斯分布都对应一个聚类簇，用来表示数据的不同类别或聚集程度。

高斯混合模型的概率密度函数可以表示为：```f(x) = Σ(w_i * f_i(x))```其中，w_i 是第 i 个高斯分布的权重，f_i(x) 是第 i 个高斯分布的概率密度函数。

3. 高斯混合模型的参数估计高斯混合模型的参数估计是通过最大似然估计方法来实现的。

具体步骤如下：- 初始化每个高斯分布的均值、标准差和权重；- 重复以下步骤直到收敛：- E 步：根据当前参数估计每个样本属于每个聚类的概率；- M 步：根据当前样本的权重更新每个聚类的参数估计；- 根据最终的参数估计得到高斯混合模型。

三、C 语言实现高斯混合模型算法1. 数据结构定义我们需要定义一些数据结构来表示高斯混合模型的参数和样本数据。

例如，可以定义一个结构体来表示每个高斯分布的参数：```ctypedef struct {double mean; // 均值double variance; // 方差double weight; // 权重} Gaussian;```2. 初始化参数在开始参数估计之前，我们需要初始化每个高斯分布的参数。

高斯混合模型详解

高斯混合模型详解摘要：1.高斯混合模型的基本概念2.高斯混合模型的组成部分3.高斯混合模型的求解方法4.高斯混合模型的应用实例5.总结正文：一、高斯混合模型的基本概念高斯混合模型（Gaussian Mixture Model，简称GMM）是一种概率模型，用于对由多个高斯分布组成的数据集进行建模。

它是一个多元高斯分布，由多个一元高斯分布组合而成，每个一元高斯分布表示数据集中的一个子集。

高斯混合模型可以看作是多个高斯分布的加权和，其中每个高斯分布的权重表示该高斯分布在数据集中的重要性。

二、高斯混合模型的组成部分高斯混合模型包含三个主要组成部分：1.样本向量：样本向量是数据集中的一个观测值，通常表示为一个列向量。

2.期望：期望是每个高斯分布的均值，表示数据集中所有样本向量的平均值。

3.协方差矩阵：协方差矩阵表示数据集中各个样本向量之间的相关性。

它由多个一元高斯分布的协方差矩阵组成，每个协方差矩阵描述了一个子集内样本向量的相关性。

三、高斯混合模型的求解方法高斯混合模型的求解方法主要有两种：1.极大似然估计（Maximum Likelihood Estimation，简称MLE）：MLE 是通过最大化似然函数来确定高斯混合模型的参数，即期望和协方差矩阵。

具体方法是使用EM 算法（Expectation-Maximization）迭代求解。

2.贝叶斯信息准则（Bayesian Information Criterion，简称BIC）：BIC 是一种模型选择方法，用于比较不同模型的拟合效果。

它通过计算模型的复杂度和拟合优度来选择最佳模型。

四、高斯混合模型的应用实例高斯混合模型在许多领域都有广泛应用，例如：1.语音识别：高斯混合模型可以用来对语音信号进行建模，从而实现语音识别。

2.聚类分析：高斯混合模型可以用来对数据进行聚类，每个聚类对应一个高斯分布。

3.异常检测：高斯混合模型可以用来检测数据中的异常值，因为异常值通常不符合高斯分布。

高斯混合模型详解

高斯混合模型详解摘要：一、高斯混合模型简介1.模型背景2.模型结构二、高斯混合模型原理1.硬聚类与软聚类2.概率模型3.参数估计三、高斯混合模型的应用1.数据降维2.异常检测3.密度估计四、高斯混合模型在实际场景中的应用案例1.图像分割2.文本分类3.生物信息学五、高斯混合模型的优缺点及改进方法1.优点2.缺点3.改进方法六、总结与展望1.模型发展历程2.当前研究热点3.未来发展方向正文：一、高斯混合模型简介1.模型背景高斯混合模型（Gaussian Mixture Model，简称GMM）起源于20世纪60年代，是一种用于聚类和密度估计的统计模型。

它通过对数据进行软聚类，将不同类别的数据分布用高斯分布进行建模，从而实现对数据特征的描述和分类。

2.模型结构高斯混合模型由多个高斯分布组成，每个高斯分布表示数据集中的一个子集。

各个高斯分布的参数（均值、协方差矩阵和权重）决定了其在混合模型中的贡献程度。

通过优化这些参数，我们可以得到一个最佳的高斯混合模型。

二、高斯混合模型原理1.硬聚类与软聚类高斯混合模型属于软聚类方法，与硬聚类方法（如K-means）相比，软聚类方法允许每个数据点以不同的概率属于多个类别。

这使得高斯混合模型在处理复杂数据分布时具有优势。

2.概率模型高斯混合模型是一种概率模型，它描述了数据分布的概率密度函数。

给定数据集X，高斯混合模型可以表示为：p(x) = ∑[w_i * N(x; μ_i, Σ_i)]，其中w_i为第i个高斯分布的权重，N(x; μ_i, Σ_i)表示均值为μ_i、协方差矩阵为Σ_i的高斯分布。

3.参数估计高斯混合模型的参数估计采用最大似然估计（MLE）方法。

通过对数据进行建模，并使观测到的数据概率最大，我们可以得到模型参数的估计值。

三、高斯混合模型的应用1.数据降维高斯混合模型可以用于对高维数据进行降维，通过软聚类将数据划分为几个子集，再对每个子集进行降维处理，从而提取出关键特征。

4.EM算法-高斯混合模型GMM详细代码实现

4.EM算法-⾼斯混合模型GMM详细代码实现1. 前⾔EM的前3篇博⽂分别从数学基础、EM通⽤算法原理、EM的⾼斯混合模型的⾓度介绍了EM算法。

按照惯例，本⽂要对EM算法进⾏更进⼀步的探究。

就是动⼿去实践她。

2. GMM实现我的实现逻辑基本按照中的⽅式实现。

需要全部可运⾏代码，请移步我的。

输⼊：观测数据x1,x2,x3,...,x N对输⼊数据进⾏归⼀化处理#数据预处理def scale_data(self):for d in range(self.D):max_ = self.X[:, d].max()min_ = self.X[:, d].min()self.X[:, d] = (self.X[:, d] - min_) / (max_ - min_)self.xj_mean = np.mean(self.X, axis=0)self.xj_s = np.sqrt(np.var(self.X, axis=0))输出：GMM的参数1. 初始化参数#初始化参数def init_params(self):self.mu = np.random.rand(self.K, self.D)self.cov = np.array([np.eye(self.D)] * self.K) * 0.1self.alpha = np.array([1.0 / self.K] * self.K)2. E步：根据当前模型，计算模型k对x i的影响γik=πk N(x|µk,Σk)∑K k=1πk N(x|µk,Σk)#e步，估计gammadef e_step(self, data):gamma_log_prob = np.mat(np.zeros((self.N, self.K)))for k in range(self.K):gamma_log_prob[:, k] = log_weight_prob(data, self.alpha[k], self.mu[k], self.cov[k]) log_prob_norm = logsumexp(gamma_log_prob, axis=1)log_gamma = gamma_log_prob - log_prob_norm[:, np.newaxis]return log_prob_norm, np.exp(log_gamma)3. M步：计算µk+1,Σ2k+1,πk+1。

高斯混合模型参数优化及实现

高斯混合模型参数优化及实现高斯混合模型（Gaussian Mixture Model，GMM）是一种常用的概率模型，它利用多个高斯分布函数的叠加来描述复杂的数据分布。

GMM的参数优化可以通过最大似然估计或期望最大化算法（Expectation-Maximization，EM）来实现。

首先, 我们来解释GMM的数学定义。

设观测数据为X={x1, x2, ..., xn}，每个观测数据xi都是一个d维向量。

GMM可以表示为：P(X，θ)=∑[j=1,m]P(Z=j，θ)P(Xi，Z=j,θ)=∑[j=1,m]πjN(Xi，μj,Σj)，Σj为协方差矩阵函数。

其中，θ表示GMM的所有参数，包括m个高斯分布的参数（πj,μj,Σj）。

下面是GMM参数优化的步骤：1.初始化参数：首先，需要初始化每个高斯分布的参数（πj,μj,Σj），可以随机选择或通过其他方法进行初始化。

2. E步骤（Expectation）：计算每个样本属于每个高斯分布的后验概率，即计算P(Z=j，Xi,θ)。

根据贝叶斯定理，可以使用以下公式计算后验概率：P(Z=j，Xi,θ)=πjN(Xi，μj,Σj)/∑[k=1,m]πkN(Xi，μk,Σk)3. M步骤（Maximization）：根据E步骤的计算结果，更新高斯分布的参数（πj, μj, Σj）。

具体更新方式如下：πj=∑[i=1,n]P(Z=j，Xi,θ)/nμj=∑[i=1,n]P(Z=j，Xi,θ)*Xi/∑[i=1,n]P(Z=j，Xi,θ)Σj=∑[i=1,n]P(Z=j，Xi,θ)*(Xi-μj)(Xi-μj)T/∑[i=1,n]P(Z=j，Xi,θ)4.重复执行E步骤和M步骤，直到参数收敛或达到预定的迭代次数。

5.利用优化后的参数对新的数据进行分类或生成新样本。

实现GMM可以使用现有的机器学习库，例如sklearn。

下面是一个简单的示例代码：```pythonimport numpy as npfrom sklearn.mixture import GaussianMixture#创建数据集X = np.random.rand(100, 2)#初始化GMM模型#拟合数据集gmm.fit(X)#预测新的数据点new_data = np.array([[0.5, 0.5], [0.8, 0.2]])labels = gmm.predict(new_data)#输出结果print("Labels:", labels)```总结：GMM是一种常用的概率模型，用于描述复杂的数据分布。

高斯混合模型(GMM)参数优化及实现

β j = E (α j xi ; Θ) = α j N j ( xi ; Θ)
∑αl N l ( xi ; Θ)
l
M
， 1 ≤ i ≤ n ，1 ≤ j ≤ M
(6)
注意：写代码实现公式(6)时，对于每个 SGM 分别用公式(4)计算每个样本点 xi 在该模型下的概率密度值 N j ( xi ; Θ) ，对于所有样本，得到一个 n *1 的向量，计算 M 次，得到 n * M 的矩阵，每一列为所有点在该模型下的概率密度值（PDF）；实现 ∑α l N l ( xi ; Θ) 时，需要针对每个点计算在各个 SGM 的概率值总和。公
j =1 M
(3)
上式即称为 GMM， ∑α j = 1 ，其中
j =1
M
N j ( x; μ j , Σ j ) =
1 1 exp − ( x − μ j )T Σ − j ( x − μ j ) 2 (2π ) Σ j 1
m
(4)
表示第 j 个 SGM 的 PDF。令 θ j = (α j , μ j , Σ j ) ，GMM 共有 M 个 SGM 模型，现在，我们就需要通过样本集 X 来估计 GMM 的所有参数： Θ = (θ1 ,⋅⋅⋅,θ M )T 。样本 X 的概率公式为：
西南交通大学，信息学院，xgong@
资料整理
高斯混合模型（GMM）参数优化及实现
龚勋（2010-11-13）
1 高斯混合模型概述
高斯密度函数估计是一种参数化模型。有单高斯模型（Single Gaussian Model, SGM）和高斯混合模型（Gaussian mixture model，GMM）两类。类似于聚类，根据高斯概率密度函数（PDF，见公式 1）参数的不同，每一个高斯模型可以看作一种类别，输入一个样本 x ，即可通过 PDF 计算其值，然后通过一个阈值来判断该样本是否属于高斯模型。很明显，SGM 适合于仅有两类别问题的划分，而 GMM 由于具有多个模型，划分更为精细，适用于多类别的划分，可以应用于复杂对象建模。下面以视频前景分割应用场景为例，说明 SGM 与 GMM 在应用上的优劣比较： l SGM 需要进行初始化，如在进行视频背景分割时，这意味着如果人体在前几帧就出现在摄像头前，人体将会被初始化为背景，而使模型无法使用； l SGM 只能进行微小性渐变，而不可突变。如户外亮度随时间的渐变是可以适应的，如果在明亮的室内突然关灯，单高斯模型就会将整个室内全部判断为前景。又如，若在监控范围内开了一辆车，并在摄像头下开始停留。由于与模型无法匹配，车会一直被视为前景。当车过很长时间离去时，由于车停留点的亮度发生了很大的变化，因此已经无法与先前的背景模型相匹配； l SGM 无法适应背景有多个状态，如窗帘，风吹的树叶。单高斯模型无法表示这种情况，而使得前背景检测混乱，而 GMM 能够很好地描述不同状态； l 相对于单高斯模型的自适应变化，混合高斯模型的自适应变化要健壮的多。它能解决单高斯模型很多不能解决的问题。如无法解决同一样本点的多种状态，无法进行模型状态转化等。

EM算法求解高斯混合模型python实现

EM算法求解⾼斯混合模型python实现注：本⽂是对《统计学习⽅法》EM算法的⼀个简单总结。

1. 什么是EM算法？引⽤书上的话：概率模型有时既含有观测变量，⼜含有隐变量或者潜在变量。

如果概率模型的变量都是观测变量，可以直接使⽤极⼤似然估计法或者贝叶斯的⽅法进⾏估计模型参数，但是当模型含有隐藏变量时，就不能简单使⽤这些⽅法了。

EM算法就是含有隐变量的概率模型参数的极⼤似然估计法，或者极⼤似然后验概率估计法。

2. EM 算法的⼀个⼩例⼦:三硬币模型假设有3枚硬币，记作A,B,C。

这些硬币的正⾯出现的概率分别为π、p、q。

进⾏如下的试验：先掷硬币A，根据A的结果选择B和C，如果掷A得到正⾯，则选择B；如果掷A得到反⾯，则选择C。

接着掷出选出的硬币。

记录下这次掷硬币的结果，如果是正⾯，则记作1，反⾯则记作0。

独⽴重复做了n次试验(这⾥取n=10)，得到结果如下：1,1,0,1,0,0,1,0,1,1。

假设只能观测到抛硬币的结果，不能观测到抛硬币的过程，那么我们该如何估计三硬币的参数π、p、q呢？（也就是估计三枚硬币正⾯向上的概率）EM算法分为E步和M步。

EM 算法⾸先选取了参数的初始值，记作θ(0)=(π(0),p(0),q(0))。

然后通过下⾯的步骤迭代计算参数的估计值，直到收敛为⽌，第i次迭代的参数的估计值记作θ(i)=(π(i),p(i),q(i)),则EM算法的第i+1次迭代为：E步：计算模型在参数π(i)、p(i)、q(i)下观测数据y j来⾃掷硬币B的概率为µ(i+1) j =π(i)(p(i))y j(1−p(i))1−y jπ(i)(p(i))y j(1−p(i))1−y j+(1−π(i))(q(i))y j(1−q(i))1−y jM步：计算模型新的参数的估计值：π(i+1)=1n∑nj=1µ(i+1)jp(i+1)=∑n j=1µ(i+1)jy j∑n j=1µ(i+1)jq(i+1)=∑n j=1(1−µ(i+1)j)y j∑n j=1(1−µ(i+1)j)下⾯带⼊具体的数字计算⼀下。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实例：使用模型进行训练
# 转换rdd wine_Vc_St_rdd = wine_Vc_St.rdd.map(lambda x: tuple(x.cols_st)) # 使用GMM模型,spark1.6中,混合高斯模型在mllib模块中,故数据要转为rdd类型 import pyspark.mllib.clustering as mllib_clustering clusters = mllib_clustering.GaussianMixture.train(rdd=wine_Vc_St_rdd, # 输入数据源RDD(tuple)
高斯混合模型简介与 python实践
演讲人：
时间：
提纲
高斯混合模型简介高斯混合模型实现
高斯混合模型简介
高斯混合模型（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，理论上 GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况。下图中的点可分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。用一个的二维高斯分布来描述图中的数据。这显然不太合理。 GMM后，使用两个二维高斯分布来描述图中的数据，可以看到使用两个二维高斯分布来描述图中的数据显然更合理。
k=3, # 类别数 convergenceTol=1e-3, # 训练停止误差阈值 maxIterations=100, # 最大迭代次数 seed=None) # 随机种子 # 模型应用 wine_Vc_St_clusters = sqlContext.createDataFrame(clusters.predict(wine_Vc_St_rdd).zipWithIndex()).toDF("pred", "ID") # 数据整合 wine_Vc_St_pred = wine_Vc_St.withColumn("ID", monotonically_increasing_id()).join(wine_Vc_St_clusters, on=["ID"]) # 展示数据 wine_Vc_St_pred.show()
# 对数据进行标准化 standardScaler = ml_feature.StandardScaler().setInputCol("cols").setOutputCol("cols_st").setWithMean(True).setWithStd(
True).fit(wine_Vc) wine_Vc_St = standardScaler.transform(wine_Vc)
实例：初始化Spark，读取数据
# -*-coding:utf-8-*# pyspark --master local[5] from pyspark import SparkContext, SQLContext, SparkConf from math import sqrt from pyspark.sql.functions import monotonically_increasing_id
提纲
高斯混合模型简介高斯混合模型实现
Python 进行GMM实践
• 系统准备：centos6.8、Spark 2.3.1、Pyrhon3.X • 数据准备：采用UCI机器学习库中的wine数据集作为算法数据，包括了三种酒中13种不同成分的数
量。成分分别为：Alcohol，Malicacid，Ash，lcalinity of ash，Magnesium，Total phenols， Flavanoids，Nonflavanoid phenols，Proanthocyanins，Color intensity，Hue，OD280/OD315 of diluted wines，Proline。在 “wine.data”文件中，每行代表一种酒的样本，共有178个样本；一共有14列，其中，第一列为类标志属性，共有三类，分别记为“1”，“2”，“3”；后面的13列为每个样本的对应属性的样本值。第1类有59个样本，第2类有71个样本，第3类有48个样本。本例实验是聚类，所以我们不用第一列的数据 • 建模目的：训练GMM聚类器，使得知道13个特征后，对样本进行聚类。
# 初始化sparkContext conf = SparkConf().setMaster("local").setAppName("My KmeansDemo") sc = SparkContext(conf=conf) sqlContext = SQLContext(sc)
# 读取数据 df_wine = sc.tne数据集.txt").map( lambda x: str(x).split(",")).map(lambda x: [float(z) for z in x])
实例：展示数据
# 本地数据转换为RDD df_wine_rdd = sqlContext.createDataFrame(df_wine)
# 展示数据 df_wine_rdd.show()
实例：数据整理，标准化
# 去掉第一列，第一列为类别，我们不关注，我们假设不知道类别，用聚类的方式让数据聚类 df_wine_rdd = df_wine_rdd.drop("_1")
高斯混合模型的应用
GMM常用于聚类。如果要从 GMM 的分布中随机地取一个点的话，实际上可以分为两步：首先随机地在这 K 个 Component 之中选一个，每个 Component 被选中的概率实际上就是它的系数πk ，选中 Component 之后，再单独地考虑从这个 Component 的分布中选取一个点就可以了──这里已经回到了普通的 Gaussian 分布，转化为已知的问题。将GMM用于聚类时，假设数据服从混合高斯分布（Mixture Gaussian Distribution），那么只要根据数据推出 GMM 的概率分布来就可以了；然后 GMM 的 K 个 Component 实际上对应K个 cluster 。根据数据来推算概率密度通常被称作 density estimation 。特别地，当我已知（或假定）概率密度函数的形式，而要估计其中的参数的过程被称作『参数估计』。
# 合并所有列，构建spark向量 import pyspark.ml.feature as ml_feature
cols = df_wine_rdd.columns vectorAssembler = ml_feature.VectorAssembler().setInputCols(cols).setOutputCol("cols") wine_Vc = vectorAssembler.transform(df_wine_rdd)