机器学习总结一算法公式的向量化实现vectorization

合集下载

机器学习之正规方程法

机器学习之正规⽅程法
前⾔以下内容是个⼈学习之后的感悟，转载请注明出处~
正规⽅程法
⼀、函数参数向量化
在计算机中，我们需要⽤同样的算法计算⼤量数据样本时，⼀般有两种⽅式：循环、参数向量化。

循环~，可想⽽知，计算量不是⼀般的⼤，不建议。

参数向量化的效率就⾼多了，把全部样本转换为向量，⼀次执⾏就搞定了。

具体向量化⽅法，如下图所⽰，以线性回归⽅程h θ(x)=θ0+θ1x 1为例，最终转换为θ的等价公式，为正规⽅程法做好准备。

（注：X 为样本矩阵，每⼀⾏为特征向量x 的转
置）看到这⾥，相信很多童鞋的内⼼是崩溃的，上⾯这个公式是怎么来的，你倒是讲清楚啊~ 推导过程如下：
1、这是4个样本的特征向量，每个样本的输出值h θ(x)=θT x 。

2、特征向量组合成样本矩阵X
3、输出值向量y=X θ(学过矩阵论的童鞋都能看得出来这是怎么来的，我就不多说了)
⼆、正规⽅程法
直接根据上图中的θ等价公式，采⽤所给样本，进⾏矩阵运算即可。

注意：由于矩阵的特殊性，以下三点需要谨慎对待。

矩阵（X T X）不可逆
原因1：所求参数⼤于样本数。

措施：增加样本数。

原因2：特征值太多。

措施：删除⼀些冗余的特征值。

样本量n太⼤
矩阵求逆的计算复杂度为O(n3)，当样本量太⼤时，计算量过⼤，此时，不建议采⽤正规⽅程法。

函数太复杂
此时⽆法使⽤正规⽅程法。

以上是全部内容，如果有什么地⽅不对，请在下⾯留⾔，谢谢~。

向量量化编码法

k=wxh
向量量化編碼法(VQ ,Vector Quantization)
尋找最接近的編碼字
輸入向量 X 編碼簿 C, 包含K個編碼字 {Yi} 則最接近的編碼字 Yj定義如下:
|| X-Yj ||2 || X-Yi ||2 for all YiC 其中 X=(x1, x2, … XL) 且 ||X||2 = xi2
其他邊緣吻合向量量化法
ห้องสมุดไป่ตู้
分類邊緣吻合向量量化法 Variable-rate SMVQ with a block classifier (CSMVQ)
以樣式為基礎的SMVQ Pattern-based SMVQ (PSMVQ)
標準VQ編碼法~~Full search
標準編碼的做法相當直接，將每個編碼字的向量一一計算它們之間的距離 (Euclidean distance) ，並從中找出最接近的一組編碼字進行隻索引值來當向量的編碼。設X=(x1,x2,x3,…,xk)為欲進行編碼的一組向量，Y={Y1,Y2,…Ym}為編碼簿，其中共有i個編碼字，每個編碼自均為一個k為向量，即Yi =(yi1,yi2,yi3,…,yik) 。向量x所得的編碼為c 。
利用樹狀結構漸進的方式產生編碼簿，可以不用每次都計算編碼簿個分群重心，因此可以有效的減少計算量。
初始向量的選擇對編碼簿的結果，不會有絕對性的影響。
較LBG演算法具有更好的效能，包括編碼簿可產生較佳的壓縮品質，以及製作編碼簿所花費的時間較少等優點。
邊緣吻合向量量化法
一般的向量量化壓縮法，都是針對事先劃分好的每個區塊分別做壓縮。完全不考慮區塊間的關聯性，但是一般的影像大多具有局部相似的性質，因此有效的利用已知的相鄰區塊資料來對尚未解碼的區塊做有效的預測，可增加壓縮效率。

数据向量化方法

数据向量化方法数据向量化是一种将数据转换为向量形式的方法，通常用于机器学习和数据分析。

以下是一些常见的数据向量化方法：1. 独热编码（One-Hot Encoding）：将分类变量转换为一种形式，其中每个唯一值都有一个唯一的向量表示。

例如，对于一个包含三个类别的分类变量，可以创建一个包含三个零向量的新矩阵，其中一个向量在该类别对应的位置上为1，其余位置为0。

2. 标签编码（Label Encoding）：将分类变量转换为整数形式。

在Python 的Scikit-learn库中，标签编码的实现方式是将类别标签映射到一个整数数组。

3. 嵌入向量（Embedding Vector）：将词或短语转换为固定长度的向量。

这些向量捕获了词或短语的含义，并可以用于比较和计算相似性。

嵌入向量通常通过训练神经网络来获得。

4. 主成分分析（PCA，Principal Component Analysis）：将高维数据转换为低维数据，同时保留数据中的主要特征。

PCA通过找到方差最大的方向（主成分）来工作，并将数据投影到这些方向上。

5. 自动编码器（Autoencoder）：一种神经网络，用于学习输入数据的压缩表示和从中恢复原始数据。

自动编码器由两部分组成：编码器和解码器。

编码器将输入数据压缩为一个低维向量，解码器从这个向量中重构原始数据。

6. 矩阵分解（Matrix Factorization）：将矩阵分解为两个或多个矩阵的乘积，以提取数据的潜在特征。

在协同过滤中，矩阵分解用于发现用户的隐式特征，以便预测他们的评分或偏好。

7. 词袋模型（Bag of Words）：将文本数据转换为向量形式的一种简单方法。

它忽略了文本中的语法和单词顺序，只关注单词的出现频率。

在Bag of Words模型中，每个文档都被表示为一个向量，其中每个单词是一个维度，向量的值是单词在文档中出现的频率。

8. TF-IDF（Term Frequency-Inverse Document Frequency）：一种用于信息检索和文本挖掘的加权技术。

机器学习算法的工作原理解析

机器学习算法的工作原理解析机器学习是一门研究如何从数据中自动提取规律并进行预测的领域。

在机器学习中，算法的选择是非常重要的，因为不同的算法有着不同的工作原理和适用场景。

本文将解析几种常见的机器学习算法，包括决策树算法、支持向量机算法和神经网络算法。

决策树算法以树形结构对数据进行分类和回归预测。

它的工作原理是通过对数据集进行分割，使得每个分割节点上的数据具有相似的特征，最终形成一个决策树。

决策树的构建过程可以按照不同的准则进行，例如信息增益、基尼不纯度等。

通过决策树算法，可以方便地理解和解释模型的决策过程，并且对于处理分类和回归问题具有良好的性能。

支持向量机算法是一种非常强大的分类算法，其工作原理是将数据映射到高维空间，找到一个最优的超平面，使得不同类别的数据点尽可能地分隔开来。

在高维空间中，支持向量机通过最大化不同类别数据点之间的间隔，来构建分类边界。

此算法具有较强的泛化能力和鲁棒性，对于处理高维数据和分类问题效果显著。

神经网络算法模拟了人脑神经元的工作原理，通过构建多层神经元网络进行学习和预测。

神经网络的核心是人工神经元，每个神经元接收多个输入，并通过激活函数进行非线性变换，最终输出结果。

神经网络通过不断调整网络中的权重和偏置，来逐步优化模型的预测能力。

神经网络算法在处理复杂的非线性模式识别和分类问题上表现出色。

还有很多其他的机器学习算法，例如朴素贝叶斯算法、K近邻算法、聚类算法等，它们都有着各自独特的工作原理和适用场景。

朴素贝叶斯算法基于贝叶斯定理和特征条件独立假设，适用于文本分类和垃圾邮件过滤等问题。

K近邻算法则是基于数据样本的相似度进行分类和回归预测，适用于处理数据密集的问题。

聚类算法则是将相似的数据点进行分组，适用于无监督学习和数据分析。

总之，机器学习算法的工作原理可以归纳为通过对数据的分析和学习来提取特征和规律，并应用于预测和分类等任务中。

不同的算法有着不同的工作原理和优势，选择合适的算法对于解决具体问题和提高模型性能至关重要。

向量归一化法

向量归一化法向量归一化法（VectorNormalization）是一种数学处理方法，可用于减少向量的规模，从而获得更有效的结果。

它也被称为规范化，是一种可以将无量纲特征变成有量纲特征的技术。

这个方法可以应用于在特征空间中对比不同类型的数据，从而更容易判断出最重要的特征并为不同的模型归一化参数。

向量归一化的基本原理是，使用标准化技术来调整向量的大小，使它们的长度都相同，并且有相同的方向。

标准化技术可以将任意规模的向量缩放到指定大小，而方向可以由向量的定义推断而得，所以向量归一化技术不会改变向量的方向和角度，只会改变它们的大小。

向量归一化技术具有很多优点。

首先，它能减少特征维度，同时又保留了特征之间的关系，从而减少计算量；其次，它可以提升在特征空间的分辨能力；最后，它可以提升模型的准确性，并可以更容易地进行特征选择。

在实际应用中，常见的向量归一化技术有以下几种：最大最小归一化法、Z-Score归一化法、L1归一化法和L2归一化法。

最大最小归一化法将特征值调整到一定范围内，最常被使用的情况是将特征值调整到[0,1]或者[-1,1]范围内；Z-Score归一化法将特征值调整到均值为0，标准差为1的范围内；L1归一化法将特征值调整到某一常量的绝对值之和（例如：1）；L2归一化法将特征值调整到某一常量的平方和（例如：1）。

向量归一化法是一种常用的数据预处理技术，它可以将不同范围的特征值转换到相同的范围内，同时又可以保留原始数据特征之间的关系。

因此，未经向量归一化处理的特征值可能受到较大的改变，导致其他模型拟合受到影响，而对于有效的特征选择，向量归一化技术的应用可以更有效的选择更高质量的特征。

此外，向量归一化以及该技术可以用于更有效的特征比较，从而实现特征的转换。

总的来说，向量归一化法是一种非常有用的数学处理方法，它可以用来减少向量的规模，同时又可以保留特征之间的关系，从而提升特征空间的分辨能力、模型的准确度以及特征选择的能力。

机器学习中的支持向量机原理及优化方法

机器学习中的支持向量机原理及优化方法支持向量机（Support Vector Machine，SVM）是一种非常常用的机器学习算法，主要用于分类和回归问题。

它的基本原理是通过在特征空间中找到一个最佳的超平面，来实现对数据样本的分类。

SVM算法的优化方法包括凸优化、核函数和软间隔最大化。

SVM的原理是基于统计学习理论和结构风险最小化原则。

它的基本思想是将输入空间中的样本点映射到高维特征空间中，并在特征空间中找到一个最佳的超平面，使距离超平面最近的样本点到超平面的距离最大化。

通过这样的方式，能够得到一个能够很好地区分不同类别的分类器。

SVM算法的优化方法主要包括凸优化、核函数和软间隔最大化。

首先，凸优化是SVM算法的核心思想。

SVM的目标是寻找一个最佳的超平面，使得所有样本点到超平面的距离最大化。

这个距离被称为间隔（margin），表示了样本点分类的可靠性。

凸优化的目标是在满足约束条件（样本点到超平面的距离大于等于间隔）的情况下，找到一个最大间隔的超平面。

这个问题可以转化为一个二次规划问题，通过求解约束最优化问题可以得到最佳的超平面。

其次，核函数是SVM算法的另一个重要组成部分。

在实际应用中，往往需要处理高维甚至是无限维的特征空间。

为了避免计算复杂度过高，我们可以使用核函数将高维特征空间的运算转化为低维特征空间的运算。

核函数的作用是将输入样本点映射到特征空间中，并通过计算这些样本点在特征空间中的内积来计算它们之间的相似度。

常用的核函数有线性核、多项式核、高斯核等，可以根据具体问题选择合适的核函数。

最后，软间隔最大化是SVM算法的一种改进。

在实际应用中，样本点很可能不是完全线性可分的，即使找到了一个超平面，也可能存在分类错误的样本点。

为了避免过拟合和提高模型的鲁棒性，可以引入一定的分类误差容忍度，允许某些样本点被错误地分类。

软间隔最大化的目标是在凸优化问题的基础上，找到一个最佳的超平面，使得同时最大化间隔和最小化分类误差。

vector 实现原理

vector 实现原理
vector的实现原理是基于动态数组的数据结构。

其内部使用连
续的内存来存储元素，并能够动态地调整大小。

vector在内存
上是连续的，因此支持随机访问和高效的元素操作。

当向vector中插入新元素时，vector会先检查是否有足够的空
间来存储新元素。

如果现有的内存空间不够，vector会重新分
配一块更大的内存空间，并将现有元素复制到新的内存空间中。

然后，新元素会被插入到vector的末尾。

这个过程称为重新分配。

当需要从vector中删除元素时，vector会将要删除的元素之后
的所有元素向前移动，覆盖要删除的元素，并更新vector的大小。

这个过程称为擦除。

擦除元素后，vector的大小会减小，
但未释放的内存空间仍然保留，以备以后的插入使用。

vector还提供了其他常见的操作，如在指定位置插入元素、在
指定位置删除元素、获取vector的大小、判断vector是否为空等。

这些操作都是通过指针和指针运算来实现的，以保证高效的性能。

总之，vector实现原理的关键在于动态地管理内存空间，并通
过指针和指针运算来实现元素的插入、删除和访问操作。

这使得vector成为一种高效的动态数组数据结构。

机器学习算法的原理解析

机器学习算法的原理解析机器学习算法是人工智能领域的重要组成部分，通过自动学习和优化，使计算机系统能够从大量数据中提取规律和模式，并可以用于预测和决策。

本文将对机器学习算法的原理进行解析。

一、监督学习算法监督学习算法是机器学习中最常见的方法之一。

其基本思想是通过训练数据集，找到输入与输出之间的关系，从而预测未知数据的输出。

常见的监督学习算法包括线性回归、逻辑回归、决策树、支持向量机等。

1. 线性回归线性回归是一种用于建立输入与输出之间线性关系的监督学习算法。

它通过找到最佳拟合直线或超平面，使得预测值与真实值之间的误差最小化。

线性回归可以用于解决回归问题，如房价预测等。

2. 逻辑回归逻辑回归是一种用于建立二分类模型的监督学习算法。

它通过将线性回归结果经过一个sigmoid函数进行映射，将输出限制在0到1之间，从而表示样本属于某一类的概率。

逻辑回归在广告点击率预测、风险评估等方面有广泛应用。

3. 决策树决策树是一种基于树结构的监督学习算法。

它按照特征值对数据进行划分，逐步构建一个决策树模型，以实现对未知样本的分类。

决策树可解释性强，常用于识别某些特征对结果影响较大的问题。

4. 支持向量机支持向量机是一种通过在特征空间中构造最优超平面实现分类的监督学习算法。

它通过将样本向量映射到高维空间，找到能够最大化不同类别之间的间隔的超平面，并将其作为决策边界。

支持向量机在文本分类、图像识别等方面应用广泛。

二、无监督学习算法无监督学习算法是一种没有预先标注的训练数据的机器学习方法。

其目标是通过发现数据的潜在结构和模式，对数据进行聚类和降维。

常见的无监督学习算法包括聚类分析、主成分分析和关联规则挖掘等。

1. 聚类分析聚类分析是一种将相似数据样本组合成簇的无监督学习算法。

它通过计算样本间的相似度或距离，将具有相似特征的样本归为同一类别。

聚类分析在市场细分、图像分割等领域有广泛应用。

2. 主成分分析主成分分析是一种将高维数据降维到低维空间的无监督学习算法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

endfor
或者可以这样写：
Y=(labels*ones(1,m)==ones(k,1)* yT);
hΘ(X)∈IRk*m；
predicts∈IRm；
[,predicts]=max(hΘ(X));
公式：
向量化(Vectorization)：Neural network
A(j+1)=g(Θ(j)*A(j));
nu: number of users;
nm: number of movies;
r(i,j): 1 if user j has rated moviei(otherwise0);矩阵形式R;
y(i,j): rating given by user j to moviei (defined only if r(i,j)=1);矩阵形式Y;
set labels=[1;2;…;k];
labels=[1:k]T;
δi(j)=’error’of nodeiin layerj;
setp is the last layer,
hΘ(x(j))= a(p);针对m=1的情况；
δi(p)=hΘ(x(j))i-Y(i,j)= ai(p)-Y(i,j);此处Y(i,j)用yi代替会导致定义混淆；详情见维数分析
μ∈IR1*n；
∑∈IRn*n；Sgma2=∑；
sigma2=var(X);
μ=mean(X);
Sigma2=1/m*(X-μ)T*(X-μ)；
or
Sigma2=diag(sigma2);
sigma2=sum(Sigma2);
p(X)∈IRm；
II-3RecommenderSystems
Definition
a(j+1)=g(Θ(j)*a(j))；Forwardpropagation,由a(j)----a(j+1);
add a0(j+1)=1;加上常数项；
a(1)=x or x(i);
A(1)=X(T);
S1=n；
K:number ofoutputunits;
setp is the last layer,K=Sp；
θ:=θ-α/m*XT*( X*θ-y);
grad=1/m*XT*( X*θ-y);
I-2Logisticregression：
hθ(x(i))=g(θTx(i));
gis thelogisticfunction/sigmoid function.
g(z)=sigmoid(z)=1/(1+exp(-z));
Ureduce∈IRn*k;
Z∈IRm*k;
Xrec∈IRm*n;
II-2Anomalydetection
Originalmodel
向量化(Vectorization)：
p(X)=prod((((2*π*sigma2).^(-0.5)).*exp(-((X-μ).^2)./(2*sigma2))),2);
机器学习总结一算法公式的向量化实现vectorization
目录（参考octave语法）
I Supervised learning
I-1Linear regression
I-2Logistic regression
I-3Regularized logistic regression
I-4 Neural network
Delta(j-1)= Delta(j-1)(2:end,:)；把常数项去掉。
setreg_Θ(j)=Θ(j); reg_Θ(j)(:,1)=0;
Grad(j)=1/m*Delta(j+1)*( a(j))T+λ/m* reg_Θ(j)；
IIUnsupervisedlearning
II-1 PCA
Sigma=1/m*XT*X;
grad(j)=
向量化(Vectorization)：Logisticregression
hθ(X)=g(X*θ);
J(θ)=1/m*(-yT*log(hθ(X))-(1-y)T* log(1-hθ(X)));
grad=1/m*XT*(hθ(X)-y);
I-3Regularized logistic regression:
MultivariateGaussian
向量化(Vectorization)：
p(X)= (2 *π) ^ (-n/ 2) * det(Sigma2) ^ (-0.5) * ...
exp(-0.5 * sum((X-μ)* pinv(Sigma2).*(X-μ)), 2));
维数分析：
σ2∈IR1*n；sigma2=σ2；
IIUnsupervisedlearning
II-1 PCA
II-2Anomalydetection
II-3RecommenderSystems
II-4Stochasticgradientdescent
ISupervised learning：
x(i)∈IRn+1；
X∈IRm*（n+1）；
y∈IRm；
set p is the last layer,
X=[ones(m,1),X];X要加上常数项；
A(2)=g(Θ(1)*A(1))= g(Θ(1)*XT);
A(2)=[ones(1,m); A(2)];A(2)要加上常数项；和X加常数项的方向是反的。详情见维数分析；
…
hΘ(X)= A(p)=g(Θ(p-1)*A(p-1));
J(Θ)=-1/m*sum((Y.*log(hΘ(X)+(1-Y).*log(1- hΘ(X)))(:))+…
λ/(2m)*(sum(Θ(:).^2 -Θ(p-1)(:,1).^2-Θ(p-2)(:,1).^2-…
Θ(1)(:,1).^2);
Delta(p)= A(p)-Y;
Delta(j-1)= (Θ(j-1))T*Delta(j).* A(j-1).*( 1-A(j-1));
0.5*λ*sum((X.^2)(:))+...
0.5*λ*sum((Θ.^2)(:));
X_grad=((X*ΘT-Y).*R)*Θ+λ*X;
Θ_grad=((X*ΘT-Y).*R)T*X+λ*Θ;
II-4Stochasticgradientdescent
Batchgradientdescent
θ:=θ-α/m*XT*( X*θ-y);
δ(p)= a(p)-Y(:,j);
δ(p-1)= (Θ(p-1))T*δ(p).* a(p-1).*( 1-a(p-1));Backpropagationalgorithm,由δ(p)----δ(p-1);
δ(p-1)=δ(p-1)(2:end,:)；把常数项去掉。
…
δ(1)= 0;
维数分析：
a(j)∈IRSj；
grad=1/m*XT*(hθ(X)-y)+λ/m*θ.*vec1;
I-4 Neural network
Definition定义：
ai(j): unit i in layer j;
Sj: number of units(notcountingbiasunit)in layer j;
Θ(j):matrix of weights mapping from layer j to layer j+1；(不同的Θ(j)具有不同的维数，所以无法汇成一个总的矩阵Θ，但是每个Θ(j)都展开成一个向量Θ(j)(:)，最后可以汇总成一个总的向量Θ(:);梯度Grad情形类似)
θ(j)：parameter vector of user j；矩阵形式Θ;
x(i)：feature vector of movie i；矩阵形式：X；
p(i,j)=(θ(j))Tx(i); predicted rating for user j,movie i;
P=XΘT;
维数分析：
θ(j)∈IRn；
θ∈IRn+1；
J(θ)∈IR；
hθ(x(i))∈IR；
hθ(X)∈IRm；
grad∈IRn+1；
gradon：
hθ(x(i))=θTx(i);
向量化(Vectorization)：Linear regression
hθ(X)=X*θ；
J(θ)=1/(2*m)*( X*θ-y)T*( X*θ-y);
δ(j)∈IRSj；delta(j)=δ(j)；
Delta(j)∈IRSj*m；
Θ(j)∈IR（Sj+1*（Sj+1））；
Grad(j)∈IR（Sj+1*（Sj+1））；
A(j)∈IRSj*m；
y∈IRm；
labels∈IRk；
Y∈IRk*m；
for i=1:m
Y(:,i)=(labels==y(i));
向量化(Vectorization)：Regularized logistic regression
set :vec1=ones(n+1,1);vec1(1,1)=0;
J(θ)=1/m*(-yT*log(hθ(X))-(1-y)T* log(1-hθ(X)))+…
λ/(2m)*( (θ.*vec1)T*(θ.*vec1));
Stochasticgradientdescent
θ:=θ-α*( X(i)*θ-y(i)) *X(i)T;
[U,S,V]=svd(Sigma);
Ureduce=U(:,1:k);
Z=X* Ureduce;
Xrec=Z* UreduceT;Xrec:Reconstructing an approximation of the data
维数分析：