1机器学习-机器学习应用快速入门

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
奇异值分解(SVD) 主成分分析(PCA) 神经网络自动编码器(Neural nets auto encoders)
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
无监督学习是指,通过数据分析从没有标签的数据中发现隐藏 的结构。由于数据不带有标签,所以我们无法通过误差测量对学过 的模型做评价。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
了解一个值缺失的原因至关重要,这些原因可 能是多方面的, 比如随机误差、系统误差、传感器噪声等。一旦找到缺失原因,就 可以采用多种 方法处理缺失值,常见处理方法如下。
填充缺失值
1、移除实例:如果有足够多的数据,并且其中只有几个非相关实例 有一些缺失值,那么移除这些实例是安全的。 2、移除属性:当大部分值缺失、值为常量,或者当前属性与另一个 属性有强相关关系时,移除该属性是有意义的。 3、指派为特殊值N/A:有时缺失值是由正当理由引起的,比如值超 出指定范围、离散属性值 未定义、无法获取或测量得到的值一一这 个值也可能是指示器(indicator)。比如,一个人从来不评价电影 ,那么他对这部电影的评分就不存在。 4、填入属性平均值:如果拥有的实例数量有限,那么不能移除实例 或属性。 这种情况下,我们可以对缺失值进行估算,比如把属性的 平均值或相似实例的平均值作为缺失值进行 填充。 5、依据其他属性值进行预测:如果属性有时间依赖关系,那么可以 根据之前的已有值预测 缺失值。
数据清洗(数据整理、数据清理)
1、识别不准确、不完整、不相关、已损坏的数据,并在进一步处理 之前移除; 2、分析数据,提取感兴趣的信息,或者验证数据格式是否合法; 3、将数据转换为常见的编码格式,比如utf8、 int32、 时标或者 标准范围; 4、将数据转换为常见数据模式,比如如果收集的温度数据来自不同 类型的传感器,那么可能需要将其变换为具有相同结构的数据。
查找相似项目 如果两个项目相距非常近,就可以将其视为是类似的。主要问
题是如何表示每个项目,以及 如何定义项目之间的距离。距离测量 主要有两类:一类是欧氏距离,另一类是非欧距离。
欧式距离 它是最常用的距离度量,用于度量三维空间中的两个元素相距
多远。它是两个元素在每个维度上差的平方和的平方根
1.学习目标 2.数据与问题的定义 3.数据收集 4ຫໍສະໝຸດ Baidu数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
非欧距离 非欧距离基于元素的属性,而非它们的空间位置。其中较为著
名的有杰卡德距离、余弦距离、编辑距离、汉明距离。
余弦距离 余弦距离通常用于高维特征空间,比如文本挖掘。一个文本文
档代表一个实例,特征对应于不同单词,它们的值对应于单词在文 档中出现的次数。通过计算余弦相似度,我们能够了解两个文档内 容的相似程度。
1、决策树学习:决策树可以可视化并以明确的方式 表示预测模型,这让 它成为一个很透明(白箱)的分类器。比较有名的算法有ID3与C4.5,此外 还有许多可选实现与改进算法(比如Weka中的J48).
2、概率分类器:给定一组属性值,概率分类器可以对一组类的分布进行预 测,而不预测一个确切的类。
3、核方法:通过对模型应用核技巧用核函数替代模型的特征(预测器), 可以将任意一个线性模型转换为非线性模型。可以使用核技巧的算法包括核 感知器、支持向量机(SVM)、高斯过程、PCA、典型相关分析、岭回归、谱 聚类、线性自适应过滤器等。
(1)均方误差 (2)平均绝对误 (3)相关系数:相关系数以两变量与各自平均值的离差为基础,通过两个离 差相乘反映两变量之间相关程度。若相关系数为负值,则表示弱相关;若为正值 ,则表示强相关;若为0,则表示不相关。实际值X与预测值立之间的相关系数定 义如下:
中国慕课
回归方法处理连续的目标变量,这与使用离散目标变量的 分类方法不同
线性回归模型
最基本的回归模型假定特征与目标变量之间有线性依赖关系。 这个 模型经常使用最小二乘法 进行拟合,它是使误差的平方最小的模型。
回归评估
回归中,我们从输入X预测数值Y,这些预测通常是错误的、不准确的。 我 们要问的主要问题是:这些预测值与实际值相差多少?换言之,我们要测量预测 值与实际值之间的距离。
召回率:在总正例样本(TP+FN)中被正确判定为正(TP)的正例所占比重。
常见的做法是,把两个度量值组合起来,形成F值(F-measure)作为加权平均 值;计算分数的同时考虑准确率和召回率,分数的最好值为1 ,最差值为0。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
另一个方法基于点分配。首先估计(比如随机)初始的簇中心 (即簇质心),然后将每个点分配到离它最近的簇,直到分配完所 有点。最有名的算法是K均值聚类算法。
K均值聚类算法中,把那些相互间尽可能远的点选为初始的簇中 心,或者(分层)聚集数据样本并选取离每个簇(共k个簇)中心最 近的点作为初始的簇中心。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
1、把这些属性剔除,换言之,只保留那些最看好的属性。 这个过 程称为特征选取或属性选取,具体可使用的方法有ReliefF、信息增 益、基尼指数等,它们主要面向离散属性。
2、专注于连续属性,将数据集从原始维度转换到低维空间。例如 ,假设有一组三维空间中的点,我们可以将其映射到二维空间。这 个过程中会丢失一些信息,但如果第 三个维度是不相关的,则不会 丢失很多信息,数据结构与相关性几乎都能完美保留。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
异常值是指数据中那些与其他数值相比有较大差异的数值,这 些异常值对所有学习算法都有不同程度的影响。异常值可能是极端 值,可以通过置信区域检测,并可借助阔值剔除
剔除异常值
最好的方法是数据可视化(数据可视化仅适用于低维数据)
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
分类可以处理离散类,其目标是对目标变量中的互斥值之一进 行预测。一个应用例子是做信用评估,最终预测结果是判断目标人 物的信用是否可靠。最流行的算法有决策树、朴素贝叶斯分类器、 支持向量机、神经网络以及集成算法(Ensemble Method )。
中国慕课
主要问题
它们不能处理不平衡类。对一笔信用卡交易是否为欺诈进行分 类就是不平衡类 问题的一个例子:正常交易占99.99%,欺诈仅占极小数。 对于每笔交易,分类器 将其判断为正常交易,这种准确率可达99.99%,但我们主要感兴趣的是那些极少出 现的几个分类。 准确率:被分类器判定为正的所有样本实例(TP+FP)中,被正确判断为正(TP) 的正 例样本所占比重。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
数据归约用于处理大量属性与实例,属性数对应于数据集的维 度数。具有较低预测能力的维 度不仅对整个模型的贡献率非常小, 还会带来许多危害。比如,一个拥有随机值的属性可能产生 一些随 机模式,这些随机模式会被机器学习算法识别。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
聚类 聚类技术根据某种距离度量,将类似的实例归入相应的簇。主
要思想是将类似(相互靠得很近)的实例放入同一个簇,同时让不 相似(彼此离得很远)的点位于不同的簇。
聚类算法有两个最基本的方法。第一个是分层 或凝聚方法,先 将每个点作为它自己的簇,然后不断把最相似的簇合并在一起。合 并达到预先指定的簇数时,或者待合井的簇覆盖一大片区域时,就 停止合并操作。
归一化 归一化将属性值按比例缩放,使之落入一个小的特定区间,通常是 [O,1]。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
离散化 用于将一个连续特征的范围切分为若干区间。为什么要这样?因 为有些算法,比如决策树、 朴素贝叶斯算法,更擅长处理离散属性 。最常用的选取区间(离 散化)的方法如下:
中国慕课
数据收集分为以下三部分:
•发现或观察数据。互联网和传感器收集测量数据 •生成数据。调查或者过模拟收集数据 •采样陷阱。幸存者偏差
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
用最可行的方式为机器学习算法准备数据,因为并 非所有算法都可以 用于处理缺少数据、额外属性以及非 标准值。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
数据转换技术将数据集转换为机器学习算法要求的格式,用作 机器学习算法的输入。数据转换甚至可以帮助算法学得更快,获得 更好的性能。 标准化 假设数据服从高斯分布,采用如下方式做值变换:均值为0,标准差 为1。
中国慕课
数据就是一系列测量值,表现形式多样,比如数值、 文字、 测量值、观测值、事 物描述、图像等; 测量尺度
我们为什么要关注测量尺度呢?机器学习在很大程度上依赖于数据的 统计属性,因此应该注 意每个数据类型自身具有的限制。 有些机器学习 算法只能被应用到测量尺度的一个子集上。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
➢了解数据的收集和预处理 ➢理解无监督学习和监督学习 ➢了解泛化与评估
中国慕课
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
4、人工神经网络:人工神经网络通常解决回归与分类问题,包含各种算 法以及各种问题类型的变种。比较流行的分类方法有感知器、受限破尔兹曼 机、深度信念网络(Deep Belief Network)。
5、集成学习:集成方法由一系列不同的弱模型组成,以此获得更好的预 测能力。先单独训练各个模型,然后采用某种方式将其预测组合起来,以产 生更全面的预测。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
分类评估 我们的分类器工作效果很好吗?这个分类器比另一个要好吗?在分 类中,我们计算分对与分 错的次数。 假设有两个可用的分类标签一-yes与no。
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
等宽离散化:该方法将连续变量的值域划分成k个具有相同宽度的区 间。 等频离散化:假设有N个实例,k个区间中的每一个都包含大约N/k个 实例。 最小熵(度量体系的混乱程度)离散化:该方法会递归地分割区间 ,直到区间分割引起的熵减大于熵增( Fayyad和Irani, 1993 )。
其中,前面两个方法需要手工指定区间数量,而最后一种方法 则自动设置区间数量。但后者需要分类变量,这意味着它不能用于 无监督机器学习任务
中国慕课
1.学习目标 2.数据与问题的定义 3.数据收集 4.数据预处理 5.无监督学习 6.监督学习 7.泛化与评估
中国慕课
给定一组学习样本D,用特征 X进行描述,监督学 习的目标是找到一个函数对目标变量Y进行预测。 函数 f描述特恼与类Y之间 的联系,称为模型:
监督学习算法的通用结构 1、定义任务; 2、确定机器学习算法,它会产生特定归纳偏置,即先验假 设,这是针对目标概念做出的; 3、确定得分函数与代价函数,比如信息增益、均方根误差 等; 4、确定最优/搜索方法优化得分函数; 5、找到一个函数,用以描述X与Y之间的关系。
相关文档
最新文档