机器学习期末复习

合集下载

机器学习及数据挖掘复习

机器学习及数据挖掘复习

机器学习与数据挖掘复习第一章:Introduction1. 什么是数据挖掘:数据挖掘时从大量的数据中取出令人感兴趣的知识〔令人感兴趣的知识:有效地、新颖的、潜在有用的和最终可以理解的〕。

2. 数据挖掘的分类〔从一般功能上的分类〕:a)描述型数据挖掘〔模式〕:聚类,summarization,关联规那么,序列发现。

b)预测型数据挖掘〔值〕:分类,回归,时间序列分析,预测。

3. KDD〔数据库中的知识发现〕的概念:KDD是一个选择和提取数据的过程,它能自动地发现新的、准确的、有用的模式以及现实世界现象的模型。

数据挖掘是KDD过程的一个主要的组成局部。

4. 用数据挖掘解决实际问题的大概步骤:a)对数据进展KDD过程的处理来获取知识。

b)用知识指导行动。

c)评估得到的结果:好的话就循环使用,不好的话分析、得到问题然后改良。

5. KDD过程中的角色问题:6. 整个KDD过程:a)合并多个数据源的数据。

b)对数据进展选择和预处理。

c)进展数据挖掘过程得到模式或者模型。

d)对模型进展解释和评价得到知识。

第二章数据和数据预处理1. 什么是数据:数据是数据对象和它的属性的集合。

一个属性是一个对象的性质或特性。

属性的集合描述了一个对象。

2. 属性的类型:a)标称〔nominal〕:它的值仅仅是不同的名字,只是提供足够的信息来区分对象。

例如邮政编码、ID、性别。

b)序数:序数属性的值提供足够的信息确定对象的序。

例如硬度、成绩、街道。

c)区间:对于区间属性,值之间的差是有意义的,即存在测量单位。

例如日历日期、温度。

d)比率:对于比率变量,差和比率都是有意义的。

例如绝对温度、年龄、质量、长度。

3. 用值的个数描述属性:a)离散的:离散属性具有有限惑无限可数个值,这样的属性可以是分类的。

b)连续的:连续属性是取实数值的属性。

4. 非对称属性:对于非对称属性,出现非零属性值才是最重要的。

5. 数据集的类型:a)记录型数据:每一个数据对象都是有固定数目的属性组成的。

机器学习复习总结

机器学习复习总结

机器学习复习总结选择目标函数的表示选择函数逼近算法最终设计选择训练经验第一个关键属性,训练经验能否为系统的决策提供直接或间接的反馈第二个重要属性,学习器在多大程度上控制样例序列第三个重要属性,训练样例的分布能多好地表示实例分布,通过样例来衡量最终系统的性能最终设计执行系统用学会的目标函数来解决给定的任务鉴定器以对弈的路线或历史记录作为输入,输出目标函数的一系列训练样例。

泛化器以训练样例为输入,产生一个输出假设,作为它对目标函数的估计。

实验生成器以当前的假设作为输入,输出一个新的问题,供执行系统去探索。

第二章一致,满足,覆盖的定义:一致:一个假设h与训练样例集合D一致,当且仅当对D中每一个样例<x,c(x)>都有h(x)=c(x),即Consistent(h,D)Û("<x,c(x)>ÎD)h(x)=c(x)一个样例x在h (x)=1时称为满足假设h,无论x是目标概念的正例还是反例。

当一假设能正确划分一个正例时,称该假设覆盖该正例。

变型空间(version space):与训练样例一致的所有假设组成的集合,表示了目标概念的所有合理的变型,VSH,D={hÎH|Consistent(h,D)}第三章决策树适用问题的特征:实例由“属性-值”对(pair)表示目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例ID3算法特点:n 搜索完整的假设空间(也就是说,决策树空间能够表示定义在离散实例上的任何离散值函数)n 从根向下推断决策树,为每个要加入树的新决策分支贪婪地选择最佳的属性。

n 归纳偏置,优先选择较小的树观察ID3的搜索空间和搜索策略,认识到这个算法的优势和不足假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间维护单一的当前假设(不同于第二章的变型空间候选消除算法)不进行回溯,可能收敛到局部最优每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强ID3和候选消除算法的比较ID3的搜索范围是一个完整的假设空间,但不彻底地搜索这个空间候选消除算法的搜索范围是不完整的假设空间,但彻底地搜索这个空间ID3的归纳偏置完全是搜索策略排序假设的结果,来自搜索策略候选消除算法完全是假设表示的表达能力的结果,来自对搜索空间的定义过度拟合:对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例定义:给定一个假设空间H,一个假设hÎH,如果存在其他的假设h’ÎH,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据导致过度拟合的原因1、一种可能原因是训练样例含有随机错误或噪声2、特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系避免过度拟合的方法特点及早停止树增长精确地估计何时停止树增长后修剪法被证明在实践中更成功避免过度拟合的关键:使用什么样的准则来确定最终正确树的规模,解决这个问题的方法有:训练和验证集法可用数据分成两个样例集合:训练集合,形成学习到的假设验证集合,评估这个假设在后续数据上的精度方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动验证集合应该足够大,以便它本身可提供具有统计意义的实例样本常见的做法是,样例的三分之二作训练集合,三分之一作验证集合错误率降低修剪(reduced-error pruning)n 将树上的每一个节点作为修剪的候选对象n 修剪步骤n 删除以此节点为根的子树,使它成为叶结点n 把和该节点关联的训练样例的最常见分类赋给它n 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点n 继续修剪,直到进一步的修剪是有害的为止n 数据集分成3个子集n 训练样例,形成决策树n 验证样例,修剪决策树n 测试样例,精度的无偏估计n 如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪规则后修剪(rule post-pruning)n 步骤n 从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许过度拟合发生n 将决策树转化为等价的规则集合,方法是为从根节点到叶节点的每一条路径创建一条规则n 通过删除任何能导致估计精度提高的前件来修剪每一条规则n 按照修剪过的规则的估计精度对它们进行排序,并按这样的顺序应用这些规则来分类后来的实例第四章解决反向传播算法中的过度拟合问题的方法:权值衰减n 它在每次迭代过程中以某个小因子降低每个权值,这等效于修改E的定义,加入一个与网络权值的总量相应的惩罚项,此方法的动机是保持权值较小,从而使学习过程向着复杂决策面的反方向偏置验证数据n 一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差k-fold交叉方法把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合。

苏州科技大学-机器学习复习JU_JI自整

苏州科技大学-机器学习复习JU_JI自整

一、考试题型1.选择题20题共40分2.名词解释题10题共10分3.简答题 3题共30分4.计算题 1题共20分(4小问)二、考试知识点整理1.人工智能Artificial Intelligence,简记为AI,是当前科学技术迅速发展及新思想、新理论、新技术不断涌现的形势下产生的一个学科,也是一门涉及数学、计算机科学、哲学、认知心理学和心理学、信息论、控制论等学科的交叉和边缘学科。

2.智能的定义智能是知识和智力的总和,知识是一切智能行为的基础,智力是获取知识并运用知识求解问题的能力。

3.智能特征1)感知能力2)记忆和思维能力3)学习和自适应能力4)行为能力4.机器学习机器学习(Machine Learning,ML)是机器获取知识的根本途径,也是机器具有智能的重要标志,是人工智能研究的核心问题之一。

机器学习是使计算机无需明确编程就能学习的研究领域。

5.人工智能的主要学派1)符号主义2)连接主义3)行为主义6.人工智能的主要研究内容1)知识表示:实际上是对知识的一种描述,或者是一组约定,是机器可以接受的用于描述知识的数据结构。

2)推理:指按照某种策略,从已知事实出发,利用知识推出所需结论的过程。

3)搜索与规划:搜索是指为了达到某个目标,不断寻找推理路线,以引导和控制推理,使问题得以解决的过程。

规划是一种重要的问题求解技术,是从某个特定问题状态出发,寻找并建立一个操作序列,直到求得目标状态为止的一个行动过程的描述。

4)机器学习:是机器获取知识的根本途径,也是机器具有智能的重要标志,是人工智能研究的核心问题之一。

7.机器学习分类1)监督式学习2)无监督学习3)强化学习8.监督学习与非监督学习区别1)原理不同:监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。

无监督学习指根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题的过程。

2)算法不同:监督学习的算法是通过分析已知类别的训练数据产生的。

机器学习期末试题及答案

机器学习期末试题及答案

机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。

答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。

答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。

答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。

答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。

答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。

答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。

防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。

- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。

- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。

机器学习期末测试练习题4

机器学习期末测试练习题4

1、在神经网络模型VggNet中,使用两个级联的卷积核大小为3X3,stride=1的卷积层代替了一个5X5的卷积层,如果将stride设置为2,则此时感受野为A.7X7B.9X9C.5X5D.8X8正确答案:A2、激活函数,训练过程出现了梯度消失问题。

从图中可以判断出四个隐藏层的先后顺序(靠近输入端的为先,靠近输出端的为后)分别为A.DBCAB.ABCDC.ADCB正确答案:D3、在网络训练时,loss在最初几个epoch没有下降,可能原因是B.以下都有可能C.正则参数过高D.陷入局部最小值正确答案:B4、假设有一个三分类问题,某个样本的标签为(1,0,0),模型的预测结果为(0.5,0.4,0.1),则交叉熵损失值(取自然对数结果)约等于A.0.6C.0.8D.0.5正确答案:B5、IoU是物体检测、语义分割领域中的结果评测指标之一,上图中A框是物体的真实标记框,面积为8。

B框是网络的检测结果,面积为7。

两个框的重合区域面积为2。

则IoU的值为A.2/8B.2/13C.2/7D.2/15正确答案:B6、Gram矩阵是深度学习领域常用的一种表示相关性的方法,在风格迁移任务中就使用风格Gram矩阵来表示图像的风格特征,以下关于风格Gram矩阵的论述正确的是A.风格Gram矩阵的大小与输入特征图的通道数、宽、高都不相关B.风格Gram矩阵的大小只与输入特征图的通道数相关C.风格Gram矩阵的大小与输入特征图的通道数、宽、高都相关D.风格Gram矩阵的大小只与输入特征图的宽、咼有关正确答案:B7、现使用YOL0网络进行目标检测,待检测的物体种类为20种,输入图像被划分成7*7个格子,每个格子生成2个候选框,则YOL0网络最终的全连接层输出维度为A.1078B.980C.1470D.1960正确答案:C二、多选题1、池化层在卷积神经网络中扮演了重要的角色,下列关于池化层的论述正确的有A.池化操作具有平移不变性B.池化操作可以实现数据的降维C.池化操作是一种线性变换D.池化操作可以扩大感受野2、以下关于MaxPooling和MeanPooling的论述正确的有A.尺度为(2,2),stride=2的MaxPooling层在梯度后向传播中,后层的梯度值传递给前层对应的最大值位置。

机器学习期末常考简答题

机器学习期末常考简答题

1.什么是偏差与方差?泛化误差可以分解成偏差的平方加上方差加上噪声。

偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响,噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界,刻画了问题本身的难度。

偏差和方差一般称为bias和variance,一般训练程度越强,偏差越小,方差越大,泛化误差一般在中间有一个最小值,如果偏差较大,方差较小,此时一般称为欠拟合,而偏差较小,方差较大称为过拟合。

2.采用EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?用EM算法求解的模型一般有GMM或者协同过滤,k-means其实也属于EM。

EM算法一定会收敛,但是可能收敛到局部最优。

由于求和的项数将随着隐变量的数目指数上升,会给梯度计算带来麻烦。

3.SVM、LR、决策树的对比?模型复杂度:SVM支持核函数,可处理线性非线性问题;LR模型简单,训练速度快,适合处理线性问题;决策树容易过拟合,需要进行剪枝损失函数:SVM hinge loss; LR L2正则化; adaboost 指数损失数据敏感度:SVM添加容忍度对outlier不敏感,只关心支持向量,且需要先做归一化;LR 对远点敏感数据量:数据量大就用LR,数据量小且特征少就用SVM非线性核.4.GBDT 和随机森林的区别随机森林采用的是bagging的思想,bagging又称为bootstrap aggreagation,通过在训练样本集中进行有放回的采样得到多个采样集,基于每个采样集训练出一个基学习器,再将基学习器结合。

随机森林在对决策树进行bagging的基础上,在决策树的训练过程中引入了随机属性选择。

传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性,而随机森林则是对结点先随机选择包含k个属性的子集,再选择最有属性,k作为一个参数控制了随机性的引入程度。

2023机器学习与Python复习 题集附答案

2023机器学习与Python复习 题集附答案

2023机器学习与Python复习题集附答案2023机器学习与Python复习题集附答案第一章:机器学习基础1. 机器学习的定义及应用领域机器学习是指从数据中自动学习模型的一类算法和方法。

它通过对已有数据的分析和学习,用于帮助计算机系统实现自动化学习和预测,进而应用于各个领域,如图像识别、自然语言处理、推荐系统等。

2. 机器学习的分类及常用算法机器学习可以分为监督学习、无监督学习和增强学习。

常用的监督学习算法包括线性回归、逻辑回归、决策树、随机森林等;无监督学习算法包括聚类、关联规则挖掘等;增强学习包括Q-learning、蒙特卡洛树搜索等。

3. 机器学习的基本流程机器学习的基本流程包括数据采集与预处理、特征工程、模型选择与训练、模型评估与优化等步骤。

数据采集与预处理是为了获得高质量的数据,特征工程则是对原始特征进行筛选、提取和转换,模型选择与训练是选择适当的模型并对其进行训练,模型评估与优化则是根据评估指标对模型进行优化。

第二章:Python基础1. Python的特点及应用场景Python是一种高级编程语言,具有简洁易读、易学易用、跨平台等特点。

它被广泛应用于数据科学、人工智能、Web开发、网络爬虫等领域。

2. Python语言的基本语法和数据类型Python的基本语法包括变量赋值、条件语句、循环语句等。

Python的常用数据类型有整型、浮点型、字符串、列表、元组、字典等。

3. Python常用库及其功能Python有丰富的第三方库,如NumPy、Pandas、Matplotlib、Scikit-learn等。

NumPy提供对多维数组的快速操作;Pandas提供了数据处理和分析工具;Matplotlib用于数据可视化;Scikit-learn包含了各种机器学习算法。

第三章:机器学习算法1. 线性回归算法及其应用场景线性回归是一种监督学习算法,用于建立自变量和因变量之间的线性关系模型。

它可以用于预测房价、销售额等连续数值型的问题。

《机器学习》期末考试试卷附答案

《机器学习》期末考试试卷附答案

《机器学习》期末考试试卷附答案一、选择题(每题5分,共25分)1. 机器学习的主要目的是让计算机从数据中____,以实现某些任务或预测未知数据。

A. 抽取特征B. 生成模型C. 进行推理D. 分类标签答案:B. 生成模型2. K-近邻算法(K-NN)是一种____算法。

A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习答案:A. 监督学习3. 在决策树算法中,节点的分裂是基于____进行的。

A. 信息增益B. 基尼不纯度C. 均方误差D. 交叉验证答案:A. 信息增益4. 支持向量机(SVM)的主要目的是找到一个超平面,将不同类别的数据点____。

A. 完全分开B. 尽量分开C. 部分分开D. 不分开答案:B. 尽量分开5. 哪种优化算法通常用于训练深度学习模型?A. 梯度下降B. 牛顿法C. 拟牛顿法D. 以上都对答案:D. 以上都对二、填空题(每题5分,共25分)1. 机器学习可以分为监督学习、无监督学习和____学习。

A. 半监督B. 强化C. 主动学习D. 深度答案:A. 半监督2. 线性回归模型是一种____模型。

A. 线性B. 非线性C. 混合型D. 不确定型答案:A. 线性3. 在进行特征选择时,常用的评估指标有____、____和____。

A. 准确率B. 召回率C. F1 分数D. AUC 值答案:B. 召回率C. F1 分数D. AUC 值4. 神经网络中的激活函数通常用于引入____。

A. 非线性B. 线性C. 噪声D. 约束答案:A. 非线性5. 当我们说一个模型具有很好的泛化能力时,意味着该模型在____上表现良好。

A. 训练集B. 验证集C. 测试集D. 所有集答案:C. 测试集三、简答题(每题10分,共30分)1. 请简要解释什么是过拟合和欠拟合,并给出解决方法。

2. 请解释什么是交叉验证,并说明它的作用。

答案:交叉验证是一种评估模型泛化能力的方法,通过将数据集分成若干个互斥的子集,轮流用其中若干个子集作为训练集,其余子集作为验证集,对模型进行评估。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习是怎样的学科:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

机器学习主要分为两大类:监督学习、非监督学、强化学习(AlphaGo)、半监督学习。

机器学习所要研究的主要内容是关于计算机在从数据中产生“模型”的算法,即“学习算法”。

(有了学习算法,我们把经验提供给它,他就能基于这些数据产生模型)。

学习的特点:数据驱动,以方法为中心,概率统计优化为基础。

从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。

训练过程中使用的数据称为“训练数据”,每一个样本称为“训练样本”,训练样本组成的集合称为“训练集”。

三要素:模型、策略、算法。

学得模型后,使用其进行预测得过程称为“测试”。

被测样本称为“测试样本”。

机器学习的目标是使学得的模型能很好地适用于“新样本”。

独立同分布学得模型适用于新样本的能力,称为“泛化”能力。

具有强泛化能力的模型能很好地适用于整个样本空间。

“奥卡姆剃刀”原则,是一种常用地、自然科学研究中最基础地原则,即“诺有多个假设与观察一致,则选最简单地那个”。

(采用这个原则,则所描绘地曲线更平滑,更简单)。

20世纪50年代-70年代初,人工智能处于“推理期”。

20世纪70年代中期开始,人工智能进入“知识期”。

20世纪80年代:被研究最多的应用最广的是“从样本中学习”,其中的两个主流技术:符号主义学习(决策树,ILP:归纳逻辑程序设计),基于神经网络的连接主义学习20世纪90年代中期:统计学习:代表性技术,支持向量机21世纪以来,连接主义学习“深度学习”即很多层的神经网络1980年夏,美国卡耐基梅隆大学举办了第一届机器学习研讨会(IWML)。

同年《策略分析与信息系统》连出三期机器学习专辑。

1986年,第一本机器学习专业期刊Machine Learning创刊。

1989年,人工智能领域地权威期刊Artificial Intelligence出版机器学习专辑。

2006年,卡耐基梅隆大学宣告成立世界上第一个“机器学习系”。

经验误差:学习器在训练集上的误差称为“训练误差”或“经验误差”。

泛化误差:在新样本上的误差称为“泛化误差”。

“测试误差”作为泛化误差的近似。

模型评估时用来测试模型的数据集叫什么集:A训练集B测试集C评估集D验证集(训练集是用来训练模型的,通过尝试不同的方法和思路使用训练集来训练不同的模型,再通过验证集使用交叉验证来挑选最优的模型,通过不断的迭代来改善模型在验证集上的性能,最后再通过测试集来评估模型的性能。

将一个数据集D分为训练集S和测试集T的方法:留出法:直接将数据集D划分为两个互斥的集合,其中一个作为S一个作为T。

注意点:训练/测试集的划分要尽可能保持数据分布一致。

单次使用留出法得到的估计结果往往不够稳定可靠。

一般采用若干次随机划分、重复进行实验评估后取平均值作为结果。

常见做法是将大约2/3~4/5的样本用于训练剩余样本用于测试。

保留类别比例的采样方式通常称为“分层采样”。

交叉验证法:(可能大题)将数据集D划分为k个大小相似的的互斥子集,每个子集尽可能保持数据分布的一致性,即通过分层采样得到。

然后每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集并进行K次训练和测试。

例如:5折交叉验证,D分为D1~D5,第一次取4个子集的并集,D2-D5作为训练集,D1作为测试集。

第二次取D1、D3、D4、D5的并集作为训练集,D2作为测试集。

以此类推,最后将5次测试结果平均得到返回结果。

其中,如果D一共有m个样本,k=m,则得到交叉验证法的特例:留一法。

因为m个样本只有唯一的划分方式,即划分为m个子集,每一个子集只有一个样本。

这样所用的训练集只比原数据少一个样本。

留一法的优点:评估结果往往被认为比较精确(并非最精确),缺点:数据集较大时,训练m个模型的计算开销可能难以忍受。

自助法:(这种方法有一些样本永远取不到)建立一个新的数据集D’在D中随机取一个样本复制到D’中,进行m次后,D’中的样本数量和D一样,这时将D’作为训练集D\D’(表示D中不包括D’的部分)作为测试集。

因为是复制到D’中所以D中的一部分样本会取不到,则不被取到的概率为(1-1/m)^m取极限得到=1/e≈0.368,即数据集D中约有36.8%的样本未出现在D’中。

得到结果也称为“包外估计”。

在数据集较小、难以有效划分训练/测试集时很有用此外,自助法能从初始数据集中产生多个不同的训练集,对集成学习有很大好处。

但是自助法改变了初始数据集的分布,这会引入估计偏差。

所以数据足够多的时候其他两种方法更加常用。

错误率与精度错误率:分类错误的样本占样本总数的比例。

精度:分类正确的样本数占样本总数的比例。

查准率、查全率与F1认为是正例的样本中:真正例 TP 假正例 FP认为是假例的样本中:假反例 FN 真反例 TN查准率P:TP/(TP+FP) 即在查到的正例中正确的占比。

查全率R:TP/(TP+FN) 即在所有正确的例子中查到的正例的占比。

一般来说,查准率高,查全率偏低,查全率高,查准率偏低。

根据这一现象可以得到“P-R曲线”,当R(X轴)相同时,P(Y轴)越大越好。

曲线和P=R 的直线的交点称为平衡点。

越大越优。

因为平衡点过于简化,所以用F1来衡量优劣:F1=(2*P*R)/(P+R)=(2*TP)/(样本总数+TP-TN)=>1/F1=1/2*(1/P+1/R)有时因为场景的需要,可能回偏向查全率或者查准率,则有了F1的变形:FβFβ=((1+β²)*P*R)/((β²*P)+R)当β=1时,则为标准的F1;β>1时查全率有更大影响;β<1时查准率有更大影响。

线性模型:给定d个描述x=(x1;x2x3...xd)(例如西瓜颜色、形状2个描述,d=2),xi是x在第i个属性上的取值(即颜色=x1;形状=x2)。

从而有线性模型的基本形式 f(x)=w T x+b 加粗表示向量线性回归这里的数据集为D={(x1,y1),(x2,y2),...,(x m,ym)},其中x i=(xi1,xi2,...,xid)即线性模型的描述。

此处的y应该是判断结果,我猜测为正确答案。

简单化xi,将其中的值缩减到1个,则D={(xi,yi)}i=1m。

同时,若属性间存在“序”,并且为离散值,则可以将输入变为类似身高=>{1,0}其中1表示高,0表示矮。

如果不存在“序”关系,k个属性就用k维向量表示。

线性回归目的是求出f(x)=w T x+b的函数使得带入的值经过函数计算后得到的f(x)与预测的y近似。

所以为了近似,则需要做差最小。

使用均方误差得到:(w*,b*)=arg minΣ(i=1~m) (f(xi)-yi)²不方便同时做上下标简单表示=arg minΣ(i=1~m) (yi-wxi-b)²这里我理解的是承接上面简化属性值仅有一个分别对w和b做偏导得到书上P51的3.5和3.6,然后两个式子=0,解后得到3.7和3.8的解。

(过程作业有写,需要熟悉)此时如果使用原本的数据集,而不简化,即f(x)=w T x+b≈yi 称为“多元线性回归”最小二乘法就是通过使两个式子的均方误差最小化,来求得函数的未知值。

来近似标准函数,可以百度关键词“最小二乘法”,其中原理的部分较好理解。

对数线性回归:即之前的线性回归是为了逼近y值,如果要使得函数逼近与y相关的值,例如lny,就是改变指数尺度=>lny=w T x+b 这一式子则称为对数线性回归,本质是使得e底的w T x+b逼近y。

该式子在本质上仍然是线性回归。

P56 图3.1 表现得较为明显。

如果有g(.)使得y=g-1(w T x+b)这样得到得模型称为“广义线性模型”,函数g(.)称为“联系函数”,则对数线性回归是广义线性模型在g(.)=ln(.)时得特例。

我这里认为g(.)中.表示输入值。

对数几率回归:是分类问题通过找一个单调可微函数g(.)将分类任务的真实标记y与线性回归模型的预测值f(x)联系起来。

设预测值z=w T x+b 则将z的值通过“单位越阶函数” P57 (3.16) 与输出标记y一致。

即通过g(.)获取到的函数为P57 图3.2 中的黑线。

红色部分则为判断的输出标记。

因为希望函数值接近0或1,所用用y=1/1+e-z作为“替代函数”且可微。

带入z=w T x+b,得到P58 (3.18) (3.19)则为了求“对数几率”,最后就是求ln(y/1-y),将y和1-y分别视为为1和为0的概率,则有P59 (3.23) (3.24) 作业有相关内容。

熵模型:百度内容:给定一个概率分布,则熵的定义为:Hp=−p(x)logp(x)放到作业中即 -plnq 大致意思是要求一个函数的最小值就取它的负,这样反过来求它的最大值。

线性判别分析:是一种经典的线性学习方法,再二分类问题上提出。

简称LDA:给定训练集例集,设法将样例投影到一条直线上,使得同类的样例的投影尽可能得靠近,异类样例尽可能远离;对新样本进行分析时,将样本投影到这条直线上,再根据位置判断类别。

快速判断是否可以线性可分:将两类样本包起来,类似连接每类样例的最外层样本,形成一个封闭的图形,如果两个类别不重叠,则可以线性可分,反之不可。

多类别学习:有些二分类学习方法可直接推广到多分类,但是再更多情形下,我们是基于一些基本策略,利用二类学习器来解决多分类问题。

即多次利用二分类来解决多分类。

最经典的拆分策略有三种:“一对一”(OvO),“一对其余”(OvR)和“多对多”(MvM)。

OvR只需要N个分类器,OvO需要N(N-1)/2个分类器。

通常,OvO的存储开销和测试时间开销比OvR更大,但是OvO每次只用到两类样例,OvR则是全部样例。

所以在类别多的的情况下OvO的训练时间开销通常比OvR更小。

取决于具体数据分布。

P64 图 3.4 (大题)信息增益:信息熵:是度量样本集合纯度最常用的一种指标。

集合D的信息熵定义为Ent(D) 值越小表示纯度越高。

神经元模型:“M-P神经元模型” P97 图5.1 xi为输入 y为输出 Wi为对应xi的连接权重激励函数:类似神经传播,当一个电位超过一定值,则激活神经元,从而进行再传递。

类似地接收到带权重地输入信号,将总输入值和阀值进行比较,然后通过“激励函数”处理产生输出。

所以这里地激励函数最好是跃阶函数(即只有y=1或y=0)但是实际用Sigmoid函数将值压缩在0-1之间。

(1表示兴奋,0表示抑制)把许多个这样地神经元按一定地层次结构连接起来,就得到了神经网络。

感知机和多层网络:要求会计算“与”、“或”、“非”:这里用跃阶函数计算。

相关文档
最新文档