机器学习复习重点
机器学习的知识重点

机器学习的知识重点机器学习是一门涵盖统计学、人工智能和计算机科学等多个领域的交叉学科,它研究如何设计和开发能够自动学习和改进的算法和模型。
在机器学习中,有一些重要的知识点需要特别关注和掌握。
本文将介绍机器学习的知识重点,帮助读者更好地理解和应用机器学习。
一、数据预处理在机器学习中,数据预处理是一个非常重要的步骤。
它包括数据清洗、特征选择、特征变换和数据集划分等过程。
数据清洗主要是处理缺失值、异常值和重复值等问题,确保数据的质量和完整性。
特征选择是从原始数据中选择最具代表性的特征,以提高模型的性能和泛化能力。
特征变换是将原始数据转化为适合模型输入的形式,如标准化、归一化和离散化等。
数据集划分是将数据集划分为训练集、验证集和测试集,用于模型的训练、调优和评估。
二、监督学习监督学习是机器学习中最常用的一种学习方式,它通过已有的标记数据来训练模型,然后对未知数据进行预测或分类。
在监督学习中,有一些重要的算法需要了解,如线性回归、逻辑回归、决策树、支持向量机和朴素贝叶斯等。
线性回归用于建立连续型变量之间的线性关系模型,逻辑回归用于建立二分类模型,决策树用于建立基于特征划分的分类模型,支持向量机用于建立最优间隔分类模型,朴素贝叶斯用于建立基于贝叶斯定理的分类模型。
三、无监督学习无监督学习是机器学习中另一种常用的学习方式,它通过未标记的数据来学习数据的结构和模式。
在无监督学习中,有一些重要的算法需要了解,如聚类、关联规则和降维等。
聚类是将相似的样本归为一类,不相似的样本归为不同类别,常用的聚类算法有K均值聚类和层次聚类等。
关联规则是挖掘数据集中的频繁项集和关联规则,常用的关联规则算法有Apriori算法和FP-growth算法等。
降维是将高维数据映射到低维空间,常用的降维算法有主成分分析和线性判别分析等。
四、模型评估与选择在机器学习中,模型的评估和选择是非常重要的,它决定了模型的性能和泛化能力。
常用的评估指标有准确率、精确率、召回率、F1值和ROC曲线等。
机器学习复习题

机器学习复习题1. 什么是机器学习?机器学习是一种人工智能的分支,它研究如何让计算机自动地从数据中学习和改进,以完成特定任务,而无需显式地编程。
2. 机器学习的主要分类方法有哪些?机器学习可以主要分为监督学习、无监督学习和强化学习。
- 监督学习:通过给算法提供标记好的训练数据,使其能够学习预测新样本的标签或输出。
- 无监督学习:在无标签的数据集中发现数据之间的模式和结构。
- 强化学习:通过与环境进行交互,学习如何在给定环境中采取行动以获得最大的奖励。
3. 请解释下交叉验证在机器学习中的作用。
交叉验证是机器学习中常用的一种评估模型性能的方法。
它将原始数据分成训练集和验证集,然后使用训练集对模型进行训练,再使用验证集对训练好的模型进行评估和调整。
通过多次交叉验证取得的结果的平均值,可以更准确地评估模型的性能。
4. 请简要解释一下决策树算法。
决策树是一种基于树结构的机器学习算法,用于解决分类和回归问题。
它通过构建一组决策规则来进行预测。
算法从根节点开始,根据特征的取值不断分裂生成子节点,直到满足预先设定的停止条件(如纯度达到一定阈值或达到设定的树深度)。
决策树通过对特征属性的选择来进行分割,将数据集划分为纯度更高的子集,使得不同类别的样本尽量分开。
5. 请解释下过拟合和欠拟合的概念,以及如何解决这些问题。
- 过拟合:指模型在训练集上表现非常好,但在测试集或新的未见过的数据上表现较差。
这是因为模型在训练集上过度拟合了训练数据的细节和噪声。
- 欠拟合:指模型无法在训练集和测试集上都达到较好的性能,无法捕捉到数据的复杂关系。
解决过拟合的方法包括:- 增加训练数据量,使模型能更好地学习到数据的共性而不是细节。
- 减少模型的复杂度,如减少参数数量或选择简单的模型。
- 添加正则化项,如L1正则化或L2正则化,以限制模型参数的大小。
解决欠拟合的方法包括:- 增加模型的复杂度,如增加模型的隐藏层节点数或增加树的深度。
机器学习期末常考简答题

1.什么是偏差与方差?泛化误差可以分解成偏差的平方加上方差加上噪声。
偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响,噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界,刻画了问题本身的难度。
偏差和方差一般称为bias和variance,一般训练程度越强,偏差越小,方差越大,泛化误差一般在中间有一个最小值,如果偏差较大,方差较小,此时一般称为欠拟合,而偏差较小,方差较大称为过拟合。
2.采用EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?用EM算法求解的模型一般有GMM或者协同过滤,k-means其实也属于EM。
EM算法一定会收敛,但是可能收敛到局部最优。
由于求和的项数将随着隐变量的数目指数上升,会给梯度计算带来麻烦。
3.SVM、LR、决策树的对比?模型复杂度:SVM支持核函数,可处理线性非线性问题;LR模型简单,训练速度快,适合处理线性问题;决策树容易过拟合,需要进行剪枝损失函数:SVM hinge loss; LR L2正则化; adaboost 指数损失数据敏感度:SVM添加容忍度对outlier不敏感,只关心支持向量,且需要先做归一化;LR 对远点敏感数据量:数据量大就用LR,数据量小且特征少就用SVM非线性核.4.GBDT 和随机森林的区别随机森林采用的是bagging的思想,bagging又称为bootstrap aggreagation,通过在训练样本集中进行有放回的采样得到多个采样集,基于每个采样集训练出一个基学习器,再将基学习器结合。
随机森林在对决策树进行bagging的基础上,在决策树的训练过程中引入了随机属性选择。
传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性,而随机森林则是对结点先随机选择包含k个属性的子集,再选择最有属性,k作为一个参数控制了随机性的引入程度。
博士生计算机科学机器学习知识点归纳总结

博士生计算机科学机器学习知识点归纳总结随着信息时代的到来,计算机科学领域的机器学习(Machine Learning)变得越来越重要。
作为一门广泛应用于人工智能领域的学科,机器学习涉及到大量的知识点。
本文将对博士生在计算机科学领域的机器学习知识点进行归纳总结。
以下是一些重要的机器学习知识点:1. 概率论与统计学基础机器学习的基础是概率论与统计学。
博士生需要掌握概率分布、条件概率、贝叶斯定理等基本概念,了解假设检验、置信区间、参数估计等统计学的基本方法。
掌握这些基础知识可以帮助博士生理解机器学习算法的原理和应用。
2. 监督学习监督学习是机器学习中最常见也是最基础的学习方式。
博士生需要了解监督学习的基本概念、常见的分类算法(如逻辑回归、决策树、支持向量机等)以及回归算法(如线性回归、岭回归等)。
博士生还需要了解特征选择、模型评估与选择等相关技术。
3. 无监督学习无监督学习是指从无标签数据中发现隐藏的模式或结构。
博士生需要了解聚类算法(如K均值聚类、层次聚类等)和降维算法(如主成分分析、独立成分分析等)等无监督学习的基本方法。
此外,掌握异常检测和关联规则等其他无监督学习技术也是必要的。
4. 强化学习强化学习是通过观察和与环境的交互来学习最优策略的一种学习方式。
博士生需要了解强化学习的基本概念(如状态、动作、奖励和值函数等),并掌握常见的强化学习算法(如Q学习、深度强化学习等)以及策略评估和策略改进等相关技术。
5. 深度学习深度学习是机器学习领域最热门的研究方向之一。
博士生需要了解深度学习的基本概念(如神经网络、层次结构、损失函数等),并掌握深度学习常见的网络结构(如卷积神经网络、循环神经网络等)和优化算法(如梯度下降、Adam等)。
此外,对于自然语言处理、计算机视觉等领域的应用也需要有一定的了解。
6. 特征工程与模型调优在机器学习的实际应用中,特征工程和模型调优是关键的环节。
博士生需要掌握特征选择、特征提取、特征转换等技术,并了解模型评估与选择、超参数调优等相关方法。
数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支,它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。
对于学习者来说,掌握这两个领域的知识至关重要。
以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。
一、数据挖掘概述数据挖掘,简单来说,就是从大量的数据中提取出有用的信息和知识的过程。
它不仅仅是数据的收集和存储,更重要的是通过一系列的技术和方法,对数据进行深入分析和挖掘,以发现潜在的规律和趋势。
数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。
在数据分类中,我们根据已知的类别标签,将新的数据划分到相应的类别中。
聚类则是将数据按照相似性进行分组,而无需事先知道类别信息。
关联规则挖掘用于发现数据中不同属性之间的关联关系,例如购买了商品 A 的顾客往往也会购买商品 B。
异常检测则是识别出与大多数数据不同的异常值。
数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。
在数据准备阶段,需要对原始数据进行清理、转换和集成,以确保数据的质量和一致性。
数据探索阶段则通过可视化和统计分析等方法,对数据的特征和分布有一个初步的了解。
模型建立阶段选择合适的算法和模型,并使用训练数据进行训练。
模型评估通过使用测试数据来评估模型的性能,如准确率、召回率、F1 值等。
最后,将性能良好的模型部署到实际应用中。
二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。
它可以分为监督学习、无监督学习和强化学习三大类。
监督学习是在有标记的数据集上进行学习,常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。
线性回归用于预测连续值,逻辑回归用于分类问题,决策树可以生成易于理解的规则,支持向量机在处理高维数据和非线性问题上有较好的表现。
无监督学习是在无标记的数据集中寻找模式和结构,例如聚类算法(如 KMeans 聚类、层次聚类)和主成分分析(PCA)等。
机器学习期末复习题

机器学习期末复习题机器学习期末复习题机器学习是一门研究如何使计算机具备学习能力的学科。
它通过分析和理解数据,从中提取出模式和知识,并利用这些知识来进行预测和决策。
在机器学习的学习过程中,我们需要掌握各种算法和技术。
下面是一些机器学习的期末复习题,帮助大家回顾和巩固相关知识。
1. 什么是监督学习和无监督学习?请举例说明。
监督学习是一种通过已知输入和输出的样本来训练模型的学习方法。
例如,我们可以通过给计算机展示一组图片,并告诉它这些图片中的物体是什么,来训练一个图像分类器。
无监督学习则是一种没有标签的学习方法,它通过分析数据的内在结构和模式来进行学习。
例如,我们可以通过对一组顾客购买记录的分析,来发现隐藏在数据中的潜在市场细分。
2. 请简要介绍一下决策树算法。
决策树算法是一种基于树结构的监督学习算法。
它通过对数据集进行递归分割,构建一棵树来进行分类或回归。
在构建决策树的过程中,算法会选择最佳的特征进行分割,并根据特征的取值将数据集划分为不同的子集。
决策树的优点是易于理解和解释,但容易过拟合。
3. 请简要介绍一下支持向量机算法。
支持向量机(Support Vector Machine,SVM)是一种常用的监督学习算法。
它通过在特征空间中构建一个最优分割超平面,将不同类别的样本分开。
SVM的目标是找到一个最大间隔的超平面,使得样本点到该超平面的距离最大化。
SVM可以通过核函数来处理非线性分类问题。
4. 请简要介绍一下聚类算法。
聚类算法是一种无监督学习算法,它通过对数据进行分组,将相似的样本归为一类。
常用的聚类算法有K均值聚类和层次聚类。
K均值聚类是一种迭代算法,它将数据集分为K个簇,每个簇的中心是该簇中所有样本的均值。
层次聚类则是一种基于树结构的聚类方法,它通过不断合并最相似的簇来构建聚类层次。
5. 请简要介绍一下神经网络算法。
神经网络是一种模仿人脑神经元网络的计算模型。
它由多个节点(神经元)和连接它们的权重组成。
机器学习复习题及答案

一、单选题1、下列哪位是人工智能之父?()A.MarnivLeeMinskyB.HerbertA.SimonC.AllenNewellD.JohnCliffordShaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是()。
A.-致性假设B•划分C■泛化能力D•学习能力正确答案:D3、下列描述无监督学习错误的是()。
A.无标签B•核心是聚类C•不需要降维D•具有很好的解释性正确答案:C4、下列描述有监督学习错误的是()。
A.有标签B•核心是分类C•所有数据都相互独立分布D•分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?()A.经验归纳学习B■遗传算法C•联接学习D•强化学习正确答案:A6、混淆矩阵的假正是指()。
A.模型预测为正的正样本B•模型预测为正的负样本C•模型预测为负的正样本D•模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为()。
A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是()。
A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是()。
A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?()A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?()A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
机器学习期末复习题及答案

一、单选题1、在条件随机场(CRF)中,参数的学习通常使用哪种优化算法?()A.K-Means聚类B.梯度提升机(GBM)C.支持向量机(SVM)D.随机梯度下降(SGD)正确答案:D2、在概率无向图模型中,什么是团分解(Cluster Decomposition)?()A.一种通过节点之间的边传播信息,以更新节点的边缘概率的方法B.一种用于计算图的分割的算法C.一种将联合概率分布分解为多个局部概率分布的方法D.一种用于表示联合概率分布的无向树正确答案:C3、在数据不完备时,下列哪一种方法不是贝叶斯网络的参数学习方法()A.拉普拉斯近似B.最大似然估计方法C.蒙特卡洛方法D.高斯逼近正确答案:B4、在有向图模型中,什么是条件独立性?()A.给定父节点的条件下,子节点之间独立B.所有节点之间都独立C.所有节点的状态相互独立D.任意两个节点都是独立的正确答案:A5、在概率有向图模型中,节点表示什么?()A.变量B.参数C.条件概率D.边正确答案:A6、下列哪一项表示簇中样本点的紧密程度?()A.簇个数B.簇大小C.簇描述D.簇密度正确答案:D7、闵可夫斯基距离表示为曼哈顿距离时p为:()A.1B.2C.3D.4正确答案:A8、谱聚类与K均值聚类相比,对于什么样的数据表现更好?()A.低维数据B.高维数据C.线性可分数据D.高密度数据正确答案:B9、SVM适用于什么类型的问题?()A.既可用于线性问题也可用于非线性问题B.仅适用于回归问题C.仅适用于非线性问题D.仅适用于线性问题正确答案:A10、对于在原空间中线性不可分的问题,支持向量机()A.在原空间中寻找非线性函数划分数据B.无法处理C.利用核函数把数据映射到高维空间D.在原空间中寻找线性函数划分数据正确答案:C11、LDA主题模型中的alpha参数控制着什么?()A.单词分布的稀疏性B.文档-主题分布的稀疏性C.模型大小D.模型收敛速度正确答案:B12、LDA的全称是什么?()tent Dirichlet AllocationB.Linear Discriminant Analysistent Data AnalysisD.Lin Latent Dirichlet Allocation ear Data Algorithm正确答案:A13、以下对于梯度下降法中学习率lr的阐述,正确的是()A.lr小,收敛速度较快B.lr大,收敛速度较慢C.lr小,收敛速度较慢且较不易收敛D.lr大,收敛速度较快但可能导致不收敛正确答案:D14、在EM算法中,E代表期望,M代表()A.均值B.最大化C.最小化D.均方误差正确答案:B15、梯度下降中如何有效地捕捉到目标函数的全局最优?()A.调整学习速率B.增加模型复杂度C.使用梯度下降的变种算法D.增加训练样本量正确答案:C二、多选题1、下列机器学习常用算法中哪个属于分类算法?()A.K-meansB.最小距离分类器C.KNN(K近邻)D.逻辑回归正确答案:B、C、D2、下列关于决策树的说法正确的是?()A.CART使用的是二叉树B.其可作为分类算法,也可用于回归模型C.不能处理连续型特征D.它易于理解、可解释性强正确答案:A、B、D3、下列属于k近邻算法中常用的距离度量方法的是?()A.余弦相似度B.欧式距离C.曼哈顿距离D.闵可夫斯基距离正确答案:A、B、C、D4、下列属于深度模型的是?()A.DNNB.LightgbmC.LSTMD.Seq2Seq正确答案:A、C、D5、sklearn中RFECV方法分成哪两个部分?()A.RFEB.CVC.NLPD.MM正确答案:A、B6、以下关于蒙特卡洛方法描述正确的是()A.蒙特卡洛方法计算值函数可以采用First-visit方法B.蒙特卡洛方法方差很大C.蒙特卡洛方法计算值函数可以采用Every-visit方法D.蒙特卡洛方法偏差很大正确答案:A、B、C7、为什么循环神经网络可以用来实现自动问答,比如对一句自然语言问句给出自然语言回答()A.因为自动问答可以看成是一种序列到序列的转换B.因为循环神经网络能够处理变长输入C.因为循环神经网要比卷积神经网更强大D.因为卷积神经网络不能处理字符输入正确答案:A、B8、通常有哪几种训练神经网络的优化方法()A.梯度下降法B.随机梯度下降法C.小批量随机梯度下降法D.集成法正确答案:A、B、C9、隐马尔可夫模型的三个基本问题是()A.估值问题B.寻找状态序列C.学习模型参数D.状态更新正确答案:A、B、C10、在数据不完备时,贝叶斯网络的参数学习方法有()A.高斯逼近B.蒙特卡洛方法C.拉普拉斯近似D.最大似然估计方法正确答案:A、B、C11、基于约束的方法通过统计独立性测试来学习结点间的()A.独立性B.相关性C.依赖性D.完备性正确答案:A、B12、基于搜索评分的方法,关键点在于()A.确定合适的搜索策略B.确定评分函数C.确定搜索优先级D.确定选择策略正确答案:A、B13、条件随机场需要解决的关键问题有()A.特征函数的选择B.参数估计C.模型推断D.约束条件正确答案:A、B、C14、以下关于逻辑斯蒂回归模型的描述正确的是()A.针对分类的可能性进行建模,不仅能预测出类别,还可以得到属于该类别的概率B.直接对分类的可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题C.模型本质仍然是一个线性模型,实现相对简单D.逻辑斯蒂回归模型是线性回归模型正确答案:A、B、C、D15、LDA模型在做参数估计时,最常用的方法是()A.Gibbs采样方法B.变分推断C.梯度下降D.Beam search正确答案:A、B三、判断题1、关于EM算法的收敛性,EM算法理论上不能够保证收敛()正确答案:×2、多次运行,随机化初始点是对存在局部最优点的函数求解的一种方案()正确答案:√3、训练算法的目的就是要让模型拟合训练数据()正确答案:×4、循环神经网络按时间展开后就可以通过反向传播算法训练了()正确答案:√5、GIS算法的收敛速度由计算更新值的步长确定。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习复习重点
判断题(共30分,每题2分,打√或×)
1、如果问题本身就是非线性问题,使用支持向量机(SVM )是难以取得好的预测效果的。
(×)
2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。
(×)
3、深度学习中应该尽量避免过拟合。
(×)
4、在随机森林Bagging 过程中,每次选取的特征个数为m ,m 的值过大会降低树之间的关联性和单棵树的分类能力。
(×)
5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。
(√)
6、在FCM 聚类算法中交替迭代优化目标函数的方法不一定得到最优解。
(√)
7、在流形学习ISOMAP 中,测地距离即是欧氏距离。
(×)
8、贝叶斯决策实质上是按后验概率进行决策的。
(√)
9、非参数估计需要较大数量的样本才能取得较好的估计结果。
(√)
10、不需要显示定义特征是深度学习的优势之一。
(√)
判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;
问答题(共60分)
1、 从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。
监督参数估计:样本所属的类别和各类的类条件概率密度函数的形式是已知的,而表征概率密度函数的某些参数是未知的。
非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,要求判断出概率密度函数的某些参数。
非参数估计:已知样本所属类别,但未知各类的概率密度函数的形式,要求我们直接推断概率密度函数本身。
2、什么是k-近邻算法?
k-近邻算法的基本思想(3分):未知样本x ,根据度量公式得到距离x 最近的k 个样本。
统计这k 个样本点中,各个类别的数量。
数量最多的样本是什么类别,我们就把这个数据点定为什么类别。
,argmax (),K m n n n
x m k k n ω==是个样本中第类的样本个数
m 为所求类别。
3、 决策树的C4.5算法与ID3算法相比主要有哪些方面的改进?
1) 用信息增益比来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 增加了后剪枝操作。
3) 能够完成对连续属性的离散化处理;
4)能够处理属性存在不同损失的情况;
5)能够对不完整数据进行处理。
4、就您的理解,谈谈什么是集成学习?集成学习要想取得好的效果,应该满足的两个条件是什么?
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。
集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。
如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。
必要条件:
被集成的各个基学习器(分类器)性能越高(分类正确率越高)越好。
各个基学习器(分类器)具有互补性,或者说互补性越大越好。
5、就您的理解,谈谈什么是半监督学习?请简要介绍Co-training的基本思想
半监督学习(Semi-supervised Learning)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。
它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。
常用的半监督学习方法有co-training、self-training、S3VMS等。
Co-training 的基本思想:在两个分离的视图上,用有标记的样本训练两个不同的分类器,用这两个分类器分别对无标记的样本进行分类,得到的一定数量的标记样本在后续的训练分类中为对方所用。
Co-training的原则是在不牺牲性能的前提下,尽量多的使用无标记数据,他的优点是无需人工干涉,自动的从无标记样本中学习到知识。
6、就您的理解,请分别概述何谓代价敏感性学习、何谓类别不平衡学习。
(1)不同错误的代价或者是后果是不一样的,甚至差别很大。
(2)不追求总的错误率最小,而是尽量避免代价大的分类错误,是代价敏感性学习的基本思想。
(3)在代价敏感性学习的思想下,要使分界面远离分类错误代价大的那一类,或者说尽量减少犯分类代价大的那类错误。
类别不平衡学习:类别不平衡问题是训练样本集其中一类的数量远小于另一类的数量。
在算法和数据方面,有各种解决方案。
在数据层面,有各种重新采样的方法,如随机过采样,随机欠采样等。
在算法层面,我们可以调整类别的损失,调整决策的阈值等。
7、试简述流型学习方法ISOMAP的基本思想及其优缺点。
保持数据点内在几何性质,即保持两点的测地线距离。
ISOMAP第一次提到了“测地距离”这一概念,将欧氏距离的概念引入到流形中去,将原来的普通算法映射到流形中,用“测地距离”来表示在流形中两点间的真实距离。
ISOMAP的优点:可以最大限度的保留原始数据的信息。
缺点:适用范围有限,流形必须是内部平坦的;计算每两个点的距离,时间复杂度较大。
8、就您的理解,请概述何谓多标记学习。
对具有多个不同概念标记的对象进行有效地建模。
学习系统通过对具有一组概念标记(label set)的训练例进行学习,以尽可能正确地对训练集之外示例的概念集合进行预测。
形式化地说,多标记学习的任务是从数据集{(x1,Y1), (x2,Y2),…,(xm,Ym)}中学得函数f:x
→2y ,其中xi ∈x 为一个示例而Yiy 为示例xi 所属的一组概念标记。
9、就您的理解,谈谈什么是聚类?请简要介绍您所熟悉的一种聚类方法。
聚类是将多个对象按照某种相似度的度量方式分成不同的组(簇)。
K-means 聚类:
算法过程:
选择K 个点作为初始质心
Repeat
将每个点指派到离它最近的质心,形成K 个簇
重新计算每个簇的质心
Until 簇不再发生变化或者达到最大迭代次数
计算题(共10分)
1、有如图所示的神经网络。
Squash function 为:,1()1,1x x f x x ≥⎧=⎨<⎩
,输入样本121,0x x ==,输出节点为z ,第k 次学习得到的权值为:
1112212212()0,()2,()2,()1,()1,()1w k w k w k w k T k T k ======。
试求第k 次前向传播学习得到的输出节点值()z k ,请给出求解过程和结果。
计算如下:
第k 次训练的正向过程如下:
隐藏层结点的值
2
1111()()(0120)(0)1j j j y f w x f net f f ====⨯+⨯==∑
2
)2()0112()()(22122==⨯+⨯==∑==f f net f x w f y j j j
输出层结点的值
3
)3()2111()()(21==⨯+⨯==∑==f f net f y T f z l i i i
2、为了诊治某种疾病,对一批人进行一次检查,对每个人注射试验针观察反应,统计结果如下:
(1) 这批人中,每1000个人有5个患这种疾病;
(2) 这批人中,每100个正常人有一个试验呈现阳性反应;
(3) 这批人中,每100个该疾病的病人,有95个试验呈现阳性反应。
问:若某人呈现阳性反应,其是否正常?请给出求解过程和结果。
解:设x 表示试验反应为阳性。
类别状态有两种:1ωω= 表示正常,2ωω= 表示为患者。
由已知条件:1()0.995P ω= ,2()0.005P ω=
1(|)=0.01P x ω ,2(|)0.95P x ω=
决策过程:
1111122()(|)(|)()(|)()(|)0.9950.001
0.9950.010.0050.95
0.677P P x P x P P x P P x ωωωωωωω=
+⨯=
⨯+⨯= 2(|)10.6670.323P x ω=-=
12(|)(|)P x P x ωω>
将该人判定为1ω (正常人)。