中科院研究生院机器学习课程习题
机器学习课后习题答案

机器学习(周志华)参考答案第一章 绪论(略)第二章模型评估与选择1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取150)2。
法应该是(C5002.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。
3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
Array4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。
9.试述卡方检验过程。
第三章线性模型2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。
如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。
3.编程实现对率回归,并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。
/icefire_tyh/article/details/520689005.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。
中科院机器学习题库

机器学习题库一、极大似然1、ML estimation of exponential model (10)A Gaussian distribution is often used to model data on the real line, but is sometimes inappropriate when the data are often close to zero but constrained to be nonnegative. In such cases one can fit an exponential distribution, whose probability density function is given by1x bp xeb Given N observations x i drawn from such a distribution:(a)Write down the likelihood as a function of the scale parameter b. (b) Write down the derivative of the log likelihood. (c) Give a simple expression for the ML estimate for b.2、换成Poisson 分布:|,0,1,2,...!xep x y x 1111log |loglog !loglog !NNi i i i NNi i i i lp x x x x Nx 3、二、贝叶斯假设在考试的多项选择中,考生知道正确答案的概率为p ,猜测答案的概率为1-p ,并且假设考生知道正确答案答对题的概率为1,猜中正确答案的概率为1m ,其中m 为多选项的数目。
那么已知考生答对题目,求他知道正确答案的概率。
1、,|11p known correctp p known correctp knownpp mConjugate priorsThe readings for this week include discussion of conjugate priors. Given a likelihood|p x for a class models with parameters θ, a conjugate prior is a distribution|p withhyperparametersγ, such that the posterior distribution|,|||pX p X pp与先验的分布族相同(a)Suppose that the likelihood is given by the exponential distribution with rate parameterλ:|xp x eShow that the gamma distribution1|,Gammae_is a conjugate prior for the exponential. Derive the parameter update given observations 1,,Nx x K and the prediction distribution11|,,N N p x x x K .(b)Show that the beta distribution is a conjugate prior for the geometric distribution1|1k p xk which describes the number of time a coin is tossed until the first heads appears, when the probability of heads on each toss is θ. Derive the parameter update rule and predictiondistribution.(c)Suppose |pis a conjugate prior for the likelihood|p x ; show that the mixture prior11|,...,|MMm mm pw p is also conjugate for the same likelihood, assuming the mixture weights w m sum to 1.(d) Repeat part (c) for the case where the prior is a single distribution and the likelihood is a mixture, and the prior is conjugate for each mixture component of the likelihood.。
整理中科院机器学习题库-new

中科院机器学习题库new整理表姓名:职业工种:申请级别:受理机构:填报日期:A4打印/ 修订/ 内容可编辑信息技术会考复习(十五)【学习目标】让学生复习数据管理技术上机内容。
【任务导航】通过让学生自主学习来复习这部分内容。
【学习过程】一、教师点评上周数据管理技术上机系统操作的内容。
二.学生自主运行练习上机系统。
针对上次考试系统考得不好的学生进行分层次辅导,指出其经常出错的地方,如数据库的名字打错、保存路径出错、数据表名打错等问题。
三、分析部分上机选择题第 1题:(分值: 2)如图所示为某学校行政管理结构,该图描述的数据模型是A.面向对象模型B.关系模型C.网状模型D.层次模型第 2题:(分值: 2)在“参赛选手”数据表中,有关参赛选手的信息如下:“选手编号、姓名、性别、出生年月、学校名称、比赛成绩”其中“姓名”和“出生年月”的数据类型可以分别定义为A.日期型和文本型B.文本型和日期型C.数字型和数字型D.数字型和日期型第 3题:(分值: 2)如图所示的“读者信息”表中,可以选作关键字字段是A.读者身份B.姓名C.性别D.借书证号第 4题:(分值: 2)在信息世界中,实体集之间的联系有三种:一对一联系、一对多联系和A.多对多联系B.单对单联系C.逻辑联系D.数据联系第 5题:(分值: 2)下列关于数据库系统主要特点的叙述,错误的是A.数据具有较高的独立性B.数据共享C.实现数据冗余D.数据结构化第 6题:(分值: 2)关系数据库的二维表(关系)必须满足的条件是①表中每一列的数据类型必须相同②表中不允许有重复的字段③表中不应有内容完全相同的行④行和列排列顺序是无关紧要的⑤表中每一个字段可以是简单的数据项, 也可以是组合的数据项A.①②③⑤B.①②③④C.②③④⑤D.①③④⑤第 7题:(分值: 2)下列属于现实世界术语的是A.字段B.对象C.关键字D.记录第 8题:(分值: 2)下列关于数据库管理系统的叙述,正确的是A.数据库管理系统具有对数据库中数据资源进行统一管理和控制的功能B.数据库管理系统是数据库的统称C.数据库管理系统具有对任何信息资源管理和控制的能力D.数据库管理系统对普通用户来说具有不可操作性第 9题:(分值: 2)如图所示的“厦门至上海南”表中,属于字段名是A.厦门、福州南B.福州南、12:47C.站名、动车组车次D.D3204、宁德第 10题:(分值: 2)如图所示的E-R图,对应的二维表是A.B.C.D.第 11题:(分值: 2)在数据库技术发展过程中,最常用的数据模型有层次模型、网状模型和A.分支模型B.关系模型C.独立模型D.系统模型第 12题:(分值: 2)下列关于数据管理技术的叙述,正确的是A.数据管理技术是指图书管理技术B.数据管理技术是指对存储在计算机中的文件进行管理的专门技术C.数据管理技术是指保存批量数据的技术D.数据管理技术是指对数据的收集、分类、组织、存储等与数据管理活动有关的技术第 13题:(分值: 2)在信息世界,实体集之间的联系有三种。
机器学习练习题

机器学习练习题考试练习题单项选择题1.在中创建⼀个元素均为0的数组可以使⽤( )函数。
[A]A.zeros( )B.arange( )C.linspace( )D.logspace( )2.通常( )误差作为误差的近似。
[A]A.测试B.训练C.经验D.以上都可以3.梯度为( )的点,就是的最⼩值点,⼀般认为此时模型达到了收敛。
[B]A.-1B.0C.1D.4.创建⼀个3*3的,下列代码中错误的是( )。
[C]A.np.arange(0,9).reshape(3,3)B.np.eye(3)C.np.random.random([3,3,3])D.np.mat(“1,2,3;4,5,6;7,8,9”)5.关于数据集的标准化,正确的描述是:( )。
[A]A.标准化有助于加快模型的收敛速度B.标准化⼀定是归⼀化,即数据集的取值分布在[0,1]区间上C.数据集的标准化⼀定是让标准差变为1D.所有的模型建模之前,必须进⾏数据集标准化6.Python安装第三⽅库的命令是( )。
[C]A.pip –hB.pyinstaller <拟安装库名>C.pip install <拟安装库名>D.pip download <拟安装库名>7.如果发现模型在验证集上的准确性整体⾼于训练集,在验证集上的损失整体低于训练集,则最可能的情况是:( )。
[B]A.验证集的数据样本与训练集相⽐,数量过少和过于简单B.模型没有采⽤正则化⽅法C.以上都对8.DL是下⾯哪个术语的简称( )。
[D]A.⼈⼯智能B.机器学习C.神经⽹络D.深度学习9.验证集和测试集,应该:( )。
[A]A.样本来⾃同⼀分布B.样本来⾃不同分布C.样本之间有⼀⼀对应关系D.拥有相同数量的样本10.⼀般使⽤以下哪种⽅法求解线性回归问题:( )。
[A]A.最⼩⼆乘法B.最⼤似然估计C.对数变换D.A和B11.以下哪个函数可以实现画布的创建?( )。
2023年6月机器学习考试题及答案

2023年6月机器学习考试题及答案考试题目1. 什么是机器研究?2. 请简要说明监督研究和无监督研究的区别。
3. 什么是过拟合?如何避免过拟合?4. 请解释什么是决策树,并列举一些常用的决策树算法。
5. 什么是集成研究?列举两种常见的集成研究方法。
6. 请解释支持向量机(SVM)的工作原理。
7. 什么是深度研究?列举两个常用的深度研究模型。
8. 请简要介绍一下主成分分析(PCA)的原理和应用领域。
9. 什么是聚类分析?请列举一个常用的聚类算法。
10. 请说明机器研究中的特征选择方法。
答案1. 机器研究是一种人工智能的分支,旨在通过使用算法和统计模型,使计算机能够从数据中研究和改进,而无需明确编程。
它涉及让计算机从经验中自动研究,并利用研究到的知识来进行决策和预测。
3. 过拟合指模型在训练集上表现很好,但在新数据上表现较差的现象。
为了避免过拟合,可以采用以下方法:- 使用正则化技术,如L1正则化和L2正则化,限制模型的复杂度。
- 进行特征选择,排除一些对模型泛化能力影响较大的特征。
4. 决策树是一种基于树结构的分类和回归模型,它代表了对数据进行决策的过程。
常见的决策树算法包括ID3、C4.5和CART。
5. 集成研究是一种使用多个研究器进行组合预测的方法。
常见的集成研究方法包括随机森林和梯度提升树。
6. 支持向量机(SVM)是一种二分类模型,其工作原理是将数据映射到高维空间,在高维空间中找到一个最优超平面来分割不同类别的数据点。
7. 深度研究是一种基于神经网络的机器研究方法,它通过多层次的非线性变换来研究和表示数据。
常见的深度研究模型包括卷积神经网络(CNN)和循环神经网络(RNN)。
8. 主成分分析(PCA)是一种常用的降维技术,它通过线性变换将原始数据映射到低维空间,保留数据集中的主要特征。
主成分分析在数据预处理、图像处理和模式识别等领域有广泛的应用。
9. 聚类分析是一种将数据点划分为不同组别或类别的无监督研究方法。
机器学习考试试题

机器学习考试试题一、选择题(每题 3 分,共 30 分)1、以下哪种情况不属于机器学习的应用场景?()A 图像识别B 自然语言处理C 传统的数值计算D 预测股票价格2、在监督学习中,如果预测值与真实值之间的差异较大,通常使用以下哪种方法来衡量模型的性能?()A 准确率B 召回率C 均方误差D F1 值3、下列哪种算法不是聚类算法?()A KMeansB 决策树C 层次聚类D 密度聚类4、对于一个过拟合的模型,以下哪种方法可以缓解?()A 增加训练数据量B 减少模型的复杂度C 增加正则化项D 以上都是5、以下关于特征工程的描述,错误的是?()A 特征工程是将原始数据转换为更有意义和有用的特征的过程B 特征选择是特征工程的一部分C 特征工程对于机器学习模型的性能影响不大D 特征缩放可以提高模型的训练效率6、在深度学习中,以下哪个不是常见的激活函数?()A Sigmoid 函数B ReLU 函数C Tanh 函数D Logistic 函数7、支持向量机(SVM)主要用于解决什么问题?()A 回归问题B 分类问题C 聚类问题D 降维问题8、以下哪种优化算法常用于神经网络的训练?()A 随机梯度下降(SGD)B 牛顿法C 共轭梯度法D 以上都是9、下面关于集成学习的说法,错误的是?()A 随机森林是一种集成学习算法B 集成学习可以提高模型的稳定性和泛化能力C 集成学习中的个体学习器必须是同一种类型的模型D 集成学习通过组合多个弱学习器来构建一个强学习器10、对于一个二分类问题,若混淆矩阵如下:||预测正例|预测反例||||||实际正例| 80 | 20 ||实际反例| 10 | 90 |则该模型的准确率是多少?()A 80%B 90%C 70%D 85%二、填空题(每题 3 分,共 30 分)1、机器学习中的有监督学习包括________、________和________等任务。
2、常见的无监督学习算法有________、________和________。
中科院研究生院机器学习试卷 含答案

中国科学院研究生院课程编号:712008Z 试 题 专 用 纸 课程名称:机器学习任课教师:卿来云———————————————————————————————————————————————姓名学号 成绩1. 判断题(20分,每小题2分)(1)给定n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n 的增加而减小。
(T )(2)当训练数据较少时更容易发生过拟合。
(T ) (3)回归函数A 和B ,如果A 比B 更简单,则A 几乎一定会比B 在测试集上表现更好。
(F ) (4)在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。
(T ) (5)在AdaBoost 算法中,所有被错分的样本的权重更新比例相同。
(T ) (6)Boosting 的一个优点是不会过拟合。
(F )(7)梯度下降有时会陷于局部极小值,但EM 算法不会。
(F ) (8)SVM 对噪声(如来自其他分布的噪声样本)鲁棒。
(F )(9)Boosting 和Bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。
(F ) (10)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso 模型计算量小,且Lasso 也可以实现特征选择。
(T )2、logistic 回归模型。
(20分,每小题10分)我们对如图1(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即()()()121122112211|,,1exp Y w w g w x w x w x w x ==+=+−−x P 。
(为了简化,我们不采用偏差0w 。
) 训练数据可以被完全分开(训练误差为0,如图1(b)所示的L 1)。
共 3 页 第1页图1(a) 2维训练数据。
图1(b) 数据点可以被L 1(实线)。
L 2、L 3和L 4是另外几个可能的决策(1) 考虑一个正则化的方法,即最大化()21221log |,,2Ni i i C y w w w =−∑x P 。
(完整word版)机器学习练习题与答案

(完整word版)机器学习练习题与答案《机器学习》练习题与解答1.⼩刚去应聘某互联⽹公司的算法⼯程师,⾯试官问他“回归和分类有什么相同点和不同点”,他说了以下⾔论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。
解析:这道题只有⼀个同学做错。
本题考察有监督学习的概念。
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和⽆监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。
具体差别请看周志华《机器学习》书中的例⼦,⼀看便懂:2.背景同上题。
请判断2)回归问题和分类问题都有可能发⽣过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。
过拟合的英⽂名称是 Over-fitting(过拟合)。
为了说清楚“过”拟合,⾸先说⼀下“拟合”【拟合的⼏何意义】:从⼏何意义上讲,拟合是给定了空间中的⼀些点,找到⼀个已知形式未知参数的连续曲线或曲⾯来最⼤限度地逼近这些点。
⼀个直观的例⼦,是下⾯的电阻和温度的例⼦。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。
现在我们有⼀系列关于“温度”和“电阻”的测量值。
⼀个最简单的思路,取两组测量值,解⼀个线性⽅程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提⾼测量精度,我们会测量多次,得到多组的值,这样就相当于得到⼆维平⾯上的多个点,我们的⽬标是寻找⼀条直线,让这条直线尽可能地接近各个测量得到的点。
拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若⼲离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚⾄错误值),通过调整该函数中若⼲待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最⼩⼆乘意义)最⼩。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、考虑回归一个正则化回归问题。
在下图中给出了惩罚函数为二次正则函数,当正则化参数C 取不同值时,在训练集和测试集上的log 似然(mean log-probability )。
(10分)
(1)说法“随着C 的增加,图2中训练集上的log 似然永远不会增加”是否正确,并说明理由。
(2)解释当C 取较大值时,图2中测试集上的log 似然下降的原因。
2、考虑线性回归模型:()201~, y N w w x σ+,训练数据如下图所示。
(10分) (1)用极大似然估计参数,并在图(a )中画出模型。
(3分)
(2)用正则化的极大似然估计参数,即在log 似然目标函数中加入正则惩罚函数()212
C w -
, 并在图(b )中画出当参数C 取很大值时的模型。
(3分)
(3)在正则化后,高斯分布的方差2σ是变大了、变小了还是不变?(4分)
图(a) 图(b)
2. 考虑二维输入空间点()12,T x x =x 上的回归问题,其中[]1,1,1,2j x j ∈-=在单位正方形内。
训练样本和测试样本在单位正方形中均匀分布,输出模型为
()352121212~10753, 1y N x x x x x x -++-,我们用1-10阶多项式特征,采用线性回归模型来
学习x 与y 之间的关系(高阶特征模型包含所有低阶特征),损失函数取平方误差损失。
(1) 现在20N =个样本上,训练1阶、2阶、8阶和10阶特征的模型,然后在一个大规模的独立的测试集上测试,则在下3列中选择合适的模型(可能有多个选项),并解释第3列中你选择的模型为什么测试误差小。
(10分)
(2) 现在610N =个样本上,训练1阶、2阶、8阶和10阶特征的模型,然后在一个大规模的独
立的测试集上测试,则在下3列中选择合适的模型(可能有多个选项),并解释第3列中你选择的模型为什么测试误差小。
(10分)
(3)
多项式回归模型的预测误差与训练样本的数目有关。
(T)
3、我们对下图(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即
()()()
121122112211|,,1exp Y w w g w x w x w x w x ==+=
+--x 。
(为了简化,我们不采用偏差0w 。
) 训练数据可以被完全分开(训练误差为0,如图1(b)所示的L 1)。
(1) 考虑一个正则化的方法,即最大化
()21221log
|,,2
N i i i C y w w w =-∑x 。
注意只有2w 被惩罚。
则当C 很大时,如图1(b)所示的4个决策边界中, L 2、L 3和L 4 可以
(a) 2维训练数据。
(b) 数据点可以被L 1(实线)完全分开。
L 2、L 3和L 4是另外几个可能的决策边界。
通过正则2w 得到吗?
答:L2不可以。
当正则w2时,决策边界对x2的依赖越少,因此决策边界变得更垂直。
而图中的L2看起来不正则的结果更水平,因此不可能为惩罚w2得到;
L3可以。
w2^2相对w1^2更小(表现为斜率更大),虽然该决策对训练数据的log 概率变小(有被错分的样本);
L4不可以。
当C 足够大时,我们会得到完成垂直的决策边界(线 x 1 = 0 或x 2轴)。
L4跑到了x 2轴的另一边使得其结果比其对边的结果更差。
当中等程度的正则时,我们会得到最佳结果(w2较小)。
图中的L4不是最佳结果因此不可能为惩罚w2得到;
(2)如果正则项为L1范式,即最大化
()()12121log
|,,2
N i i i C y w w w w =-+∑x 。
则随着C 增大,下面哪种情形可能出现(单选)?
(a) 1w 将变成0,然后2w 也将变成0。
(T)
(b) 1w 和2w 将同时变成0。
(c) 2w 将变成0,然后1w 也将变成0。
(d) 两个权重都不会变成0,只是随着C 的增大而减小0。
该数据可以被完全正确分类(训练误差为0),且仅看x 2的值(w 1 = 0)就可以得到。
虽然最佳分类器w 1可能非0,但随着正则量增大w1会很快接近0。
L1正则会使得w 1完全为0。
随着C 的增大,最终w 2 会变成0。
4、LDA
现有100个标注好的训练样本(共有两个类),我们训练以下模型:
GaussI : 每类一个高斯分布,两个类的方差矩阵均设为单位矩阵I ;
GaussX : 每类一个高斯分布,但协方差矩阵不做任何约束;
LinLog : 线性logistic 回归模型(特征的线性组合);
QuadLog : 二次logistic 回归模型(所以特征的一次和二次组合)。
训练后,我们用训练集上的平均log 似然作为模型性能的度量,并用等式或不等式表示模型间的性能关系,如“model 1 <= model 2” 或 “model 1 = model 2”
GaussI <= LinLog (both have logistic postiriors, and LinLog is the logistic model maximizing the average log probabilities)
GaussX <= QuadLog (both have logistic postiriors with quadratic features, and QuadLog is the model of this class maximizing the average log probabilities)
LinLog <= QuadLog (logistic regression models with linear features are a subclass of logistic regression models with quadratic functions— the maximum from the superclass is at least as high as the maximum from the subclass)
GaussI <= QuadLog (follows from above inequalities)
(GaussX will have higher average log joint probabilities of examples and labels, then will GaussI. But have higher average log joint probabilities does not necessarily translate to higher average log conditional probabilities)
一、交叉验证
1、4. 给定如下数据集,其中X为输入变量,Y为输出变量。
假设考虑采用k-NN算法
对x对应的y进行预测,其中距离度量采用不加权的欧氏距离。
(12分)
(1)算法1-NN的训练误差的是多少?(用分类错误的样本数目表示即可,下同)
(2)算法3-NN的训练误差是多少?
(3)算法1-NN的LOOCV(留一交叉验证)估计误差是多少?
(4)算法3-NN的LOOCV(留一交叉验证)估计误差是多少?。