机器学习期末试题

合集下载

机器学习基础期末考试试题

机器学习基础期末考试试题一、选择题（每题2分，共20分）1. 在机器学习中，下列哪个算法属于监督学习算法？A. 决策树B. K-meansC. 遗传算法D. 随机森林2. 以下哪个是线性回归的假设条件？A. 特征之间相互独立B. 特征与目标变量之间存在非线性关系C. 目标变量的误差项服从正态分布D. 所有特征都是类别型变量3. 支持向量机（SVM）的主要目标是什么？A. 找到数据点之间的最大间隔B. 减少模型的复杂度C. 增加模型的泛化能力D. 所有选项都正确4. 在深度学习中，卷积神经网络（CNN）通常用于处理哪种类型的数据？A. 音频数据B. 图像数据C. 文本数据D. 时间序列数据5. 交叉验证的主要目的是：A. 减少模型的过拟合B. 增加模型的复杂度C. 减少训练集的大小D. 增加模型的运行时间二、简答题（每题10分，共30分）6. 解释什么是过拟合，并给出一个避免过拟合的策略。

7. 描述随机森林算法的基本原理，并简述其相对于决策树的优势。

8. 解释梯度下降算法的工作原理，并说明为什么它在优化问题中如此重要。

三、计算题（每题25分，共50分）9. 假设你有一个线性回归模型，其目标函数为 \( J(\theta) =\frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 \)，其中 \( h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2x_2 \)。

给定以下数据点：\[\begin{align*}x_1 & : [1, 2, 3] \\x_2 & : [1, 3, 4] \\y & : [2, 4, 5]\end{align*}\]请计算该模型的损失函数 \( J(\theta) \)。

10. 给定一个二分类问题的数据集，使用逻辑回归模型进行分类。

如果模型的决策边界是 \( w_1 x_1 + w_2 x_2 - \theta = 0 \)，其中\( w_1 = 0.5 \)，\( w_2 = -1 \)，\( \theta = 0.5 \)。

《机器学习》期末考试-B卷

XXXXXXX 学院2020 至 2021 学年第一学期《机器学习》期末考试试题（B 卷）一、选择题。

（本题共 25 小题，每小题2分，共50分）1.关于Python 的列表，描述错误的选项是（）。

A. Python 列表是包含0个或者多个对象引用的有序序列 B. Python 列表用中括号[]表示C. Python 列表是一个可以修改数据项的序列类D. Python 列表的长度不可变的2.目标变量在训练集上的8个实际值[1,0,1,1,0,1,0,1]，目标变量的熵是多少？（） A. B. C.D.3.下列哪一种偏移，是我们在线性回归模型计算损失函数，例如均方差损失函数时使用的？（）图中横坐标是输入 X ，纵坐标是输出 Y 。

A. 垂直偏移（vertical offsets ）B. 垂向偏移（perpendicular offsets ）C. 两种偏移都可以D. 以上说法都不对 4.x = np.arange(10) print(x[2:]) print(x[-2:])输出结果：（）。

A. [1 2 3 4 5 6 7 8 9] B. [2 3 4 5 6 7 8 9] [8 9] [8 9] C. [2 3 4 5 6 7 8 9 10] D. [1 2 3 4 5 6 7 8 9 10] [9 10] [9 10] 5.首次提出“人工智能”是在（）年。

A. 1916 B. 1956 C. 1960 D. 19466.Python 内置函数（）函数可以返回列表、元组、字典、集合、字符串以及range 对象中所有元素的个数。

A. len B. count C. size D. shape7.下面代码的执行结果是（）。

ls=[[1,2,3],[[4,5],6],[7,8]] print(len(ls)) A. 4 B. 3 C. 8 D. 18.以下哪个是两个数据点A （0,7）和B （3,3）之间的曼哈顿距离？（） A. 5 B. 6 C. 7 D. 8 9.贝叶斯公式正确的说法是（）。

机器学习期末试题及答案

机器学习期末试题及答案一、选择题1. 机器学习是一种：A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案：A. 人工智能子领域2. 以下哪种算法是无监督学习算法？A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案：C. K均值聚类3. 在机器学习中，过拟合是指：A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案：C. 模型过于复杂4. 机器学习任务中的训练集通常包括：A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案：A. 特征和标签5. 在机器学习中，用于评估模型性能的常见指标是：A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案：A. 准确率二、填空题1. 监督学习中，分类问题的输出是离散值，而回归问题的输出是________________。

答案：连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。

答案：预处理3. ________________是一种常见的集成学习算法，通过构建多个弱分类器来提高整体模型的性能。

答案：随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法，其中K 代表______________。

答案：折数/交叉验证的次数5. 在机器学习中，优化算法的目标是最小化或最大化一个称为______________的函数。

答案：目标函数/损失函数三、简答题1. 请简要解释什么是过拟合，并提出至少三种防止过拟合的方法。

答：过拟合是指在训练数据上表现很好，但在新数据上表现较差的现象。

防止过拟合的方法包括：- 数据集扩充：增加更多的训练样本，从而减少模型对特定数据的过度拟合。

- 正则化：通过在损失函数中引入正则化项，约束模型的复杂度，防止模型过分拟合训练数据。

- 交叉验证：使用交叉验证方法对模型进行评估，通过评估模型在不同数据集上的性能，选择性能较好的模型。

机器学习期末测试练习题2

1、在混淆矩阵中，识别率可以表示为（）。

A.(TP)/(TP+TN+FP+FN)B.(TP+FN)/(TP+TN+FP+FN)C.(TP+TN)/(TP+TN+FP+FN)D.(FP+TN)/(TP+TN+FP+FN)正确答案：C2、若我们用一类对另一类的方法来解决多分类问题，当有K类时，我们需要训练（）个支持向量机。

A.K(K-1)/2B.K-1C.KD.K(K+1)/2正确答案：A3、如果一个样本空间线性可分，那么，我们能找到（）个平面来划分样本。

A.1B.无数C.KD.不确定正确答案：B4、w*是原问题f(w)的解，a* 和 b* 是其对偶问题 h(a,b)的解，则对偶距离定义为（）。

A.h(a*,b*)-f(w*)B.f(w*)-h(a*,b*)C.||f(w*)-h(a*,b*)||D.|f(w*)-h(a*,b*)|正确答案：B5、在混淆矩阵中，系统召回率定义为（）。

A.TP/（TP+FN）B.TN/（FP+TN）C.TP/（FP+TP）D.TN/（TP+TN）正确答案：A二、多选题1、当我们利用二分类支持向量机来解决多分类问题是，我们有哪两种策略？（）A.一类对另一类B.一类对K-1类C.一类对K类D.2类对K-2类正确答案：A、B2、在利用二分类支持向量机来解决多分类的问题中，为了减少支持向量机的个数，我们可以用（）来构建树状结构的多分类模型。

A.强化学习B.聚类C.人工神经网络D.决策树正确答案：B、D3、下列对混淆矩阵说法正确的是（）。

A.FP：将负样本识别为正样本的数目（概率）B.FN：将正样本识别为负样本的数目（概率）C.TP：将正样本识别为正样本的数目（概率）D.TN：将负样本识别为正样本的数目（概率）正确答案：A、B、C4、在二维空间且样本类别只有两类的情况下，训练样本线性可分，满足最优分类直线的三个条件是（）。

A.该直线最大化间隔B.该直线距离支持向量最近C.该直线分开了两类D.该直线位于间隔中间，到所有有支持向量相等正确答案：A、C、D5、二次规划的定义包括（）。

机器学习期末测试练习题4

1、在神经网络模型VggNet中，使用两个级联的卷积核大小为3X3,stride=1的卷积层代替了一个5X5的卷积层，如果将stride设置为2，则此时感受野为A.7X7B.9X9C.5X5D.8X8正确答案：A2、激活函数，训练过程出现了梯度消失问题。

从图中可以判断出四个隐藏层的先后顺序（靠近输入端的为先，靠近输出端的为后）分别为A.DBCAB.ABCDC.ADCB正确答案：D3、在网络训练时，loss在最初几个epoch没有下降，可能原因是B.以下都有可能C.正则参数过高D.陷入局部最小值正确答案：B4、假设有一个三分类问题，某个样本的标签为（1，0，0），模型的预测结果为（0.5，0.4，0.1），则交叉熵损失值（取自然对数结果）约等于A.0.6C.0.8D.0.5正确答案：B5、IoU是物体检测、语义分割领域中的结果评测指标之一，上图中A框是物体的真实标记框，面积为8。

B框是网络的检测结果，面积为7。

两个框的重合区域面积为2。

则IoU的值为A.2/8B.2/13C.2/7D.2/15正确答案：B6、Gram矩阵是深度学习领域常用的一种表示相关性的方法，在风格迁移任务中就使用风格Gram矩阵来表示图像的风格特征，以下关于风格Gram矩阵的论述正确的是A.风格Gram矩阵的大小与输入特征图的通道数、宽、高都不相关B.风格Gram矩阵的大小只与输入特征图的通道数相关C.风格Gram矩阵的大小与输入特征图的通道数、宽、高都相关D.风格Gram矩阵的大小只与输入特征图的宽、咼有关正确答案：B7、现使用YOL0网络进行目标检测，待检测的物体种类为20种，输入图像被划分成7*7个格子，每个格子生成2个候选框，则YOL0网络最终的全连接层输出维度为A.1078B.980C.1470D.1960正确答案：C二、多选题1、池化层在卷积神经网络中扮演了重要的角色，下列关于池化层的论述正确的有A.池化操作具有平移不变性B.池化操作可以实现数据的降维C.池化操作是一种线性变换D.池化操作可以扩大感受野2、以下关于MaxPooling和MeanPooling的论述正确的有A.尺度为（2,2），stride=2的MaxPooling层在梯度后向传播中,后层的梯度值传递给前层对应的最大值位置。

安徽农业大学机器学习期末考试试卷

安徽农业大学机器学习期末考试试卷一、填空题1、工作过程中集中精力工作。

，不要喝酒，不要吃东西，。

如果你必须转移注意力到别的地方，必须停止设备。

2、各类铲刮作业都应低速行驶，角铲土和使用齿耙时必须用。

3、必须高度重视自己在工作中的安全责任。

以的安全意识投入4、如果将平地机放置在露天或不平整的场地上，最好用垫木将平地机架起，以使轮胎减载，然后将轮胎气压降低，并将轮胎遮挡起来，避免阳光直接照射。

5、一旦刮平操作开始后,可使用来改变"坡度跟踪控制器"的提升,这样可以使泥土被带出刮刀外。

6、转向时,或使用轴驱动轮转向时,不得，可使前轮倾斜以减少平地机转向半径,但在高速行驶时不得使用,以防出现急剧的反作用力。

7、做路拱时,先将路料堆放在路中央,使平地机刮刀前倾成角,稍提刀尾,平地机沿堆料中央匀速行驶,使路料沿刮刀向两侧移动。

8、如果用铰接式平地机左(右)倾平地时,使机架向右(左)饺接。

如果驱动轮打滑,则铰接角度,可以切土角度及侧推力。

9、发动机启动后，各仪表读数均应在规定值的范围内。

发动机运转时，不得操作，否则会造成发动机严重损坏。

10、使用平地机清除积雪时，应在轮，并应逐段探明路面的深坑、沟槽情况。

二、判断题1、一旦刮平操作开始后,可使用增减开关来改变"坡度跟踪控制器"的提升,这样可以使泥土被带出刮刀外。

( )2、在陡坡上作业时,不得使用饺接机架,以防止翻车造成严重的人机损伤。

在陡坡上来回进行作业时,刮刀伸出的方向应始终朝向上坡方向。

( )3、开始工作前，仔细检查设备的磨损标记和全部功能。

在接替前一个班时，询问工作条件和设备的功能。

( )4、使用平地机清除积雪时，应在轮胎上安装防滑链，并应逐段探明路面的深坑、沟槽情况。

( )5、严格按照手册规定的螺丝拧紧顺序与拧紧力矩对螺栓和螺母进行拧紧，可以稍微超过给定值。

( )6、在拆卸管路之前释放系统中的压力。

释放蓄能器中的压力。

机器学习考试试题

机器学习考试试题一、选择题（每题 3 分，共 30 分）1、以下哪种情况不属于机器学习的应用场景？（）A 图像识别B 自然语言处理C 传统的数值计算D 预测股票价格2、在监督学习中，如果预测值与真实值之间的差异较大，通常使用以下哪种方法来衡量模型的性能？（）A 准确率B 召回率C 均方误差D F1 值3、下列哪种算法不是聚类算法？（）A KMeansB 决策树C 层次聚类D 密度聚类4、对于一个过拟合的模型，以下哪种方法可以缓解？（）A 增加训练数据量B 减少模型的复杂度C 增加正则化项D 以上都是5、以下关于特征工程的描述，错误的是？（）A 特征工程是将原始数据转换为更有意义和有用的特征的过程B 特征选择是特征工程的一部分C 特征工程对于机器学习模型的性能影响不大D 特征缩放可以提高模型的训练效率6、在深度学习中，以下哪个不是常见的激活函数？（）A Sigmoid 函数B ReLU 函数C Tanh 函数D Logistic 函数7、支持向量机（SVM）主要用于解决什么问题？（）A 回归问题B 分类问题C 聚类问题D 降维问题8、以下哪种优化算法常用于神经网络的训练？（）A 随机梯度下降（SGD）B 牛顿法C 共轭梯度法D 以上都是9、下面关于集成学习的说法，错误的是？（）A 随机森林是一种集成学习算法B 集成学习可以提高模型的稳定性和泛化能力C 集成学习中的个体学习器必须是同一种类型的模型D 集成学习通过组合多个弱学习器来构建一个强学习器10、对于一个二分类问题，若混淆矩阵如下：｜｜预测正例｜预测反例｜｜｜｜｜｜实际正例｜ 80 ｜ 20 ｜｜实际反例｜ 10 ｜ 90 ｜则该模型的准确率是多少？（）A 80%B 90%C 70%D 85%二、填空题（每题 3 分，共 30 分）1、机器学习中的有监督学习包括________、＿_______和________等任务。

2、常见的无监督学习算法有________、＿_______和________。

《机器学习》期末考试试卷附答案

《机器学习》期末考试试卷附答案一、选择题（每题5分，共25分）1. 机器学习的主要目的是让计算机从数据中____，以实现某些任务或预测未知数据。

A. 抽取特征B. 生成模型C. 进行推理D. 分类标签答案：B. 生成模型2. K-近邻算法（K-NN）是一种____算法。

A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习答案：A. 监督学习3. 在决策树算法中，节点的分裂是基于____进行的。

A. 信息增益B. 基尼不纯度C. 均方误差D. 交叉验证答案：A. 信息增益4. 支持向量机（SVM）的主要目的是找到一个超平面，将不同类别的数据点____。

A. 完全分开B. 尽量分开C. 部分分开D. 不分开答案：B. 尽量分开5. 哪种优化算法通常用于训练深度学习模型？A. 梯度下降B. 牛顿法C. 拟牛顿法D. 以上都对答案：D. 以上都对二、填空题（每题5分，共25分）1. 机器学习可以分为监督学习、无监督学习和____学习。

A. 半监督B. 强化C. 主动学习D. 深度答案：A. 半监督2. 线性回归模型是一种____模型。

A. 线性B. 非线性C. 混合型D. 不确定型答案：A. 线性3. 在进行特征选择时，常用的评估指标有____、____和____。

A. 准确率B. 召回率C. F1 分数D. AUC 值答案：B. 召回率C. F1 分数D. AUC 值4. 神经网络中的激活函数通常用于引入____。

A. 非线性B. 线性C. 噪声D. 约束答案：A. 非线性5. 当我们说一个模型具有很好的泛化能力时，意味着该模型在____上表现良好。

A. 训练集B. 验证集C. 测试集D. 所有集答案：C. 测试集三、简答题（每题10分，共30分）1. 请简要解释什么是过拟合和欠拟合，并给出解决方法。

2. 请解释什么是交叉验证，并说明它的作用。

答案：交叉验证是一种评估模型泛化能力的方法，通过将数据集分成若干个互斥的子集，轮流用其中若干个子集作为训练集，其余子集作为验证集，对模型进行评估。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中国科学院大学
课程编号：712008Z 试题专用纸课程名称：机器学习
任课教师：卿来云
———————————————————————————————————————————————
姓名
学号成绩
一、基础题（共36分）
1、请描述极大似然估计MLE 和最大后验估计MAP 之间的区别。

请解释为什么MLE 比MAP 更容易过拟合。

（10分）
2、在年度百花奖评奖揭晓之前，一位教授问80个电影系的学生，谁将分别获得8个奖项（如最佳导演、最佳
男女主角等）。

评奖结果揭晓后，该教授计算每个学生的猜中率，同时也计算了所有80个学生投票的结果。

他发现所有人投票结果几乎比任何一个学生的结果正确率都高。

这种提高是偶然的吗？请解释原因。

（10分）
3、假设给定如右数据集，其中A 、B 、C 为二值随机变量，y 为待预测的二值变量。

(a) 对一个新的输入A =0, B =0, C =1，朴素贝叶斯分类器将会怎样预测y ？（10分）
(b) 假设你知道在给定类别的情况下A 、B 、C 是独立的随机变量，那么其他分类器（如Logstic
回归、SVM 分类器等）会比朴素贝叶斯分类器表现更好吗？为什么？（注意：与上面给的数据集没有关系。

）（6分）二、回归问题。

（共24分）
现有N 个训练样本的数据集(){}1
,N
i i i x y ==D ，其中,i i x y 为实数。

1．我们首先用线性回归拟合数据。

为了测试我们的线性回归模型，我们随机选择一些样本作为训练样本，剩余样本
作为测试样本。

现在我们慢慢增加训练样本的数目，那么随着训练样本数目的增加，平均训练误差和平均测试误差将会如何变化？为什么？（6分）平均训练误差：A 、增加 B 、减小平均测试误差：A 、增加 B 、减小
2．给定如下图(a)所示数据。

粗略看来这些数据不适合用线性回归模型表示。

因此我们采用如下模型：
()exp i i i y wx ε=+，其中()~0,1i N ε。

假设我们采用极大似然估计w ，请给出log 似然函数并给出w 的估计。

（8分）
3．给定如下图(b)所示的数据。

从图中我们可以看出该数据集有一些噪声，请设计一个对噪声鲁棒的线性回归模型，
并简要分析该模型为什么能对噪声鲁棒。

（10分）
(a) (b)
三、SVM 分类。

（第1~5题各4分，第6题5分，共25分）
下图为采用不同核函数或不同的松弛因子得到的SVM 决策边界。

但粗心的实验者忘记记录每个图形对应的模型和参数了。

请你帮忙给下面每个模型标出正确的图形。

1、2111min , s.t.22N
i i C ξ=⎛⎫+ ⎪⎝⎭
∑w
()00, 1, 1,....,, T i i i y w i N ξξ≥+≥-=w x
其中0.1C =。

2、2111min , s.t.22N
i i C ξ=⎛⎫+ ⎪⎝⎭
∑w
()00, 1, 1,....,, T i i i y w i N ξξ≥+≥-=w x
其中1C =。

3、()111
1max ,2N N N i i j i j i j i i j y y k ααα===⎛⎫- ⎪⎝⎭
∑∑∑x x
1
s.t. 0, 1,....,, 0N
i i i i i N y αα=≥==∑
其中()()
2
,T T k '''=+x x x x x x 。

4、()
111
1max ,2N N N i i j i j i j i i j y y k ααα===⎛⎫
- ⎪⎝⎭
∑∑∑x x
1
s.t. 0, 1,....,, 0N
i i i i i N y αα=≥==∑
其中()21,exp 2k ⎛⎫''=-- ⎪⎝⎭
x x x x 。

5、()111
1max ,2N N N i i j i j i j i i j y y k ααα===⎛⎫- ⎪⎝⎭
∑∑∑x x
1
s.t. 0, 1,....,, 0N
i i i i i N y αα=≥==∑
其中()(
)2
,exp k ''
=--x x x x 。

6、考虑带松弛因子的线性SVM 分类器：2111min , s.t.22N
i i C ξ=⎛⎫+ ⎪⎝⎭
∑w ()00, 1, 1,....,, T
i i i y w i N ξξ≥+≥-=w x 下面有一些关于某些变量随参数C 的增大而变化的表述。

如果表述总是成立，标示“是”；如果表述总是不成立，标示“否”；如果表述的正确性取决于C 增大的具体情况，标示“不一定”。

共 3 页第2 页
(1) 0w 不会增大 (2) ˆw 增大 (3) ˆw 不会减小
(4) 会有更多的训练样本被分错 (5) 间隔(Margin)不会增大
四、一个初学机器学习的朋友对房价进行预测。

他在一个N =1000个房价数据的数据集上匹配了一个有533个参数的模型，该模型能解释数据集上99%的变化。

1、请问该模型能很好地预测来年的房价吗？简单解释原因。

（5分）
2、如果上述模型不能很好预测新的房价，请你设计一个合适的模型，给出模型的参数估计，并解释你的模型为什么是合理的。

（10分）
共3 页第3 页。