机器学习(慕课版)习题答案全集

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习（慕课版）习题答案

第一章机器学习概述 (2)

第二章机器学习基本方法 (5)

第三章决策树与分类算法 (9)

第四章聚类分析 (13)

第五章文本分析 (17)

第六章神经网络 (22)

第七章贝叶斯网络 (26)

第八章支持向量机 (31)

第九章进化计算 (32)

第十章分布式机器学习 (34)

第十一章深度学习 (35)

第十二章高级深度学习 (37)

第十三章推荐系统 (39)

第一章机器学习概述

1.机器学习的发展历史上有哪些主要事件？

机器学习发展分为知识推理期、知识工程期、浅层知识期和深度学习几个阶段，可从几个阶段选择主要历史事件作答。

2.机器学习有哪些主要的流派?它们分别有什么贡献？

符号主义：专家系统、知识工程

贝叶斯派：情感分类、自动驾驶、垃圾邮件过滤

联结主义：神经网络

进化主义：遗传算法

行为类推主义

3.讨论机器学习与人工智能的关系

机器学习是人工智能的一个分支，作为人工智能核心技术和实现手段，通过机器学习的方法解决人工智能面对的问题

4.讨论机器学习与数据挖掘的关系

数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。数据挖掘的很多算法都来自于机器学习，并在实际应用中进行优化。机器学习最近几年也逐渐跳出实验室，解决从实际的数据中学习模式，解决实际问题。数据挖掘和机器学习的交集越来越大，机器学习成为数据挖掘的重要支撑技术

5.讨论机器学习与数据科学、大数据分析等概念的关系

数据科学主要包括两个方面：用数据的方法研究科学和用科学的方法研究数据。前者包括生物信息学、天体信息学、数字地球等领域；后者包括统计学、机器学习、数据挖掘、数据库等领域。大数据分析即是后者的一个部分。一般使用机器学习这个工具做大数据的分析工作，也就是说机器学习是我们做大数据分析的一个比较好用的工具，但是大数据分析的工具并不止机器学习，机器学习也并不只能做大数据分析

6.机器学习有哪些常用的应用领域?请举例说明其应用

艺术创作、金融领域、医疗领域、自然语言处理、网络安全、工业领域、娱乐行业。举例略

7.机器学习能解决哪些问题?每一类使用的常用方法有哪些?举例说明其应用

监督学习：

分类：逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯

数字预测：线性回归、KNN、Gradient Boosting、AdaBoost

无监督学习：聚类、关联分析

强化学习

8.举例说明机器学习的基本过程，并举例说明基本步骤各有哪些方法。

定义分析目标、收集数据、数据预处理、数据建模、模型训练、模型评估、模型应用

9.讨论数据数量和质量对机器学习的影响。

机器学习需要一定数量的数据作为支撑。数据量过多会耗费更多的计算资源，还可能有不平衡数据集、维度灾难等问题。数据量过少会导致机器学习的准确率下降，甚至不能完成学习的目标。数据数量和质量问题会导致过拟合或欠拟合的现象，优秀的数据集对机器学习的结果影响是决定性的

10.讨论深度学习的发展对推动机器学习的意义

深度学习需要大量的标记数据并需要大量的计算能力，因此深度学习可以较好地应对机器学习中大规模数据集，为机器学习提供了解决复杂问题的方法

11.讨论目前机器学习应用中存在的主要问题

选择什么模型或算法、选择什么优化方法、如何对数据进行预处理、目标函数是什么、过拟合与欠拟合的处理、维度爆炸

12.从机器学习的发展过程讨论其未来的发展方向

新的机器学习算法面临的问题更加复杂，应用领域更加广泛，从广度到深度发展，对模型训练和应用都提出了更高的要求。随着人工智能的发展，冯诺依曼的有限状态机的理论基础越

来越难以适应神经网络的层数要求，新的机器学习理论发展也迫在眉睫

第二章机器学习基本方法

1.什么是标准差、方差和协方差?它们反映了数据的什么内容?

标准差描述是样本集合的各个样本点到均值的距离分布，描述的是样本集的分散程度

在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多次重复验证的过程，就会发现模型在训练集上的表现并不固定，会出现波动，这些波动越大，它的方差就越大

协方差主要用来度量两个随机变量关系，如果结果为正值，则说明两者是正相关的；结果为负值，说明两者是负相关的；如果为0，就是统计上的“相互独立”

2.如何利用平均值和标准差判断数据的异常值

与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。在处理数据时，应剔除高度异常的异常值。异常值是否剔除，视具体情况而定

标准差可用于识别符合高斯或类高斯分布的数据中的异常值

3.何为正则化?其功能是什么?

正则化是为了避免过拟合的手段。正则化为了结构风险最小化，在经验风险上加一个正则化项或惩罚项，正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大

4.常见的数据概率分布有哪些?

均匀分布、正态分布、t分布、卡方分布、F-分布、二项分布、0-1分布、Poisson分布

5.损失函数和风险函数的含义和作用是什么?

损失函数是关于模型计算结果f（x）和样本实际目标结果Y的非负实值函数，记作L（y，f（x）），用它来解释模型在每个样本实例上的误差损失函数的值越小，说明预测值与实际值越接近，即模型的拟合效果越好

L（y，f（x））可以被认为是模型的经验风险，是模型关于训练样本集的平均损失。通常情况下，经验风险也可以训练数据集的损失函数来确定

损失函数反映了模型预测结果和实际结果之间的差距，理解损失函数的本质有助于对算法进行优化，需要结合业务目标和数据特点对问题本质进行理解，并用数学公式进行抽象，