机器学习(慕课版)习题答案全集

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习(慕课版)习题答案

目录

第一章机器学习概述 (2)

第二章机器学习基本方法 (5)

第三章决策树与分类算法 (9)

第四章聚类分析 (13)

第五章文本分析 (17)

第六章神经网络 (22)

第七章贝叶斯网络 (26)

第八章支持向量机 (31)

第九章进化计算 (32)

第十章分布式机器学习 (34)

第十一章深度学习 (35)

第十二章高级深度学习 (37)

第十三章推荐系统 (39)

第一章机器学习概述

1.机器学习的发展历史上有哪些主要事件?

机器学习发展分为知识推理期、知识工程期、浅层知识期和深度学习几个阶段,可从几个阶段选择主要历史事件作答。

2.机器学习有哪些主要的流派?它们分别有什么贡献?

符号主义:专家系统、知识工程

贝叶斯派:情感分类、自动驾驶、垃圾邮件过滤

联结主义:神经网络

进化主义:遗传算法

行为类推主义

3.讨论机器学习与人工智能的关系

机器学习是人工智能的一个分支,作为人工智能核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题

4.讨论机器学习与数据挖掘的关系

数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。机器学习最近几年也逐渐跳出实验室,解决从实际的数据中学习模式,解决实际问题。数据挖掘和机器学习的交集越来越大,机器学习成为数据挖掘的重要支撑技术

5.讨论机器学习与数据科学、大数据分析等概念的关系

数据科学主要包括两个方面:用数据的方法研究科学和用科学的方法研究数据。前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。大数据分析即是后者的一个部分。一般使用机器学习这个工具做大数据的分析工作,也就是说机器学习是我们做大数据分析的一个比较好用的工具,但是大数据分析的工具并不止机器学习,机器学习也并不只能做大数据分析

6.机器学习有哪些常用的应用领域?请举例说明其应用

艺术创作、金融领域、医疗领域、自然语言处理、网络安全、工业领域、娱乐行业。举例略

7.机器学习能解决哪些问题?每一类使用的常用方法有哪些?举例说明其应用

监督学习:

分类:逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯

数字预测:线性回归、KNN、Gradient Boosting、AdaBoost

无监督学习:聚类、关联分析

强化学习

8.举例说明机器学习的基本过程,并举例说明基本步骤各有哪些方法。

定义分析目标、收集数据、数据预处理、数据建模、模型训练、模型评估、模型应用

9.讨论数据数量和质量对机器学习的影响。

机器学习需要一定数量的数据作为支撑。数据量过多会耗费更多的计算资源,还可能有不平衡数据集、维度灾难等问题。数据量过少会导致机器学习的准确率下降,甚至不能完成学习的目标。数据数量和质量问题会导致过拟合或欠拟合的现象,优秀的数据集对机器学习的结果影响是决定性的

10.讨论深度学习的发展对推动机器学习的意义

深度学习需要大量的标记数据并需要大量的计算能力,因此深度学习可以较好地应对机器学习中大规模数据集,为机器学习提供了解决复杂问题的方法

11.讨论目前机器学习应用中存在的主要问题

选择什么模型或算法、选择什么优化方法、如何对数据进行预处理、目标函数是什么、过拟合与欠拟合的处理、维度爆炸

12.从机器学习的发展过程讨论其未来的发展方向

新的机器学习算法面临的问题更加复杂,应用领域更加广泛,从广度到深度发展,对模型训练和应用都提出了更高的要求。随着人工智能的发展,冯诺依曼的有限状态机的理论基础越

来越难以适应神经网络的层数要求,新的机器学习理论发展也迫在眉睫

第二章机器学习基本方法

1.什么是标准差、方差和协方差?它们反映了数据的什么内容?

标准差描述是样本集合的各个样本点到均值的距离分布,描述的是样本集的分散程度

在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多次重复验证的过程,就会发现模型在训练集上的表现并不固定,会出现波动,这些波动越大,它的方差就越大

协方差主要用来度量两个随机变量关系,如果结果为正值,则说明两者是正相关的;结果为负值,说明两者是负相关的;如果为0,就是统计上的“相互独立”

2.如何利用平均值和标准差判断数据的异常值

与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定

标准差可用于识别符合高斯或类高斯分布的数据中的异常值

3.何为正则化?其功能是什么?

正则化是为了避免过拟合的手段。正则化为了结构风险最小化,在经验风险上加一个正则化项或惩罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大

4.常见的数据概率分布有哪些?

均匀分布、正态分布、t分布、卡方分布、F-分布、二项分布、0-1分布、Poisson分布

5.损失函数和风险函数的含义和作用是什么?

损失函数是关于模型计算结果f(x)和样本实际目标结果Y的非负实值函数,记作L(y,f(x)),用它来解释模型在每个样本实例上的误差损失函数的值越小,说明预测值与实际值越接近,即模型的拟合效果越好

L(y,f(x))可以被认为是模型的经验风险,是模型关于训练样本集的平均损失。通常情况下,经验风险也可以训练数据集的损失函数来确定

损失函数反映了模型预测结果和实际结果之间的差距,理解损失函数的本质有助于对算法进行优化,需要结合业务目标和数据特点对问题本质进行理解,并用数学公式进行抽象,

相关文档
最新文档