机器学习试卷——中南大学
2020年中山大学《机器学习》期末练习题1.docx

下列各题每个大题10分,共8道大题,卷面总分80分注意:在给出算法时,非标准(自己设计的)部分应给出说明。
特别是自己设置的参数与变量的意义要说明。
1.下面是一个例子集。
其中,三个正例,一个反例。
“P”为正例、“N”为反例。
这些例子是关于汽车的。
例子有4个属性, 分别是“产地”、“生产商”、“颜色”、“年代”。
其中:“产地”的值域为0、“生产商”的值域为(,)、“颜色”的值域为0、“年代”的值域为(1980,1990)o这里规定“假设”的形式为4个属性值约束:的合取:每个约束可以为:一个特定值(比如、等)、?(表示接受任意值)和(表示拒绝所有值)。
例如,下面假设:表示日本生产的、红色的汽车。
1)根据上述提供的训练样例和假设表示,手动执行候选消除算法。
特别是要写出处理了每一个训练样例后变型空间的特殊和一般边界;2)列出最后形成的变型空间中的所有假设O2.写出3算法。
(要求:除标准3算法外,要加入“未知属性值” 和“过适合”两种情况的处理)。
3.给出•个求最小属性了∙集的算法。
4.给定训练例子集如下表。
依据给定的训练例子,使用朴素贝叶斯分类器进行分类。
给定类别未知例子〈高度=矮,头发=红,眼睛=兰>,计算这个例子的类别。
(计算类别时要先列出式子,然后再代入具体的数)o5.给定线性函数7w = W% + W r t1 + ... + H;I X(I与误差定义E = ' χσω -.7i∙v))2其中,X,是例子X的第i个属性值,f(x)是目标函数,D是训练例子集合。
请给出一个算法,这个算法能求出一组值,使得线性函数/U)逼近目标函数f(x)(本题要求写出算法的步骤,第.法步骤的详细程度要符合书中算法的标准)。
6.给定例子集(如下表),要求:1)用平面图直观画出例子的分布:2)给出一种规则好坏的评判标准:3)写出概念聚类算法。
7.简述题D简述“机器发现”的三个定律:2)、、是分析学习和归纳学习结合的三个算法。
(含答案)机器学习第一阶段测试题

机器学习第一阶段测试题一、选择题1.以下带佩亚诺余项的泰勒展开式错误的一项是(D)A.)x (o x !x !x e x 33231211++++= B.)x (o x *x x arcsin 33321++=C.)x (o x !x !x x sin 5535131++-= D.)x (o x !x !x cos 44241211+-+=分析:)x (o x !x !x cos 44241211++-=2.以下关于凸优化的说法错误的一项是(C )A.集合C 任意两点间线段均在集合C 内,则C 为凸集B.集合C 的凸包是能够包含C 的最小凸集C.多面体不一定是凸集D.线性变换能保持原集合的凸性分析:多面体是指有限半空间和超平面的交集,多面体一定是凸集3.以下说法错误的一项是(C )A.当目标函数是凸函数时,梯度下降法的解是全局最优解B.进行PCA 降维时需要计算协方差矩阵C.沿负梯度下降的方向一定是最优的方向D.利用拉格朗日函数能解带约束的优化问题分析:沿负梯度方向是函数值下降最快的方向但不一定是最优方向4.K-means 无法聚以下哪种形状样本?()A.圆形分布B.螺旋分布C.带状分布D.凸多边形分布分析:基于距离的聚类算法不能聚非凸形状的样本,因此选B5.若X 1,X 2,...X n 独立同分布于(2σ,μ),以下说法错误的是(C )A.若前n 个随机变量的均值,对于任意整数ε,有:B.随机变量的收敛到标准正态分布C.随机变量收敛到正态分布D.样本方差其中样本均值分析:A:大数定理概念;B、C:中心极限定理概念;C 错,应该收敛到正态分布D:样本的统计量公式二、公式推理题1.请写出标准正态分布的概率密度函数、期望、以及方差分析:概率密度函数:2221x e π)x (f -=;期望:0=)x (E ;方差:1=)x (D 2.请根据表中的分类结果混淆矩阵给出查准率(准确率)P 和查全率(召回率)R 的计算公式真实情况预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)分析:FP TP TP P +=,NF TP TP R +=三、简答题1.求函数y ln x )y ,x (f 32+=的梯度向量分析:)y)y ,x (f ,x )y ,x (f ()y ,x (f ∂∂∂∂=∇,所以答案为(2x,3/y)∑==n i i n X n Y 111=<-∞→}ε|μY {|P lim n n σn μn X Y n i i n -=∑=1∑==n i i n X Y 1)σ,μ(N 2∑=--=n i i )X X (n S 1211)σn ,μn (N 2∑==n i i X n X 112.列举你知道的无约束最优化方法(至少三个),并选一种方法进行详细介绍分析:梯度下降法,牛顿法,拟牛顿法,共轭梯度法...(介绍略)3.请简要叙述正则化项中的L1和L2方法分析:1正则化和L2正则化可以看做是损失函数的惩罚项。
中南大学人工智能考试试卷

中南大学人工智能考试试卷1、下面哪个选项不属于按照形态分类的机器人?() [单选题] *A.仿人智能机器人B.拟物智能机器人C.对话机器人(正确答案)D.仿生机器人2、下面哪项不属于机器人常用的感觉传感器?() [单选题] *A.按钮(正确答案)B.视觉C.听觉D.触觉3、下面哪个选项不属于按照使用途径分类的机器人?() [单选题] *A.工业生产型机器人B.特殊灾害型机器人C.医疗机器人D.行走机器人(正确答案)4、下面哪个选项不属于按照智能程度分类的机器人?() [单选题] *A.初级智能机器人B.家庭智能陪护机器人C.高级智能机器D.农业机器人(正确答案)5、机器人一般按哪两种方式工作?() *A.将程序事先写好在存储器中(正确答案)B.示教-再现方式(正确答案)C.手动控制D.自我学习6、下面哪些选项属于机器人常用的传感器? *A.碰撞传感器(正确答案)B.激光雷达传感器(正确答案)C.视觉传感器(正确答案)D.超声传感器(正确答案)7、麦克风传感器可用于检测语音? [判断题] *对(正确答案)错8、热释电传感器可用于检测温度? [判断题] *对错(正确答案)9、碰撞传感器用于检测障碍物时使用? [判断题] *对(正确答案)错10、激光雷达传感器可用于获取障碍物的精确位置? [判断题] *对(正确答案)错11、自然语言理解,又称(),是人工智能的一个重要分支,属于计算机科学的一部分 [单选题] *A.人机对话(正确答案)B.人机交互C.语言合成D.语言生成12、下面哪个选项不属于自然语言理解的常用任务?() [单选题] *A.中文文本分词B.文本表示C.命名实体识别D.文本情感识别(正确答案)13、自然语言处理领域具有两个鲜明特征:一是(),二是真实可用性 [单选题] *A.小规模性B.大规模性(正确答案)C.乱序性D.有序性14、要想提取出“有用”的信息,仅提取关键词、统计词频等是远远不够的,必须对用户数据(尤其是发言、评论等)进行()。
机器学习与深度学习框架考核试卷

C. RMSprop
D.学习率衰减
8.以下哪些技术可以用于改善神经网络训练过程?()
A.梯度消失
B.梯度爆炸
C. Batch Normalization
D.参数共享
9.以下哪些框架支持GPU加速计算?()
A. TensorFlow
B. PyTorch
C. Caffe
D. Theano
10.以下哪些方法可以用于处理不平衡数据集?()
B. LSTM
C. CNN
D. Transformer
17.以下哪些技术可以用于提升神经网络的可解释性?()
A.可视化技术
B. attention机制
C. LIME
D. SHAP
18.以下哪些是深度学习中的预训练方法?()
A.零样本学习
B.迁移学习
C.对抗性学习
D.自监督学习
19.以下哪些是强化学习的主要组成部分?()
7.词嵌入(或词向量)
8.泛化
9.数据增强
10. ROC
四、判断题
1. ×
2. √
3. ×
4. ×
5. √
6. ×
7. ×
8. √
9. ×
10. √
五、主观题(参考)
1.机器学习是利用算法让计算机从数据中学习,深度学习是机器学习的一个分支,使用多层神经网络进行学习。深度学习在实际应用中的例子有:自动驾驶汽车中的图像识别系统。
()
9.在深度学习中,为了防止过拟合,我们可以在训练过程中对输入数据进行______。
()
10.在模型评估中,______曲线可以用来评估分类模型的性能,尤其是对于不平衡数据集。
()
2022机器学习专项测试试题及答案

2022机器学习专项测试试题及答案1.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。
()A.数据清洗A、数据清洗B.数据分析C.模型训练(正确答案)D.模型搭建2.机器翻译属于下列哪个领域的应用?() *A.自然语言系统(正确答案)A. 自然语言系统(正确答案)B.机器学习C.专家系统D.人类感官模拟3.为了解决如何模拟人类的感性思维, 例如视觉理解、直觉思维、悟性等, 研究者找到一个重要的信息处理的机制是()。
*A.专家系统B.人工神经网络(正确答案)C.模式识别D.智能代理4.要想让机器具有智能, 必须让机器具有知识。
因此, 在人工智能中有一个研究领域, 主要研究计算机如何自动获取知识和技能, 实现自我完善, 这门研究分支学科叫()。
*A. 专家系统A.专家系统B. 机器学习(正确答案)C. 神经网络D. 模式识别5.如下属于机器学习应用的包括()。
*A.自动计算, 通过编程计算 456*457*458*459 的值(正确答案)A. 自动计算,通过编程计算 456*457*458*459 的值(正确答案)A.自动计算,通过编程计算 456*457*458*459 的值(正确答案)B.文字识别, 如通过 OCR 快速获得的图像中出汉字, 保存为文本C.语音输入, 通过话筒将讲话内容转成文本D.麦克风阵列, 如利用灵云该技术实现远场语音交互的电视6.对于神经网络模型, 当样本足够多时, 少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小, 这属于()。
*A. 泛化能力A.泛化能力B. 容错能力(正确答案)C. 搜索能力D. 非线性映射能力7.下列选项不属于机器学习研究内容的是() *A. 学习机理A.学习机理B. 自动控制(正确答案)C. 学习方法D. 计算机存储系统8.机器学习的经典定义是: () *A.利用技术进步改善系统自身性能A. 利用技术进步改善系统自身性能B.利用技术进步改善人的能力C.利用经验改善系统自身的性能(正确答案)D.利用经验改善人的能力9.研究某超市销售记录数据后发现, 买啤酒的人很大概率也会购买尿布, 这种属于数据挖掘的那类问题()。
机器学习基础知识试题

机器学习基础知识试题一、选择题1. 机器学习的主要目标是什么?A. 让机器能够像人一样思考B. 让机器能够自动学习C. 提高计算机的运算速度D. 使机器具备无限的记忆能力2. 哪个是监督学习的主要特点?A. 需要标记好的训练数据B. 无需人工干预C. 机器能独立学习D. 只能处理分类问题3. 以下哪个属于非监督学习?A. 图像分类B. 垃圾邮件过滤C. 聚类分析D. 情感分析4. 在机器学习中,过拟合指的是什么?A. 模型无法适应新的数据B. 模型在训练集上表现较好,在测试集上表现较差C. 模型无法收敛D. 模型的准确率低5. 以下哪个是机器学习中常用的性能评估指标?A. 准确率B. 召回率C. F1值D. 所有选项都正确二、填空题1. 机器学习是一门研究怎样使计算机能够__________的科学。
2. 监督学习中,训练数据包括__________和__________。
3. __________是一种无监督学习算法,用于将数据分成相似的组或簇。
4. 过拟合是指模型在训练集上过度学习,导致在测试集上_____________。
5. 准确率是用来评估__________模型性能的指标。
三、简答题1. 请简要解释机器学习中的模型训练过程。
2. 什么是特征工程?为什么它在机器学习中很重要?3. 请解释交叉验证的概念及其作用。
4. 解释机器学习中的偏差和方差之间的关系。
5. 什么是集成学习?如何应用于机器学习中?四、应用题假设你是一个房地产公司的数据科学家,公司希望使用机器学习模型来预测未来一年的房屋价格。
你被要求开发一个模型,基于房屋的相关特征,帮助公司预测房屋的售价。
1. 请列举至少五个可能有用的特征,用于训练模型。
2. 你认为是分类问题还是回归问题?为什么?3. 你将如何评估你开发的模型的性能?4. 请描述你将如何使用交叉验证来提高模型的泛化能力。
5. 除了单一的机器学习模型,你可以考虑使用哪些集成学习方法来提高预测性能?答案:一、选择题1. B2. A3. C4. B5. D二、填空题1. 自动学习2. 特征、标签3. 聚类分析4. 表现较差5. 分类器三、简答题1. 模型训练过程包括选择合适的算法和模型结构、准备训练数据、使用训练数据对模型进行训练、评估模型性能以及根据评估结果调整模型参数。
中南大学大数据编程试卷

中南大学大数据编程试卷试题一选择题以下哪个不是大数据的特色(c)A.价值密度低B.数据种类众多C.接见时间短D.办理速度快当前大数据技术的基础是由( C)第一提出的。
A:电信B.C:互联网D:公共管理依照不同样的业务需求来成立数据模型, 抽取最有意义的向量,决定采用哪一种方法的数据解析角色人员是(C)。
A: 数据管理人员B: 数据解析员C:研究科学家D:软件开发工程师(C)反响数据的精巧化程度,越细化的数据,价值越高。
A:规模B:活性C:颗粒度D:关系度智能健康手环的应用开发,表现了(C)的数据收集技术的应用。
A:统计报表B:网络爬虫C:传感器D:API接口以下关于数据重组的说法中,错误的选项是(C)A:数据重组实现的要点在于多源数据交融和数据集成B: 数据重组能够使数据焕发新的光芒C:数据重组是数据的重新生产和重新收集D:数据重组有利于实现奇特的数据模式创新智慧城市的成立,不包含(C)A:数字城市B:物联网C:联网盖控D:云计算当前社会中,最为突出的大数据环境是(C)。
A 综合国力B:物联网C 互联网D:自然资温判断题关于大数据而言,最基本。
最重要的是要求就是减少错误、保证质量。
因此,大数据收集的信息要尽量精确。
(对)关于大数据而言, 在数据规模上重申相对数据而不是绝对数据。
(对)大数据的营销模式和传统营销模式,传统营销模式比大数据营销模式投入更小(错)大数据拥有体量大、结构单一、时效性强的特色(对)简答题大数据发展过程中遇到的问题有哪些?解析:(1)大数据是全数据,恕视甚至部视抽样:(2)连续数据就是大数据:(3)数据量级大是大数据:(4)数据量大好于量小。
咸鱼APP 在投入使用发展过程中有哪些不足之处?解析:(1)交易相信危机(2)物流问题(3)商品的售后及维修问题。
中南大学人工智能考试试卷及复习资料

中南大学考试试卷2006年第2学期,考试时间110分钟人工智能课程48学时,3学分,考试形式:开卷专业年级:计算机03级总分100分,占总评成绩70 % 注:此页不作答题纸,请将答案写在答题纸上一、选择题(共20分,每题2分)1、消解原理是一种用于A、表达式变换的推理规则B、变量运算的推理规则C、一定的子句公式的推理规则 D 、规则演绎的推理规则2、下列哪个系统属于新型专家系统?A、多媒体专家系统B、实时专家系统C、军事专家系统D、分布式专家系统3、示例学习属于下列哪种学习方法?A. 解释学习B. 归纳学习C. 类比学习D. 机械学习4、不属于神经网络常用学习算法的是:A. 有师学习B. 增强学习C. 观察与发现学习D. 无师学习5、人工智能应用研究的两个最重要最广泛领域为:A. 专家系统、自动规划B. 专家系统、机器学习C. 机器学习、智能控制D. 机器学习、自然语言理解6、下列搜索方法中不属于盲目搜索的是:A. 等代价搜索B. 宽度优先搜索C. 深度优先搜索D. 有序搜索7、被认为是人工智能“元年”的时间应为:A、1948年B、1946年C、1956年D、1961年8、被誉为国际“人工智能之父”的是:A、图灵(Turing)B、费根鲍姆(Feigenbaum)C、傅京孙(K.S.Fu)D、尼尔逊(Nilsson)9、语义网络的组成部分为:A、框架和弧线B、状态和算符C、节点和链D、槽和值10、尽管人工智能学术界出现“百家争鸣”的局面,但是,当前国际人工智能的主流派仍属于:A、连接主义B、符号主义C、行为主义D、经验主义二、填空题(共20分,每一填空处1分)1、机器学习系统由____________、____________、____________和____________几部分构成。
2、人工智能是计算机科学中涉及研究、设计和应用____________的一个分支,它的近期目标在于研究用机器来____________的某些智力功能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、判断题
(1)极大似然估计是无偏估计且在所有的无偏估计中方差最小,所以极大似然估计的风险最小。
(2)回归函数A和B,如果A比B更简单,则A几乎一定会比B在测试集上表现更好。
(3)全局线性回归需要利用全部样本点来预测新输入的对应输出值,而局部线性回归只需利用查询点附近的样本来预测输出值。
所以全局线性回归比局部线性回归计算代价更高。
(4)Boosting的一个优点是不会过拟合。
(5)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso模型计算量小,且Lasso也可以实现特征选择。
(6)梯度下降有时会陷于局部极小值,但EM算法不会。
(7)支持向量机是判别模型。
T
(8)ICA方法对于高斯分布的数据也有效。
F
(9)回归问题属于非监督学习的一种方法。
F
(10)聚类算法中不需要给出标签y。
T
二、考虑一个二分类器问题(Y为1或0),每个训练样本X有两个特征X1、X2(0或1)。
给出P(Y=0)=P(Y=1)=0.5,条件概率如下表:
分类器预测的结果错误的概率为期望错误率,Y是样本类别的实际值,Y'(X1,X2)为样本类别的预测值,那么期望错误率为:
(2)计算给定特征(X1,X2)预测Y的期望错误率,假设贝叶斯分类器从无限的训练样本中学习所得。
(3)下面哪个有更小的期望错误率?
a、仅仅给出X1,采用贝叶斯分类器预测Y。
b、仅仅给出X2,采用贝叶斯分类器预测Y。
(4)给出一个新的特征X3,X3的与X2保持完全相同,现在计算给定(X1,X2,X3)采用贝叶斯分类器预测Y的期望错误率,假设分类器从无限的训练数据中学习所得。
(5)使用贝叶斯分类器会产生什么问题,为什么?
三、交叉验证
1、4. 给定如下数据集,其中X为输入变量,Y为输出变量。
假设考虑采用k-NN 算法
对x对应的y进行预测,其中距离度量采用不加权的欧氏距离。
(12分)
(1)算法1-NN的训练误差的是多少?(用分类错误的样本数目表示即可,下同)
(2)算法3-NN的训练误差是多少?
(3)算法1-NN的LOOCV(留一交叉验证)估计误差是多少?
(4)算法3-NN的LOOCV(留一交叉验证)估计误差是多少?
四、用最大似然估计的方法估计高斯分布的均值和方差,并指出其局限性。
五、随着信息化的发展,大数据的时代已经到来。
海量的文本、图像、视频数据存在于互联网上,请结合自己的科研背景和兴趣,探讨机器学习方法如何在大数据分析、处理中应用。
(20分)。