《人工神经网络:模型、算法及应用》习题参考答案
人工神经网络原理第8章习题参考答案

1.人工神经网络适合于解决哪些问题?试举例说明。
人工神经网络技术在处理对内部规律不甚了解,也不能用一组规则和方程等数学表达式描述的较为复杂的问题时具有一定的优越性,尤其对容错性有一定要求的任务,例如图形的检测与识别、诊断、特征提取、推论等,人工神经网络都是比较合适的处理手段,对于上述任务,即使输入数据是模糊的或不完善的,人工神经网络仍然能够对其进行处理。
示例略。
2.一个人工神经网络应用的开发要经过哪些阶段?明确需求、选取模型、设计神经网络节点、设计神经网络结构、设计神经网络训练算法、选择训练和测试样本、网络训练与测试、实现神经网络。
3.若要用神经网络实现对0~9十个数字字符的识别,应当如何选取适当的人工神经网络模型?参见表8-1,可以选择BP、Hopfield等神经网络模型。
4.若要实现一个简单的交通标志识别系统,应当如何选取适当的人工神经网络模型?参见表8-1,可以选择BP、Hopfield等神经网络模型。
5.若有一个私人医生,每天可接受10个预约病人的上门服务。
若要为该医生设计一条当天的巡诊路线,以使该医生的巡诊距离最短,应当如何选取适当的人工神经网络模型?这是一个优化问题,可以选择Hopfield神经网络。
6.试述对习题2、3、4中选取的人工神经网络模型进行设计开发的全过程。
略。
7.有如下几种模型,其特性如表8-4所示。
表8-4 人工神经网络模型的基本性能若要开发一个贷款评估人工神经网络,要求能够根据借贷申请人的月收入、生活费用支出、房租、水、电、交通费用支出及其他费用支出来实时地分析这一贷款申请是否合格。
如合格,则批准申请给予贷款,否则给予拒绝。
请从表8-4列出的人工神经网络模型中选择一个适合该贷款评估应用的模型,并阐明原因。
可根据输出类型(例如,此题是一个分类问题,而不是优化问题)、训练方法、要求的训练时间和执行时间等选取各项指标都符合具体需求的模型。
此题只是一个示例,让读者掌握如何选取适当的人工神经网络模型,具体选取过程略。
人工神经网络原理与实践课后答案

人工神经网络原理与实践课后答案
1、根据自己的体会,列举人脑与计算机信息处理能力有哪些不同?
答:电脑仅仅只能按入给定的程序进行简单的逻辑运算,尽管电脑的运算速度非常快,这种速度虽然人无法冀及;但电脑无论如何无法在没有预定程序的前提下工作,换言之电脑是没有思维功能的;先进的电脑或许有简单的(相对于人脑)逻辑思维功能,但那也是人脑通过无数的赋值程序赋于的。
电脑或许能按照人赋于的程序造出人脑,但它绝对不可能不受人脑编制的程序控制(或间接或直接)。
电脑只能代替人脑的一小部分简单的逻辑运算,它无法代替人进行创造性思维。
2、神经网络的功能特点是由什么决定的?
答:神经网络的功能特点决定性因素可以从结构和能力两方面来看:结构方面处理单元的高度并行性与分布性、能力方面神经网络能通过自动调整网络结构参数使得对于给定输入能产生期望的输出。
3、根据人工神经网络的特点,你认为它善于解决哪类问题?
答:神经网络的基本特点可以分为结构、性能和能力口个方面:信息处理的并行性、信息存储的分布性、信息处理单元的互联性、结构可塑性;高度的非线性、量哈奥的容错性和计算的非精确性;自学习、自组织与自适应性。
神经网络技术与应用程序题答案

《神经网络技术与应用》程序题答案(总15页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--《神经网络技术与应用》试题1.人工神经网络常用的学习方法有哪些各有哪些特点(10分)2.简述感知器的网络结构、工作原理及主要应用领域。
(10分)3.试推导三层前馈网络BP 算法权值修改公式,并用BP 算法学习如下函数: x e x x x x f 25sin 2cos )(+++=,55≤≤-x基本步骤如下:(1)在区间]55[,-上均匀选取N 个点(N 自行设定),计算)(x f 的实际值,并由此组成网络的样本集;(2)自行构造前馈网络结构,用BP 算法和样本集训练网络,使网络误差小于某个很小的正数ε;(3)在区间]55[,-上随机选取M 个点(N M >,最好为非样本点),用学习后的网络计算这些点的输出值,并与这些点的理想输出值比较,绘制误差曲线;(4)说明不同的N 、ε值对网络学习效果的影响。
(15分)4.简述CMAC 网络的结构及特点。
(10分)5.试用RBF 网络学习一下函数(步骤可参看第3题):2121222132312157623x x x x x x x x )x ,x (f ++++++= 其中:551≤≤-x ,552≤≤-x 。
若输入信号的分辨率不同时,对算法的收敛过程有何影响。
(15分)6.用Hopfield 网络对如下字符进行识别:字符“0”字符“1”字符“2”字符“3”字符“4”字符“6”字符“ 字符“9”(1)试确定网络结构和网络权值;(2)将污染率为10%字符“0”、“1”、“2”、“3”(随机设定)输入网络,给出网络收敛后的结果。
(3)将污染率为20%字符“4”、“6”、“9”(随机设定)输入网络,给出网络收敛后的结果。
(20分)7.简述ART-1网络的结构和工作过程。
(10分)8.结合自己的研究方向,谈谈如何应用神经网络理论和知识解决面临的实际问题,要求给出实例。
人工神经网络单选练习题

人工神经网络单选练习题一、基本概念1. 下列关于人工神经网络的描述,正确的是:A. 人工神经网络是一种静态的计算模型B. 人工神经网络可以模拟人脑的神经元连接方式C. 人工神经网络只能处理线性问题D. 人工神经网络的学习过程是监督式的2. 下列哪种算法不属于人工神经网络?A. 感知机算法B. 支持向量机算法C. BP算法D. Hopfield网络3. 人工神经网络的基本组成单元是:A. 神经元B. 节点C. 权重D. 阈值二、前向传播与反向传播4. 在前向传播过程中,下列哪个参数是固定的?A. 输入值B. 权重C. 阈值D. 输出值5. 反向传播算法的主要目的是:A. 更新输入值B. 更新权重和阈值C. 计算输出值D. 初始化网络参数6. 下列关于BP算法的描述,错误的是:A. BP算法是一种监督学习算法B. BP算法可以用于多层前馈神经网络C. BP算法的目标是最小化输出误差D. BP算法只能用于解决分类问题三、激活函数7. 下列哪种激活函数是非线性的?A. 步进函数B. Sigmoid函数C. 线性函数D. 常数函数8. ReLU激活函数的优点不包括:A. 计算简单B. 避免梯度消失C. 提高训练速度D. 减少过拟合9. 下列哪种激活函数会出现梯度饱和现象?A. Sigmoid函数B. ReLU函数C. Tanh函数D. Leaky ReLU函数四、网络结构与优化10. 关于深层神经网络,下列描述正确的是:A. 深层神经网络一定比浅层神经网络效果好B. 深层神经网络更容易过拟合C. 深层神经网络可以减少参数数量D. 深层神经网络训练速度更快11. 下列哪种方法可以降低神经网络的过拟合?A. 增加训练数据B. 减少网络层数C. 增加网络参数D. 使用固定的学习率12. 关于卷积神经网络(CNN),下列描述错误的是:A. CNN具有局部感知能力B. CNN具有参数共享特点C. CNN可以用于图像识别D. CNN无法处理序列数据五、应用场景13. 下列哪种问题不适合使用人工神经网络解决?A. 图像识别B. 自然语言处理C. 股票预测D. 线性规划14. 下列哪个领域不属于人工神经网络的应用范畴?A. 医学诊断B. 金融预测C. 智能家居D. 数值计算15. 关于循环神经网络(RNN),下列描述正确的是:A. RNN无法处理长距离依赖问题B. RNN具有短期记忆能力C. RNN训练过程中容易出现梯度消失D. RNN只能处理序列长度相同的数据六、训练技巧与正则化16. 下列哪种方法可以用来防止神经网络训练过程中的过拟合?A. 提前停止B. 增加更多神经元C. 减少训练数据D. 使用更大的学习率17. 关于Dropout正则化,下列描述错误的是:A. Dropout可以减少神经网络中的参数数量B. Dropout在训练过程中随机丢弃一些神经元C. Dropout可以提高模型的泛化能力D. Dropout在测试阶段不使用18. L1正则化和L2正则化的主要区别是:A. L1正则化倾向于产生稀疏解,L2正则化倾向于产生平滑解B. L1正则化比L2正则化更容易计算C. L2正则化可以防止过拟合,L1正则化不能D. L1正则化适用于大规模数据集,L2正则化适用于小规模数据集七、优化算法19. 关于梯度下降法,下列描述正确的是:A. 梯度下降法一定会找到全局最小值B. 梯度下降法在鞍点处无法继续优化C. 梯度下降法包括批量梯度下降、随机梯度下降和小批量梯度下降D. 梯度下降法的学习率在整个训练过程中保持不变20. 下列哪种优化算法可以自动调整学习率?A. 随机梯度下降(SGD)B. Adam优化算法C. Momentum优化算法D. 牛顿法21. 关于Adam优化算法,下列描述错误的是:A. Adam结合了Momentum和RMSprop算法的优点B. Adam算法可以自动调整学习率C. Adam算法对每个参数都使用相同的学习率D. Adam算法在训练初期可能会不稳定八、损失函数22. 在分类问题中,下列哪种损失函数适用于二分类问题?A. 均方误差(MSE)B. 交叉熵损失函数C. Hinge损失函数D. 对数损失函数23. 关于均方误差(MSE)损失函数,下列描述错误的是:A. MSE适用于回归问题B. MSE对异常值敏感C. MSE的输出范围是[0, +∞)D. MSE损失函数的梯度在接近最小值时趋近于024. 下列哪种损失函数适用于多分类问题?A. 交叉熵损失函数B. Hinge损失函数C. 对数损失函数D. 均方误差(MSE)九、模型评估与超参数调优25. 下列哪种方法可以用来评估神经网络的性能?A. 训练误差B. 测试误差C. 学习率D. 隐层神经元数量26. 关于超参数,下列描述正确的是:A. 超参数是在模型训练过程中自动学习的B. 超参数的值通常由经验丰富的专家设定C. 超参数的调整对模型性能没有影响D. 超参数包括学习率、批量大小和损失函数27. 关于交叉验证,下列描述错误的是:A. 交叉验证可以减少过拟合的风险B. 交叉验证可以提高模型的泛化能力C. 交叉验证会降低模型的训练速度D. 交叉验证适用于小规模数据集十、发展趋势与挑战28. 下列哪种技术是近年来人工神经网络的一个重要发展方向?A. 深度学习B. 线性回归C. 决策树D. K最近邻29. 关于深度学习,下列描述错误的是:A. 深度学习需要大量标注数据B. 深度学习模型通常包含多层神经网络C. 深度学习可以处理复杂的非线性问题D. 深度学习不适用于小规模数据集30. 下列哪种现象是训练深度神经网络时可能遇到的挑战?A. 梯度消失B. 参数过多C. 数据不平衡D. 所有上述选项都是挑战答案一、基本概念1. B2. B二、前向传播与反向传播4. B5. B6. D三、激活函数7. B8. D9. A四、网络结构与优化10. B11. A12. D五、应用场景13. D14. D15. C六、训练技巧与正则化16. A17. A18. A七、优化算法19. C20. B八、损失函数22. B23. D24. A九、模型评估与超参数调优25. B26. B27. D十、发展趋势与挑战28. A29. D30. D。
人工神经网络原理第4章习题参考答案

1. 试比较BP 学习算法与感知机学习算法的异同。
同:两种学习算法均基于纠错学习规则,采用有指导的学习方式,根据来自输出节点的外部反馈(期望输出)调整连接权,使得网络输出节点的实际输出与外部的期望输出一致。
异:感知机学习算法中,隐含层处理单元不具备学习能力,其模式分类能力仍然非常有限;而BP 学习算法采用非线性连续变换函数,使隐含层神经元具有了学习能力。
BP 学习算法基于最小均方误差准则,采用误差函数按梯度下降的方法进行学习,其学习过程分为模式顺传播,误差逆传播、记忆训练、学习收敛4个阶段。
2. 试述BP 神经网络有哪些优点和缺点。
优点:具有良好的非线性映射能力、泛化能力和容错能力。
缺点:学习算法的收敛速度慢;存在局部极小点;隐含层层数及节点数的选取缺乏理论指导;训练时学习新样本有遗忘旧样本的趋势。
3. 试举例说明BP 神经网络擅长解决哪些问题,并针对一个具体应用实例,描述BP 神经网络解决该问题的具体方案。
擅长解决函数拟合问题(例如,拟合多项式函数),线性与非线性的分类问题(例如,疾病病例分类),预测问题(例如,房屋价格预测),模式识别问题(例如,手写数字识别)。
具体应用实例及解决方案略。
4. 请给出一个BP 神经网络的具体应用实例。
略。
5. 什么是BP 神经网络的泛化能力?如何提高BP 神经网络的泛化能力?BP 神经网络的泛化能力是指BP 神经网络对未训练样本的逼近程度或对于未知数据的预测能力。
即:BP 神经网络学习训练完成后会将所提取的样本模式对中的非线性映射关系存储在网络连接权向量中,在其后的正常工作阶段,当向BP 神经网络输入训练时未曾见过的数据时,BP 神经网络也能够完成由输入模式到输出模式的正确映射。
提高BP 神经网络泛化能力的方法包括: 1) 增加训练集中的样本数; 2) 适当减少隐藏节点个数;3) 增加网络结构中的因子数(考虑更多可能影响结果的因子作为额外的输入项); 4) 对于选取的数据样本,要尽量保证包含拐点处的数据样本,同时尽可能保证相邻样本的变化率小于误差精度要求。
人工神经网络原理第7章习题参考答案

1.试述自组织神经网络中“自组织”的含义。
自组织神经网络采用类似于人类大脑生物神经网络的无指导学习方式,能够对外界未知环境进行学习或模拟,并对自身的网络结构进行调整,实现对输入模式的自动分类。
在调整网络结构时,网络按照预定的规则和输入模式,不断调整网络连接权值直至形成一种全局有序的结构,而这种全局有序的结构是通过网络中许多相邻神经元的局部相互作用形成的,这些相邻神经元之间的相互作用最终会使网络在空间模式或时间节奏上达成一致,这也是自组织的本质。
2. 若某一基本竞争神经网络的输入层有5个节点,竞争层有3个节点。
网络的6个学习模式为X 1=(1,0,0,0,0)T ,X 2=(1,0,0,0,1)T ,X 3=(1,1,0,1,0)T ,X 4=(1,1,0,1,1)T ,X 5=(0,0,1,1,0)T ,X 6=(0,0,1,1,1)T ,试计算这6个学习模式的汉明距离。
6个学习模式的汉明距离X 1 X 2 X 3 X 4 X 5 X 6 X 1 0 1 2 3 3 4 X 2 1 0 3 2 4 3 X 3 2 3 0 1 3 4 X 4 3 2 1 0 4 3 X 5 3 4 3 4 0 1 X 6434313. 采用竞争学习规则,通过训练将第2题中的6个学习模式进行分类,试比较训练后的分类结果和通过汉明距离得到分类结果。
按照前面描述的竞争学习规则对第2题的6个学习模式进行记忆训练,假定学习速率为0.5,网络的初始连接权值如下:⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=2.03.02.02.02.03.01.02.02.02.01.02.03.02.01.0W网络的学习过程如下:t =1 X 1=(1,0,0,0,0)T 竞争层各个神经元的净输入为 s 1=w 11x 1+w 21x 2+w 31x 3+w 41x 4+w 51x 5=0.1*1+0.2*0+0.2*0+0.3*0+0.2*0=0.1 s 2=w 12x 1+w 22x 2+w 32x 3+w 42x 4+w 52x 5=0.2*1+0.1*0+0.2*0+0.2*0+0.3*0=0.2 s 3=w 13x 1+w 23x 2+w 33x 3+w 43x 4+w 53x 5=0.3*1+0.2*0+0.1*0+0.2*0+0.2*0=0.3因此,竞争层各个神经元的输出为 y 1=0 y 2=0 y 3=1调整后的连接权如下 w 13=0.3+0.5*(1/1-0.3)=0.65 w 23=0.2+0.5*(0/1-0.2)=0.1 w 33=0.1+0.5*(0/1-0.1)=0.05 w 43=0.2+0.5*(0/1-0.2)=0.1 w 53=0.2+0.5*(0/1-0.2)=0.1t =2 X 2=(1,0,0,0,1)T 竞争层各个神经元的净输入为 s 1=w 11x 1+w 21x 2+w 31x 3+w 41x 4+w 51x 5=0.1*1+0.2*0+0.2*0+0.3*0+0.2*1=0.3 s 2=w 12x 1+w 22x 2+w 32x 3+w 42x 4+w 52x 5=0.2*1+0.1*0+0.2*0+0.2*0+0.3*1=0.5 s 3=w 13x 1+w 23x 2+w 33x 3+w 43x 4+w 53x 5=0.65*1+0.1*0+0.05*0+0.1*0+0.1*1=0.75因此,竞争层各个神经元的输出为 y 1=0 y 2=0 y 3=1 调整后的连接权如下w 13=0.65+0.5*(1/2-0.65)=0.575 w 23=0.1+0.5*(0/2-0.1)=0.05 w 33=0.05+0.5*(0/2-0.05)=0.025 w 43=0.1+0.5*(0/2-0.1)=0.05 w 53=0.1+0.5*(1/2-0.1)=0.3 t =3 X 3=(1,1,0,1,0)T 竞争层各个神经元的输入为 s 1=w 11x 1+w 21x 2+w 31x 3+w 41x 4+w 51x 5=0.1*1+0.2*1+0.2*0+0.3*1+0.2*0=0.6 s 2=w 12x 1+w 22x 2+w 32x 3+w 42x 4+w 52x 5=0.2*1+0.1*1+0.2*0+0.2*1+0.3*0=0.5 s 3=w 13x 1+w 23x 2+w 33x 3+w 43x 4+w 53x 5=0.575*1+0.05*1+0.025*0+0.05*1+0.3*0=0.675 因此,竞争层各个神经元的输出为y 1=0 y 2=0 y 3=1 调整后的连接权如下w 13=0.575+0.5*(1/3-0.575)=0.4542 w 23=0.05+0.5*(1/3-0.05)=0.1917 w 33=0.025+0.5*(0/3-0.025)=0.0125 w 43=0.05+0.5*(1/3-0.05)=0.1917 w 53=0.3+0.5*(0/3-0.3)=0.15 ……按照上述过程经过多次学习后,网络会得到如下分类结果,与通过汉明距离分析的结果完全一致。
机器学习与人工智能(人工神经网络)习题与答案

1.非线性机器学习算法具有以下的什么特性?A.针对难以用准则来描述的复杂模型B.能够达到更深层次的抽象C.能够进行广泛使用的分类算法D.以上都是正确答案:D2.神经网络的学习步骤包括:1、求得权重等参数,2、定义代价函数,3、对测试数据进行预测,4、根据样本数据和标签采用梯度下降法进行学习,步骤的正确顺序为:A.4213B.2413C.2143D.4123正确答案:B二、判断题1.单层感知器能对线形可分的数据集进行分类,能解决逻辑问题异或。
正确答案:×2.前馈神经网络中偏置单元可以有输入。
正确答案:×3.在某种意思上,小批量梯度下降算法是以迭代次数换取算法的运行速度。
正确答案:√4.神经网络中的神经元有两个状态:兴奋、抑制。
这两个状态由阈值决定。
正确答案:√5.前馈式神经网络层间有反馈。
6.小批量梯度下降法在迭代的每一步中,参数的更新只用了小批量样本的信息。
正确答案:√7.小批量梯度下降法和随机梯度下降算法收敛可能需要更多的迭代次数正确答案:√三、多选题1.使用均方误差作为代价函数,有什么特点?( )A.形式简单B.通俗易懂C.容易出现饱和现象D.容易陷入局部最优解正确答案:A、B、C、D2.感知器可以解决一下哪些问题?( )A.实现逻辑关系中的与B.实现逻辑关系中的或C.实现逻辑关系中的非D.线性分类和线性回归问题正确答案:A、B、C、D3.神经网络具有下面哪几个特点?( )A.能充分逼近复杂的非线性关系B.具有高度的容错能力C.具有自组织能力D.可以并行分布处理正确答案:A、B、C、D4.以下会造成梯度消失的激活函数有( )。
A.sigmoid函数B.tanh函数C.ReLU函数D.softplus函数正确答案:A、B四、填空1.在()模型中,每个神经元同时将自身的输出作为输入信号反馈给其他神经元。
正确答案:反馈神经网络。
人工智能概论习题答案第3章 人工神经网络作业 20210307

一、单项选择题1.人工神经网络是人工智能的三大流派思想中哪个流派的基础。
(B)A.符号主义B.连接主义(或称为仿生学派)C.行为主义D.逻辑推理主义2.以下关于感知器的说法错误的是(A)。
A.单层感知器可以解决异或问题B.感知器分类的原理是就是通过调整权重使两类不同的样本经过感知机模型后的输出不同C.单层感知器只能针对线性可分的数据集分类D.学习率可以控制每次权值调整力度3.人工神经网络的层数增加会出现梯度消失现象,其本质原因是(C)。
A.各层误差梯度相加导致B.各层误差梯度相减导致C.各层误差梯度相乘导致D.误差趋于饱和4.卷积层的主要作用是(A)A.提取图像特征B.降低输入维度C.解决梯度消失和梯度爆炸问题D.进行某种非线性变换二、多项选择题1.知识可以从以下哪几个维度来进行分类(AC)。
A.是否可统计B.是否可计算C.是否可推理D.是否可被人理解2.人工神经网络由许多神经元构成,M-P模型的主要特征包括(ABD)。
A.多输入单输出B.对输入加权求和C.具有树突和轴突D.具有激活函数3.卷积神经网络的结构主要包括(ABCD)。
A.卷积层B.池化层C.全连接层D.输入层三、判断题1.人工神经网络的层数是固定的,每层的神经元个数是不固定的(错)2.BP神经网络的误差是从前往后传播的(错)3.卷积神经网络的层数一般超过三层(对)四、简答题1.感知机是如何实现从数据中学习的?答:通过训练数据得到误差,再根据误差来调整权值,让再次计算训练数据得到的误差减小,最终达到无误差。
这时候得到的权值就称为学习到关于这些数据的知识。
2.什么是梯度,什么是梯度的方向?答:梯度就是把多元函数关于各个变量的偏导数放在一起构成的向量(也称为矢量)。
梯度方向表示当函数的各个变量都按照各自偏导数的比例进行增加时,各个增加量合起来构成的方向,是函数值变化最快的方向。
3.有A类物体和B类物体,均有两个类似的特征值。
以下有三个属于A类的样本,每个样本的特征值分别为[0.1, 1],[0.2, 0.7],[0.4, 0.8],样本标签用1表示;有三个属于B类的样本,其特征值分别为[0.8, 0.3],[0.9, 0.2],[1.0, 0.5],样本标签用0表示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
习题2.1什么是感知机?感知机的基本结构是什么样的?解答:感知机是Frank Rosenblatt在1957年就职于Cornell航空实验室时发明的一种人工神经网络。
它可以被视为一种最简单形式的前馈人工神经网络,是一种二元线性分类器。
感知机结构:2.2单层感知机与多层感知机之间的差异是什么?请举例说明。
解答:单层感知机与多层感知机的区别:1. 单层感知机只有输入层和输出层,多层感知机在输入与输出层之间还有若干隐藏层;2. 单层感知机只能解决线性可分问题,多层感知机还可以解决非线性可分问题。
2.3证明定理:样本集线性可分的充分必要条件是正实例点集所构成的凸壳与负实例点集构成的凸壳互不相交.解答:首先给出凸壳与线性可分的定义凸壳定义1:设集合S⊂R n,是由R n中的k个点所组成的集合,即S={x1,x2,⋯,x k}。
定义S的凸壳为conv(S)为:conv(S)={x=∑λi x iki=1|∑λi=1,λi≥0,i=1,2,⋯,k ki=1}线性可分定义2:给定一个数据集T={(x1,y1),(x2,y2),⋯,(x n,y n)}其中x i∈X=R n , y i∈Y={+1,−1} , i=1,2,⋯,n ,如果存在在某个超平面S:w∙x+b=0能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有的正例点即y i=+1的实例i,有w∙x+b>0,对所有负实例点即y i=−1的实例i,有w∙x+b<0,则称数据集T为线性可分数据集;否则,称数据集T线性不可分。
必要性:线性可分→凸壳不相交设数据集T中的正例点集为S+,S+的凸壳为conv(S+),负实例点集为S−,S−的凸壳为conv(S−),若T是线性可分的,则存在一个超平面:w ∙x +b =0能够将S +和S −完全分离。
假设对于所有的正例点x i ,有:w ∙x i +b =εi易知εi >0,i =1,2,⋯,|S +|。
若conv (S +)和conv (S −)相交,即存在某个元素s ,同时满足s ∈conv (S +)和s ∈conv (S −)。
对于conv (S +)中的元素s +有w ∙s +=w ∙∑λi x i k i=1=∑λi (εi −b )=k i=1∑λi εi −b ki=1因此w ∙s ++b =∑λi εi k i=1>0,同理对于S −中的元素s −有w ∙s −+b =∑λi εi k i=1<0,那么由于s ∈conv (S +)且s ∈conv (S −)则w ∙s ++b =∑λi εi k i=1>0且w ∙s −+b =∑λi εi k i=1<0明显推出矛盾,因此conv (S +)和conv (S −)必不相交。
从而推出必要性。
充分性:凸壳不相交→线性可分设数据集T 中的正例点集为S +,S +的凸壳为conv (S +),负实例点集为S −,S −的凸壳为conv (S −),且conv (S +)与conv (S −)不相交,定义两个点x 1,x 2的距离为:dist (x 1,x 2)=‖x 1−x 2‖2,√(x 1−x 2)(x 1−x 2)定义conv (S +)与conv (S −)的距离为:dist(conv (S +),conv (S −))=min ‖s +−s −‖,s +∈conv (S +),s −∈conv (S −)设x +∈conv (S +),x −∈conv (S −)且dist (x +,x −)=dist(conv (S +),conv (S −))。
则对于任意正例点x 有dist (x,x −)≥dist (x +,x −)。
同理,对于所有负例点有dist (x,x +)≥dist (x +,x −)。
存在超平面w ∙x +b =0其中w =x +−x −b =−x +∙x +−x −∙x −2则对于所有的正例点x (易知w ∙x ++b >0,因此若x +属于正例点,则令x ≠x )w ∙x +b =(x +−x −)∙x −x +∙x +−x −∙x −2=x +∙x −x −∙x −x +∙x +−x −∙x −2 =‖x −−x ‖22−‖x +−x ‖222=dist (x,x −)2−dist (x,x +)22若dist (x,x −)≤dist (x,x +),则dist (x,x −)≤dist (x,x +)≤dist (x −,x +),那么dist (S +,S −)<dist (x +,x −),推出矛盾。
因此对所有的正例点,w ∙x +b >0成立。
同理,对所有负例点,w ∙x +b <0成立。
至此,充分性证得。
2.4请设计一个感知机程序实现2.3节中介绍的逻辑“或”、逻辑“与”功能,并绘出判别界面。
代码:import numpy as npor_samples = [[0, 0, 0],[1, 0, 1],[0, 1, 1],[1, 1, 1]]and_samples = [[0, 0, 0],[1, 0, 0],[0, 1, 0],[1, 1, 1]]def perception(samples):#权重w = np.array([1,2])#偏置b = 0#学习率lr = 1#迭代10次for i in range(10):for j in range(4):x = np.array(samples[j][:2])#sgn函数if np.dot(w, x) + b > 0:y = 1else:y = 0#真实值t = np.array(samples[j][2])delta_b = lr * (t - y)delta_w = lr * (t - y) * x# 更新权重w = w + delta_wb = b + delta_bprint(f'weight[0]:{w[0]} weigt[1]:{w[1]} b:{b}') print('logical or:')perception(or_samples)print('logical and:')perception(and_samples)判别界面:2.5使用下面的训练集来训练一个感知机网络,其中初始偏置w=[0,0],b=0.5。
并试图判断样本x=(1,1)所属的类别。
类别1:x1=(0,1);x2=(−1,0);x3=(−1,1)类别2:x4=(0,2);x5=(2,0);x6=(1,2)代码:import numpy as npsamples = [[0, 1, 0],[-1, 0, 0],[-1, 1, 0],[0, 2, 1],[2, 0, 1],[1, 2, 1]]def perception(samples):#权重w = np.array([1,1])#偏置b = 0.5#学习率lr = 1#迭代10次for i in range(10):for j in range(4):x = np.array(samples[j][:2])#sgn函数if np.dot(w, x) + b > 0:y = 1else:y = 0#真实值t = np.array(samples[j][2])delta_b = lr * (t - y)delta_w = lr * (t - y) * x# 更新权重w = w + delta_wb = b + delta_breturn w,bdef predict(sample):if np.dot(w, sample) + b > 0:y = 1else:y = 0print(y)#训练感知机w,b = perception(samples)#预测样本sample = [1, 1]predict(sample)第三章多层前馈神经网络课后习题答案3.1 画出一个含有两个双隐含层,并且神经元总数为20的数据由左往右传播的前馈神经网络模型。
答:模型图如下。
3.2 什么是BP算法?什么是RBF算法?它们各自的特点是什么?答:BP神经网络的关键是BP算法,BP算法根据每次训练得到的结果与预想结果进行误差分析,进而修改权值和阈值,一步一步得到能输出和预想结果一致的模型。
BP神经网络具有任意复杂的模式分类能力和优良的多维函数映射能力,解决了单层感知机不能解决的复杂问题。
RBF神经网络是一种三层前馈神经网络,它使用RBF(径向基函数)作为隐含层神经元的激活函数,而输出层则是对隐含层神经元输出的线性组合。
RBF神经网络的训练过程可以使用BP算法,因此可以将其纳入BP神经网络的范畴。
BP神经网络的隐含层神经元采用输入模式与权向量的内积作为激活函数的自变量,而激活函数采用的函数为非RBF。
各参数对BP神经网络的输出具有同等地位的影响,因此BP神经网络是对非线性映射的全局逼近。
RBF神经网络的隐含层节点采用输入模式与中心向量的距离(如欧式距离)作为函数的自变量,并使用RBF(如Gaussian函数)作为激活函数。
神经元的输入离RBF中心越远,神经元的激活程度就越低(高斯函数)。
BP神经网络可以有多个隐含层,但是RBF神经网络只有一个隐含层。
3.3 什么是泛化能力?通常如何评价一个网络模型的泛化能力?答:学习的目的是学到隐含在数据背后的规律,对于具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。
简单地说,泛化能力是指学到的模型(网络)对未知数据的预测能力。
对于模型,不仅希望它对训练数据有很好的拟合,而且希望它在测试数据上也有很好的泛化能力。
通常使用以下指标来衡量模型的泛化能力。
准确度:预测正确的结果占总样本的百分比;精确率:在所有被预测为正的样本中实际为正的样本的概率;召回率:针对原样本而言,在实际为正的样本中被预测为正的概率;F1,ROC以及AUC等。
3.4 请设计一个简单的三层BP神经网络分类Sklearn中自带的鸢尾花数据集。
答:鸢尾花数据集一共有150个样本,分为3个类别,每个样本有4个特征。
针对该数据集,选取如下神经网络结构和激活函数。
3.5 请设计一个简单的三次RBF神经网络分类Sklearn中自带的鸢尾花数据集。
答:iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。
每一个数据包含4个独立的属性,这些属性变量测量植物的花朵(比如萼片和花瓣的长度等)信息。
要求以iris数据为对象,来进行不可测信息(样本类别)的估计。
以每一类前30个数据作为学习样本,以后20个样本作为测试样本,对样3.6 对比BP神经网络和RBF神经网络在鸢尾花数据分类问题上的效果,并进行分析。