机器学习期末复习
机器学习基础期末考试试题

机器学习基础期末考试试题一、选择题(每题2分,共20分)1. 在机器学习中,下列哪个算法属于监督学习算法?A. 决策树B. K-meansC. 遗传算法D. 随机森林2. 以下哪个是线性回归的假设条件?A. 特征之间相互独立B. 特征与目标变量之间存在非线性关系C. 目标变量的误差项服从正态分布D. 所有特征都是类别型变量3. 支持向量机(SVM)的主要目标是什么?A. 找到数据点之间的最大间隔B. 减少模型的复杂度C. 增加模型的泛化能力D. 所有选项都正确4. 在深度学习中,卷积神经网络(CNN)通常用于处理哪种类型的数据?A. 音频数据B. 图像数据C. 文本数据D. 时间序列数据5. 交叉验证的主要目的是:A. 减少模型的过拟合B. 增加模型的复杂度C. 减少训练集的大小D. 增加模型的运行时间二、简答题(每题10分,共30分)6. 解释什么是过拟合,并给出一个避免过拟合的策略。
7. 描述随机森林算法的基本原理,并简述其相对于决策树的优势。
8. 解释梯度下降算法的工作原理,并说明为什么它在优化问题中如此重要。
三、计算题(每题25分,共50分)9. 假设你有一个线性回归模型,其目标函数为 \( J(\theta) =\frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 \),其中 \( h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2x_2 \)。
给定以下数据点:\[\begin{align*}x_1 & : [1, 2, 3] \\x_2 & : [1, 3, 4] \\y & : [2, 4, 5]\end{align*}\]请计算该模型的损失函数 \( J(\theta) \)。
10. 给定一个二分类问题的数据集,使用逻辑回归模型进行分类。
如果模型的决策边界是 \( w_1 x_1 + w_2 x_2 - \theta = 0 \),其中\( w_1 = 0.5 \),\( w_2 = -1 \),\( \theta = 0.5 \)。
机器学习题库

机器学习题库一、 极大似然1、 ML estimation of exponential model (10)A Gaussian distribution is often used to model data on the real line, but is sometimesinappropriate when the data are often close to zero but constrained to be nonnegative. In such cases one can fit an exponential distribution, whose probability density function is given by()1xb p x e b-=Given N observations x i drawn from such a distribution:(a) Write down the likelihood as a function of the scale parameter b.(b) Write down the derivative of the log likelihood.(c) Give a simple expression for the ML estimate for b.2、换成Poisson 分布:()|,0,1,2,...!x e p x y x θθθ-==()()()()()1111log |log log !log log !N Ni i i i N N i i i i l p x x x x N x θθθθθθ======--⎡⎤=--⎢⎥⎣⎦∑∑∑∑3、二、 贝叶斯假设在考试的多项选择中,考生知道正确答案的概率为p ,猜测答案的概率为1-p ,并且假设考生知道正确答案答对题的概率为1,猜中正确答案的概率为1,其中m 为多选项的数目。
机器学习考试题目及答案

机器学习考试题目答案1.简描述机器学习概念?TomMitCheI1:"对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习J 我们遇到的大部分事情一般包括分类问题与回归问题。
如房价的预测,股价的预测等属于分类问题。
一般的处理过程是:首先,1)获取数据;2)提取最能体现数据的特征;3)利用算法建模;4)将建立的模型用于预测。
如人脸识别系统,首先我们获取到一堆人脸照片,首先,对数据进行预处理,然后提取人脸特征,最后用算法如SVM或者NN等。
这样,我们就建立了一个人脸识别系统,当输入一张人脸,我们就知道这张面孔是否在系统中。
这就是机器学习的整个流程,其次还包括寻找最优参数等。
机器学习主要分为:监督学习:数据集是有标签的,大部分机器学习模型都属于这一类别,包括线性分类器、支持向量机等等;无监督学习:跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要IabeI,比如著名的kmeans算法就是无监督学习应用最广泛的算法;半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;2.循环神经网络的基本原理?RNNS的目的是用来处理序列数据。
在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。
但是这种普通的神经网络对于很多问题却无能无力。
例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。
RNNS之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。
具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
人工智能期末复习

人工智能期末复习一、名词解释1、人工智能(学科):人工智能学科是计算机科学中涉及研究、设计和应用智能机器的一个分支,是一门综合性的交叉学科和边缘学科。
2、语义网络:语义网络是一种用实体及其语义关系来表达知识的有向图。
3、机器学习:机器学习就是让机器(计算机)来模拟和实现人类的学习功能。
4、正向推理产生式系统:正向推理也称数据驱动方式,它是从初始状态出发,朝着目标状态前进,正向使用规则的一种推理方法。
所谓正向使用规则,是指以问题的初始状态作为初始综合数据库,仅当综合数据库中的事实满足某条规则的前提时,该规则才被使用。
正向推理产生式系统简单明了,且能求出所有解,但是执行效率较低,具有一定的盲目性。
5、遗传算法:遗传算法是在模拟自然界生物遗传进化过程中形成的一种自适应优化的概率搜索算法。
6、人工智能(能力):是智能机器执行的通常与人类智能有关的功能,如判断、推理、证明、识别、感知、理解、设计、思考、规划、学习和问题求解等思维活动。
7、机器学习系统:机器学习系统是指能够在一定程度上实现机器学习的系统。
8、逆向推理产生式系统:逆向推理也称目标驱动方式,它是从目标状态出发,朝着初始状态前进,反向使用规则的一种推理方法。
所谓逆向使用规则,是指以问题的目标状态作为初始综合数据库,仅当综合数据库中的事实满足某条规则的后件时,该规则才被使用。
逆向推理产生式系统不寻找无用数据,不使用与问题无关的规则。
9、演绎推理:演绎推理是从已知的一般性知识出发,去推出蕴含在这些已知知识中的适合于某种个别情况的结论。
是一种由一般到个别的推理方法,其核心是三段论,如假言推理、拒取式和假言三段论。
10、启发式搜索:状态空间的启发式搜索是一种能够利用搜索过程所得到的问题自身的一些特性信息来引导搜索过程尽快达到目标的搜索方法。
二、填空题1、目前人工智能的主要学派有下列三家:符号主义、联结主义和行为主义。
2、常用的知识表示方法有一阶谓词逻辑表示法、产生式表示法、语义网络表示法、框架表示法和过程表示法。
机器学习复习重点

机器学习复习重点判断题(共30分,每题2分,打√或×)1、如果问题本身就是非线性问题,使用支持向量机(SVM )是难以取得好的预测效果的。
(×)2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。
(×)3、深度学习中应该尽量避免过拟合。
(×)4、在随机森林Bagging 过程中,每次选取的特征个数为m ,m 的值过大会降低树之间的关联性和单棵树的分类能力。
(×)5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。
(√)6、在FCM 聚类算法中交替迭代优化目标函数的方法不一定得到最优解。
(√)7、在流形学习ISOMAP 中,测地距离即是欧氏距离。
(×)8、贝叶斯决策实质上是按后验概率进行决策的。
(√)9、非参数估计需要较大数量的样本才能取得较好的估计结果。
(√)10、不需要显示定义特征是深度学习的优势之一。
(√)判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;问答题(共60分)1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。
监督参数估计:样本所属的类别和各类的类条件概率密度函数的形式是已知的,而表征概率密度函数的某些参数是未知的。
非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,要求判断出概率密度函数的某些参数。
非参数估计:已知样本所属类别,但未知各类的概率密度函数的形式,要求我们直接推断概率密度函数本身。
2、什么是k-近邻算法?k-近邻算法的基本思想(3分):未知样本x ,根据度量公式得到距离x 最近的k 个样本。
统计这k 个样本点中,各个类别的数量。
数量最多的样本是什么类别,我们就把这个数据点定为什么类别。
,argmax (),K m n n nx m k k n ω==是个样本中第类的样本个数m 为所求类别。
机器学习期末试题及答案

机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。
答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。
答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。
答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。
答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。
答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。
答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。
防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。
- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。
- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。
人工智能【期末复习题】

1.群智能与脑智能:脑智能是一种个体智能,是宏观心理层次上高级的智能。
群智能是一种社会智能(系统智能),属于微观生理层次上低级的神经元。
2.计算智能与符号智能:符号智能就是符号人工智能,它是模拟脑智能的人工智能,也就是所说的传统人工智能或经典人工智能。
计算智能就是计算人工智能,它是模拟群智能的人工智能。
3.搜索:顾名思义,就是从初始节点出发,沿着与之相连的边试探地前进,寻找目标节点的过程(也可以是反向进行)。
4.知识:就是人们对客观事物(包括自然的和人造的)及其规律的认识,知识还包括人们利用客观规律解决实际问题的方法和策略等。
5.自然计算:就是模仿或借鉴自然界的某种机理而设计计算模型,这类计算模型通常是一类具有自适应、自组织、自学习、自寻优能力的算法。
6.机器学习:顾名思义,机器学习就是让计算机模拟人的学习行为,或者说让计算机也具有学习的能力。
7.模式识别:则指的是用计算机进行物体识别。
8.决策树学习:决策树是一种知识表示形式,构造决策树可以由人来完成,但也可以由机器从一些实例中总结、归纳出来,即机器学习而得。
机器学习决策树也就是所说的决策树学习。
9.从系统结构看,智能计算机分为智能硬件平台和智能操作系统两大部分。
10.人工智能的三个最基本、最核心的技术实现人工智能的方法虽然很多,但归纳起来,“表示”、“运算”、“搜索”则是人工智能的三个最基本、最核心的技术。
11.从所承担的工作和任务性质来看,Agent的分类:信息型Agent、合作型Agent、接口型Agent、移动型Agent等。
12.用计算机来实现状态图的搜索,有两种最基本的方式:树式搜索和线式搜索。
13.智能机器人至少应具备哪四种机能?感知机能——获取外部环境信息以便进行自我行动监视的机能;运动机能——施加于外部环境的相当于人的手、脚底动作机能;思维机能——求解问题的认识、推理、判断机能;人—机通信机能——理解指示命令、输出内部状态,与人进行信息交换的机能。
机器学习期末常考简答题

1.什么是偏差与方差?泛化误差可以分解成偏差的平方加上方差加上噪声。
偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响,噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界,刻画了问题本身的难度。
偏差和方差一般称为bias和variance,一般训练程度越强,偏差越小,方差越大,泛化误差一般在中间有一个最小值,如果偏差较大,方差较小,此时一般称为欠拟合,而偏差较小,方差较大称为过拟合。
2.采用EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?用EM算法求解的模型一般有GMM或者协同过滤,k-means其实也属于EM。
EM算法一定会收敛,但是可能收敛到局部最优。
由于求和的项数将随着隐变量的数目指数上升,会给梯度计算带来麻烦。
3.SVM、LR、决策树的对比?模型复杂度:SVM支持核函数,可处理线性非线性问题;LR模型简单,训练速度快,适合处理线性问题;决策树容易过拟合,需要进行剪枝损失函数:SVM hinge loss; LR L2正则化; adaboost 指数损失数据敏感度:SVM添加容忍度对outlier不敏感,只关心支持向量,且需要先做归一化;LR 对远点敏感数据量:数据量大就用LR,数据量小且特征少就用SVM非线性核.4.GBDT 和随机森林的区别随机森林采用的是bagging的思想,bagging又称为bootstrap aggreagation,通过在训练样本集中进行有放回的采样得到多个采样集,基于每个采样集训练出一个基学习器,再将基学习器结合。
随机森林在对决策树进行bagging的基础上,在决策树的训练过程中引入了随机属性选择。
传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性,而随机森林则是对结点先随机选择包含k个属性的子集,再选择最有属性,k作为一个参数控制了随机性的引入程度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习是怎样的学科:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习主要分为两大类:监督学习、非监督学、强化学习(AlphaGo)、半监督学习。
机器学习所要研究的主要内容是关于计算机在从数据中产生“模型”的算法,即“学习算法”。
(有了学习算法,我们把经验提供给它,他就能基于这些数据产生模型)。
学习的特点:数据驱动,以方法为中心,概率统计优化为基础。
从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。
训练过程中使用的数据称为“训练数据”,每一个样本称为“训练样本”,训练样本组成的集合称为“训练集”。
三要素:模型、策略、算法。
学得模型后,使用其进行预测得过程称为“测试”。
被测样本称为“测试样本”。
机器学习的目标是使学得的模型能很好地适用于“新样本”。
独立同分布学得模型适用于新样本的能力,称为“泛化”能力。
具有强泛化能力的模型能很好地适用于整个样本空间。
“奥卡姆剃刀”原则,是一种常用地、自然科学研究中最基础地原则,即“诺有多个假设与观察一致,则选最简单地那个”。
(采用这个原则,则所描绘地曲线更平滑,更简单)。
20世纪50年代-70年代初,人工智能处于“推理期”。
20世纪70年代中期开始,人工智能进入“知识期”。
20世纪80年代:被研究最多的应用最广的是“从样本中学习”,其中的两个主流技术:符号主义学习(决策树,ILP:归纳逻辑程序设计),基于神经网络的连接主义学习20世纪90年代中期:统计学习:代表性技术,支持向量机21世纪以来,连接主义学习“深度学习”即很多层的神经网络1980年夏,美国卡耐基梅隆大学举办了第一届机器学习研讨会(IWML)。
同年《策略分析与信息系统》连出三期机器学习专辑。
1986年,第一本机器学习专业期刊Machine Learning创刊。
1989年,人工智能领域地权威期刊Artificial Intelligence出版机器学习专辑。
2006年,卡耐基梅隆大学宣告成立世界上第一个“机器学习系”。
经验误差:学习器在训练集上的误差称为“训练误差”或“经验误差”。
泛化误差:在新样本上的误差称为“泛化误差”。
“测试误差”作为泛化误差的近似。
模型评估时用来测试模型的数据集叫什么集:A训练集B测试集C评估集D验证集(训练集是用来训练模型的,通过尝试不同的方法和思路使用训练集来训练不同的模型,再通过验证集使用交叉验证来挑选最优的模型,通过不断的迭代来改善模型在验证集上的性能,最后再通过测试集来评估模型的性能。
将一个数据集D分为训练集S和测试集T的方法:留出法:直接将数据集D划分为两个互斥的集合,其中一个作为S一个作为T。
注意点:训练/测试集的划分要尽可能保持数据分布一致。
单次使用留出法得到的估计结果往往不够稳定可靠。
一般采用若干次随机划分、重复进行实验评估后取平均值作为结果。
常见做法是将大约2/3~4/5的样本用于训练剩余样本用于测试。
保留类别比例的采样方式通常称为“分层采样”。
交叉验证法:(可能大题)将数据集D划分为k个大小相似的的互斥子集,每个子集尽可能保持数据分布的一致性,即通过分层采样得到。
然后每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集并进行K次训练和测试。
例如:5折交叉验证,D分为D1~D5,第一次取4个子集的并集,D2-D5作为训练集,D1作为测试集。
第二次取D1、D3、D4、D5的并集作为训练集,D2作为测试集。
以此类推,最后将5次测试结果平均得到返回结果。
其中,如果D一共有m个样本,k=m,则得到交叉验证法的特例:留一法。
因为m个样本只有唯一的划分方式,即划分为m个子集,每一个子集只有一个样本。
这样所用的训练集只比原数据少一个样本。
留一法的优点:评估结果往往被认为比较精确(并非最精确),缺点:数据集较大时,训练m个模型的计算开销可能难以忍受。
自助法:(这种方法有一些样本永远取不到)建立一个新的数据集D’在D中随机取一个样本复制到D’中,进行m次后,D’中的样本数量和D一样,这时将D’作为训练集D\D’(表示D中不包括D’的部分)作为测试集。
因为是复制到D’中所以D中的一部分样本会取不到,则不被取到的概率为(1-1/m)^m取极限得到=1/e≈0.368,即数据集D中约有36.8%的样本未出现在D’中。
得到结果也称为“包外估计”。
在数据集较小、难以有效划分训练/测试集时很有用此外,自助法能从初始数据集中产生多个不同的训练集,对集成学习有很大好处。
但是自助法改变了初始数据集的分布,这会引入估计偏差。
所以数据足够多的时候其他两种方法更加常用。
错误率与精度错误率:分类错误的样本占样本总数的比例。
精度:分类正确的样本数占样本总数的比例。
查准率、查全率与F1认为是正例的样本中:真正例 TP 假正例 FP认为是假例的样本中:假反例 FN 真反例 TN查准率P:TP/(TP+FP) 即在查到的正例中正确的占比。
查全率R:TP/(TP+FN) 即在所有正确的例子中查到的正例的占比。
一般来说,查准率高,查全率偏低,查全率高,查准率偏低。
根据这一现象可以得到“P-R曲线”,当R(X轴)相同时,P(Y轴)越大越好。
曲线和P=R 的直线的交点称为平衡点。
越大越优。
因为平衡点过于简化,所以用F1来衡量优劣:F1=(2*P*R)/(P+R)=(2*TP)/(样本总数+TP-TN)=>1/F1=1/2*(1/P+1/R)有时因为场景的需要,可能回偏向查全率或者查准率,则有了F1的变形:FβFβ=((1+β²)*P*R)/((β²*P)+R)当β=1时,则为标准的F1;β>1时查全率有更大影响;β<1时查准率有更大影响。
线性模型:给定d个描述x=(x1;x2x3...xd)(例如西瓜颜色、形状2个描述,d=2),xi是x在第i个属性上的取值(即颜色=x1;形状=x2)。
从而有线性模型的基本形式 f(x)=w T x+b 加粗表示向量线性回归这里的数据集为D={(x1,y1),(x2,y2),...,(x m,ym)},其中x i=(xi1,xi2,...,xid)即线性模型的描述。
此处的y应该是判断结果,我猜测为正确答案。
简单化xi,将其中的值缩减到1个,则D={(xi,yi)}i=1m。
同时,若属性间存在“序”,并且为离散值,则可以将输入变为类似身高=>{1,0}其中1表示高,0表示矮。
如果不存在“序”关系,k个属性就用k维向量表示。
线性回归目的是求出f(x)=w T x+b的函数使得带入的值经过函数计算后得到的f(x)与预测的y近似。
所以为了近似,则需要做差最小。
使用均方误差得到:(w*,b*)=arg minΣ(i=1~m) (f(xi)-yi)²不方便同时做上下标简单表示=arg minΣ(i=1~m) (yi-wxi-b)²这里我理解的是承接上面简化属性值仅有一个分别对w和b做偏导得到书上P51的3.5和3.6,然后两个式子=0,解后得到3.7和3.8的解。
(过程作业有写,需要熟悉)此时如果使用原本的数据集,而不简化,即f(x)=w T x+b≈yi 称为“多元线性回归”最小二乘法就是通过使两个式子的均方误差最小化,来求得函数的未知值。
来近似标准函数,可以百度关键词“最小二乘法”,其中原理的部分较好理解。
对数线性回归:即之前的线性回归是为了逼近y值,如果要使得函数逼近与y相关的值,例如lny,就是改变指数尺度=>lny=w T x+b 这一式子则称为对数线性回归,本质是使得e底的w T x+b逼近y。
该式子在本质上仍然是线性回归。
P56 图3.1 表现得较为明显。
如果有g(.)使得y=g-1(w T x+b)这样得到得模型称为“广义线性模型”,函数g(.)称为“联系函数”,则对数线性回归是广义线性模型在g(.)=ln(.)时得特例。
我这里认为g(.)中.表示输入值。
对数几率回归:是分类问题通过找一个单调可微函数g(.)将分类任务的真实标记y与线性回归模型的预测值f(x)联系起来。
设预测值z=w T x+b 则将z的值通过“单位越阶函数” P57 (3.16) 与输出标记y一致。
即通过g(.)获取到的函数为P57 图3.2 中的黑线。
红色部分则为判断的输出标记。
因为希望函数值接近0或1,所用用y=1/1+e-z作为“替代函数”且可微。
带入z=w T x+b,得到P58 (3.18) (3.19)则为了求“对数几率”,最后就是求ln(y/1-y),将y和1-y分别视为为1和为0的概率,则有P59 (3.23) (3.24) 作业有相关内容。
熵模型:百度内容:给定一个概率分布,则熵的定义为:Hp=−p(x)logp(x)放到作业中即 -plnq 大致意思是要求一个函数的最小值就取它的负,这样反过来求它的最大值。
线性判别分析:是一种经典的线性学习方法,再二分类问题上提出。
简称LDA:给定训练集例集,设法将样例投影到一条直线上,使得同类的样例的投影尽可能得靠近,异类样例尽可能远离;对新样本进行分析时,将样本投影到这条直线上,再根据位置判断类别。
快速判断是否可以线性可分:将两类样本包起来,类似连接每类样例的最外层样本,形成一个封闭的图形,如果两个类别不重叠,则可以线性可分,反之不可。
多类别学习:有些二分类学习方法可直接推广到多分类,但是再更多情形下,我们是基于一些基本策略,利用二类学习器来解决多分类问题。
即多次利用二分类来解决多分类。
最经典的拆分策略有三种:“一对一”(OvO),“一对其余”(OvR)和“多对多”(MvM)。
OvR只需要N个分类器,OvO需要N(N-1)/2个分类器。
通常,OvO的存储开销和测试时间开销比OvR更大,但是OvO每次只用到两类样例,OvR则是全部样例。
所以在类别多的的情况下OvO的训练时间开销通常比OvR更小。
取决于具体数据分布。
P64 图 3.4 (大题)信息增益:信息熵:是度量样本集合纯度最常用的一种指标。
集合D的信息熵定义为Ent(D) 值越小表示纯度越高。
神经元模型:“M-P神经元模型” P97 图5.1 xi为输入 y为输出 Wi为对应xi的连接权重激励函数:类似神经传播,当一个电位超过一定值,则激活神经元,从而进行再传递。
类似地接收到带权重地输入信号,将总输入值和阀值进行比较,然后通过“激励函数”处理产生输出。
所以这里地激励函数最好是跃阶函数(即只有y=1或y=0)但是实际用Sigmoid函数将值压缩在0-1之间。
(1表示兴奋,0表示抑制)把许多个这样地神经元按一定地层次结构连接起来,就得到了神经网络。
感知机和多层网络:要求会计算“与”、“或”、“非”:这里用跃阶函数计算。