8-模式识别与机器学习思考题

模式识别与机器学习

思考题

1：简述模式识别与机器学习研究的共同问题和各自的研究侧重点。

试题1：简述模式识别与机器学习研究的共同问题和各自的研究侧重点。

答：（1）模式识别是研究用计算机来实现人类的模式识别能力的一门学科，是指对表征事物或现象的各种形式的信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程。主要集中在两方面，一是研究生物体（包括人）是如何感知客观事物的，二是在给定的任务下，如何用计算机实现识别的理论和方法。机器学习则是一门研究怎样用计算机来模拟或实现人类学习活动的学科，是研究如何使机器通过识别和利用现有知识来获取新知识和新技能。主要体现以下三方面：一是人类学习过程的认知模型；二是通用学习算法；三是构造面向任务的专用学习系统的方法。两者关心的很多共同问题，如：分类、聚类、特征选择、信息融合等，这两个领域的界限越来越模糊。机器学习和模式识别的理论和方法可用来解决很多机器感知和信息处理的问题，其中包括图像/视频分析（文本、语音、印刷、手写）文档分析、信息检索和网络搜索等。

（2）机器学习和模式识别是分别从计算机科学和工程的角度发展起来的，各自的研究侧重点也不同。模式识别的目标就是分类，为了提高分类器的性能，可能会用到机器学习算法。而机器学习的目标是通过学习提高系统性能，分类只是其最简单的要求，其研究更侧重于理论，包括泛化效果、收敛性等。模式识别技术相对比较成熟了，而机器学习中一些方法还没有理论基础，只是实验效果比较好。许多算法他们都在研究，但是研究的目标却不同。如SVM 在模式识别中研究所关心的就是其对人类效果的提高，偏工程。而在机器学习中则更侧重于其性能上的理论证明。

2：列出在模式识别与机器学习中的常用算法及其优缺点。

试题2：列出在模式识别与机器学习中的常用算法及其优缺点。

答：（1） K近邻法

KNN算法作为一种非参数的分类算法，它已经广泛应用于分类、回归和模式识别等。在应用KNN算法解决问题的时候，要注意的两个方面是样本权重和特征权重。

优缺点：非常有效，实现简单，分类效果好。样本小时误差难控制，存储所有样本，需要较大存储空间，对于大样本的计算量大。

（2）贝叶斯决策法

贝叶斯决策法是以期望值为标准的分析法，是决策者在处理风险型问题时常常使用的方法。

优缺点：由于在生活当中许多自然现象和生产问题都是难以完全准确预测的，因此决策者在采取相应的决策时总会带有一定的风险。贝叶斯决策法就是将各因素发生某种变动引起结果变动的概率凭统计资料或凭经验主观地假设，然后进一步对期望值进行分析，由于此概率并不能证实其客观性，故往往是主观的和人为的概率，本身带有一定的风险性和不肯定性。虽然用期望的大小进行判断有一些风险，但仍可以认为贝叶斯决策是一种兼科学性和实效性于一身的比较完善的用于解决风险型决策问题的方法，在实际中能够广泛应用于组织系统改革、企业效益、市场开发、证券投资等诸多领域。使用时根据决策者的侧重点，结合变异系数，综合使用货币因素的贝叶斯决策、或效用函数的贝叶斯决策法，都会得到自己想要的结果。

（3）DES加密算法

DES是Data Encryption Standard（数据加密标准）的缩写，它为密码体制中的对称密码体制，又被称为美国数据加密标准，是1972年美国IBM公司研制的加密算法。DES是一个分组加密算法，他以64位为分组对数据加密。同时DES也是一个对称算法：加密和解密用的是同一个算法。它的密匙长度是56位（因为每个第8 位都用作奇偶校验），密匙可以是任意的56位的数，而且可以任意时候改变。其中有极少量的数被认为是弱密匙，但是很容易避开他们。所以保密性依赖于密钥。

优缺点：具有极高安全性，分组比较短，密钥太短，密码生命周期短，运算速度较慢。

（4）决策树学习算法

决策树算法是一种混合算法，它综合了多种不同的创建树的方法，并支持多个分析任务，包括回归、分类以及关联。决策树算法支持对离散属性和连续属性进行建模。

优缺点：决策树算法高效快速且可伸缩，可轻松实现并行化，这意味着所有处理器均可协同工作，共同生成一个一致的模型。这些特征使决策树分类器成为了理想的数据挖掘工具。在数据挖掘的各种方法中 ,决策树归纳学习算法以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点而得到广泛应用。决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。然而决策树的这种明确性可能带来误导。比如，决策树每个节点对应分割的定义都是非常明确毫不含糊的，但在实际生活中这种明确可能带来麻烦。对决策树常见的批评是说其在为一个节点选择怎样进行分割时使用“贪心”算法。此种算法在决定当前这个分割时根本不考虑此次选择会对将来的分割造成什么样的影响。

（5）C均值算法

C均值算法是通过不断调整聚类中心使得误差平方和准则函数取得极小值。优缺点：能够动态聚类，是一种无监督学习算法，算法简单，速度快，局部搜索能力强，能够有效处理大型数据库，与神经网络结合可极大地提高收敛性和精度。c-均值算法的一个主要问题是划分类别数必须事先确定，这种主观确定数据子集数目并不一定符合数据集自身的特点，所以对于随机的初始值选取可能会导致不同的聚类结果，甚至存在着无解的情况；在选取聚类中心点时采用随机选取易使得迭代过程陷入局部最优解，容易收敛于局部极小点；该算法对“噪音”和孤立点数据比较敏感，少量的该类数据能够对平均值产生极大的影响。

（6）遗传算法

遗传算法（Genetic Algorithm）是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。

优缺点：遗传算法是一类可用于复杂系统优化的具有鲁棒性的搜索算法，与传统的优化算法相比，主要有以下特点： 1. 与问题领域无关切快速随机的搜索能力。2. 搜索从群体出发，具有潜在的并行性，可以进行多个个体的同时比较。3. 搜索使用评价函数启发，过程简单。4. 使用概率机制进行迭代，具有随机性。5. 具有可

扩展性，容易与其他算法结合。6. 直接以适应度作为搜索信息，无需导数等其它辅助信息。7. 使用多个点的搜索信息，具有隐含并行性。8. 使用概率搜索技术，而非确定性规则。也存在一些问题：1. 没有能够及时利用网络的反馈信息，故算法的搜索速度比较慢，要得要较精确的解需要较多的训练时间。2. 算法对初始种群的选择有一定的依赖性，能够结合一些启发算法进行改进。3. 算法的并行机制的潜在能力没有得到充分的利用，这也是当前遗传算法的一个研究热点方向。(7)BP神经网络算法

其学习过程由正向传播和反向传播组成。在正向传播过程中，输入信息从输入层经隐单元层逐层处理后，传至输出层。如果输出层得不到期望输出，那么就转为反向传播，把误差信号沿连接路径返回，并通过修改各层神经元的权值，使误差信号最小。

优缺点：BP算法能够通过学习带正确答案的实例集自动提取“合理的”求解规则；具有一定的推广能力；学习过程有被“固化”的潜在可能性；它能以任意精度逼近任意非线性函数，而且具有良好的逼近性能，并且结构简单，是一种性能优良的神经网络。但也存在一些问题，BP算法是按照均方误差的梯度下降方向收敛的，但均方误差的梯度曲线存在不少局部和全局最小点，这就使得神经网络易陷入局部最小；算法的收敛速度较慢，可能会浪费大量时间；神经网络隐层的结点个数难以确定合适的数值；如何选取合适的学习样本解决网络的推广（泛化）问题，即使网络能正确处理未学习过的输入。

（8）Hopfield网络算法

Hopfield网络算法作为典型的反馈神经网络，有下列特有的优点和缺点。

1. 只有不动点吸引子，没有其它类型的吸引子。Hopfield同的这个性质被称为全局稳定性。

2. 网络状态的演化趋于某个二次函数的局部最小点。

3. 很难精确地分析Hopfield网的性能。

4. 难于找到通用的学习算法。

5. 这类阿络的动力学行为过于筒单。5. Hopfield问只有不动点吸子，是一种消极被动的神经网络。

3：试举例说明，如何将一个实际问题化解成所学的机器学习算法来解决的问题。例如：根据下列的数据集，你如何利用机器学习的算法，设计一个从程序，当输入三个数值作为Age, Tall，Weight时，马上就能给出答案，这应该是何种动物？

试题3：简述在模式识别与机器学习中解决问题的主要步骤。指出那些步骤涉及到学习？在数据的前处理中，特征选择起什么作用？

（Sheep,Ox，或 Pig）。

*Age Tall Weight Animal

0 30 8 sheep

1 35 10 sheep

2 37 16 sheep

3 40 20 sheep

4 4

5 25 sheep

5 50 35 sheep

6 55 40 sheep

7 60 45 sheep

8 65 50 sheep

9 65 50 sheep

10 65 50 sheep

0 45 15 ox

1 50 25 ox

2 55 35 ox

3 65 45 ox

4 70 5

5 ox

5 75 65 ox

6 80 75 ox

7 85 85 ox

8 90 95 ox

9 95 105 ox

10 105 115 ox

0 15 5 pig

1 17 15 pig

2 20 25 pig

3 23 35 pig

4 27 4

5 pig

5 30 55 pig

6 33 65 pig

7 35 75 pig

8 37 85 pig

9 40 95 pig

10 45 105 pig

答： (1) 在模式识别与机器学习中解决问题的主要步骤：

1. 问题描述：准确分析研究目的，并对未来工作做出计划。

2. 数据选择：数据选择是根据用户需求从数据库中提取相关数据。

3. 知识发现过程：归纳为3个步骤，即数据挖掘预处理、数据挖掘、数据挖掘后处理。数据预处理是对数据进行再加工，检查数据的完整性及一致性，对其中的噪音数据进行处理。对丢失的数据利用统计方法进行填补，形成发掘数据库。数据变换即从发掘数据库里选择数据，变换的方法主要是利用聚类分析和判别分析。数据挖掘是根据用户要求，确定知识发现的目标是发现何种类型的知识。运用选定的知识发现算法。从数据库中提取用户所需要的知识。知识评价主要用于对所获得的规则进行价值评定，以决定所得到的规则是否存入基础知识库。

4. 选择或设计模型：对同一个问题或许有许多不同的模型可以描述，不同的模型会导致识别和学习结果的不同，因此需要利用已有的经验和知识来选择或设计适当的模型。在确定了所建立的模型后，就可以估计模型的参数，需要注意的时，应该使得模型对未知数据有良好的适应性。

5. 训练所建立的模型：用前面所得的数据分成两组，一组作为训练数据，一组作为测试数据。设定目标误差，用训练数据对所建立的模型进行训练，达到目标误差，就停止训练，这样就确定了所建立模型的参数。

6. 测试、评估、验证模型：测试模型的目的是为了确定所建立模型是否满足实际应用要求。测试数据应该和训练用的样本数据不一致，否则，测试所得的结果永远都是满意的。用测试数据对所建立模型进行测试，观察测试结果是否与实际情况是相符合。若与实际情况相符合，所建立模型就可对未知数据做预测，从而得到进一步的验证。

(2)在这些步骤中，步骤5涉及到学习。

(3)特征选取（也称作属性选择）是简化数据表达形式，是在模式识别中根据一定的原则，选取反映被识别模式本质的那些特征的方法或过程。模式识别和机器学习方法首先要解决的一个问题就是特征选择。在数据的前处理中，特征选择是一个非常重要的步骤，特征选择不合理，会影响识别和学习效果。通过特征选择和提取，我们才可得到所采集数据中最有效的信息，最有效的特征，选择出有利于分类或聚类建立模型的变量，从而实现特征空间维数的压缩，以降低后续处理过程的难度，才能基于这些特征对所建立模型进行训练和测试。同时特征选取也是降低存储要求，提高分类精度和效率的重要途径。

4：请应用一种具体的模式识别与机器学习算法，简述解决问题的主要步骤。请从你熟悉的实际生活问题中，选择一个问题并收集一组实际数据（也可从机器学习基准数据库The UCI Machine Learning Repository,https://www.360docs.net/doc/f212888265.html,/ml/中找一个数据集）。将数据分成训练集和测试集。用训练集建立识别模型，然后用测试集算出准确率（或用十组交叉验证求准确率）。要求训练数据要大于50个。用SVM 方法分类的步骤：

1：选定训练集和测试集：载入相应的训练集数据和测试集数据，以及相应的标签。

2：数据预处理：对训练集和测试集进行归一化处理，采用的归一化映射如下。 min min

:x x x x y x f mac --=→

式中，y x ,∈n R ，()()x x x x max ,min max max ==归一化的效果是原始数据被规整到

[0,1]范围内，即i y ∈[0,1],n i ,...,2,1=,这种归一化方式称为[0,1]区间归一

化。

在MATLAB 中，mapminmax 函数可以实现上述的归一化，其常用的函数接口如下：

[y,ps]=mapminmax(x)

[y,ps]=mapminmax(x,ymin,ymax)

[x,ps]=mapminmax(‘reverse ’,y,ps)

其中，x 是原始函数，y 是归一化后的数据，ps 是个结构体记录的是归一化的映射。mapminmax 函数所采用的映射是：

()()()min min max min min max y x x x x y y y +--?-=；

其中，min x 和max x 是原始数据x 的最小值和最大值，min y 和max y 是映射的范围参

数，可调节，默认为-1和1，此时的映射函数即为上面所说的[-1,1]归一化。如果把min y 设置为0，max y 设置为1，则此时的映射函数即为上面所说的[0,1]归一化，

可利用新的映射函数对x 进行重新归一化，代码如下：

[y,ps]=mapminmax(x);

Ps.ymin=0;

Ps.max=1;

[ynew,ps]=mapminmax(x,ps);

反归一化可以用如下的代码实现：

[y,ps]=mapminmax(x);

[x,ps]mapminmax(‘reverse ’,y,ps);

3:用训练集对SVM 分类器进行训练，用得到的模型对测试集进行标签预测，最后得到分类的准确率。其中SVM 的实现采用的是libsvm 工具箱。

5：在模式识别与机器学习中，常常需要用已知的数据集来训练所建立的模型。如

果所建立的模型被说成是‘over－fit’，请解释这是什么意思？请陈述一些避免

‘over－fit’的方法。

4：在模式识别与机器学习中，常常需要用已知的数据集来训练所建立

的模型。如果所建立的模型被说成是‘over－fit’，请解释这是什么

意思？请陈述一些避免‘over－fit’的方法。

是"过拟合"现象，过拟合主要指训练后的网络对训练样本（Train sample）具有极高的拟合精度，但是对工作样本（Work sample）的预

测误差却非常大。过拟合着重于网络的推广能力（Generalization Ability）问题，即网络学习能力与推广能力之间满足一般测不准关系.

1. 测不准关系式中的过拟合参数 P的确定将有助于避免出现"过拟合"

现象.

2. 过拟合的解决方法是设置满足问题求解精度要求的上限，不要将目

标误差设置太小。个人认为过拟合还与样本过于冗余有关，采用删除冗余样本信息的特征样本，不仅可以加快训练速度，还可以改善过拟合问题。

3. 1.使用初期终止的方法来提高泛化能力。用训练集来训练网络，同

时考察网络在校验集上的误差，一旦校验集上的误差的误差不再下降（或者累计n次不再下降），那么就停止训练，这样可以减轻网络过拟合的程度。

4. 防止过拟合（overfitting）的方法：（1）按照一定比例在TRAIN

函数导入校验和测试的VV和VT参数；（2）采用TRAINGDX和

LEARNGDM组合训练；（3）采用TRAINBR函数训练等等，发现没有一个的泛化（GENERALIZATION)效果能很理想的。

6：在模式识别与机器学习的研究中，还不断有人提出新的算法。请问有那些方法

可以用来判定他们的优劣？

试题4：在模式识别与机器学习的研究中，还不断有人提出新的算法。请列举一些

可以用来比较算法好坏的方法？

答：算法是计算机科学中一个重要的研究方向，是解决复杂问题的关键。在计算机

世界中，算法无处不在。同一问题可用不同算法解决，而一个算法的质量优劣将影

响到算法乃至程序的效率。可以用来比较算法好坏的方法有：

1. 正确性

一个算法是否正确的，是指对于一切合法的输入数据，该算法经过有限时间（算法意义上的有限）的执行是否都能产生正确（或者说满足规格说明要求）的结果。

2. 时间复杂度和空间复杂度

一个算法的时间复杂性是指该算法的基本运算次数，记作T(n)=O(f(n))。时间复杂度不断增大，算法的执行效率越低。空间复杂度是指算法在计算机内执行时所需存储空间的度量。记作S(n)=O(f(n)) 。存储空间越大，算法效率也越低。

3. 占用空间

算法执行需要存储空间来存放算法本身包含的语句、常数、变量、输入数据和实现其运算所需的数据（如中间结果等），此外还需要一些工作空间用来对（以某种方式存储的）数据进行操作。

4. 可读性

可读性好的算法有助于设计者和他人阅读、理解、修改和重用。与此相反，晦涩难懂的算法不但容易隐藏较多的错误，而且增加了人们在阅读、理解、调试、修改和重用算法等方面的困难。

5. 坚固性

当输入数据非法时，算法能适当地作出合适的反应。

7：如果你所遇到的数据集是纯数值型数据，你会采用那些模式识别与机器学习算法？若是包含大量非数值数据你会采用那些模式识别与机器学习算法？为什么？试题5：在你所知道的模式识别与机器学习算法中，那些方法较合适用来解决纯数值型数据的问题，那些方法较适合用来解决包含大量非数值数据的问题。

答：（1）解决纯数值型数据问题的方法：贝叶斯决策法、神经网络算法等。贝叶斯决策法是基于概率统计的基本的判别函数分类法。只要知道先验概率和条件概率就可以对样本进行判断，由于数据是纯数值型数据，数据简单，样本间的空间距离易计算，且先验概率和条件概率易求得。神经网络只能处理数值型数据。建立神经网络需要做的数据准备工作量很大。要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工作。对任何数据挖掘技术都是这样，神经网络尤其注重这一点。比如神经网络要求所有的输入变量都必须是0—1(或-1—+1)之间的

实数，因此像“地区”之类文本数据必须先做必要的处理变成数值之后才能用作神经网络的输入。

（2）对于非数值型数据可用方法：决策树、遗传算法等。决策树很擅长处理非数值型数据，决策树的分类方法是从实例集中构造决策树，是一种有指导的学习方法。其算法的特点是通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息，特别适合大规模的数据处理。遗传算法特点从解集合进行搜索，利于全局择优。该算法具有收敛性，通过选择、交叉、变异操作，能迅速排除与最优解相差极大的串。是非数值并行算法之一，解决了非数值数据及大量数据带来的计算量和存储量的问题。

8：请陈述一个你认为在模式识别与机器学习最难解决的问题，并说明理由。

试题6：模式识别与机器学习最难解决的问题是什么？并说明理由。

答：我觉得模式识别与机器学习中最难解决的问题是：

（1）学习速率的确定。提出设计者应该从具体系统中获得的数据确定算法学习速率的上、下界数值，并选取最优学习速率。

（2）在处理具体的问题时，合适算法的选择。在算法选择中没有天生优越的模式。识别与机器学习算法，各自算法的都有其对应的应用范围及应用中应注意的问题，只有充分了解不同模式识别算法，深入分析算法的使用条件，才能做到最佳选择。但目前算法很多，没有深入的话容易被遗忘，深入的话花得时间多，且在很多实际问题当中，常常不容易找到那些最重要的特征，或者受条件限制不能对它们进行测量，这使得特征选择和提取的任务复杂化，从而成为构造模式识别系统，提高决策精度的最困难的任务之一。

（3）相应的参数的选择。如何确定变量值，这是一个很关键的问题，但至今还没有快速而有效的规则，有的只是一些原则性的指导。而且选择参数值最终还应归结为每个用户对算法的体验，用户只能通过自己的编程实践，用各种不同的参数值进行调试，看结果会发生什么，并从中选取适合的值。

试题 7：请例举一些你认为应用得较好的算法及应用实例。

答：我认为应用较好的算法如下：

（1）遗传算法

由于遗传算法的整体搜索策略和优化搜索方法在计算是不依赖于梯度信息或其它辅助知识，而只需要影响搜索方向的目标函数和相应的适应度函数，所以遗传算法提供了一种求解复杂系统问题的通用框架，它不依赖于问题的具体领域，对问题的种类有很强的鲁棒性，所以广泛应用于许多科学。

1、函数优化

函数优化是遗传算法的经典应用领域，也是遗传算法进行性能评价的常用算例，许多人构造出了各种各样复杂形式的测试函数：连续函数和离散函数、凸函数和凹函数、低维函数和高维函数、单峰函数和多峰函数等。对于一些非线性、多模型、多目标的函数优化问题，用其它优化方法较难求解，而遗传算法可以方便的得到较好的结果。

2、组合优化

随着问题规模的增大，组合优化问题的搜索空间也急剧增大，有时在目前的计算上用枚举法很难求出最优解。对这类复杂的问题，人们已经意识到应把主要精力放在寻求满意解上，而遗传算法是寻求这种满意解的最佳工具之一。实践证明，遗传算法对于组合优化中的NP问题非常有效。例如遗传算法已经在求解旅行商问题、背包问题、装箱问题、图形划分问题等方面得到成功的应用。

此外，GA也在生产调度问题、自动控制、机器人学、图象处理、人工生命、遗传编码和机器学习等方面获得了广泛的运用。

（2）BP神经网络算法

BP神经网络模型有输入层、隐含层、输出层三个层次，通过误差反向后传算法来消除误差。它是一种具有模式变换能力、自组织、自适应、自学习特点的计算机制，它具有高度的并行结构和并行实现能力，具有高速寻找优化解的能力。应用也比较广。

1、BP人工神经网络模型在企业综合绩效管理评价体系中的应用

从输入层输入企业综合绩效评价的指标数据，经隐含层处理后传入输出层，输出结果即为评价结果。在正向传播阶段，每一层神经元的状态只影响到下一层神经元的状态。如果输出层所得到的输出结果与期望输出结果的误差超过误差允许范

围，则进入误差反向后传阶段，误差信号按原来的连接通路返回，将误差进行反向传播，求出隐含层单元的一般化误差，调整各层之间的连接权值以及隐含层、输出层的阀值，使输出期望值和神经网络实际输出值的均方误差趋于最小。以足够的样本运用优化BP模型学习算法来训练此网络，训练好的网络所持有的那组权系数就是所要确定的企业综合绩效评价指标的权重。最后，将目标企业综合绩效评价指标的具体值作为训练好的BP模型的输入，可得目标企业的绩效评价。

2、应用到高校的学生就业工作中

通过收集已毕业的学生信息，对数据信息进行合并，形成结构统一的就业信息数据源。对数据源进行数据预处理，去掉与决策无关的属性和高分支属性、处理含空缺值的属性，然后根据随机算法，在训练样本数据库中，抽取其中2/3的数据用于训练网络，剩余1/3的数据用于测试模型的准确率。采用三层BP网络来进行建模。BP神经网络具有很强的自适应性和学习能力，将其应用于毕业生就业预测中精度较高。经过对实际毕业生就业信息的预测，其结果与实际情况吻合理想，因此对毕业生就业指导有着现实的意义。BP网络模型完全可以用来预测计算。

计算机视觉与图像处理、模式识别、机器学习学科之间的关系

计算机视觉与图像处理、模式识别、机器学习学科之间的关系在我的理解里，要实现计算机视觉必须有图像处理的帮助，而图像处理倚仗与模式识别的有效运用，而模式识别是人工智能领域的一个重要分支，人工智能与机器学习密不可分。纵观一切关系，发现计算机视觉的应用服务于机器学习。各个环节缺一不可，相辅相成。计算机视觉（computer vision），用计算机来模拟人的视觉机理获取和处理信息的能力。就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号，纹理和颜色建模，几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。图像处理（image processing），用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。基本内容图像处理一般指数字图像处理。数字图像是指用数字摄像机、扫描仪等设备经过采样和数字化得到的一个大的二维数组，该数组的元素称为像素，其值为一整数，称为灰度值。图像处理技术的主要内容包括图像压缩，增强和复原，匹配、描述和识别3个部分。常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等。图像处理一般指数字图像处理。模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类，从处理问题的性质和解决问题的方法等角度，模式识别分为有监督的分类（Supervised Classification）和无监督的分类(Unsupervised Classification)两种。模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的，属于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。应用计算机对一组事件或过程进行辨识和分类，所识别的事件或过程可以是文字、声音、图像等具体对象，也可以是状态、程度等抽象对象。这些对象与数字形式的信息相区别，称为模式信息。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。机器学习在人工智能的研究中具有十分重要的地位。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统，但是以往的智能系统都普遍缺少学习的能力。随着人工智能的深入发展，这些局限性表现得愈加突出。正是在这种情形下，机器学习逐渐成为人工智能研究的核心之一。它的应用已遍及人工智能的各个分支，如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。机器学习的研究是根据生理学、认知科学等对人类学习机理的了解，建立人类学习过程的计算模型或认识模型，发展各种学习理论和学习方法，研究通用的学习算法并进行理论上的分析，建立面向任务的具有特定应用的学习系统。这些研究目标相互影响相互促进。

认知心理学

认知心理学 ★第一章认知心理学导言一、广义的“认知” ：认识和知识，它既包含了一种动态性的加工过程(认识)，也包含了一种静态性的内容结构(知识)。狭义的“认知” ：指那些能使主体获得知识和解决问题的操作和能力。广义的认知心理学泛指一切以认知过程为对象的心理学研究；狭义的认知心理学是以信息加工理论观点为核心的心理学，又被称为信息加工心理学。认知心理学是以信息加工观点研究感知觉、注意、记忆思维和言语等心理过程，以及儿童认知发展和人工智能（计算机模拟）的一门心理科学。二、认知心理学的基本假设：存在着心理加工；人类是主动的信息加工者；心理加工可通过外部行为的测量来推知。三、认知模型：建立的目的：建立模型的目的是提供关于观察对象的一个容易理解的表征，同时用于发展各种假设和帮助进行预测。这些模型都有一个共同的特点：它们都建立在序列事件的基础上。 1、符号操作系统范式：基于信息加工观点，认为许多认知过程是以系列（serially）和序列(sequentially)的方式进行的。又称“信息处理模型”，“符号处理模型”，“串行处理模型”等。符号操作系统范式实际上是把人的认知活动看作为是一种信息处理过程，即可以按照符号结构和符号过程的表征来加工各种信息。Newell和Simon是首先对符号操作系统作出完整论述的认知心理学家。一个完整的符号操作系统应该具有六种功能：输入符号、存储符号、建立符号结构、条件性迁移、复制符号、输出符号。人类认知系统的基本特征：是一个符号运算系统；人类认知是一个多阶段、多层次的信息传递系统；人类信息加工能力的有限性；人是一个具有习得与发展有效认知策略的系统；人是一个新旧图式整合、建构、重构而获得知识的系统；人是一个不断发展的监控认知系统。联结主义范式：联结主义把认知描绘成是简单而大量的加工单元的联结网络，在此网络中的每一个单元的激活水平与来自于环境和其他与之相连接的单元有关。知识贮存在单元之间的联结中，学习就是建立新的联结或改变联结间的激活强度。该模型把信息看成是分布在各个神经元及神经元的连结中的，信息的加工是并行的，因此被称作“并行分布系统”（parallel distributed system）。在计算机和工程领域，人们又把它称作“人工神经网络”。2、联结主义平行分布加工（PDP）：所谓“平（并）行”指的是人可通过对多种处理单位的共同作用对信息进行加工。“分布”则指知识是以处理单位之间相互连接的分布方式储存在系统中的。这些连接单位可以被激活, 彼此可相互作用。 Bechtel (1991)曾归纳了联结主义的三个基本特征:1.信息是通过基本单元来处理的；2.处理单元间是平行联系的,所有的单元可同时、互相作用地完成它们的任务；3.单元间的连接具有权重。联结主义模型的组成部分：1. 一组单元。亦称为“节点”、“认知单元”或“处理单元”。主要是呈现某种水平的激活状态。可以分为三种单元“输入单元、输出单元和隐单元。 2. 激活状态。节点被激活以致产生某些变化，每一单元会产生某种激活状态。 3. 联结模式。兴奋性联结，抑制性联结。决定一个单元通过输入，对其他单元所产生的影响。 4. 节点激活规则。具体说明一个节点如何被输入，又如何与现在的状态相吻合。 5. 节点输出功能。一个节点的输出与某种激活相联系。 6. 学习规则。重要是使联结发生变化。联结主义模型的特点：内在并行性；分布式处理；容错性；自适应性。 ★第二章认知神经科学：加拿大心理学家Hebb用了20年时间与Penfield和Lashley等人合作，终于在1949年出版了《行为的组织》( Organization of Behavior)一书，为现代认知科学奠定了基础。 1949,Hebb率先使用connectionism （联结主义）这一术语对人的大脑模型进行了描述,并提出了著名的算法规则又称Hebb规则（定律）。赫布定律基于以下基本假设：共同激活的神经元成为联合；联合能发生在相邻的或疏远的神经元间，即整个皮层是联合存储；如果神经元成为联合，它们将发展成为功能体或细胞集合。他的《行为的组织》一书中有一个后来被广泛引用的段落：“当细胞 A 的一个轴突和细胞 B 很近，足以对它产生影响，并且持久地、不断地参与了对细胞 B 的兴奋，那么在这两个细胞或其中之一会发生某种生长过程或新陈代谢变化，以致于 A 作为能使 B 兴奋的细胞之一，它的影响加强了。”这个机制以及某些类似规则，现在称为赫布定律，又称突触学习学说。神经科学常用探测技术：多导细胞电活动记录；脑成像技术的发展；时间分辨率(temporal resolution)和空间分辨率(spatial resolution) 1、单细胞记录(single—unit recording) 2、脑电图（EEG Measurement/ 3、事件相关电位(event—related potentials，ERP/ 4、正电子发射断层扫描（PET） 5、磁共振成像(MRI和fMRI) 6、脑磁图(MEG) 认知心理学经典研究方法简介： 1、减法反应时（subtractive method）：用两种反应时的差数来判定某个心理过程的存在。在研究快速信息加工过程如识别、短时记忆应用这种方法。目的是测量包含在复杂反应中的辨别、选择等心理过程所需的时间。

人工智能练习题答案

1、什么是人工智能？人工智能有哪些研究领域？何时创建该学科，创始人是谁？（1）AI（Artificial Intelligence）是利用计算机技术、传感器技术、自动控制技术、仿生技术、电子技术以及其他技术仿制人类智能机制的学科（或技术），再具体地讲就是利用这些技术仿制出一些具有人类智慧（能）特点的机器或系统（2）人工智能的研究领域主要有专家系统、机器学习、模式识别、自然语言理解、自动定力证明、自动程序设计、机器人学、博弈、智能决策支持系统、人工神经网络等（3）人工智能于1956年夏季，由麦卡锡，明斯基、洛切斯特、香农等发起创建 2、产生式系统的由哪三部分组成？各部分的功能是什么？课本29页（1）产生式系统由综合数据库、产生式规则和控制系统三部分组成（2）综合数据库用于存放当前信息，包括初始事实和中间结果；产生式规则用于存放相关知识；控制系统用于规则的解释或执行程序。 3、设有三枚硬币，其初始状态为（反，正，反），允许每次翻转一个硬币（只翻一个硬币，必须翻一个硬币）。必须连翻三次。用知识的状态空间表示法求出到达状态（反，反，反）的通路。画出状态空间图。课本51页问题求解过程如下：（1）构建状态用数组表示的话，显然每一硬币需占一维空间，则用三维数组状态变量表示这个知识：Q=（q1 , q2 , q3）取q=0 表示钱币的正面; q=1 表示钱币的反面构成的问题状态空间显然为： Q0=（0，0，0），Q1=（0，0，1），Q2=（0，1，0）, Q3=（0，1，1）， Q4=（1，0，0），Q5=（1，0，1），Q6=（1，1，0），Q7=（1，1，1）（2）引入操作 f1：把q1翻一面。 f2：把q2翻一面。 f3：把q3翻一面。显然：F={f1，f2，f3} 目标状态：（找到的答案）Qg=（0，0，0）或（1，1，1）（3）画出状态图

认知心理学重点整理资料讲解

学习指导：第一章：绪论１、认知心理学的定义认知心理学有广义和狭义两种涵义广义的认知心理学主要探讨人类内部心理活动过程、个体认知的发生与发展，以及对人的心理事件、心理表征和信念、意向等心理活动的研究。狭义的认知心理学，是以信息加工理论观点为核心的心理学，又被称为信息加工心理学。本书中的内容以狭义为主。认知心理学产生的背景及重要事件 : 1956 年是认知心理学发展史中最为重要的一年。１９６７年，美国心理学家奈塞尔出版了《认知心理学》的专著标志着认知心理学的建立。 1、在麻省理工学院的一次会议上，乔姆斯基提交了他关于语言学理论的论文。 2、米勒报告了短时记忆容量为 7 这一重要结果。 3、纽维尔和西蒙讨论了后来极富影响的”通用问题解决者”模型。 4、布鲁纳等从认知加工的观点考察了概念形成的规律。 5、人工智能也在 Dartmouth 会议上创立３、认知心理学的两种研究取向 : 认知心理学的两大范式 1、符号操作系统范式（信息加工学说）：1968 年 S.Paert 的专著《感知器》出版成为符号操作系统范式诞生的标志。完整符号操作系统的六个功能：符号（模式）具有双重属性：一是具有表征外部事物的功能；二是其自身具有物理或形式上的特征，可以标志信息加工的操作。一个完整的符号操作系统应该具有以下六种功能：第一种功能，输入符号（输入）。第二种功能，存储符号（存储）。第三种功能，建立符号结构。第四种功能，条件性迁移（条件传递）。第五种功能，复制符号（复制）。第六种功能，输出符号（输出）。由符号操作系统范式得出三点推论第一个推论，既然人具有智能，它就一定是一个完整的符号操作系统。第二个推论，既然计算机是一个完整的符号操作系统，它就能够表现出某种智能。第三个推论，既然人是一个完整的符号操作系统，计算机也是一个符号操作系统，那么，就能够用计算机来模拟人的认知活动过程。 2、联结主义范式（联结主义学说）：２０世纪８０年代，联结主义范式逐渐形成，并对信息加工的认知心理学理论及其相关的元理论提出了许多不同看法。联结主义认为，人类的认知活动的本质在于神经元之间的联结强度，以及它们之间不断发生的动态变化，即对信息进行的是并行分布的加工处理，这种联结与处理是连续变化的模拟计算，它不同于对物理符号的模拟计算。联结主义理论模型有以下部分组成：一组单元。亦称节点、认知单元、处理单元。激活状态。联结模式。节点激活规则。节点输出功能。学习规则。根据以上联结主义理论的假设，可以概括出它所具有的四个明显的特点：内在并行性、分布式处理、容错性和自适应性。第二章：认知心理学的研究方法１、反应时法在认知心理学研究中的地位：一、涵义反应时是指刺激作用于有机体后到其作出明显反应所需要的时间，即刺激与反应之间的时间间隔；又称为有机体反应潜伏期，

模式识别与机器学习思测试卷附参考标准答案

模式识别与机器学习期末考查思考题 1：简述模式识别与机器学习研究的共同问题和各自的研究侧重点。机器学习是研究让机器（计算机）从经验和数据获得知识或提高自身能力的科学。机器学习和模式识别是分别从计算机科学和工程的角度发展起来的。然而近年来，由于它们关心的很多共同问题（分类、聚类、特征选择、信息融合等），这两个领域的界限越来越模糊。机器学习和模式识别的理论和方法可用来解决很多机器感知和信息处理的问题，其中包括图像/视频分析、（文本、语音、印刷、手写）文档分析、信息检索和网络搜索等。近年来，机器学习和模式识别的研究吸引了越来越多的研究者，理论和方法的进步促进了工程应用中识别性能的明显提高。机器学习：要使计算机具有知识一般有两种方法；一种是由知识工程师将有关的知识归纳、整理，并且表示为计算机可以接受、处理的方式输入计算机。另一种是使计算机本身有获得知识的能力，它可以学习人类已有的知识，并且在实践过程中不总结、完善，这种方式称为机器学习。机器学习的研究，主要在以下三个方面进行：一是研究人类学习的机理、人脑思维的过程；和机器学习的方法；以及建立针对具体任务的学习系统。机器学习的研究是在信息科学、脑科学、神经心理学、逻辑学、模糊数学等多种学科基础上的。依赖于这些学科而共同发展。目前已经取得很大的进展，但还没有能完全解决问题。模式识别：模式识别是研究如何使机器具有感知能力，主要研究视觉模式和听觉模式的识别。如识别物体、地形、图像、字体（如签字）等。在日常生活各方面以及军事上都有广大的用途。近年来迅速发展起来应用模糊数学模式、人工神经网络模式的方法逐渐取代传统的用统计模式和结构模式的识别方法。特别神经网络方法在模式识别中取得较大进展。理解自然语言计算机如能“听懂”人的语言（如汉语、英语等），便可以直接用口语操作计算机，这将给人们带来极大的便利。计算机理解自然语言的研究有以下三个目标：一是计算机能正确理解人类的自然语言输入的信息，并能正确答复（或响应）输入的信息。二是计算机对输入的信息能产生相应的摘要，而且复述输入的内容。三是计算机能把输入的自然语言翻译成要求的另一种语言，如将汉语译成英语或将英语译成汉语等。目前，研究计算机进行文字或语言的自动翻译，人们作了大量的尝试，还没有找到最佳的方法，有待于更进一步深入探索。机器学习今后主要的研究方向如下： 1)人类学习机制的研究；

认知心理学名词解释

认知心理学名词解释认知心理学；认知心理学是研究人的高级心理活动过程的学科，即研究人接受、编码、操作、提取和利用知识的过程，这个过程包括知觉、语言、智能、表象、思维、推理、问题解决、概念形成和创造性。广义的认知心理学主要探讨人类内部的心理活动过程、个体认知的发生与发展，以及对人的心理事件、心理表征和信念、意向等心理活动的研究。狭义的认知心理学是以信息加工理论观点为核心的心理学，又称为信心加工心理学。信息加工理论：20世纪50年代末、信息论、控制论、系统论推动了信息加工理论，用计算机对信息的输入、存储、加工过程来解释人的认知过程的理论。信息装置：即把人视为一个接受信息、加工和处理信息的传递装置。信息编码：即一套信息加工的特殊规则。（它把消息、信号、符号或事物的状态，理解为是由一种形式转换成另一种形式，由一种能量媒介物转换成另一种能量媒介物，或由一种物理状态转换成另一种物理状态的过程。）通道容量：即在一定时间内一个通道所能传递的信息的有限性或极限性。符号操作系统范式；符号操作系统范式（象征的系统）在认知心理学领域又被称为“信息处理模型”、“符号处理模型”、“串行处理模型”等。1968年佩泊特出版《感知器》成为符号操作系统范式诞生的标志。符号操作系统范式把人看作一个“信息处理系统”，或者称作“符号操作系统”。代表人物纽韦尔和西蒙等人。符号：就是模式，任何一个模式只要它能和其他模式相区别，它就是一个符号。信息加工系统：是指能够接收、存储、处理和传递信息的系统。由记忆装置、加工器、效应器和接受器组成。联想记忆；安德森和鲍威尔提出：首先分析简单的命题句子，并把分析后的句子输入到存储器中保持，当出现新句子时，调动已经存储在“网络知识库”中的信息来回答或解决问题。适应性控制；即思维的适应性控制。安德森提出的有关一般性知识存储的认知模型，用程序来说明知识的组织和表象概念的激活过程，并对陈述性知识和程序进行区分。联结主义范式：20世纪80年代兴起，联结主义认为，人类的认知活动的本质在于神经元之间的联结强度，以及它们之间不断发生的动态变化，即对信息进行并行分布式的加工处理，这种联结与处理是连续变化的模拟计算。其实质是用数学与计算模型的说明人类心智的过程与特点。通用问题解决程序；由纽韦尔和西蒙设计，采用启发式程序，用“手段一目标分析”方式，把问题的解决程序通过提出一些子目标的办法一步一步地缩小初始状态和最终目标状态之间的差异，最后解决问题。计算机隐喻是指把计算机作为人脑功能的一种心理模型，从中引申出人的认知过程或心理活动是一种“计算”的观念。抽象分析方法：又称为会聚性证明法，是指采用人与计算机之间的功能类比，并以其他实验分析为辅助，通过结合与抽象，以推理、判断的方式得出结论的研究方法。计算机模拟方法：指用计算机来模拟、检验、发现人的认知活动及其行为表现的规律的研究方法。流程图式是指以作业图或信息流程图的形式表示人的心理活动，并以此分析人的信息加工过程的研究方法。信息加工流程模式：由于认知心理学把人视为计算机式的信息加工系统，因此经常采用流程图的方式来分析与概括人的信息加工过程，它是一种简明、扼要地说明人的心理上活动过程的具体方法。（图例39）

黄庆明模式识别与机器学习第三章作业

·在一个10类的模式识别问题中，有3类单独满足多类情况1，其余的类别满足多类情况2。问该模式识别问题所需判别函数的最少数目是多少？应该是252142 6 *74132 7=+=+ =++C 其中加一是分别3类和 7类 ·一个三类问题，其判别函数如下： d1(x)=-x1, d2(x)=x1+x2-1, d3(x)=x1-x2-1 (1)设这些函数是在多类情况1条件下确定的，绘出其判别界面和每一个模式类别的区域。 (2)设为多类情况2，并使：d12(x)= d1(x), d13(x)= d2(x), d23(x)= d3(x)。绘出其判别界面和多类情况2的区域。

(3)设d1(x), d2(x)和d3(x)是在多类情况3的条件下确定的，绘出其判别界面和每类的区域。 ·两类模式，每类包括5个3维不同的模式，且良好分布。如果它们是线性可分的，问权向量至少需要几个系数分量？假如要建立二次的多项式判别函数，又至少需要几个系数分量？（设模式的良好分布不因模式变化而改变。）如果线性可分，则4个建立二次的多项式判别函数，则102 5 C 个 ·(1)用感知器算法求下列模式分类的解向量w: ω1: {(0 0 0)T , (1 0 0)T , (1 0 1)T , (1 1 0)T } ω2: {(0 0 1)T , (0 1 1)T , (0 1 0)T , (1 1 1)T } 将属于ω2的训练样本乘以（-1），并写成增广向量的形式。 x ①=(0 0 0 1)T , x ②=(1 0 0 1)T , x ③=(1 0 1 1)T , x ④=(1 1 0 1)T x ⑤=(0 0 -1 -1)T , x ⑥=(0 -1 -1 -1)T , x ⑦=(0 -1 0 -1)T , x ⑧=(-1 -1 -1 -1)T 第一轮迭代：取C=1，w(1)=(0 0 0 0) T 因w T (1) x ① =(0 0 0 0)(0 0 0 1) T =0 ≯0，故w(2)=w(1)+ x ① =(0 0 0 1) 因w T (2) x ② =(0 0 0 1)(1 0 0 1) T =1>0，故w(3)=w(2)=(0 0 0 1)T 因w T (3)x ③=(0 0 0 1)(1 0 1 1)T =1>0，故w(4)=w(3) =(0 0 0 1)T 因w T (4)x ④=(0 0 0 1)(1 1 0 1)T =1>0，故w(5)=w(4)=(0 0 0 1)T 因w T (5)x ⑤=(0 0 0 1)(0 0 -1 -1)T =-1≯0，故w(6)=w(5)+ x ⑤=(0 0 -1 0)T 因w T (6)x ⑥=(0 0 -1 0)(0 -1 -1 -1)T =1>0，故w(7)=w(6)=(0 0 -1 0)T 因w T (7)x ⑦=(0 0 -1 0)(0 -1 0 -1)T =0≯0，故w(8)=w(7)+ x ⑦=(0 -1 -1 -1)T 因w T (8)x ⑧=(0 -1 -1 -1)(-1 -1 -1 -1)T =3>0，故w(9)=w(8) =(0 -1 -1 -1)T 因为只有对全部模式都能正确判别的权向量才是正确的解，因此需进行第二轮迭代。第二轮迭代：因w T (9)x ①=(0 -1 -1 -1)(0 0 0 1)T =-1≯0，故w(10)=w(9)+ x ① =(0 -1 -1 0)T

人工智能复习题汇总(附答案)

一、选择题 1.被誉为“人工智能之父”的科学家是（C ）。 A. 明斯基 B. 图灵 C. 麦卡锡 D. 冯.诺依曼 2. AI的英文缩写是( B ) A. Automatic Intelligence B. Artificial Intelligence C. Automatic Information D. Artificial Information 3. 下列那个不是子句的特点（D ） A.子句间是没有合取词的(∧)B子句通过合取词连接句子(∧) C子句中可以有析取词(∨)D子句间是没有析取词的(∨) 4. 下列不是命题的是（C ）。 A.我上人工智能课 B. 存在最大素数 C.请勿随地大小便 D. 这次考试我得了101分 5. 搜索分为盲目搜索和（A ） A启发式搜索B模糊搜索 C精确搜索D大数据搜索 6. 从全称判断推导出特称判断或单称判断的过程，即由一般性知识推出适合于某一具体情况的结论的推理是（ B ） A. 归结推理 B. 演绎推理 C. 默认推理 D. 单调推理 7. 下面不属于人工智能研究基本内容的是（C ） A. 机器感知 B. 机器学习

C. 自动化 D. 机器思维 8. S={P∨Q∨R, ┑Q∨R, Q, ┑R}其中, P 是纯文字，因此可将子句（A ）从S中删去 A. P∨Q∨R B. ┑Q∨R C. Q D. ┑R 9. 下列不属于框架中设置的常见槽的是（B ）。 A. ISA槽 B. if-then槽 C. AKO槽 D. Instance槽 10. 常见的语意网络有（D ）。 A. A-Member - of联系 B. Composed–of联系 C. have 联系 D. 以上全是 1.在深度优先搜索策略中，open表是（B ）的数据结构 A. 先进先出 B. 先进后出 C. 根据估价函数值重排 D. 随机出 2.归纳推理是（B ）的推理 A. 从一般到个别 B. 从个别到一般 C. 从个别到个别 D. 从一般到一般 3. 要想让机器具有智能，必须让机器具有知识。因此，在人工智能中有一个研究领域，主要研究计算机如何自动获取知识和技能，实现自我完善，这门研究分支学科叫（B ） A.专家系统 B.机器学习

人工智能与模式识别

人工智能与模式识别摘要：信息技术的飞速发展使得人工智能的应用范围变得越来越广，而模式识别作为其中的一个重要方面，一直是人工智能研究的重要方向。在介绍人工智能和模式识别的相关知识的同时，对人工智能在模式识别中的应用进行了一定的论述。模式识别是人类的一项基本智能，着20世纪40年代计算机的出现以及50年代人工智能的兴起，模式识别技术有了长足的发展。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。模式识别的发展潜力巨大。关键词：模式识别；数字识别；人脸识别中图分类号； Abstract:The rapid development of information technology makes the application of artificial intelligence become more and more widely. Pattern recognition, as one of the important aspects, has always been an important direction of artificial intelligence research. In the introduction of artificial intelligence and pattern recognition related knowledge at the same time, artificial intelligence in pattern recognition applications were discussed.Pattern recognition is a basic human intelligence, the emergence of the 20th century, 40 years of computer and the rise of artificial intelligence in the 1950s, pattern recognition technology has made great progress. Pattern recognition and statistics, psychology, linguistics, computer science, biology, cybernetics and so have a relationship. It has a cross-correlation with artificial intelligence and image processing. The potential of pattern recognition is huge. Key words:pattern recognition; digital recognition; face recognition; 1引言随着计算机应用范围不断的拓宽，我们对于计算机具有更加有效的感知“能

模式识别与机器学习期末考查试题及参考答案(20210221222717)

模式识别与机器学习期末考查试卷研究生姓名：入学年份：导师姓名：试题1：简述模式识别与机器学习研究的共同问题和各自的研究侧重点。答：（1）模式识别是研究用计算机来实现人类的模式识别能力的一门学科，是指对表征事物或现象的各种形式的信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程。主要集中在两方面，一是研究生物体（包括人）是如何感知客观事物的，二是在给定的任务下，如何用计算机实现识别的理论和方法。机器学习则是一门研究怎样用计算机来模拟或实现人类学习活动的学科，是研究如何使机器通过识别和利用现有知识来获取新知识和新技能。主要体现以下三方面：一是人类学习过程的认知模型；二是通用学习算法；三是构造面向任务的专用学习系统的方法。两者关心的很多共同问题，如：分类、聚类、特征选择、信息融合等，这两个领域的界限越来越模糊。机器学习和模式识别的理论和方法可用来解决很多机器感知和信息处理的问题，其中包括图像/ 视频分析（文本、语音、印刷、手写）文档分析、信息检索和网络搜索等。（2）机器学习和模式识别是分别从计算机科学和工程的角度发展起来的，各自的研究侧重点也不同。模式识别的目标就是分类，为了提高分类器的性能，可能会用到机器学习算法。而机器学习的目标是通过学习提高系统性能，分类只是其最简单的要求，其研究更

侧重于理论，包括泛化效果、收敛性等。模式识别技术相对比较成熟了，而机器学习中一些方法还没有理论基础，只是实验效果比较好。许多算法他们都在研究，但是研究的目标却不同。如在模式识别中研究所关心的就是其对人类效果的提高，偏工程。而在机器学习中则更侧重于其性能上的理论证明。试题2：列出在模式识别与机器学习中的常用算法及其优缺点。答：（1）K 近邻法算法作为一种非参数的分类算法，它已经广泛应用于分类、回归和模式识别等。在应用算法解决问题的时候，要注意的两个方面是样本权重和特征权重。优缺点：非常有效，实现简单，分类效果好。样本小时误差难控制，存储所有样本，需要较大存储空间，对于大样本的计算量大。（2）贝叶斯决策法贝叶斯决策法是以期望值为标准的分析法，是决策者在处理风险型问题时常常使用的方法。优缺点：由于在生活当中许多自然现象和生产问题都是难以完全准确预测的，因此决策者在采取相应的决策时总会带有一定的风险。贝叶斯决策法就是将各因素发生某种变动引起结果变动的概率凭统计资料或凭经验主观地假设，然后进一步对期望值进行分析，由于此概率并不能证实其客观性，故往往是主观的和人为的概率，本身带有一定的风险性和不肯定性。虽然用期望的大小进行判断有一些风险，但仍可以认为贝叶斯决策是一种兼科学性和实效性于一身的比较完善的用于解决风险型决策问题的方法，在实际中能够广泛应

人工智能复习题(答案)

一：单选题 1. 人工智能的目的是让机器能够（D），以实现某些脑力劳动的机械化。 A. 具有完全的智能 B. 和人脑一样考虑问题 C. 完全代替人 D. 模拟、延伸和扩展人的智能 2. 下列关于人工智能的叙述不正确的有（C）。 A. 人工智能技术它与其他科学技术相结合极大地提高了应用技术的智能化水平。 B. 人工智能是科学技术发展的趋势。 C. 因为人工智能的系统研究是从上世纪五十年代才开始的，非常新，所以十分重要。 D. 人工智能有力地促进了社会的发展。 3. 自然语言理解是人工智能的重要应用领域，下面列举中的（C）不是它要实现的目标。 A. 理解别人讲的话。 B. 对自然语言表示的信息进行分析概括或编辑。 C. 欣赏音乐。 D. 机器翻译。 4. 下列不是知识表示法的是（A）。 A. 计算机表示法 B. 谓词表示法 C. 框架表示法 D. 产生式规则表示法 5. 关于“与/或”图表示知识的叙述，错误的有（D）。 A. 用“与/或”图表示知识方便使用程序设计语言表达，也便于计算机存储处理。 B. “与/或”图表示知识时一定同时有“与结点”和“或结点”。 C. “与/或”图能方便地表示陈述性知识和过程性知识。 D. 能用“与/或”图表示的知识不适宜用其他方法表示。 6. 一般来讲，下列语言属于人工智能语言的是（D）。 A. VJ B. C# C. Foxpro D. LISP 7. 专家系统是一个复杂的智能软件，它处理的对象是用符号表示的知识，处理的过程是（C）的过程。 A. 思考 B. 回溯 C. 推理 D. 递归 8. 确定性知识是指（A）知识。 A. 可以精确表示的 B. 正确的 C. 在大学中学到的知识 D. 能够解决问题的 9. 下列关于不精确推理过程的叙述错误的是（B）。 A. 不精确推理过程是从不确定的事实出发 B. 不精确推理过程最终能够推出确定的结论 C. 不精确推理过程是运用不确定的知识 D. 不精确推理过程最终推出不确定性的结论 10. 我国学者吴文俊院士在人工智能的（A）领域作出了贡献。 A. 机器证明 B. 模式识别 C. 人工神经网络 D. 智能代理

认知心理学复习重点整理

认知心理学复习重点选择题20分，5个实验，1个论述题，4个简答题。前七章 1.认知心理学的研究的内容、核心、认知心理学中的两个研究指标：反应时和正确率。 2. 复述分为两种：简单复述和精细复述 3．感觉记忆的研究是用什么方法来研究的？部分报告法 4图像记忆的容量？9到20个保持时间300到500毫秒 5.侧向扩散 6 问题行为图包含的两个成分 7.深层转换语法包含的两个成分 8推理产生错误的原因 9 速度与正确率权衡问题 10 鸡尾酒会效应 11 自由回忆实验 12 人工代理 13 问题空间 14 模式识别 15 追随程序 16 范畴大小效应 17 Burner的人工概念的实验 18 系列位置效应的实验 19 探测刺激的实验探测法的实验（短时记忆的遗忘） 20 注意章节：注意的选择机制知觉选择模型和反应选择模型中枢能量理论计算机模拟法基本逻辑知觉产生的理论 21 Sternberg 短时记忆信息提取方式的实验 22 Paivio 的斑马试验 23 Navon 的整体加工与局部加工实验 24 轮廓比较与命名实验（又称短时记忆视觉编码实验）

1.认知心理学的研究的内容、核心、P1 认知心理学：以信息加工观点为核心的心理学，又可称作信息加工心理学，主要研究认知或认知过程，研究范围包括感知觉，注意，表象，学习记忆，思维和言语等心理过程或认知过程。认知心理学中的两个主要研究指标：反应时和正确率（即作业成绩）。 2.复述P84 复述是一种不出声地对刺激信息进行重复默诵的内部过程。复述可以分为机械性复述或称为保持性复述（maintenance rehearsal)和精致性复述或称为整合性复述(elaborative rehearsal)。 1）简单复述即以前所说的的复述，它有助于项目在短时记忆中保持，即如复述缓冲器，现又称为保持性复述。 2）精致性复述是将要复述的材料加以组织，将它与其他信息联系起来，在更深的层次上进行加工。这种复述又称为整合性复述，可以使信息转入长时记忆。3．感觉记忆的研究是用什么方法来研究的？部分报告法P75 部分报告法：Sperling在每组的视觉刺激信息呈现之后（呈现时间50毫秒），发出一个声音，提示3行字母中的哪一行要求被试报告出来。其中上行的字母与高音相联系，中行的字母与中音相联系，下行的字母与低音相联系。要求被试在字母呈现后，根据出现的声音信号，对相应一行的字母马上做出报告（部分报告法）。 4 感觉记忆P75 当外部刺激直接作用于感觉感觉，产生感觉像后，虽然刺激的作用停止，但感觉像仍可维持极短的片刻。这种感觉滞留在视觉中最为突出。感觉滞留表明感觉信息的瞬间贮存。这种记忆就是感觉记忆或感觉登记。图像记忆的容量为9到20个；保持时间300到500毫秒；声象记忆的容量为8到9个项目，时间为4秒。 5.侧向扩散P89 侧向扩散是指在某一个水平上，或者是较浅的水平或者是较深的水平，加工在横向扩展开来。以阅读为例说明：校对阅读和要点阅读。 6 问题行为图包含的两个成分P10 问题行为图一种分析口语记录的方法称之为问题行为图，这是Newell和Simon提出的分析方法，可以使人直观地看出问题解决过程中所进行的各种操作的序列。这种问题行为图有两个成分组成：1）知识状态，即人在某一具体时刻所知的关于改该作业或问题的全部信息；2）操作，即人每次用来改变其知识状态的手段。 7.Chomsky的生成转换语法包含的两个成分P219——222 包含短语结构语法和转换语法，而以后者最为著名。短语结构语法认为，一个句子是有许多组成成分构成的，其中短语是最重要的结构。Chomsky认为，短语结构语法仍未能完全确切地解释语言。区分句子的两种结构：表层结构和深层结构。

机器学习练习题与答案

《机器学习》练习题与解答 1.小刚去应聘某互联网公司的算法工程师，面试官问他“回归和分类有什么相同点和不同点”，他说了以下言论，请逐条判断是否准确。 1）回归和分类都是有监督学习问题 [单选题] [必答题] ○对 ○错参考答案：对。解析：这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练数据集中推断出函数的机器学习任务。有监督学习和无监督学习的区别是：机器学习算法的图谱如下：

在回归问题中，标签是连续值；在分类问题中，标签是离散值。具体差别请看周志华《机器学习》书中的例子，一看便懂： 2.背景同上题。请判断 2）回归问题和分类问题都有可能发生过拟合 [单选题] [必答题] ○对 ○错答案：对解析：这题有两个同学做错。过拟合的英文名称是 Over-fitting(过拟合)。为了说清楚“过”拟合，首先说一下“拟合” 【拟合的几何意义】：从几何意义上讲，拟合是给定了空间中的一些点，找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。一个直观的例子，是下面的电阻和温度的例子。

我们知道在物理学中，电阻和温度是线性的关系，也就是R=at+b。现在我们有一系列关于“温度”和“电阻”的测量值。一个最简单的思路，取两组测量值，解一个线性方程组，就可以求出系数a、b了！但是理想是丰满的，现实是残酷的！由于测量误差等的存在，我们每次测量得到的温度值和电阻值都是有误差的！因此，为了提高测量精度，我们会测量多次，得到多组的值，这样就相当于得到二维平面上的多个点，我们的目标是寻找一条直线，让这条直线尽可能地接近各个测量得到的点。拟合的数学意义：在数学的意义上，所谓拟合(fit)是指已知某函数的若干离散函数值{f1,f2,…,fn}（未必都是准确值，有个别可能是近似甚至错误值），通过调整该函数中若干待定系数f(λ1, λ2,…,λn)，使得该函数与已知点集的差别(最小二乘意义)最小。【说说过拟合】古人云“过犹不及”。所谓“过”拟合，顾名思义，就是在学习的集合（也就是训练集）上拟合的很不错，但是有点过头了，什么意思？他能够在学过的数据上判断的很准，但是如果再扔给它一系列新的没学习过的数据，它判断的非常差！比如古时候有个教书先生教小明写数字，“一”字是一横，“二”字是两横，“三”字是三横。然后，小明说，老师你不用教我写数字了，我都会写。老师很惊讶，那你说“万”字怎么写，结果小明在纸上写下了无数个“横”。。用台湾大学林轩田老师的话说，过拟合是“书呆子”，“钻牛角尖”。如果用过于复杂的模型来刻画简单的问题，就有可能得到“聪明过头”的结果。比如下面预测房子的价格(price)和size之间关系的问题（来源于andrew ng的ppt）

认知心理学问题汇总

第一章绪论认知心理学诞生的历史原因内部原因：行为主义的失败。外部原因：“三论”、计算机科学、语言学、二战中的其他学科技术减法反应时存在的问题：阶段划分的可行性（串行加工的前提）、增减加工阶段对其他阶段的影响开窗实验存在的问题：后一加工阶段会包含对前一加工阶段的复述。后面字母的存储阶段还会包含对前面字母转换结果的提取与整合。认知心理学的研究取向：符号加工：以信息加工观点研究认知过程，曾是现代认知心理学的主流，认为认知就是信息加工，包括感觉输入的变换、加工、存储和使用的全过程。联结主义：人脑神经元网络模拟，并行分布加工第二章知觉模式识别的几种理论模型 6种：模板说、原型说、特征说、成分理论识别、视觉计算理论、拓扑理论模式: 由若干元素或成分按一定关系形成的某种刺激结构（空间、时间）模式识别: 确认所知觉的模式是什么，将其与其它模式区分开。 ?认识刺激，对刺激命名； ?对刺激产生熟悉感模板说：基本思想：人在长时记忆中存有与外部刺激模式一一对应的模板。模式识别即是将刺激模式提供的信息与各模板进行比较，确定最佳的匹配。

?疑问： ?刺激加工方式（局部优先总体优先） ?模板编码方式（表象） ?模板匹配方式（系列并行） ?补充与修正： ?附加预加工过程 ?引入自上而下加工 ?局限： ?模板数量巨大，记忆负担过重、缺乏灵活性、概括性原型说：原型：一类客体的内部概括表征，反应范畴的平均特征或集中趋势。模式识别中，外部刺激只需与原型比较，近似匹配即可。 ?优点：减轻记忆负担，更具灵活性。 ?局限：只有自下而上加工特征说：基本思想： ?特征：构成模式的元素成分及其间关系。外部刺激在长时记忆中以特征来表征。首先对刺激特征进行分析，然后将特征加以合并，与长时记忆中各种刺激的特征进行比较，最佳的匹配即识别。特征说与模板说的联系与区别： ?更强适应性，仅依据刺激特征关系，不涉及其他细节；特征通用性，减轻记忆负担；学习可能性（抽取－综合）；类似特征混淆支持证据 ?Neisser 字母搜索实验；固定网像实验；神经生理上的特征觉察器 “鬼域”模型

人工智能第八章机器学习习题解答

2第八章机器学习 8.2答：（1）学习是一项复杂的智能活动，学习过程与推理过程是紧密相连的学习中所用的推理越多，系统的能力越强（2）机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问 “机器”——计算机（电子，以后还可能是中子计算机、光子计算机或神经计算机等） 8.3答：机器学习系统的结构及基本功能当监督环节为示教人时，为示教式学习系统；当监督环节为监督器时，为自学式学习系统。 ① 知识库存储（记忆）、积累知识 ·长期记忆（LTM ）先验知识背景如事物的基本概念和定义、定律和公理，博弈的基本规则等 ·中期记忆（MTM ）环境事物的各种具体知识 ·短期记忆（STM ）环境变化的信息和数据事实库或“黑板 ② 学习元学习系统的核心环节 ·采集环境信息息选例环节或直接采集 ·接受监督指导监督环节的示教、指导信息或评价准则 ·进行学习推理获得有关问题的解答和结论 ·修改知识库将推理结果输入知识库，对知识增删改 ③ 执行元识别、论证、决策、判定模式分类器、专家咨询解释系统、智能控制机构、机械手/人等如执行元行动结果直接引起环境的变化 “在线”学习系统机器人规划、生产过程控制、机器博弈等 ④ 监督环节人:示教者;监督器:评价准则或检验标准 ·工作执行效果评价——接受来自执行元环节的反馈信息，对系统的工作执行效果进行评价和检验 ·制定评价标准——接受来自环境变化的信息，制定和修订评价标准和检验标准 ·监督学习环节——根据评价和检验的结果，对学习环节进行示教、训练或指导 ·控制选例环节——根据环境变化信息及工作执行效果的反馈，控制选例环节，选取其它事例或样本 ⑤ 选例环节作用是从环境中选取有典型意义的事例或样本，作为系统的训练集或学习对象。如挑选典型病历，以便提高学习效率，加速学习过程。选例环节可以由人或机器来实现 ⑥ 环境系统获取知识和信息的来源，执行的对象和人物等。如，医疗专家系统的病员、病历档案、医生、诊断书等；模式识别系统的文字、图象、物景；博弈系统的对手、棋局；智能控制系统的被控对象和生产过监督环境选例学习元知识库执行元