中科院-模式识别考题总结(详细答案)

合集下载

模式识别期末考试题及答案

模式识别期末考试题及答案一、选择题（每题2分，共20分）1. 以下哪一项不是模式识别的主要任务？A. 分类B. 回归C. 聚类D. 预测答案：B2. 以下哪一种方法不属于统计模式识别方法？A. 最小二乘法B. 感知机C. 支持向量机D. 决策树答案：A3. 在模式识别中，以下哪种技术用于降低特征维度？A. 主成分分析（PCA）B. 线性判别分析（LDA）C. 神经网络D. K-均值聚类答案：A4. 以下哪一种模式识别方法适用于非线性问题？A. 线性判别分析（LDA）B. 支持向量机（SVM）C. 主成分分析（PCA）D. K-最近邻（K-NN）答案：B5. 以下哪一项不是模式识别的评价指标？A. 准确率B. 精确率C. 召回率D. 信息熵答案：D二、填空题（每题2分，共20分）6. 模式识别的主要任务包括分类、回归、聚类和________。

答案：预测7. 统计模式识别方法包括最小二乘法、感知机、________和决策树。

答案：支持向量机8. 主成分分析（PCA）的主要目的是________特征。

答案：降低维度9. 在模式识别中，________用于将样本分为不同的类别。

答案：分类器10. 支持向量机（SVM）的基本思想是找到一个________，使得不同类别的样本之间的间隔最大化。

答案：最优分割超平面三、简答题（每题10分，共30分）11. 请简述模式识别的主要步骤。

答案：（1）数据预处理：对原始数据进行清洗、标准化和降维等处理。

（2）特征提取：从原始数据中提取有助于分类的特征。

（3）模型训练：使用训练集对分类器进行训练。

（4）模型评估：使用测试集对分类器的性能进行评估。

（5）模型优化：根据评估结果对模型进行调整和优化。

12. 请简述支持向量机（SVM）的基本原理。

支持向量机是一种二分类模型，其基本思想是找到一个最优分割超平面，使得不同类别的样本之间的间隔最大化。

SVM通过求解一个凸二次规划问题来寻找最优分割超平面，从而实现分类任务。

模式识别考试总结

1.对一个染色体分别用一下两种方法描述：(1)计算其面积、周长、面积/周长、面积与其外接矩形面积之比可以得到一些特征描述，如何利用这四个值？属于特征向量法，还是结构表示法？(2)按其轮廓线的形状分成几种类型，表示成a、b、c等如图表示，如何利用这些量？属哪种描述方法？（3）设想其他的描述方法。

（1）这是一种特征描述方法，其中面积周长可以体现染色体大小，面积周长比值越小，说明染色体越粗，面积占外接矩形的比例也体现了染色体的粗细。

把这四个值组成特征向量可以描述染色体的一些重要特征，可以按照特征向量匹配方法计算样本间的相似度。

可以区分染色体和其它圆形、椭圆细胞结构。

（2）a形曲线表示水平方向的凹陷，b形表示竖直方向的凹陷，c形指两个凹陷之间的突起，把这些值从左上角开始，按顺时针方向绕一圈，可以得到一个序列描述染色体的边界。

它可以很好的体现染色体的形状，用于区分X和Y染色体很合适。

这是结构表示法。

（3）可以先提取待识别形状的骨架，在图中用蓝色表示，然后，用树形表示骨架图像。

2. 设在一维特征空间中两类样本服从正态分布，，两类先验概率之比，试求按基于最小错误率贝叶斯决策原则的决策分界面的x值。

答：由于按基于最小错误率的贝叶斯决策，则分界面上的点服从3、设两类样本的类内离散矩阵分别为，试用fisher准则求其决策面方程，并与第二章习题二的结构相比较。

答：由于两类样本分布形状是相同的（只是方向不同），因此应为两类均值的中点。

4，设在一个二维空间，A类有三个训练样本，图中用红点表示，B类四个样本，图中用蓝点表示。

试问：（1）按近邻法分类，这两类最多有多少个分界面（2）画出实际用到的分界面（3） A1与B4之间的分界面没有用到下图中的绿线为最佳线性分界面。

答：(1)按近邻法，对任意两个由不同类别的训练样本构成的样本对，如果它们有可能成为测试样本的近邻，则它们构成一组最小距离分类器，它们之间的中垂面就是分界面，因此由三个A类与四个B类训练样本可能构成的分界面最大数量为3×4＝12。

模式识别期末试题及答案

模式识别期末试题及答案正文：模式识别期末试题及答案1. 选择题1.1 下列关于机器学习的说法中，正确的是：A. 机器学习是一种人工智能的应用领域B. 机器学习只能应用于结构化数据C. 机器学习不需要预先定义规则D. 机器学习只能处理监督学习问题答案：A1.2 在监督学习中，以下哪个选项描述了正确的训练过程？A. 通过输入特征和预期输出，训练一个模型来进行预测B. 通过输入特征和可能的输出，训练一个模型来进行预测C. 通过输入特征和无标签的数据，训练一个模型来进行预测D. 通过输入特征和已有标签的数据，训练一个模型来进行分类答案：D2. 简答题2.1 请解释什么是模式识别？模式识别是指在给定一组输入数据的情况下，通过学习和建模，识别和分类输入数据中的模式或规律。

通过模式识别算法，我们可以从数据中提取重要的特征，并根据这些特征进行分类、聚类或预测等任务。

2.2 请解释监督学习和无监督学习的区别。

监督学习是一种机器学习方法，其中训练数据包含了输入特征和对应的标签或输出。

通过给算法提供已知输入和输出的训练样本，监督学习的目标是学习一个函数，将新的输入映射到正确的输出。

而无监督学习则没有标签或输出信息。

无监督学习的目标是从未标记的数据中找到模式和结构。

这种学习方法通常用于聚类、降维和异常检测等任务。

3. 计算题3.1 请计算以下数据集的平均值：[2, 4, 6, 8, 10]答案：63.2 请计算以下数据集的标准差：[1, 3, 5, 7, 9]答案：2.834. 综合题4.1 对于一个二分类问题，我们可以使用逻辑回归模型进行预测。

请简要解释逻辑回归模型的原理，并说明它适用的场景。

逻辑回归模型是一种用于解决二分类问题的监督学习算法。

其基本原理是通过将特征的线性组合传递给一个非线性函数（称为sigmoid函数），将实数值映射到[0,1]之间的概率。

这个映射的概率可以被解释为某个样本属于正类的概率。

逻辑回归适用于需要估计二分类问题的概率的场景，例如垃圾邮件分类、欺诈检测等。

中科院模式识别第三次(第五章)_作业_答案_更多

第5章：线性判别函数第一部分：计算与证明1．有四个来自于两个类别的二维空间中的样本，其中第一类的两个样本为(1,4)T 和(2,3)T ，第二类的两个样本为(4,1)T 和(3,2)T 。

这里，上标T 表示向量转置。

假设初始的权向量a=(0,1)T ，且梯度更新步长ηk 固定为1。

试利用批处理感知器算法求解线性判别函数g(y)=a T y 的权向量。

解：首先对样本进行规范化处理。

将第二类样本更改为(4,1)T 和(3,2)T . 然后计算错分样本集：g(y 1) = (0,1)(1,4)T = 4 > 0 (正确) g(y 2) = (0,1)(2,3)T = 3 > 0 (正确) g(y 3) = (0,1)(-4,-1)T = -1 < 0 (错分) g(y 4) = (0,1)(-3,-2)T = -2 < 0 (错分) 所以错分样本集为Y={(-4,-1)T , (-3,-2)T }.接着，对错分样本集求和：(-4,-1)T +(-3,-2)T = (-7,-3)T第一次修正权向量a ，以完成一次梯度下降更新：a=(0,1)T + (-7,-3)T =(-7,-2)T 再次计算错分样本集：g(y 1) = (-7,-2)(1,4)T = -15 < 0 (错分) g(y 2) = (-7,-2)(2,3)T = -20 < 0 (错分) g(y 3) = (-7,-2)(-4,-1)T = 30 > 0 (正确) g(y 4) = (-7,-2)(-3,-2)T = 25 > 0 (正确) 所以错分样本集为Y={(1,4)T , (2,3)T }.接着，对错分样本集求和：(1,4)T +(2,3)T = (3,7)T第二次修正权向量a ，以完成二次梯度下降更新：a=(-7,-2)T + (3,7)T =(-4,5)T 再次计算错分样本集：g(y 1) = (-4,5)(1,4)T = 16 > 0 (正确) g(y 2) = (-4,5)(2,3)T = 7 > 0 (正确) g(y 3) = (-4,5)(-4,-1)T = 11 > 0 (正确) g(y 4) = (-4,5)(-3,-2)T = 2 > 0 (正确)此时，全部样本均被正确分类，算法结束，所得权向量a=(-4,5)T 。

模式识别试题及总结

二、(15分)简答及证明题（1）影响聚类结果的主要因素有那些？（2）证明马氏距离是平移不变的、非奇异线性变换不变的。

答：（1）分类准则，模式相似性测度，特征量的选择，量纲。

（2）证明：(2分)(2分)(1分)设，有非奇异线性变换：(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。

答：（1）（4分）的绝对值正比于到超平面的距离平面的方程可以写成式中。

于是是平面的单位法矢量，上式可写成设是平面中的任一点，是特征空间中任一点，点到平面的距离为差矢量在上的投影的绝对值，即(1-1)上式中利用了在平面中，故满足方程式(1-1)的分子为判别函数绝对值，上式表明，的值正比于到超平面的距离，一个特征矢量代入判别函数后所得值的绝对值越大表明该特征点距判别界面越远。

（2）（4分）的正（负）反映在超平面的正（负）侧两矢量和的数积为（2分）显然，当和夹角小于时，即在指向的那个半空间中，>0；反之，当和夹角大于时，即在背向的那个半空间中，<0。

由于，故和同号。

所以，当在指向的半空间中时，；当在背向的半空间中，。

判别函数值的正负表示出特征点位于哪个半空间中，或者换句话说，表示特征点位于界面的哪一侧。

五、(12分，每问4分)在目标识别中，假定有农田和装甲车两种类型，类型ω1和类型ω2分别代表农田和装甲车，它们的先验概率分别为0.8和0.2，损失函数如表1所示。

现在做了三次试验，获得三个样本的类概率密度如下：：0.3，0.1，0.6：0.7，0.8，0.3（1）试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型；（2）假定只考虑前两种判决，试用贝叶斯最小风险准则判决三个样本各属于哪一类；（3）把拒绝判决考虑在内，重新考核三次试验的结果。

表1类型损失判决1ω1α 1 45 11 1解：由题可知：，，，，（1）（4分）根据贝叶斯最小误判概率准则知：，则可以任判；，则判为；，则判为；（2）（4分）由题可知：则，判为；，判为；，判为；（3）（4分）对于两类问题，对于样本，假设已知，有则对于第一个样本，，则拒判；，则拒判；，拒判。

模式识别期末考试题及答案

模式识别期末考试题及答案一、选择题（每题2分，共20分）1. 以下哪项不属于模式识别的主要任务？A. 分类B. 回归C. 聚类D. 降维答案：B2. 以下哪种方法不属于模式识别的监督学习方法？A. 支持向量机B. 决策树C. 神经网络D. K-均值聚类答案：D3. 在模式识别中，特征选择和特征提取的主要目的是什么？A. 提高模型的泛化能力B. 减少模型的计算复杂度C. 提高模型的准确率D. 所有以上选项答案：D4. 以下哪种距离度量方法不适用于模式识别？A. 欧几里得距离B. 曼哈顿距离C. 余弦相似度D. 切比雪夫距离答案：C5. 以下哪种算法不属于模式识别中的分类算法？A. K-最近邻B. 支持向量机C. 线性回归D. 决策树答案：C二、填空题（每题2分，共20分）1. 模式识别的主要任务包括分类、回归、聚类和__________。

答案：降维2. 监督学习算法包括线性判别分析、__________、神经网络等。

答案：支持向量机3. 无监督学习算法包括K-均值聚类、层次聚类、__________等。

答案：DBSCAN4. 特征选择和特征提取的主要目的是降低数据的__________和__________。

答案：维度、计算复杂度5. 模式识别中常用的距离度量方法有欧几里得距离、曼哈顿距离、余弦相似度和__________。

答案：切比雪夫距离三、判断题（每题2分，共20分）1. 模式识别是人工智能领域中一个重要的分支，主要研究如何使计算机能够自动识别和处理模式。

（）答案：√2. 监督学习算法和无监督学习算法在模式识别中具有相同的作用。

（）答案：×3. 支持向量机是一种基于最大间隔的分类算法。

（）答案：√4. K-均值聚类算法是一种基于距离度量的聚类算法。

（）答案：√5. 特征选择和特征提取的主要目的是提高模型的泛化能力。

（）答案：√四、简答题（每题10分，共30分）1. 简述模式识别的基本流程。

中科大模式识别贝叶斯决策答案

1. 假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为: = 0.9 正常状态：P = 0. 异常状态：P 现有一待识别细胞，其观察值为，从类条件概率密度曲线上分别查得 P = 0. ，P = 0.4 按照最小错误率原则，试对该细胞进行分类。【解】最小错误率原则下的贝叶斯决策需要比较后验概率 P 后验概率大的那一类 P P P = P P 由于分母部分相同，只需要比较分子部分即可 P P = 0. 0.9 = 0. P P = 0.4 0. = 0.04 P P P 由于 P ，因此将细胞 = P P P 和P
其中是一个似然函数
维的向量，Σ是一个
维的对称矩阵
对上式取对数，并去掉常数项−
log
之后，得到对数似然函数为
(1) 参数的最大似然估计由矩阵代数理论知，对于实对称矩阵，有于是可得 = 成立
令
= 0，解得
(2) 参数Σ的最大似然估计相关公式：
关于以上公式的详细讨论，请参考多元正态分布.pdf 13.5 节对 Σ 稍作变形
令
Σ−
= 0，解得
，将未知样本预测为
预测为
= = 0， = ， =t 2. 如果：请按照最小风险贝叶斯决策对上题的待识别细胞进行分类。【解】最小风险贝叶斯决策需要比较条件平均风险和，将未知样本预测为条件平均风险小的那一类 P P P P = 0 0. 0.9 t 0.4 0. = 0. 4 = P P P P = 0. 0.9 0 0.4 0. = 0. = 由于，因此将细胞预测为 3. 多维正态分布的最大似然估计推导。【解】数据集 = ， ∈ 多维正态分布的参数化表达形式为

中科院模式识别考题总结(详细答案)

1 .简述模式的概念及其直观特性，模式识别的分类，有哪几种方法。

（6'）答（1）：什么是模式？广义地说，存在于时间和空间中可观察的物体，如果我们可以区别它们是否相同或是否相似，都可以称之为模式。

模式所指的不是事物本身，而是从事物获得的信息，因此，模式往往表现为具有时间和空间分布的信息。

模式的直观特性：可观察性；可区分性；相似性.答（2）：模式识别的分类：假说的两种获得方法（模式识别进行学习的两种方法）：•监督学习、概念驱动或归纳假说：•非监督学习、数据驱动或演绎假说。

模式分类的主要方法：•数据聚类:用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。

是一种非监督学习的方法，解决方案是数据驱动的。

•统计分类:基于概率统计模型得到各类别的特征向量的分布，以取得分类的方法。

特征向量分布的获得是基于一个类别已知的训练样本集。

是一种监督分类的方法，分类器是概念驱动的。

•结构模式识别:该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目的。

（句法模式识别）•神经网络:由一系列互相联系的、相同的单元（神经元）组成。

相互间的联系可以在不同的神经元之间传递增强或抑制信号。

增强或抑制是通过调整神经元相互间联系的权重系数来（weight）实现。

神经网络可以实现监督和非监督学习条件下的分类。

2.什么是神经网络？有什么主要特点？选择神经网络模式应该考虑什么因素？（8,）•（1 ）：所谓△工神经网络就是基于模仿生物大脑的结构和功能而构成的二种值息处理系统计算机Z由于我们建立的信息处理系统实际上是模仿生理神经网络, 的复杂程度，通过调整内部大量节点之间相互连接的关系, 人工神经网络的两种操作过程：训练学习、正常操作答（2）：人工神经网络的特点：•固有的并行结构和并行处理；•知识的分布存储,•有较强的容错性,•有一定的自适应性,人工神经网络的局限性：•人工神经网络不适于高精度的计算；•人工神经网络不适于做类似顺序计数的工作；•人工神经网络的学习和训练往往是一个艰难的过程;•人工神经网络必须克服时间域顺序处理方面的困难;•硬件限制：•正确的训练数据的收集。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.简述模式的概念及其直观特性，模式识别的分类，有哪几种方法。

（6’）答（1）：什么是模式？广义地说，存在于时间和空间中可观察的物体，如果我们可以区别它们是否相同或是否相似，都可以称之为模式。

模式所指的不是事物本身，而是从事物获得的信息，因此，模式往往表现为具有时间和空间分布的信息。

模式的直观特性：可观察性；可区分性；相似性。

答（2）：模式识别的分类：假说的两种获得方法（模式识别进行学习的两种方法）：●监督学习、概念驱动或归纳假说；●非监督学习、数据驱动或演绎假说。

模式分类的主要方法：●数据聚类：用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。

是一种非监督学习的方法，解决方案是数据驱动的。

●统计分类：基于概率统计模型得到各类别的特征向量的分布，以取得分类的方法。

特征向量分布的获得是基于一个类别已知的训练样本集。

是一种监督分类的方法，分类器是概念驱动的。

●结构模式识别：该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目的。

（句法模式识别）●神经网络：由一系列互相联系的、相同的单元（神经元）组成。

相互间的联系可以在不同的神经元之间传递增强或抑制信号。

增强或抑制是通过调整神经元相互间联系的权重系数来（weight）实现。

神经网络可以实现监督和非监督学习条件下的分类。

2.什么是神经网络？有什么主要特点？选择神经网络模式应该考虑什么因素？（8’）答（1）：所谓人工神经网络就是基于模仿生物大脑的结构和功能而构成的一种信息处理系统（计算机）。

由于我们建立的信息处理系统实际上是模仿生理神经网络，因此称它为人工神经网络。

这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

人工神经网络的两种操作过程：训练学习、正常操作（回忆操作）。

答（2）：人工神经网络的特点：●固有的并行结构和并行处理；●知识的分布存储；●有较强的容错性；●有一定的自适应性；人工神经网络的局限性：●人工神经网络不适于高精度的计算；●人工神经网络不适于做类似顺序计数的工作；●人工神经网络的学习和训练往往是一个艰难的过程；●人工神经网络必须克服时间域顺序处理方面的困难；●硬件限制；●正确的训练数据的收集。

答（3）：选取人工神经网络模型，要基于应用的要求和人工神经网络模型的能力间的匹配，主要考虑因素包括：● 网络大小；● 所需输出类型； ● 联想记忆类型； ● 训练方法； ● 时间的限定。

3. 画出句法模式识别的框图，并解释其工作原理。

（8’）答（1）：句法模式识别框图如下：答（2）：句法模式识别系统的组成：图像预处理，图像分割，基元及其关系识别，句法分析。

基于描述模式的结构信息，用形式语言中的规则进行分类，可以更典型地应用于景物图片的分析。

因为在这类问题中，所研究的模式通常十分复杂，需要的特征也很多，仅用数值上的特征不足以反映它们的类别。

句法模式识别系统处理过程：基元本身包含的结构信息已不多，仅需少量特征即可识别。

如果用有限个字符代表不同的基元，则由基元按一定结构关系组成的子图或图形可以用一个有序的字符串来代表。

假如事先用形式语言的规则从字符串中推断出能生成它的文法，则可以通过句法分析，按给定的句法（文法）来辨识由基元字符组成的句子，从而判别它是否属于由该给定文法所能描述的模式类，达到分类的目的。

4. （1）解释线性判别函数进行模式分类的概念；（2）既然有了线性判别函数，为什么还要用非线性判别函数进行模式分类？（3）两类模式，每类包括5个3维不同的模式，且良好分布。

如果它们是线性可分的，问权向量至少需要几个系数分量？假如要建立二次的多项式判别函数，又至少需要几个系数分量？（设模式的良好分布不因模式变化而改变。

）（8’）答（1）：模式识别系统的主要作用是判别各个模式所属的类别。

线性判别函数分类就是使用线性判别函数将多类样本模式分开。

一个n 维线性判别函数的一般形式：1122101()Tn n n n d x w x w x w x w w x w ++=++++=+K其中012(,,...,)T n w w w w =称为权向量（或参数向量），12(,,...,)Tn x x x x =。

()d x 也可表示为：()T d x w x =其中，12(,,...,,1)T n x x x x =称为增广模式向量，0121(,,...,,)Tn n w w w w w +=称为增广权向量。

两类情况：判别函数()d x ：120()0Tif x d x w x if x ωω>∈==≤∈⎧⎨⎩多类情况：设模式可分成12,,...,M ωωω共M 类，则有三种划分方法： ● 多类情况1用线性判别函数将属于i ω类的模式与不属于i ω类的模式分开，其判别函数为：0()0iTi iiif x d x w x if x ωω>∈==≤∉⎧⎨⎩这种情况称为/i i ωω两分法，即把M 类多类问题分成M 个两类问题，因此共有M 个判别函数，对应的判别函数的权向量为,1,2,...,n 1i w i =+。

● 多类情况2采用每对划分，即|i j ωω两分法，此时一个判别界面只能分开两种类别，但不能把它与其余所有的界面分开。

其判别函数为：()Tij ij d x w x =若()0ij d x >，j i ∀≠，则i x ω∈ 重要性质：ij ji d d =-要分开M 类模式，共需M(M-1)/2个判别函数。

不确定区域：若所有()ij d x ，找不到j i ∀≠，()0ij d x >的情况。

● 多类情况3（多类情况2的特例）这是没有不确定区域的|i j ωω两分法。

假若多类情况2中的ij d 可分解成：()()()()T ij i j i j d x d x d x w w x =-=-，则0ij d >相当于()()i j d x d x >，j i ∀≠。

这时不存在不确定区域。

此时，对M 类情况应有M 个判别函数：(),1,2,,Tk k d x w x k M ==K即()()i j d x d x >，j i ∀≠，,1,2,...i j M =，则ix ω∈，也可写成，若()max{(),1,2,...,}i k d x d x k M ==，则i x ω∈。

该分类的特点是把M 类情况分成M-1个两类问题。

模式分类若可用任一个线性函数来划分，则这些模式就称为线性可分的，否则就是非线性可分的。

一旦线性函数的系数wk 被确定，这些函数就可用作模式分类的基础。

对于M 类模式的分类，多类情况1需要M 个判别函数，而多类情况2需要M*(M-1)/2个判别函数，当M 较大时，后者需要更多的判别式（这是多类情况2的一个缺点）。

采用多类情况1时，每一个判别函数都要把一种类别的模式与其余M-1种类别的模式分开，而不是将一种类别的模式仅与另一种类别的模式分开。

由于一种模式的分布要比M-1种模式的分布更为聚集，因此多类情况2对模式是线性可分的可能性比多类情况1更大一些（这是多类情况2的一个优点）。

答（2）广义线性判别函数出发点： ● 线性判别函数简单，容易实现； ● 非线性判别函数复杂，不容易实现；● 若能将非线性判别函数转换为线性判别函数，则有利于模式分类的实现。

采用广义线性判别函数的概念，可以通过增加维数来得到线性判别，但维数的大量增加会使在低维空间里在解析和计算上行得通的方法在高维空间遇到困难，增加计算的复杂性。

所以某些情况下使用非线性判别函数或分段线性判别函数效果更好。

解（3）假设该两类模式是线性可分的，则在三维空间中一个线性平面可以将这两类模式分开，所以判别函数可以写成：1234()d x w x w x w x w =+++所以权向量需要4个系数。

对于n 维x 向量，采用r 次多项式，d(x)的权系数w 的项数为：()!!!rw n r n r N C r n ++==当r=2，n=3时，(2)!(2)(1)102!!2W n n n N n +++=== 所以，此时权向量需要10个系数分量。

5. 设一有限态自动机01202({0,1},{,,},,,}A q q q q q δ=，δ定义如下：021222011021(,0),(,0),(,0)(,1),(,1),(,1)q q q q q q q q q q q q δδδδδδ======试求等价的正则文法，使得L(G)=T(A)。

（10’）解：设由A 得一正则文法(,,)，N T G V V P S =，则12{,,}N V S x x =，{0,1}T V =，0S q =由01(,1)q q δ=，得生成式11S x −−→ 由02(,0)q q δ=，得生成式20,0S S x −−→−−→ 由10(,1)q q δ=，得生成式11x S −−→ 由12(,0)q q δ=，得生成式1120,0x x x −−→−−→ 由21(,1)q q δ=，得生成式211x x −−→ 由22(,0)q q δ=，得生成式2220,0x x x −−→−−→ 对比实例：当扫描字符串1110时，A 按以下状态序列接受该字符串201101110q q q q q −→−−→−−→−−→−用对应的正则文法G 推导，得：111111111110S x S x ⇒⇒⇒⇒按有限态自动机确定正则文法给定一个有限态自动机0(,,,,)A Q q F δ=∑，可确定一个正则文法(,,,)N T G V V P S =，使得L(G) = T(A)。

由0111{,,...,,},n n n Q q q q q q F ++=∈，可确定：121{,,,...,x ,}N n n V S x x x +=，0S q =，i i x q =，T V =∑。

从δ求G 中的生成式P 可按如下原则： (1) 若(,)i j q a q δ=，则i j x ax →(2) 若1(,)i n q a q δ+=，则1,i i n x a x ax +→→6. K-均值算法聚类：K=2，初始聚类中心为12,x x ，数据为：（10’）12345678910{(0,0),(1,0),(0,1),(1,1),(8,7)(9,7),(8,8),(9,8),(8,9),(9,9)}x x x x x x x x x x ==========算法：第一步：选K 个初始聚类中心，12(1),z (1),...,(1)k z z ，其中括号内的序号为寻找聚类中心的迭代运算的次序号。

可选开始的K 个模式样本的向量值作为初始聚类中心。

第二步：逐个将需分类的模式样本{}x 按最小距离准则分配给K 个聚类中心中的某一个(1)j z 。