08第八章___神经网络的参数优化设计方法

08第八章___神经网络的参数优化设计方法
08第八章___神经网络的参数优化设计方法

第8章 神经网络的参数优化设计

在神经网络的泛化方法中,研究最多的是前馈神经网络的结构优化设计方法(剪枝算法、构造算法及进化算法等,我们将在以后各章讨论)。除了结构设计,其余前馈神经网络的泛化方法还有主动学习、最优停止法、在数据中插入噪声、神经网络集成及提示学习方法等,由于这些方法中神经网络的结构是固定的,因此神经网络性能是通过参数优化改善的,我们称这些方法为神经网络的参数优化设计方法。本章介绍最主要的参数优化设计方法,并给出了每种方法的算法实现和仿真例子。

8.1 主动学习

8.1.1 原理

按照学习机器对训练样本的处理方式,可将学习方式分为两类:被动学习方式和主动学习方式。被动学习是常用的学习方式,常被称为“从样本中学习” (Learning from samples ),该方式被动地接受训练样本,并通过学习从这些样本中提取尽可能多的信息。与被动学习相反,主动学习属于更高层次的、具有潜意识的学习。主动学习对训练样本的选择是主动的,通常通过对输入区域加以限制,有目的地在冗余信息较少的输入区域进行采样,并选择最有利于提高学习机器性能的样本来训练分类器,从而提高了整个训练样本集的质量。由上一章的讨论,训练样本质量对神经网络的泛化能力有极大影响,甚至超过网络结构对泛化能力的影响。因此采用主动学习方法,是改进神经网络泛化能力的一个重要方法。

主动学习机制大部分用于分类或概念学习[Baum1991,HwCh1990,SeOp1992]。在单概念学习中,Mitchell[Mitch1982]关于版本空间(Version Space)的论述有着较大的影响。下面,我们先简要介绍一下这一理论。

如果X 为一线性空间,概念c 定义为X 中点的集合。对目标概念t ,训练样本可写为()()x x t ,,其中X ∈x 为样本输入,()x t 为对x 的分类。如果t ∈x ,则()1=x t ,称()()x x t ,为t 的正样本;如果t ?x ,则()0=x t ,此时称()()x x t ,为t 的负样本。显然,对线性空间内的任何两个可分概念1c 和2c ,如果()()x x 1,c 是1c 的正样本(负样本),则()()x x 11,c ?必然是2c 的负样本(正样本),即任意两个可分概念的正负样本之间可以互相转换。如果某概念c 对x 的分类与目标概念对其的分类()x t 相等,即()()x x t c =,

称概念c 与目标概念的样本()()x x t ,是一致的(Consistent)。

给定目标概念的一个训练样本集(包括正样本和负样本),在其限制下进行概念学习后,将得到一个学习后的概念,该概念应尽可能接近目标概念。这个学习后的概念被称为归纳。学习的过程也就是从目标概念的样本集得到归纳的过程。于是,每个归纳都代表一个点集,且该归纳与训练样本集一致,即该点集中包含了所有的正样本输入,而不包括任何一个负样本输入。显然,与同一个训练样本集一致的归纳可能有多个,而所谓版本空间,即是与给定训练样本集一致的所有可能归纳的空间。版本空间的概念也可描述如下:对概念类C 和给定训练样本集T ,版本空间定义为集合C 的一个子集T C ,其中{}中所有样本一致与且T c C c C T ,∈=。

Mitchell[Mitch1982]假定T C 是一个偏序结构,并把单个概念的学习过程看成是

T C 中的搜索过程。在版本空间理论中,称归纳1c 比归纳2c 更一般(more general),当

且仅当12c c ?。对两个不相等的归纳1c 和2c ,如果12c c ?且21c c ?,则称1c 和2c 是不可比的。T C 中最小(most general )元素G 定义为:

{}c c C c C c G T T ′?∈′∈=有且对所有,。类似地,定义最大(most specific )元素S 为:{}

c c C c C c S T T ?′∈′∈=有且对所有,。 在Cohn[Cohn1994]的基于版本空间理论的神经网络选择采样方法中,需用两个BP 网分别实现归纳S 和G ,称为S-net 和G-net ,然后进行以下操作:在空间按一定概率产生一个输入x ,并通过检查x 是否落入S 和G 的差集G S ?(被称为不确定区域)中,我们便可以判断x 点处的样本是否能提供新的信息。若G S ??x ,则抛弃x ;否则进

行一次采样,即询问x 的分类()x c 。

如果()1=x c (正样本),则推广(Generalize )G ,结果使G ∈x ;否则如()0=x c (负样本),则特化(Specialize )S ,结果使S ?x 。可见,由于每次采样都在较好的位置进行,故每个样本都能得到新的信息,从而改进了整个训练样本集的质量,使最终的神经网络有较好的泛化能力。

主动学习机制一般通过“询问”(Query )的方式实现,步骤如下:

(1) 在输入定义域内按某种概率取一点x ;

(2) 判断该点是否位于不确定区,如果不位于不确定区,则抛弃该点;否则“询问”该点

输出y (进行一次采样);

(3) 把),(y x 加入样本集进行训练,直至采到足够的样本。

主动学习也可用于函数逼近,Mackay[Mack1992c ]讨论了贝叶斯框架下候选样本输入点信息的几个测度,可用于函数逼近问题的选择采样。

8.1.2 仿真例子:三角形概念学习

在本例中,我们用神经网络实现三角形概念的主动学习,Cohn[Cohn1994]曾用两个

BP 网(分别实现归纳S 和G ,称为S-net 和G-net )学习该例子。但是,由于Sigmoidal 神经元具有全局特性,给定位不确定区域带来了困难,因此Cohn 使用了背景样本(Background Samples ),但同时也带来了参数不易整定的问题;使用BP 网的另一个问题是神经网络规模无法确定。事实上,如果采用RBF 网进行概念的主动学习,则利用RBF 网的局部特性和采用在线学习方式,上述问题均可得到解决。

在本例子中,我们也用两个RBF 网实现选择采样,这两个子网分别实现归纳S 和G ,沿用Cohn 的叫法,我们也称之为S-net 和G-net 。为测试了学习系统的泛化能力,我们选择采样和随机采样策略进行了比较。随机采样时,我们在)2,2()2,2(?×?范围内随机产生200个均匀分布的样本输入,对每个样本输入都“询问”该点输出;选择采样时,我们也在)2,2()2,2(?×?范围内随机产生样本输入,但只对那些位于不确定区域的样本输入才“询问”该点输出。两种采样策略都产生200个训练样本。每次采到一个新样本后,我们都先为该样本分配一个新隐节点,新隐节点的节点中心为新样本输入,输出权值为网络对该样本的偏差,扩展常数取固定值;然后进一步优化网络结构,即用梯度法调整网络各隐节点中心和输出权值,并合并网络中重叠的隐节点(如果有的话)。

随机采样和选择采样系统的学习参数设置如下:梯度法训练时学习率0.05,每个新增隐节点的扩展常数为

0.4,两个隐节点中心之间的距离小于0.01时合并这两个隐节点。

图8.1 随机采样得到的200个样本

为测试学习系统的泛化误差,我们还在区间)2,2()2,2(?×?内产生16814141=×个等间隔分布的测试样本。图8.1和8.2所示分别为某次试验中随机采样和选择采样得到的200个样本。由图可见,与随机采样相比,由于每个样本都位于不确定区域,因此选择采样得到的样本更多地集中在两类样本地交界处,即三角形概念地边界附近,这也与我们的期望是一致的。另外,在该次试验中,采用选择采样策略时两个子网的最终隐节点数为84和23,对所有测试样本的测试误差(泛化误差)为1.90%;而采用随机采样策略时,两个子网的最终隐节点数为171和28,测试误差则为4.52%。

图8.2 选择采样得到的200个样本

图8.3 两种学习方式的测试误差曲线

为进一步对比两种学习系统的泛化能力,我们记录了两种学习方式下,随着训练样本的增加,学习系统对所有测试样本的测试误差的变化曲线,如图8.3所示。可见,随着训练样本的增加,两个学习系统的泛化性能都在改善,但相比之下选择采样系统的泛化误差显然更小(图8.3中曲线2),说明选择采样对泛化能力的改善是很明显的,同时也说明了训练样本对神经网络泛化能力的影响。

8.2 在样本输入中添加随机噪声

8.2.1 噪声添加方法

由上一章结论可知,在样本输入中添加随机噪声,也可以改善神经网络的泛化能力,而且噪声方差较小时,样本输入加噪声方法类似于神经网络结构设计的正则化方法,而正则化系数则与噪声方差有关。

样本输入加噪声方法既可以用于在线学习,也可以用于批处理方式离线学习;网络

类型可以是BP 网,也可以是RBF 网;参数学习算法可以是BP 算法,也可以是RBF 的梯度训练算法。假定有N 个训练样本,分别为()μμμy z

,x =,N ,...,2,1=μ,则在线BP 学习算法中样本输入插入噪声的算法如下:

(1)从N 个训练样本随机选择一个样本()μμμy x z

,=; (2)根据密度函数()μρζ

得到样本输入噪声矢量; (3)令()μμμμζy z ,+=x 。

此后即可按在线梯度法进行权值修正。对于批处理方式,则每一轮次训练时所有样本输入均应同时按上述方式加入噪声。输入噪声密度函数()μ

ζρ

通常选均值为零的高斯分布或均匀分布,噪声方差则由具体问题决定。 8.2.2 仿真例子

神经网络训练的目标函数为[An1996]:

()2)8.0(3sin )(+=x x y (8.1) 训练样本和测试样本产生方式如下:训练样本数15个,其输入i x 为区间[]1,1?内的等间隔点,输出由上式计算,并添加噪声i e 。噪声i e 服从均值为0,方差为0.4的正态分布;测试样本数201个,其输入i x 也为区间[]1,1?内的等间隔点,输出由上式计算。泛化误差定义为训练后的神经网络对所有测试样本的误差平方和。

我们用RBF 网进行训练,采用梯度法进行批处理方式学习(见第4章)。另外,RBF

网的隐节点数取25,初始输出权值取]1.0,1.0[?内随机值,

初始数据中心取]0.1,0.1[?内随机值,初始扩展常数取]3.0,1.0[内随机值,最大训练次数1000。数据中心、扩展常数和输出权值均用梯度法求解,它们的学习率均为006.0。训练时插入样本输入的噪声服从均值为0,方差为0.1的高斯分布。

图8.2为某次训练的结果。图中虚线为目标函数曲线,“+”为输出加噪声的15个训练样本,点划线为输入未加噪声训练得到的神经网络函数曲线,实现则为输入添加高斯噪声训练后得到的神经网络函数曲线。由图可见,未加输入噪声的拟合曲线几乎穿过所有的训练样本,由于训练样本输出含有噪声,因此产生了明显的过拟合,而加输入噪声的拟合曲线则平滑的多,而且尽管该曲线与目标曲线存在泛化误差,但泛化误差的值比未加输入噪声的拟合曲线要小的多,因此噪声起到了平滑作用。

图8.3是该次训练的学习曲线。由图可见,在输入噪声的作用下,训练误差不能象

不加输入噪声那样单调下降。事实上,当训练数据被循环地作为网络的输入时,由于每

次添加的噪声不同,迫使神经网络不能精确地拟合训练数据,从而使噪声起到了平滑作用,防止了过拟合。

图8.2 输入噪声的平滑效应

图8.3 输入加噪声训练的学习曲线

为了更全面地对比加噪声和不加噪声训练的性能差别,我们将两种方法均进行了100次测试,每次测试时除了一种方法加噪声,另一种方法不加噪声,其它所有条件完

全相同(网络结构、数据中心、权参数初始值等)。我们记录了两种方法得到的神经网

络的训练误差和测试误差的均值和标准差(100次试验),如表8.1所示。由表可见,尽

管加噪声训练的平均训练误差比不加噪声训练时大很多,但得到的神经网络的泛化误差

却小的多,因此加噪声训练方法改善神经网络泛化能力的效果还是很明显的。

表8.1 两种方法的训练结果对比

无输入噪声加输入噪声

平均训练误差0.2412 3.1552

训练误差方差0.3857 1.3569

平均测试误差25.4992 17.9888

测试误差方差9.6339 8.4818 由上一章的泛化理论的讨论可知,加噪声训练时噪声方差对训练效果有很大影响,

其作用类似于正则化系数。为了验证这一点,我们令输入噪声方差在0.001-0.18之间变化(间隔为0.002),共90个值,对每个噪声方差值,我们均作100次试验,并计算其平均测试误差。图8.4是输入噪声方差与测试误差之间的关系曲线。由该图可见,输入噪声方差过大或过小,测试误差均会变大。在输入噪声方差为0.1左右时,测试误差最小。

G。

相关的仿真程序见附录

8.3 神经网络集成

8.3.1 原理

由上一章可知,由于选择不同的初始权值,使最终神经网络的泛化能力体现出一定的随机性。利用这一特性也可以改善神经网络的泛化能力,神经网络集成(或称多神经网络,或表决网)便是这种思路的体现。于是我们可以先训练一组只有初始权值不同的子网,然后通过各子网“表决”(Voting)的方式(如加权和)得到学习系统的输出。

当神经网络集成用于分类器时,集成的输出通常由个体网络的输出投票产生。通常采用绝对多数投票法(某分类成为最终结果当且仅当有超过半数的神经网络输出结果为该分类)或相对多数投票法(某分类成为最终结果当且仅当输出结果为该分类的神经网络的数目最多)。理论分析和大量试验表明,后者优于前者。因此,在对分类器进行集成时,目前大多采用相对多数投票法。

当神经网络集成用于回归估计时,集成的输出通常由各网络的输出通过简单平均或加权平均产生。Perrone等人[PeCo1993]认为,采用加权平均可以得到比简单平均更好的泛化能力。但是,也有一些研究者认为[SoKr1996],对权值进行优化将会导致过配(overfitting),从而使得集成的泛化能力降低,因此,他们建议使用简单平均。

此外还存在多种结合方式。例如,有的研究者进一步利用神经网络这样的学习系统,通过学习来对多个子网的输出进行结合。

8.3.1 仿真例子:广义异或问题

该例子是标准异或问题的推广,标准异或问题的真值表见第二章2.3节。在标准异或问题中,输入1x 和2x 取离散量-1或+1,而在广义异或问题中,输入()21,x x 可以在区间[][]1,11,1+?×+?内任意取值,而输出为()21x x sign y =,其中()?sign 为符号函数。

我们在区间[][]1,11,1+?×+?内产生500个训练样本,并用标准BP 算法训练单隐层的BP 网。该算法与第三章3.3.3节中用于三分类的BP 算法类似,只是计算节点改用双极性Sigmoid 函数。训练过程中其它参数如下:网络采用8个隐节点,初始权值和阈值取[]1.0,1.0?内均匀分别的随机数,权值调整的学习率为0.005,训练1000次后结束。由于受不同初始权值的影响,每次训练得到的神经网络性能均不相同。在某一次试验中,我们训练了5次,得到了5个不同性能的神经网络,它们的测试误差分别为0.0360,0.2644,0.0473,0.0616,0.0800。图8.5的(a )、(b )、(c )、(d )、(e )分别绘制了这5个网络的对区间[][]1,11,1+?×+?内16814141=×个等间隔分布的测试样本的分类图,可见这5个网络的性能差别很大,甚至会出现象8.5(b )这样整个象限(第四象限)都误识的情况。

图8.5 5个子网和集成对广义异或问题的测试结果

如果将这5个单独训练后的子网进行集成,并采用简单多数表决,则测试误差为0.0233,相应的分类图如8.5(f )所示。采用神经网络集成,尽管方法较为简单,却能

极大的改进了系统的性能。

如果我们把集成中的子网个数从5增加到50,可以预见,我们得到的测试误差也将减小。我们某次试验的的测试误差是0.0168,这也与文献[HaSa1990]的结论是一致的。

该例子的仿真程序见附录H。

8.4 基于先验知识的泛化方法

前面已经介绍过,对目标概念的先验知识可以表示成神经网络参数先验分布的形式,并导出了结构设计的正则化方法。先验知识也可以通过在学习过程中嵌入提示来表示[Abu1990,Abu1993b]。提示能成功应用的关键是如何在学习中插入提示。Abu-Mostafa[Abu1995]建议把提示转化为虚拟样本(Virtual samples),然后以虚拟样本和普通样本作为共同的训练样本集,完成神经网络的训练。

使用提示将显著改善神经网络的泛化能力。在证券市场预测时使用对称性提示[Abu1995],及在手写数字识别时使用最小Hamming距离作为提示[AlRe1991]都获得了成功。

先验知识也可以以其余方式嵌入学习。比如说,如果已知神经网络的相邻输入数据点之间存在着一定的空间相关性,则神经网络权值之间的光滑性也将影响神经网络的泛化能力。此时如果对神经网络的结构或者连接权值加以一定的限制,使之能体现这些相关性,则有助于提高神经网络的泛化能力。Jean和Wang[JeWa1994]在目标函数中增加一个权值光滑性限制项,达到了改进泛化的目的。事实上,在模式分类神经网络中,当权值之间不连续或存在随机性时,输入模式的轻微变化(如模式的变形或位移)将使隐节点输出发生大的变化,最终会导致泛化能力变差[OhLe1995]。

8.5 最优停止法

8.5.1 原理

考虑在适当的时间停止学习,也是改进泛化能力的重要方法。根据上一章中的测试误差-泛化误差图,当神经网络的泛化误差达到最小(最优停止点)时,我们便应该停止神经网络的学习。

Sjoberg和Ljung[SjLj1995]研究了正则化方法和最优停止方法对神经网络模型参数的影响,并指出最优停止方法也是一种隐式的正则化方法。 Cataltepe等人[CaAbu1999]则认为,最优停止方法所设计的神经网络之所以有好的泛化能力,是因为最优停止法倾向于设计低复杂性的神经网络。

用最优停止法设计神经网络的关键是确定学习算法在何时停止学习。为了得到最优停止点,通常把所有样本数据分为两部分,一部分为训练数据,另一部分为测试数据,并以测试误差代替神经网络的泛化误差,当测试误差达到最小时,就停止网络的训练。该方法实际上就是最简单的交叉测试(Cross-Validation,简称CV)方法。

应该指出,简单CV方法并不是任何时候都适用的。根据Muller等人[MuFi1996]的

10研究,假定总样本数为t ,神经网络的自由参数个数为m ,当t 小于或接近于m 时,此时从不多的样本中再分出一个测试样本集,减少了用于训练地样本,因而使用简单CV 方法反而会较大地影响神经网络泛化能力,此时用下面的留一CV 法较好;当t 相对m 较

大时(如m t m 304<<)

,用简单CV 方法将会有较好的效果;当t 相对于m 充分大时,可以不用CV 方法。

为了在样本较少的情况下也能使用CV 方法,两种改进的CV 方法是留一CV 法

(Leave-one-out CV 法)和v 重CV 法(v -fold CV 法)

。假定有l 个样本,则留一CV 法工作方式如下:每次取一个样本用于测试,其余1?l 个用于训练,共有l 种取法,对每一轮次都按l 种取法训练l 次,当测试数据误差总和最小时停止训练。v -fold CV 法与此类似,只是每次用于测试的样本有v 个,但这在一定程度上可以减少学习时间。

如何确定简单CV 方法中测试样本数占总样本数的比例, 也是一个困难的问题。Amari 等人[AmMu1997]和Kearns[Kear1997]研究了CV 方法中测试样本数占总样本数比例对神经网络泛化能力的影响。 Amari 等人[AmMu1997]认为当测试样本数占总样本数的比例为)

1(2112???m m 时,神经网络将有最小的泛化误差。 8.5.2 仿真例子:Hermit 多项式逼近

在第四章,我们给出了一个设计RBF 网的梯度算法,并用于逼近Hermit 多项式。在那个例子中,我们的停止准则是训练误差小于给定值,或训练达到最大训练次数。这里我们用最优停止算法设计RBF 网,并逼近同一目标函数。因此这里给出的算法是第4章RBF 网梯度设计算法的改进算法。

与第四章的例子不同,本例中训练样本和测试样本产生方式如下:总样本数100=N ,其中样本输入i x 服从区间[]4,4?内的均匀分布,样本输出为()i i e x F +,其中i e 为添加的噪声,服从均值为0,方差为0.3的正态分布,

()() ?+?=2exp 211.122

x x x x F 。这100个样本中,我们用前75个样本进行训练,余下25个样本进行测试。另外,RBF 网的隐节点数取10,初始输出权值取]1.0,1.0[?内随机值,初始数据中心取]0.4,0.4[?内随机值,初始扩展常数取]3.0,1.0[内随机值,最大训练次数5000。数据中心、扩展常数和输出权值均用梯度法求解,它们的学习率均为001.0。

在学习过程中,为简单起见,我们认为如果当前测试误差不再下降,则测试误差就达到最小点,并认为可以停止学习。为保证算法更可靠的停止在测试误差最小点,一种更好的方法是以连续多个测试误差的均值不再下降作为停止准则。

11

图8.6 三种RBF 网学习算法对Hermit 多项式的逼近

图8.7 训练过程中测试误差和训练误差的变化

图8.6和图8.7显示了某次训练的结果。图8.6中的“+”号为产生的所有100个训练样本,曲线1为目标函数曲线,曲线2为产生过拟合后的神经网络曲线,曲线3为采用最优停止法得到的神经网络曲线。在训练过程中,神经网络进行了334次训练后测试误差开始上升,此时测试误差为2.9829。如果此时停止训练,并定义神经网络的泛化误差为()()()∑=?10112101

1i i i x NN x F (i x 为[]4,4?内0.08为间距取101个点),则神经网络的泛化误差为0.8047,图8.6中的曲线3为此时的神经网络函数曲线。

此时如果我们让神经网络继续训练,直至完成3000次训练后结束,则可以预见,神经网络可能产生过拟合,此时的神经网络曲线为图8.6中的曲线2,相应的泛化误差为

2.5280。可见3000次训练后神经网络产生了明显的过拟合。事实上,如果让神经网络进行更多的训练,则过拟合将更严重。

图8.7显示了训练过程中测试误差和训练误差的变化情况。由图可见,在训练过程

中,随着训练时间的加长,训练误差确实是单调下降的,但测试误差确实是存在最小点的(在本例是第334次权值修正时)。这也与上一章的结论是一致的。

该例子的仿真程序见附录I。

12

13

08第八章___神经网络的参数优化设计方法

1 第8章 神经网络的参数优化设计 在神经网络的泛化方法中,研究最多的是前馈神经网络的结构优化设计方法(剪枝算法、构造算法及进化算法等,我们将在以后各章讨论)。除了结构设计,其余前馈神经网络的泛化方法还有主动学习、最优停止法、在数据中插入噪声、神经网络集成及提示学习方法等,由于这些方法中神经网络的结构是固定的,因此神经网络性能是通过参数优化改善的,我们称这些方法为神经网络的参数优化设计方法。本章介绍最主要的参数优化设计方法,并给出了每种方法的算法实现和仿真例子。 8.1 主动学习 8.1.1 原理 按照学习机器对训练样本的处理方式,可将学习方式分为两类:被动学习方式和主动学习方式。被动学习是常用的学习方式,常被称为“从样本中学习” (Learning from samples ),该方式被动地接受训练样本,并通过学习从这些样本中提取尽可能多的信息。与被动学习相反,主动学习属于更高层次的、具有潜意识的学习。主动学习对训练样本的选择是主动的,通常通过对输入区域加以限制,有目的地在冗余信息较少的输入区域进行采样,并选择最有利于提高学习机器性能的样本来训练分类器,从而提高了整个训练样本集的质量。由上一章的讨论,训练样本质量对神经网络的泛化能力有极大影响,甚至超过网络结构对泛化能力的影响。因此采用主动学习方法,是改进神经网络泛化能力的一个重要方法。 主动学习机制大部分用于分类或概念学习[Baum1991,HwCh1990,SeOp1992]。在单概念学习中,Mitchell[Mitch1982]关于版本空间(Version Space)的论述有着较大的影响。下面,我们先简要介绍一下这一理论。 如果X 为一线性空间,概念c 定义为X 中点的集合。对目标概念t ,训练样本可写为()()x x t ,,其中X ∈x 为样本输入,()x t 为对x 的分类。如果t ∈x ,则()1=x t ,称()()x x t ,为t 的正样本;如果t ?x ,则()0=x t ,此时称()()x x t ,为t 的负样本。显然,对线性空间内的任何两个可分概念1c 和2c ,如果()()x x 1,c 是1c 的正样本(负样本),则()()x x 11,c ?必然是2c 的负样本(正样本),即任意两个可分概念的正负样本之间可以互相转换。如果某概念c 对x 的分类与目标概念对其的分类()x t 相等,即()()x x t c =,

基于神经网络的优化计算实验报告

人工智能实验报告 实验六基于神经网络的优化计算实验 一、实验目的: 掌握连续Hopfield神经网络的结构和运行机制,理解连续Hopfield神经网络用于优化计算的基本原理,掌握连续Hopfield神经网络用于优化计算的一般步骤。 二、实验原理 连续Hopfield神经网络的能量函数的极小化过程表示了该神经网络从初始状态到稳定状态的一个演化过程。如果将约束优化问题的目标函数与连续Hopfield神经网络的能量函数对应起来,并把约束优化问题的解映射到连续Hopfield神经网络的一个稳定状态,那么当连续Hopfield神经网络的能量函数经演化达到最小值时,此时的连续Hopfield神经网络的稳定状态就对应于约束优化问题的最优解。 三、实验条件: VC++6.0。 四、实验内容: 1、参考求解TSP问题的连续Hopfield神经网络源代码,给出15个城市和20个城市的求解结果(包括最短路径和最佳路线),分析连续Hopfield神经网络求解不同规模TSP问题的算法性能。 2、对于同一个TSP问题(例如15个城市的TSP问题),设置不同的网络参数,分析不同参数对算法结果的影响。 3、上交源代码。

五、实验报告要求: 1、画出连续Hopfield神经网络求解TSP问题的流程图。 2、根据实验内容,给出相应结果及分析。 (1)15个城市(测试文件TSP15.TXT)

tsp15.txt 最短路程371 最佳路线 →→→→→→→→→→→→→→→1914861351534712210111 (2)20个城市(测试文件TSP20.TXT) tsp20.txt 最短路程349 最佳路线 →→→→→→→→→→→→→→→→→→→→→141618971315111735124289191610201 3、总结连续Hopfield神经网络和遗传算法用于TSP问题求解时的优缺点。 遗传算法易出现早熟收敛和收敛性差的缺点。 Hopfield算法对高速计算特别有效,但网络不稳定。 用Hopfield解TSP问题效果并不理想。相对前面的遗传算法解TSP 性能有相当大差距。

一种BP神经网络学习率的优化设计

第22卷第3期湖 北 工 业 大 学 学 报2007年06月 V ol.22N o.3 Journal of H ubei U niversity of T echnology Jun.2007 [收稿日期]2007-03-20 [基金项目]湖北省自然科学基金项目(2004ABA065). [作者简介]刘幺和(1954-),男,湖北武汉人,湖北工业大学教授,美国ASM E 和IEEE 专业会员,研究方向:智能控制. [文章编号]1003-4684(2007)0320001203 一种B P 神经网络学习率的优化设计 刘幺和1,陈 睿1,彭 伟2,周 蕾1 (1湖北工业大学机械工程学院,湖北武汉430068;2湖北工业大学计算机学院,湖北武汉430068)[摘 要]考虑到结构优化设计的实用性和模糊性.在大量智能计算的基础上,提出了一种动态BP 神经网络 的学习率优化方法,该方法如同Rough 集理论的数据分类简约功能去掉了多余属性的样本数据一样,从而使神经网络拓扑结构优化.实验表明,这种方法简单、实用且快速收敛. [关键词]BP 网络;优化设计;学习率[中图分类号]TP183 [文献标识码]A 目前,智能计算在结构优化设计中已经得到广 泛应用.智能计算是根据人和动物的3大系统(神经系统、遗传系统、免疫系统)特性,提出恰当的数学模型来进行智能计算. Rumelhart 等提出的误差反向传播(Back Propagation )学习算法是训练神经网络的强有力的工具.但是BP 算法存在收敛速度慢、易陷入局部极小等缺点,所以对BP 算法的改进是一个重要的研究课题.其中对学习率的研究是很重要的一个部分.如果学习率太小,收敛性容易得到保证,但收敛速度太慢;学习率太大,学习速度快,但可能导致振荡或发散[1].因而一个固定学习率不可能很好地适用于网络的整个学习过程.为实现快速而有效的学习收敛过程,人们提出了许多自适应地调节学习率的方法(自适应调节学习率,即在网络的学习过程中,学习率随着环境状态的变化不断自动调整). 1 BP 神经网络 BP 网络可实现输入空间到输出空间的非线性 映射,它采用了优化算法中的梯度下降法,把一组样 本的I/O 问题变为非线性优化问题,B P 神经网络模型一般由输入层、中间层、输出层构成(图1),该方法的数学原理和推导方法见文献[2]. 算法的执行步骤如下[2]. 1)对权系数W ij 置初值.对各层的权系数W ij 置一个较小的非零随机数,但其中W i ,n+1=-θ. 2)输入一个样本X =(X 1,X 2,…,X n ),以及对 应的期望输出Y =(Y 1,Y 2,…,Y n ). 3)计算各层的输出.对于第k 层第i 个神经元的输出X k i ,有 图1 BP 神经网络模型 4)求各层的学习误差d k i .对于输出层k =m , 有 d m i =X m i (1-X m i )(X m i -Y i ). 对于其他各层,有 d k i =X k i (1-X k i )? ∑ t W li ?d k+l l . 5)修正权系数W ij 和阀值θ有 ΔW ij (t +l )=ΔW ij (t )-η?d k i ?X k-1 j .其中, ΔW ij (t )=-η?d k i ?X k-1 j +αΔW ij (t -l )=W ij (t )-W ij (t -l ). 6)当求出了各层各个权系数之后,可按给定品 质指标判别是否满足要求.如果满足要求,则算法结

第八章 参数估计

第八章参数估计 一、思考题 1.什么是参数估计?参数估计有何特点? 2.评价估计量优劣的准则是什么? 3.什么是点估计、区间估计?二者有何联系和区别? 4.确定必要的抽样数目有何意义?必要抽样数目受哪些因素影响? 二、练习题 (一)填空题 1.参数估计的方法有_________和_________。 2.若样本方差(s n21-)的期望值等于总体方差(σ2),则称s n21-为σ2的____________估计量 3.总体参数的估计区间是由_________和_________组成。 4.允许误差是指与的最大绝对误差范围。 5.如果总体平均数落在区间960~1040内的概率是95%,则抽样平均数是 ______,允许误差是______。 6.在同样的精度要求下,不重复抽样比重复抽样需要的样本容量。 x=5,7.设总体X的方差为1,从总体中随机取容量为100的样本,得样本均值 =2.58) 则总体均值的置信水平为99%的置信区间_____________。(Z 0.005 (二)判断题 1( )参数估计就是用样本统计量去估计总体的参数。 2( )随机抽样是参数估计的前提。 3( )参数估计的抽样误差可以计算和控制。 4( )估计量的数学期望等于相应的总体参数值,则该估计量就被称为相应总体参数的无偏估计量。 5( )区间估计就是根据样本估计量以一定的置信度推断总体参数所在的区间范围。

6( )样本统计量n x x s ∑-=22)(是总体参数2σ的无偏估计量。 7( )估计量的有效性是指估计量的方差比其它估计的方差小。 8( )点估计是以样本估计量的实际值直接作为相应总体参数的估计值。 9( )抽样估计的置信水平就是指在抽样指标与总体参数构造的置信区间中, 包含总体参数真值的区间所占的比重。 10( )样本容量一定时,置信区间的宽度随置信水平的增大而减小。 (三)单选题 1.极限误差是指样本统计量和总体参数之间( )。 A.抽样误差的平均数 B.抽样误差的标准差 C.抽样误差的可靠程度 D.抽样误差的最大可能范围 2.参数估计的主要目的是( )。 A.计算和控制抽样误差 B. 为了深入开展调查研究 C.根据样本统计量的数值来推断总体参数的数值 D. 为了应用概率论 3.参数是指基于( )计算的指标值。 A.样本 B.某一个样本 C.多个样本 D.总体 4.总体参数很多,就某一参数(如均值)而言,它的取值( )。 A.是唯一的 B.不是唯一的 C.随样本的变化而变化 D.随抽样组织形式的变化而变化 5.样本统计量很多,就某一统计量(如均值)而言,它的取值( )。 A.是唯一的 B.随样本的变化而变化 C.由总体确定 D.由抽样的组织形式唯一确定 6.以样本均值x 估计正态总体的均值μ时,如果总体方差2σ已知,这时将会需要查阅( )。 A.正态分布表 B.标准正态分布表 C.t 分布表 D.2χ分布表 7.以样本均值x 估计正态总体的均值μ时,如果总体方差2σ未知,这时将会需要查阅( )。

实验八:基于神经网络的优化计算实验

实验八:基于神经网络的优化计算实验 一、实验目的 掌握连续Hopfield神经网络的结构和运行机制,理解连续Hopfield神经网络用于优化计算的基本原理,掌握连续Hopfield神经网络用于优化计算的一般步骤。 二、实验原理 连续Hopfield神经网络的能量函数的极小化过程表示了该神经网络从初始状态到稳定状态的一个演化过程。如果将约束优化问题的目标函数与连续Hopfield神经网络的能量函数对应起来,并把约束优化问题的解映射到连续Hopfield神经网络的一个稳定状态,那么当连续Hopfield神经网络的能量函数经演化达到最小值时,此时的连续Hopfield神经网络的稳定状态就对应于约束优化问题的最优解。 三、实验条件 VC++6.0。 四、实验内容

1、参考求解TSP问题的连续Hopfield神经网络源代码,给出15个城市和20个城市的求解结果(包括最短路径和最佳路线),分析连续Hopfield神经网络求解不同规模TSP问题的算法性能。 2、对于同一个TSP问题(例如15个城市的TSP问题),设置不同的网络参数,分析不同参数对算法结果的影响。 3、上交源代码。 五、实验报告 1、画出连续Hopfield神经网络求解TSP问题的流程图。

2、根据实验内容,给出相应结果及分析。 (1)15个城市(测试文件TSP15.TXT)

tsp15.txt 最短路程 371 最佳路线 1914861351534712210111 →→→→→→→→→→→→→→→ (2)20个城市(测试文件TSP20.TXT) tsp20.txt 最短路程349 最佳路线 →→→→→→→→→→→→→→→→→→→→→141618971315111735124289191610201 3、总结连续Hopfield神经网络和遗传算法用于TSP问题求解时的优缺点。

基于BP神经网络和遗传算法的结构优化设计

收稿日期:2002-11-13;修订日期:2003-02-12 作者简介:郭海丁(1958-) 男 山东潍坊人 南京航空航天大学能源与动力学院副教授 博士 主要从事工程结构强度~断裂~疲 劳损伤及结构优化设计方法等研究. 第18卷第2期2003年4月 航空动力学报 Journal of Aerospace Power Vol.18No.2 E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E Apr.2003 文章编号:1000-8055(2003)02-0216-05 基于BP 神经网络和遗传算法 的结构优化设计 郭海丁1 路志峰2 (1.南京航空航天大学能源与动力学院 江苏南京210016; 2.北京运载火箭技术研究院 北京100076) 摘要:现代航空发动机不断追求提高推重比 优化其零部件的结构设计日益重要 传统结构优化方法耗时多且不易掌握 针对这一问题 本文提出了将BP 神经网络和遗传算法相结合用于结构优化设计的方法 并编制了相应的计算程序 实现了一个含9个设计变量的发动机盘模型的结构优化计算 计算证明 与传统结构优化方法相比 此方法计算速度快~精度良好 关 键 词:航空~航天推进系统;结构优化;神经网络;遗传算法;航空发动机 中图分类号:V 231 文献标识码:A Structure Design Optimization Based on BP -Neural Networks and Genetic Algorithms GUO -ai -ding 1 LU Zhi -feng 2 (1.Nanjing University of Aeronautics and Astronautics Nanjing 210016 China ; 2.Beijing institute of Astronautics Beijing 100076 China ) Abstract :Owing to the increasing demand for raising the thrust -weight ratio of modern aero -engine it is very important to optimize the structures of the components .Traditional optimization methods of structure design are time -consuming and hard to be put into practice .So in this paper a new method of structure design optimization is induced to which both BP neural networks and genetic algorithms (in short :BPN -GA )are applied .A program which contains 9variables is designed for the structure optimization of a disk model with the BPN -GA method which proves that it has better calculating rate and precision than those with traditional optimization methods . Key words :aerospace propulsion ;structure optimization ;neural network ; genetic algorithms ;aero -engine 1 引言 在航空~航天等领域 结构优化设计技术正在得到越来越广泛的应用 结构优化设计逐步进入工程实用阶段!1"3# 但从工程应用角度来看 结构优化设计方法的推广仍存不少障碍 主要表现为: (1)优化中靠经验调整的参数较多 掌握困难;(2)优化计算效率较低 应用现有的结构优化算法进

基于神经网络参数优化的迭代学习控制算法

第29卷第6期 2008年 12月河南科技大学学报:自然科学版Journal of Henan University of Science and Technol ogy:Natural Science Vol .29No .6Dec .2008 基金项目:辽宁省教育厅科学研究计划项目(2002D031) 作者简介:王丹凤(1983-),女,辽宁辽阳人,硕士生;李书臣(1960-),男,辽宁桓仁人,教授,主要研究领域为预测控制、智能控制、 迭代学习控制算法及应用. 收稿日期:2008-05-15 文章编号:1672-6871(2008)06-0042-03 基于神经网络参数优化的迭代学习控制算法 王丹凤,李书臣,翟春艳,邢宜春 (辽宁石油化工大学信息与控制工程学院,辽宁抚顺113001) 摘要:针对迭代学习控制用于轨迹跟踪时存在收敛速度慢的问题,提出用RBF 网络优化迭代控制器参数的算法。在每一次迭代学习过程之后利用RBF 网络对当次输出的数据进行优化计算,拟合出最优的学习增益,使迭代学习算法具有较快的收敛速度,在单关节机器人中进行仿真验证了方法的有效性。 关键词:迭代学习控制;RBF 网络;单关节机器人 中图分类号:TP389.1文献标识码:A 0 前言 机器人是一类高度非线性、强耦合和时变性的动力学系统,设计其控制器存在的一个严重问题是我们并不知道准确的数学模型,如果忽略各种不确定因素,设计出的控制器可能会导致系统性能变坏甚至 引起不稳定[1]。迭代学习控制(I L C )[2-3]是一种新型控制算法,它能以非常简单的方式处理不确定度 相当高的动态系统,且仅需要较少的先验知识和计算量,适应性强,易于实现;更主要的是它不依赖于动态系统的精确数学模型。从“迭代”二字可以看出,这是要求动态过程是可以重复的一种行为,它的研究对诸如机器人等对运动控制有着高速、高精度要求的对象有着重要的意义。但现有的迭代学习控制只能用于某种特定的轨迹跟踪问题,且学习速度慢,迭代的次数多,本文将离线的神经网络与在线的迭代学习相结合的控制方案,在控制器中加入神经网络的优化作用,把在线的学习,在线的控制与控制系 统性能改善的功能有效的综合在一个算法里[3]。此方法原理简单,实现的P D 型迭代学习控制器结构 简单,保证了系统的实际输出在最少的迭代次数,以最快的收敛速度逼近期望输出。 1 迭代学习神经网络控制结构 基于神经网络的迭代学习控制系统结构图主要分为两大部分:迭代学习控制器和神经网络,结构图如图1所示 。 图1 基于神经网络的迭代学习控制结构图本文采用P D 型学习律[4]的迭代学习控制器直接对 被控对象进行控制,控制器中的可调参数k p ,k d 通过离线 的神经网络进行调整。P D 型学习律公式为 u k +1(t )=u k (t )+k p e k (t )+k d d e k (t )d t (1)e k =y d (t )-y k (t ) (2)其中 k 表示迭代的次数;u k (t )为第k 次控制输入;k p ,k d 分别为迭代学习控制器的学习增益。 随着神经网络的发展尤其是在出现多层前馈网络和 反馈性网络后获得了突破性进展[5]。多层神经网络逼近 任意非线性映射能力,以及固有的学习特点,已得到各个 领域的极端重视,将极具潜力的神经网络模型运用到学习控制系统的研究,已陆续得到某些结果。

第八章方差分析与回归分析

第八章 方差分析与回归分析 一、教材说明 本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容. 1、教学目的与教学要求 (1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题. (2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题. (3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题. (4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题. 2、本章的重点与难点 本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验. 二、教学内容 本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容. §8.1 方差分析 教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会 解决简单的实际问题. 教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计 教学内容: 本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形. 8.1.1 问题的提出 在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法. 例8.1.1 8.1.2 单因子方差分析的统计模型 在例8.1.1中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为1r A , ,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定 (1)每一总体均为正态总体,记为2 i i N(,)μσ,i 1,2,,r =; (2)各总体方差相同,即22 2212r σσσσ== ==

第八章(第节极大似然估计)

第八章参数估计 第一节参数的点估计 二、极大似然估计法 极大似然估计最早是由高斯于1821年提出,但一般将之归功于英国统计学家Fisher,R.A,因为Fisher,R.A在1922年证明了极大似然估计的性质,并使得该方法得到了广泛的应用。 这里介绍估计的另一种常用方法-极大似然估计法。 先看一个简单的例子: 某位同学与一位猎人一起外出打猎,一只野兔从前方窜过.只听到一声枪响,野兔应声倒下.如果要你推测,是谁打中的呢?你会如何想呢? 你就会想,只发一枪便打中,猎人命中的概率一般大于这位同学命

中的概率.看来这一枪有极大的可能是猎人射中的. 这个推断很符合人们的经验事实,这里的“极大的可能”就是“极大似然”之意。 这个例子所作的推断已经体现了极大似然法的基本思想. 极大似然法的基本思想在社会思维意识中常有所体现。例如某地发生了一个疑难案件,警察欲破案或民众推测嫌疑人,一般是将重点集中在作案可能性较大的可疑人身上。 为了说明极大似然估计的原理,我们先来考察一个简单的估计问题。 设袋中装有许多白球和黑球。只知两种球的数目之比为3:1,试判断是白球多还是黑球多。 显然,从袋中任取一球为黑球的

概率p 是41或者43,如果是41 ,则袋中 白球多,如果是4 3 ,就是黑球多。现 在我们从袋中有放回的任取3只球,那么黑球数目X 服从二项分布: x x x p p C p x X P --==33 )1(};{, 3,2,1,0=x ; 4 3 ,41=p 其中p 为取到黑球的概率. 从常识上可以接受这样的判断: (1)若取出的3只中有0只黑球, 3只白球,则我们以较大的把握认为袋中白球多, 应认为是从黑球概率 为4 1 =p 的总体中取来的. (2)若取出的3只中有1只黑球, 2只白球,则我们以较大的把握认为

第八章 参数估计习题

第八章 参数估计习题 一、 填空题 1.设总体),(~2σμN X ,n X X X ,,,21 是来自X 的一个样本,参数2,σμ都是 未知的,则μ的矩估计量为 。2 σ的矩估计量 为 。 2.设总体),(~2σμN X ,其中2 σ未知,μ已知,n X X X ,,,21 是来自X 的一 个样本,做样本函数如下①∑=-n i i X n 1 2)(1μ,② 21 ])([∑=-n i i X σμ,③ ∑=-n i i X X n 12)(1,④∑=--n i i X X n 12 )(11,⑤∑=+--n i i i X X n 121)() 1(21,这些样本函数中,是统计量的有 。 3.假设随机变量)1,(~μξN ,n X X X ,,,21 是来自ξ的样本,如果关于置信度是0.95的μ 的置信区间是(9.02,10.98),则样本容量______=n 4.设某总体X 的密度函数为?? ???<<-=其他 ,00, )(2 );(2 ααααx x x f ,对容量为n 的样 本,参数α的矩估计量为 。 5.假设总体)81.0,(~μξN ,n X X X ,,,21 是来自ξ的样本,测得样本均值5=x , 则置信度是0.99的μ的置信区间是 6.设n X X X ,,,21 是来自总体X 的样本,对总体方差进行估计时,常用的无偏估计量是 。 7.设总体X 在区间],0[θ上服从均匀分布,则未知参数θ的矩法估计量 为 。

二、选择题 1.设n X X X ,,,21 是来自总体X 的样本,2)(,)(σμ==x D x E ,并且和是未知参数,下面结论中是错误的[ ]。 (A )X =1?μ 是μ的无偏估计; (B )12?X =μ是μ的无偏估计; (C )21??μμ 比有效; (C )21 )(1∑=-n i i X n μ是2σ的 极大似然估计量。 2 在区间估计中αθθθ-=<<1)??(2 1P 的正确含义是[ ] (A)θ以α-1的概率落在区间)?,?(2 1θθ内; (B)θ落在区间)?,?(21θθ以外的概率为α; (C)θ不落在区间)?,?(21θθ以外的概率为α; (D)随机区间)?,?(2 1θθ包含θ的概率为α-1。 3.设n X X X ,,,21 独立同分布,2 )(σ =x D ,∑==n i i X n X 1 1, ∑=--=n i i X X n S 1 22 )(11,则[ ] (A) S 是2 σ的无偏估计; (B) S 是σ的极大似然估计; (C) S 是σ的相合(一致)估计; (D) 2 S 与X 相互独立。 4. 假设总体X 的期望值μ的置信度是0.95,置信区间上、下限分别为样本函数 ),,,(21n X X X b 与),,,(21n X X X a ,则该区间的意义是[ ] (A) 95.0)(=<

第八章(第一节矩估计法)

第八章 参数估计 第一节 参数的点估计 在研究总体X 的性质时,如果知道总体X 的概率分布,那是再好不过了。然而,在许多情况下,对总体的情况知道甚少或只知道部分信息。 在实际问题中遇到的许多总体,根据以往的经验和理论分析可以知道总体X 的分布函数的形式,但分布中的一个或几个参数未知,一旦这些参数确定以后,总体X 的概率分布就完全确定了。例如,总体),(~2 σμN X ,但不知道其中参数μ和2 σ的具体数值,我们要想法确定 参数2 ,μσ 。 设总体X 的分布函数(;)F x θ形式已知,其中θ是未知参数(也可以是未知向量1 2 (,,,)m θθθθ=???)。

试问怎样由样本n X X X ,,,2 1 ???提供的 信息,建立样本的函数即统计量来 对未知参数作出估计? 这类问题,称为参数的估计问题。 参数估计主要有参数的点估计和参数的区间估计。 现从总体X 中抽得一个样本 n X X X ,,,2 1 ???, 相应的一个样本值观察值为 n x x x ,,,2 1 ???; 点估计的问题就是要构造一个适当的统计量12?(,,,)n X X X θ???,用它的观察值12?(,,,)n x x x θ???来估计未知参数θ。 统计量12?(,,,)n X X X θ???称为θ的估计量,12?(,,,)n x x x θ???称为θ的估计值。 在不致混淆的情况下,估计量与估计值统称为估计,并都简记为?θ。

下面介绍参数点估计的两种方法: 矩估计法和极大似然估计。 一、 矩估计法 矩估计是由英国统计学家Pearson,K.于1900年提出的一种参数估计方法,在统计学中有广泛的应用。 例1 若要考察成人的身高分 布情况。 (人类学、遗传变异学、社会学要用。) 每一个人的身高是一个体,全体人的身高构成一个总体。 由于随机因素的影响,不同人的身高一般是不一样的。 由中心极限定理和实际经验知道,人体身高),(~2 σμN X 。

第八章 参估计方法

第八章参数估计方法 研究工作的目的在于了解总体特征的有关信息,因而用样本统计数估计相应总体参数,并由之进行统计推断。总体特征的各种参数,在前几章主要涉及平均数、标准差等,并只从直观上介绍其定义和公式,未就其历,即参数估计(parameter estimation)的方法作讨论。本章将简要介绍几种常用参数估计方法,即矩法、最小二乘法、极大似然法。第五章述及参数的点估计(point estimation)和区间估计(interval estimation),本章讨论点估计方法。区间估计是在点估计的基础上结合统计数的抽样分布而进一步作出的推论,有关内容将散见在其它各章。 第一节农业科学中的主要参数及其估计量的评选标准 一、农业科学中的主要参数 农业科学研究中需要估计的参数是多种多样的,主要包括总体数量特征值参数,例如,用平均数来估计品种的产量,用平均数差数来估计施肥等处理的效应;用百分数(或比例)来估计遗传分离比例、群体基因或基因型频率、2个连锁主基因间的重组率;通过变异来源的剖分,用方差来估计环境方差、遗传方差和表型方差,在此基础上以估计性状的遗传力等遗传参数;用标准误来估计有关统计数的抽样误差,如重组率的标准误、遗传抽样误差、遗传多样性误差、频率误差等。在揭示变数间的相互关系方面,用相关系数来描述2个变数间的线性关系;用回归系数、偏回归系数等来描述原因变数变化所引起的结果变数的平均变化的数量,用通径系数来描述成分性状对目标性状的贡献程度等。有关数量关系和数量变化方面的内容将在第9至11章介绍。 二、参数估计量的评选标准 讨论参数估计方法前需要了解数学期望(expectation)的概念和评价估计方法优劣的标准。 (一) 数学期望 在抽样分布中,已经讲述了从总体中抽出所有可能样本的样本平均数的平均数等于总体平均数,这里,样本平均数的平均数就是一种数学期望。例如,一个大豆品种的含油量为20%,测定一次可能是大于20%,再测定可能小于20%,大量反复测定后平均结果为20%,这时20%便可看作为该大豆品种含油量的数学期望,而每单独测定一次所获的值只是1个随机变量。抽象地,随机变量的数字特征是指随机变量的数学期望值,本书以前各章常见的数学期望有平均数和方差等。求数学期望往往是求总体的特征参数表达式。 对于离散型(间断性)随机变量y的分布列为:P{y=y i}=p i,其中,i=1,2,…,那么随机变量y的数学期望E(y)为:

第八章参数估计习题

第八章 参数估计习题 一、 填空题: 1.设总体),(~2σμN X ,n X X X ,,,21 是来自X 的一个样本,参数2,σμ都是未知的, 则μ的矩估计量为 。2 σ的矩估计量为 。 2.设总体),(~2σμN X ,其中2 σ未知,μ已知,n X X X ,,,21 是来自X 的一个样本, 做样本函数如下①∑=-n i i X n 12)(1μ,②2 1])([∑=-n i i X σμ,③∑=-n i i X X n 12)(1,④ ∑=--n i i X X n 12 )(11,⑤∑=+--n i i i X X n 121)() 1(21,这些样本函数中,是统计量的有 , 统计量中是的无偏估计量的有 。 3.设某总体X 的密度函数为?? ???<<-=其他 ,00, )(2 );(2ααα αx x x f ,对容量为n 的样本, 参数α的矩估计量为 。 4.假设总体)81.0,(~μξN ,n X X X ,,,21 是来自ξ的样本,测得样本均值5=x ,则置 信度是0.99的μ的置信区间是 5.设n X X X ,,,21 是来自总体X 的样本,对总体方差进行估计时,常用的无偏估计量是 。 6.设总体X 在区间],0[θ上服从均匀分布,则未知参数θ的矩法估计量为 。 二、选择题: 1.设n X X X ,,,21 是来自总体X 的样本,2 )(,)(σμ==x D x E ,并且和是未知参数,下面结论中是错误的[ ]。 (A )X =1?μ 是μ的无偏估计; (B )12?X =μ是μ的无偏估计; (C )21??μμ比有效; (C )21 )(1∑=-n i i X n μ是2σ的 极大似然估计量。