2007年中国人民大学805统计学考研真题

合集下载

中国人民大学805统计学历年真题

中国人民大学805统计学历年真题（2013－2000）2013年人大805统计学真题一、证明题：（20分）每题10分1.袋子里有两种颜色的球红球a个白球b个第一步从袋子里取出一个球观察其颜色然后丢掉第二步从袋子里再取出一个球，若和上一次取出的球颜色不同，则放回，回到第一步；若和上一次取出的球颜色相同，则丢掉，重复第二步。

证明取出的最后一个球是红球的概率是1/2。

2.证明n维正态随机向量的各分量相互独立的充要条件是互不相关。

二、简述：（30分）每题10分1.设昆虫在树叶上产卵数X服从参数为的泊松分布，而只有树叶上有卵时才能判断是否有昆虫。

在又设观察到的虫卵数Y，P（Y=i）=P（X+i|X>0），求P（Y为偶数）和E（Y）。

2. 2n+1个独立同分布样本，分布函数是F(x) 求中位数x（n+1）的分布3.设走进某商店的顾客数是均值为50的随机变量。

又设这些顾客所花的钱数是相互独立、均值为100元的随机变量。

再设任一顾客所花的钱数和进入该商店的总人数相互独立。

试问该商店一天的平均营业额是多少？的矩估计和最四、X和Y是两个相关的随机变量：求证var(Y) = E(var(Y|X)) + var(E(Y|X)) 并谈谈你对它的理解和应用。

（25分）五、谈谈你对双因素方差分析的理解和认识。

(25分)六、一元线性回归中有三个检验：线性相关检验，回归方程显著性检验以及X的回归系数的检验，谈谈你对它们的理解和它们之间的关系。

(25分）2012年人大805统计学真题一、为研究不同地区与购买汽车的消费价格之间的相关关系，调查得到如下的数据：对于以上的数据可以用什么统计图表分析，并说明这些图表的用途。

对于以上的数据可以用什么统计方法分析，并说明这些方法的用途。

二、为检验一厂家生产的产品，提出如下的假设检验：H0：u=500，H1: u=! 500 现在抽取了部分的样品进行检验。

若检验结果拒绝H0，则意味着什么？若检验结果没有拒绝H0，则又意味着什么？能否恰好取到一组样本证明H0：u=500成立？为什么？若检验的P=0.03，则意味着什么？P值的真实含义是什么？三、现研究某地区平均GDP与居民消费总额、固定投资、进出口额、年末总人口之间的关系，进行了多元回归分析。

2003-2016年中国人民大学统计学805考研真题集

人大统计学考研历年真题精华版(03- 16)2016年人大学统计学考研真题（完整版）1，构造几何分布，标准化的样本空间，取值空间，事件空间。

2，X、Y为随机变量，给出条件分布，对于任意y，E(X|Y<=y) = E(X|Y>y)，那么X与Y是否独立？写出详细论证过程。

3，给出联合分布，求条件分布，和条件概率。

4，X与Y是相互独立的随机变量，请给出一个充分条件，当X和Y各自服从什么分布时X-Y与X+Y相互独立，如果不存在请说明理由。

写出详细论证过程。

5，求一个密度函数的方差的极大似然估计，并求它的Fisher信息量。

6，异方差性和自相关是什么，检测方法，加权最小二乘法原理与实际步骤。

7，证明多元回归系数的估计量是无偏估计，是最小方差线性无偏估计。

8，多元线性回归，因变量均值与每个自变量间为二次函数关系，根据相互独立的n个样本预测因变量值。

2013年人大805统计学真题一、证明题：（20分）每题10分1.袋子里有两种颜色的球红球a个白球b个第一步从袋子里取出一个球观察其颜色然后丢掉第二步从袋子里再取出一个球，若和上一次取出的球颜色不同，则放回，回到第一步；若和上一次取出的球颜色相同，则丢掉，重复第二步。

证明取出的最后一个球是红球的概率是1/2。

2.证明n维正态随机向量的各分量相互独立的充要条件是互不相关。

二、简述：（30分）每题10分1.设昆虫在树叶上产卵数X服从参数为的泊松分布，而只有树叶上有卵时才能判断是否有昆虫。

在又设观察到的虫卵数Y，P（Y=i）=P（X+i|X>0），求P（Y为偶数）和E（Y）。

2. 2n+1个独立同分布样本，分布函数是F(x) 求中位数x（n+1）的分布3.设走进某商店的顾客数是均值为50的随机变量。

又设这些顾客所花的钱数是相互独立、均值为100元的随机变量。

再设任一顾客所花的钱数和进入该商店的总人数相互独立。

试问该商店一天的平均营业额是多少？三、已知Y1，……，Y n是相互独立的随机变量，且均服从。

中国人民大学经济学综合考研真题及答案解析2007-2006

1 / 26 全国统一咨询热线：400-6998-626 育明教育官方网址：中国人民大学经济学综合真题及解析【育明冲刺押题·复试保录】2013年冲刺押题保分课程6000元；视频保过课程6折；复试保录9800元，不过全退！赠送阅卷人一对一指导！（仅限100名）2007年中国人民大学经济学综合试题中国人民大学2007年硕士研究生入学考试试题科目代号:402 招生专业:经济学各专业考试科目：经济学综合一、简答题（共四题，每题15分，共60分）1、试述马克思政治经济学的研究对象。

2、简述资本主义部门之间的竞争及其经济影响。

3、什么是信息不对称，试举例说明信息不对称对市场可能产生的影响4、什么是菲利普斯曲线，它有哪几种类型，其各自的政策含义是什么？二、计算题（共两题，每题15分，共30分）5、浙江工艺制品公司生产的工艺品销往澳大利亚和美国。

经估计，澳大利亚对其产品的需求为：Q=100-2P ，美国的需求为Q=100-4P 。

如果该公司的总成本函数为TC=0.25Q 2。

那么为了获取最大的利润，公司在两个国家的销售量和价格分别是多少？公司获得的总利润是多少?6、假设某一宏观经济由下列关系和数据描述：消费曲线C=40+0.8Y d ,其中，C 为消费，Y d 为可支配收入；货币需求曲线L=0.2Y-5r ，其中，L 为货币需求，Y 为收入，r 为利息率；政府购买G=50，政府税收为T=0.2Y ，名义货币供给为M=200，价格水平P=2。

求当经济中产品市场和货币市场同时均衡时的收入、利息率、储蓄和投资。

三、论述题（共三题，每题20分，共60分）7、《中共中央关于构建社会主义和谐社会若干重大问题的决议》提出了“在经济发展基础上，更加注重社会公平”的方针，请回答：2 / 26全国统一咨询热线：400-6998-626 育明教育官方网址：（1）为什么要更加关注社会公平？（2）从收入分配的角度看出，注重社会公平应从哪些方面入手？（3）注重公平和提高效率的关系是什么？8、论竞争性市场的效率及其局限。

中国人民大学805-统计学考研参考书目、考研真题、复试分数线

中国人民大学805-统计学考研参考书目、考研真题、复试分数线805-统计学课程介绍统计学是通过搜索、整理、分析数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。

其中用到了大量的数学及其它学科的专业知识，它的使用范围几乎覆盖了社会科学和自然科学的各个领域。

统计学主要又分为描述统计学和推断统计学。

统计学的研究方法：实验设计法，大量观察法，描述统计法和推断统计法。

根据统计方法的不同，又可以将统计学分为描述统计学和推理统计学。

给定一组数据，统计学可以摘要并且描述这份数据，这个用法称作为描述统计学。

另外，观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型，以之来推论研究中的步骤及母体，这种用法被称做推断统计学。

这两种用法都可以被称作为应用统计学。

另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。

调整后的统计学一级学科将原属应用经济学和数学下与统计相关的学科进行了整合，并在一级学科下设有数理统计、社会经济统计、生物卫生统计、金融统计与风险管理和精算、应用统计等5个二级学科，可以根据各校情况授予经济学学位或者理学学位。

起源统计在金融上应用广泛统计学的英文statistics最早源于现代拉丁文statisticum collegium（国会）以及意大利文statista（国民或政治家）。

德文Statistik，最早是由Gottfried Achenwall于1749年使用，代表对国家的资料进行分析的学问，也就是“研究国家的科学”。

在十九世纪统计学在广泛的数据以及资料中探究其意义，并且由John Sinclair引进到英语世界。

统计学是一门很古老的科学，一般认为其学理研究始于古希腊的亚里斯多德时代，迄今已有两千三百多年的历史。

它起源于研究社会经济问题，在两千多年的发展过程中，统计学至少经历了“城邦政情”，“政治算数”和“统计分析科学”三个发展阶段。

所谓“数理统计”并非独立于统计学的新学科，确切地说：它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。

人大805统计学真题

15年真题1.一1000住户的小区，每户人家没车的概率0.1，有一辆车的概率0.7，有两辆车的概率0.2，问应该设多少停车位才能有95%以上的概率使小区的每辆车都有车位。

2. 证明多元回归分析中最小二乘估计具有最小方差线性无偏性。

3. 有一件什么事抽了100个人，分别给出了其中没有投诉，投诉一次，两次，三次，大于等于四次的具体人数，用卡方拟合检验判断其是否符合均值为1的泊松分布。

再假设确实服从泊松分布，求泊松分布参数的极大似然估计。

4. 假设检验中的p值指什么，用p值和用统计量进行检验有什么不同，再举例说明为什么假设检验不能证明原假设的正确性。

5. A袋中有编号1到n的n个红球，B袋中有n个篮球，每次从A中取出一个球后再从B 中取一个球放入A中（若B中取完则只取A），问A中取出的最后一个球为红球的概率。

6. 从五个正态总体中一共抽取五组样本，有一张表给出了每组样本的样本容量以及偏差平方和，假设这五个正态总体具有相同的方差，求方差95%的置信区间。

7. 现要研究位置（居民区商业区某某区）和竞争者数量（0 1 2 3）对销售额的大小有无影响，给出具体的做法。

14年真题1.证明概率的题，和13年真题差不多，比13年简单，方法也差不多2.计算某条件分布为二元正态分布3.半道证明依概率收敛，剩下半道我记不清了4.利用统计思想证明下面一个积分，被积函数我记不清了，积分最后是dx1dx2...dxn,我觉得这是这次最恶心的一道题，无从下手，大家可以上网找找类似的5.写出广义似然比检验量，并利用此检验量检验下面的假设，一道假设检验的题，检验内容不难，关键是要知道广义似然比检验量是什么6.统计决策中的风险函数和损失函数是什么，剩下半道好像还有点贝叶斯的什么函数我记不太清了7.最大似然估计和贝叶斯后验估计的区别和联系8.写出列联表检验全部过程9.普通的一个假设检验，应该是两总体均值情况中，两个总体方差均未知，样本量为10的近似t检验2013年人大统计学、精算学专业课试题（回忆版）一、证明题：（20分）每题10分1.袋子里有两种颜色的球红球a个白球b个第一步从袋子里取出一个球观察其颜色然后丢掉第二步从袋子里再取出一个球，若和上一次取出的球颜色不同，则放回，回到第一步；若和上一次取出的球颜色相同，则丢掉，重复第二步。

2016中国人民大学805统计学真题回忆版

2016年中国人民大学805统计学真题回忆版
8个题除第1题10分外另外7个题一题20分
1请给出一个满足几何分布的随机变量,并写出概率空间、事件域、概率的严格定义。

2如果对随机变量X、Y有对任意y,E(X|Y＞y)=E(X|Y＜=y),可否证明X、Y独立,请写出详细分析。

(个人觉得是一道难题,我没证出来,只写下了自己的思路,还扯到了测度论)
3条件概率计算题,很基础。

4如果X、Y独立,请添加一个充分条件使得可以得出"X+Y与X-Y也独立"的结论。

(我给的是"X、Y满足方差相同的正态分布",不难证明结论,无论李贤平还是王学民的书里都有原题)
5极大似然估计和Fisher Information计算,不难。

6线性回归中什么是异方差性?加权最小二乘法的思路和步骤是什么?什么是自相关性?如何检验自相关性?
7高斯-马尔科夫定理相关问题。

(严格证明大家可以看王松桂的《线性模型》)
8回归分析中,如果Y和X是二次函数关系,请设计一个模型估计未知参数。

怎么说呢,今年第一天发挥不好,专业课个人在考场上脑抽把第1题送分的都看错了题目,虽然觉得可能杯具了,但还是努力把真题回忆给大家,现在一边准备复试和调剂,一边投简历了,虽然很喜欢这门学科,也不能赖在家里三战了...
大家2017加油!。

2002年中国人民大学统计学系517统计学(含描述统计、推论统计)考研真题(含部分答案)【圣才出品】

2002年中国人民大学统计学系517统计学（含描述统计、推论统计）考研真题（含部分答案）一、简要回答下列问题（每小题7分，共21分）1．什么是数据变换？它具有哪些作用？答：略2．简述众数、中位数、均值的特点和应用场合。

答：（1）众数是一组数据中出现次数最多的变量值。

它主要用于测度分类数据的集中趋势，当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。

一般情况下，只有在数据量较大的情况下，众数才有意义。

（2）中位数是一组数据排序后处于中间位置上的变量值，主要用于测度顺序数据的集中趋势，当然也适用于作为数值型数据的集中趋势，但不适用于分类数据。

（3）均值是一组数据相加后除以数据个数得到的结果，是集中趋势的最主要测度值。

它主要适用于数值型数据，而不适用于分类数据和顺序数据。

3．简述方差分析的基本原理。

答：方差分析通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

在方差分析中，数据的误差是用平方和来表示的，总平方和可以分解为组间平方和与组内平方和。

组内误差只包含随机误差，而组间误差既包括随机误差，也包括系统误差。

如果组间误差中只包含随机误差，而没有系统误差。

这时，组间误差与组内误差经过平均后的数值就应该很接近，它们的比值就会接近l ；反之，如果在组间误差中除了包含随机误差外，还会包含系统误差，这时组间误差平均后的数值就会大于组内误差平均后的数值，它们之间的比值就会大于1。

当这个比值大到某种程度时，就可以说因素的不同水平之间存在着显著差异，也就是自变量对因变量有影响。

二、（12分）某种灯泡的质量标准是平均使用寿命不低于1000小时。

已知灯泡批量产品的使用寿命服从正态分布，且标准差为100小时。

商店欲从工厂进货，随机抽取了81只灯泡检查，测得980x=小时。

令0.05α=，回答下面的问题：1．如果采用假设检验，你打算如何设立原假设和备择假设，并说明其理由。

2．按你设立的假设进行检验，帮助商店决定是否购进该批灯泡？解：（1）设灯泡的寿命均值为μ，检验假设为：01:1000,:1000H H μμ≥ <理由如下：①题中抽取的样本的均值为980小时，小于1000小时，所以初步认为灯泡寿命没有达标，因此应将备择假设设定为1:1000H μ<；②在假设检验中，通常将等号“＝”放在原假设上，因为它可以涵盖备择假设不出现的所有情况。

人大07年经济学真题答案

1 1 ＋240× =180 元。然而这样一来，优质车就 2 2
不会以此价卖出。如果买主知道只能买到劣质车，则成交价格只能在 100－120 元之间，从而优质车被逐出市场，市场运转的有效性被破坏了。可再举一例。在保险市场上，如果保险公司和投保客户双方的信息是充分的，则根据大数法则所订费率足以保证保险市场的有效运转。问题是保险公司对客户的信息不可能充分掌握。拿健康医疗保险来说，哪些人身体好，哪些人身体差，保险公司无法充分了解。结果是事后保险公司才了解到实际发病率和死亡率大大高于预期的死亡率和身体差的人投保最多。发病率。这迫使保险公司按“最坏情况”的估计来制订保险费率，但这样会使费率上升，会使身体好的人不愿参加保险。尽管他们有获得保障的需求，但市场无法给他们提供保险。保险市场的有效性被破坏了。 4. 什么是菲利普斯曲线什么是菲利普斯曲线，它有哪几种类型，其各自的政策含义是什么？，它有哪几种类型，其各自的政策含义是什么？答：（1）菲利普斯曲线的含义菲利普斯曲线是说明失业率和货币工资变动率之间交替关系的一条曲线。它是由英国经济学家菲利普斯根据 1861—1957 年英国的失业率和货币工资变动率的经验统计资料提出来的，故称之为菲利普斯曲线。西方经济学家认为，货币工资率的提高是引起通货膨胀的原因，即货币工资率的增加超过劳动生产率的增加，引起物价上涨，从而导致通货膨胀。所以，相互交替关系菲利普斯曲线又成为当代经济学家用以表示失业率和通货膨胀之间此消彼长、的曲线。如图 1 所示。
Hale Waihona Puke （1）物质资料的生产物质资料的生产是政治经济学的出发点。这个规定表明，马克思主义政治经济学，既不也不同于当时同于以流通为对象的重商主义，也不同于仅仅以农业部门为对象的重农主义，以分配为出发点的经济思想。政治经济学对象以生产为出发点，反映这样的事实：物质资料的生产是人类社会存在和发展的基础。物质资料的生产不仅涉及人与自然的关系，也涉及人们在生产过程中的相互关系。政治经济学研究的生产不是生产的自然属性，而是生产的社会属性。但对生产的社会属性的分析不能脱离生产的自然属性，原因是反映自然属性的生产力发展水平直接制约生产的社会属性。（2）生产关系政治经济学以生产为对象不是一般地研究生产，而是研究人们在生产过程中的关系。任何物质资料的生产都是连续不断的社会再生产。社会再生产包括生产、交换、分配和消费四个环节。它们就如马克思所说，构成一个总体的各个环节。 “一定的生产决定一定的消费、分配、交换和这些不同要素相互间的一定关系。当然，生产就其单方面形式来说也决定于其他要素。 ”因此政治经济学研究生产关系，既要研究生产、交换、分配和消费之间的相互关系，也要研究人们在社会生产、交换、分配和消费中的关系。（3）生产力社会生产是生产力和生产关系的统一。这也是作为政治经济学的出发点的生产所包含的两方面内容。政治经济学研究的生产总是一定社会发展阶段上的生产。当然，政治经济学不是一般地研究生产力，不是研究生产的工艺方面，而是要研究影响和制约生产关系发展的生产力，特别注意生产力和生产关系的矛盾运动。分析生产力与生产关系的矛盾运动是马克思主义政治经济学的基本分析框架，但资本主义社会和社会主义社会的这种矛盾有根本性不同。根据马克思主义理论，当资本主义发展到一定阶段，社会生产力和生产关系的对抗性矛盾单靠资本主义自身的力量是不能从根本上得到克服的，因而资本主义必然为社会主义所代替。而社会主义社会的这种矛盾，可以通过社以资本主义为对象的政治经济学分析生会主义制度的自我发展和自我完善得到解决。因此，产力与生产关系的矛盾运动，目的是揭示资本主义生产关系对生产力的阻碍作用，寻求改变这种生产关系的动力。 2. 简述资本主义部门之间的竞争及其经济影响。简述资本主义部门之间的竞争及其经济影响。答：（1）投资于不同生产部门的资本家为了获得更高的利润率，相互之间必然展开激烈的竞争。比如甲乙两个部门，甲部门利润率高，乙部门利润率低。乙部门的资本家不甘心获得较低的利润率，就要同甲部门的资本家展开竞争。这种竞争是围绕争得有利的投资场所而展开的。竞争的手段是进行资本转移，即把资本从利润率低的部门撤出，转移到利润率高的部门。（2）部门之间竞争的经济影响原先利润率高的部门由于大量资本的涌入，商品供过于求，价格就会下降，利润率也就相应下降；而原先利润率低的部门由于大量资本撤出，会发生相反的变化。不同生产部门之间这种以资本转移为特点的竞争引起供求关系的变化，导致价值和价格偏离。上述资本转移的过程以及由此而来的价格和利润率的变动要一直到两个部门的利润率大体平均的时候才暂时地停止下来。这样，便形成了平均利润。在利润转化为平均利润后，许多部门的利润量与剩余价值量就不一致了。等量资本获取等量利润，似乎利润的多少只和资本量有关，这完全掩盖了利润的本质和来源。 3. 什么是信息不对称，什么是信息不对称，试举例说明信息不对称对市场可能产生的影响。试举例说明信息不对称对市场可能产生的影响。答：（1）信息不对称指市场上某些参与者拥有，但另一些参与者不拥有信息；或指一方

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2007年人大统计学专业课初试题参考解答一、（1）①需假定总体是正态总体。

②不能用数据证明。

数据至多只能检验该数据的分布是否接近正态分布，而不能从理论上证明或肯定它一定就来自正态分布总体，即正态性检验不能提供不拒绝正态性原假设的结论。

③不是。

该区间是确定的区间，要么覆盖真实总体均值，要么不覆盖，没有概率可言。

它是置信度为95%的随机置信区间的一个样本实现，后者才是以95%的概率覆盖真实总体均值。

（2）①需假定：总体服从正态分布；总体方差未知；样本量较小（一般 30）。

②不能。

“接受零假设”的说法是不妥的，否则就得负责任的给出犯第二类错误的概率，而该检验的备选假设是“总体均值>4.8克”，据此是无法算出此概率的。

所以只能说，在显著水平为0.05时利用该数据进行检验不足以拒绝零假设，不拒绝不等同于接受。

二、（1）不是。

因为只有员工看到并愿意答复电子邮件时才有机会进入样本，所以每个员工入样的概率并不一样，这其实是一种非概率抽样。

（2）①不对。

不说实话只是产生响应误差的原因之一，而被调查者与调查者两方面的因素，都有可能导致响应误差。

调查者不当的引导或者问卷设计不科学或者被调查者知识的局限性，都可能使被调查者对要回答的问题的理解产生偏差，这时候即使他（她）说了“实话”，也会产生响应误差，因为这不是我们想要的“实话”。

另外，拒绝回答也是一种重要原因。

②随机误差是不可以避免的，因为它是由抽样的随机性造成的，是客观的。

（3）整体来说是不独立的。

因为同一个网络公司员工加班时间一般是不独立的，而不同网络公司员工加班时间一般是独立的。

三、（1）令自驾车上班人数比例为π，由于不能轻易否定原结论，则检验假设为：01:30%:30%H H ππ≥⎧⎨<⎩ （2）①令样本量为n ，其中驾车上班人数为X ，假定X 服从二项分布(,0.3)B n ，X 的样本值为0x ，则00{}{0}{1}{}p P X x P X P X P X x =≤==+=++=L 值②检验统计量0~(0,1)H Z N =。

假定：大样本（5, 5X n X >->）；每人驾车上班与否相互独立且服从同参数0-1分布。

（3）统计上显著并不意味着实际上显著，要具体问题具体分析。

比如，某箱牛奶经统计检验，含三聚氰胺的概率显著低于5%，但人们未必敢要这箱牛奶；统计上0.1与0.01有显著差异的时候，实际中未必有多大意义。

不过统计显著与实际显著很多时候是一致的。

四、不负责。

一个负责任的调查报告应该给出较详尽的内容，主要如下： ①主题； ②调查时间与地点； ③调查主题、客体、对象； ④数据搜集方法、抽样框、抽样单元、样本量、抽样方法、估计方法； ⑤结论描述； ⑥精度、质量评估； ⑦责任； ⑧参考文献。

五、①无道理。

如果进行第二次主成分分析，那么它处理的变量是第一次主成分分析得到的互不相关的主成分，这样得到的“新”的主成分其实跟第一次得到的主成分是完全一样的，这可以通过矩阵运算进行验证，所以做的是无用功。

②变量之间相关系数多数较小（一般指<0.3）的数据不宜进行主成分分析。

③不总是适用。

要具体问题具体分析，不能拘泥于某些固有的准则，有时候还要根据问题的实际意义或专业理论知识来分析。

六、①不一定。

只有当所有对因变量产生影响的自变量都考虑进来了而且不存在自相关、异方差等情况时，ε才是随机误差。

②不需要。

如果要研究最小二乘估计量性质的话，就得假定ε满足Guass-Markov 条件；若还要进行回归系数区间估计和有关假设检验，则要进一步假定2~(0,)n N I εσ。

七、（1）需要选择度量样品或指标相似性的统计量，通常是距离（欧式距离、马氏距离等）或相似系数（夹角余弦、相关系数等）。

然后还要定义样品间、类与类间的距离或相似系数。

（2）①计算n 个样品两两间的距离；②构造n 个类，每个类只包含1个样品； ③合并距离最近的两类为1新类； ④计算新类与其它类之间的距离；⑤判断类的个数是否为1，是则进入第⑥步，否则返回第③步； ⑥画谱系聚类图；⑦决定分类个数和各类成员。

（3）①把样品粗略分成K 类；②以上述K 类的均值为种子，按照到它们距离的远近把所有点分成新的K 类；③反复进行第②步，直至收敛，得到最终的K 类。

八、（1）可能是前进法或逐步回归法。

由表可知，选元进行了两步，第一步选了自变量Beginning Salary ，第二步增加了另一自变量Employment Category 。

前进法显然解释得通。

至于逐步回归法，因为只进行了两步，而它的第二步不考虑剔除，故可以得到与前进法完全一样的结果。

（2）.Sig 就是通常所说的p 值，其计算公式为0.{}Sig P F F =≥这里的F 是原假设成立时服从F 分布的检验统计量，0F 是F 的样本值，即表中的1622.118和997.312。

.Sig 的意义就是，原假设为真时，F 统计量取其样本实现值以及更极端值的概率，是检验的真实显著性水平。

（3）假定：①2~(0,)n N I εσ；②原假设012:0H ββ==成立。

证明：可知/ ()/(1)SSR pF SSR SSE SSE n p =--指回归平方和，指残差平方和。

由数理统计知识，在假定①成立时，有22/~(1)SSE n p σχ--在假定①②成立时，有22/~()SSR p σχ且SSE 与SSR 是相互独立的，故/~(,1)/(1)SSR pF F p n p SSE n p =----证毕。

2006年人大统计专业课初试题及答案试题一、（20分）某银行为缩短到银行办理业务等待的时间，准备采用两种排队方式进行试验：一种是所有顾客都进入一个等待队列；另一种是顾客在三个业务窗口处列队三排等待。

为比较那种排列方式使顾客等待的时间更短，两种排队方式各随机抽取9名顾客，得到第一种排队方式的平均等待时间为7.2分钟，标准差为1.97分钟，第二种排队方式的等待时间（单位：分钟）如下：5.56.6 6.7 6.87.1 7.3 7.4 7.8 7.8 （1）画出第二种排队方式等待时间的茎叶图；（2）比较两种排队方式等待时间的离散程度；（3）如果让你选择一种排队方式，你会选择哪一种？试说明理由。

二、（20分）某企业生产的袋装食品采用自动打包机包装，每袋标准重量为100克。

现从某天生产的一批产品中按重量重复抽样方式随机抽取50包进行检查，测得每包重量（单位：克）如下：已知食品包重量服从正态分布，要求：（1）确定该种食品平均重量95%的置信区间；（2）如果厂家认为每袋食品重量不低于100克，请写出检验的原假设和备择假设；（3）利用P值进行检验和利用统计量进行检验有什么不同？（z0.05=1.645，z0.025=1.96，t0.05=1.69，t0.025=2.03）三、（20分）一家汽车制造商准备购进一批轮胎，考虑的因素主要有轮胎供应商牌和耐磨程度。

为了对耐磨程度进行测试，分别在低速（40公里/小时），中速（80公里/小时），高速（120公里/小时）下进行测试。

根据对5家供应商抽取的轮胎随机样本对轮胎在行驶1000公里后磨损程度进行试验，在显著水平α=0.01下得到的有关结果如下：差异源SS df MS F P-value F crit行列误差总计1.553.480.145.17428140.391.740.0221.7297.680.0002360.0000027.018.65（1）不同的车速对磨损程度是否有显著影响？（2）不同供应商的轮胎之间磨损程度是否显著差异？（3）在上面的分析中，你都做了哪些假设？四、（15分）说明什么条件下适合采取简单随机抽样？五、（25分）说明回归模型的假设以及当这些假设不成立时的应对方法。

六、（20分）解释因子模型X=AF+ε的意义并写出模型的假设。

七、（15分）以下是从《中国统计年鉴-2005》摘引的资料，要求：单位：元/人（1）根据国民经济收入分配核算原理，说明居民人均收入低于人均GDP水平的原因；（2）计算各指标的动态变动率（不考虑价格变化），对其结果予以简要分析。

八、（15分）下表是中国全部国有及规模以上非国有供企业统计的主要指标，要求：（1）设计并计算反映企业经济效益的指标；（2）对经济效益指标的动态变化状况做简要分析。

2006年人大统计学专业课初试题参考解答一、（1）图略。

（2）第二种排队方式平均等待时间9221111(5.5 6.67.8)7.07.299i i x x x ===+++=<=∑L其中1x 为第一种排队方式平均等待时间。

第二种排队方式的方差922222222122111()[(5.57)(6.67)(7.87)]91910.51 1.97 3.88i i s x x s ==-=-+-++---=<==∑L其中21s 为第一种排队方式的方差。

可知第二种排队方式比第一种排队方式离散程度小。

（3）我会选择第二种排队方式。

以为它的平均等待时间较短，等待时间也较稳定。

二、（1）样本量为50，可认为是大样本，由中心极限定理知~(0,1)x N &其中x 为样本均值，μ为总体均值，ˆσ为样本标准差。

由0.025}0.95P z <=得到95%的置信区间0.0250.025ˆˆ(//x z x z σσ-+ 代入样本数据计算得5111(9729931013410371054)1015050i i i x M f ===⨯+⨯+⨯+⨯+⨯≈∑ˆ 1.67σ=== 所求置信区间为(101 1.96 1.67/ 1.96 1.67/-⨯+⨯即(100.54,101.46)（2）由表可知样品中超过100g 的食品包数占大多数，厂家的观点似乎有一定的可信度，故令检验假设为01:100:100H gH g ≥⎧⎨<⎩每袋食品重量每袋食品重量（3）P 值是当原假设为真时，得到所观测结果或更极端结果的概率，是检验的真实显著性水平，可利用P 值直接决策或将P 值与显著性水平α进行比较，不需要查表，具有可比性；统计量检验是先确定一个显著性水平α从而获得一个否定域，进行决策的界限清晰但面临的风险是笼统的，确定临界值要查表，检验统计量一般与自由度有关因而可比性较差。

三、（1）这是无交互作用双因素方差分析问题，由行、列自由度可知行因素是供应商，列因素是车速。

列的F 检验值97.68>F 临界值8.65，P 值0.000002<<显著性水平α=0.01，故拒绝原假设，即认为车速对磨损程度有显著影响。

（2）同（1）之理，可知不同供应商的轮胎之间的磨损程度有显著差异。

（3）假设：①车速与供应商对轮胎的磨损程度无交互作用；②车速与供应商不同水平组合形成的总体都是正态总体； ③上述总体方差都相同； ④各观测数据相互独立；⑤行因素原假设015: ()i H μμμ==L 是总体均值，下同； ⑥列因素原假设0123:=H μμμ=。