北航数理统计大作业(逐步回归)

北航数理统计大作业(逐步回归)
北航数理统计大作业(逐步回归)

应用数理统计第一次大作业

学号:

姓名:

班级: B11班

2015年12月

民航客运量的多元线性回归分析

摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。

关键词:多元线性回归,逐步回归法,民航客运量

0.符号说明

变量符号

民用航空客运量Y

国民生产总值X

1

铁路客运量X

2

民航航线里程X

3

入境过夜旅游人数X

4

城镇居民人均可支配收入X

5

1.引言

随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行

分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X

1

(亿元)、铁路客运量X

2(万人)、民航航线里程X

3

(万公里)、入境过夜旅游人

数X

4(万人)、城镇居民人均可支配收入X

5

(元)的关系。采用逐步回归法建立

线性模型,选出较优的线性回归模型。

2.数据的统计与分析

本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。

表1:

2.1模型的建立

,构建回归方程:以民航客运量y为因变量,以上5种影响因素为自变量X

i

ε

其中为常数项,ε为误差项。

先观察自变量与因变量的关系,用SPSS得到各个自变量与因变量的散点图:

图1 民航客运量与国内生产总值散点图

图2 民航客运量与铁路客运量散点图

图3 民航客运量与航线里程散点图

图4 民航客运量与入境过夜人数散点图

图5 民航客运量与人均可支配收入散点图

从以上五张散点图,我们可以看出因变量民航客运量与国内生产总值,入境过夜旅游人数和城镇居民人均可支配收入均有较好的线性关系,这说明建立线性模型是有意义的。

继续下一步逐步回归分析,逐步回归的基本思想是将变量逐个引入模型,每引入一个变量后都要进行F检验,并对已经选入的变量逐个进行t检验,当原来引入的变量由于后面变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含先主动变量。这是一个反复的过程,直到既没有显著的变量选入回归方程,也没用不显著的变量从回归方程中剔除为止。在SPSS 软件中可直接进行逐步回归分析,得出以下结果:

由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其他自变量都没有进入模型,模型2在1的基础上再纳入了过夜入境旅游人数,其他的自变量也都被排除了。

表2

输入/移去的变量a

模型输入的变量移去的变量方法

1 城镇居民人均可支配

收入

. 步进(准则:

F-to-enter 的概率

<= .050,F-to-remove

的概率 >= .100)。

2 过夜游客. 步进(准则:

F-to-enter 的概率

<= .050,F-to-remove

的概率 >= .100)。

a. 因变量: 民用航空客运量

表3

2.2拟合度检验

由表4,模型1的决定系数R2=0.992,模型2的决定系数R2=0.995,可以看出

回归方程都高度显著,且模型2比模型1更优。

2.3回归方程的显著性检验:

由表5,方差分析表Sig值都<0.05,说明每个模型都拒绝回归系数均为0的假设,每个方程都是显著的。

表5

由表6可以得到两个模型的回归方程分别:

1.以城镇居民可支配收入为自变量的拟合函数:

y=-1698.669+1.406X

5

2. 以城镇居民可支配收入和过夜入境旅游人数为自变量的拟合函数:

y=-3267.728+0.817X

5+2.871X

4

且所有系数的显著性水平都小于0.05,每个回归方程都是有意义的。表6

表7是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。残差平方和Q描述的是随机误差引起因变量Y的分散程度,Q越大分散性也越大,则线性关系越不明显。由表7可见标准化残差的最大绝对值为1.758。而且标准残差的均值为0,说明随机误差对Y值的影响很小。

表7

2.4多重共线性的诊断

表8

表8是SPSS软件的多重共线性诊断表,它包括3项诊断值:特征值、条件数和方差比率。特征值表明在自变量中存在多少截然不同的维数,当几个特征值都接近0是,变量是高度相关的。条件数是最大特征值对每一个连续特征值的比率的平方根,若条件数大于15则表明可能存在多重共线问题,若大于30则表明存在严重的多重共线性问题。显然表8中变量X

过夜入境旅游人数的条件数大

4

于30,说明回归方程存在多重共线性。

2.5残差检验

如图6是残差分布直方图。在回归分析中,总是假定残差服从正态分布,这个图就是根据样本数据的计算结果显示残差分析的实际情况。从图来看标准化残差还是近似服从正态分布的。

图6

如图7残差的积累概率图基本围绕在假设直线(正态分布)周围,说明残差分布基本符合正态分布,说明民航客运量这个因变量基本上可以用线性回归方法建立模型。

3.结论

为了解决多重共线性的问题,排除模型2,考虑到模型1的拟合度也是很好的,综合来看认为模型1为更优。最终得到的回归方程为:

y=-1698.669+1.406X5

并以2014年的数据检验该回归方程,2014年航空客运量为39195万人,城镇居民人均可支配收入为28843.9,将自变量X

带入回归方程得到y=38855.85

5

万人,与实际的客运量39195万人的误差为0.86%。因此可以认为该模型基本达

到了预期的目标。

通过最优回归方程,我们可以发现航空客运量与城镇居民的可支配收入线性相关十分显著,这是符合常识的,只有居民可支配收入越来越高,才会选择航空这种昂贵的客运方式。

图7

参考文献:

[1] 2015年中国统计年鉴

[2] 孙海燕、周梦、李卫国、冯伟. 应用数理统计.北京航空航天大学出版

社,2009

[3] 朱卫卫. 基于偏最小二乘回归的我国民航客运量影响因素分析[J].

中国市场. 2010(41): 110-112

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为

北航2015级硕士研究生数理统计参考答案(B层)

2015-2016 学年 第一学期期末试卷 参考答案 学号 姓名 成绩 考试日期: 2016年1月15日 考试科目:《数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设12,,n x x x ,是来自正态总体2(0,)N σ的简单样本,则当c = 时,统计量2 21 () n k k x c x x η==-∑服从F -分布,其中1 1n k k x x n ==∑。((1)n n -) 2. 设12,,n x x x ,是来自两点分布(1,)B p 的简单样本,其中01p <<,2n ≥,则 当c = 时,统计量2?(1)cx x σ =-是参数()(1)q p p p =-的无偏估计,其中1 1n k k x x n ==∑。(1n n -) 3.设总体X 的密度函数为22 ,[0,] (;)0,[0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则θ的充分统计量是 。(()n x ) 4.设12,,n x x x ,是来自正态总体2(,)N μσ的简单样本,已知样本均值 4.25x =, μ的置信度为0.95的双侧置信区间下限为3.1,则μ的置信度为0.95的双侧置信区间为(,)。((3.1,5.4))

二、(本题12分)设12,,,n x x x 是来自正态总体2(1,2)N σ的简单样本。(1)求2σ的极大似然估计2σ;(2)求2σ的一致最小方差无偏估计;(3)问2σ的一致最小方差无偏估计是否为有效估计?证明你的结论。 解(1)似然函数为 2 2 2 1 1()exp{(1)}4n n i i L x σσ ==- -∑ 对数似然函数为 2 2 221 1ln ()(ln(4)ln )(1)24n i i n L x σπσσ==-+--∑ 求导,有 22 224 1 ln ()1(1)24n i i L n x σσσσ=?=-+-?∑ 令22 ln ()0L σσ?=?,可得θ的极大似然估计为2 21 1?(1)2n i i x n σ==-∑。 (2)因为 2 2 122 1 1(,,,;)exp{(1)}4n n n i i f x x x x σσ ==- -∑ 令2()n c σ=,()1h x =,22 1()4w σσ =- ,,由于2()w σ的值域(,0)-∞有内 点,由定理2.2.4知21(1)n i i T x ==-∑是完全充分统计量。而 2 221 1 ((1))(1)2n n i i i i E x E x n σ==-=-=∑∑ 因而2 2 11?(1)2n i i x n σ==-∑既是完全充分统计量21 (1)n i i T x ==-∑的函数,又是2σ的无偏估计,由定理2.2.5知2 21 1?(1)2n i i x n σ==-∑是2σ一致最小方差无偏估计。 (3)224112 ?()((1))4Var Var x n n σ σ=-=。因为

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。 回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进

北航数理统计聚类分析大作业

应用数理统计大作业(二) 部分省市经济类型的聚类和判别分析 学院:学号:姓名:班级: 机械工程及自动化学院 SY1007??? XXXXX 51班 2011年1月7日

目录 摘要 (1) 符号说明 (1) 0 引言 (1) 1 源数据的提取 (1) 2 聚类分析过程 (2) 2.1 基本概念 (2) 2.2 聚类分析过程 (2) 2.3判别分析 (5) 2.4分类结果分析 (7) 3 结论 (7) 参考文献 (8)

部分省市经济类型的聚类和判别分析 摘要 一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS,对北京市等13省市2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,得出了分类结果,分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。 关键词:经济类型,聚类分析,判别分析,SPSS 符号说明 符号说明 X1 地区生产总值 X2职工人均工资 X3第一产业在国民生产总值中占的比重 X4第二产业在国民生产总值中占的比重 X5第三产业在国民生产总值中占的比重0 引言 随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大的统计软件SPSS,对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,河北省、浙江省和河南省属于一类,辽宁省、安徽省、湖南省、湖北省、四川省属于一类,江苏省、山东省、广东省属于一类,这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的,具有一定的科学性。 1 源数据的提取 本文所用的数据全来自2009年出版的《中国统计年鉴》,从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析 学号:姓名: 摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。 对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。 关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析 1.引言 国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。 地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。 本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析 分地区生产总值主要包括的内容有: (1)第一产业: 包括农、林、牧、渔业。 (2)第二产业: 包括工业及建筑业。 (3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融 业、房地产业及其他产业。 (一)相关自变量的选择 本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

北航2014级硕士研究生应用数理统计答案(B卷)

2014-2015 学年 第一学期期末试卷答案 学号 姓名 成绩 考试日期: 2015年1月13日 考试科目:《应用数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设122,,n x x x ,是来自正态总体2(,)N μσ的简单样本,则c = n m m - 时,统计量2 22112 2211 ()()m k k k n k k k m x x c x x η-=-=+-=-∑∑服从F -分布。 2. 设12,,n x x x ,是来自正态总体2 (0,)N σ的简单样本,用2 2 21 1?()n i i nx x n σ ===∑估计2σ,则均方误差2222?()E σσ σ- 42σ 。 3.设总体X 的密度函数为22 ,[0,] (;)0, [0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则2()q θθ=的矩估计?q = 2 94 x 或2 1 2n i i x n =∑ 。 4.在双因素方差分析中,总离差平方和T S 的分解式为 T A B A B e S S S S S ?=+++ 其中2 111 ()p q r e ijk ij i j k S x x ?====-∑∑∑,11r ij ijk k x x r ?==∑, 则e S 的自由度是 (1)p q r - 或n pq -,其中n pqr = 。

二、(本题12分)设总体X 的密度函数为111,(0,1) (;)0,(0,1)x x f x x θ θθ-?∈?=???? ,其中0θ>, 12,,,n x x x 是来自总体X 的简单样本。 (1)求θ的极大似然估计?θ;(2)求θ的一致最小方差无偏估计;(3)问θ的一致最小方差无偏估计是否为有效估计?证 明你的结论。 解(1)似然函数为 (1)()1 1 {01}121 1 ()() (,,,)n n i x x n n i L x I x x x θ θθ-<≤<== ∏ 对数似然函数为 (1)(){01}121 1 ln ()ln (1)ln ln (,,,)n n i x x n i L n x I x x x θθθ <≤<==-+-+∑ 求导,有 2 1 ln ()1 ln n i i L n x θθθθ =?=--?∑ 令ln ()0L θθ?=?,可得θ的极大似然估计为1 1?ln n i i x n θ==-∑。 (2)因为 (1)()1 1 12{01}121 1 (,,,;)() (,,,)n n n i x x n n i f x x x x I x x x θ θθ-<≤<== ∏ (1)(){01}121 1 1 (,,,)exp{(1)ln }n n x x n i n i I x x x x θθ <≤<==-∑ 令1 ()n c θθ = ,(1)(){01}12()(,,,)n x x n h x I x x x <≤<= ,1 ()1w θθ = -,1 ln n i i T x ==∑,由于() w θ的值域(0,)+∞有内点,由定理2.2.4知1 ln n i i T x ==∑是完全充分统计量。而 1 1 1 1 (ln )(ln )i E x x x dx θθθ -= =-? 所以 1 1 (ln )(ln )n n i i i i E x E x n θ====-∑∑

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1) 其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

北航应用数理统计大作业多元线性回归

多元线性回归分析 摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。 关键字:回归分析;线性;相关系数;正态分布 1. 引言 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。 回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。 回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。 本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。以探求影响居民消费水平的各个因素,得到最优线性回归模型。随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。 本文将分为5章进行论述。在第2章,我们介绍多元线性回归模型的概念。第3章,我们进行模型的建立与数据的收集和整理。我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。在第5章,我们进行总结。2.预备知识 2.1 回归分析 回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。

北航数理统计期末考试题

北航数理统计期末考试题 2011年2007-2008学年第一学期期末试卷一、(6分,A班不做)设x1,x2,…,xn是来自正态总体的样本,令,试证明T服从t-分布t(2) 二、(6分,B班不做)统计量F-F(n,m)分布,证明。 三、(8分)设总体X的密度函数为其中,是位置参数。x1,x2,…,xn是来自总体X的简单 样本,试求参数的矩估计和极大似然估计。 四、(12分)设总体X的密度函数为,其中是未知参数。x1,x2,…,xn是来自总体X的简 单样本。 (1)试求参数的一致最小方差无偏估计; (2)是否为的有效估计证明你的结论。 五、(6分,A班不做)设x1,x2,…,xn是来自正态总体的简单样本,y1,y2,…,yn是 来自正态总体的简单样本,且两样本相互独立,其中是未知参数,。为检验假设可令则上述假设检验问题等价于这样双样本检验问题就变为单检验问题。基于变换后样本z1,z2,…,zn,在显著性水平下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B班不做)设x1,x2,…,xn是来自正态总体的简单样本,已知,未知,试求假 设检验问题的水平为的UMPT。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方 面八、(6分)设方差分析模型为总离差平方和试求,并根据直观分析给出检验假设的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A、B、C、D外,还需考察,。今选用表,表 头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。 列号试验号ABCD实验数据 12345671111111112.82111222228.23122112226.14122221135.35212121230.5621221214 .37221122133.3822121124.0十、(8分)对某中学初中12岁的女生进行体检,测量四个变量,身高x1,体重x2,胸围x3,坐高x4。现测得58个女生,得样本数据(略),经计算指标的协方差阵V的极大似然估计为且其特征根为。 (1)试根据主成分85%的选择标准,应选取几个主要成分(2)试求第一主成分。 2006级硕士研究生《应用数理统计》试题一、选择题(每小题3分,共12分) 1.统计量T~t(n)分布,则统计量T2的α(0α1)分位点xα(P{T2≤xα}=α)是()

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判 别分析 应用数理统计第二次大作业 学院名称 学号 学生姓名 摘要 我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因

变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。 关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型 1、引言 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。 本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。 1.1 聚类分析 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就

北航数理统计第二次数理统计大作业 判别分析

数理统计大作业(二) 全国各省发展程度的聚类分析及判别分 析 指导教师 院系名称材料科学与工程院 学号 学生姓名 2015 年 12 月21 日

目录 全国各省发展程度的聚类分析及判别分析 (1) 摘要: (1) 引言 (1) 1实验方案 (2) 1.1数据统计 (2) 1.2聚类分析 (3) 1.3判别分析 (4) 2结果分析与讨论 (5) 2.1聚类分析结果 (5) 2.2聚类分析结果分析: (8) 2.3判别分析结果 (9) 2.4 Fisher判别结果分析: (11) 参考文献: (16)

全国各省发展程度的聚类分析及判别分析 摘要: 利用SPSS软件对全国31个省、直辖市、自治区(浙江、安徽、甘肃除外)的主要经济指标进行多种聚类分析,分析选择最佳聚类类数,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行发展分类。本文选取了7项社会发展指标作为决定发展程度的影响因素,其中经济因素为主要因素,同时评估城镇化率和人口素质因素。各项数据均来自2014年国家统计年鉴。分析结果表明:北京市和上海市和天津市为同一类;江苏省和山东省和广东省为同一类型;河北、湖北、河南、湖南、四川、辽宁为同一类;其余的为另一类。 关键词:聚类分析、判别分析、发展 引言 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。 判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。 聚类分析与判别分析都是研究分类的,但是它们有所区别: (1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底

北航数理统计第二次大作业

数理统计大作业(二) 全国各省、直辖市经济类型 聚类和判别分析 指导老师:冯伟 院系名称:航空科学与工程学院 学号: 姓名:

2014年12月25日 摘要 本文利用SPSS统计软件,选取了7个主要经济指标,利用聚类分析方法对我国26个省、直辖市的经济类型进行了分类,结果表明可以分为三类,并根据各省市当前的发展情况和经济水平对分类结果进行了评价分析,得出该分类结果是合理的。并采用判别分析的方法对剩下的5个省的经济类型进行了判别分类,结果表明各如分类正确率为100%,证明了分类结果的合理性。 关键词:聚类分析,系统聚类,判别分析,Fisher判别

目录 1 引言 (1) 2 聚类分析 (1) 2.1 基本概念 (1) 2.2 数据采集和整理 (2) 2.3 聚类分析过程 (3) 2.4 结果分析 (5) 3 判别分析 (6) 3.1 基本概念 (6) 3.2 判别分析过程 (6) 3.3 结果分析 (8) 4结论 (8) 5 参考文献 (8)

1 引言 进入21世纪后,中国经济迅速发展,财政收入、国内生产总值(GDP)等稳步增长,世界排名也名列前茅。2013年,我国GDP以90386.6亿美元的总量超过日本,仅次于美国。随着经济的快速发展,中国城市化进程的脚步也在不断加快。2012年8月国家统计局发布报告显示,十六大以来中国城市化水平进一步提高,城镇化率达51.27%,超过一半的人口已经居住在城镇中。 但是中国国土面积辽阔,各地区的地理位置、自然环境、资源分布、人口构成、开发程度等都存在较大的差异,因此各地区的经济发展状况也存在不同程度的差异,依照各省、市、区经济社会发展水平,可把全国大致分成东部、中部、西部三个经济地带。而这只是一个在较大区域内大划分,没有对各省市的经济水平做出更进一步的划分。显然研究各省市的经济水平差异,对于政府合理引导资源向薄弱省市适当倾斜具有一定的指导作用,对于国家制定总体发展计划也有一定的帮助。 考虑到各省市在各方面都存在较大的差异,评价各省市经济水平的指标要选择的合理,既要考察总量,也要将人均水平纳入考核中。从这方面考虑,从《国家统计年鉴2013》[1]上选取了我国26个省和直辖市2012年的7个经济数据来进行评价分类,即城乡居民储蓄存款、地区生产总值、居民消费水平、人均地区生产总值、农村居民纯收入、城镇居民年平均收入和公共财政预算收入。利用SPSS 统计软件进行聚类分析,并对聚类结果进行判别分析来判断聚类分析结果的合理性和正确性。 2 聚类分析 2.1 基本概念 聚类分析是研究对象的特征来对研究对象进行分类的多元分析技术的总称,分类问题在科学研究、生产实践、社会生活中到处可见。人们可以靠相关经验和专业知识对事物实现分类,但当反映事物的性质、特性的指标较多,且对分类要求较高时,仅凭经验和专业知识就不能达到确切的分类目的,于是数学方法就被引进到分类问题中来。 聚类分析的核心思想是,从一批样本的多个观测指标变量中,定义能度量样品间相似程度的统计量,在次基础上求出各样品之间的相似程度度量值,按相似

北航数理统计大作业(逐步回归)

BEIHANG UNIVERSITY 应用数理统计 第一次大作业 学号: 姓名:一 班级:B11班 2015年12月

民航客运量的多元线性回归分析 摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS寸各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。 关键词:多元线性回归,逐步回归法,民航客运量

1. 引言 随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行 分析,研究1996年起至2013年我国民航客运量y (万人)与国民生产总值X i (亿元)、铁路客运量X2 (万人)、民航航线里程X3 (万公里)、入境过夜旅游人数X4 (万人)、城镇居民人均可支配收入X5 (元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。 2. 数据的统计与分析 本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。

相关文档
最新文档