北航数理统计第二次大作业-数据分析模板

北航数理统计第二次大作业-数据分析模板
北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析

2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言

2 数据采集及标准化处理

2.1 数据采集

本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。

表2.1 各变量的符号说明

自变量符号

每股收益(单位:元)X1

净资产收益率(单位:%)X2

每股经营现金流(单位:元)X3

主营业务收入同比增长率(单位:%)X4

净利润同比增长率(单位:%)X5

流通股本(单位:万股)X6

每股净资产(单位:元)X7

表2.2 30支股票的财务指标

股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030

2.2 数据的标准化处理

由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。

表2.2 经Z标准化后的数据

ZX1ZX2ZX3ZX4ZX5ZX6ZX7

武钢股份-0.75239 -0.53220 -0.29872 -1.43273 0.09044 1.80057 -0.36699 宝钢股份-0.06111 -0.04951 1.27419 -0.54909 0.16571 3.36895 0.82983 山东钢铁-0.80301 -0.24299 -0.10597 -0.79447 0.20551 0.89442 -0.90801 北方稀土-0.22597 0.11777 0.81009 0.89669 0.18178 -0.15036 -0.76605 杭钢股份-1.88333 -1.57819 0.42654 -1.49278 -4.05172 -0.49232 -0.36516 抚顺特钢0.16826 0.76673 0.01953 -0.52124 0.56444 -0.42031 -1.04806 盛和资源-0.39460 -0.06362 -0.61107 -0.16012 0.18419 -0.60318 -1.11250 宁夏建材-0.35035 -0.19764 0.36273 -0.86452 0.14636 -0.58170 1.45398 宝钛股份-1.07056 -0.50398 -0.80334 -0.54517 -2.95236 -0.59357 1.25341 山东药玻0.80777 0.28101 1.71089 0.38199 0.20293 -0.63640 1.38197 国睿科技0.71984 0.91284 -0.74363 0.24276 0.20405 -0.65850 -0.28706 海螺水泥 2.86486 0.66293 1.70219 -0.46903 0.18110 0.29076 2.89275 华建集团0.18186 1.03578 -1.20920 0.44290 0.19091 -0.61395 -0.91879 福耀玻璃 1.81896 1.18694 1.21907 0.25581 0.20318 -0.20393 0.59641 宁波富邦-1.10238 -3.77801 -1.10126 0.23493 0.20350 -0.66703 -1.37450 马钢股份-1.43327 -1.42905 0.38635 -0.85147 -0.16304 0.77834 -0.62837 亚泰集团-0.40820 -0.18857 -0.03017 -0.92891 0.15890 -0.23075 0.00091 博闻科技0.99028 1.43483 -0.42553 -0.37897 1.54862 -0.64168 -0.51569 新疆众和-0.31477 -0.14424 -1.75368 2.82453 0.27823 -0.54131 0.18198 西部黄金-0.18577 0.14800 -0.07102 0.77399 0.20748 -0.66895 -0.69342 中国铝业-0.66851 -0.54329 0.07908 -0.29587 0.23714 1.67341 -0.73317 明泰铝业0.31144 0.22055 -2.04864 0.13486 0.20867 -0.59916 1.02450 金隅股份0.10926 0.09257 0.28316 -0.33807 0.17401 0.07068 0.78075 松发股份0.54630 0.45635 -0.78398 -0.09356 0.18924 -0.69472 0.52151 方大集团-0.19127 0.32132 -1.04876 1.80862 0.20494 -0.59607 -0.96906 铜陵有色-0.40820 -0.12610 0.74611 0.23971 0.17829 1.66843 -1.02134 鞍钢股份-0.82181 -0.43748 0.89950 -1.08946 0.09252 0.82323 0.68295 中钢国际 1.19044 1.20709 -0.92392 -0.52429 0.40688 -0.59788 -0.09131 中材科技 1.51410 0.78587 1.74074 2.17408 0.34050 -0.60107 0.82084 中南重工-0.14788 0.18427 0.29875 0.91888 0.21760 -0.57591 -0.62231

3 聚类分类

3.1 聚类分析概述

3.2 聚类分析输出结果

本文中使用系统聚类的Ward’s method(最小离差平方和法),度量方法采用

Squared Euclidean distance(欧氏距离的平方)。输出结果如下

从表中可以看出:有效数据为30个;缺失数据为0个,即没有缺失数据;数据总数为30个,说明所选随机样本100%有效。脚注显示聚类时采用的是距离度量法,聚类方法为采用的是欧式距离平方值和Ward联结法。

表3.2所示为系统聚类分析的凝聚顺序表。表中第一列表示聚类分析的步骤。第二列和第三列表示聚类分析中,哪两个样本聚成了一类。如:第一步显示第20和30这两个样本聚成了一类,依次类推,聚类过程共进行了29步,所有的样本聚成了一大类。第四列表示两个样本间的距离,从表中可以看出,距离小的样本之间先聚类;第五和第六列表示聚类分析中,参与聚类的是样本还是类,0则表示样本,数字n(非零)表示第n步聚类产生的类参与了本步聚类;第七列表示本步聚类结果在下面聚类的第几步中用到。

16 11 18 17.775 10 0 19

17 10 29 20.202 11 0 21

18 4 6 22.708 3 7 23

19 11 22 26.113 16 0 23

20 5 9 30.145 0 0 27

21 10 12 36.632 17 0 28

22 1 2 43.758 15 0 25

23 4 11 52.459 18 19 24

24 4 19 62.608 23 12 28

25 1 8 73.379 22 13 26

26 1 15 91.305 25 0 27

27 1 5 119.700 26 20 29

28 4 10 153.172 24 21 29

29 1 4 203.000 27 28 0

从图3.1所示的树状图清晰地表示了聚类的全过程。它将实际的距离按比例调整到0至25的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。经试验,可以将30支股票(群集成员)分为4组(类),集群表分组结果如表3.3所示。

图3.1 Ward法进行联接的树状图

表3.3 群集成员

案例 4 群集

1:武钢股份 1

2:宝钢股份 1

3:山东钢铁 1

4:北方稀土 2

5:杭钢股份 3

6:抚顺特钢 2

7:盛和资源 2

8:宁夏建材 1

9:宝钛股份 3

10:山东药玻 4

11:国睿科技 2

12:海螺水泥 4

13:华建集团 2

14:福耀玻璃 4

15:宁波富邦 1

16:马钢股份 1

17:亚泰集团 1

18:博闻科技 2

19:新疆众和 2

20:西部黄金 2

21:中国铝业 1

22:明泰铝业 2

23:金隅股份 1

24:松发股份 2

25:方大集团 2

26:铜陵有色 1

27:鞍钢股份 1

28:中钢国际 2

29:中材科技 4

30:中南重工 2

将表3.3中的股票和集群数进行分组整理,如表3.4。采用指标平均值对各股票样本类别进行比较分析,计算结果如表3.5所示。

表3.5 各分类样本指标均值描述

分类X1X2X3X4X5X6X7

1 0.1578 1.85870.1117-3.5700-193.8309342999.0565 4.9121

2 0.1898 6.4131-0.1375 1.3408-336.544655552.5408 3.2048

3 -0.3495-7.86000.0436-25.7000-7130.610063460.2250 5.7997

4 0.76679.707

5 1.129611.182572.7225166501.72508.6421

从表3.5中,我们可以看出不同类股票的特点,基于此,我们对4类股票进行价值评判:

第一类:该类股票收益低,成长性为负,扩张能力也一般,最好不要投资。

第二类:该类股票具有较高的收益,但其成长性一般,主营业务收入增长率较低,且净利润降幅较大,每股现金流为负值,说明其市场基本已饱和,公司经营的相关成本居高不下,目前处于缺钱状态,可做短期投资,不宜做长期投资。

第三类:该类股票具有负的收益,以及负的成长性,扩张能力也很一般,其净利润几乎呈直线下滑态势,说明此类公司经营稳定性极差,基本已无发展前景,在市场上完全呈衰退态势,一定不能买此类股票。

第四类:高收益、高成长性和强扩张性的绩优股,是投资股票的最佳选择。

4 判别分析

4.1 判别分析概述

4.2 输出结果

判别分析选取的案例处理摘要如表4.1所示,可以看出30组数据全有效,参与判别。

指标组均值的均等性检验如表4.2所示。假设设检验:各类中同变量均值相等。如果假设成立,说明根据各判别变量所作的原始分类是没有实际意义的,要么是分类错误,要么是选作判别的自变量不能充分显示分类特征。如果拒绝假设,说明原始分类有意义,同时可以认为判别变量可以表明分类特征。从表4.2中可以看出:方差分析结果Sig.值有一点的差别,说明所选的7个判别变量中一些指标不能很好的体现分类特征。

表4.3和表4.4表明了判别函数在生成的过程中保留了X1(每股收益)、X2(净资产收益率)、X3(每股经营现金流)、X4(主营业务收入同比增长率)、X5(净利润同比增长率)这5项指标,删除了X6(流通股本)和X7(每股净资产)这2项指标。

表4.3 输入的/删除的变量a,b,c,d

表4.5为典则判别函数的特征值。其中第二列为一个函数的特征值,值越大表明函数越具有区别力。最后一列为相关系数,表示判别函数与组别间的关系度。

表4.6为Fisher线性判别函数系数表。

从表4.6得到4个类别的判别函数式为:

Y1=-3.269X1-1.004X2+0.500X3-1.734X4+4.554X5-3.612

Y2=-0.846X1+1.334X2-1.506X3+0.730X4+3.148X5-2.865

Y3=-0.812X1+3.813X2-3.820X3-1.890X4-42.344X5-74.218

Y4=11.335X1-3.482X2+5.160X3+3.340X4-1.582X5-14.948

表4.7是预测分类的小结,是使用建立的判别函数对工作数据文件中的各观测量进行重新分类,与原始数据中的变量值进行比较得出错判概率。从脚注可以看出本次分类已经对初始分组案例中的100%的样本进行了正确分类。

4.3 判别分析

选取钢研高纳、易成新能和正海磁材三支股票的各项指标,根据已建立的Fisher判别准则对这三支股票进行分类判别。这三支股票的各项指标如表4.8,经Z标准化得分法标准化后的数据如表4.9。

表4.8 三支股票的各项指标

X1X2X3X4X5X6X7

钢研高纳0.2097 5.92 -0.1530 9.42 -13.49 32001.91 3.5488 易成新能-0.0182 -0.29 -0.5690 -10.74 -116.67 35949.90 6.3843 正海磁材0.2900 7.84 0.2448 64.00 60.70 45729.78 4.1207

表4.9 Z标准化后三支股票的各项指标

X1X2X3X4X5X6X7

钢研高纳0.30773 0.33651 0.01491 -0.29671 0.10848 -0.83368 -0.75745 易成新能-1.11770 -1.12485 -1.00737 -0.81807 -1.04982 -0.27506 1.13351 正海磁材0.80997 0.78834 0.99246 1.11478 0.94134 1.10874 -0.37606

按Fisher函数对三支股票的指标进行线性计算,得到结果如表4.10所示:

表4.10 由判别函数计算出的结果

Y1Y2Y3Y4

钢研高纳-3.93986-2.57399-77.2664-13.7173易成新能-2.69492-5.8049-28.2956-29.97

正海磁材-4.20122-0.21611-117.092-1.15673每一支股票对应的四个判别函数中,最大值所对应的那个类就是该股票所属的那个类。由上表可知:

钢研高纳属于第二类股票,可做短期投资,不宜做长期投资;易成新能属于第一类股票,最好不要投资;正海磁材属于第二类股票,可做短期投资,不宜做长期投资。

5 结论

通过以上的聚类分析可以将30支金属材料行业的股票按其2015年1月至9月的财政指标分为4类:

第一类:武钢股份、宝钢股份、山东钢铁、宁夏建材、宁波富邦、马钢股份、亚泰集团、中国铝业、金隅股份、铜陵有色、鞍钢股份;该类股票收益低,成长性为负,扩张能力也一般,最好不要投资。易成新能属于该类股票。

第二类:北方稀土、抚顺特钢、盛和资源、国睿科技、华建集团、博闻科技、西部黄金、明泰铝业、松发股份、方大集团、中钢国际、中南重工;该类股票具有较高的收益,但其成长性一般,公司经营的相关成本居高不下,目前处于缺钱状态,可以做短期投资,不宜做长期投资。钢研高纳和正海磁材均属于该类股票。

第三类:杭钢股份、宝钛股份;该类股票具有负的收益,以及负的成长性,扩张能力也很一般,其净利润几乎呈直线下滑态势,说明此类公司经营稳定性极差,基本已无发展前景,在市场上完全呈衰退态势,一定不能买此类股票。

第四类:山东药玻、海螺水泥、福耀玻璃、中材科技;高收益、高成长性和强扩张性的绩优股,是投资股票的最佳选择。

参考文献

北航数值分析大作业一

《数值分析B》大作业一 SY1103120 朱舜杰 一.算法设计方案: 1.矩阵A的存储与检索 将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的,所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是: A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1,λ501,λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs; 如果λmax>0,则λ501=λmax;如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法(mifa()函数),令平移量p=λmax,求 出对应的按摸最大的特征值λ,max, 如果λmax>0,则λ1=λ,max+p;如果λmax<0,则λ501=λ,max+p。 3.求解A的与数μk=λ1+k(λ501-λ1)/40的最接近的特征值λik (k=1,2,…,39)。 使用带原点平移的反幂法,令平移量p=μk,即可求出与μk最接近的特征值λik。 4.求解A的(谱范数)条件数cond(A)2和行列式d etA。 ①cond(A)2=|λ1/λn|,其中λ1和λn分别是矩阵A的模最大和 最小特征值。

②矩阵A的行列式可先对矩阵A进行LU分解后,detA等于U所有对角线上元素的乘积。 二.源程序 #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为

北航数值分析大作业第一题幂法与反幂法

《数值分析》计算实习题目 第一题: 1. 算法设计方案 (1)1λ,501λ和s λ的值。 1)首先通过幂法求出按模最大的特征值λt1,然后根据λt1进行原点平移求出另一特征值λt2,比较两值大小,数值小的为所求最小特征值λ1,数值大的为是所求最大特征值λ501。 2)使用反幂法求λs ,其中需要解线性方程组。因为A 为带状线性方程组,此处采用LU 分解法解带状方程组。 (2)与140k λλμλ-5011=+k 最接近的特征值λik 。 通过带有原点平移的反幂法求出与数k μ最接近的特征值 λik 。 (3)2cond(A)和det A 。 1)1=n λλ2cond(A),其中1λ和n λ分别是按模最大和最小特征值。 2)利用步骤(1)中分解矩阵A 得出的LU 矩阵,L 为单位下三角阵,U 为上三角阵,其中U 矩阵的主对角线元素之积即为det A 。 由于A 的元素零元素较多,为节省储存量,将A 的元素存为6×501的数组中,程序中采用get_an_element()函数来从小数组中取出A 中的元素。 2.全部源程序 #include #include void init_a();//初始化A double get_an_element(int,int);//取A 中的元素函数 double powermethod(double);//原点平移的幂法 double inversepowermethod(double);//原点平移的反幂法 int presolve(double);//三角LU 分解 int solve(double [],double []);//解方程组 int max(int,int); int min(int,int); double (*u)[502]=new double[502][502];//上三角U 数组 double (*l)[502]=new double[502][502];//单位下三角L 数组 double a[6][502];//矩阵A int main() { int i,k; double lambdat1,lambdat2,lambda1,lambda501,lambdas,mu[40],det;

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数值分析报告第三次大作业

数值分析第三次大作业 一、算法的设计方案: (一)、总体方案设计: x y当作已知量代入题目给定的非线性方程组,求(1)解非线性方程组。将给定的(,) i i

得与(,)i i x y 相对应的数组t[i][j],u[i][j]。 (2)分片二次代数插值。通过分片二次代数插值运算,得到与数组t[11][21],u[11][21]]对应的数组z[11][21],得到二元函数z=(,)i i f x y 。 (3)曲面拟合。利用x[i],y[j],z[11][21]建立二维函数表,再根据精度的要求选择适当k 值,并得到曲面拟合的系数矩阵C[r][s]。 (4)观察和(,)i i p x y 的逼近效果。观察逼近效果只需要重复上面(1)和(2)的过程,得到与新的插值节点(,)i i x y 对应的(,)i i f x y ,再与对应的(,)i i p x y 比较即可,这里求解 (,)i i p x y 可以直接使用(3)中的C[r][s]和k 。 (二)具体算法设计: (1)解非线性方程组 牛顿法解方程组()0F x =的解* x ,可采用如下算法: 1)在* x 附近选取(0) x D ∈,给定精度水平0ε>和最大迭代次数M 。 2)对于0,1, k M =执行 ① 计算() ()k F x 和()()k F x '。 ② 求解关于() k x ?的线性方程组 () ()()()()k k k F x x F x '?=- ③ 若() () k k x x ε∞∞ ?≤,则取*()k x x ≈,并停止计算;否则转④。 ④ 计算(1) ()()k k k x x x +=+?。 ⑤ 若k M <,则继续,否则,输出M 次迭代不成功的信息,并停止计算。 (2)分片双二次插值 给定已知数表以及需要插值的节点,进行分片二次插值的算法: 设已知数表中的点为: 00(0,1,,) (0,1,,)i j x x ih i n y y j j m τ=+=???=+=?? ,需要插值的节点为(,)x y 。 1) 根据(,)x y 选择插值节点(,)i j x y : 若12h x x ≤+ 或12 n h x x ->-,插值节点对应取1i =或1i n =-,

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航数值分析大作业第二题精解

目标:使用带双步位移的QR 分解法求矩阵10*10[]ij A a =的全部特征值,并对其中的每一个实特征值求相应的特征向量。已知:sin(0.50.2)() 1.5cos( 1.2)(){i j i j ij i j i j a +≠+== (i,j=1,2, (10) 算法: 以上是程序运作的逻辑,其中具体的函数的算法,大部分都是数值分析课本上的逻辑,在这里特别写出矩阵A 的实特征值对应的一个特征向量的求法: ()[]()() []()[]()111111I 00000 i n n n B A I gause i n Q A I u Bu u λλ-?-?-=-?-?? ?-=????→=??????→= ?? ? 选主元的消元 检查知无重特征值 由于=0i A I λ- ,因此在经过选主元的高斯消元以后,i A I λ- 即B 的最后一行必然为零,左上方变 为n-1阶单位矩阵[]()()11I n n -?-,右上方变为n-1阶向量[]()11n Q ?-,然后令n u 1=-,则 ()1,2,,1j j u Q j n ==???-。

这样即求出所有A所有实特征值对应的一个特征向量。 #include #include #include #define N 10 #define E 1.0e-12 #define MAX 10000 //以下是符号函数 double sgn(double a) { double z; if(a>E) z=1; else z=-1; return z; } //以下是矩阵的拟三角分解 void nishangsanjiaodiv(double A[N][N]) { int i,j,k; int m=0; double d,c,h,t; double u[N],p[N],q[N],w[N]; for(i=0;i

北航数值分析大作业第二题

数值分析第二次大作业 史立峰 SY1505327

一、 方案 (1)利用循环结构将sin(0.50.2)() 1.5cos( 1.2)() {i j i j ij i j i j a +≠+==(i,j=1,2,……,10)进行赋值,得到需要变换的 矩阵A ; (2)然后,对矩阵A 利用Householder 矩阵进行相似变换,把A 化为上三角矩阵A (n-1)。 对A 拟上三角化,得到拟上三角矩阵A (n-1),具体算法如下: 记A(1)=A ,并记A(r)的第r 列至第n 列的元素为()n r r j n i a r ij ,,1,;,,2,1) ( +==。 对于2,,2,1-=n r 执行 1. 若 ()n r r i a r ir ,,3,2) ( ++=全为零,则令A(r+1) =A(r),转5;否则转2。 2. 计算 () ∑+== n r i r ir r a d 1 2 )( ()( )r r r r r r r r r r d c a d a c ==-=++则取,0sgn ) (,1)(,1若 )(,12r r r r r r a c c h +-= 3. 令 () n T r nr r r r r r r r r R a a c a u ∈-=++) ()(,2)(,1,,,,0,,0 。 4. 计算 r r T r r h u A p /)(= r r r r h u A q /)(= r r T r r h u p t /= r r r r u t q -=ω T r r T r r r r p u u A A --=+ω)()1( 5. 继续。 (3)使用带双步位移的QR 方法计算矩阵A (n-1)的全部特征值,也是A 的全部特征值,具体算法如下: 1. 给定精度水平0>ε和迭代最大次数L 。 2. 记n n ij n a A A ?-==][) 1()1()1(,令n m k ==,1。

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1) 其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

北航2014级硕士研究生应用数理统计答案(B卷)

2014-2015 学年 第一学期期末试卷答案 学号 姓名 成绩 考试日期: 2015年1月13日 考试科目:《应用数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设122,,n x x x ,是来自正态总体2(,)N μσ的简单样本,则c = n m m - 时,统计量2 22112 2211 ()()m k k k n k k k m x x c x x η-=-=+-=-∑∑服从F -分布。 2. 设12,,n x x x ,是来自正态总体2 (0,)N σ的简单样本,用2 2 21 1?()n i i nx x n σ ===∑估计2σ,则均方误差2222?()E σσ σ- 42σ 。 3.设总体X 的密度函数为22 ,[0,] (;)0, [0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则2()q θθ=的矩估计?q = 2 94 x 或2 1 2n i i x n =∑ 。 4.在双因素方差分析中,总离差平方和T S 的分解式为 T A B A B e S S S S S ?=+++ 其中2 111 ()p q r e ijk ij i j k S x x ?====-∑∑∑,11r ij ijk k x x r ?==∑, 则e S 的自由度是 (1)p q r - 或n pq -,其中n pqr = 。

二、(本题12分)设总体X 的密度函数为111,(0,1) (;)0,(0,1)x x f x x θ θθ-?∈?=???? ,其中0θ>, 12,,,n x x x 是来自总体X 的简单样本。 (1)求θ的极大似然估计?θ;(2)求θ的一致最小方差无偏估计;(3)问θ的一致最小方差无偏估计是否为有效估计?证 明你的结论。 解(1)似然函数为 (1)()1 1 {01}121 1 ()() (,,,)n n i x x n n i L x I x x x θ θθ-<≤<== ∏ 对数似然函数为 (1)(){01}121 1 ln ()ln (1)ln ln (,,,)n n i x x n i L n x I x x x θθθ <≤<==-+-+∑ 求导,有 2 1 ln ()1 ln n i i L n x θθθθ =?=--?∑ 令ln ()0L θθ?=?,可得θ的极大似然估计为1 1?ln n i i x n θ==-∑。 (2)因为 (1)()1 1 12{01}121 1 (,,,;)() (,,,)n n n i x x n n i f x x x x I x x x θ θθ-<≤<== ∏ (1)(){01}121 1 1 (,,,)exp{(1)ln }n n x x n i n i I x x x x θθ <≤<==-∑ 令1 ()n c θθ = ,(1)(){01}12()(,,,)n x x n h x I x x x <≤<= ,1 ()1w θθ = -,1 ln n i i T x ==∑,由于() w θ的值域(0,)+∞有内点,由定理2.2.4知1 ln n i i T x ==∑是完全充分统计量。而 1 1 1 1 (ln )(ln )i E x x x dx θθθ -= =-? 所以 1 1 (ln )(ln )n n i i i i E x E x n θ====-∑∑

北航数值分析第二次大作业--QR分解

《数值分析A》

一、算法设计方案 整个程序主要分为四个函数,主函数,拟上三角化函数,QR分解函数以及使用双步位移求解矩阵特征值、特征向量的函数。因为在最后一个函数中也存在QR分解,所以我没有采用参考书上把矩阵M进行的QR分解与矩阵Ak的迭代合并的方法,而是在该函数中调用了QR分解函数,这样增强了代码的复用性,减少了程序长度;但由于时间关系,对阵中方法的运算速度没有进行深入研究。 1.为了减少QR分解法应用时的迭代次数,首先对给定矩阵进行拟上三角化处理。 2.对经过拟上三角化处理的矩阵进行QR分解。 3.注意到计算特征值与特征向量的过程首先要应用前面两个函数,于是在拟上三角化矩阵的基础上对QR分解函数进行了调用。计算过程中,没有采用goto语句,而是根据流程图采用其他循环方式完成了设计,通过对迭代过程的合并,简化了程序的循环次数,最后在计算特征向量的时候采用了列主元高斯消去法。

二、源程序代码 #include #include #include int i,j,k,l,m; //定义外部变量double d,h,b,c,t,s; double A[10][10],AA[10][10],R[10][10],Q[10][10],RQ[10][10]; double X[10][10],Y[10][10],Qt[10][10],M[10][10]; double U[10],P[10],T[10],W[10],Re[10]={0},Im[10]={0}; double epsilon=1e-12; void main() { void Quasiuppertriangular(double A[][10]); void QRdecomposition(double A[][10]); void DoublestepsQR(double A[][10]); int i,j; for(i=0;i<10;i++) { for(j=0;j<10;j++) { A[i][j]=sin(0.5*(i+1)+0.2*(j+1)); Q[i][j]=0; AA[i][j]=A[i][j]; } A[i][i]=1.5*cos(2.2*(i+1)); AA[i][i]=A[i][i];

北航数值分析报告大作业第八题

北京航空航天大学 数值分析大作业八 学院名称自动化 专业方向控制工程 学号 学生姓名许阳 教师孙玉泉 日期2014 年11月26 日

一.题目 关于x , y , t , u , v , w 的方程组(A.3) ???? ?? ?=-+++=-+++=-+++=-+++79 .0sin 5.074.3cos 5.007.1cos sin 5.067.2cos 5.0y w v u t x w v u t y w v u t x w v u t (A.3) 以及关于z , t , u 的二维数表(见表A-1)确定了一个二元函数z =f (x , y )。 表A-1 二维数表 t z u 0 0.4 0.8 1.2 1.6 2 0 -0.5 -0.34 0.14 0.94 2.06 3.5 0.2 -0.42 -0.5 -0.26 0.3 1.18 2.38 0.4 -0.18 -0.5 -0.5 -0.18 0.46 1.42 0.6 0.22 -0.34 -0.58 -0.5 -0.1 0.62 0.8 0.78 -0.02 -0.5 -0.66 -0.5 -0.02 1.0 1.5 0.46 -0.26 -0.66 -0.74 -0.5 1. 试用数值方法求出f (x , y ) 在区域}5.15.0,8.00|), {≤≤≤≤=y x y x D (上的近似表达式 ∑∑===k i k j s r rs y x c y x p 00 ),( 要求p (x , y )以最小的k 值达到以下的精度 ∑∑==-≤-=10020 7210)],(),([i j i i i i y x p y x f σ 其中j y i x i i 05.05.0,08.0+==。 2. 计算),(),,(* ***j i j i y x p y x f (i =1,2,…,8 ; j =1,2,…,5) 的值,以观察p (x , y ) 逼 近f (x , y )的效果,其中j y i x j i 2.05.0,1.0**+==。

北航数值分析课程第一次大作业讲解

《数值分析A》计算实习题目第一题 一.算法设计方案: 1.矩阵A的存储与检索 将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的,所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是: A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1,λ501,λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs; 如果λmax>0,则λ501=λmax;如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法(mifa()函数),令平移量p=λmax,求出对应的按摸最大的特征值λ,max, 如果λmax>0,则λ1=λ,max+p;如果λmax<0,则λ501=λ,max+p。 3.求解A的与数μk=λ1+k(λ501-λ1)/40的最接近的特征值λik (k=1,2,…,39)。 使用带原点平移的反幂法,令平移量p=μk,即可求出与μk最接近的特征值λik。 4.求解A的(谱范数)条件数cond(A)2和行列式d etA。 ①cond(A)2=|λ1/λn|,其中λ1和λn分别是矩阵A的模最大和最小特征值。 ②矩阵A的行列式可先对矩阵A进行LU分解后,detA等于U所有

对角线上元素的乘积。 二.源程序(VS2010环境下,C++语言) #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

北航数值分析大作业3

一、算法设计方案 1.使用牛顿迭代法,对原题中给出的i x i 08.0=,j y j 05.05.0+=, (010 ,020i j ≤≤≤≤)的11*21组j i y x ,分别求出原题中方程组的一组解,于是得到一组和i i y x ,对应的j i t u ,。 2.对于已求出的j i t u ,,使用分片二次代数插值法对原题中关于u t z ,,的数表进行插值得到 ij z 。于是产生了z=f(x,y)的11*21个数值解。 3.从k=1开始逐渐增大k 的值,并使用最小二乘法曲面拟合法对z=f(x,y)进行拟合,得到每次的σ,k 。当7 10-<σ时结束计算,输出拟合结果。 4.计算)5,,2,1,8,,2,1)(,(),,(* ***???=???=j i y x p y x f j i j i 的值并输出结果,以观察),(y x p 逼近),(y x f 的效果。其中j y i x j i 2.05.0,1.0* *+==。 二、算法实现方案 1、求(,)f x y : (1)Newton 法解非线性方程组 0.5cos 2.670.5sin 1.07(1)0.5cos 3.740.5sin 0.79 t u v w x t u v w y t u v w x t u v w y +++-=??+++-=? ? +++-=??+++-=?, 其中,t, u, v ,w 为待求的未知量,x, y 为代入的已知量。 设(,,,)T t u v w ξ=,给定精度水平12110ε-=和最大迭代次数M ,则解该线性方程组的迭代格式为: *(0)(0)(0)(0)(0)(k+1) ()()1()(,,,)()()0,1,T k k k t u v w F F k ξξξ ξξξ-?=?'=-??= ? 在附近选取初值, 迭代终止条件为()(1) () 1/k k k ξξ ξε-∞ ∞ -≤,若k M >时仍未达到迭代精度,则迭代计算失 败。 其中,雅可比矩阵 0.5*cos(t) + u + v + w - x - 2.67t + 0.5*sin(u) + v + w - y - 1.07()0.5*t + u + cos(v) + w - x - 3.74t + 0.5*u + v + sin(w) - y - 0.79F ξ???? ? ?=?????? ,

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判 别分析 应用数理统计第二次大作业 学院名称 学号 学生姓名 摘要 我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因

变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。 关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型 1、引言 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。 本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。 1.1 聚类分析 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就

相关文档
最新文档