北航数理统计第一次大作业

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数理统计

第一次课程论文

广州恒大队在2015赛季亚冠的进球数的多

元线性回归模型

学号: SY*******

姓名:***

摘要

本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。最终确定了进球数与各因素之间关系的“最优”回归方程。

关键词:多元线性回归,逐步回归法,广州恒大,SPSS

目录

摘要 (1)

1.引言 (3)

2.符号说明 (3)

3.数据的采集和整理 (3)

3.1数据的采集 (3)

3.2建模 (4)

4.数据分析及计算 (4)

4.结论 (9)

参考文献 (10)

致谢 (10)

1.引言

一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。

而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。

2.符号说明

变量符号

进球数y

射门次数X1

射正次数X2

传球次数X3

传中次数X4

角球次数X5

抢断次数X6

3.数据的采集和整理

3.1数据的采集

本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。

表1.恒大进球数与影响因素数据表

比赛轮次射门/

射正

数/次

传球

数/次

传中

数/次

角球

数/次

抢断/

控球

率/%

进球

1 15 7 376 19 4 16 46 1

2 9 5 328 15 5 16 41 3

3 1

4 8 372 1

5 3 1

6 53 4

4 14 6 311 2

5 5 20 42 1

5 9 1 429 21 3 22 50 0

6 15 0 351 38 13 12 56 0

7 15 3 336 22 9 18 50 1

8 5 2 327 18 5 14 45 2

9 8 2 358 9 1 10 39 3

10 17 3 391 14 5 9 47 1

11 27 9 505 31 11 15 52 2

12 9 1 610 16 3 14 68 0

13 9 3 351 19 6 16 52 0

14 8 3 534 21 5 5 62 1 3.2建模

本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。这里构建模型如下:

y=β0+∑βi

7

i=1

⋅X i+ε

其中,其中ε为随机误差项,β0为常数项,βi为待估计的参数。

4.数据分析及计算

本文利用逐步回归法对该问题进行分析。该方法是从一个自变量开始,视自变量对y的显著程度,从大到小地依次逐个引入回归方程,但当引入的自变量由于后面的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步,对于每一步都要进行F值检验,以确保每次引入新的显著性自变量前回归方程中只包含对作用显著的变量。这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程

时为止。

本文运用统计软件SPSS的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量组建回归方程。为了从挑选因子中筛选出尽可能多的因子

建立模型,本系统可以自己给出F临界值,计算机默认的F

引=0.05,F

=0.1,

如果入选的自变量因子数目不多,可通过人为提高F临界值的水平而筛选出更多的因子。如此时入选的因子太多,可人为提高F临界值的水平而筛选出有代表性因子来组建模型。如最后建立的模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性模型。

该分析在默认的F

引=0.05,F

=0.1时入选的自变量只有两个,因此提高F

值,因此设定F

引=0.45,F

=0.55,进行多元线性回归分析,可得如下分析结果:

表2. 自变量引入和剔除表

上表2显示了自变量的引入和剔除,以及引入或剔除的方法与标准。系统

在进行逐步回归过程中产生了4个模型,模型1是按照F检验的标准概率值,先将与y最密切的射正数(X

2

)引入模型,建立y与X2之间的一元线性回归模

型,然后再将传中数(X

4

)引入模型,建立y与X2,X4之间的二元线性模型,之后分别依次把传球数(X3),抢断数(X6)引入模型,分别建立了他们与y之间的三元、四元线性模型,最后建立的是y与X2,X3,X4,X6之间的四元线性关系。

相关文档
最新文档