重庆大学数理统计课程大作业上证指数与多因素的多元线性回归分析解析

合集下载

多元统计分析回归分析

多元统计分析回归分析

03
多元线性回归分析
多元线性回归模型的建立
确定自变量和因变量
01
在建立多元线性回归模型时,首先需要明确哪些变量是自变量
(解释变量),哪些是因变量(响应变量)。
确定模型形式
02
根据研究目的和数据特征,选择合适的多元线性回归模型形式,
如线性、多项式、逻辑回归等。
确定模型参数
03
根据选择的模型形式,确定模型中的参数,如回归系数、截距
04
多元非线性回归分析
多元非线性回归模型的建立
确定因变量和自变量
首先需要确定回归分析中的因变量和自变量, 并收集相关数据。
确定模型形式
根据理论或经验,选择合适的非线性函数形式 来表示自变量与因变量之间的关系。
确定模型参数
根据数据,使用适当的方法确定模型中的参数。
多元非线性回归模型的参数估计
01
详细描述
在社会调查中,回归分析可以帮助研究者了解不同因素对人类行为的影响,例如 教育程度、收入、性别等因素对个人幸福感的影响。通过回归分析,可以揭示变 量之间的关联和因果关系,为政策制定和社会干预提供科学依据。
生物医学数据的回归分析
总结词
生物医学数据的回归分析是多元统计分析在生命科学领域的应用,用于研究生物标志物和疾病之间的 关系。
详细描述
在经济领域,回归分析被广泛应用于股票价格、通货膨胀率 、GDP等经济指标的分析和预测。通过建立回归模型,可以 分析不同经济变量之间的因果关系,为政策制定者和投资者 提供决策依据。
社会调查数据的回归分析
总结词
社会调查数据的回归分析是多元统计分析在社会科学领域的应用,用于研究社会 现象和人类行为。
特点
多元统计分析具有多维性、复杂性和实用性。它可以处理多个变量之间的交互 作用和综合效应,广泛应用于各个领域,如经济学、社会学、生物学等。

多元线性回归模型的估计与解释

多元线性回归模型的估计与解释

多元线性回归模型的估计与解释多元线性回归是一种广泛应用于统计学和机器学习领域的预测模型。

与简单线性回归模型相比,多元线性回归模型允许我们将多个自变量引入到模型中,以更准确地解释因变量的变化。

一、多元线性回归模型的基本原理多元线性回归模型的基本原理是建立一个包含多个自变量的线性方程,通过对样本数据进行参数估计,求解出各个自变量的系数,从而得到一个可以预测因变量的模型。

其数学表达形式为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y为因变量,X1、X2、...、Xn为自变量,β0、β1、β2、...、βn为模型的系数,ε为误差项。

二、多元线性回归模型的估计方法1. 最小二乘法估计最小二乘法是最常用的多元线性回归模型估计方法。

它通过使残差平方和最小化来确定模型的系数。

残差即观测值与预测值之间的差异,最小二乘法通过找到使残差平方和最小的系数组合来拟合数据。

2. 矩阵求解方法多元线性回归模型也可以通过矩阵求解方法进行参数估计。

将自变量和因变量分别构成矩阵,利用矩阵运算,可以直接求解出模型的系数。

三、多元线性回归模型的解释多元线性回归模型可以通过系数估计来解释自变量与因变量之间的关系。

系数的符号表示了自变量对因变量的影响方向,而系数的大小则表示了自变量对因变量的影响程度。

此外,多元线性回归模型还可以通过假设检验来验证模型的显著性。

假设检验包括对模型整体的显著性检验和对各个自变量的显著性检验。

对于整体的显著性检验,一般采用F检验或R方检验。

F检验通过比较回归平方和和残差平方和的比值来判断模型是否显著。

对于各个自变量的显著性检验,一般采用t检验,通过检验系数的置信区间与预先设定的显著性水平进行比较,来判断自变量的系数是否显著不为零。

通过解释模型的系数和做假设检验,我们可以对多元线性回归模型进行全面的解释和评估。

四、多元线性回归模型的应用多元线性回归模型在实际应用中具有广泛的应用价值。

重庆大学研究生数理统计大作业

重庆大学研究生数理统计大作业

NBA球员科比单场总得分与上场时间的线性回归分析摘要篮球运动中,球员的上场时间与球员的场上得分的数学关系将影响到教练对每位球员上场时间的把握,若能得到某位球员的上场时间与场上得分的数据关系,将能更好的把握该名球员的场上时间分配。

本次作业将针对现役NBA球员中影响力最大的球员科比布莱恩特进行研究,对其2012-2013年赛季常规赛的每场得分与出场时间进行线性回归,得到得分与出场时间的一元线性回归直线,并对显著性进行评估和进行区间预测。

正文一、问题描述随着2002年姚明加入NBA,越来越多的中国人开始关注篮球这一项体育运动,并使得篮球运动大范围的普及开来,尤其是青年学生。

本着学以致用的原则,希望将所学理论知识与现实生活与个人兴趣相结合,若能通过建立相应的数理统计模型来做相应的分析,并且从另外一个角度解析篮球,并用以指导篮球这一项运动的更好发展,这也将是一项不同寻常的探索。

篮球运动中,得分是取胜的决定因素,若要赢得比赛,必须将得分超出对手,而影响一位球员的得分的因素是多样的,例如:情绪,状态,体力,伤病,上场时间,防守队员等诸多因素,而上场时间作为最直接最关键的因素,其对球员总得分的影响方式有着重要的研究意义。

倘若知道了其分布规律,则可从数量上掌握得分与上场时间复杂关系的大趋势,就可以利用这种趋势研究球员效率最优化与上场时间的控制问题。

因此,本文针对湖人当家球星科比布莱恩特在2012-2013年赛季常规赛的每场得分与上场时间进行线性回归分析,并对显著性进行评估,以巩固所学知识,并发现自己的不足。

二、数据描述抽出科比布莱恩特2012-2013年常规赛所有82场的数据记录(原始数据见附录),剔除掉其中没有上场的部分数据,得到有参考实用价值的数据如表2.1所示:以上数据由腾讯篮球中心提供,特此说明。

三、模型建立(1)假设条件假定球员每场的发挥均为独立同分布事件, (2)模型构建以上场时间为自变量Xi ,单场得分为应变量Yi ,建立正态线性模型式:()012,1,2,,;0,,,,,i i i ii i i Y x i n N ββεεσεεε=++=⎧⎪⎨⎪⎩且相互独立 其中β0、β1为模型参数。

多元线性回归实例分析报告

多元线性回归实例分析报告

SP SS--回归-多元线性回归模型案例解析!( 一)多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为:Y = 00 十 十 E毫无疑问,多元线性回归方程应该为:上图中的x1, x2, xp 分别代表“自变量” Xp 截止,代表有P 个自变量,如果有“ N 组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示:记n 俎样本分别是(兀那么,多元线性回归方程矩阵形式为:'"" + £1的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样)2:无偏性假设,即指:期望值为 3:同共方差性假设,即指,所有的4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。

今天跟大家一起讨论一下, SPSS---多元线性回归的具体操作过程, 下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。

通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。

数据如下图所示:V = B Q +02] +角工2 + -…+y =>'2*a A1X"1儿丿,0 二卩\■■■ ■丿 /鞋丿其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释1服成正太分布,即指:随机误差必须是服成正太分别的随机变量。

随机误差变量方差都相等“分析”一一回归一一线性一一进入如下图所示的界面:1 salesnesaletyp&priceengiriE 」horse pow , wheelbaswidth ] length1S.919' 16 360 0 21.500!1.8140 101.2 67.3 172.4 39 364 19S75 0 2B4003 2225 108 1 70 3 192 3 14.114 18225 0 - 3.2 225 106.9 70.5 192.0 8 588 29 725 0 42 000 3-S' 210 114 6 71 4 1966 20 397 2225S 0 33.990 1.8 150 1O2?6 63 2 178.0 1378023i'S5'5 033 9&0 28 200 108 7 76 1 192 O' 138039 00062 000 第 310 113 0 74 Q 1982 19 747 -0 26.9902.5 170 107.3 63.4 1176.01 9_231 2Se75 0 33 400 I2.8133 107 3 63 5 17'6 O' 17.537 3& 13S 0| 3S.900 ; 2-8 1931114 70.9 188.0 91 561 12-475 0 21 9751 ! 31 175 1i0'9 0 72 7194.6 39.3£0 13.740 0 25.300 , 3.3 240 109 0 72 7 196^2 27 861 20 190' 0 31.965j : 3.3 205 1138 747 206.8 S326Z 13 360'0 27 635 1 30 205 1122 73 5 200 0 63.72&22525 0 39.E95 ; 壮 275 115.3 74.5 2072 15 94327 100' O '44-475 1 46 275 112 2 75 0 201 0 e.53G 25725 0 39.G&5 , 4.6 275 108.0 75 S 200.G 11 IBS IS 2250 31 CIO i30 2C0 107 4 70 3 194呂 14.785 - 1 46.225;! 5 7 355 117.5 77.0 201.2 US. 519' 9.250' 0 13 2S0 2.2, 115 104.1 67 9 ieo'9 135 12611 22516 6351 ; 3 1 170 107 0 69 4 1904 24.62& 10.3110'0| 1S.S90 1 3.1 175 110I7.& 72 S200.9 42 593 11 525O '19 390134180110 572 7197 9curt点击蛆厂逛[manuracl]Mod si [mo'del I 炉新车售价(单位=... 茨拜肯二手车售价… £| Vehicle 射pg [typ 鬪 捞'Price in thousand... 炉 Engine size [engi... 袴 Horsep'OW'erlhor... 夕'jVlieelba3€ |whe…, 拧车宽[WFdlhl 務军衽[lergtA] 少车净垂[curb.wgt] 少 Fuel capacity 拐耗油量辺硏Inpgj @ Cooks Dfstance [... 少 95铀 LCI forinsa... 撐95«i4UCliforInsa...LCI kr Insa...将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等个自变量 拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可 以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示 的结果:(所有的自变量,都会强行进入)輸入/窿去的吏量h移去的娈量左法 1油量迎册, 车稳 Price in tnoLJsands,Vehicle type, 车毘Engine size, Fuel capacity, Wheelbase, 军淨重, Horsepower输入a. 已输入斯肓诸號的吏量•b. 因变呈:Log-transformecJ sales如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“ 计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,J [,牯贴£川重置迟)]〔取消j [ M Ja 篷择变>(E >:! J一个对签Q* I 护 Pneo 需thousands [price]VVLS 权重®:10块1的1 ijj Veliicleb'peltyipeJPrice inthodsandslprice] $ Engine siz&Iergine^s]贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于,当概率值大于等于时将会被剔除)“选择变量(E)"框内,我并没有输入数据,如果你需要对某个“自变量”进行条件筛选, 可以将那个自变量,移入“选择变量框”内,有一个前提就是:该变量从未在另一个目标列表中出现!,再点击“规则”设定相应的“筛选条件”即可,如下图所示:定义琏弃规则sales 値W:....... k.i. J .產壬一二不等于小于小于等于丸于大于等于thousands h点击“统计量”弹出如下所示的框,如下所示:□ Ddrbin*Watson(U) n 个就诊断©在“回归系数”下面勾选“估计,在右侧勾选” 模型拟合度“和”共线性诊断“两个选项, 再勾选“个案诊断”再点击“离群值”一般默认值为“3”,(设定异常值的依据,只有当残差超过3倍标准差的观测才会被当做异常值) 点击继续。

最新文档-第6讲 多元线性回归分析-PPT精品文档

最新文档-第6讲 多元线性回归分析-PPT精品文档
1. 线性关系检验通过后,对各个回归系数有选择地 进行一次或多次检验
2. 究竟要对哪几个回归系数进行检验,通常需要在 建立模型之前作出决定
3. 对回归系数检验的个数进行限制,以避免犯过多 的第一类错误(弃真错误)
4. 对每一个自变量都要单独进行检验
5. 应用 t 检验统计量
模型的统计检验
我们研究的模型是:Y= 0+ 1X1+ 2X2+u 1.参数估计值的分布
(ii)计算 t 统计量
j=0
j=0,1,2
(iii)给定显著性水平 ,查自由度为n-3的t分布表, 得到临界值
t (n3) 2
(iv)判断:
t (a)若 | t | >
(n3)
2
则在1- 水平下拒绝原假设H0 ,即 j对应的变量xj是
显著的;
t (b)若 | t | <
(n3)
系数 。

(3)校正的判定系数即用自由度进行平均,用 “单位”拟合误差进行比较,从而提高了可比性。
(4)虽然非校正的判定系数总为正数,但校正 的判定系数可能为负数。
• 我们很容易可以得到 调整的R2 ,
• (1 – R2)(n – 1) / (n – k – 1), • 大部分的软件会同时给出 R2 和 调整的R2。 • 可以通过比较调整的R2 来比较两个模型(同一个
2 1 i
2 2 i 1 i 2 i2
1
2 ]
V( aˆr ) 1
x 2[
u
2
x x ( xx) 1 i
2
2 i
2 2 i1 i
2] 2 i
V( aˆr ) 2
x 2[

如何理解和使用多元线性回归分析

如何理解和使用多元线性回归分析

如何理解和使用多元线性回归分析多元线性回归分析是一种统计分析方法,用于探索自变量与因变量之间的关系。

它基于线性假设,假设自变量和因变量之间存在线性关系,并通过最小二乘法估计未知参数。

多元线性回归可以同时考虑多个自变量对因变量的影响,相比于一元线性回归,具有更多的灵活性和应用场景。

以下是关于多元线性回归分析的理解和使用。

一、理解多元线性回归分析:1.模型表达:多元线性回归模型可以表示为:Y=β0+β1X1+β2X2+...+βnXn+ε,其中Y是因变量,X1~Xn是自变量,β0~βn是回归系数,ε是误差项。

2.线性假设:多元线性回归假设自变量和因变量之间的关系是线性的,即因变量的期望值在给定自变量的条件下是一个线性函数。

3.参数估计:根据最小二乘法原理,通过使残差平方和最小化来估计回归系数。

最小二乘估计量是使得残差平方和最小的回归系数。

4.假设检验:在多元线性回归中,常用的假设检验包括回归系数的显著性检验、模型整体的显著性检验和多重共线性检验等。

二、使用多元线性回归分析:1.确定研究目标:明确研究目标,确定自变量和因变量。

了解问题背景、变量间关系,并结合实际情况选择合适的方法进行分析。

2.数据收集与整理:收集需要的数据,包括自变量和因变量的观测值。

对数据进行验证和清洗,排除缺失值、异常值等。

3.变量选择:根据研究目标和变量间的相关性,进行自变量的筛选。

可以通过相关分析、方差膨胀因子(VIF)等指标来评估自变量间的共线性。

4.模型建立与估计:根据选定的自变量和因变量,使用统计软件进行模型建立和回归系数的估计。

多元线性回归可以通过扩展一元线性回归的方法来计算。

5.模型诊断与改善:对建立的模型进行诊断,检验残差的正态性、独立性、同方差性等假设。

若存在违反假设的情况,则需要考虑进一步改善模型。

6.模型解释与预测:解释回归系数的含义,明确变量间的关系。

利用模型进行预测和决策,对未知因变量进行估计和预测。

7.模型评价与报告:评估模型的拟合程度,包括R方、调整R方、残差分析等指标。

多元线性回归的名词解释

多元线性回归的名词解释多元线性回归是一种经济学和统计学中常用的方法,用于分析多个自变量与一个连续因变量之间的关系。

在这种回归分析中,解释变量(自变量)可以是连续或分类变量,而被解释变量(因变量)通常是连续变量。

本文将对多元线性回归的关键名词进行解释,以帮助读者更好地理解和应用该方法。

一、回归分析回归分析是研究两个或多个变量之间关系的统计方法。

在多元线性回归中,我们可以使用多个自变量来预测一个连续的因变量。

回归分析可以帮助我们了解各个自变量对因变量的贡献程度,以及它们之间的相互作用。

二、线性回归线性回归是一种回归分析的方法,假设自变量和因变量之间存在线性关系。

这意味着在多元线性回归中,我们假设因变量是自变量的线性组合,具体表现为一个多元线性方程。

通过最小化预测值和实际观测值之间的误差平方和,我们可以估计出各个自变量的系数,并对因变量进行预测。

三、自变量和因变量在多元线性回归中,自变量是我们用来解释或预测因变量的变量。

自变量可以是连续变量,如年龄、收入等,也可以是分类变量,如性别、教育程度等。

因变量是我们希望预测或解释的变量,通常是一个连续变量,如房屋价格、销售额等。

四、最小二乘法最小二乘法是多元线性回归中参数估计的常用方法。

该方法通过最小化预测值与实际观测值之间的误差平方和来确定各个自变量的系数。

通过求解估计方程,我们可以得到最佳的系数估计,从而建立起自变量与因变量之间的线性关系。

五、多重共线性多重共线性是多元线性回归中一个重要的问题。

当自变量之间存在高度相关性时,可能会导致估计的系数不稳定或不精确。

为了检测和解决多重共线性问题,我们可以计算自变量之间的相关系数矩阵,并使用方差膨胀因子(VIF)来评估自变量之间的共线性程度。

六、拟合优度拟合优度是衡量多元线性回归模型拟合优良程度的指标。

拟合优度可以用于评估模型对观测值的解释能力。

常见的拟合优度指标包括决定系数(R²),它可以解释因变量的变异程度中可归因于自变量的比例。

多元线性回归分析

多元线性回归分析多元线性回归分析是一种使用多个自变量来预测因变量的统计方法。

它可以帮助我们理解自变量对因变量的影响,并预测因变量的值。

在这篇文章中,我们将讨论多元线性回归的基本概念、假设和模型,以及如何进行参数估计、模型拟合和预测。

Y=β0+β1X1+β2X2+...+βnXn+ε在这个方程中,Y是因变量,X1、X2、..、Xn是自变量,β0、β1、β2、..、βn是回归系数,ε是误差项。

假设1.线性关系:自变量和因变量之间存在线性关系。

2.独立性:样本数据是独立采样的。

3.多重共线性:自变量之间不存在高度相关性。

4.正态分布:误差项服从正态分布。

5.同方差性:误差项的方差是常数。

参数估计为了估计回归系数,我们使用最小二乘法来最小化残差平方和。

残差是观测值与模型估计值之间的差异。

最小二乘法的目标是找到最佳的回归系数,使得观测值的残差平方和最小化。

模型拟合一旦估计出回归系数,我们可以使用它们来拟合多元线性回归模型。

拟合模型的目标是找到自变量的最佳线性组合,以预测因变量的值。

我们可以使用拟合后的模型来预测新的观测值,并评估模型的拟合程度。

预测在实际应用中,多元线性回归模型可以用于预测因变量的值。

通过给定自变量的值,我们可以使用估计的回归系数来计算因变量的预测值。

预测值可以帮助我们了解自变量对因变量的影响,并作出决策。

总结多元线性回归分析是一种重要的统计方法,它可以帮助我们理解自变量对因变量的影响,并预测因变量的值。

在进行多元线性回归分析时,我们需要考虑模型的假设,进行参数估计和模型拟合,并使用拟合后的模型进行预测。

通过多元线性回归分析,我们可以获得有关变量之间关系的重要见解,并为决策提供支持。

如何理解和使用多元线性回归分析

如何理解和使用多元线性回归分析在实际中,对因变量的影响往往有两个或两个以上的自变量。

例如:影响产品单位成本的变量不仅有产量,还包括原材料价格、劳动力价格,劳动效率及废品率等因素。

对建立这种具有多变量模型的分析,就是多元回归分析。

在多元回归分析中,如果因变量和多个自变量的关系为线性时,就属于多元线性回归。

多元线性回归是一元线性回归的扩展,其基本原理及方法与一元线性回归分析类似。

变量越多,计算过程越是复杂,此篇着重原理介绍,计算可由统计软件代为完成。

多元线性回归回归模型多元线性回归模型与一元线性回归模型类似,由几部分组成:回归方程回归系数代入样本值,可以求得回归系数a,b,…,g的点估计值(不同样本求得的值不同),从而得到样本多元线性回归方程:回归模型方差随机变量的方差,也就是回归模型的方差,由下图的剩余变差引起。

该值可以通过样本数据的离散程度来估计,回顾一元线性回归分析,如下图:计算式如下:回归系数求取与一元回归系数的求取一样,多元线性回归系数的估计值仍然采用最小二乘法原理求得,即将观察得到的样本数据作为已知,带入样本回归方程中,然后分别对a,b,…,g求偏导数(回顾:),从而得到它们的点估计值。

其数值可以使用Excel、SPSS的统计软件计算得到。

相关性检验在中介绍了,回归方程的相关性检验有三种方式,它们的作用相同,只需选取其中一种检验即可(相关系数的检验、回归方程的检验、回归系数的检验)。

三种检验使用的统计量与检验原则与一元线性回归的相关性检验相同,这里不在赘述。

需要着重介绍多元的相关系数的检验在多元回归中,决定系数(R平方)又称为拟合优度或者多元决定系数(Multiple coefficient of determination),其计算公式与一元回归相同,即可参考上文变差图。

R平方的数值大小可以说明所建立模型与实际数据的拟合程度好坏,其值越接近1,拟合程度越高。

一元回归中,决定系数的平方根即为相关系数,表示两个变量的相关程度,可正可负(正相关或负相关);多元回归中,关注正平方根,称为复相关系数,表示因变量与作为一个整体的所有自变量的相关程度。

多元线性回归分析课件

注意:似然函数取对数是一个单调变换,不会影响参 数估计值的最优解。
42
极大似然估计的优化一阶条件:
结论: 回归系数的ML估计量与OLS估计量完全等价。 在有限样本下是有偏的,大样本下具有一致性。
43
二、参数约束的似然比检验
例子:柯布-道格拉斯生产函数
无约束方程: 受约束方程:
待检验假设:
无约束方程进行 ML估计,得到极大对数似然函数值:
回忆:P值是检验结论犯第一类“弃真”错误的概率。 P值非常小的含义是什么呢?
17
二、随机误差项方差的估计
的无偏估计量可以表述为:
自由度为什么是N-(K+1)? 多元回归模型的OLS估计中,我们基于正规方程 组中的K+1个约束估计了K+1个回归系数,所以损失 了K+1个自由度,独立的观测信息只剩下N-(K+1)个。
34
3 :参数的线性约束检验: F检验一般形式
对于多元线性回归模型:
参数的多个约束:
待检验假设:
原假设中至少有一个约束条件不成立。
35
检验统计量
基于 和 有
,在原假设成立的情况下,
如果原假设为真,我们会倾向于得到较小的F值。
反之,我们会倾向于得到较大的F值。
判定:若F值大于临界值,或p值小于显著性水平, 则拒绝原假设。
36
4 :经济关系的结构稳定性检验: F检验的一 个例子——邹检验
n 例:中国宏观生产函数在1992年前后是否不同? 无约束回归:参数可以不同
1978~1992年: 1993~2006年:
受约束回归:参数不变 1978~2006年:
37
待检验假设:
: 原假设中约束条件至少有一个不成立。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

上证指数与多因素的多元线性回归分析摘要中国的股票市场自1990年成立以来发展迅速,对我国经济的各个方面都产生了深远的影响,从1990年的100点到2007年的6124.17点,增长了60倍,平均年增长3.5倍,以及从2008年到2014年的3234.7点降低了1倍,可见虚拟经济增长和降低速度之快已经超出了人们的想象,为了研究指数增长与股票的一些基本因素的关系,建立了多元线性回归模型,来分析影响上证指数的因素的影响程度大小。

一、问题描述为探究影响上证指数的主要因素,文章选取十一个最具代表性经济指标。

股票市场作为金融市场的重要组成部分,不仅承担着融资和资源配置的资本媒介职能,同时作为经济发展的“晴雨表”也发挥着经济预测等功能。

金融危机过后,我国资本市场正处在关键的转型阶段,我国股票市场的走向都吸引了无数注视目光,甚至在世界范围内目光。

在实际经济运行中,影响股票指数的因素非常复杂。

宏观经济因素是股价波动的大环境,只有从分析宏观经济发展的大方向着手,才能把握住股票市场的总体变动趋势。

虽然现实生活中存在许多不可预测或无法量化的因素,统计模型也不能百分之百地预测指标的下跌或上涨,但可以提供一个基本的预测趋势。

如果将模型的定量分析和市场的定性分析相结合,一定会帮助股民更好地分析股市做出相对明智的决定,还能帮助人们及时发现我国经济的发展中出现的问题解决问题从而实现我国经济又快又好发展。

自2014年底上证指数从2200点到2015年5月底的5000点,涨速可谓迅速,股民数量呈指数形式上涨,人们在大街小巷谈论股票,在这一时段里,中国股市最受世界关注,但是2015年5月底上证指数跌幅巨大,致使大部分股民亏损严重,与上一段时间形成鲜明的对比。

股民亏损的原因有很多方面,其中一个很重要的方面是对股票的基本情况不够了解,不能区分哪些因素是主要的,哪些因素是次要的,同时股票指数可以反映经济发展的状况。

本文选取的数据是1993年到2014年的数据,来进行多元线性回归分析,一方面分析上证指数与相关因素的相关关系,另一方面,巩固老师讲的基本知识。

二、数据描述从国家统计局官网上摘录下来的基本数据[2],见表1表1其中:y 代表的是上证指数,X1 、X2、 X3、 X4、X5、X6、X7、X8、X9、X10、分别代表股票市价总值(亿元)、境内上市公司数、股票总发行股本(亿股)、股票流通市值(亿元)、股票成交股(亿股)、股票成交金额(亿元)、国债发行额(亿元)、国债回购成交金额(亿元)、期货成交量(万手)、期货总成交额(亿元)。

三、模型建立1、多元线性回归模型[1]矩阵的表达式 最小二乘法2、模型检验 (1)线性回归模型的显著性检验 提出假设: 并且选用F 检验法检验:检验统计量:拒绝域: 用软件计算得到的表格,如下图011212,,...,~(0,)1,2,...,i i m im in y x x N i n βββεεεεσ=++++⎧⎪⎨⎪⎩=β=+YX ε11111122122211111,,,11m m n n nm n n x x x y x x x y x x x y εεε⎛⎫⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪==== ⎪ ⎪ ⎪ ⎪⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭X X Y ε1ˆ()T T β-=X X X Y 111112212211111,11m m n n nm n x x x y x x x y x x x y ⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪=== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭X X Y 或0121:,:,,m i j H H i jβββββ===≠存在某22222/~(,1)/(1)T E RR E S S S S mF F m n m S n m =+=----01{(,1)}K F F m n m α-=>--(2)回归系数的显著性检验,即对:假设:检验统计量:得到的拒绝域:3、点的预测 (1)点估计(2)区间估计四、计算机设计方法与实现回归方程求解。

用excel 表格求解得到表3、表4、表5表3 回归统计Multiple R 0.99395642 R Square 0.987949366 Adjusted R Square0.976994244 标准误差 165.4943542观测值22表4(方差分析)df SS MS F SignificanceF 回归分析 10 24699253.63 2469925.363 90.18150212 4.392E-09 残差11301272.1939 27388.3812700,1,2,...,:i i i mH β==221ˆ()~(1,1)ii ii En m F F n m c S β--=--ˆ~(1)i orT t n m =--0101/2{(1,1)}{||(1)}i i K F F n m K T tn m αα--=>--=>--或00Y X βε=+0000ˆˆ((),())Y X Y X δδ-+01/20ˆ()(1)()X t n m S X αδσ-=--其中,0()S X =总计 21 25000525.83表5Coefficients标准误差 t Stat P-value Lower 95% Upper 95% 下限 95.0%上限 95.0% Intercept 721.045 132.024 5.461 0.000 430.463 1011.627 430.463 1011.627 X Variable 1 0.024 0.003 8.243 0.000 0.017 0.030 0.017 0.030 X Variable 2 0.821 0.221 3.710 0.003 0.334 1.309 0.334 1.309 X Variable 3 -0.087 0.018 -4.862 0.001 -0.127 -0.048 -0.127 -0.048 X Variable 4 -0.012 0.003 -3.602 0.004 -0.019 -0.005 -0.019 -0.005 X Variable 5 0.091 0.020 4.594 0.001 0.047 0.134 0.047 0.134 X Variable 6 -0.006 0.002 -3.600 0.004 -0.010 -0.002 -0.010 -0.002 X Variable 7 -0.085 0.037 -2.328 0.040 -0.165 -0.005 -0.165 -0.005 X Variable 8 -0.003 0.001 -4.208 0.001 -0.004 -0.001 -0.004 -0.001 X Variable 9 -0.010 0.003 -3.621 0.004 -0.017 -0.004 -0.017 -0.004 X Variable 100.0010.0003.3540.0060.0000.0020.0000.002从表5中得到回归方程:12345678910721.0450.0240.8210.0870.0120.0910.0060.0850.0030.0100.001ˆx x x x x x x x x x y++--+---+=-五、模型的检验1、检验回归模型的显著性,即检验由表4知:224699254R S =,2301272.19E S = 22222469925481.98318301272.19/11/10R R E E S S f S S ==== 取显著性水平0.05α=,经查表得到:由于 79.023127 2.9430f >=,故而拒绝0H ,也即是说,上面的回归模型在0.05α=是显著的。

2、回归系数的显著性检验,即对进行检验。

因22ˆ/,1,2,...,11/(1)iii i i E c F T i S n m β===--由表5可以得到i T (1,2,...,11i =)的值为:10.95(,1)(10,11) 2.9430F F m n m F α->--==012111:,:,,i j H H i jβββββ===≠存在某0:0,1,2,...,10i i H i β==()1234567891011,,,,,,,,,,Tt t t t t t t t t t t()8.243,3.710, 4.862, 3.602,4.594, 3.600, 2.328, 4.208, 3.621,3.354T=------所以,1234567.953545,13.766677,23.636574,12.974767,21.104967f f f f f =====67891012.961554, 5.4194403,17.711382,13.109523,11.247115f f f f f =====取查表得到0.05α=,4.9646,1,2,...,10i i f >=所以,所有自变量对因变量y 影响显著,这时的最优回归方程为:12345678910721.0450.0240.8210.0870.0120.0910.0060.0850.0030.0100.001ˆx x x x x x x x x x y++--+---+=-3、点预测取:()0372557,2633,40795.1,325624.3,103383.1,762385.3,21520.6,937166.3,280585.6,3219882TT x =则05350.622912ˆ96545y= 可以看出,当股票市价总值(亿元)、境内上市公司数、股票总发行股本(亿股)、股票流通市值(亿元)、股票成交股(亿股)、股票成交金额(亿元)、国债发行额(亿元)、国债回购成交金额(亿元)、期货成交量(万手)、期货总成交额(亿元)分别为372557,2633,40795.1,325624.3,103383.1,762385.3,21520.6,937166.3,280585.6,3219882.26时,上证指数为5350.62点。

六、模型的结果分析基于上面的模型分析,可以得出,上证指数是和股票市价总值(亿元)、境内上市公司数、股票总发行股本(亿股)、股票流通市值(亿元)、股票成交股(亿股)、股票成交金额(亿元)、国债发行额(亿元)、国债回购成交金额(亿元)、期货成交量(万手)、期货总成交额(亿元)呈线性关系的,当他们都知道以后,我们是可以来比较准备的预测上证指数,从而来确定未来大盘是涨还是底,给广大股民提供一个可以参考的依据。

相关文档
最新文档