第62节多元线性回归分析
多元线性回归的统计检验

2
R
1
(1
R2 )
n 1
n k 1
2.方程总体线性的显著性检验(F检验)
方程显著性F检验的模型:
Yi 0 1X1i 2 X 2i ... k X ki ui
检验参数k是否显著为零。 按照假设检验的原理和程序,原假设与备择假
2是随机干扰项的方差,实际计算中用 代
替。
服从正态分布如下:
j
j N(j, 2cjj )
t j j
S
j
j j
c jj
ee n k 1
t(n k 1)
t 检验
在变量显著性检验中,针对 假设为:
设X j计的原假设和备择
H0 : j 0
给定一个显著H性1:水平j α,0得到临界值t 2
或者
2
R
F
k
2
(1 R )
(n k 1)
变量的显著性检验( t 检验)
多元线性回归模型,方程的总体线性关系式显 著的,并不能说明每个解释变量对被解释变量 的影响都是显著的。因此必须对每个解释变量 进行显著性检验,以决定是否作为解释变量被 保留在模型中。
t 统计量
参数估计量的方差:
cCoj表jv(示) 矩 2阵(X( XXX)1)主1 V对ar角(线j) 上 的2c jj第j个元素。 2
因此,在多元回归模型之家比较拟合优度,R2 不是一个合适的指标。
可调整的可决系数
思路:在样本容量一定的情况下,增加解释变 量必定使得自由度减少,所以要将残差平方和 与总离差平方和分别除以各自的自由度,剔除 变量个数对拟合优度的影响。公式如下:
RSS
2
数学实验_重庆大学中国大学mooc课后章节答案期末考试题库2023年

数学实验_重庆大学中国大学mooc课后章节答案期末考试题库2023年1.无向图中边的端点地位是平等的、边是无序点对。
而有向图中边的端点的地位不平等,边是有序点对,不可以交换。
参考答案:正确2.人口数量与下列因素都有关,人口基数、出生率、死亡率、年龄结构、性别比例、医疗水平、工农业生产水平、环境、生育政策等等。
参考答案:正确3.一元5次代数方程在复数范围内有多少个根?参考答案:54.任何贪心算法都能求出最优解。
参考答案:错误5.二维插值函数z=interp2(x0,y0,z0,x,y,’method’)中,method的缺省值是()参考答案:linear6.在当前文件夹和搜索路径中都有文件ex1.m,在命令行窗口输入ex1时,则执行的文件是当前文件夹中的ex1.m参考答案:正确7.下列关于Dijkstra算法的哪些说法正确参考答案:Dijkstra算法是求加权图G中从某固定起点到其余各点最短路径的有效算法;_Dijkstra算法的时间复杂度为O(n2),其中n为顶点数;_Dijkstra算法可用于求解无向图、有向图和混合图的最短路径问题;8.如果x=1: 2 : 10,则x(1)和x(5)分别是( )参考答案:1,99.人口是按指数规律无限增长的。
参考答案:错误10.在包汤圆问题的整个建模过程,包括了如下几个步骤(1)找出问题涉及的主要因素(变量),重新梳理问题使之更明确(2)作出简化、合理的假设(3)用数学的语言来描述问题(4)用几何的知识解决问题(5)模型应用参考答案:正确11.下面程序所解的微分方程组,对应的方程和初始条件为:(1)函数M文件weif.m:function xdot=weif(t, x)xdot=[3*x(1)+x(3);2*x(1)+6;-3*x(2)^2+2*x(3)];(2)脚本M文件main.m:x0=[1,2,3] ;[t,x]=ode23(‘weif’,[0,1],x0),plot(t,x’),figure(2),plot3(x( :,1),x( :,2),x( :,3)参考答案:___12.某公司投资2000万元建成一条生产线。
多元线性回归模型的估计与解释

多元线性回归模型的估计与解释多元线性回归是一种广泛应用于统计学和机器学习领域的预测模型。
与简单线性回归模型相比,多元线性回归模型允许我们将多个自变量引入到模型中,以更准确地解释因变量的变化。
一、多元线性回归模型的基本原理多元线性回归模型的基本原理是建立一个包含多个自变量的线性方程,通过对样本数据进行参数估计,求解出各个自变量的系数,从而得到一个可以预测因变量的模型。
其数学表达形式为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y为因变量,X1、X2、...、Xn为自变量,β0、β1、β2、...、βn为模型的系数,ε为误差项。
二、多元线性回归模型的估计方法1. 最小二乘法估计最小二乘法是最常用的多元线性回归模型估计方法。
它通过使残差平方和最小化来确定模型的系数。
残差即观测值与预测值之间的差异,最小二乘法通过找到使残差平方和最小的系数组合来拟合数据。
2. 矩阵求解方法多元线性回归模型也可以通过矩阵求解方法进行参数估计。
将自变量和因变量分别构成矩阵,利用矩阵运算,可以直接求解出模型的系数。
三、多元线性回归模型的解释多元线性回归模型可以通过系数估计来解释自变量与因变量之间的关系。
系数的符号表示了自变量对因变量的影响方向,而系数的大小则表示了自变量对因变量的影响程度。
此外,多元线性回归模型还可以通过假设检验来验证模型的显著性。
假设检验包括对模型整体的显著性检验和对各个自变量的显著性检验。
对于整体的显著性检验,一般采用F检验或R方检验。
F检验通过比较回归平方和和残差平方和的比值来判断模型是否显著。
对于各个自变量的显著性检验,一般采用t检验,通过检验系数的置信区间与预先设定的显著性水平进行比较,来判断自变量的系数是否显著不为零。
通过解释模型的系数和做假设检验,我们可以对多元线性回归模型进行全面的解释和评估。
四、多元线性回归模型的应用多元线性回归模型在实际应用中具有广泛的应用价值。
多元线性回归模型原理

多元线性回归模型原理Y=β0+β1*X1+β2*X2+...+βn*Xn+ε其中,Y表示因变量,X1、X2、..、Xn表示自变量,β0、β1、β2、..、βn表示模型的参数,ε表示误差项。
通过对数据进行拟合,即最小化误差平方和,可以估计出模型的参数。
多元线性回归模型的原理是基于最小二乘法,即通过最小化残差平方和来估计参数的值。
残差是指模型预测值与真实值之间的差异,最小二乘法的目标是找到一组参数,使得所有数据点的残差平方和最小。
通过求解最小二乘估计,可以得到模型的参数估计值。
为了评估模型的拟合程度,可以使用各种统计指标,例如R方值、调整R方值、标准误差等。
R方值表示模型解释因变量方差的比例,取值范围在0到1之间,值越接近1表示模型对数据的拟合程度越好。
调整R方值考虑了模型中自变量的个数和样本量之间的关系,可以更准确地评估模型的拟合程度。
标准误差表示模型预测值与真实值之间的标准差,可以用于评估模型的预测精度。
在建立多元线性回归模型之前,需要进行一些前提条件的检查,例如线性关系、多重共线性、异方差性和自变量的独立性。
线性关系假设要求自变量与因变量之间存在线性关系,可以通过散点图、相关系数等方法来检验。
多重共线性指的是自变量之间存在高度相关性,会导致参数估计的不稳定性,可以使用方差膨胀因子等指标来检测。
异方差性指的是残差的方差不恒定,可以通过残差图、方差齐性检验等方法来检验。
自变量的独立性要求自变量之间不存在严重的相关性,可以使用相关系数矩阵等方法来检验。
当满足前提条件之后,可以使用最小二乘法来估计模型的参数。
最小二乘法可以通过不同的方法来求解,例如解析解和数值优化方法。
解析解通过最小化误差平方和的一阶导数为零来求解参数的闭式解。
数值优化方法通过迭代来求解参数的数值估计。
除了最小二乘法,还有其他方法可以用于估计多元线性回归模型的参数,例如岭回归和lasso回归等。
岭回归和lasso回归是一种正则化方法,可以对模型进行约束,可以有效地避免过拟合问题。
医学统计学原理与实践智慧树知到答案章节测试2023年南方医科大学

第一章测试1.统计量是描述总体的指标。
A:错B:对答案:A2.总体是根据研究目的确定的同质观察单位的全体。
A:错B:对答案:B3.计数资料又称半定量半定性资料。
A:对B:错答案:B4.资料类型是固定不变的,不能互相转换A:对B:错答案:B5.概率和频率即相互联系又有差别。
A:错B:对答案:B6.抽样误差无倾向性,可以通过周密的试验设计避免。
A:错B:对答案:A7.概率值为1时为必然事件。
A:对B:错答案:A8.下列资料中,哪一个为计量资料()A:心电图结果B:治疗效果C:身高D:性别答案:C9.统计学中,一般将P≦0.05或P≦0.01的事件称为A:小概率事件B:必然事件C:不可能事件D:或许事件答案:A10.系统误差产生的原因有A:仪器未校正B:测试者主观误差C:标准试剂未校正D:测量者掌握尺度不同E:抽样误差答案:ABCD第二章测试1.下列属于正态分布的特征是()A:正态分布以均数为中心B:正态曲线在横轴上方均数处最高C:正态分布曲线下的面积分布有一定的规律D:正态分布是左右对称的分布E:正态分布有两个参数,即均数和标准差答案:ABCDE2.某人算得一个样本资料的标准差s=-3.4 可认为()A:从计算机结果分析开始B:变量值负的比正的多C:变量值都是负值D:计算有误答案:D3.关于中位数下列哪项不正确A:当N为偶数时,中位数是两个中间数值的平均数B:中位数是一组观察值从小到大排列后,位次居中的观察值C:中位数等于P50D:中位数是一组观察值中最大值与最小值之差答案:D4.算术均数是描述一组同质计量资料的()的统计指标A:变化范围B:平均水平C:离散趋势D:频数分布答案:B5.()分布的资料,均数等于中位数A:负偏态B:对数正态C:正偏态D:正态分布答案:D6.各观察值同乘以一个不为0的常数后,()不变A:标准差B:变异系数C:算术均数D:几何均数答案:B7.用频数表计算平均数时,各组的组中值应为()A:本组段的上限值B:本组段上限值和下限值的均数C:本组段变量值的中位数D:本组段变量值的平均值答案:B8.变异系数越大,说明()A:以均数为准变异程度大B:平均数小C:标准差越大D:标准差和均数都大答案:A9.已知某疾病患者10人的潜伏期(天)分别为6,13,5,9,12,10,8,11,8,>20,其潜伏期的平均水平为()A:10.2B:10C:9D:9.5答案:D10.反映一组偏态分布资料的平均水平,宜用()A:中位数B:众数C:均数D:极差答案:A第三章测试1.定基比与环比指标是()A:平均数B:构成比C:频率D:相对数答案:D2.要比较两厂某工种工人某种职业病患病率的高低,采取标准化法的原理是()A:假设两厂的工人工种分布相同B:假设两厂某职业病的患病率相同C:假设两厂患某种职业病的工人数相同D:假设两厂某工种工人的工龄分布相同答案:D3.某病患者120人,其中男性114人,女性6人,分别占95%和5%,则结论为()A:该病男性易得B:该病男性及女性易患病程度相等C:该病女性易得D:尚不能得出结论答案:D4.某医院某年住院病人中胃癌患者占5%,则A:5%是强度指标B:5%为构成比指标C:5%为相对比指标D:5%为绝对数答案:B5.某市有30万人口,2002年共发现2500名肺结核患者,全年总死亡人数为3000人,其中肺结核的死亡人数为98人,要说明肺结核死亡的严重程度,最好使用()A:肺结核死亡率B:肺结核病死率C:肺结核死亡人数D:肺结核死亡构成答案:B6.环比发展速度是()A:绝对数B:频率C:相对比指标D:强度型指标答案:C7.医院日门诊各科疾病分类资料,可作为计算A:发病率指标的基础B:患病率指标的基础C:死亡率指标的基础D:构成比指标的基础答案:D8.在使用相对数时,容易犯的错误是A:将标化率当作构成比看待B:将率当做构成比看待C:将构成比当作率看待D:将构成比当作相对比看待答案:C第四章测试1.假设检验是根据样本的信息检验关于总体的某个假设是否正确。
统计学(山西财经大学)知到章节答案智慧树2023年

统计学(山西财经大学)知到章节测试答案智慧树2023年最新第一章测试1.职工人数是连续型变量。
参考答案:错2.总体可分为有限总体和无限总体。
参考答案:对3.利润是离散型变量。
参考答案:错4.利用图表或其他数据汇总工具分析数据属于描述统计。
参考答案:对5.研究太原市老年人的生活习性,则个体是参考答案:太原市每一位老年人6.2018年各省城镇家庭的人均收入数据属于参考答案:截面数据7.研究者想要了解的总体的某种特征值称为参考答案:参数8.一份报告称,“由150部新车组成的一个样本表明,外国新车的价格明显高于本国生产的新车”,这一结论属于参考答案:对总体的推断9.为了顾及城市拥有汽车的家庭比例,抽取500个家庭,得到拥有汽车比例为35%,则35%是参考答案:统计量的值10.下列叙述采用推断统计方法的是参考答案:从果园中采摘50个桔子,利用其平均重量估计果园中桔子的平均重量第二章测试1.二手数据的采集成本低,但搜集比较困难参考答案:错2.研究人员根据对研究对象的了解,有目的选择一些单位作为样本的调查方式是判断抽样参考答案:对3.统计调查的资料按照来源不同,分为原始资料和二手资料参考答案:对4.方便抽样是一种典型的概率抽样。
参考答案:错5.为了调查某校学生的学习积极性,从男生中抽取30人,从女生中抽取50人进行调查,这种调查方法属于参考答案:分层抽样6.下面哪种抽样调查结果不能对总体参数进行估计参考答案:判断抽样7.为了解居民对小区物业服务的意见,调查人员随即抽取了50户居民,上门进行调查。
这种搜集数据的方法属于参考答案:面访式调查8.下列陈述哪一个是错误的参考答案:非抽样误差只存在于概率抽样中9.下面哪种抽样方式属于概率抽样参考答案:系统抽样;分层抽样;整群抽样10.与概率抽样相比,非概率抽样的优点是参考答案:操作简便;对统计专业技术要求不高;时效快;成本低第三章测试1.某连续变量数列,其末组组限为 500 以上,又知其邻组组中值为480 ,则末组的组中值为参考答案:5202.在对数据分组时,若某个数据的值正好等于相邻组的下限时,一般应将其归在参考答案:下限所在组3.用组中值作为各组变量值的代表值参考答案:当变量值在本组内呈均匀分布时代表性高4.下列哪个图形保留了原始数据的信息参考答案:茎叶图5.某单位 100 名职工按工资额分为 300 以下、 300-400 、 400-600 、 600-800 、 800 以上等五个组。
第八讲多元线性回归分析-精选文档

ˆ Y 5 . 9433 0 . 1424 X 0 . 3515 X 0 . 2706 X 0 . 63 X 1 2 3 4
三、假设检验及其评价
(一)对回归方程
1. 方差分析法: H 0, 0 : 1 2 m
H ( = 1 , 2 , , m ) 不 全 为 0 , 1:各 j j
总胆固醇 (mmol/L) X1
5.68 3.79 6.02 4.85 4.60 6.05 4.90 7.08 3.85 4.65 4.59 4.29 7.97 6.19 6.13 5.71 6.40 6.06 5.09 6.13 5.78 5.43 6.50 7.98 11.54 5.84 3.84
2 2 ˆ b X b X ) 01 1 2 2 m m
求偏导数
原
理
最小二乘法
l11b1 l12b2 l1mbm l1Y l b l b l b l 21 1 22 2 2m m 2Y lm1b1 lm2b2 lmmbm lmY
Y 0 1 X 1 2 X 2 m X m e
Éɱ í ÉÉÉÉɱ ÉÉ Y ÉÉÉ ü Éɱ í ÉÉ× É± ÉÉ
X1 , X 2 ,, X m ÉÉÉÉÉÉ
é ÉÉɱ í É É ÉÉ ü × É 0 ÉÉÉÉÉ 1 , 2 ,, m ÉÉÉÉ ± Éɱ ÉÉɱ ÉÉ ±É X j ÉÉÉ ò ÉÉÉÉÉÉÉ ± Y ÉÉÉ ù ± É ÉÉÉ e ÉÉÉ m É× É± ÉÉÉ Y É °É ì É ó ÉÉÉ ú É ó É É ¨ÉÉÉ É
甘油三脂 (mmol/L) X2
1.90 1.64 3.56 1.07 2.32 0.64 8.50 3.00 2.11 0.63 1.97 1.97 1.93 1.18 2.06 1.78 2.40 3.67 1.03 1.71 3.36 1.13 6.21 7.92 10.89 0.92 1.20
医学统计孙振球附录六答案

医学统计医学统计 孙振球孙振球 附录六答案附录六答案1.测量120名男性成人体重,该资料为名男性成人体重,该资料为 D 计量资料计量资料 2. 用某药治疗某病患者100例,治愈…例,治愈… C 等级资料等级资料 3.检测60名小学生粪便标本,发现蛔虫卵阳性者40例,阴性….. A 定性资料定性资料 4. 统计学中,一时性资料来源于统计学中,一时性资料来源于 E 专题调查或实验研究专题调查或实验研究5. 统计学中的总体是统计学中的总体是 C 按研究目的的确定研的研究对象按研究目的的确定研的研究对象6. 统计学中所指的样本是统计学中所指的样本是 B 总体中随机抽取的一部分观察单总体中随机抽取的一部分观察单7. 抽样误差是抽样误差是 D 样本统计量与总体参数值之间之样本统计量与总体参数值之间之 8. 样本含量增大,关于标准差和标准误说法正确样本含量增大,关于标准差和标准误说法正确 C 均数的标准误变小均数的标准误变小9.当两总体方差不等,两样本均数比较的方法当两总体方差不等,两样本均数比较的方法 B t …检验…检验10抽样误差产生的原因抽样误差产生的原因 A 个体差异个体差异11 进行成组设计t 检验时需要考虑的两个前提条件,一是各样本….. D 检验总体方差是否相等相等12.总体均数95%可信区间的含义可信区间的含义 E 平均每100个样本中,有95个样本…个样本… 13.关于单侧检验和双侧检验,说法正确关于单侧检验和双侧检验,说法正确 C 根据专业知识确定根据专业知识确定 14.关于I 型错误和II 型错误,说法不正确说法不正确 E 若样本含量足够大,可以避免两类错误可以避免两类错误 15关于可信区间的叙述,正确的是关于可信区间的叙述,正确的是 E 在可信度度确定的情况下,增加样本含量在可信度度确定的情况下,增加样本含量 16关于t 检验的叙述,错误的是检验的叙述,错误的是 C Cochran&Cox 法是对自由度进行校正法是对自由度进行校正 17为研究两种方法的检测效果是否不同,将24名患者配成….. D 11 18完全随机设计的方差分析中,必然有完全随机设计的方差分析中,必然有 D SS 总=SS 组间+SS 组内组内 19.随机区组设计的方差分析中,V 区组等于区组等于 E V 总—V 处理—V 误差误差 20在相同自由度(v1,v2)及a 水准时,方差分析的界值比……….B 小 21计算某地某年流感发病率,其分母为计算某地某年流感发病率,其分母为 E 该地易感人群人数该地易感人群人数 22关于相对比计算的叙述,正确的是关于相对比计算的叙述,正确的是C 要求两指标必须性质相同,否则无法比较要求两指标必须性质相同,否则无法比较 23应用相对数时,应用相对数时,以下哪一种说法错误以下哪一种说法错误以下哪一种说法错误 C 如果要将两个率合并时,如果要将两个率合并时,应将两个率直接平均数应将两个率直接平均数应将两个率直接平均数 24标准化死亡比SMR B 实际死亡数/期望死亡数期望死亡数 25标准化以后的总死亡率标准化以后的总死亡率D 反映了相对水平,仅作为比较的基础反映了相对水平,仅作为比较的基础 26率的标准化的主要目的率的标准化的主要目的 A 消除内部构成的差异,使率具有更好的可比性消除内部构成的差异,使率具有更好的可比性 27关于动态数列,下列说法正确关于动态数列,下列说法正确 C 一组按时间先后顺序排列的数据一组按时间先后顺序排列的数据28欲分析某人群体重指数和血脂之间的相关的方向和相关程度,可….. D 相关分析相关分析 29在双变量正态资料X 与Y 的相关分析中,的相关分析中,若若r=0.9,且P <0.05,….C 、X 与Y 有正相关关系有正相关关系 30同一份资料对回归系数b 和相关系数r 作系统推算,有作系统推算,有B Tb=Tr 31研究血型与民族的关系时,下列…….. A 血型与民族无关联血型与民族无关联 32用最小二乘法确定直线回归方程的原则是用最小二乘法确定直线回归方程的原则是 B 各观测点距直线的纵向距离平方和最小各观测点距直线的纵向距离平方和最小 33直线回归分析中,以直线方程Y=0.004+0.0588X ,代人两点B 所绘回归直线必过点(X,Y ) 34直线回归与相关分析中,下面描述不正确直线回归与相关分析中,下面描述不正确C X 、Y 两变量不服从正态分布仍可作相关分析35如果两样本b1=b2, n1>n2,则有则有D 、Tb1= Tr1 36相关系数的假设检验,其无效假设为相关系数的假设检验,其无效假设为C 、 P=0 37直线相关系数的假设检验,其自由度为直线相关系数的假设检验,其自由度为D 、 n-2 38以下统计分析方法中,不属于参数统计分析方法的是以下统计分析方法中,不属于参数统计分析方法的是 D 秩和检验秩和检验 39满足参数检验的资料若非非参数检验,下列说法正确的是满足参数检验的资料若非非参数检验,下列说法正确的是 C 增加II 型错误型错误 40数据1、2、3、4、5、6、7、8、9、10编秩,5的秩的秩D 5. 541配对资料比较的Wilcoxon 符合秩检验,如果不拒绝H0,则对…则对…B 正秩和与负秩和相差不大不大42设配对资料的变量值为X1和X2,则Wilcoxon 符号….E 把X1和X2差数按绝对值从小到大..43成组设计凉样本(n1=n2)比较的Wilcoxon 符号秩检验……符号秩检验…… A 较小样本的秩和较小样本的秩和 44在成组资料的秩和检验中,设总体为N 个秩号;1,2,…N ,如果……,如果……B 均数不变,标准差减少准差减少45多组资料比较的Kruskal-Wallis 检验的检验统计量检验的检验统计量E H 46多组等级资料比较的假设检验选择多组等级资料比较的假设检验选择 EF 检验检验 47随机区组设计资料秩转换的近似F 检验有检验有 B SS 总=SS 区间+SS 误差误差48随机区组设计计量资料秩转换的近似F 检验,设有g 个处理组,n 个…….C (n-1)(g-1) 49随机区组设计计量资料的Freidman 检验的编秩方法为检验的编秩方法为 B 将每个区组的数据由大到小分别编小分别编50计算一群同质个体的身高的平均数,应选择计算一群同质个体的身高的平均数,应选择 A 均数均数51描述一组偏态分布资料的离散程度,宜选择描述一组偏态分布资料的离散程度,宜选择 E 四分位数间区四分位数间区52、当各观测值呈倍数变化时,平均数宜用、当各观测值呈倍数变化时,平均数宜用 B 几何均数几何均数53、计算某血清血凝抑制抗体滴度的平均水平、计算某血清血凝抑制抗体滴度的平均水平 B 几何均数几何均数54、计算某病的平均潜伏期,宜用、计算某病的平均潜伏期,宜用 C 中位数中位数55、当数值变量直质料一端或两端存在无界数据时,平均数宜、当数值变量直质料一端或两端存在无界数据时,平均数宜 C 中位数中位数56/、比较相同人群的身高和体重的变异程度,宜用D 变异系数变异系数57、比较某地1-2岁和5-5.5岁女童。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y1,Y2 ,L ,Yn的线性组合,因而由多元正态分布理论
可知,(ˆ ,Y%)服从正态分布,由性质3可知,ˆ与Y%不
相关,因而二者独立.
(2) 由于µ*2 Y%TY% ,结合(1)可知ˆ与ˆ *2相互独立.
nm1 = 1 (Y T Y T X ( X X )1 X )(Y X ( X X )1 X Y )
nm1
n
1 mY 1[In来自X(XX )1
X
]Y
1 [Y Y ˆ ( X Y )]
nm1
例1(p201例6.5) 某种水泥在凝固时放出的热量Y与水 泥中下列4种化学成份有关:
(1)x1 : 3CaO Al2O3; (2) x2 : 3CaO SiO2 (3)x3 : 4CaO Al2O3 Fe2O3; (4)x4 : 2CaO SiO2
Z T DX ( X T X )1 X T X ( X T X )1 X T DT Z
ZT DX ( X T X )1 X T DT Z Z T DBDT Z
=ZT DB
DT Z
ZT
Im1
0
Z12
Z
2 2
L
Z2 m 1
0
0
Z
由 Q Y T (In X ( X T X )1 X T )Y
2[n trIm1] 2[n m 1]
n
其中trA aii表示n n矩阵A的迹.
i 1
因此,由ˆ *2的定义可知:Eˆ *2
EQ
2
n m 1
定理6.2 若( xi1, xi2 ,L , xim ,Yi )(i 1, 2,L , n)满足多元
线性回归模型,则 (1)ˆ与Y%相互独立,且服从正态分布; (2)ˆ与ˆ *2相互独立;
n
m
(Yi ˆ j xij )xik 0, k 0,1,L , m
i 1
j0
将上式可以改写为
n
nm
mn
Yi xik
ˆ j xij xik ( xij xik )ˆ j , k 0,1,L , m
i 1
i 1 j0
j0 i 1
此式可以用矩阵表示为
X TY ( X T X )ˆ
因而 DB2DT DBDT
所以 i i2 i =1, i 1, 2,L , m 1
则
DBDT
Im1
0
0 0
做变换 Z D(Y X ) (Z1, Z2 ,L , Zn )T
EZ D(EY EX ) 0 cov(Z , Z ) D cov(Y X ,Y X )DT D cov( , )DT D 2 In DT 2 In
正态分布,即
Yi ~ N (0 1xi1 L m xim , 2 ), i 1, 2,L , n
因为 EY 0 1x1 L m xm ,则称
Yˆ 0 1x1 L m xm 为Y 关于x1, x2 ,L , xm的线性回归方程
为了表述方便,引入矩阵
1 x11
X
1 M
x21 M
x12 L x22 L M
1 xn1 xn2 L
x1m
x2m M
,
Y
Y1
Y2
M
,
xnm
Yn
0
1
M
,
1
2
M
.
m
n
则 Yi 0 1xi1 L m xim i , i~N (0, 2 ),
i 1, 2,L , n, i相互独立,此式可以用矩阵表示为
Y X
同时
EY X
1. 参数向量 的最小二乘估计 的最小二乘估计满足下式
n
m
n
m
(Yi
i 1
j0
ˆ j xij )2
min
i 1
(Yi
j xij )2
j0
其中xi0 1, i 1, ..., n
上式可以用矩阵表示为 || Y X ˆ ||2 min || Y X ||2 利用微分法求上式的解ˆ ,即
将ˆ代入回归方程,
Yˆ ˆ0 ˆ1x1 L ˆm xm
可以得到回归方程为
Yˆ 62.45 1.55x1 0.51x2 0.10x3 0.144x4
max(| i
Yi
Yˆi
|)
3.93,
min ( i
|
Yi
Yˆi
|)
0
三、估计量的分布及性质
由上一小节内容可知: ˆ的每一个分量都是Y1,Y2,L ,Yn的线性组合,因而由多
若令C 2( X T X )1,则ˆ服从m 1维正态分布,
其密度函数为
f
(x)
m1
(2 ) 2
|C
1
|2
exp{
1
(X
)T C 1( X
)},
2
其中 x Rm1.
性质1 ˆ是Y的线性函数,服从m 1维正态分布, 均值为 ,协方差矩阵为 2( X T X )1.
若估计量为Y的线性函数,则称其为线性估计.
此方程称为正规方程。由于X的秩为m 1,所以X T X
是正定矩阵,因而存在拟矩阵( X T X )1,则
ˆ ( X T X )1 X TY
将ˆ代入回归方程,可得
Yˆ ˆ0 ˆ1x1 L ˆm xm
此方程也称为线性回归方程用该方程可以对Y 预测.
3. 未知参数 2的估计
由6.1节可知, 2的估计为ˆ *2= 1
n
2
n
[Yi
i 1
(ˆ
ˆ xi )]2
类似地可以得到多元情形时, 2的估计为
ˆ *2= 1
n m 1
n
[Yi
i 1
m
ˆ j xij ]2
j0
其矩阵形式为:
ˆ *2 1 (Y X ˆ ) (Y X µ)
nm1 1 (Y X ( X X )1 X Y ) (Y X ( X X )1 X Y )
性质2 ˆ是的最小方差线性无偏估计.
证 设T是的任一线性无偏估计,则T必可表为 T AY
而且ET E( AY ) AEY AX .由的任意性,则
AX Im1 由于 cov(T ,T ) Acov(Y ,Y )AT 2( AAT )
cov(µ, µ) 2( XT X )1
cov(T ,T ) cov(µ, µ) 2 ( AAT ) 2 ( X T X )1 2[( AAT ) ( X T X )1]
通过实验得到下列数据:
序号
1 2 3 4 5 6 7 8 9 10
11
12
13
x1%
7 1 11 11 7 11 3 1 2 21
1
11
10
x2%
26 29 56 31 52 55 71 31 54 47
40
66
68
x3%
6 15 8 8 6 9 17 22 18
4
23
9
8
x4%
60 52 20 47 33 22 6 44 22 26
第6.2节 多元线性回归分析
一、多元线性回归模型 二、参数的估计 三、参数估计量的分布与性质 四、回归系数与回归方程的显著性检验 五、最优回归方程的选择 六、稳健回归
一、多元线性回归的数学模型
实际问题中的随机变量Y 通常与多个普通变量 x1, x2 ,L , xm (m 1)有关.
对于自变量x1, x2 ,L , xm的一组确定值,Y具有一 定的分布,若Y的数学期望存在,则它是x1, x2 ,L , xm 的函数.
又cov(T,T) cov(µ, µ) 2[( AAT ) ( XT X)1] 0
由T的任意性可知ˆ是的最小方差线性无偏估计.
令Y% Y X ˆ,则有Y% [In X ( X T X )1 X T ]Y ,
称其为残差向量.
性质3 Y%与ˆ互不相关
证 计算二者的协方差矩阵
cov(Y%, ˆ )
[In X ( X T X )1 X T ]cov(Y ,Y )[( X T X )1 X T ]T
2[In X ( X T X )1 X T ][( X T X )1 X T ]T 0
因而Y%与ˆ互不相关.
性质4 EY% 0
cov(Y%,Y%) 2[In X ( X T X )1 X T ]
又因为Z为正态随机向量,上式表明Z1, Z2 ,L , Zn
相互独立,同服从于N (0, 2 )分布. 由 X ˆ X X ( X T X )1 X TY X
X ( X T X )1 X T (Y X ) X ( X T X )1 X T DT Z
则 ||X µ X ||2 = (X µ X )T ( X µ X )
回归系数,设( xi1, xi2 ,L , xim ,Yi )(i 1, 2,L , n) 是( x1, x2 ,L , xm ,Y )的n个观测值,同时它们满 足关系
Yi 0 1xi1 L m xim i , i~N (0, 2 ), i 1, 2,L , n, i相互独立.
由于 i 相互独立,因而Yi 相互独立,且服从
n m 1 (3)设B=X ( X T X )1 X T ,由于B是n n非负定矩阵,秩为
m 1,则存在n阶正交矩阵D,使得
O
DBDT
m+1
0
0
0
O
0
其中DT D In , i 0, i 1, 2,L , m 1
由于 B2 BBT X ( X T X )1 X T [ X ( X T X )1 X T ]T B
EY
Y x1 , x2 ,L , xm