正态分布与线性回归

正态分布与线性回归
正态分布与线性回归

正态分布、线性回归

一、 知识梳理

1.正态分布的重要性

正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。 2.正态曲线及其性质

正态分布函数:

22

()2()x f x μσ--

=

,x ∈(-∞,+∞)

3.标准正态曲线

标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。 4.一般正态分布与标准正态分布的转化

由于一般的正态总体),(2

σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2

σμN ,其取值小于x 的概率)(

)(σ

μ

-Φ=x x F 。只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5.“小概率事件”和假设检验的基本思想

“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。这种认识便是进行推断的出发点。关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。进行假设检验一般分三步:

第一步,提出统计假设。课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2

σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-?a ,由于这是小概率事件,就拒绝统计假设。 6.相关关系

研究两个变量间的相关关系是学习本节的目的。对于相关关系我们可以从下三个方面加以认识:⑴相关关系与函数关系不同。函数关系中的两个变量间是一种确定性关系。相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。 ⑵函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。 ⑶函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。 7.回归分析

本节所研究的回归分析是回归分析中最简单,也是最基本的一种类型——一元线性回归分析。 对于线性回归分析,我们要注意以下几个方面:

⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。 ⑵散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。

⑶求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。 8.相关系数

有时散点图中的各点并不集中在一条直线的附近,仍可以按照求回归直线方程的步骤求得回归直线方程。显然这种情形下求得的回归直线方程没有实际意义。那么,在什么情况下求得的回归直线方程才能对相应的一组观测数据具有代表意义?课本中不加证明地给出了相关系数的公式。相关系数公式的作用在于,我们对一组数据之间的线性相关程度可作出定量的分析,而不是仅凭画出散点图,直觉地从散点图的形状粗浅地得出数据之间的线性相关程度。 9.线性相关性检验

相关性检验是一种假设检验,它给出了一个具体检验y 与x 之间线性相关与否的具体办法。限于要求,中学阶段只要求掌握这种检验方法的操作步骤,而不要求对这种方法包含的原理进行深入研究。其具体检验的步骤如下:

⑴在课本中的附表3中查出与显著性水平0.05与自由度n-2(n 为观测值组数)相应的相关系数临界值05.0r 。

⑵根据公式∑∑∑===---=

n

i n

i i i n

i i

i y n y x n x y

x n y

x r 1

2

1

22

21

)

)((计算r 的值。

⑶检验所得结果。如果05.0||r r ≤,那么可以认为y 与x 之间的线性相关关系不显著,从而接受统计假设。如果05.0||r r >,表明一个发生的概率不到5%的事件在一次试验中竟发生了。这个小概率事件的发生使我们有理由认为y 与x 之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y 与x 之间具有线性相关关系。

二、基础训练

1.如果随机变量ξ~N (μ,σ2),且E ξ=3,D ξ=1,则P (-1<ξ≤1=等于B A.2Φ(1)-1 B.Φ(4)-Φ(2) C.Φ(2)-Φ(4) D.Φ(-4)-Φ(-2)

2. 随机变量ξ服从正态分布N (0,1),如果P (ξ<1)=0.8413,则P (-1<ξ<0)= .

三、例题剖析

【例1】 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N (d ,0.52). (1)若d =90°,求ξ<89的概率;

(2)若要保持液体的温度至少为80 ℃的概率不低于0.99,问d 至少是多少?(其中若η~N (0,1),则Φ(2)=P (η<2)=0.9772,Φ(-2.327)=P (η<-2.327)=0.01).

剖析:(1)要求P (ξ<89)=F (89),

∵ξ~N (d ,0.5)不是标准正态分布,而给出的是Φ(2),Φ(-2.327),故需转化为标准正态分布的数值.

(2)转化为标准正态分布下的数值求概率p ,再利用p ≥0.99,解d .

解:(1)P (ξ<89)=F (89)=Φ(

5

.090

89-)=Φ(-2)=1-Φ(2)=1-0.9772=0.0228. (2)由已知d 满足0.99≤P (ξ≥80),

即1-P (ξ<80)≥1-0.01,∴P (ξ<80)≤0.01. ∴Φ(5

.080d

-)≤0.01=Φ(-2.327). ∴

5

.080d

-≤-2.327. ∴d ≤81.1635.

故d 至少为81.1635.

评述:(1)若ξ~N (0,1),则η=

σ

μ

ξ-~N (0,1).(2)标准正态分布的密度函数f (x )是偶函数,x <0时,f (x )为增函数,x >0时,f (x )为减函数.

【例2】一投资者在两个投资方案中选择一个,这两个投资方案的利润x (万元)分别服从正态分布N (8,32)和N (6,22),投资者要求利润超过5万元的概率尽量地大,那么他应选择哪一个方案?

解:对第一个方案,有x ~N (8,32),于是P (x >5)=1-P (x ≤5)=1-F (5)=1-Φ(3

8

5-)=1-Φ(-1)=1-[1-Φ(1)]=Φ(1)=0.8413.

对第二个方案,有x ~N (6,22),于是P (x >5)=1-P (x ≤5)=1-F (5)=1-Φ(2

6

5-)=1-Φ(-0.5)=Φ(0.5)=0.6915. 相比之下,“利润超过5万元”的概率以第一个方案为好,可选第一个方案.

【例3】设),(~2

σμN X ,且总体密度曲线的函数表达式为:4

1

2221)(+--

=

x x e

x f π

,x ∈R 。 ⑴求

μ,σ;⑵求)2|1(|<-x P 及)22121(+<<-x P 的值。 【例4】公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高ε~N (173,7)(单位:cm ),问车门应设计多高(精确到1cm )?

解:设公共汽车门的设计高度为x cm ,由题意,需使P (ξ≥x )<1%.

∵ξ~N (173,72),∴P (ξ≤x )=Φ(7

173

-x )>0.99. 查表得

7

173

-x >2.33,∴x >189.31,即公共汽车门的高度应设计为190 cm ,可确保99%以上的成年男子头部不跟车门顶部碰撞.

同步练习 正态分布、线性回归

1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( )

A .0.9973

B .0.8665

C .0.8413

D .0.8159

2.已知连续型随机变量x 的概率密度函数是??

?

??>≤≤<=b x 0b x a A a x 0)(x f

其中常数A>0,则A 的值为

( )

A .1

B .b

C .

a

b -1

D .b-a

3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程x y 82.136.77^

-=,则以下说法中正

确的是 ( ) A .产量每增加1000件,单位成本下降1.82元 B .产量每减少1000件,单位成本上升1.82元 C .产量每增加1000件,单位成本上升1.82元 D .产量每减少1000件,单位成本下降1.82元

4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^

+=,下列判断正确的是

( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元 D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε

6.已知连续型随机变量x 的分布函数为:??

?

??≤<≤<=21 a 1x 0ax 0)(x x f 其他

则a=___________,=<)2

3

(x P _____________。

7.设随机变量ε服从N (0,1),求下列各式的值:

(1)P(ε≥2.55); (2)P(ε<-1.44); (3)P(|ε|<1.52)。 8.某厂生产的圆柱形零件的外径ε~N (4,0.25)。质检人员从该厂生产的1000件零件中随机抽查一件,

测得它的外径为5.7cm 。试问该厂生产的这批零件是否合格?

9.现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试中的数学成绩(y ),

10.某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机抽取选了10

(1)计算x 与y 的相关系数;

(2)对这两个变量之间是否线性相关进行相关性检验;

(3)设回归直线方程为a bx y +=^

,求系数a ,b 。

同步练习(参考答案):

1.B 2.C 3.A 4.C 5.6.52 6.32=a ,3

2

)23(=

5.因为ε~N (5,2),9.0)2

5()(=-=

28.12

5=-a ,解得a=6.52。

6.由

1)12(121=-+??a a 解得32=a ,)23(

2

7.分析 一个随机变量若服从标准正态分布,可以借助于标准正态分布表,查出其值。但在标准正态分布表中只给出了00≥x ,即)()(00x x x P φ=<的情形,对于其它情形一般用公式:φ(-x)=1-φ(x);p(a

;

0054.09946.01)

55.2(1=-=-=φ

(2))44.1(1)44.1()44.1(φφε-=-=-

(3)1)52.1(2)52.1()52.1()52.152.1()52.1|(|-=--=<<-=-<φφφεεP P 8714.019357.02=-?=

说明 从本例可知,在标准正态分布表中只要给出了00≥x 的概率,就可以利用上述三个公式求出其它

情形下的概率。

8.分析 欲判定这批零件是否合格,由假设检验基本思想可知,关键是看随机抽查的一件产品的尺寸是在(μ-3σ,μ+3σ)内,还是在(μ-3σ,μ+3σ)之外。 解 由于圆柱形零件的外径ε~N (4,0.25),由正态分布的特征可知,正态分布N (4,0.25)在区间(4-3×0.5,4+3×0.5)即(2.5,5.5)之外取值的概率只有0.003,而)5.5,5.2(7.5?,这说明在一次试验中,出现了几乎不可能发生的小概率事件,根据统计中假设检验的基本思想,认为该厂这批产品是不合格的。

说明 判断某批产品是否合格,主要运用统计中假设检验的基本思想。如记住课本P33表格中三种区间内取值的概率,对我们的解题可以带来很大的帮助。

9.易得∑==10

1

2116584i i

x

,∑==101

247384i i y ,8.107=x ,=y 68,7379610

1

∑==i i i y x 。则相关系数为

7506.0)

681047384)(8.10710116584(68

8.10710737962

2

≈?-?-??-=

r 。

查表得自由度为10-2=8相应的相关关系临界值6021.005.0=r ,由05.0r r >知,两次数学考试成绩有显著性的线性相关关系。 10.(1)制表如下:

806.0)

7.16510277119)(7.771070903(7

.1657.77101329292

2

≈?-?-??-=

r 。

即x 与y 的相关系数r ≈0.806。

(2)查表显著水平0.05,自由度10-2=8相应的相关系数临界值6319.005.0=r ,∵05.0r r >,所以x 与y 之间具有线性相关关系。 (3)397.07

.7710709037

.1657.77101329292

≈?-??-=

b , a=165.7-0.397×77.7=134.8。

g3.1100 12.4 正态分布、线性回归(1)

12.4 正态分布、线性回归 一、 知识梳理 1.正态分布的重要性 正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。 2.正态曲线及其性质 正态分布函数:22 ()2()x f x μσ-- = ,x ∈(-∞,+∞) 3.标准正态曲线 标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。 4.一般正态分布与标准正态分布的转化 由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2σμN ,其取值小于x 的概率)( )(σ μ -Φ=x x F 。只要会用它求正态总体 ),(2σμN 在某个特定区间的概率即可。 5.“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。这种认识便是进行推断的出发点。关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。进行假设检验一般分三步: 第一步,提出统计假设。课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果 )3,3(σμσμ+-?a ,由于这是小概率事件,就拒绝统计假设。 6.相关关系 研究两个变量间的相关关系是学习本节的目的。对于相关关系我们可以从下三个方面加以认识:⑴相关关系与函数关系不同。函数关系中的两个变量间是一种确定性关系。相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。 ⑵函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。 ⑶函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。 7.回归分析 本节所研究的回归分析是回归分析中最简单,也是最基本的一种类型——一元线性回归分析。 对于线性回归分析,我们要注意以下几个方面: ⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。 ⑵散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。

正态分布和线性回归

专题:正态分布和线性回归 一、 基础知识回顾 1 ( x )2 1. 正态分布:若总体密度曲线就是或近似地是函数 f ( x) e 2 2 的图象 2 , x, 其中:π是圆周率; e 是自然对数的底; x 是随机变量的取值 , 为正态分布的平均值; 是 正态分布的标准差.这个总体是无限容量的抽样总体,其分布叫做正态分布.正态分布由参 数 , 唯一确定,记作 ~ N ( , 2 ) ,E( )= ,D( )= 2 . 2. 函数 f(x) 图象被称为正态曲线 . (1) 从形态上看,正态分布是一条单峰、对称呈钟形的曲线,其对称轴为 x=μ,并在 x=μ时 .... .......... 取最大值 。(2) 从 x=μ点开始,曲线向正负两个方向递减延伸,不断逼近 x 轴,但永不与 x .... 轴相交,因此说曲线在正负两个方向都是以 x 轴为渐近线的 ,(3) 当μ的值一定时 , σ越大,曲线越“矮胖”,总体分布越分散;σ越小,曲线越“高”.总体分布越集中. 3. 把 ~ N (0,1) 即μ =0, σ=1 称为标准正态分布,这样的正态总体称为标准正态总体 , 其密度函 1 1 x 2 数为 f ( x) e 2 2 ,x ∈(- ∞,+∞) ,相应的曲线称为标准 正 态曲线. 4. 利用标准正态分布表可求得标准正态总体在某一区间内取 值 的概率 . (1) 对于标准正态总体 N (0,1) , ( x 0 ) 是总体取值小于 x 0 的概率,即: ( x 0 ) P(x x 0 ) , 其中 x 0 0 ,其值可以通过 “标准正态分布表” 查得,也就是图中阴影部分的面积,它表示 总体取值小于 x 0 的概率. (2) 标准正态曲线关于 y 轴对称。因为当 x 0 0 时, ( x 0 ) P(x x 0 ) ; 而当 x 0 0 时,根据正态曲线的性质可得: ( x 0 ) 1 ( x 0 ) ,并且可以求得在任一区间(x 1 , x 2 ) 内 取值的概率: P(x 1 x x 2 ) ( x 2 ) ( x 1 ) , 显然Φ(0)=0.5. 5. 对于任一正态总体 ~ N ( , 2 ) , 都可以通过 使之标准化 ~ N (0,1) , 那么 , P( x )=P( < x )= ( x ) ,求得其在某一区间内取值的概率 . 例如: ~ N(1,4), 那么 , 设 = 1 , 则 ~ N (0,1) , 有 P( <3)=P( <1)= (1)=0.8413. 2 6. Φ(1)=0.8413 、Φ (2)=0.9772 、Φ(3)=0.9987 二、例题

平均分布,正态分布,一阶滑动和,一阶线性回归 C语言编程

#include #include #include #include #include # define pi 3.1415926 # define sqr 0.707106781//在一阶线性回归出现了参数a double uni[2000]={0};//程序中出现大数组时,很可能导致堆栈溢出,为了避免double nor[2000]={0};//这个问题,把数组声明为全局变量, double ovlap[1000]; double linreg[1000]; double nor_num[10]; double nor_num_theory[10]={0.0}; double mean( double a[]) { int i; double ever=0.0; for(i=0;i<2000;i++) ever+=a[i]/2000.0; return ever; } double std(double a[],double mean) { int i; double stda=0.0; for(i=0;i<2000;i++) stda+=(a[i]-mean)*(a[i]-mean)/2000.0; return stda; } double integral(double a,double b) { double i,num=0.0; for(i=a;i

logistic回归与线性回归的比较分析

1 logistic回归 logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。 1.1 logistic回归概述 logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b 作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic 函数,就是logistic回归,如果L是多项式函数就是多项式回归。 logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。 Logistic回归模型的适用条件 1 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。 2 残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。 3 自变量和Logistic概率是线性关系 4 各观测对象间相互独立。 原理:如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量,某个概

正态分布和线性回归

专题:正态分布和线性回归 一、 基础知识回顾 1.正态分布: 若总体密度曲线就是或近似地是函数()2 2 ()2(),,x f x x μσ--=∈-∞+∞的图象 其中:π是圆周率;e 是自然对数的底;x 是随机变量的取值,μ为正态分布的平均值;σ是正态分布的标准差.这个总体是无限容量的抽样总体,其分布叫做正态分布.正态分布由参数μ,σ唯一确定,记作ξ~2(,)N μσ,E(ξ)=μ,D(ξ)=2σ. 2.函数f(x)图象被称为正态曲线. (1)从形态上看,正态分布是一条单峰、对称呈钟形的曲线,其对称轴为....x=..μ.,并在...x=..μ.时. 取最大值.... 。(2)从x=μ点开始,曲线向正负两个方向递减延伸,不断逼近x 轴,但永不与x 轴相交,因此说曲线在正负两个方向都是以x 轴为渐近线的,(3)当μ的值一定时, σ越大,曲线越“矮胖”,总体分布越分散;σ越小,曲线越“高”.总体分布越集中. 3. 把ξ~(0,1)N 即μ=0,σ=1称为标准正态分布,这样的正态总体称为标准正态总体,其密度函 数为21 2 ()x f x -=,x ∈(-∞,+∞),相应的曲线称为标准正态曲线. 4.利用标准正态分布表可求得标准正态总体在某一区间内取值的概率. (1)对于标准正态总体(0,1)N ,)(0x Φ是总体取值小于0x 的概率,即:)()(00x x P x <=Φ, 其中00>x ,其值可以通过“标准正态分布表”查得,也就是图中阴影部分的面积,它表示总体取值小于0x 的概率. (2)标准正态曲线关于y 轴对称。因为当00>x 时,)()(00x x P x <=Φ; 而当00

一元线性回归模型与多元线性回归模型对比

参数估计量的性质 线性性、无偏性、有效性 线性性、无偏性、有效性 参数估计量的概率分布 ) , (~?), (~?22 2002211σββσββ∑∑∑i i i x n X N x N --- 样本容量问题 ---- 样本容量n 必须不少于模型中解释变量的个数(包括常数项), 即1+≥k n 才能得到参数估计值,8-≥k n 时t 分布才比较稳定,能够进行变量的显著性检验,一般认为30≥n 活着至少 ()13+≥k n 时才能满足模型估计要求。如果样本量过小,则只 依靠样本信息就是无法完成估计的,需要用其她方法去估计。 统计检验 一元线性回归模型 多元线性回归模型 拟合优度检验 总离差平方与的分解 TSS=ESS+RSS TSS ESS R = 2,[]1,02 ∈R 越接近于1,拟合优度越高。 总离差平方与的分解 TSS=ESS+RSS TSS RSS TSS ESS R -== 12,(即总平方与中回归平方与的比例) []1,02∈R 对于同一个模型,2R 越接近于1,拟合优度越高。 ) 1/() 1(12---- =n TSS k n RSS R (调整的思路就是残差平方与 RSS 与总平方与 TSS 各自除以它们的自由度) 为什么要对2 R 进行调整?解释变量个数越多,它们对 Y 所能解释的部分越 大(即回归平方与部分越大),残差平方与部分越小,2R 越高,由增加解释变量引起的 2R 的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度, 2R 就不就是一 个合适的指标,必须加以调整。 方程总体显著性检验 ------ 目的:对模型中被解释变量与解释变量之间的线性关系在总体上就是否成立做出判断。 原假设 备择假设: 统计量的构造: 判断步骤:①计算F 统计量的值 ②给定显著性水平,查F 分布的临界值表获得 )

计量经济学ch4 正态假定 经典线性回归模型

Ch4 正态性假定: 经典正态线性回归模型 对于模型 i i i u X Y ++=21ββ (4.1) 我们首先讨论扰动的分布。 i u 4.1. 的概率分布 i u 没有分布假设,不可能对参数估计量作出任何推断,也不可能对任何有关总体的假定作出检验 4.2. 的概率分布假定为正态分布 i u 经典正态线性回归假定具有正态分布,且 i u 均值: 0)(=i u E 方差: ,表示对每一个,方差相同 22)(σ=i u E i u 协方差 j i u u j i ≠=0),cov( 概率密度函数: 22 221 )(σ π σi u i e u f ?= 概率分布函数 ∫ ∞ ??=x i i du e u F i 22221 )(σ μπ σ

上述假定采取记为 2~(0,i u NID )σ (4.2) 简称为为独立同分布。其分布特征如图所示. i u 正态分布特征: 为什么假定为正态分布? 1. 中心极限定理 独立同分布随机变量X i , 其均值为μ, 方差为σ2, 则: )/,(/2 n N n X X n i σμ??→?=∞ →∑ )1,0() (/N X n n X z n ??→??= ?= ∞ →σ μσμ 正是中心极限定理,为的正态假设提供了理论支持。 i u 2. 正态变量所具有的性质: 线性变换仍为正态变量,分布函数仅有两个参数即均值和方差。

4.3.正态假定下OLS 估计量的性质 用OLS 方法所得到的估计量,在正态假定下具有性质: )2,1(?=i i β1. 无偏性; 2. 最小方差; 3. 一致性,即随着样本个数的无限增大,估计量将收敛于它们的真值。用公式表示 {} 01?lim >=

高三数学正态分布和线性回归(知识点和例题)

正态分布和线性回归 高考要求 1.了解正态分布的意义及主要性质 2.了解线性回归的方法和简单应用 知识点归纳 1.正态分布密度函数: 2 2 () 2 () x f x μ σ - - =,(σ>0,-∞<x<∞) 其中π是圆周率;e是自然对数的底;x是随机变量的取值;μ为正态分布的均值;σ是正态分布的标准差.正态分布一般记为) , (2 σ μ N 2.正态分布) , (2 σ μ N)是由均值μ和标准差σ唯一决定的分布 例1、下面给出三个正态总体的函数表示式,请找出其均值μ和标准差σ.(1)2 2 2 1 ) ( x e x f- = π ,(-∞<x<+∞) (2 ) 2 (1) 8 () x f x - - =,(-∞<x<+∞) 解:(1)0,1 (2)1,2 3.正态曲线的性质:正态分布由参数μ、σ唯一确定,如果随机变量ξ~N(μ,σ2),根据定义有:μ=Eξ,σ=Dξ。 正态曲线具有以下性质: (1)曲线在x轴的上方,与x轴不相交。 (2)曲线关于直线x =μ对称。 (3)曲线在x =μ时位于最高点。 (4)当x <μ时,曲线上升;当x >μ 时,曲线下降。并且当曲线向左、

右两边无限延伸时,以x 轴为渐近线,向它无限靠近。 (5)当μ一定时,曲线的形状由σ确定。σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。 五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学 4.标准正态曲线:当μ=0、σ=l 时,正态总体称为标准正态总体,其 相应的函数表示式是2 221)(x e x f - = π ,(-∞<x <+∞) 其相应的曲线称为标准正态曲线 标准正态总体N (0,1)在正态总体的研究中占有重要的地位 任何正态分布的概率问题均可转化成标准正态分布的概率问题 5.标准正态总体的概率问题: 对于标准正态总体N (0,1),)(0x Φ是总体取值小于0x 的概率, 即 )()(00x x P x <=Φ, 其中00>x ,图中阴影部分的面积表示为概率0()P x x < 只要有标准正态 分布表即可查表解决.从图中不难发现:当00

第十一章(理) 第四节 正态分布、线性回归

第十一章(理) 第四节 正态分布、线性回归 1.111222 则有 ( ) A .μ1<μ2,σ1<σ2 B .μ1<μ2,σ1>σ2 C .μ1>μ2,σ1<σ2 D .μ1>μ2,σ1>σ2 解析:μ反映正态分布的平均水平,x =μ是正态曲线的对称轴,由图知μ1<μ2,σ 反映正态分布的离散程度,σ越大,曲线越“矮胖”,表明越分散,σ越小,曲线越 “高瘦”,表明越集中,由图知σ1<σ2. 答案:A 2.已知随机变量ξ服从正态分布N (3,σ2),则P (ξ<3)= ( ) A.15 B.14 C.13 D.12 解析:根据正态分布的知识可知此正态分布图象的对称轴为x =3,而P (ξ<3)表示对 称轴左边图象的面积,对称轴左右两边图象面积相等,整个图象的面积为1. 答案:D 3.设随机变量ξ服从正态分布N (2,9),若P (ξ>c +1)=P (ξc +1) =P (ξ

新人教高考数学总复习专题训练正态分布线性回归

新人教高考数学总复习专题训练正态分布线性回归 The following text is amended on 12 November 2020.

正态分布、线性回归 1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( ) A . B . C . D . 2.已知连续型随机变量x 的概率密度函数是??? ??>≤≤<=b x 0b x a A a x 0)(x f 其中常数A>0,则A 的值为 ( ) A .1 B .b C . a b -1 D .b-a 3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程 x y 82.136.77^-=,则以下说法中正确的是 ( ) A .产量每增加1000件,单位成本下降元 B .产量每减少1000件,单位成本上升元 C .产量每增加1000件,单位成本上升元 D .产量每减少1000件,单位成本下降元 4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^ +=,下列判断正确的是 ( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元 D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε

正态分布与线性回归

正态分布、线性回归 一、 知识梳理 1.正态分布的重要性 正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。 2.正态曲线及其性质 正态分布函数: 22 ()2()x f x μσ-- = ,x ∈(-∞,+∞) 3.标准正态曲线 标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。 4.一般正态分布与标准正态分布的转化 由于一般的正态总体),(2 σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2 σμN ,其取值小于x 的概率)( )(σ μ -Φ=x x F 。只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。 5.“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。这种认识便是进行推断的出发点。关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。 课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。进行假设检验一般分三步: 第一步,提出统计假设。课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2 σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-?a ,由于这是小概率事件,就拒绝统计假设。 6.相关关系 研究两个变量间的相关关系是学习本节的目的。对于相关关系我们可以从下三个方面加以认识:⑴相关关系与函数关系不同。函数关系中的两个变量间是一种确定性关系。相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。 ⑵函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。 ⑶函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。 7.回归分析 本节所研究的回归分析是回归分析中最简单,也是最基本的一种类型——一元线性回归分析。 对于线性回归分析,我们要注意以下几个方面: ⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。 ⑵散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。 ⑶求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。 8.相关系数 有时散点图中的各点并不集中在一条直线的附近,仍可以按照求回归直线方程的步骤求得回归直线方程。显然这种情形下求得的回归直线方程没有实际意义。那么,在什么情况下求得的回归直线方程才能对相应的一组观测数据具有代表意义?课本中不加证明地给出了相关系数的公式。相关系数公式的作用在于,我们对一组数据之间的线性相关程度可作出定量的分析,而不是仅凭画出散点图,直觉地从散点图的形状粗浅地得出数据之间的线性相关程度。 9.线性相关性检验 相关性检验是一种假设检验,它给出了一个具体检验y 与x 之间线性相关与否的具体办法。限于要求,中学阶段只要求掌握这种检验方法的操作步骤,而不要求对这种方法包含的原理进行深入研究。其具体检验的步骤如下:

正态分布 线性回归

正态分布与线性回归 1 已知连续型随机变量ζ的概率密度函数 ?? ? ??>≤≤+<=)2(0)20(1)0(0)(x x kx x x f ,且f(x) ≥0,求常数k 的值,并计算概率P(1.5≤ξ<2.5)。 分析:凡是计算连续型随机变量ξ的密度函数f(x)中的参数、概率P(a ≤ξ≤b)都需要通过求面积来转化而求得。若f(x) ≥0且在[a ,b]上为线性,那么P(a ≤ξ≤b)的值等于以b-a 为高,f(a)与f(b)为上、下底的 直角梯形的面积,即1 ()[()()]()2 P a b f a f b b a ξ≤≤=+-。 解: ∵1()(0)(02)(2)P P P P εξξξ=-∞<<+∞=-∞<<+≤≤+<<+∞ 0(02)0P ξ=+≤≤+1 [(0)(2)](20)(0)(2)222 f f f f k =+-=+=+ ∴2 1 -=k ; ∴1 (1.5 2.5)(1.52)(2 2.5)(1.52)16P P P P ξξξξ≤<=≤≤+<<=≤≤=。 2 设),(~2 σμN X ,且总体密度曲线的函数表达式为: 41 2221)(+-- = x x e x f π ,x ∈R 。 (1)求μ,σ; (2)求)2|1(|< -x P 及)22121(+<<-x P 的值。 分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。利用一般正态总体) ,(2 σμN 与标准正态总体N (0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。 解:(1)由于 2 22)2(2)1(4 122 21 21)(-- +-- ?= = x x x e e x f ππ , 根据一般正态分布的函数表达形式,可知μ=1,2=σ,故X ~N (1,2)。 (2))2121()2|1(|+<<-=<-x P x P 2121 (12)(12)()() 22 (1)(1)2(1)120.84131 F F 1+-1--=+--=Φ-Φ=Φ-Φ-=Φ-=?- 6826.0=。 又)21()221()22121(--+=+<<-F F x P 22121()()(2)(1) 22 (2)(1)10.97720.84131φφ1+-1--=Φ-Φ=Φ-Φ-=+-=+- 8185.0=。 点评:在解决数学问题的过程中,将未知的,不熟悉的问题转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。 3 某中学有1000人参加并且高考数学成绩近似地服从正态分布()2 10,100N ,求此校数学成绩在120分

请教多元线性回归关于误差服从正态分布的检验 作者

请教多元线性回归关于误差服从正态分布的检验作者:bellsz时间:2005-12-5 9:15:00 第1楼 ?多元线性回归(OLS法)的一种重要假定是误差u服从正态分布通常情况,我们只能得到一个应变量Y 的样本数据。请问,如何检验误差u服从正态分布是否只要检验应变量Y的样本数据服从正态分布就可以了?请各位高手指点!!!! 作者:沦落天涯时间:2005-12-5 9:44:00 第2楼 ?伍德里奇(2003)第154-155页认为,这一正态假定似乎并不非常重要。如果真的非常在乎分布特征的话,你应当使用非参数估计方法。在通常情况下,对分布的检验应当是根据被解释变量做出的。因为在回归模型中,被解释变量是由两个部分来确定,一个是由于解释变量,另一个是随机项。而对于前一部分,一般是假定它们是非随机的,这样被解释变量也就相当于是一个常项(对不起,我觉得说常数项有点不合适),再加上一个随机项组成的。同样,在正态分布假定下,服从正态分布的随机变量的线性组合仍然服从正态分布。因此,如果正态分布假定成立,那么被解释变量与随机误差项的分布特征应当是类似的,具有相同的方差,只是均值不同而已。不知道这一解释是否合意? 作者:张德存时间:2005-12-5 10:30:00 第3楼 ? [upload=gif]UploadImages/20051251023352413.gif[/upload][upload=gif]UploadImages/200512510231537983.gi f[/upload] 注意上面一元回归这几个假定为便于叙述,以下我们仅以二元线性回归方程为例来说明。二元线性回归方程也由两部分组成,一部分是y的线性函数;另一部分是所代表的随机误差。这里也必须对方程作出关于一元线性回归模型的那几项重要假定;同时,由于多元回归模型有两个和两个以上的自变量.因此还必须假定这些自变量相互之间不存在显著相关。因为我们已经假定ε是一个均值为零即E(ε)=0的服从正态分布的随机变量. 所以、显著性检验,通常也是对多元线性回归方程的显著性检验。包括两个方面的内容:一是每个回归系数的显著性检验;二是回归方程的显著性检验。 作者:bellsz时间:2005-12-5 13:14:00 第4楼 ?谢谢两位。再请教一下:能从样本应变量正态分布推出应变量Yt服从正态分布么? 作者:tasteconomic时间:2005-12-6 13:06:00 第5楼 ?常数C和X 都是非随机的. Y=C+b*X+u, 只有u是随机的. 所以, Y的分布当然就是u的分布了. 作正态假

【新人教】高考数学总复习专题训练正态分布、线性回归2013

正态分布、线性回归 1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( ) A .0.9973 B .0.8665 C .0.8413 D .0.8159 2.已知连续型随机变量x 的概率密度函数是?? ? ??>≤≤<=b x 0b x a A a x 0)(x f 其中常数A>0,则A 的值为 ( ) A .1 B .b C . a b -1 D .b-a 3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程x y 82.136.77^ -=, 则以下说法中正确的是 ( ) A .产量每增加1000件,单位成本下降1.82元 B .产量每减少1000件,单位成本上升1.82元 C .产量每增加1000件,单位成本上升1.82元 D .产量每减少1000件,单位成本下降1.82元 4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^ +=,下列判断正 确的是 ( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元 D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε

(完整版)第二章(简单线性回归模型)2-2答案

2.2简单线性回归模型参数的估计 、判断题 1. 使用普通最小二乘法估计模型时, 所选择的回归线使得所有观察值的残差和达到最小。 (F ) 2. 随机扰动项u i 和残差项e i 是一回事。(F ) 3. 在任何情况下 OLS 估计量都是待估参数的最优线性无偏估计。 (F ) 4. 满足基本假设条件下,随机误差项 i 服从正态分布,但被解释变量 Y 不一定服从正态分 布。 5. 如果观测值X i 近似相等,也不会影响回归系数的估计量。 二、单项选择题 D )。 丫? 一 Y 5.以Y 表示实际观测值,丫?表示OLS 估计回归值,则用 OLS 得到的样本回归直线 丫?一 ?) 满足(A )。 A. (Y i — 丫i ) 一 0 B . (Y i — Y )2 - 0 C. (Y i — 丫)2-0 D . (丫— Y ) - 0 6. 按经典假设,线性回归模型中的解释变量应是非随机变量,且( 1. 设样本回归模型为 Y i =^0 ? X i +e i , 则普通最小二乘法确定的 ?的公式中, 错误的是 A. ?= 1— X i X Y i -Y X i X c. ?一 X i Y i -nXY X i 2-nX 2 ?_ 1 一 n X i Y i - X i Y i i n X i 2- X i 2 n X i Y i - X i Y i i 2 ?以Y 表示实际观测值, Y?表示回归估计值, 则普通最小二乘法估计参数的准则是使 (D )。 A. (Y i — Y i )=o c. (Y — £)=最小 3. Y 表示实际观测值, 丫?表示OLS 估计回归值,则下列哪项成立( D A. 4. 用OLS 估计经典线性模型 Y i 一 0 i X i + u i ,则样本回归直线通过点( D )。 A . (X, 丫) .(X , Y?) 2 x ?一

对线性回归,logistic回归和一般回归的认识

假设有一个房屋销售的数据如下: 面积(m^2)销售价钱(万元) 123250 150320 87160 102220 …… 这个表类似于北京5环左右的房屋价钱,我们可以做出一个图,x轴是房屋的面积。y轴是房屋的售价,如下: 如果来了一个新的面积,假设在销售价钱的记录中没有的,我们怎么办呢? 我们可以用一条曲线去尽量准的拟合这些数据,然后如果有新的输入过来,我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合,可能是下面的样子: 绿色的点就是我们想要预测的点。

首先给出一些概念和常用的符号。 房屋销售记录表:训练集(training set)或者训练数据(training data), 是我们流程中的输入数据,一般称为x 房屋销售价钱:输出数据,一般称为y 拟合的函数(或者称为假设或者模型):一般写做y = h(x) 训练数据的条目数(#training set),:一条训练数据是由一对输入数据和输出数据组成的输入数据的维度n (特征的个数,#features) 这个例子的特征是两维的,结果是一维的。然而回归方法能够解决特征多维,结果是一维多离散值或一维连续值的问题。 3 学习过程 下面是一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型。就如同上面的线性回归函数。 4 线性回归 线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。 我们用X1,X2..Xn 去描述feature里面的分量,比如x1=房间的面积,x2=房间的朝向,等等,我们可以做出一个估计函数: θ在这儿称为参数,在这的意思是调整feature中每个分量的影响力,就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令X0 = 1,就可以用向量的方式来表示了:

一元正态线性回归

一元正态线性回归 摘要:本文主要讲述了一元正态线性回归的原理,所涉及的一些方法以及应用。 关键字:一元线性回归正态分布 正文: 在工农业生产和科学研究中,常常需要研究变量之间的关系。变量之间的关系可以分为两类:确定性关系、非确定性关系。确定性关系就是指存在某种函数关系。然而,更常见的变量之间的关系存在着某种不确定性。例如:商品的销售量与当地人口有关,人口越多,销售量越大,但它们之间并没有确定性的数值关系,同样的人口,可能有不同的销售量。这种既有关联,又不存在确定性数值关系的相互关系,就称为相关关系。 回归分析就是研究变量之间相关关系的一种数理统计分析方法。在回归分析中,主要研究以下几个问题: (1)拟合:建立变量之间有效的经验函数关系; (2)变量选择:在一批变量中确定哪些变量对因变量有显著影响,哪些没有实质影响; (3)估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断; (4)预测:给定某个自变量,预测因变量的值或范围。 根据自变量个数和经验函数形式的不同,回归分析可以

分为许多类别。 回归分析涉及三个问题: (1) 建立模型(找出自变量与因变量) (2) 确定回归函数μ(x)的类型 (3) 估计参数 在回归模型中最简单的为一元回归模型: 一元回归最简单的情形:线性回归 Y=μ(x)+ε, ε~N(0,σ2 ) 相应的一元回归方程为 : y=μ(x) 一、一元线性回归模型 给定一组数据点(x 1, y 1),(x 2 ,y 2),...,(x n , y n ),如果通过散点图可以观察出变量间大致存在线性函数关系,则可以建立如下模型: 其中a,b 称为一元线性回归的回归系数;ε表示回归值与测量值之间的误差。 二、一元正态线性回归 A)定义:一个一元线性回归当其随机变量Y 服从正态分布时,那么称其为一元正态线性回归。 B)原理: 一元正态回归模型: Y=a+bx+ε, ε~N(0,σ2 ) ? ??++=),0(~2σεεN bX a Y

同步练习.g3.12.4 正态分布、线性回归

同步练习 g3.1100 正态分布、线性回归 1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( ) A .0.9973 B .0.8665 C .0.8413 D .0.8159 2.已知连续型随机变量x 的概率密度函数是?? ? ??>≤≤<=b x 0b x a A a x 0)(x f 其中常数A>0,则A 的值为 ( ) A .1 B .b C . a b -1 D .b-a 3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程 x y 82.136.77^-=,则以下说法中正确的是 ( ) A .产量每增加1000件,单位成本下降1.82元 B .产量每减少1000件,单位成本上升1.82元 C .产量每增加1000件,单位成本上升1.82元 D .产量每减少1000件,单位成本下降1.82元 4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^ +=,下列判断正确的是 ( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元

D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε

第二章(简单线性回归模型)2-2答案(可编辑修改word版)

i i i i i 0 1 i i i i i i i )=最小 0 1 i x 一、判断题 2.2 简单线性回归模型参数的估计 1. 使用普通最小二乘法估计模型时,所选择的回归线使得所有观察值的残差和达到最小。(F) 2. 随机扰动项u i 和残差项e i 是一回事。(F ) 3. 在任何情况下 OLS 估计量都是待估参数的最优线性无偏估计。(F ) 4. 满足基本假设条件下,随机误差项 i 服从正态分布,但被解释变量 Y 不一定服从正态分 布。 ( F ) 5. 如果观测值 X i 近似相等,也不会影响回归系数的估计量。 ( F ) 二、单项选择题 1. 设样本回归模型为Y i =? +? X +e ,则普通最小二乘法确定的? 的公式中,错误的是( D )。 ?= ∑(X i - X )(Y i -Y ) ?= n ∑X i Y i -∑X i ∑Y i A. 1 ∑(X i - X )2 B. 1 n ∑X 2 - (∑X ) 2 C. ?= ∑X i Y i -nXY D .?= n ∑X i Y i -∑X i ∑Y i 1 ∑X 2 -nX 2 1 2 2. 以 Y 表示实际观测值, Y ? 表示回归估计值,则普通最小二乘法估计参数的准则是使( D )。A . ∑ (Y i - Y ?i )=0 B . ∑ (Y -Y ? )2=0 C . ∑(Y -Y ? )=最小 D . ∑(Y -Y ? 2 3. 设 Y 表示实际观测值, Y ? 表示 OLS 估计回归值,则下列哪项成立( D )。 A. Y ? =Y B. Y ? =Y C. Y ? =Y D. Y ? =Y 4. 用 OLS 估计经典线性模型Y i =0 + 1X i +u i ,则样本回归直线通过点( D )。 A .(X ,Y ) B .(X ,Y ? ) C .(X ,Y ? ) D . (X ,Y ) 5. 以 Y 表示实际观测值, Y ? 表示 OLS 估计回归值,则用 OLS 得到的样本回归直线 Y ?i =? +? X 满足( A )。

相关文档
最新文档