回归分析及独立性检验的基本知识点及习题集锦

回归分析及独立性检验的基本知识点及习题集锦
回归分析及独立性检验的基本知识点及习题集锦

回归分析及独立性检验的基本知识点及习题集锦

回归分析的基本知识点及习题

本周题目:回归分析的基本思想及其初步应用

本周重点:

(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;

(2)尝试做散点图,求回归直线方程;

(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。

本周难点:

(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.

(2)掌握回归分析的实际价值与基本思想.

(3)能运用自己所学的知识对具体案例进行检验与说明.

(4)残差变量的解释;

(5)偏差平方和分解的思想;

本周内容:

一、基础知识梳理

1.回归直线:

如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

求回归直线方程的一般步骤:

①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→

③写出回归直线方程,并利用回归直线方程进行预测说明.

2.回归分析:

对具有相关关系的两个变量进行统计分析的一种常用方法。

建立回归模型的基本步骤是:

①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;

②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).

③由经验确定回归方程的类型.

④按一定规则估计回归方程中的参数(最小二乘法);

⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.

3.利用统计方法解决实际问题的基本步骤:

(1)提出问题;

(2)收集数据;

(3)分析整理数据;

(4)进行预测或决策。

4.残差变量的主要来源:

(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。

可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。这

种由于模型近似所引起的误差包含在中。

(2)忽略了某些因素的影响。影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重

关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。

(3)观测误差。由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可

能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。

上面三项误差越小,说明我们的回归模型的拟合效果越好。

二、例题选讲

例1:研究某灌溉渠道水的流速与水深之间的关系,测得一组数据如下:

水深

流速

(1)求对的回归直线方程;

(2)预测水深为1.95时水的流速是多少?

分析:本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。

解:1)由于问题中要求根据水深预报水的流速,因此选取水深为解释变量,流速为预报变量,作散点图:

由图容易看出,与之间有近似的线性关系,或者说,可以用一个回归直线方程

来反映这种关系。

由计算器求得。

对的回归直线方程为。

(2)由(1)中求出的回归直线方程,把代入,易得

计算结果表示,当水深为时可以预测渠水的流速为。

评注:

建立回归模型的一般步骤:

(1)确定研究对象,明确两个变量即解释变量和预报变量;

(2)画出散点图,观察它们之间的关系;

(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);

(4)按一定规则估计回归方程中的参数(如最小二乘法);

(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),若存在异常,则检查数据是否有误,或模型是否合适等。

例2:1993年到2002年中国的国内生产总值(GDP)的数据如下:

(1)作GDP和年份的散点图,根据该图猜想它们之间的关系应是什么。

(2)建立年份为解释变量,GDP为预报变量的回归模型,并计算残差。

(3)根据你得到的模型,预报2003年的GDP,并查阅资料,看看你的预报与实际GDP的误差是多少。

(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由。

解:(1)由表中数据制作的散点图如下:

从散点图中可以看出GDP值与年份近线呈线性关系;

(2)用y t表示GDP值,t表示年份,根据截距和斜率的最小二乘计算公式,

得:

从而得线性回归方程:

(3)2003年的GDP预报值为112976.360,根据国家统计局2004年统计,2003年实际GDP值为117251.9,所以预报与实际相-4275.540;(4)上面建立的回归方程的R2=0.974,说明年份能够解释约97%的GDP值变化,因此所建立的模型能够很好地刻画GDP和年份的关系。

说明:关于2003年的GDP的值来源,不同的渠道可能会有所不同。

例3:如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为N,试建立回归方程表述二者之间的关系。

解:由表中数据得散点图如下:

从散点图中可以看出,震级x与大于该震级的地震次数N之间不呈线性相关关系,随着x的减少,所考察的地震数N近似地以指数形式增长.

做变换y=lgN,得到的数据如下表所示:

x和y的散点图如下:

从这个散点图中可以看出x和y之间有很强的线性相差性,因此可以用线性回归模型拟合它们之间的关系。根据截距和斜

率的最小二乘计算公式,得:

故线性回归方程为:相关指数R2≈0.997,说明x可以解释y的99.7%的变化。因此,可以用回归方程

描述x和y之间的关系。

例4:电容器充电后,电压达到,然后开始放电,由经验知道,此后电压随时间变化的规律公式

表示,观测得时间时的电压如下表所示:

0 1 2 3 4 5 6 7 8 9 10

100 75 55 40 30 20 15 10 10 5 5

试求电压对时间的回归方程。

分析:由于两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系,我们可通过对数变

换把指数关系变为线性关系,通过线性回归模型来建立与之间的非线性回归方程。

解:对两边取自然对数得

,令,即。

由所给数据可得

其散点图为:

由散点图可知与具有线性相关关系,可用来表示。

经计算得:(最小二乘法),

,即。所以,。

评注:一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系:

(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;

(2)如果散点图中的点的分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模。

本周练习:

1.对具有相关关系的两个变量统计分析的一种常用的方法是()

A.回归分析 B.相关系数分析 C.残差分析 D.相关指数分析

2.在画两个变量的散点图时,下面叙述正确的是()

A.预报变量在轴上,解释变量在轴上

B.解释变量在轴上,预报变量在轴上

C.可以选择两个变量中任意一个变量在轴上

D.可以选择两个变量中任意一个变量在轴上

3.两个变量相关性越强,相关系数()

A.越接近于0 B.越接近于1 C.越接近于-1 D.绝对值越接近1

4.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为()

A.0 B.1 C.-1 D.-1或1

5.一位母亲记录了她儿子3到9岁的身高,数据如下表:

身高(

由此她建立了身高与年龄的回归模型,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的

是()

A.她儿子10岁时的身高一定是145.83

B.她儿子10岁时的身高在145.83以上

C.她儿子10岁时的身高在145.83左右

D.她儿子10岁时的身高在145.83以下

6.两个变量有线性相关关系且正相关,则回归直线方程中,的系数()

A. B. C. D.

7.两个变量有线性相关关系且残差的平方和等于0,则()

A.样本点都在回归直线上

B.样本点都集中在回归直线附近

C.样本点比较分散

D.不存在规律

8.在建立两个变量与的回归模型中,分别选择了4个不同的模型,它们的相关指数如下,其中拟合最好的模型是()

A.模型1的相关指数为0.98

B.模型2的相关指数为0.80

C.模型3的相关指数为0.50

D.模型4的相关指数为0.25

9.相关指数=。

10.某农场对单位面积化肥用量和水稻相应产量的关系作了统计,得到数据如下:

15 20 25 30 35 40 45

330 345 365 405 445 450 455

如果与之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为时水稻的产量大约是多

少?(精确到)

11.假设美国10家最大的工业公司提供了以下数据:

(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;

(2)建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;

(3)你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由。

参考答案:

A B D B C A A A

9.

10.由于问题中要求根据单位面积化肥用量预报水稻相应的产量,因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图:

由图容易看出,与之间有近似的线性关系,或者说,可以用一个回归直线方程

来反映这种关系。

由计算器求得。

对的回归直线方程为(*)。

由(*)中求出的回归直线方程,把代入,易得

计算结果表示,当单位面积化肥用量为时水稻的产量大约是.

11.

(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:

由于散点图中的样本点基本上在一个带形区域分布,猜想销售总额与利润之间呈现线性相关关系;

(2)由最小二乘法的计算公式,得:

则线性回归方程为:

其残差值计算结果见下表:

(3)对于(2)中所建立的线性回归方程,相关指数为R2≈0.457,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系。

说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确。

独立性检验的基本知识点及习题

本周题目:独立性检验的基本思想及其初步应用

本周重点:

(1)通过对实际问题的分析探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.;了解独立性检验的常用方法:三维柱形图和二维条形图,及其K2(或R2)的大小关系.

(2)通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.

(3)理解独立性检验的基本思想及实施步骤,能运用自己所学的知识对具体案例进行检验.

本周难点:

(1)了解独立性检验的基本思想;

(2)了解随机变量的含义,太大认为两个分类变量是有关系的;

(3)能运用自己所学的知识对具体案例进行检验与说明.

本周内容:

一、基础知识梳理

1.独立性检验

利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。

2.判断结论成立的可能性的步骤:

(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。

(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

二、例题选讲

例1.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:

患病不患病合计

吸烟43 162 205

不吸烟13 121 134

合计56 283 339

试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?

分析:最理想的解决办法是向所有50岁以上的人作调查,然后对所得到的数据进行统计处理,但这花费的代价太大,实际上是行不通的,339人相对于全体50岁以上的人,只是一个小部分,已学过总体和样本的关系,当用样本平均数,样本方差去估计总体相应的数字特征时,由于抽样的随机性,结果并不唯一。现在情况类似,我们用部分对全体作推断,推断可能正确,也可能错误。如果抽取的339个调查对象中很多人是吸烟但没患慢性气管炎,而虽不吸烟因身体体质差而患慢性气管炎,能够

得出什么结论呢?我们有95%(或99%)的把握说事件与事件有关,是指推断犯错误的可能性为5%(或1%),这

也常常说成是“以95%(或99%)的概率”是一样的。

解:根据列联表中的数据,得

因为,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。

评注:对两个分类变量进行独立性检验,要对样本的选取背景、时间等因素进行分析。

例2.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:

班级与成绩列联表

画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。

解:列联表的条形图如图所示:

由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为k≈0.653>0.455。

由下表中数据

得:P(K2≥0.455)≈0.50,

从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。

评注:(1)画出条形图后,从图形上判断两个分类变量之间是否有关系。这里通过图形的直观感觉的结果可能会出错。

(2)计算得到K2的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”。这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立。在独立性检验中,在假设“成绩优秀与班级没有关系”的情况下,计算得到的K2的值比较小,且P(K2≥0.653)≈0.42,说明事件(K2≥0.653)不是一个小概率事件,这个事件的发生不足以说明“成绩优秀与班级没有关系”,即没有理由说明“成绩优秀与班级有关系”。这里没有推出小概率事件发生类似于反证法中没有推出矛盾。

例3.为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联列表:

药物效果与动物试验列联表

患病未患病总计

服用药10 45 55

没服用药20 30 50

总计30 75 105

请问能有多大把握认为药物有效?

解:假设“服药情况与是否患病之间没有关系”,则K2的值应比较小;如果K2的值很大,则说明很可能“服药情况与是否患病之间有关系”。由题目中所给数据计算,得K2的观测值为k≈6.110,而P(K2≥5.024)≈0.025,所以有97.5%的把握认为“服药情况与是否患病之间有关系”,即大约有97.5%的把握认为药物有效。

例4.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示,根据此资料你是否认为在恶劣气候中男人比女人更容易晕机?

分析:这是一个列联表的独立性检验问题,根据列联表的数据求解。

解:由条件中数据,计算得:,

因为,所以我们没有理由说晕机是否跟男女性别有关,尽管这次航班中男人晕机的比例比女人晕

机的比例高,但我们不能认为在恶劣的气候飞行中男人比女人更容易晕机。

评注:在使用统计量作列联表的独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时

一定要注意这一点,本例中的4个数据都大于5,且满足这一要求的。

本周练习:

1.在一次独立性检验中,其把握性超过了99%,则随机变量的可能值为()

A.6.635B.5.024C.7.897D.3.841

2.把两个分类变量的频数列出,称为()A.三维柱形图B.二维条形图C.列联表D.独立性检验3.由列联表

合计

43 162 205

13 121 134

合计56 283 339

则随机变量的值为。

4.某大学希望研究性别与职称之间是否有关系,你认为应该收集哪些数据?

5.某高校“统计初步”课程的教师随机调查了该选修课的一些学生情况,具体数据如下表:

为了检验主修专业是否与性别有关系,根据表中的数据,得到

因为,所以断定主修统计专业与性别有关系。这种判断出错的可能性为。

6.在对人们休闲的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。

(1)根据以上数据建立一个的列联表;

(2)检验性别与休闲方式是否有关系。

7.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表。试问能以多大把握认为婴儿的性别与出生的时间有关系。

参考答案:

1.C 2.C

3.7.469

4.女教授人数,男教授人数,女副教授人数,男副教授人数(或高级职称中女性的人数,高级职称中男性的人数,中级职称中女性的人数,中级职称中男性的人数。)

5.5%(或0.05)

6.答案:

(1)的列联表:

看电视运动合计

女43 27 70

男21 33 54

合计64 60 124

(2)假设休闲方式与性别无关,计算

因为,所以有理由认为假设休闲方式与性别无关是不合理的,即我们有97.5%的把握认为休闲方式与性别无关。

7.由所给数据计算得K2的观测值为k≈3.689,而由

知P(K2≥2.706)=0.10

所以有90%的把握认为“婴儿的性别与出生的时间有关系”。

例1:研究某灌溉渠道水的流速与水深之间的关系,测得一组数据如下:

水深

流速

(1)求对的回归直线方程;

(2)预测水深为1.95时水的流速是多少?

例2:1993年到2002年中国的国内生产总值(GDP)的数据如下:

年份GDP

1993 34634.4

1994 46759.4

1995 58478.1

1996 67884.6

1997 74462.6

1998 78345.2

1999 82067.5

2000 89468.1

2001 97314.8

2002 104790.6

(1)作GDP和年份的散点图,根据该图猜想它们之间的关系应是什么。

(2)建立年份为解释变量,GDP为预报变量的回归模型,并计算残差。

(3)根据你得到的模型,预报2003年的GDP,并查阅资料,看看你的预报与实际GDP的误差是多少。

(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由。

例3:如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为N,试建立回归方程表述二者之间的关系。

例4:电容器充电后,电压达到,然后开始放电,由经验知道,此后电压随时间变化的规律公式

表示,观测得时间时的电压如下表所示:

试求电压对时间的回归方程。

回归分析测试题-21页文档资料

测试题 1.下列说法中错误的是() A.如果变量x与y之间存在着线性相关关系,则我们根据试验数据得到的点(i=1,2,3,…, n)将散布在一条直线附近B.如果两个变量x与y之间不存在线性相关关系,那么根据试验数据不能写出一个线性方程。 C.设x,y是具有线性相关关系的两个变量,且回归直线方程是,则叫回归系数 D.为使求出的回归直线方程有意义,可用线性相关性检验的方法判断变量x与y之间是否存在线性相关关系 2.在一次试验中,测得(x,y)的四组值分别是(1,2),(2,3),(3,4),(4,5),则y与 x之间的回归直线方程是() A.B. C.D. 3.回归直线必过点() A.(0,0)B. C. D. 4.在画两个变量的散点图时,下面叙述正确的是() A.预报变量在轴上,解释变量在轴上 B.解释变量在轴上,预报变量在轴上 C.可以选择两个变量中任意一个变量在轴上 D.可以选择两个变量中任意一个变量在轴上 5.两个变量相关性越强,相关系数r() A.越接近于0 B.越接近于1 C.越接近于-1 D.绝

对值越接近1 6.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为() A.0 B.1 C.-1 D.-1或1 7.一位母亲记录了她儿子3到9岁的身高,数据如下表: 年龄(岁)3456789 身高(94.8104.2108.7117.8124.3130.8139.0由此她建立了身高与年龄的回归模型,她用这个模型预测儿子10岁时的身高, 则下面的叙述正确的是() A.她儿子10岁时的身高一定是145.83 B.她儿子10岁时的身高在145.83以上 C.她儿子10岁时的身高在145.83左右 D.她儿子10岁时的身高在145.83以下 8.两个变量有线性相关关系且正相关,则回归直线方程中, 的系数() A.B.C.D. 能力提升: 9.一个工厂在某年每月产品的总成本y(万元)与该月产量x(万件)之间有如下数据:

收集一,独立性检验题型归纳

专题一、独立性检验 题型一、独立事件的判断 1、独立事件的定义:对于两个事件A 、B ,如果有P(AB)=P(A)P(B)就称事件A 与B 互相独 立,简称A 与B 独立. 2、当事件A 与B 独立时,事件A 与B 、A 与B 、A 与B 也独立. 【例1】从一副52张扑克牌(不含大小王)中,任意抽一张出来,设事件A :“抽到黑桃”, B: “抽到皇后Q ”,试用P(AB)=P(A)·P(B)验证事件A 与B 及A 与B 是否独立? 【变式1】设两个独立事件A 和B 都不发生的概率为19,A 发生B 不发生的概率与B 发生A 不发生的概率相同,则事件A 发生的概率P(A)是( ) A 、29 B 、118 C 、1 3 D 、2 3

【变式2】掷一枚硬币,记事件A :“出现正面”,B :“出现反面”,则有( ) A 、A 与 B 相互独立 B 、P(AB)=P(A)·P(B) C 、A 与B 不相互独立 D 、P(AB)=1 4 【变式3】坛子中放有3个白球,2个黑球,从中进行不放回地摸球,用A 表示第一次摸到 白球,B 表示第二次摸到白球,则A 与B 是( ) A 、互斥事件 B 、相互独立事件 C 、对立事件 D 、不相互独立事件 【变式4】假设生男孩和生女孩是等可能的,设事件A 为“一个家庭中既有男孩,又有女 孩”, 事件B 为“一个家庭中最多有一个女孩”.某一家庭有三个小孩,则事 件A 与 B 是否独立? 【变式5】(1)甲、乙两名射手同时向一目标射击,设事件A :“甲击中目标”,事件B : “乙击中目标”,则事件A 与事件B ( ) A 、相互独立但不互斥 B 、互斥但不相互独立 C 、相互独立且互斥 D 、既不相互独立也不互斥 (2)掷一颗骰子一次,设事件A :“出现偶数点”,事件B :“出现3点或6点”, 则事 件A ,B 的关系是( ) A 、互斥但不相互独立 B 、相互独立但不互斥 C 、互斥且相互独立 D 、既不相互独立也不互斥

相关与回归分析习题

第六章相关与回归分析习题 一、填空题 1现象之间的相关关系按相关的程度分为 ___________ 、_________ 和 _____ ;按相关的形式分为_ 和________ ;按影响因素的多少分为__________ 和_______ 。 2 ?两个相关现象之间,当一个现象的数量由小变大,另一个现象的数量__________ ,这种相关 称为正相关;当一个现象的数量由小变大,另一个现象的数量__________ ,这种相关称为负相关。 3 ?相关系数的取值范围是___________ 。 4 ?完全相关即是_________ 关系,其相关系数为 _____________ 。 5?相关系数,用于反映__________ 条件下,两变量相关关系的密切程度和方向的统计指标。 6 ?直线相关系数等于零,说明两变量之间_________ ;直线相关系数等1,说明两变量之 间________ ;直线相关系数等于一1,说明两变量之间 ________________ 。 7 ?对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系 的________ ,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用 数学方程式表达,称为 ___________ 。 8. ___________________________________ 回归方程y=a+bx中的参数a是, b是。在统计中估计待定参数的常用方 法是______________ 。 9. _______ 分析要确定哪个是自变量哪个是因变量,在这点上它与___________ 不同。 10. 求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通 过________ 化成________ 来解决。 11. ___________________________________________________ 用来说明回归方程代表性大小的统计分析指标是 __________________________________________________ 。 二、单项选择题 3. 年劳动生产率z (干元)和工人工资y=10+70x,这意味着年劳动生产率每提高1千元时,工 人工资平均() A增加70元B减少70元C增加80元D减少80元 4?若要证明两变量之间线性相关程度是高的,则计算出的相关系数应接近于() A+1 B 0 C 0 ? 5 D [1] 5?回归系数和相关系数的符号是一致的,其符号均可用来判断现象() A线性相关还是非线性相关B正相关还是负相关 C完全相关还是不完全相关D单相关还是复相关 6 ?某校经济管理类的学生学习统计学的时间(X)与考试成绩(y)之间建立线性回归方程y c=a+b x。经计算,方程为y c=200 —0.8x,该方程参数的计算() A a值是明显不对的 B b值是明显不对的 C a值和b值都是不对的 C a值和6值都是正确的 7?在线性相关的条件下,自变量的均方差为2,因变量均方差为5,而相关系数为0. 8时, 则其回归系数为:() A 8 B 0.32 C 2 D 12 . 5 8?进行相关分析,要求相关的两个变量()

应用回归分析填空题和答案

应用回归分析:填空 (1) 回归分析是处理变量间_______关系的一种数理统计方法,若变量间具有线性关系,则称相应的回归分析为____________;若变量间不具有线性关系,就称相应的回归分析为___________________。 (2) 现代统计学中研究统计关系的两个重要分支是_________和_____________。 (3) 回归模型的建立是基于回归变量的样本统计数据,常用的样本数据分为___ ___________________和______________________。 (4) 回归模型通常应用于______________________、____________________和_____________________等方面。 (5) 最小二乘法的基本特点是使回归值与_________________________平方和为最小,最小二乘法的理论依据是___________________________。 (6) 多元线性回归模型ε β += X Y ,回归参数β的最小二乘估计为 β ?=_________________________。 (7) 设线性回归模型参数向量β(p+1维)的最小二乘估计为β?,c 为p+1维常数向量,则______________是____________的最小方差线性无偏估计。 (8) 在线性回归分析中,最小二乘估计的性质有______________; _____ _____________和____________________等。 (9) 多元线性回归模型n i x x y i ip p i i ,,2,1,110 =++++=εβββ,误差项 ()n i i ,,2,1, =ε需满足的markov Gauss -假设为: (a):________________________________________; (b):________________________________________; (c):_________________________________________。 (10) 对回归方程做显著性检验时,可以用P 值代替检验统计量值,作出拒绝或接受原假设的决定:当P_______α时,接受0H ;当P________α时,拒绝0H 。 (11) 在p 元线性回归中,确定随机变量y 与自变量12,,,p x x x 间是否有线性

1.1《独立性检验》习题

1-1《 统计案例》习题 1.1 独立性检验 双基达标 限时15分钟 1.下面是一个2×2的列联表 则表中a ,b 解析 由a +21=73,得a =52, 由a +5=b ,得b =57. 答案 52,57 2.为了检验两个事件A 与B 是否相关,经计算得χ2=3.850,我们有________ 的把握认为事件A 与B 相关. 答案 95% 3.为了考查高中生的性别与是否喜欢数学课程之间的关系,某市在该辖区内 的高中学生中随机地抽取300名学生进行调查,得到表中数据: 解析 由χ2 =300 47×123-35×95 2142×158×82×218≈4.512. 答案 4.512 4.下列关于独立性检验的4个叙述,说法正确的是________. ①χ2 的值越大,说明两事件相关程度越大; ②χ2 的值越小,说明两事件相关程度越小; ③χ2 ≤3.841时,有95%的把握说事件A 与B 无关; ④χ2 >6.635时,有99%的把握说事件A 与B 有关. 解析 在独立性检验中,随机变量χ2 的取值大小只能说明“两分类变量有关”,这一结论 的可靠程度,即可信度,而不表示两事件相关的程度,故①②不正确.χ2 >6.635说明有99%的把握认为二者有关系,χ2≤3.841时,若x 2 >2.706则有90%的把握认为事件A 与B 有关系.因

此可知③中说法是不正确的. 答案 ④ 5.想要检验是否喜欢参加体育活动是不是与性别有关,应该假 设________________. 解析 独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时 的χ2应该很小,如果χ2很大,则可以否定假设;如果χ2 很小,则不能够肯定或者否定假设. 答案 H 0:喜欢参加体育活动与性别无关 6.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行 了3年的跟踪研究,调查他们是否发作过心脏病,调查结果如下表所示: 解 提出假设H 0:两种手术对病人又发作心脏病没有影响.由列联表,得 χ2=392× 39×167-157×29 2196×196×68×324 ≈1.780<2.706. 因为当H 0成立时,χ2 ≥1.780的概率大于10%,这个概率比较大,所以根据目前的调查数 据,不能否定假设H 0,故我们没有理由说这两种手术与“又发作过心脏病”有关,故可以认为病人是否发作心脏病跟他做过何种手术无关. 综合提高 限时30分钟 7. 2008年10月8日为我国第十一个高血压日,主题是“在家测量您的 血压”.某社区医疗服务部门为了考察该社区患高血压病是否与食盐摄入 量有关,对该社区的1 633人进行了跟踪调查,得出以下数据: 计算χ2有关系.

第七章 相关分析与回归分析(补充例题)

第七章 相关分析与回归分析 例1、有10个同类企业的固定资产和总产值资料如下: 根据以上资料计算(1)协方差和相关系数;(2)建立以总产值为因变量的一元线性回归方程;(3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少? 解:计算表如下: (1)协方差——用以说明两指标之间的相关方向。 2 2) )((n y x xy n n y y x x xy ∑∑∑∑- = - -= σ

35.126400100 9801 6525765915610>=?-?= 计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。 (2)相关系数用以说明两指标之间的相关方向和相关的密切程度。 ∑∑∑ ∑∑∑∑--- = ] )(][) ([2 2 2 2 y y n x x n y x xy n r 95 .0) 980110866577 10()6525566853910(9801 65257659156102 2 =-??-??-?= 计算得到的相关系数为0.95,表示两指标为高度正相关。 (3) 2 2 26525 56685391098016525765915610) (-??-?= --= ∑∑∑∑∑x x n y x xy n b 90 .014109765 126400354257562556685390 6395152576591560== --= 85 .39210 65259.010 9801=? -= -=x b y a 回归直线方程为: x y 9.085.392?+= (4)当固定资产改变200万元时,总产值平均改变多少? x y ?=?9.0,180 2009.0|200=?=?=?x y 万元 当固定资产改变200万元时,总产值平均增加180万元。 (5)当固定资产为1300万元时,总产值为多少? 85 .156213009.085.392|1300=?+==x y 万元 当固定资产为1300万元时,总产值为1562.85万元。 例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。

回归分析练习题(有答案)

1.1回归分析的基本思想及其初步应用 一、选择题 1. 某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为y bx a =+,已知:数据x 的平 均值为2,数据 y 的平均值为3,则 ( ) A .回归直线必过点(2,3) B .回归直线一定不过点(2,3) C .点(2,3)在回归直线上方 D .点(2,3)在回归直线下方 2. 在一次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则Y 与X 之间的回归直线方程为( )A . y x 1=+ B . y x 2=+ C . y 2x 1=+ D. y x 1=-3. 在对两个变量x ,y 进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释; ②收集数据(i x 、i y ) ,1,2i =,…,n ; ③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图 如果根据可行性要求能够作出变量,x y 具有线性相关结论,则在下列操作中正确的是( ) A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③① 4. 下列说法中正确的是( ) A .任何两个变量都具有相关关系 B .人的知识与其年龄具有相关关系 C .散点图中的各点是分散的没有规律 D .根据散点图求得的回归直线方程都是有意义的 5. 给出下列结论: (1)在回归分析中,可用指数系数2 R 的值判断模型的拟合效果,2 R 越大,模型的拟合效果越好; (2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好; (3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,r 越小,模型的拟合效果越好; (4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 以上结论中,正确的有( )个. A .1 B .2 C .3 D .4 6. 已知直线回归方程为2 1.5y x =-,则变量x 增加一个单位时( ) A.y 平均增加1.5个单位 B.y 平均增加2个单位 C.y 平均减少1.5个单位 D. y 平均减少2个单位 7. 下面的各图中,散点图与相关系数r 不符合的是( )

独立性检验教案

3.2独立性检验的基本思想及初步应用教案 一、教学目标 1.知识与技能: 通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题. 2.过程与方法: 通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题。通过列联表、等高条形图,使学生直观感觉到吸烟和患肺癌可能有关系.这一直觉来自于观测数据,即样本.问题是这种来自于样本的印象能够在多大程度上代表总体?这节课就是为了解决这个问题,让学生亲身体验直观感受的基础上,提高学生的数据分析能力. 3.情感态度价值观: 通过本节课的学习,加强数学与现实生活的联系。以科学的态度评价两个分类变量有关系的可能性。培养学生运用所学知识,解决实际问题的能力。对问题的自主探究,提高学生独立思考问题的能力;让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性。教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性。 二、教学重点 理解独立性检验的基本思想及实施步骤 三、教学难点 1.独立性检验基本思想的理解 2.2k的含义;2k的观测值越大,就认为两个分类变量是有关系的 四、教学方法 以“问题串”的形式,层层设疑,诱思探究。用“讲授法”,循序渐进,引导学生,步步为营,螺蜁上升探究本节课的知识内容. 五、教学过程 (一)问题引入 1.“吸烟”与“患肺癌”有关 3.“秃顶”与“患心脏病”有关 2.“性别”与“是否喜欢数学”有关 4.“性别”与“选择文\理科”有关 5.“星座”与“爱好”有关 6.“血型”与“性格”有关 日常生活中,常听到这样的言论,可信吗?可信度是多少?带着这样的问题来研究本节课。(二)阅读教材91页回答:(自主学习内容) 1.分类变量的概念是什么?前面提到的问题关心的是什么?

统计学原理第九章(相关与回归)习题答案

第九章相关与回归 一.判断题部分 题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。() 答案:× 题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。() 答案:√ 题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。() 答案:× 题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。() 答案:× 题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。() 答案:× 题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。() 答案:√ 题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。() 答案:×

题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。() 答案:× 题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。() 答案:√ 题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。() 答案:× 题目11:完全相关即是函数关系,其相关系数为±1。() 答案:√ 题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。() 答案× 二.单项选择题部分 题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 答案:B 题目2:现象之间的相互关系可以归纳为两种类型,即()。 A.相关关系和函数关系 B.相关关系和因果关系

应用回归分析试卷

1、对于一元线性回归01(1,2,...,)i i i y x i n ββε=++=,()0i E ε=,2 var()i εσ=, cov(,)0()i j i j εε=≠,下列说法错误的是 (A)0β,1β的最小二乘估计0?β,1 ?β 都是无偏估计; (B)0β,1β的最小二乘估计0?β,1?β对1y ,2y ,...,n y 是线性的; 2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量y 的期望成正比,则可通过下列哪种变换将方差常数化 (A) 1 y ; (C) ln(1)y +;(D)ln y . 3、下列说法错误的是 (A)强影响点不一定是异常值; (B)在多元回归中,回归系数显着性的t 检验与回归方程显着性的F 检验是等价的; (C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关. 4、下面给出了4个残差图,哪个图形表示误差序列是自相关的 (A) (C) 5 应用回归分析试题(一) (C)0β,1β的最小二乘估计0?β,1 ?β之间是相关的; (D)若误差服从正态分布,0β,1β的最小二乘估计和极大似然估计是不一样的.

(A) (B) (C) (D) 二、填空题(每空2分,共20分) 1、考虑模型y X βε=+,2var()n I εσ=,其中:X n p '?,秩为p ',2 0σ>不一定 已知,则?β =__________________, ?var()β=___________,若ε服从正态分布,则 22 ?()n p σ σ'-:___________,其中2?σ 是2σ的无偏估计. 2、下表给出了四变量模型的回归结果: 则残差平方和=_________,总的观察值个数=_________,回归平方和的自由度=________. 3、已知因变量y 与自变量1x ,2x ,3x ,4x ,下表给出了所有可能回归模型的AIC 值,则最优子集是_____________________. 4、在诊断自相关现象时,若0.66DW =,则误差序列的自相关系数ρ的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法. 5、设因变量y 与自变量x 的观察值分别为12,,...,n y y y 和12,,...,n x x x ,则以* x 为折点的 折线模型可表示为_____________________. 三、(共45分)研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的线性回归关系.观察数据及残差值i e 、学生化残差i SRE 、

人教版高中数学选修(1-2)-1.2典型例题:一道独立性检验考题及变式

一道独立性检验考题及变式 独立性检验是通过K2统计量,运用假设检验的方法,研究了两个“变量”的关系问题.独立性检验在医学、社会经济、生活、科学技术等方面的应用十分广泛,在处理社会问题时得到得数据中,也常常用到独立性检验. 例.(2010年高考辽宁理)为了比较注射A, B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B。 (Ⅰ)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率; (Ⅱ)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表 (ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小; (ⅱ)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”. 表3:

分析 (1)根据各组的频数分布表计算出各组的频率,再除以组距5,此即频率分布直方图中各组的小矩形的高,据此画出频率分布直方图;(2)根据给出的频数分布表和列联表的要求,即可写出列联表,然后根据给出的公式进行计算,再与临界值表进行比较.作出结论. 解:(Ⅰ)甲、乙两只家兔分在不同组的概率为 991981002002100199 C P C == (Ⅱ)(i ) 图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图 可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药物B 后疱疹面积的中位 数。 ……8分 (ii )表3:

独立性检验典型题例解析

独立性检验典型题例解析 所谓独立性检验,就是要把采集样本的数据,利用公式计算2 k 的值,比较与临界值的大小关系,来判定事件A 与B 是否无关的问题。 具体步骤:(1)采集样本数据。 (2)由 22 ()()()()() n ad bc K a d c d a c b d -=++++ 计算2K 的值。 (3)统计推断,当2K >3.841时,有95%的把握说事件A 与B 有关;当2 K >6.635时,有99%的把握说事件A 与B 有关;当2 K ≤3.841时,认为事件A 与B 是无关的。 附临界值参考表: P (K 2≥x 0) 0.10 0.05 0.025 0.10 0.005 0.001 x 0 2.706 3.841 5.024 6.635 7.879 10.828 下面我们通过几个典型例题对独立性检验问题进行剖析,使同学们进一步掌握这类问题的研究方法。 例1、为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示: 根据上述数据试问色盲与性别是否是相互独立的? 分析:问题归结为二元总体的独立性检验问题。 解:由已知条件可得下表 男 女 合计 正常 442 514 956 色盲 38 6 44 合计 480 520 1000 依据公式22 ()()()()()n ad bc K a d c d a c b d -=++++得2 k =()520 4804495651438644210002 ????-?=27.139。 由于27.139>6.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以 认为色盲与性别不是相互独立的。 评注:根据假设检验的思想,比较计算出的2 k 与临界值的大小,选择接受假设还是拒绝假设。 男 女 正常 442 514 色盲 38 6

第6章相关与回归分析习题

《统计学》习题6 (第6章相关分析与回归分析) 班级 学号 姓名 一、单项选择题: 1、相关关系是指变量间的( )。 ① 严格的函数关系 ② 简单关系和复杂关系 ③ 严格的依存关系 ④ 不严格的依存关系 2、单相关也叫简单相关,所涉及变量的个数为( )。 ① 一个 ② 两个 ③ 三个 ④ 多个 3、直线相关即( ) ① 线性相关 ② 非线性相关 ③ 曲线相关 ④ 正相关 4、相关系数的取值范围是( )。 ① (0,1) ② [0,1] ③(-1,1) ④ [-1,1] 5、相关系数为零时,表明两个变量间( )。 ① 无相关关系 ② 无直线相关关系 ③ 无曲线相关关系 ④ 中度相关关系 6、相关系数的值越接近-1,表明两个变量间( )。 ① 正线性相关关系越弱 ② 负线性相关关系越强 ③ 线性相关关系越弱 ④ 线性相关关系越强 7、进行简单直线回归分析时,总是假定( )。 ① 自变量是非随机变量、因变量是随机变量 ② 两变量都是随机变量 ③ 自变量是随机变量、因变量是确定性变量 ④ 两变量都不是随机变量 8、回归方程i i x y 5.1123?+=中的回归系数数值表明:当自变量每增加一个单位时,因变量( )。 ① 增加1.5个单位 ② 平均增加1.5个单位 ③ 增加123个单位 ④ 平均增加123个单位 9、下列现象的相关密切程度高的是( ) 。 ① 某商店的职工人数与商品销售额之间的相关系数为0.87 ② 流通费用率与商业利润率之间的相关系数为-0.94 ③ 商品销售额与商业利润率之间的相关系数为0.51 ④ 商品销售额与流通费用率之间的相关系数为-0.81 10、从变量之间相关的表现形式看,可分为( )。 ① 正相关与负相关 ② 线性相关和非线性相关 ③ 简单相关与多元相关 ④ 完全相关和不完全相关 二、多项选择题: 1、下列表述正确的有( )。 ① 具有明显因果关系的两变量一定不是相关关系 ② 只要相关系数较大,两变量就一定存在密切关系 ③ 相关关系的符号可以说明两变量相互关系的方向 ④ 样本相关系数和总体相关系数之间存在抽样误差 ⑤ 相关系数的平方就是判定系数 2、下列各组变量之间属于相关关系的有( )。 ① 家庭收入越多与其消费支出也越多 ② 人口数与消费品的需求量 ③ 人的身高与体重 ④ 一般地说,一个国家文化素质越高,则人口的平均寿命也越长 ⑤ 在一定的施肥量范围内,施肥量增加,农作物收获量也增加 3、判断现象之间有无相关关系的方法有( )。 ① 编制相关表 ② 绘制相关图 ③ 计算估计标准误差 ④ 对客观现象作定性分析 ⑤ 计算相关系数 4、相关分析是( )。 ① 研究两个变量之间是否存在着相关关系 ② 测定相关关系的密切程度 ③ 判断相关关系的形式 ④ 配合相关关系的方程式 ⑤ 进行统计预测或推断 5、应用相关分析与回归分析需注意( )。 ① 在定性分析的基础上进行定量分析 ② 要注意现象质的界限及相关关系作用的范围 ③ 要具体问题具体分析 ④ 要考虑社会经济现象的复杂性 ⑤ 对相关与回归分析结果的有效性应进行假设检验 三、填空题: 1、按变量之间的相关的表现形态可分为( )和( )两种。 2、相关系数r 的符号反映相关关系的( ),其绝对值的大小反映两变量线性相关的( )。 3、样本容量较大时,样本相关系数r 越大,表示总体的相关程度( )。 4、估计回归方程的参数时,常用的方法是( ),其基本要求是( )。 5、回归分析和相关分析的联系表现在:相关分析是回归分析的( ),回归分析是相关分析的( )。

独立性检验的基本思想及其初步应用习题及答案

数学·选修1-2(人教A版) 独立性检验的基本思想及其初步应用 ?达标训练 1.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是( ) A.散点图B.等高条形图 C.2×2列联表 D.以上均不对 答案:B 2.在等高条形图形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( ) 与 d c+d 与 a c+d 与 c c+d 与 c b+c 答案:C 3.对分类变量X与Y的随机变量K2的观测值k,说法正确的是( ) A.k越大,“ X与Y有关系”可信程度越小 B.k越小,“ X与Y有关系”可信程度越小 C.k越接近于0,“X与Y无关”程度越小 D.k越大,“X与Y无关”程度越大 答案:B 4.下面是一个2×2列联表:

则表中a、b的值分别为( ) A.94、96 B.52、50 C.52、54 D.54、52 答案:C 5.性别与身高列联表如下: 那么,检验随机变量K2的值约等于 ( ) A. B. C.22 D. 答案:C 6.给出列联表如下: 根据表格提供的数据,估计“成绩与班级有关系”犯错误的概率约是( ) A.B.0.5 C.D. 答案:B

?素能提高 1.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲,下列说法中正确的是( ) A .男人、女人中患有色盲的频率分别为、 B .男人、女人患色盲的概率分别为19240、3 260 C .男人中患色盲的比例比女人中患色盲的比例大,患色盲是与性别有关的 D .调查人数太少,不能说明色盲与性别有关 解析:男人患色盲的比例为38480,比女人中患色盲的比例6 520 大, 其差值为?? ???? 38480-6520≈ 6,差值较大. 答案:C 2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 由K 2=算得, K 2=≈. 附表: 参照附表,得到的正确结论是( ) A .有99%以上的把握认为“爱好该项运动与性别有关” B .有99%以上的把握认为“爱好该项运动与性别无关” C .在犯错误的概率不超过%的前提下,认为“爱好该项运动与性别有关” D .在犯错误的概率不超过%的前提下,认为“爱好该项运动与性

独立性检验练习题

独立性检验练习题 一、选择题 1 ?对长期吃含三聚氰胺的婴幼儿奶粉与患肾结石这两个分类变量的计算中,下列说法正确的是 () 2 A. 若K的值大于6.635,我们有99%的把握认为长期吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系,那么在100个长期吃含三聚氰胺的三鹿奶粉的婴幼儿中必有99人患有肾结石病; B. 从独立性检验可知有99%的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系时,我们说某一个婴幼儿吃含三聚氰胺的三鹿婴幼儿奶粉,那么他有99%的可能患肾结石病; C. 若从统计量中求岀有95%的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系,是指有5%的可能性使得推判岀现错误; D. 以上三种说法都不正确。 根据上述数据,试问色盲与性别关系是( ) A.相互独立 B.不相互独立 A. 0.4 B. 0.5 C. 0.75 D. 0.85 二、填空题 2 4. 通过计算高中生的性别与喜欢唱歌列联表中的数据,得到K ■ 4.9 8并且已知 2

P(K -3.841) : 0.05,那么可以得到的结论是 _____________________________________________ 5?下面是一个2X 2列联表 则 三、计算题 7.某大型企业人力资源部为了研究企业员工工作积极性和对企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示: 独立性检验练习题参考答案-、选择题 1 ? C对于A,若K2的值为6.635,我们有99%的把握认为吃含三聚氰胺的三鹿奶粉的婴幼儿与患肾结 石有关系,但在100个吃含三聚氰胺的三鹿婴幼儿奶粉婴幼儿中未必有99人患有肺病;对于B同样不成立,C是正确的,故选C. 2. B k =27.139 10,828,所以的99.9%的把握认为色盲与性别是有关的,从而拒绝原假设,可 以认为色盲与性别不是相互独立. 心 2 90(20 汉27— 25 182 729000 “、心亠八钿舟 3. B计算K20.18218623 ::: 2.706可知,没有充分理由 45 汶45 疋38 乂52 4001400 说明成绩与班级有关系”,即成绩的优秀与不优秀”与班级是相互独立的,所以估计成绩与班级有关系”犯错误的概率约是0.5. 二?填空题 4 ?有约95%以上的把握认为性别与喜欢唱歌之间有关系” 5. 26,44 因为a+42=68,b+54=68+30,所以a=68-42=26,b=68+30-54=44

最新资源包 7相关与回归分析习题答案

章后习题参考答案 第七章相关与回归分析 1.单项选择题 (1)A,(2)C,(3)D,(4)B,(5)A 2.多项选择题 (1)AB,(2)BE,(3)ABE,(4)BD,(5)ABCDE 3.判析题 (1)×,(2)√,(3)√,(4)√,(5)× 4.简答题 (1)什么是相关分析?相关分析的主要内容是什么? 相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的关系的一种统计方法。 相关分析的内容: ①确定现象之间有无相关关系 ②确定相关关系的表现形式 ③判定相关关系的密切程度和方向 (2)什么是回归分析?回归分析的主要内容是什么? 回归分析就是对具有相关关系的两个或两个以上变量之间的数量变化关系进行测定,建立因变量和自变量之间数量变动关系的数学表达式(回归方程),以便利用自变量的数值去估计或预测因变量数值的统计分析方法。 ①根据研究的目的和现象之间的内在联系,确定自变量和因变量 ②确定回归分析模型的类型及数学表达式 ③对回归分析模型进行评价和诊断 ④根据给定的自变量数值推断因变量的数值 (3)相关分析和回归分析有什么关系? ①回归分析与相关分析的区别 从广义上来说,相关分析包括回归分析,从狭义上说,相关分析与回归分析又有一定的区别。狭义的相关分析和回归分析的区别主要有以下三个方面: 第一,在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是

对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。 第二,在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的。 第三,相关分析主要是通过一个指标即相关系数来反映变量之间相关密切程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的;而在回归分析中,对于互为因果关系的两个变量,则有可能存在两个回归方程。 ②相关分析与回归分析的联系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。 (4)什么是估计标准误差?估计标准误差的作用是什么? 估计标准误差是说明回归直线代表性大小的统计分析指标,它说明观察值围绕着回归直线的变化程度或分散程度。 估计标准误差的作用包括: 第一,说明以回归直线为中心的所有相关点的离散程度; 第二,说明回归直线的代表性大小; 第三,可以对因变量的值进行区间估计。 (5)什么是相关关系?什么是函数关系?二者之间有什么关系? 函数关系是指现象之间存在着严格的数量依存关系。在这种关系中,某个现象的数值发生变化,都有另一个现象的确定值与它相对应,现象之间的数值是一一对应关系相关关系是指现象间存在的不完全确定的数量依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应,现象之间的数值并不是一一对应关系。 相关关系与函数关系即有区别,又有联系。有些函数关系往往因为有观察或测量误差存在,以及各种随机因素的干扰等原因,在实际中常常通过相关关系表现出来;而在研究相关关系时,其数量间的规律性通常也是通过函数关系来近似地表现出来的。 ●实务题 1.(1)B (2)C (3)C (4)B (5)A

应用回归分析试题套

应用回归分析试题(一) 1、对于一元线性回归y 0i X i i(i 1,2,..., n),E(J 0 , var( J cov( i, j) 0(i j),下列说法错误的是 (A) 0,1的最小一乘估计? '0, ?都是无偏估计; (B) 0,1的最小一乘估计? 0, Q ?对y,y2,... ,y n是线性的; (C) 0,1的最小一乘估计 ? , ?之间是相关的; (D)若误差服从正态分布,0,1的最小二乘估计和极大似然估计是不一样的 2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换.如果误差方差与因变量y的期望成正比,则可通过下列哪种变换将方差常数化 1 (A) - ;(B) “ ;(C) ln( y 1) ;(D) In y. y 、 3、下列说法错误的是 (A) 强影响点不一定是异常值; (B) 在多元回归中,回归系数显着性的t检验与回归方程显着性的F检验是等价的; (C) 一般情况下,一个定性变量有k类可能的取值时,需要引入k-1个0-1型自变量; (D) 异常值的识别与特定的模型有关. 4、下面给岀了4个残差图,哪个图形表示误差序列是自相关的 (A) (B) (C) (D) 5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的 (A) (B) (C)(D) 二、填空题(每空2分,共20分)

2 2 1、考虑模型y X ,var( ) I n,其中X : n p,秩为p,0不一定

已知,则 ? ________________ , var ( ?) _________ ,若 服从正态分布,则 2、下表给岀了四变量模型的回归结果: 则残差平方和= ___________ ,总的观察值个数 = ___________ ,回归平方和的自由度 = ________ . 3、已知因变量 y 与自变量X i ,X 2, X 3,X 4,下表给岀了所有可能回归模型的 AIC 值,则最 优子集是 _______________________ . 4、 在诊断自相关现象时,若 DW 0.66,则误差序列的自相关系数 的估计值= _______ ,若 存在自相关现象,常用的处理方法有迭代法、 _____________ 、科克伦-奥克特迭代法. 5、 设因变量y 与自变量X 的观察值分别为 y 「y 2,..., y n 和x 1, x 2 ,..., x n ,则以x *为折点的折 线模型可表示为 ________________________ . 三、(共45分)研究货运总量y (万吨)与工业总产值x 1 (亿元)、农业总产值x 2 (亿元)、 居民非商品支岀X 3 (亿元)的线性回归关系.观察数据及残差值e i 、学生化残差SRE i 、删除 学生化残差SRE (i )、库克距离D i 、杠杆值ch ii 见表 (n P)?2 ___________ ,其中?2是2的无偏估计

(完整版)1.2.2独立性检验的基本思想及其初步应用习题及答案

数学·选修1-2(人教A版) 1.2 独立性检验的基本思想及其初步应用 ?达标训练 1.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是( ) A.散点图B.等高条形图 C.2×2列联表 D.以上均不对 答案:B 2.在等高条形图形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( ) A. a a+b 与 d c+d B. c a+b 与 a c+d C. a a+b 与 c c+d D. a a+b 与 c b+c 答案:C 3.对分类变量X与Y的随机变量K2的观测值k,说法正确的是( ) A.k越大,“ X与Y有关系”可信程度越小 B.k越小,“ X与Y有关系”可信程度越小 C.k越接近于0,“X与Y无关”程度越小 D.k越大,“X与Y无关”程度越大 答案:B

4.下面是一个2×2列联表: 则表中a、b的值分别为( ) A.94、96 B.52、50 C.52、54 D.54、52 答案:C 5.性别与身高列联表如下: 那么,检验随机变量K2的值约等于 ( ) A.0.043 B.0.367 C.22 D.26.87 答案:C 6.给出列联表如下: 根据表格提供的数据,估计“成绩与班级有关系”犯错误的概率约是( ) A.0.4 B.0.5 C.0.75 D.0.85 答案:B

?素能提高 1.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲,下列说法中正确的是( ) A .男人、女人中患有色盲的频率分别为0.038、0.006 B .男人、女人患色盲的概率分别为19240、3 260 C .男人中患色盲的比例比女人中患色盲的比例大,患色盲是与性别有关的 D .调查人数太少,不能说明色盲与性别有关 解析:男人患色盲的比例为38480,比女人中患色盲的比例6 520 大, 其差值为?? ???? 38480-6520≈0.067 6,差值较大. 答案:C 2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 由K 2= 算得, K 2= ≈7.8. 附表: P (K 2≥k 0) 0.050 0.010 0.001 k 0 3.841 6.635 10.828 参照附表,得到的正确结论是( ) A .有99%以上的把握认为“爱好该项运动与性别有关”

相关文档
最新文档