变量间的相关关系与统计案例

变量间的相关关系与统计案例
变量间的相关关系与统计案例

第三节变量间的相关关系与统计案例

[备考方向要明了]

考什么怎么考

1.会作两个相关变量的散点图,会利用散点图认识变量之

间的相关关系.

2.了解最小二乘法的思想,能根据给出的线性回归系数公

式建立线性回归方程.

3.了解独立性检验(只要求2×2列联表)的基本思想、方

法及其简单应用.

4.了解回归分析的基本思想、方法及其简单应用.

高考对本节内容的考查主要是线

性回归分析和独立性检验的统计

分析方法,三种题型都有可能出

现,难度中档,如2012年湖南T4,

辽宁T19等.

[归纳·知识整合]

1.两个变量的线性相关

(1)正相关:

在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.

(2)负相关:

在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.

(3)线性相关关系、回归直线

如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.

[探究]相关关系和函数关系有何异同点?

提示:(1)相同点:两者均是指两个变量的关系.

(2)不同点:①函数关系是一种确定的关系,而相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归方程

(1)最小二乘法:

求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:

方程y ^=b ^x +a ^

是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^

是待定参数.

?????

b ^=

∑i =1

n (x i -x -)(y i -y -

)

∑i =1

n

(x i -x -)2

∑i =1n

x i y i -n x -y

∑i =1

n

x 2i -n x -

2

,a ^=y --b ^x -.

3.残差分析

(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^

i 称为相应于点(x i ,y i )的残差.

(2)相关指数R 2=1-

∑i =1

n

(y i -y ^

i )2

∑i =1

n

(y i -y -

)2

, R 2越大,意味着残差平方和越小,即模型的拟合效果越好;R 2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好.

4.独立性检验

(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为

2×2列联表:

K 2=

n (ad -bc )(a +b )(a +c )(b +d )(c +d )

(其中n =a +b +c +d 为样本容量),则利用独立性检验判

断表来判断“X 与Y 的关系”.

[自测·牛刀小试]

1.下列结论正确的是( ) ①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;

③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①② B .①②③ C .①②④

D .①②③④

解析:选C 由回归分析的方法及概念判断.

2.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y =0.95x +a ,则a =( )

A.3.25 C .2.2 D .0

解析:选B x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2

=2.6.

3.工人月工资y (元)关于劳动生产率x (千元)的回归方程为y =650+80x ,下列说法中正确的个数是( )

①劳动生产率为1 000元时,工资为730元; ②劳动生产率提高1 000元,则工资提高80元; ③劳动生产率提高1 000元,则工资提高730元; ④当月工资为810元时,劳动生产率约为2 000元. A .1 B .2 C .3

D .4

解析:选C 将数据代入方程计算可判断①②④正确.

4.一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的回归模型为y ^

=7.19x +73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )

A .身高一定是145.83 cm

B .身高在145.83 cm 以上

C .身高在145.83 cm 左右

D .身高在145.83 cm 以下

^=7.19x+73.93,只能作预测,其结果不一定是一个确定值.解析:选C用回归模型y

5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()

A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病

B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病

C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误

D.以上三种说法都不正确

解析:选C根据独立性检验的思想知.

相关关系的判断

[例1]在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:身高(cm)143156159172165

体重(kg)4149617968

身高(cm)171177161164160

体重(kg)6974696854

[自主解答]以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示.

由散点图可知,两者之间具有相关关系,且为正相关.

———————————————————

利用散点图判断相关关系的技巧

(1)在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量间的关系,即变量之间具有函数关系.

(2)如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.

(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.

1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )

A .r 2<r 1<0

B .0<r 2<r 1

C .r 2<0<r 1

D .r 2=r 1

解析:选C 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0

线性回归方程及其应用

[例2] 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:

单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)

90

84

83

80

75

68

(1)求回归直线方程y =bx +a ,其中b =-20, a =y --b x -;

(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)

[自主解答] (1)由于x =1

6(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,

y =1

6

(y 1+y 2+y 3+y 4+y 5+y 6)=80.

所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^

=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000 =-20???

?x -33

42+361.25. 当且仅当x =8.25时,L 取得最大值.

故当单价定为8.25元时,工厂可获得最大利润.

———————————————————

求回归直线方程时的注意点

求回归方程,关键在于正确求出系数a,b,由于计算量较大,所以计算时要仔细谨慎,避免因计算产生失误,特别注意,只有在散点图大体呈线性时,求出的回归方程才有意义.

2.某种产品的广告费支出x与销售额(单位:百万元)之间有如下对应数据:

x 24568

y 3040506070

如果y与x之间具有线性相关关系.

(1)作出这些数据的散点图;

(2)求这些数据的线性回归方程;

(3)预测当广告费支出为9百万元时的销售额.

解:(1)

(2)x=5,y=50,∑

i=1

5

x i y i=1 390,∑

i=1

5

x2i=145,

b

^=

i=1

5

x i y i-5x·y

i=1

5

x2i-5x

2

=7, a^=y--b^x-=15,

∴线性回归方程为y^=7x+15.

(3)当x=9时,y

^=78.

即当广告费支出为9百万元时,销售额为78百万元.

独立性检验的基本思想及其应用

[例3](2012·湖南衡阳第二次联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩

后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为3

11

.

优秀 非优秀

合计 甲班 10 乙班 30 合计

110

(1)请完成上面的列联表;

(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”; 参考公式与临界值表:K 2=

n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

P (K 2≥k 0)

0.100 0.050 0.025 0.010 0.001 k 0

2.706

3.841

5.024

6.635

10.828

[自主解答] (1)列联表如下:

优秀 非优秀 合计 甲班 10 50 60 乙班 20 30 50 合计

30

80

110

(2)根据列联表中的数据,得到

K 2=

110×(10×30-20×50)2

60×50×30×80≈7.486<10.828.

因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”. —————

——————————————

独立性检验的步骤

(1)根据样本数据制成2×2列联表. (2)根据公式

K 2=

n (ad -bc )2

(a +b )(a +c )(b +d )(c +d )

计算K 2的观测值.

(3)比较K 2与临界值的大小关系作统计推断.

3.地震、海啸、洪水、森林大火等自然灾害频繁出现,紧急避险常识越来越引起人们的重视,某校为了了解学生对紧急避险常识的了解情况,从七年级和八年级各选取100名同

学进行紧急避险常识知识竞赛.图(1)和图(2)分别是对七年级和八年级参加竞赛的学生成绩按[40,50),[50,60),[60,70),[70,80]分组,得到的频率分布直方图.

(1)分别计算参加这次知识竞赛的两个年级学生的平均成绩(注:统计方法中,同一组数据常用该组区间的中点值作为代表);

(2)完成下面2×2列联表,并回答是否有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”?

成绩小于60分人数

成绩不小于60分人数

合计 七年级 八年级 合计

附:K 2=

(a +b )(c +d )(a +c )(b +d )

.临界值表:

P (K 2≥k )

0.10 0.05 0.010 k

2.706

3.841

6.635

解:(1)七年级学生竞赛平均成绩为

(45×30+55×40+65×20+75×10)÷100=56, 八年级学生竞赛平均成绩为

(45×15+55×35+65×35+75×15)÷100=60. (2)2×2列联表如下:

成绩小于60分人数

成绩不小于60分人数

合计 七年级 70 30 100 八年级 50 50 100 合计 120

80

200

∴K 2=

200×(50×70-50×30)2

100×100×120×80

≈8.333>6.635.

∴有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”.

1种求法——相关关系的判定和线性回归方程的求法

(1)函数关系一种理想的关系模型,而相关关系是一种更为一般的情况.

(2)如果两个变量不具有线性相关关系,即使求出回归直线方程也毫无意义,而且用其进行估计和预测也是不可信的.

(3)回归直线方程只适用于我们所研究的样本的总体.样本的取值范围一般不超过回归直线方程的适用范围,否则就没有实用价值.

1个难点——独立性检验思想的理解

独立性检验的思想类似于反证法,即要确定“两个变量X和Y有关系”这一结论成立的可信度,首先假设结论不成立,即它们之间没关系,也就是它们是相互独立的,利用概率

的乘法公式可推知,(ad-bc)接近于零,也就是随机变量K2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

应该很小,如果计算出的K2的观测值k不是很小,通过查表P(K2≥k0)的概率很小.又根据小概率事件不可能发生,由此判断假设不成立,从而可以肯定地断言X与Y之间有关系.

答题模板——概率与统计的综合问题

[典例](2012辽宁高考改编·满分12分)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:

将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.

(1)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为“体育迷”与性别有关?

(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.

附K 2=

n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

[快速规范审题]

第(1)问

1.审条件,挖解题信息

观察条件:100名观众收看节目时间的频率分布直方图及日均收看时间不低于40分钟的观众称为体育迷,女体育迷10名―――――――→借助直方图可确定

非体育迷及体育迷人数 2.审结论,明确解题方向

观察所求结论:完成2×2列联表并判断“体育迷”与性别的相关性――――→需要

确定a ,b ,c ,d 及K 2的值

3.建联系,找解题突破口

由直方图及条件确定体育迷与非体育迷人数―→完成列联表―→计算K 2可判断结论 第(2)问

1.审条件,挖解题信息

观察条件:―→确定“超级体育迷”标准且有2名女性“超级体育迷”―――――――→由频率分布直方图 确定“超级体育迷”的人数

2.审结论,明确解题方向

观察结论:―→从“超级体育迷”中任取2人求至少有1名女性观众的概率―――――→分类分析

1名女性观众或两名女性观众

3.建联系,找解题突破口

由频率分布直方图确定“超级体育迷”的人数―――――――→列举法列举出

所有基本事件并计数为n

和至少有1名女性的基本事件,计数为m m P n

=

????

→代入求概率 [准确规范答题]

(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成2×2列联表如下:

?(3将2×2列联表中的数据代入公式计算,得K 2=

100×(30×10-45×15)275×25×45×55=100

33≈3.030.因为3.030<3.841,所以我们没有95%的把握认为“体育迷”与性别有关.?(6分)

(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件为(a 1,a 2),(a 1,a 3),(a 2,a 3),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2),其中a i 表示男性,i =1,2,3,b j 表示女性,j =1,2.?(9分)

由10个基本事件组成,而且这些基本事件的出现是等可能的.用A 表示“任选2人中,至少有1人是女性”这一事件,则A 为(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2),

?(11分)

由7个基本事件组成,因而P

(A )=7

10.?(12分)

[答题模板速成]

解决概率与统计的综合问题的一般步骤:

?

?

?

?

步步步

理清题

意,理解

问题中

的条件

和结

论.尤其

是直方

图中给

定的信

息,找关

键量

由直

方图

确定

所需

的数

据,

列出

2×2

列联

利用

独立

性检

验的

步骤

进行

判断

确定

基本

事件

总数

及所

求事

件所

含基

本事

件的

个数

利用概

率公式

求事件

的概率

反思回

顾、检查

关键点易

错点及答

题规范

一、选择题(本大题共6小题,每小题5分,共30分)

1.下列关系中,是相关关系的为()

①学生的学习态度与学习成绩之间的关系;

②教师的执教水平与学生的学习成绩之间的关系;

③学生的身高与学生的学习成绩之间的关系;

④家庭的经济条件与学生的学习成绩之间的关系.

A.①②B.①③

C.②③D.②④

解析:选A①中学生的学习态度与学习成绩之间不是因果关系,但具有相关性是相关关系.②教师的执教水平与学生的学习成绩之间的关系是相关关系.③④都不具备相关关系.2.(2012·新课标全国卷)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=

1

2x+1上,则这组样本数据的样本相关系数为()

A.-1 B.0

C.

1

2D.1

解析:选D 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.

3.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为( ) A.y ^

=1.23x +4 B.y ^

=1.23x +5 C.y ^

=1.23x +0.08

D.y ^

=0.08x +1.23

解析:选C 因回归直线方程必过样本点的中心(x ,y ),将点(4,5)代入A 、B 、C 检验可知.

4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:

则y 对x 的线性回归方程为( ) A .y =x -1 B .y =x +1 C .y =88+1

2

x

D .y =176 解析:选C 设y 对x 的线性回归方程为y =bx +a , 因为b =-2×(-1)+0×(-1)+0×0+0×1+2×1(-2)2+22

=1

2,

a =176-12×176=88,所以y 对x 的线性回归方程为y =1

2

x +88.

5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:

A .99%

B .97.5%

C .95%

D .90%

解析:选A 可计算K 2≈11.377>6.635.

6.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:

由K 2

=n (ad -bc )(a +b )(c +d )(a +c )(b +d )

算得K 2=

110×(40×30-20×20)2

60×50×60×50

≈7.8.

附表:

A .有99%以上的把握认为“选择过马路的方式与性别有关”

B .有99%以上的把握认为“选择过马路的方式与性别无关”

C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”

D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:选A ∵K 2=110×(40×30-20×20)2

60×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选

择过马路的方式与性别有关”.

二、填空题(本大题共3小题,每小题5分,共15分)

7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的线性回归直线方程:y ^

=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.

解析:x 变为x +1,y ^

=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.

答案:0.245

8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:

小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.

解析:平均命中率y =1

5

×(0.4+0.5+0.6+0.6+0.4)=0.5;而x =3,∑i =1

5 (x i -x )(y i -y )=(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)=0.1,∑i =1

5

(x i -x )2=(-2)2+(-1)2

+02+12+22=10,于是b ^

=0.01,a ^

y -b ^ x =0.47,故y ^ =0.01x +0.47,令x =6,得y ^

0.53.

答案:0.5 0.53

9.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:

已知P (K 2≥3.841)≈0.05,P 根据表中数据,得到

K 2=

50×(13×20-10×7)2

23×27×20×30

≈4.844.则认为选修文科与性别有关系

出错的可能性为________.

解析:k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.

答案:5%

三、解答题(本大题共3小题,每小题12分,共36分) 10.已知x ,y 的一组数据如下表:

(1)从x ,y (2)对于表中数据,甲、乙两同学给出的拟合直线分别为y =13x +1与y =12x +1

2,试利用

“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.

解:(1)从x ,y 中各取一个数组成数对(x ,y ),共有25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P =9

25

.

(2)用y =1

3

x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 1=????43-12

+(2-2)2+(3-3)2+????103-42+????113-52=7

3.

用y =12x +1

2作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2+(2

-2)2+????72-32+(4-4)2+????92-52=12

. ∵S 2

2

的拟合程度更好.

11.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.

(1)(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.(其中,数据(x i ,y i )(i =1,2,…,n )的线性回归方程为y ^=b ^x

+a ^,b ^=

∑i =1

n

(x i -x -)(y i -y -

)

∑i =1

n

(x i -x -

)2

,a ^=y --b ^x -)

解:(1)∵x -

=100+-12-17+17-8+8+127=100,

y -

=100+-6-9+8-4+4+1+67

=100,

∴s 2数学=

9947=142.∴s 2物理=250

7

, ∵s 2

数学>s 2物理,∴该生的物理成绩更稳定.

(2)由于x 与y 之间具有线性相关关系,

∴b ^=

i =1

7x i y i -7

x - y

i =1

7x 2i -7x

-2

=497

994

=0.5, a ^=y --b ^x -

=100-0.5×100=50.

∴线性回归方程为y ^

=0.5x +50.当y =115时,x =130. 建议:

进一步加强对数学的学习,提高数学成绩的稳定性,这将有助于物理成绩的进一步提高. 12.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.

已知从全部105人中随机抽取1人为优秀的概率为27.

(1)请完成上面的列联表;

(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”; (3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.

附:K 2=

n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

解:(1)

(2)根据列联表中的数据,得到

K 2=105×(10×30-20×45)2

55×50×30×75≈6.109>3.841,

因此有95%的把握认为“成绩与班级有关系”.

(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个.

事件A包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,

∴P(A)=8

36=2 9.

1.观察下列各图形:

其中两个变量x、y具有相关关系的图是()

A.①②B.①④

C.③④D.②③

解析:选C相关关系有两种情况:所有点看上去都在一条直线附近波动,是线性相关;若所有点看上去都在某条曲线(不是一条直线)附近波动,是非线性相关.①②是不相关的,而③④是相关的.

2.考察黄烟经过培养液处理是否跟发生青花病有关系.调查了457株黄烟,得到下表中数据:

培养液处理未处理合计

青花病25210235

无青花病80142222

合计105352457

A.40.682 B.31.64

C.45.331 D.41.61

解析:选D代入K2公式得K2≈41.61.

3.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:

推销员编号1234 5

工作年限x/年35679

推销金额y/万元2334 5

(1)

(2)求年推销金额y关于工作年限x的线性回归方程;

(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.

解:(1)依题意,画出散点图如图所示,

(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为y

^=b^x+a

^

.

则b^=

i=1

5

(x i-x)(y i-y

)

i=1

5

(x i-x)2

=10

20

=0.5,a^=y-b^x-=0.4,

∴年推销金额y关于工作年限x的线性回归方程为

y

^=0.5x+0.4.

(3)由(2)可知,当x=11时,

y

^=0.5x+0.4=0.5×11+0.4=5.9(万元).

∴可以估计第6名推销员的年推销金额为5.9万元.

4.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:

杂质高杂质低

旧设备37121

新设备22202

解:由已知数据得到如下2×2列联表:

杂质高杂质低合计

旧设备37121158

新设备22202224

合计59323382

由公式K 2=382×(37×202-121×22)2

158×224×59×323

≈13.11,

由于13.11>10.828,故有99.9%的把握认为含杂质的高低与设备改造是有关的.

统计与统计案例真题与解析

统计与统计案例 A 级 基础 一、选择题 1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( ) A .860 B .720 C .1 020 D .1 040 2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A .13 B .19 C .20 D .51 3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^ =mx +0.35,则预测2019年捐赠的现金大约是( ) A.5万元 C .5.25万元 D .5.5万元 4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )

A.3,5 B.5,5 C.3,7 D.5,7 5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下: 记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是() A.a=0.015,s21s22 C.a=0.015,s21>s22D.a=0.15,s21

案例统计公式(绝对精华)

统计案例 一、回归分析 1. 线性回归方程???y bx a =+的求法 (1)求变量x 的平均值,即1231 ()n x x x x x n =+++???+ (2)求变量y 的平均值,即1231 ()n y y y y y n = +++???+ (3)求变量x 的系数?b ,即1 2 1 ()() ?() n i i i n i i x x y y b x x ==--=-∑∑(题目给出,不用记忆) 1 2 1()() ?() n i i i n i i x x y y b x x ==--=-∑∑ 1 1 1 1 2 2 1 1 1 2n n n n i i i i i i i i n n n i i i i i x y x y xy x y x xx x =======--+= -+∑∑∑∑∑∑∑1 22 21 2n i i i n i i x y nx y nx y nx y x nx nx ==--+= -+∑∑12 21 n i i i n i i x y nx y x nx ==-= -∑∑(理解记忆) (其中1 1 n n i i i x x nx ====∑∑,1 1 n n i i i y y ny ====∑∑,() ,x y 称为样本点中心) (4)求常数?a ,即??a y bx =- (5)写出回归方程???y bx a =+(?a ,?b 的意义:以?a 为基数,x 每增加1个单位,y 相应地平均增加?b 个单位) 注意:若?0b >则正相关,若?0b <则负相关. 2. 相关系数 假设两个随机变量的取值分别是()11,x y ,()22,x y ,……,(),n n x y ,则变量间线性相关系数的计算公式如下: ()() n n i i i i x x y y x y nx y r ---= = ∑∑ 相关系数r 的性质: (1)当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关;当0r =时,表明

变量之间的关系测试题及答案

第六章《变量之间的关系》测试题 一、填空题(每空2 分,共46分) 1、一个弹簧,不挂物体时长10 厘米,挂上物体以后弹簧会变长,每挂上一千克物体,弹 簧就会伸长1.5厘米,如果所挂物体总质量为X (千克),那么弹簧伸长的长度y (CM可以表示为 ________ ,在这个问题中自变量是_____ ,因变量是_____ ;如果所挂物体总质量 为X(千克)那么弹簧的总长度Y(CM可以表示为_______ ,在这个问题中自变量是_______ ,因变量是 ____ 。 2、为了美化校园,学校共划出84米 2 的土地修建4 个完全相同的长方形花坛,如果每个 花坛的一条边为X (米),那么另一条边y (米)可以表示为______ o 3、一辆汽车正常行驶时每小时耗油8 升,油箱内现有52 升汽油,如果汽车行驶时间为t (时),那么油箱中所存油量Q (升)可以表示为___ ,行驶3小时后,油箱中还剩余汽油 _____ 升,油箱中的油总共可供汽车行驶 ____________ 小时。___________ 4.一圆锥的底面半径是5cm,当圆锥的高由2cm变到10cm时,圆锥的体积由cm3变到 _______ cm3. 5.梯形上底长16,下底长X,高是10,梯形的面积s与下底长x间的关系式是 ____________ .当x = 0时,表示的图形是_______ ,其面积_________ . 4、如图6—1,甲、乙二人沿相同的路线前进,横轴表示时间,纵轴表示路程。 (1)刚出发时乙在甲前面____ 千米。(2)两人各用了_____ 小时走完路程。 (3)甲共走了___ 千米,乙共走了______ 千米。 5、如图6—2 是我国某城市春季某一天气温随时间变化的图象,根据图象回答,在这一天 中,最低气温出现在_____ 时,温度为_____ °C,在______ 时到 ____ 时的时段内,温度持续上升,这一天的温差是_____ ° C o 图6—1 图6—2 图6—3 6、如图6—3,a//b,直线c与a、b分别交于A、B两点,当直线b绕B点旋转时,/ 1 的大小会发生变化。直线a为保证与b平行,相应的/ 2的大小也会发生变化,如果 / 1度数为x度,那么/ 2的度数y可以表示为 _______ ,在这个问题中自变量是____

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

(新人教A版)2020版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理

考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用. 知 识 梳 理 1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数. (1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^ =b ^ x +a ^ ,则b ^ =∑n i =1 (x i -x - )(y i -y - )∑n i =1 (x i -x - )2=∑n i =1 x i y i -nx - y - ∑n i =1 x 2 i -nx -2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^ 是在y 轴上的截距. 回归直线一定过样本点的中心(x - ,y - ). 3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x - ,y - )称为样本点的中心. (3)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强. r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.

【免费下载】概率论与数理统计案例

实例1 发行彩票的创收利润某一彩票中心发行彩票 10万张, 每张2元. 设头等奖1个, 奖金 1万元, 二等奖2个,奖金各 5 千元;三等奖 10个, 奖金各1千元; 四等奖100个, 奖金各100元; 五等奖1000个, 奖金各10 元.每张彩票的成本费为 0.3 元, 请计算彩票发行单位的创收利润.解:设每张彩票中奖的数额为随机变量X , 则X 10000 5000 1000 100 10 0p 51/1052/10510/105100/1051000/100p 每张彩票平均能得到奖金 05512()10000500001010E X p =? +?++? 0.5(),=元每张彩票平均可赚20.50.3 1.2(), --=元因此彩票发行单位发行 10 万张彩票的创收利润为:100000 1.2120000().?=元实例2 如何确定投资决策方向?某人有10万元现金,想投资于某项目,预估成功的机会为 30%,可得利润8万元 , 失败的机会为70%,将损失 2 万元.若存入银行,同期间的利率为5% ,问是否作此项投资?解:设 X 为投资利润,则 X 8 -2p 0.3 0.7()80.320.71(),E X =?-?=万元存入银行的利息:故应选择投资.1050.5(),%?=万元实例3 商店的销售策略某商店对某种家用电器的销售采用先使用后付款的方式,记使用寿命为X (以年计),规定1,1500;12,2000;23,2500; 3,3000.X X X X ≤<≤<≤>一台付款元一台付款元一台付款元一台付款元10,1e ,0,()100, 0.x X x f x x Y -?>?=??≤? 设寿命服从指数分布概率密度为试求该商店一台家用电器收费的数学期望定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术、电气课校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料、电气设备调试高中中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并

变量之间的关系单元测试题

一、选一选,看完四个选项后再做决定呀!(每小题3分,共30分) 1.李老师骑车外出办事,离校不久便接到学校到他返校的紧急电话,李老师急忙赶回学校.下面四个图象中,描述李老师与学校距离的图象是( ) 2.已知变量x ,y 满足下面的关系 则x ,y 之间用关系式表示为( ) A.y =x 3 B.y =-3 x C.y =-x 3 D.y =3 x 3.某同学从学校走回家,在路上遇到两个同学,一块儿去文化宫玩了会儿,然后回家,下列象能刻画这位同学所剩路程与时间的变化关 A. B. C. D.

系的是() 4.地表以下的岩层温度y随着所处深度x的变化而变化,在某个地点y与x的关系可以由公式20 y来表示,则y随x的增大而 35+ =x () A、增大 B、减小 C、不变 D、以上答案都不对 5.某校办工厂今年前5个月生产某种产品总量(件)与时间(月)的关系如图1所示,则对于该厂生产这种产品的说法正确的是()A.1月至3月生产总量逐月增加,4,5两月生产总量逐月减少B.1月至3月生产总量逐月增加,4,5两月均产总量与3月持平 C.1月至3月生产总量逐月增加,4,5两月均停止生产 D.1月至3月生产总量不变,4,5两月均停止生产 图2 6.如图2是反映两个变量关系的图,下列的四个情境比较合适该图的是()

A.一杯热水放在桌子上,它的水温与时间的关系 B.一辆汽车从起动到匀速行驶,速度与时间的关系 C.一架飞机从起飞到降落的速度与时晨的关系 D.踢出的足球的速度与时间的关系 7.如图3,射线l 甲 ,l 乙 分别表示甲、乙两名运动员在自行车比赛中所走路程与时间的关系,则图中显示的他们行进的速度关系是( ) A.甲比乙快 B.乙比甲快 C.甲、乙同速 D.不 一定 8.在利用太阳能热水器来加热水的过程中,热水器里的水温随所晒时间的长短而变化,这个问题中因变量是( ) A.太阳光强弱 B.水的温度 C.所晒时间 D.热水器 9.长方形的周长为24厘米,其中一边为x (其中0>x ),面积为y 平方厘米,则这样的长方形中y 与x 的关系可以写为( ) A 、2x y = B 、()212x y -= C 、()x x y ?-=12 D 、()x y -=122 10如果没盒圆珠笔有12支,售价18元,用y (元)表示圆珠笔的售价,x 表示圆珠笔的支数,那么y 与x 之间的关系应该是( ) (A )y=12x (B )y=18x (C )y=2 3 x (D )y=32 x 二、填一填,要相信自己的能力!(每小题3分,共30分) 1.某种储蓄的月利率是0.2%,存入100元本金后,则本息和y (元)

专题突破练20 统计与统计案例

专题突破练20 统计与统计案例 1. (2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图; (2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^ =-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^ =99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d.

计数原理、概率、随机变量及其分布、统计、统计案例

计数原理、概率、随机变量及其分布、统计、统计案例 第Ⅰ卷(选择题 共60分) 一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的) 1.已知随机变量ξ服从正态分布N (1,σ2),P (ξ≤4)=,则P (ξ≤-2)=( ) A . B . C . D . 2.以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的平均数为17,乙组数据的中位数为17,则x ,y 的值分别为( ) A .2,6 B .2,7 C .3,6 D .3,7 3.将4个颜色互不相同的球全部收入编号为1和2的两个盒 子里,使得放入每个盒子里的球的个数不小于该盒子的编号,则不同的放球方法有( ) A .10种 B .20种 C .36种 D .52种 4.已知f (x )、g (x )都是定义在R 上的函数,g (x )≠0,f ′(x )g (x )-f (x )g ′(x )<0,fx gx =a x ,f 1g 1+ f -1 g -1=52,则关于x 的方程abx 2+2x +5 2=0(b ∈(0,1))有两个不同实根的概率为( ) 5.用0,1,…,9十个数字,可以组成有重复数字的三位数的个数为( ) A .243 B .252 C .261 D .279 6.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y 与x 负相关且y ^ =-; ② y 与x 负相关且y ^ =-+; ③y 与x 正相关且y ^ =+; ④y 与x 正相关且y ^ =--. 其中一定不正确的结论的序号是( ) A .①② B .②③

高考一轮复习变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例 【2015年高考会这样考】 以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】 高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式. 基础梳理 1.相关关系的分类 从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则 ?? ??? b ^=∑i =1n (x i -x )(y i -y )∑i =1n (x i -x )2 = ∑i =1n x i y i -n x y ∑i =1 n x 2i -n x 2 , a ^=y -b ^ x . 其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数

r= ∑ i=1 n (x i-x)(y i-y) ∑ i=1 n (x i-x)2∑ i=1 n (y i-y)2 ,用它来衡量两个变量间的线性相关关系. (1)当r>0时,表明两个变量正相关; (2)当r<0时,表明两个变量负相关; (3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差 平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好. 6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1y2总计 x1 a b a+b x2 c d c+d 总计a+c b+d a+b+c+d K2=n(ad-bc)2 (a+b)(a+c)(c+d)(b+d) (其中n=a+b+c+d为样本容量),可利用独立性检验

随机变量、统计案例

随机变量的分布列及统计案例复习学案参考答案 例1、解析 ∵P (A )=C 22+C 23 C 25=25,P (AB )=C 22C 25 =110, ∴P (B |A )=P (AB )P (A )=1 4 . 答案 B 例2、解析 该题为几何概型,圆的半径为1,正方形的边长为2,∴圆的面积为 π,正方形面积为2,扇形面积为π4.故P (A )=2π,P (B |A )=P (A ∩B )P (A )=1 4. 答案 (1)2π (2)1 4 例3、 专题三 离散型随机变量的分布列、均值与方差 例4、 解 设A 、B 、C 分别为甲、乙、丙三台机床各自独立加工同一种零件是一等品的事件,依题意得 ?????????P (A ·B -)=14,P (B ·C -)=112,P (A ·C )=29,即???? ??? ??P (A )·(1-P (B ))=14,P (B )·(1-P (C ))=112,P (A )·P (C )=29, 得27[P (C )]2-51P (C )+22=0, 解得P (C )=23或P (C )=119 (舍). ∴P (A )=13,P (B )=14,P (C )=2 3 . 即甲、乙、丙三台机床各自独立加工的零件是一等品的概率分别为13,14,2 3. (2)记D 为从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的事件. P (D )=1-P (D -)=1-(1-P (A ))·(1-P (B ))·(1-P (C ))=1-23× 34×13=56,即从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的概率为56.

变量之间的关系测试题及答案

《变量之间的关系》单元测试题 一、填空题(每空2分,共46分) 1、一个弹簧,不挂物体时长10厘米,挂上物体以后弹簧会变长,每挂上一千克物体,弹簧就会伸长厘米,如果所挂物体总质量为X(千克),那么弹簧伸长的长度y(CM)可以表示为___,在这个问题中自变量是___,因变量是___;如果所挂物体总质量为X(千克)那么弹簧的总长度Y(CM)可以表示为___,在这个问题中自变量是___,因变量是___。 2、为了美化校园,学校共划出84米2的土地修建4个完全相同的长方形花坛,如果每个花坛的一条边为X(米),那么另一条边y(米)可以表示为___。 3、一辆汽车正常行驶时每小时耗油8升,油箱内现有52升汽油,如果汽车行驶时间为t (时),那么油箱中所存油量Q(升)可以表示为___,行驶3小时后,油箱中还剩余汽油___升,油箱中的油总共可供汽车行驶___小时。4.一圆锥的底面半径是5cm,当圆锥的高由2cm变到10cm时,圆锥的体积由________变到_________. 5.梯形上底长16,下底长x,高是10,梯形的面积s与下底长x间的关系式是_______.当x =0时,表示的图形是_______,其面积________. 4.如图6—1,甲、乙二人沿相同的路线前进,横轴表示时间,纵轴表示路程。 (1)刚出发时乙在甲前面___千米。(2)两人各用了___小时走完路程。 (3)甲共走了___千米,乙共走了___千米。 5、如图6—2是我国某城市春季某一天气温随时间变化的图象,根据图象回答,在这一天中, 最低气温出现在___时,温度为___°C,在___时到___时的时段内,温度持续上升,这一天的温差是___°C。 10121416182022 1 2 B A c b a 图6—1 图6—2 图6—3 6、如图6—3,ay=100+ B. y=100+ C. y=1+136x D. Y=1+ 2、某次实验中,测得两个变量v和m的对应数据如下表,则v和m之间的关系最接近于下列 关系中的()。

2021届高三新题数学9月(适用新高考)专题二十 统计与统计案例(原卷版)

专题二十 统计与统计案例 一、单选题 1.(2020·河南宛城·南阳华龙高级中学月考(文))在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (2n ≥, 1x ,2x ,……,n x 不全相等)的散点图中,若所有样本点()(),1,2,,i i x y i n =???都在直线2 15 y x = +上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C . 12 D .1 二、多选题 2.(2020·江苏省丰县中学期末)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算2K 的观测值 5.059k ≈,则可以推断出( ) 附: A .该俱乐部的男性会员对运动场所满意的概率的估计值为 2 3 ; B .调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意; C .有97.5%的把握认为男性会员、女性会员对运动场所的评价有差异; D .有99%的把握认为男性会员、女性会员对运动场所的评价有差异. 第II 卷(非选择题)

三、解答题 3.(2020·河南宛城·南阳华龙高级中学月考(文))微信是现代生活中进行信息交流的重要工具.据统计,某公司200名员工中0090的人使用微信,其中每天使用微信时间少于一小时的有60人,其余的员工每天使用微信时间不少于一小时,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中0075是青年人.若规定:每天使用微信时间不少于一小时为经常使用微信,那么经常使用微信的员工中 2 3 都是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,完成22?列联表: (2)由列联表中所得数据判断,能否在犯错误的概率不超过0.001的前提下认为“经常使用微信与年龄有关”? 2 2 ()()()()() n ad bc k a b c d a c b d -=++++ 4.(2020·江苏泰州·期末)某企业的甲、乙两种产品在东部地区三个城市以及西部地区两个城市的销售量x , y 的数据如下:

2019版高考数学总复习第十章算法初步统计统计案例58变量间的相关关系与统计案例课时作业文20180

课时作业 58 变量间的相关关系与统计案例 一、选择题 1.(2018·石家庄模拟(一))下列说法错误的是( ) A .回归直线过样本点的中心(x -,y - ) B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1 C .对分类变量X 与Y ,随机变量K 2 的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小 D .在回归直线方程x ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^ 平均增加0.2个单位 解析:本题考查命题真假的判断.根据相关定义分析知A ,B ,D 正确;C 中对分类变量 X 与Y 的随机变量K 2的观测值k 来说,k 越大,判断“X 与Y 有关系”的把握程度越大,故 C 错误,故选C. 答案:C 2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x - .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元 解析:∵x -=10.0,y -=8.0,b ^=0.76,∴a ^=8-0.76×10=0.4,∴回归方程为y ^ =0.76x +0.4,把x =15代入上式得,y ^ =0.76×15+0.4=11.8(万元). 答案:B 3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 合计 爱好 40 20 60 不爱好 20 30 50 合计 60 50 110 由K 2 = n ad -bc 2a +b c + d a +c b +d ,

3 第3讲 变量间的相关关系、统计案例

第3讲 变量间的相关关系、统计案例 1.变量间的相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. (3)回归方程为y ^=b ^x +a ^,其中b ^ =,a ^=y --b ^x -. (4)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验 (1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为: y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d (2)K 2K 2= n (ad -bc )2 (a +b )(c +d )(a +c )(b +d ) (其中n =a +b +c +d 为样本容量). 判断正误(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )

高考数学统计与统计案例.doc

高考数学统计与统计案例1.小吴一星期的总开支分布如图 1 所示,一星期的食品开支如图 2 所示,则小吴一星期的鸡蛋开支占总开支的百分比为() A.1%B.2%C.3%D.5% C[ 由图 1 所示,食品开支占总开支的 30%,由图 2 所示,鸡蛋开支占食 品开支的30 = 1 , 30+40+100+80+ 50 10 1 ∴鸡蛋开支占总开支的百分比为30%×10=3%.故选 C.] 2.(2019 德·州模拟 )某人到甲、乙两市各7 个小区调查空置房情况,调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为() A.4B. 3C.2D.1 B[ 由茎叶图可以看出甲、乙两市的空置房的套数的中位数分别是79,76,因此其差是 79- 76=3,故选 B.] 3.某工厂对一批新产品的长度(单位: mm)进行检测,如图是检测结果的频

率分布直方,据此估批品的中位数() A.20B. 25C.22.5D.22.75 C[ 品的中位数出在概率是 0.5 的地方 . 自左至右各小矩形面依次 0.1,0.2,0.4,??,中位数是 x,由 0.1+0.2+0.08 ·(x-20)=0.5,得 x= 22.5, 故 C.] 4.(2019 ·三明模 )在某次高中数学中,随机抽取 90 名考生,其分数如所示,若所得分数的平均数,众数,中位数分 a, b, c, a,b,c 的大 小关系 () A.b

变量之间的关系最新典型习题(汇编)

变量之间的关系2 知识点1 自变量与因变量的区别与联系 联系:两者都是某一变化过程中的变量,两者因研究的侧重点或先后顺序不同可以互相转化,比如当路程一定时,路程随时间的变化而变化,这时速度为自变量,时间为因变量。而当速度一定时,路程随时间的变化而变化,这时时间是自变量,路程是因变量。 区别:因变量随自变量的变化而变化。 【典型例题】 (1)上表反映了哪两个变量的关系?自变量和因变量各是什么? (2)12时,水位是多高? (3)哪一段水位上升最快? 【练习】 (1)上述哪些量在变化?自变量和因变量分别是什么? (2)第5排、第6排各有多少个座位? (3)第n排有多少个座位?请说明你的理由。 2、父亲告诉小明:“距离地面越远,温度越低”,小明并且出示了下面的表格: (1)上表反映了哪两个变量之间的关系?哪个是自变量?哪个是因变量? (2)如果用h表示距离地面的高度,用t表示温度,那么随着h的变化,t如何变化?(3)你知道距离地面5千米的高空温度是多少吗? (4)你能预测出距离地面6千米的高空温度是多少吗?

(1)本题中如果用x表示路程,y表示费用,哪个是自变量,哪个是因变量?x≥5千米后,随着x的增大,y的变化趋势是什么? (2)B种出租车从3千米以后起,路程每增加1千米,费用怎么样变化? (3)预测路程为10千米时,两种车费各是多少? (4)当行驶为4千米时,你选择坐那种车?行驶路程为8千米时,你选择坐那种车? 4.一个弹簧不挂物体时,长12厘米,挂上1千克物体后,弹簧总长(12+0.5)厘米,?挂上 2千克物体后,弹簧总长(12+0.5×2)厘米,挂上3千克物体后,弹簧总长(12+0.5×3)厘 米…… (1)上述哪些量在发生变化?自变量是什么?因变量又是什么? (2 (3 (4)估计一下挂上10千克物体后,弹簧的长度是多少?你是如何估计的? ⑵如果用x表示弹性限度内物体的质量,用y表示弹簧的长度,那么随着x的变化,y的变化趋势如何?写出y与x的关系式. ⑶如果此时弹簧最大挂重量为25千克,你能预测当挂重为14千克时,弹簧的长度是多少?

通用版2020版高考数学大二轮复习专题突破练20统计与统计案例理

专题突破练20 统计与统计案例 1.(2019四川成都二模,理18)为了让税收政策更好地为社会发展服务,国家在修订《中华人民共和国个人所得税法》之后,发布了《个人所得税专项附加扣除暂行办法》,明确“专项附加扣除”就 是子女教育、继续教育、大病医疗、住房贷款利息、住房租金、赡养老人等费用,并公布了相应的定额扣除标准,决定自2019年1月1日起施行.某企业为了调查内部职员对新个税方案的满意程度与年龄的关系,通过问卷调查,整理数据得如下2×2列联表: (1)根据列联表,能否有99%的把握认为满意程度与年龄有关? (2)为了帮助年龄在40岁以下的未购房的8名员工解决实际困难,该企业拟按员工贡献积分x(单位:分)给予相应的住房补贴y(单位:元),现有两种补贴方案,方案甲:y=1 000+700x;方案 乙:y=已知这8名员工的贡献积分为2分,3分,6分,7分,7分,11分,12分,12分,将采用方案甲比采用方案乙获得更多补贴的员工记为“A类员工”.为了解员工对补贴方案的认可度,现从这8名员工中随机抽取4名进行面谈,求恰好抽到3名“A类员工”的概率. 附:K2=-,其中n=a+b+c+d. 参考数据:

2.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为 … 7 建立模型①;=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为 … 7 建立模型②:=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

22 变量间的相关关系与统计案例-艺考生文化课百日冲刺

(二十二) 变量间的相关关系与统计案例 1.下列两个变量之间的关系是相关关系的是 A .正方体的棱长与体积 B .单位面积产量为常数时,土地面积与产量 C .日照时间与水稻的亩产量 D .电压一定时,电流与电阻 2.一位母亲记录了儿子3~9岁的身高,数据略,由此建立的身高与年龄的回归模型为,93.7319.7?+=x y 用这个模型预测这个孩子10岁时的身高,则正确的叙述是 . A .身高一定是145.83 cm B .身高在145.83 cm 以上 C .身高在145.83 cm 左右 D .身高在145.83 cm 以下 3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是 423.1?+=?x y A 523.1?+=?x y B 08.023.1?+=?x y C 23.108.0?+=?x y D 4.对分类变量X 与Y 的随机变量2 K 的观测值k ,说法正确的是 A .k 越大,“X 与y 有关系”的可信程度越小 B .后越小,“X 与y 有关系”的可信程度越小 C .尼越接近于O ,“X 与y 无关”的可信程度越小 D .后越大,“X 与y 无关”的可信程度越大 5.已知算与y 之间的几组数据如下表: 则y 与x 的线性回归方程a bx y +=?必过 A .点(2,2) B .点(1.5,0) C .点(1,2) D .点(1.5,4) 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到 ,844.430202723)7102013(502 2 ≈????-??=K 因为≥2K ,841.3所以判定主修统计专业与性别有关系,那么 这种判断出错的可能性为

17统计与统计案例

二、考情分析 统计试题主要考察抽样方法、茎叶图、平均数、方差、频率分布表和频率分布直方图、正态分布,抽样方法主要考察系统抽样和分层抽样,较为简单,频率分布直方图和茎叶图是高考的另一个热点,应引起重视, 年高考试题已经设计变量的相关性、独立性检验,也应重视这一新动向三、经典例题: 题型一、抽样方法 (2010安徽)某地有居民100 000户,其中普通家庭99 000户,高收入 1 000户.从普通家庭中以简单随机抽样方式抽取990户,从高收入家庭中以简单随机抽样方式抽取l00户进行调查,发现共有120户家庭拥套或3套以上住房,其中普通家庭50户,高收人家庭70户.依据这些数据并结合所掌握的统计知识,你认为该地拥有3套或3套以上住房的家庭所占比例的合理估计是. 题型二、频率分布直方图和茎叶图与样本的数字特征 (2011)有一个容量为66的样本,数据的分组及各组的频数如下: .5,15.5) 2 [15.5,19.5) 4 [19.5,23.5) .5,27.5)18 [27.5,31.5)11 [31.5,35.5) .5.39.5)7 [39.5,43.5) 3 根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是( 1 6B. 1 3 C. 1 2 D. 2 3 )某老师从星期一到星期五收到信件数分别是10,6,8,5,6,

四、专题训练: 1(2011)已知随机变量 ξ 服从正态分布 2(2,) N a ,且 (4)0.8p ξ<=,则(02)p ξ<<=( ) A.0.6 B .0.4 C .0.3 D .0.2 2(2011)变量X 、Y 对应的一组数据(10,1),(11.3,2),(11.8,3), (12.5,4),(13,5);变量U 与V 对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),1r 表示变量Y 与X 之间的线性相关系数,2r 表示变量V 与U 之间的线性相关系数,则 ( ) A .2 10r r << B .210r r << C .210r r << D .21r r = 3( 根据上表可得回归方程y bx a =+中的b 为9.4,据此模型预测广告费用为6万元时销售额为 ( ) A .63.6万元 B .65.5万元 C .67.7万元 D .72.0万元 4(2010)样本中共有5个个体,其值分别为,0,1,2,3a ,若样本的平均 值为1,则样本方差为( ) A B 65 C D 2 5、某项体育比赛中,七位裁判为一选手打出的分数如下: 90 89 90 95 93 94 93 去掉一个最高分和一个最低分以后,所剩数据的平均数和方差分别是( ) A 92 2 B 92 2.8 C 93 2 D 93 2.8 6、某校高一年级8个班参加合唱比赛的得分的茎叶图如图所示,则这组数据的中位数和平均数分别是( ) A 91.5 91 .5 B 91.5 92 C 91 91.5 D 92 92 7.(2012)样本(12,,,n x x x )的平均数为x ,样本( 12,,m y y y ) 的平均数为 ()y x y ≠,若样本(12,,,n x x x ,12,,m y y y )的平均 数(1)z ax a y =+-,其中1 02 a <<,则n,m 的大小关系为( ) A .n m < B .n m > C .n m = D .不能确定 8.(2011)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关 系, 并由调查数据得到y 对x 的回归直线方程: 0.2540.321y x =+.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加____________万元. 9.(2010)某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉 花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在 区间[5,40]中,其频率分布直方图如图所示,则其抽样的100根中,有 根在棉花纤维的长度小于20mm 。 10.(2010) 将容量为n 的样本中的数据分成6组,绘制频率分布直方图。若第一组至第六组数据的频率之比为2:3:4: 6:4:1,且前三组数据的频数之和等于27,则n 等于 。 11.(2011)一支田径队有男运动员48人,女运动员36人,若用分层抽样 的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为___________ 12.(选做)(2011)某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田间试验.选取两大块地,每大块地分成n 小块地,在总共2n 小块地中,随机选n 小块地种植品种甲,另外n 小块地种植品种乙. (I )假设4n =,在第一大块地中,种植品种甲的小块地的数目记为X , 求X 的分布列和数学期望; (II )试验时每大块地分成8小块,即n =8,试验结束后得到品种甲和品种 2 结果,你认为应该种植哪一品种?

相关文档
最新文档