变量间的相关关系与统计案例
变量间的相关关系与统计案例
[考纲传真] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
【知识通关】
1.两个变量的线性相关 (1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:方程y ^=b ^x +a ^
是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^
是待定参数.
?????
b ^=
∑n i =1
(x i -x )(y i -y )∑n
i =1
(x i
-x )2
=
∑n
i =1x i y i -n x -y
-
∑n
i =1
x 2i -n x
2
a ^=y -
b ^x
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -
)称为样本点的中心. (3)相关系数
当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.
r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为 2×2列联表
构造一个随机变量K 2=
n (ad -bc )(a +b )(a +c )(b +d )(c +d )
,其中n =a +b +c +d 为样本容
量. [常用结论]
1.回归直线必过样本点的中心(x ,y ).
2.当两个变量的相关系数|r |=1时,两个变量呈函数关系.
【基础自测】
1.判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程y ^=b ^x +a ^
可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.() [答案](1)√(2)√(3)×(4)√
2.在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的是()
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R3为0.50
D.模型4的相关指数R2为0.25
A
3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),若自变量的值为10,则因变量的值约为()
A.16.3B.17.3
C.12.38 D.2.03
C
4.下面是一个2×2列联表
52,54
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
根据表中数据,得到K2的观测值k=50×(13×20-10×7)2
23×27×20×30
≈4.844.则认为选修
文科与性别有关系出错的可能性为________.5%
【题型突破】
相关关系的判断
1.已知变量x 和y 近似满足关系式y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )
A .x 与y 正相关,x 与z 负相关
B .x 与y 正相关,x 与z 正相关
C .x 与y 负相关,x 与z 负相关
D .x 与y 负相关,x 与z 正相关 C
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A .r 2<r 4<0<r 3<r 1
B .r 4<r 2<0<r 1<r 3
C .r 4<r 2<0<r 3<r 1
D .r 2<r 4<0<r 1<r 3 A
3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x ,y 是负相关关系;
②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为
R 21,用y ^=b ^x +a ^
拟合时
的相关指数为R 22,则R 21>R 22;
③x ,y 之间不能建立线性回归方程. ①②
[方法总结] 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r >0时,正相关;r <0时,负相关.
(3)线性回归直线方程中:b ^>0时,正相关;b ^
<0时,负相关.
回归分析
【例1】 (2018·广州一模)某地1~10岁男童年龄x i (岁)与身高的中位数y i (cm)(i =1,2,…,10)如下表: x /岁
1
2
3
4
5
6
7
8
9
10
y /cm 76.5 88.5 96.8 104.1 111.3 117.7 124.0 130.0 135.4 140.2
x y ∑10
i =1
(x i -x )2
∑10
i =1
(y i -y )2
∑10
i =1
(x i -x )(y i -y )
5.5
112.45
82.50 3 947.71 566.85
(2)某同学认为,y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y ^
=-0.30x 2+10.17x +68.07.经调查,该地11岁男童身高的中位数为145.3 cm .与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好? 附:回归方程y ^=a ^+b ^x 中的斜率和截距的最小二乘估计公式分别为b ^=
∑n
i =1
(x i -x )(y i -y )
∑n
i =1
(x i -x )2
,a ^=y -b ^x .
[解] (1)b ^=∑10
i =1 (x i -x )(y i -y )∑10
i =1
(x i -x )2
=566.85
82.50
≈6.87, a ^=y -b ^
x ≈112.45-6.87×5.5≈74.67, 所以y 关于x 的线性回归方程为y ^
=6.87x +74.67. (2)若回归方程为y ^
=6.87x +74.67, 当x =11时,y ^
=150.24.
若回归方程为y ^
=-0.30x 2+10.17x +68.07, 当x =11时,y ^
=143.64.
因为|143.64-145.3|=1.66<|150.24-145.3|=4.94,
所以回归方程y ^
=-0.30x 2+10.17x +68.07对该地11岁男童身高中位数的拟合效果更好.
[方法总结] 1.求回归直线方程的步骤
2.(1)若已知回归直线方程(方程中无参数)进行预测时,把变量x 代入回归直线方程即可对变量y 进行估计.
(2)若回归直线方程中有参数,则根据回归直线一定经过点(x ,y )求出参数值,得到回归直线方程,进而完成预测.
y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以
看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^
.已知∑10 i =1
x i =
225,∑10
i =1
y i =1 600,b ^
=4.该班某学生的脚长为24,据此估计其身高为( )
A .160
B .163
C .166
D .170
(2)某产品的广告费用x 万元与销售额y 万元的统计数据如表:
广告费用x (万元) 2 3 4 5 销售额y (万元)
26
m
49
54
根据上表可得回归方程y =9x +10.5,则m 的值为( ) A .36 B .37 C .38 D .39
(1)C (2)D
独立性检验
【例2】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式 第二种生产方式
附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )
,
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可)
(2)由茎叶图知m=79+81
2=80.
列联表如下:
(3)由于K2=
20×20×20×20
=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=
n(ad-bc)2
(a+b)(a+c)(b+d)(c+d)
计算K2的观测值k;
(3)比较观测值k与临界值的大小关系,作统计推断.
某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:
使用智能手机不使用智能手机合计学习成绩优秀4812 学习成绩不优秀16218 估计201030
P(K2≥k0)0.150.100.050.0250.0100.0050.001 k02.0722.7063.8415.0246.6357.87910.828
A.有99.5%的把握认为使用智能手机对学习有影响
B.有99.5%的把握认为使用智能手机对学习无影响
C.有99.9%的把握认为使用智能手机对学习有影响
D.有99.9%的把握认为使用智能手机对学习无影响
A
【真题链接】
1.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中w i =x i ,w ]=1
8∑i =1
w i .
(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;
(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:
①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的
斜率和截距的最小二乘估计分别为β^=∑n
i =1 (u i -u )(v i -v )∑n
i =1
(u i -u )2
,α^=v -β^
u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.
(2)令w =x ,先建立y 关于w 的线性回归方程.
由于d ^=
∑i =1
8
(w i -w )(y i -y )
∑i =18
(w i -w )2
=
108.8
1.6
=68, c ^=y -d ^
w =563-68×6.8=100.6,
所以y 关于w 的线性回归方程为y ^
=100.6+68w , 因此y 关于x 的回归方程为y ^
=100.6+68x . (3)①由(2)知,当x =49时,
年销售量y 的预报值y ^
=100.6+6849=576.6, 年利润z 的预报值z ^
=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值
z ^
=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.6
2=6.8,即x =46.24时,z ^取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
2.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg ”,估计A 的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法 新养殖法
0.01).
附:
K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
.
[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表
K2=
100×100×96×104
≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法产量的中位数的估计值为
50+0.5-0.34
0.068
≈52.35(kg).
统计与统计案例真题与解析
统计与统计案例 A 级 基础 一、选择题 1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( ) A .860 B .720 C .1 020 D .1 040 2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A .13 B .19 C .20 D .51 3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^ =mx +0.35,则预测2019年捐赠的现金大约是( ) A.5万元 C .5.25万元 D .5.5万元 4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7 5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下: 记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是() A.a=0.015,s21 统计案例 一、回归分析 1. 线性回归方程???y bx a =+的求法 (1)求变量x 的平均值,即1231 ()n x x x x x n =+++???+ (2)求变量y 的平均值,即1231 ()n y y y y y n = +++???+ (3)求变量x 的系数?b ,即1 2 1 ()() ?() n i i i n i i x x y y b x x ==--=-∑∑(题目给出,不用记忆) 1 2 1()() ?() n i i i n i i x x y y b x x ==--=-∑∑ 1 1 1 1 2 2 1 1 1 2n n n n i i i i i i i i n n n i i i i i x y x y xy x y x xx x =======--+= -+∑∑∑∑∑∑∑1 22 21 2n i i i n i i x y nx y nx y nx y x nx nx ==--+= -+∑∑12 21 n i i i n i i x y nx y x nx ==-= -∑∑(理解记忆) (其中1 1 n n i i i x x nx ====∑∑,1 1 n n i i i y y ny ====∑∑,() ,x y 称为样本点中心) (4)求常数?a ,即??a y bx =- (5)写出回归方程???y bx a =+(?a ,?b 的意义:以?a 为基数,x 每增加1个单位,y 相应地平均增加?b 个单位) 注意:若?0b >则正相关,若?0b <则负相关. 2. 相关系数 假设两个随机变量的取值分别是()11,x y ,()22,x y ,……,(),n n x y ,则变量间线性相关系数的计算公式如下: ()() n n i i i i x x y y x y nx y r ---= = ∑∑ 相关系数r 的性质: (1)当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关;当0r =时,表明 一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D 考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用. 知 识 梳 理 1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数. (1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^ =b ^ x +a ^ ,则b ^ =∑n i =1 (x i -x - )(y i -y - )∑n i =1 (x i -x - )2=∑n i =1 x i y i -nx - y - ∑n i =1 x 2 i -nx -2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^ 是在y 轴上的截距. 回归直线一定过样本点的中心(x - ,y - ). 3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x - ,y - )称为样本点的中心. (3)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强. r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 实例1 发行彩票的创收利润某一彩票中心发行彩票 10万张, 每张2元. 设头等奖1个, 奖金 1万元, 二等奖2个,奖金各 5 千元;三等奖 10个, 奖金各1千元; 四等奖100个, 奖金各100元; 五等奖1000个, 奖金各10 元.每张彩票的成本费为 0.3 元, 请计算彩票发行单位的创收利润.解:设每张彩票中奖的数额为随机变量X , 则X 10000 5000 1000 100 10 0p 51/1052/10510/105100/1051000/100p 每张彩票平均能得到奖金 05512()10000500001010E X p =? +?++? 0.5(),=元每张彩票平均可赚20.50.3 1.2(), --=元因此彩票发行单位发行 10 万张彩票的创收利润为:100000 1.2120000().?=元实例2 如何确定投资决策方向?某人有10万元现金,想投资于某项目,预估成功的机会为 30%,可得利润8万元 , 失败的机会为70%,将损失 2 万元.若存入银行,同期间的利率为5% ,问是否作此项投资?解:设 X 为投资利润,则 X 8 -2p 0.3 0.7()80.320.71(),E X =?-?=万元存入银行的利息:故应选择投资.1050.5(),%?=万元实例3 商店的销售策略某商店对某种家用电器的销售采用先使用后付款的方式,记使用寿命为X (以年计),规定1,1500;12,2000;23,2500; 3,3000.X X X X ≤<≤<≤>一台付款元一台付款元一台付款元一台付款元10,1e ,0,()100, 0.x X x f x x Y -?>?=??≤? 设寿命服从指数分布概率密度为试求该商店一台家用电器收费的数学期望定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术、电气课校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料、电气设备调试高中中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并 专题突破练20 统计与统计案例 1. (2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图; (2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^ =-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^ =99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由. 3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d. 计数原理、概率、随机变量及其分布、统计、统计案例 第Ⅰ卷(选择题 共60分) 一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的) 1.已知随机变量ξ服从正态分布N (1,σ2),P (ξ≤4)=,则P (ξ≤-2)=( ) A . B . C . D . 2.以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的平均数为17,乙组数据的中位数为17,则x ,y 的值分别为( ) A .2,6 B .2,7 C .3,6 D .3,7 3.将4个颜色互不相同的球全部收入编号为1和2的两个盒 子里,使得放入每个盒子里的球的个数不小于该盒子的编号,则不同的放球方法有( ) A .10种 B .20种 C .36种 D .52种 4.已知f (x )、g (x )都是定义在R 上的函数,g (x )≠0,f ′(x )g (x )-f (x )g ′(x )<0,fx gx =a x ,f 1g 1+ f -1 g -1=52,则关于x 的方程abx 2+2x +5 2=0(b ∈(0,1))有两个不同实根的概率为( ) 5.用0,1,…,9十个数字,可以组成有重复数字的三位数的个数为( ) A .243 B .252 C .261 D .279 6.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y 与x 负相关且y ^ =-; ② y 与x 负相关且y ^ =-+; ③y 与x 正相关且y ^ =+; ④y 与x 正相关且y ^ =--. 其中一定不正确的结论的序号是( ) A .①② B .②③ 第3讲 变量间的相关关系与统计案例 【2015年高考会这样考】 以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】 高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式. 基础梳理 1.相关关系的分类 从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则 ?? ??? b ^=∑i =1n (x i -x )(y i -y )∑i =1n (x i -x )2 = ∑i =1n x i y i -n x y ∑i =1 n x 2i -n x 2 , a ^=y -b ^ x . 其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数 r= ∑ i=1 n (x i-x)(y i-y) ∑ i=1 n (x i-x)2∑ i=1 n (y i-y)2 ,用它来衡量两个变量间的线性相关关系. (1)当r>0时,表明两个变量正相关; (2)当r<0时,表明两个变量负相关; (3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差 平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好. 6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1y2总计 x1 a b a+b x2 c d c+d 总计a+c b+d a+b+c+d K2=n(ad-bc)2 (a+b)(a+c)(c+d)(b+d) (其中n=a+b+c+d为样本容量),可利用独立性检验 随机变量的分布列及统计案例复习学案参考答案 例1、解析 ∵P (A )=C 22+C 23 C 25=25,P (AB )=C 22C 25 =110, ∴P (B |A )=P (AB )P (A )=1 4 . 答案 B 例2、解析 该题为几何概型,圆的半径为1,正方形的边长为2,∴圆的面积为 π,正方形面积为2,扇形面积为π4.故P (A )=2π,P (B |A )=P (A ∩B )P (A )=1 4. 答案 (1)2π (2)1 4 例3、 专题三 离散型随机变量的分布列、均值与方差 例4、 解 设A 、B 、C 分别为甲、乙、丙三台机床各自独立加工同一种零件是一等品的事件,依题意得 ?????????P (A ·B -)=14,P (B ·C -)=112,P (A ·C )=29,即???? ??? ??P (A )·(1-P (B ))=14,P (B )·(1-P (C ))=112,P (A )·P (C )=29, 得27[P (C )]2-51P (C )+22=0, 解得P (C )=23或P (C )=119 (舍). ∴P (A )=13,P (B )=14,P (C )=2 3 . 即甲、乙、丙三台机床各自独立加工的零件是一等品的概率分别为13,14,2 3. (2)记D 为从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的事件. P (D )=1-P (D -)=1-(1-P (A ))·(1-P (B ))·(1-P (C ))=1-23× 34×13=56,即从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的概率为56. 变量间的相关关系同步练习题 1. 下列两个变量具有相关关系的是( ) A. 正方体的体积与边长 B. 人的身高与体重 C. 匀速行驶车辆的行驶距离与时间 D. 球的半径与体积 2. 两个变量成负相关关系时,散点图的特征是( ) A. 点散布在从左下角到右上角的区域内 B. 点散布在某带形区域内 C. 点散布在某圆形区域内 D. 点散布在从左上角到右下角的区域内 3. 由一组样本数据(1x ,1y ),(2x ,2y ),…,(n x ,n y ),得到回归方程a bx y +=∧ ,那么下面说法不正确的是( ) A. 直线a bx y +=∧ 必经过点(x ,y ) B. 直线a bx y +=∧至少经过点(1x ,1y ),(2x ,2y ),…,(n x ,n y )中的一个点 C. 直线a bx y +=∧的斜率为 ∑∑==--n 1 i 2 2i n 1 i i i x n x y x n y x D. 直线a bx y +=∧ 和各点(1x ,1y ),(2x ,2y ),…,(n x ,n y )的偏差 ()[]∑=+-n 1 i 2 i i a bx y 是该坐标平面上所有直线与这些点的偏差中最小的直线 4. 若施化肥量x (单位:kg )与水稻产量y (单位:kg )的回归方程为250x 5y +=∧ ,则当施化肥量为80kg 时,预计水稻产量为___________。 5. 相关关系与函数关系的区别是___________。 (1)作出这些数据的散点图; (2)通过观察这两个变量的散点图,你能得出什么结论? 7. 某化工厂为预测某产品的回收率y ,需要研究回收率y 和原料有效成分含量x 之间的相关关系,现取了8对观察值,计算得: ∑==8 1 i i 52x , ∑==8 1 i i 228y , ∑=8 1 i 2 i x 478=, ∑==8 1 i i i 1849y x ,则y 与x 的回归方程是( ) A. x 62.247.11y +=∧ B. x 62.247.11y +-=∧ C. x 47.2262.2y +=∧ D. x 62.247.11y -=∧ 专题二十 统计与统计案例 一、单选题 1.(2020·河南宛城·南阳华龙高级中学月考(文))在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (2n ≥, 1x ,2x ,……,n x 不全相等)的散点图中,若所有样本点()(),1,2,,i i x y i n =???都在直线2 15 y x = +上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C . 12 D .1 二、多选题 2.(2020·江苏省丰县中学期末)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算2K 的观测值 5.059k ≈,则可以推断出( ) 附: A .该俱乐部的男性会员对运动场所满意的概率的估计值为 2 3 ; B .调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意; C .有97.5%的把握认为男性会员、女性会员对运动场所的评价有差异; D .有99%的把握认为男性会员、女性会员对运动场所的评价有差异. 第II 卷(非选择题) 三、解答题 3.(2020·河南宛城·南阳华龙高级中学月考(文))微信是现代生活中进行信息交流的重要工具.据统计,某公司200名员工中0090的人使用微信,其中每天使用微信时间少于一小时的有60人,其余的员工每天使用微信时间不少于一小时,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中0075是青年人.若规定:每天使用微信时间不少于一小时为经常使用微信,那么经常使用微信的员工中 2 3 都是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,完成22?列联表: (2)由列联表中所得数据判断,能否在犯错误的概率不超过0.001的前提下认为“经常使用微信与年龄有关”? 2 2 ()()()()() n ad bc k a b c d a c b d -=++++ 4.(2020·江苏泰州·期末)某企业的甲、乙两种产品在东部地区三个城市以及西部地区两个城市的销售量x , y 的数据如下: 课时作业 58 变量间的相关关系与统计案例 一、选择题 1.(2018·石家庄模拟(一))下列说法错误的是( ) A .回归直线过样本点的中心(x -,y - ) B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1 C .对分类变量X 与Y ,随机变量K 2 的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小 D .在回归直线方程x ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^ 平均增加0.2个单位 解析:本题考查命题真假的判断.根据相关定义分析知A ,B ,D 正确;C 中对分类变量 X 与Y 的随机变量K 2的观测值k 来说,k 越大,判断“X 与Y 有关系”的把握程度越大,故 C 错误,故选C. 答案:C 2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x - .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元 解析:∵x -=10.0,y -=8.0,b ^=0.76,∴a ^=8-0.76×10=0.4,∴回归方程为y ^ =0.76x +0.4,把x =15代入上式得,y ^ =0.76×15+0.4=11.8(万元). 答案:B 3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 合计 爱好 40 20 60 不爱好 20 30 50 合计 60 50 110 由K 2 = n ad -bc 2a +b c + d a +c b +d , 课题:§2.3.1变量之间的相关关系 一.教学任务分析: (1)通过具体示例引导学生考察变量之间的关系,在讨论的过程中认识现实世界中存在着不能用函数模型描述的变量关系,从而体会研究变量之间的相关关系的重要性. (2) 通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.会作散点图,并对变量间的正相关或负相关关系作出直观判断. (3) 在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解统计的作用. 二.教学重点与难点: 教学重点:利用散点图直观认识变量间的相关关系. 教学难点:理解变量间的相关关系. ↓ ↓ ↓ 1.创设情景,揭示课题 客观事物是相互联系的,过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系.比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说,事实上数学和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度,所以说,函数关系存在着一种确定性关系,但还存在着另一种非确定性关系——相关关系. 生活中存在着许多相关关系的问题: 问题1:商品销售收入与广告支出之间的关系. 问题2:粮食产量和施肥量之间的关系. 问题3:人体内的脂肪含量与年龄之间的关系. 由上述问题我们知道,两个变量之间的关系,可能是确定关系或非确定关系.当自变量取 值一定时,因变量的取值带有一定的随机性时,两个变量之间的关系称为相关关系.相关关系是一种非确定性关系,函数关系是一种确定性的关系. 2.两个变量的线性相关 问题4: 在一次对人体的脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据: 问题5:某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对照表: 根据上述数据,气温与热茶销售量之间的有怎样的关系? 学生活动:为了了解热茶销量与气温的大致关系,我们以横坐标x表示气温,纵坐标y表示热茶销量,建立直角坐标系,将表中数据构成的6个数对所表示的点在坐标系内标出,得到下 第3讲 变量间的相关关系、统计案例 1.变量间的相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. (3)回归方程为y ^=b ^x +a ^,其中b ^ =,a ^=y --b ^x -. (4)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验 (1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为: y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d (2)K 2K 2= n (ad -bc )2 (a +b )(c +d )(a +c )(b +d ) (其中n =a +b +c +d 为样本容量). 判断正误(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) 高考数学统计与统计案例1.小吴一星期的总开支分布如图 1 所示,一星期的食品开支如图 2 所示,则小吴一星期的鸡蛋开支占总开支的百分比为() A.1%B.2%C.3%D.5% C[ 由图 1 所示,食品开支占总开支的 30%,由图 2 所示,鸡蛋开支占食 品开支的30 = 1 , 30+40+100+80+ 50 10 1 ∴鸡蛋开支占总开支的百分比为30%×10=3%.故选 C.] 2.(2019 德·州模拟 )某人到甲、乙两市各7 个小区调查空置房情况,调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为() A.4B. 3C.2D.1 B[ 由茎叶图可以看出甲、乙两市的空置房的套数的中位数分别是79,76,因此其差是 79- 76=3,故选 B.] 3.某工厂对一批新产品的长度(单位: mm)进行检测,如图是检测结果的频案例统计公式(绝对精华)
高中数学 专题 统计与统计案例
(新人教A版)2020版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理
【免费下载】概率论与数理统计案例
专题突破练20 统计与统计案例
计数原理、概率、随机变量及其分布、统计、统计案例
高考一轮复习变量间的相关关系与统计案例
随机变量、统计案例
变量间的相关关系同步练习题
2021届高三新题数学9月(适用新高考)专题二十 统计与统计案例(原卷版)
2019版高考数学总复习第十章算法初步统计统计案例58变量间的相关关系与统计案例课时作业文20180
变量之间的相关关系
3 第3讲 变量间的相关关系、统计案例
高考数学统计与统计案例.doc