第8.1节两个变量的相关关系
统计学 第8章 相关与回归分析

2
-1 1 0 -1 -2 0 1 -2
4
1 1 0 1 4 0 1 4 20
6 * 20 r 1 2 1 0.8788 2 n(n 1) 10 * (10 1)
6 d 2
8.3
8.3.1 8.3.2 8.3.3 8.3.4 8.3.5
一元线性回归
一元线性回归模型 参数的最小二乘估计 回归直线的拟合优度 显著性检验 利用回归方程进行预测
共计
325
462 77
445 89
707 101
685 137
1043 149
E(Y|X) 65
Y
X=X1时Y 的分布
X=X2时Y 的分布 X=X3时Y 的分布
b0
X=X1时的E(Y)
b0+ b 1X
X=X2时的E(Y) X=X3时的E(Y)
X1=80
X2=100
X3=120
X
总体回归函数
(population regression function)
相关系数的显著性检验
(检验的步骤)
1. 检验两个变量之间是否存在线性相关关系 2. 利用样本的相关系数对总体相关系数进行 检验 3. 采用R.A.Fisher提出的 t 检验 4. 检验的步骤为
提出假设:H0: ;H1: 0
n2 计算检验的统计量: tr ~ t (n 2) 2 1 r 确定显著性水平,并作出决策
2
2
或化简为 r
n x x n y y
2 2 2
n xy x y
2
例 产品产量与单位成本相关系数
产 月 量 份 x 1 2 2 3 3 4 4 3 5 4 6 5 合 21 计 单位 成本 y 73 72 71 73 69 68
高中数学新教材选择性必修第三册第八章 成对数据的统计分析 8.1 成对数据的相关关系(南开题库含详解)

第八章成对数据的统计分析 8.1 成对数据的相关关系一、选择题(共40小题;共200分)1. 下列图形中具有相关关系的两个变量是( )A. B.C. D.2. 有关线性回归的说法,不正确的是( )A. 具有相关关系的两个变量不具有因果关系B. 散点图能直观地反映数据的相关程度C. 回归直线最能代表线性相关的两个变量之间关系D. 任一组数据都有回归直线3. 下列两个变量之间的关系,不是函数关系的是( )A. 角度与它的正弦值B. 圆的半径与它的面积C. 正n边形的边数和正n边形的内角和D. 人的年龄与身高4. 下列两个变量之间的关系,不是函数关系的是( )A. 角度与它的余弦值B. 正方形的边长与面积C. 正n边形的边数与各内角的角度之和D. 人的年龄与身高5. 已知x与y之间的一组数据:x0123y1357则y与x的线性回归方程必过( )A. 点(2,2)B. 点(1.5,0)C. 点(1,2)D. 点(1.5,4)6. 一个口袋中有大小不等的红、黄、蓝三种颜色的小球若干个(大于5个),从中取5次,那么取出红球的次数和口袋中红球的数量是( )A. 确定性关系B. 相关关系C. 函数关系D. 无任何关系7. 下列关系属负相关的是( )A. 父母的身高与子女身高的关系B. 农作物产量与施肥的关系C. 吸烟与健康的关系D. 数学成绩与物理成绩的关系8. 如图所示,每个图的两个变量具有相关关系的是( )A. (1)(2)B. (1)(3)C. (2)(4)D. (2)(3)9. 下列两个变量之间是相关关系的是( )A. 圆的面积与半径之间的关系B. 球的体积与半径之间的关系C. 角度与它的正弦值之间的关系D. 降雪量与交通事故的发生率之间的关系10. 对变量x,y有观测数据(x i,y i)(i=1,2,⋯,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i=1,2,⋯,10),得散点图(2),由这两个散点图可以判断( )A. 变量x与y正相关,u与v正相关B. 变量x与y正相关,u与v负相关C. 变量x与y负相关,u与v正相关D. 变量x与y负相关,u与v负相关11. 已知变量x和y满足关系y=−0.1x+1,变量y与z正相关.下列结论中正确的是( )A. x与y正相关,x与z负相关B. x与y正相关,x与z正相关C. x与y负相关,x与z负相关D. x与y负相关,x与z正相关12. 下列关系中,是相关关系的有( )①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.A. ①②B. ①③C. ②③D. ②④13. 假设有两个分类变量X和Y的2×2列联表:YX y1y2总计x1a10a+10x2c30c+30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )A. a=45,c=15B. a=40,c=20C. a=35,c=25D. a=30,c=3014. 对于给定的两个变量的统计数据,下列说法中正确的是( )A. 都可以分析出两个变量的关系B. 都可以用一条直线近似地表示两者的关系C. 都可以作出散点图D. 都可以用确定的表达式表示两者的关系15. 以下四个命题:①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件进行某项指标检测,这种抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在回归直线方程y^=0.2x+12中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位;④对分类变量X与Y,它们的随机变量K2的观测值k越小," X与Y有关系"的把握程度越大,其中正确的命题是( )A. ①④B. ②③C. ①③D. ②④16. 对于样本频率分布直方图与总体密度曲线的关系,下列说法中正确的是( )A. 频率分布直方图与总体密度曲线无关B. 频率分布直方图就是总体密度曲线C. 样本容量很大的频率分布直方图就是总体密度曲线D. 如果样本容量无限增大,分组的组距无限减小,那么频率分布直方图就会无限接近于总体密度曲线17. 试从下面四个图中的点在散点图上的分布状态,直观上初步判断两个变量之间有线性相关关系的是( )A. B.C. D.18. 列两个变量之间的关系,不是函数关系的是( )A. 角度与它的余弦值B. 正方形的边长与面积C. 正n边形的边数与内角度数之D. 人的年龄与身高19. 单位产品成本与其产量的相关关系,单位产品成本与单位产品原材料消耗量相关关系中( )A. 前者是正相关,后者是负相关B. 前者是负相关,后者是正相关C. 两者都是正相关D. 两者都是负相关20. 在下列各图中,图中的两个变量间具有相关关系的是( )A. (1)(2)B. (1)(3)C. (2)(4)D. (2)(3)21. 下列变量之间的关系是函数关系的是( )A. 已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量为这个函数对应方程的判别式B. 光照时间和果树亩产量C. 降雪量和交通事故的发生率D. 每亩施用肥料量和粮食亩产量22. 下列有关样本相关系数的说法不正确的是( )A. 相关系数用来衡量x与y之间的线性相关程度B. ∣r∣≤1,且∣r∣越接近0,相关程度越小C. ∣r∣≤1,且∣r∣越接近1,相关程度越大D. ∣r∣≥1,且∣r∣越接近1,相关程度越大23. 观察下列各图:其中两个变量x,y具有线性相关关系的图是( )A. ①②B. ①④C. ③④D. ②③24. 如图是根据变量x,y的观测数据(x i,y i,i=1,2,⋯,10)(得到的散点图,由这些散点图可以判断变量x,y具有相关关系的图是( )A. ①②B. ①④C. ②③D. ③④25. 如图是根据x,y的观测数据(x i,y i)(i=1,2,⋯,10)得到的散点图,由这些散点图可以判断变量x,y具有线性相关关系的图是( )A. ①②B. ①④C. ②③D. ③④26. 下列语句所表示的事件不具有相关关系的是( )A. 瑞雪兆丰年B. 名师出高徒C. 吸烟有害健康D. 喜鹊叫喜27. 已知变量x和y满足关系y=−0.1x+1,变量y与z正相关.下列结论中正确的是( )A. x与y正相关,x与z负相关B. x与y正相关,x与z正相关C. x与y负相关,x与z负相关D. x与y负相关,x与z正相关28. 观察下列散点图,其中两个变量的相关关系判断正确的是( )A. a为正相关,b为负相关,c为不相关B. a为负相关,b为不相关,c为正相关C. a为负相关,b为正相关,c为不相关D. a为正相关,b为不相关,c为负相关29. 在一组样本数据(x1,y1),(x2,y2),⋯,(x n,y n)(n≥2,x1,x2,⋯,x n不全相等)的散点图中,若所x+1上,则这组样本数据的样本相关系数为有样本点(x i,y i)(i=1,2,⋯,n)都在直线y=12( )D. 1A. −1B. 0C. 1230. 在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )A. 100个吸烟者中至少有99人患有肺癌B. 1个人吸烟,那么这人有99%的概率患有肺癌C. 在100个吸烟者中一定有患肺癌的人D. 在100个吸烟者中可能一个患肺癌的人也没有31. 在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得"打酣与患心脏病有关"的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是( )A. 100个心脏病患者中至少有99人打酣B. 1个人患心脏病,则这个人有99%的概率打酣C. 100个心脏病患者中一定有打酣的人D. 100个心脏病患者中可能一个打酣的人都没有32. 有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是( )A. ①③B. ②④C. ②⑤D. ④⑤33. 对于回归分析,下列说法错误的是( )A. 在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B. 线性相关系数可以为正或负C. 回归分析中,如果r2=1或r±1,说明x与y之间完全线性相关D. 样本相关系数r∈(−1,1)34. 下图中的两个变量具有相关关系的是( )A. B.C. D.35. 下面两个变量之间是相关关系的是( )A. 出租车车费与行驶的里程B. 房屋面积与房屋价格C. 身高与体重D. 铁的大小与质量36. 对于给定的两个变量的统计数据,下列说法正确的是( )A. 都可以分析出两个变量的关系B. 都可以用一条直线近似地表示两者的关系C. 都可以作出散点图D. 都可以用确定的表达式表示两者的关系37. 对变量x,y有观测数据(x i,y i)(i=1,2,⋯,10),得散点图1;对变量u,v有观测数据(u i,v i)(i=1,2,⋯,10),得散点图2.由这两个散点图可以判断( ).A. 变量x与y正相关,u与v正相关B. 变量x与y正相关,u与v负相关C. 变量x与y负相关,u与v正相关D. 变量x与y负相关,u与v负相关38. 下表是某小卖部一周卖出热茶的杯数与当天气温的对比表:气温∘C1813104−1杯数2434395163若热茶杯数y与气温x近似地满足线性关系,则其关系式最接近的是( )A. y=x+6B. y=x+42C. y=−2x+60D. y=−3x+7839. 观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是( )A. B.C. D.40. 变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )A. r2<r1<0B. 0<r2<r1C. r2<0<r1D. r2=r1二、填空题(共30小题;共150分)41. 下列关系中带有随机性相关关系的有.①光照时间与果树的亩产量的关系;②圆柱体积与其底面直径的关系;③自由落体的物体的质量与落地时间的关系;④球的表面积与球半径之间的关系.42. 下列关系中,属于相关关系的是.①正方形的边长和面积之间的关系;②水稻产量与施肥量之间的关系;③人的身高与学习成绩之间的关系;④降雪量与交通事故的发生率之间的关系.43. 下列变量间的关系是相关关系的有,是函数关系的有.①球的表面积与体积;②光照时间和果树亩产量;③降雪量和交通事故发生率;④出租车费与行驶的里程;⑤人的身高与视力;⑥家庭的支出与收入;⑦收入水平与纳税水平.44. 在研究两个变量的关系时,可以通过残差e^1,e^2,⋯,e^n来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为分析.45. 相应于显著性水平0.05,观测值为10组的相关数临界值为.46. 自变量取值一定时,因变量的取值两个变量之间的关系叫做相关关系.与函数关系,相关关系是一种.47. 对具有的两个变量进行统计分析的方法叫回归分析.48. 现有一个由身高预测体重的回归方程:体重预测值=4(磅/英寸)×身高−130磅.其中体重与身高分别以磅和英寸为单位.如果换算为公制(1英寸≈2.5cm,1磅≈0.45kg),回归方程应该为.49. 从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为.50. 在分析两个分类变量之间是否有关系时,常用到的图表有.51. 据两个变量x,y之间的关系,观察数据画成散点图如图,这两个变量是否具有线性相关关系(答是与否).52. 为了判断两个变量x,y之间是否具有相关关系,描出每一组观测值(x,y)表示的点,得到的图形称为.53. 表示具有相关关系的两个变量的一组数据的图形叫做.54. 现实世界中存在许多情况是两个变量间有密切联系,但这种关系无法用确定的函数关系式表达出来,这种变量之间的关系称.55. 在两个变量的回归分析中,作散点图的目的是.56. 判断下列结论的正误(正确的打“√”错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系.( )(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( ) 57. 已知一组观测值(x1,y1),(x2,y2),…,(x n,y n)之间满足y i=bx i+a+e i(i=1、2.…n),若e i恒为0,则R2为.58. 若有一组数据的总偏差平方和为100,相关指数为0.5,则其残差平方和为,回归平方和为.59. 许多因素都会影响贫穷,教育也是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)的数据,建立的线性回归方程为y^=0.8x+4.6,斜率的估计值等于0.8说明,成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)之间的相关系数.(填“大于0”或“小于0”)60. 有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系;⑤学生与他(她)的学号之间的关系.其中有相关关系的是.61. 下列四个关系中为相关关系的是.①正方形的边长与其面积的关系;②圆的面积与半径的关系;③圆柱体积与其底面半径的关系;④Rt△ABC中,锐角A的大小与斜边长度的关系.62. 某市居民2010∼2014年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:年份20102011201220132014收入x11.512.11313.315支出y 6.88.89.81012根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与年平均支出有相关关系.(填“正”或“负”)63. 有下列关系:①名师出高徒;②球的体积与该球的半径之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树,其断面直径与高度之间的关系;⑤学生与他(她)的学号之间的关系;⑥乌鸦叫,没好兆.其中,具有相关关系的是.64. 根据你的生活经验及掌握的知识,将下列所有你认为正确的结论填入题后空中.①一般地,学生的数学成绩与物理成绩之间是正相关的;②一般地,学生的数学成绩与英语成绩是负相关的;③一块农田的水稻产量与施肥量之间是相关关系;④对于在校儿童,年龄的大小与阅读能力有很强的相关关系.以上正确的结论是.65. 有下列关系:(1)人的年龄与他(她)拥有的财富之间的关系;(2)曲线上的点与该点的坐标之间的关系;(3)苹果的产量与气候之间的关系;(4)森林中的同一种树木,其断面直径与高度之间的关系;(5)学生与他(她)的学号之间的关系,其中有相关关系的是66. 已知施化肥量x与水稻产量y的试验数据如下表,则变量x与变量y是相关(填“正”或“负”)施化肥量x15202530354045水稻产量y33034536540544545045567. 下列命题中:①命题p:“∃x0∈R,x02−x0−1>0”的否定¬p“∀x∈R,x2−x−1≤0”;②汽车的重量和汽车每消耗1升汽油所行驶的平均路程成正相关关系;③命题“若a>b,则2a>2b−1”的否命题为“若a≤b,则2a≤2b−1”;④概率是随机的,在试验前不能确定.正确的有.68. 有同学在用电子邮件时发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少,为了研究国籍与邮箱名称是否与含有数字有关,于是我们共收集了124个邮箱名称,其中中国人的64个,外国人的60个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.那么认为"国籍和邮箱名称里是否含有数字有关"的把握性为.(用百分数表示)69. 某炼钢厂废品率x(%)与成本y(元/t)的线性回归方程为y^=105.492+42.569x.当成本控制在176.5元/t时,可以预计生产1000t钢中,约有t钢是废品.70. 以下四个命题,其中正确的序号是.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y^=0.2x+12中,当解释变量x每增加一个单位时,预报变量y^平均增加0.2个单位;④对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.三、解答题(共30小题;共390分)71. 如图是两个变量统计数据的散点图,判断两个变量之间是否具有相关关系?72. 某种产品的广告费支出x与销售额y(单位:万元)之间有如下对应数据:x24568y3040605070判断这两者是否具有相关关系,如果具有的话,进一步判断是正相关还是负相关.73. 从高一(1)班中随机选出10名同学,将他们的身高、数学成绩和物理成绩列表如下:身高(m) 1.50 1.60 1.55 1.65 1.45 1.60 1.52 1.66 1.70 1.40数学成绩(分)90857888877695756870物理成绩(分)88848083787090807468试判断数学成绩与身高和物理成绩是否成线性相关关系.74. “明师出高徒”可以解释为教师的水平越高,学生的水平也越高.那么,教师的水平与学生的水平是否成相关关系?如成相关关系,是正相关,还是负相关?你能举出更多描述生活中两个变量或相关关系的成语吗?75. 5个学生的数学和物理成绩如下表(单位:分)画出散点图,并判断它们是否有相关关系.76. 在班级随机地抽取8名学生,得到一组数学成绩与物理成绩的数据:数学成绩6090115809513580145物理成绩4060754070856090(1)计算出数学成绩与物理成绩的平均分及方差;(2)求相关系数r的值,并判断相关性的强弱;(r≥0.75为强)(3)求出数学成绩x与物理成绩y的线性回归直线方程,并预测数学成绩为110的同学的物理成绩.77. 下图甲、乙分别是对应于(a),(b)两组数据的散点图:表(a)A261813104−1B202434385064表(b)C05101520253035D541.67602.66672.09704.99806.71908.59975.421034.75根据数据的散点图判断两图中变量是否具有相关关系;如果具有相关关系,请说出是哪种相关关系.78. 抽测10名15岁的男生的身高x(单位:cm)和体重y(单位:kg),得到如下数据:x157153151158155156159160158163y45.544424644.54546.5474549(1)作出散点图;(2)从散点图中观察身高与体重成什么关系?(3)如果近似成线性关系,试画出一条直线来近似地表示这种关系.79. 某校为调查学生喜欢数学是否与性别有关,对50名学生进行了问卷调查得到了如下的列联表:喜欢数学不喜欢数学合计男生5女生10合计50已知在全部50人中随机抽取1人抽到喜欢数学的学生的概率为3.5临界值参考:P(k2≥k)0.100.050.250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828,其中n=a+b+c+d)(参考公式:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)(1)请将上面的列联表补充完整(不用写计算过程);(2)是否有99.5%的把握认为喜欢数学与性别有关?说明你的理由.80. 有一台机床可以按各种不同的速度运转,其加工的零件中有二级品,并且每小时生产的二级品零件的数量随机床运转的速度而变化,下面是记录的数据:机床运转的速度(转/秒)每小时生产二级品的数量/个851281491611(1)作出散点图,并说明上述两个变量之间是否具有线性相关关系;(2)求出机床运转的速度x与每小时生产二级品数量y的回归直线方程;(3)若实际生产中每小时所允许的二级品数量不超过10个,那么机床运转速度不得超过多少转/秒?(保留两位小数)81. 给出施化肥量对水稻产量影响的试验数据如下表:施化肥量x15202530354045水稻产量y330345365405445450455(1)画出散点图,并判断这两者之间是否具有线性相关关系;(2)如果具有线性相关关系,请求出回归直线并且画出图形.82. 在某小区随机抽取16名成年男子测量他们的体重,x表示第一年的体重,y表示第二年的体重,数据如下(单位:kg):x77599098668569847276887595847965y68668199759175808069726391849273(1)对变量y与x进行相关性检验;(2)如果y与x具有线性相关关系,求回归直线方程.83. 下表是某地一年中10天测量的白昼时间统计表(时间近似到0.1小时,一年按365天计算):日期日期位置序号x白昼时间y(小时)日期日期位置序号x白昼时间y(小时)1月1日1 5.66月21日17219.42月28日5910.28月13日22516.43月21日8012.49月20日26312.44月27日11716.410月25日2988.55月6日12617.312月21日3555.4(1)以日期在 365 天中的位置序号 x 为横坐标,白昼时间 y 为纵坐标,在给定的坐标系中画出这些数据的散点图;(2)试选用一个函数近似描述一年中白昼时间 y 与日期位置 x 之间的函数关系; (3)用 (2) 中的函数模型估计该地一年中大约有多少天白昼时间大于 15.9 个小时.84. 某公司的广告费支出 x 与销售额 y (单位:万元)之间有下列对应数据x 24568y 3040605070参考公式:回归方程为 y ^=bx +a ,其中 b =∑x i y i −nxyn i=1∑x i 2−nx2n i=1,a =y −bx .(1)画出散点图,并判断广告费与销售额是否具有相关关系;(2)根据表中提供的数据,用最小二乘法求出 y 与 x 的回归方程 y ^=bx +a ; (3)预测销售额为 115 万元时,大约需要多少万元广告费.85. 在研究色盲与性别的关系调查中,调查了男性 480 人,其中有 38 人患色盲,调查的 520 个女性中 6 人患色盲,根据以上的数据得到一个 2×2 的列联表如下患色盲不换色盲总计男480女520总计1000(1)请根据以上的数据完成这个 2×2 的列联表;(2)若认为“性别与患色盲有关系”,则出错的概率会是多少? 参考数据:(38×514−442×6)2480×520×44×956=0.02714;(38×6−442×514)2480×520×44×956=4.90618;(38×442−6×514)2480×520×44×956=0.01791;86. 菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水 x (单位:千克)清洗该蔬菜 1 千克后,蔬菜上残留的农药 y (单位:微克)的统计表:x 12345y 5854392910(1)在下面的坐标系中,描出散点图,并判断变量 x 与 y 的相关性;(2)若用解析式 y ^=cx 2+d 作为蔬菜农药残量 y ^ 与用水量 x 的回归方程,令 ω=x 2,计算平均值 ω 和 y ,完成以下表格(填在答题卡中),求出 y ^ 与 x 的回归方程;(c ,d 精确到 0.1)ω1491625y 5854392910ωi −ωy i −y(3)对于某种残留在蔬菜上的农药,当它的残留量低于 20 微克时对人体无害,为了放心食用该蔬菜,请估计需要用多少千克的清水清洗一千克蔬菜?(精确到 0.1,参考数据 √5≈2.236)(附:线性回归方程 y ^=b ^x +a ^ 中系数计算公式分别为: b^=i −x )(i −y )n i=1(x −x )2,a ^=y −b^x .)87. 某地区 2007 年至 2013 年农村居民家庭纯收入 y (单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t 1234567人均纯收入y2.93.33.64.44.85.25.9(1)求 y 关于 t 的线性回归方程;(2)利用(1)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均收入的变化情况,并预测该地区 2015 年农村居民家庭人均纯收入.88. 在块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得到如下表所示的一组数据(单位:kg )施化肥量x/kg 15202530354045水稻产量y/kg 330345365405445450455 (1)作出这些数据的散点图; (2)由(1)分析两变量之间的关系: (3)求回归线性方程; (4)当所施化肥量为 50kg 时,求水稻的产量.89. 假设某关于设备的使用年限 x (年)和所支出的维修费用 y (万元)有如下的统计资料.x 23456y 2.2 3.8 5.5 6.57.0(1)画出散点图并判断是否线性相关; (2)如果线性相关,求回归直线方程; (3)估计使用 10 年时的维修费用.90. 已知一个样本数据的对应值如下表:x 1825303941424952y 356788910判断 x ,y 之间是否有线性相关关系,若有,求其线性回归方程.91. 在电视的收视率调查中,得到性别与收视习惯的列联表如下表所示.试用独立性检验的方法分析性别与收视习惯是否有关?若有关系,则说出可在多大程度上认为有关系?92. 如图是某企业 2010 年至 2016 年污水净化量(单位:吨)的折线图.注:年份代码 1∼7 分别对应年份 2010∼2016.附注:参考数据:y =54,∑(t i −t)7i=1(y i −y )=21,√14≈3.74,∑(y i −yi ^)27i=1=94.参考公式:相关系数 r =i −t)n i=1i −y )√∑(t i −t)ni=1∑(y i −y )2ni=1 y ^=a ^+b^t 中斜率和截距的最小二乘估计公式分别为 b^=i −t)n i=1i −y )∑(t −t)2n i=1,a ^=y −b^t . 反映回归效果的公式为 R 2=1i i 2n i=1∑(y −y)2n ,其中 R 2越接近于 1,表示回归的效果越好. (1)由折线图看出,可用线性回归模型拟合 y 和 t 的关系,请用相关系数加以说明; (2)建立 y 关于 t 的回归方程,预测 2017 年该企业污水净化量; (3)请用数据说明回归方程预报的效果.93. 2015 男篮亚锦赛决赛阶段,中国男篮以 9 连胜的不败战绩赢得第 28 届亚锦赛冠军,同时拿到亚洲唯一 1 张直通里约奥运会的入场券.赛后,中国男篮主力易建联荣膺本届亚锦赛 MVP (最有价值球员),如表是易建联在这 9 场比赛中投篮的统计数据.注:(1)表中 a/b 表示出售 b 次命中 a 次;(2)TS%(真实得分率)是横梁球员进攻的效率,其计算公式为:TS%=全场得分2×(投篮出手次数+0.44×罚球出手次数);(1)从上述9场比赛中随机选择一场,求易建联在该场比赛中TS%超过50%的概率;(2)从上述9场比赛中随机选择两场,求易建联在这两场比赛中TS%至少有一场超过60%的概率;(3)用x来表示易建联某场的得分,用y来表示中国队该场的总分,画出散点图如图所示,请根据散点图判断y与x之间是否具有线性相关关系?结合实际简单说明理由.94. 2015男篮亚锦赛决赛阶段,中国男篮以9连胜的不败战绩赢得第28届亚锦赛冠军,同时拿到亚洲唯一1张直通里约奥运会的入场券.赛后,中国男篮主力易建联荣膺本届亚锦赛MVP最有价值球员),如表是易建联这9场比赛中投篮的统计数据.注:(1)表中a/b表示出手b次命中a次;(2)TS%(真实得分率)是衡量球员进攻的效率,其计算公式为:TS%=全场得分2×(投篮出手次数+0.44×罚球出手次数)(1)从上述9场比赛中随机选择一场,求易建联在该场比赛中TS%过50%的概率;。
8.1.2样本的相关系数PPT课件(人教版)

8.1.2样本的相关系数
学业标准
学科素养
1.了解两随机变量间的样本的相关系 1.通过利用散点图判断变量间的线
数的含义,了解样本相关系数与“标 性相关程度大小培养直观想象能力.
准化”处理后的成对数据两分两向量 2.通过利用相关系数 r 判断变量间的
夹角关系。
线性相关程度大小培养数学分析能
+xn'
yn')=
1 n
x'
•
y'
1 n
|x'|
|y'|
cos
| x' | x1'2 x2'2
xn'2
( x1 x)2 ( x2 x)2
sx
sx
( xn x)2 sx
(x1 x)2 (x2 x)2 sx
(xn x)2
n
(xi x)2
i1
n,同理可得 | y' | n
成对样本数据都可用直角坐标系中的点表示出来,由
这些点组成了统计图叫做散点图
一、温故知新
3.变量相关关系的分类 正相关和负相关 线性相关和非线性相关
4.两个变量之间相关关系的确定 (1).经验作出推断
(2).通过样本数据分析,从数据中提取信息,并构
建适当的模型,再利用模型进行估计或推断
二、自主探究
n
xi - xyi - y
n
xiyi - nxy
r=
i=1
=
i=1
n
2n
2
xi x
yi y
n xi2 - nx2 n yi2 - ny2
i=1
i=1
i=1
高中数学第八章成对数据的统计分析8.1成对数据的统计相关性8.1.1变量的相关关系8.1.2样本相关

势.
3.(多选题)下列说法正确的是(
)
A.变量间的关系是非确定性关系,因此因变量不能由自变量唯一确定
B.样本相关系数可以是正的,也可以是负的
C.如果r=±1,说明x与y之间满足一种线性关系
D.样本相关系数r∈(-1,1)
答案 ABC
解析 ∵相关系数|r|≤1,∴D错误.
4.(2022湖北期中)甲、乙、丙、丁四名同学各自对x,y两变量进行线性相关
过关自诊
1.判断正误.(正确的画√,错误的画×)
(1)相关系数是描述成对样本数据之间线性相关程度的量.( √ )
(2)若r=0,则说明成对样本数据间是函数关系.( × )
(3)若r=±1,则说明成对样本数据的两个分量之间具有一种线性关系.( √ )
(4)|r|越接近于0,说明成对样本数据的线性相关程度越强.( × )
关系不一定是因果关系,也可能是伴随关系.
知识点2 样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为
(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为 x和y ,则
n
∑ (xi -x)(yi -y)
i=1
r=
n
∑ (xi -x)2
解(1)设正方形的面积为S,周长为C,则S=( ) ,即正方形的面积由其周长唯
4
一确定,因此二者是函数关系,不是相关关系.
(2)子女身高除了与父母的身高有一定关系外,还与其他因素有关,即子女
的身高并不是由其父母的身高唯一确定的,因此二者之间具有相关关系.
(3)学生的学号与身高之间没有任何关系,不具有相关关系.
解由表中数据可得 ≈27.4, ≈81.3, ∑ xi2 =5 414,
样本相关系数 高二数学(人教A版2019选择性必修第三册)

对样本数据的相关程度进行定量分析呢?
概念生成
样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1, y1),
(x2, y2),‧‧‧, (xn, yn),其中x1, x2, ‧‧‧, xn和y1, y2,‧‧‧, yn的均值分别为x 和y .
一些;
巩固练习
练习:某统计部门对四组数据进行统计分析后,获得如图8-1-2所示
的散点图,关于样本相关系数的比较,其中正确的是( A )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1< r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
典例解析
例1 根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性
•
-3 -2
解:
y
8
6
4
2
-3 -2
•
-1• 0
-2
-4
y
15
r 1
•
•
1
•
•
r 0.96
3
x
0
•
•
•
10
5
2
•
•
•
1
-1•
-10
y
2•
•
r0
1.5
•
2
•0 1 2 3 x
-5
1
3
4 x
•
0.5
• -1 0
-3 -2
样本相关系数主要刻画的是成对样本数据线性相关的程度.
8.1成对数据的相关关系-人教A版高中数学选择性必修第三册(2019版)教案

8.1 成对数据的相关关系-人教A版高中数学选择性必修第三册(2019版)教案一、教学目标1.理解成对数据相关关系的概念。
2.能够用散点图表示成对数据的相关关系。
3.掌握用皮尔逊积矩相关系数度量成对数据的相关关系的强度和方向。
4.能够根据相关系数的大小和符号判断成对数据的相关关系的强度和方向,并进行解释。
5.能够利用样本数据计算相关系数,并进行正确的解读。
二、教学重难点1.重点:皮尔逊积矩相关系数的计算方法和相关系数的解释。
2.难点:相关系数的判断及其解释。
三、教学内容和过程1. 概念引入老师先给出几组数据,例如二元组(4,10),(5,20),(6,30),(7,40),让学生们对这些数据进行观察和思考,看看是否存在某种关系。
然后再引出成对数据的相关关系的概念,并解释相关关系的强度和方向。
2. 散点图的表示为了更形象地表示成对数据的相关关系,老师可以让同学们将数据转化为散点图。
然后以散点图为基础,引导学生们讨论成对数据的相关关系的强度和方向。
3. 相关系数的计算老师向同学们介绍皮尔逊积矩相关系数的定义和计算方法,然后进行示范。
在计算的过程中,老师需要提醒同学们要注意计算过程中的准确性和细节。
4. 相关关系的解释为了更好地让同学们理解相关系数的含义,老师可以对几组数据进行计算,然后让同学们根据相关系数的大小和符号判断成对数据的相关关系的强度和方向,并进行解释。
5. 相关系数的应用老师可以利用选修三中的案例,引导学生们运用相关系数的知识解决实际问题,如“影响两块地板之间热量传递的因素有哪些?”,以及“研究肺癌与吸烟的相关关系时,如何计算相关系数并解释其含义?”等。
四、教学方法1.演示法:老师先以实例为基础进行讲解,然后项目让同学们自己完成相关关系的计算和判断。
2.讨论法:老师可以利用成对数据的案例,进行一些讨论和知识点的引导。
五、教学评估1.完成课堂演示的学生自我评估和相互评估。
2.设计作业,让学生们自己计算相关系数,并根据结果解释成对数据的相关关系的强度和方向。
2023新教材高中数学第8章成对数据的统计分析8.1成对数据的统计相关性课件新人教A版选择性必修第三

相关关系与函数关系有什么异同?
[提示]
异同点
函数关系
关系
相关关系
相同点
两者均是指两个变量之间的关系
不同点 是一种确定性的关系 是一种非确定性的关系
异同点
函数关系
关系
相关关系
①一个为变量,另一个为随机
是两个变量之间的关系 变量;
不同点
是一种因果关系
②两个都是随机变量 不一定是因果关系,也可能是 伴随关系
1.下列所给出的两个变量之间存在相关关系的为( ) A.学生的座位号与数学成绩 B.学生的学号与身高 C.直线上点的横坐标与纵坐标 D.学生的身高与体重
3.对四组不同数据进行统计,获得如图所示的散点 图,对它们的样本相关系数进行比较,正确的是( )
①样本相关系数r1
②样本相关系数r2
③样本相关系数r3
④样本相关系数r4
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
A [由给出的四组数据的散点图可以看出,图①和图③中的成 对数据是正相关的,样本相关系数大于0,图②和图④中的成对数据 是负相关的,样本相关系数小于0,图①和图②中的点相对更加集中 于一条直线附近,所以相关性更强,所以r1接近于1,r2接近于-1, 由此可得r2<r4<0<r3<r1.]
D中,因为点的分布比较分散,没有规律,所以两变量之间无 相关关系.]
知识点3 样本相关系数 (1)“标准化”成对数据向量夹角与样本相关系数的关系 对于变量x和变量y,设经过随机抽样获得的成对样本数据为 (x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,
8.1.1变量的相关关系

1.子女身高y与父亲身高x之间的关系,一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮, 其子女的个子也会比较矮,但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食 结构、体育锻炼等,因此父亲身高又不能完全决定子女身高. 2.商品销售收人y与广告支出x之间的关系,一般来说,广告支出越多,商品销售收入越高,但广告支出并 不是决定商品销售收入的唯一因素,商品销售收入还与商品质量、居民收入等因素有关。 3.空气污染指数y与汽车保有量x之间的关系,一般来说,汽车保有量增加,空气污染指数会上升,但汽车 保有量并不是造成空气污染的唯一因素,气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等 都是影响空气污染指数的因素。 4.粮食亩产量y与施肥量x之间的关系,在一定范围内,施肥量越大,粮食亩产量就越高,但施肥量并不是 决定粮食亩产量的唯一因索,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响。
新课引入
我们知道,一个人的体重与他的身高有关系,一般而言,个子高的人往往体重值较 大,个子矮的人往往体重值较小,但身高并不是决定体重的唯一因素,例如生活中的饮 食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素,像这样,两 个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关 系称为相关关系(correlation).
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
根据以上数据,你能推新人体的脂肪含 量与年龄之间存在怎样的关系吗?
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计 图.我们我们把这样的统计图叫做散点图
学习新知
由散点图可以发现,这些散点大致落在 一条从左下角到右上角的直线附近,表 明随年龄值的增加,相应的脂肪含量值 呈现增高的趋势.这样,由成对样本数 据的分布规律,我们可以推断脂肪含量 变量和年龄变量之间存在着相关关系.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
个数据区域); 5.根据软件分析的结果,做出分析.
例1 某公司下属15个分公司, 它们的销售额x (万元)、广告费 y(万元)、销售人员z (个)数据如 右表所示,试研究销售额x (万 元)、广告费y(万元)、销售人员z (个) 之间的相关关系. 解 根据在Excel中计算皮尔逊相关系数的步骤,得结果如下:
注 将 r 换成 rs 上述这些性质同样成立.
五、相关关系的种类
1.按相关关系的程度:不相关、完全相关、不完全相关; 2.按相关关系方向:正相关、负相关; 3.按相关形式:线性相关、非线性相关; 4.按影响因素的多少:单相关、复相关;
六、相关关系的显著性检验 两个随机变量X与Y的相关系数定义为ρ,所谓显著性检
验就是通过构造统计量,在显著性水平α下,检验X与Y的
线性相关关系的显著程度。
六、相关关系的显著性检验
1.皮尔逊相关系数的t 检验法
① 作假设 H0:0 H1:0
② 构造统计量 t r ~ t(n2)
1r2 n1
③ 在显著性水平α 给定情况下,得到拒绝域 |t|t(n2)
2
④ 做出决策
计算 t r 或 p2P (t(n2) |t|,)如果 |t|t(n2)
这种变量之间的非
不 确定性关系称为统
确 定
计关系或相关关系
性 关 主要利用相关分析
⑦ 股票的价格和时间之间
系 或回归分析的方法
⑧ 期中和期末考试成绩之间
进行具体分析
第8.1节 两个变量的相关分析
一、相关分析的概念 二、相关分析的作用 三、相关系数 四、相关系数的性质 五、相关关系的种类 六、相关关系的显著性检验 七、皮尔逊相关系数的Excel实现
一、相关分析的概念
相关分析是研究两个或两个以上变量之间统计关系的密切 程度(即相关程度大小),一般用相关系数来度量.
二、相关分析的作用
1. 确定现象之间有无关系; 2. 确定相关关系表现形式; 3. 确定相关关系的密切程度和方向.
三、相关系数
相关系数是反映两个变量之间线性关系密切程度的指标,
变动范围为 ,1 计r算公1式如下
级
适用于度量定类变量或定序变 量, 并且也能度量非线性关系
四、相关系数的性质
1. 当 r 1,变量X与Y为完全相关; 2. 当r 0,变量X与Y为完全不相关;
3. 当 r 0,变量X与Y为正相关; 当 r 0,变量X与Y为负相关;
4. 当 r 越接近于1,变量X与Y的相关程度越高;越接
近于0,变量X与Y的相关程度越低.
第8章 相关与回归分析
培养科学思维方式和运用统计实证 方法发现问题、分析问题、解决问题的 能力越来越受到人们的重视.
请分析下面各组变量间的关系:
① 矩Hale Waihona Puke 的边长与面积之间确定性关系或
② 商品的订购数量与金额之间 函数关系y=f (x)
③ 人的身高和体重之间
④ 家庭的收入和消费之间 ⑤ 商品的广告费和销售额之间 ⑥ 粮食的产量和施肥量之间
1.皮尔逊相关系数
n
(xi x)(yi y)
r
i1
n
n
(xi x)2 (yi y)2
i1
i1
适用于度量定距变量或定比变 量, 并且仅能度量线性关系.
2.斯皮尔曼等级相关系数
n
6 (xi yi )2
rs 1
i1
n(n2 1)
xi , yi分别是X ,Y的观测值分别按
xi , yi大小(或按优劣)排位的等
1 r2
2
n1
或 p ,则拒绝H0,即认为X与Y的线性相关关系显著.
六、相关关系的显著性检验
2.斯皮尔曼等级相关系数的t 检验法
① 做假设 H0:0 H1:0
② 构造统计量 t rs
n2 1rs2
~t(n2)
③ 在显著性水平α 给定情况下,得到拒绝域 |t|t(n2)
2
④ 做出决策
计算t rs
n2 1 rs2
或
p2P (t(n2) |t|,)如果
|t|t(n2)
2
或 p ,则拒绝原假设H0,即认为X与Y的等级相关显著.
七、皮尔逊相关系数的Excel实现
1.将样本数据录入到Excel的工作表中,建立数据文件; 2.在Excel的菜单“工具”的下拉菜单中选择“数据分析”, 并
3在.在分“析输工入具区窗域口”选输择入“正相确关的系数数据”范,围单或击用“鼠确标定拖”到;数据区, 根据问题的要求选择分组方式“逐行”或“逐列”以及
数据文件
由此知:销售额与广告费、销售额与销售人员、广告费与销售 人员的皮尔逊相关系数依次为0.766344、0.8843495、0.7175716