2013届高三数学二轮复习课件 专题8 第1讲 统计与统计案例

合集下载

高中数学选修1-2《统计案例》知识点讲义培训资料

高中数学选修1-2《统计案例》知识点讲义培训资料

高中数学选修1-2《统计案例》知识点讲义第一章 统计案例一、回归分析的基本思想及其初步应用1、数学变量相关关系的定义:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。

变量间的这种相互关系,称为具有不确定性的相关关系.(1)按方向分类①正相关:两个变量的变化趋势相同,从散点图可以看出各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大。

②负相关:两个变量的变化趋势相反,从散点图可以看出各点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小。

正相关 负相关 不相关(2)相关性系数r (在《必修3》中有介绍) 用相关系数r 来衡量两个变量之间的相关关系()()()()12211niii n niii i x x y y r x x y y ===--=--∑∑∑2、两变量之间的关系存在两种不同的类型(1)相关关系——非确定性关系 (2)函数关系——确定性关系3、回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。

其基本步骤是:①画出两个变量的散点图; ②求回归直线方程;③并用回归直线方程进行预报。

4、回归直线方程:∧∧∧+=a x b y⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=---=∧∧====∧∑∑∑∑x b y a x n x yx n y x x x y y x x b n i ini i i ni i n i i i ,)())((1221121()()()10.00,2,.b b r x y ≠==说明:回归系数因为当时,相关系数这时不具有线性相关关系.称为样本点的中心,回归直线必定经过样本点的中心例如:,.i y bx a e a b e e y y=++=-4、线性回归模型用来表示其中和为模型的未知参数,称为随机误差 残差:5、相关指数2R 是用来刻画回归效果的,2R 越大,残差平方和越小,模型的拟合效果就越好。

8-1统计与统计案例

8-1统计与统计案例

专题8 第1讲统计与统计案例一、选择题1.(2011·湛江测试)某学校进行问卷调查,将全校4200名同学分为100组,每组42人按1~42随机编号,每组的第34号同学参与调查,这种抽样方法是() A.简单随机抽样B.分层抽样C.系统抽样D.分组抽样[答案] C[解析]一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.2.(文)(2011·重庆文,4)从一堆苹果中任取10只,称得它们的质量如下(单位:克):12512012210513011411695120134则样本数据落在[114.5,124.5)内的频率为()A.0.2 B.0.3C.0.4 D.0.5[答案] C[解析]在[114.5,124.5]范围内的频数m=4,样本容量n=10,∴所求频率410=0.4. (理)(2011·四川理,1)有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5)2[15.5,19.5) 4[19.5,23.5)9[23.5,27.5)18[27.5,31.5)11[31.5,35.5)12[35.5,39.5)7[39.5,43.5) 3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是()A.16B.13C.12D.23[答案] B[解析]因为[31.5,35.5)12[35.5,39.5)7[39.5,43.5)3故[31.5,43.5)的概率为12+7+366=13,故选B.3.(2011·山东理,7)某产品的广告费用x与销售额y的统计数据如下表根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额大约为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元[答案] B[解析] 依题意:x =3.5,y =42, 又b ^=9.4,∴42=9.4×3.5+a ^. 而a ^=9.1,∴y ^=9.4x +9.1, 当x =6时,y ^=65.5,故选B.4.(2011·大连模拟)某养兔场引进了一批新品种,严格按照科学配方进行喂养,四个月后管理员称其体重(单位:kg),将有关数据进行整理后分为五组,并绘制频率分布直方图(如图所示).根据标准,体重超过6kg 属于超重,低于5kg 的不够分量.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25,0.20,0.10,0.05,第二小组的频数为400,则该批兔子的总数和体重正常的频率分别为( )A .1000,0.50B .800,0.50C .800,0.60D .1000,0.60[答案] D[解析] 第二组的频率为1-0.25-0.20-0.10-0.05=0.40,所以兔子总数为4000.40=1000只,体重正常的频率为0.40+0.20=0.60.故选D.5.(文)(2011·江西文,7)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x ,则( )A .m e =m 0=xB .m e =m 0<xC .m e <m 0<xD .m 0<m e <x[答案] D[解析] 由图可以不难发现众数为5.中位数为5+62=5.5,平均值x =2×3+4×3+5×10+6×6+7×3+8×2+9×2+10×230=17930(理)(2011·江西理,6)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0 B. 0<r 2<r 1 C. r 2<0<r 1 D .r 2=r 1[答案] C[解析] 对于第一组数据x -=10+11.3+11.8+12.5+135=11.75,y -=1+2+3+4+55=3.∑i =15(x i -x -)(y i -y -)=(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)…(x 5-x -)(y 5-y -)=1.75×(-2)+(-0.45)×(-1)+0.05×0+0.75×1+1.25×2=0.2. ∑i =15(x i -x -)2=(x 1-x -)2+(x 2-x -)2+…+(x 5-x -)2=1.752+(-0.45)2+0.052+0.752+1.252=5.3925.∑i =15(y i -y -)2=(y 1-y -)2+(y 2-y -)2+…+(y 5-y -)2=(-2)2+(-1)2+02+12+22=10, 代入公式中有r 1=0.25.3925×10=0.27.09≈0.0282.同理r 2中∑i =15(x i -x -)(y i -y -)=-4.36<0,故r 2<0,∴r 2<0<r 1,故选C.6.(2011·湖南理,4)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” [答案] C[解析] ∵6.635<K 2=7.8<10.828,∴我们有99%的把握认为二者有关,或者说在犯错的概率不超过1%的前提下二者有关. 7.(2011·合肥二检)甲、乙两名学生的六次数学测验成绩(百分制)的茎叶图如图所示.①甲同学成绩的中位数大于乙同学成绩的中位数; ②甲同学的平均分比乙同学的平均分高; ③甲同学的平均分比乙同学的平均分低;④甲同学成绩的方差小于乙同学成绩的方差. 上面说法正确的是( ) A .③④ B .①②④ C .②④ D .①③④[答案] A[解析] 由茎叶图知甲同学的成绩为72,76,80,82,86,90;乙同学的成绩为69,78,87,88,92,96.故甲同学成绩的中位数小于乙同学成绩的中位数,①错;计算得甲同学的平均分为81,乙同学的平均分为85,故甲同学的平均分比乙同学的平均分低,因此②错、③对;计算得甲同学成绩的方差小于乙同学成绩的方差,故④对.所以说法正确的是③④,选A.8.(2011·东北四市联考)在2011年5月1日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y ^=-3.2x +a (参考公式:回归方程y ^=bx +a ,a =y --b x -),则a =( )A .-24B .35.6C .40.5D .40[答案] D[解析] 价格的平均数是x -=9+9.5+10+10.5+115=10,销售量的平均数是y -=11+10+8+6+55=8,由y ^=-3.2x +a 知b =-3.2,所以a =y --b x -=8+3.2×10=40,故选D.二、填空题9.(2011·湖北文,11)某市有大型超市200家、中型超市400家、小型超市1400家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为100的样本,应抽取中型超市________家.[答案] 20[解析] 属简单题,关键是清楚每一层的抽取比例都一样是n N.由于所有超市共计200+400+1400=2000家,需抽取100家,则抽取比例为1002000所以中型超市抽取400×1002000=20家.10.(文)(2011·广东文,13)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________.[答案] 0.5 0.53[解析] 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故回归直线方程为y ^=0.47+0.01x ,将x =6代入得6号打6小时篮球的投篮命中率约为0.53.(理)(2011·广东理,13)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.[答案] 185[解析] 设儿子身高y 与父亲身高x 有关系,列表如下:∵x =13(173+170+176)=173,y =13+176+182)=176,∑i =13x i y i =173×170+170×176+176×182=91362,∑i =13x 2i =1732+1702+1762=89805, ∴b ^=91362-3×173×17689805-3×1732=1,a ^=y -b ^x =176-173=3 ∴回归直线方程为y ^=x +3, ∴x =182时,y ^=182+3=185(cm).11.(文)(2011·西城抽样)某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成5组:第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则这200名同学中成绩大于等于80分且小于90分的学生有________名.[答案] 40[解析] 由题知,成绩大于等于80分且小于90分的学生所占的频率为1-(0.005×2+0.025+0.045)×10=0.2,所以这200名同学中成绩大于等于80分且小于90分的学生有200×0.2=40名.(理)(2011·福州二检)若样本a 1,a 2,a 3,a 4,a 5的方差是3,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的方差是________.[答案] 12[解析] 若a -表示样本a 1,a 2,a 3,a 4,a 5的均值,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的均值为2a -+3.又15∑i =15 (a i -a -)2=3,∴15∑i =15[(2a i +3)-(2a -+3)]2=15∑i =15 (2a i -2a -)2=12. 12.把容量为1000的某个样本数据分为10组,并填写频率分布表.若前3组的频率依次构成公差为0.05的等差数列,且后7组的频率之和是0.79.则前3组中频率最小的一组的频数是________.[答案] 20[解析] 设前3组中频率最小的一组的频率是x .由题意得前3组的频率之和是1-0.79=0.21,则x +(x +0.05)+(x +0.05×2)=0.21,由此解得x =0.02,即前3组中频率最小的一组的频率是0.02,相应的频数是0.02×1000=20.三、解答题13.(2010·广东文,17)某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.[解析](1)由于大于40岁的42人中有27人收看新闻节目,而20至40岁的58人中,只有18人收看新闻节目,故收看新闻节目的观众与年龄有关.(2)27×545=3,∴大于40岁的观众应抽取3名.(3)由题意知,设抽取的5名观众中,年龄在20岁至40岁的为a1,a2,大于40岁的为b1,b2,b3,从中随机取2名,基本事件有:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共十个,设恰有一名观众年龄在20至40岁为事件A,则A中含有基本事件6个:(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),∴P(A)=610=3 5.14.(文)(2011·郑州二次质检)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.参考公式及数据:K2=(a+b)(c+d)(a+c)(b+d),[解析] 甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%. (2)因为K 2=100×(50×50×55×45=99≈1.010,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(理)(2011·广东广州)某校高三(1)班的一次数学测试成绩的茎叶图如图所示和频率分布直方图如图所示,都受到不同程度的破坏,但可见部分如下,据此回答如下问题:(1)求全班人数;(2)求分数在[80,90)之间的人数;并计算频率分布直方图中[80,90)间的矩形的高; (3)若要从分数在[80,100]之间的试卷中任取两份分析学生失分情况,在抽取的试卷中,求至少有一份分数在[90,100]之间的概率.[解析] (1)由茎叶图知,分数在[50,60)之间的频数为2,由频率分布直方图知,分数在[50,60)之间的频率为0.008×10=0.08,所以,全班人数为20.08=25(人).(2)分数在[80,90)之间的人数为25-2-7-10-2=4人,分数在[80,90)之间的频率为425=0.16,所以频率分布直方图中[80,90)间的矩形的高为0.1610=0.016.(3)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为5,6. 则在[80,100)之间的试卷中任取两份的基本事件为:(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15个,其中至少有一个在[90,100]之间的基本事件有(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6)共9个,故至少有一份分数在[90,100]之间的概率是915=35.15.(2011·安徽文,20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求的直线方程预测该地2012年的粮食需求量.[解析] 由所给数据分析,年需求量与年份之间近似直线上升,可对数据进行预处理如下表对预处理后的数据,容易算出x =0,y =3.2∑i =15x i y i =-4×(-21)+(-2)×(-11)+2×19+4×29=260∑i =15x 2i =16+4+0+4+16=40∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=26040=6.5,∴a ^=y -b ^x =3.2 ∴所求回归直线方程y -257=6.5(x -2006)+3.2即y =6.5(x -2006)+260.2(2)当x =2012时,y =6.5(2012-2006)+260.2=299.2万吨=300万吨 故预测2012年粮食需求量约为300万吨.。

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。

2013年高考数学理科新课标版二轮复习专题突破课件6.3统计、统计案例

2013年高考数学理科新课标版二轮复习专题突破课件6.3统计、统计案例


i=1
i=1
^
^
a= y -b x
5.独立性检验
假设有两个分类变量 X 和 Y,它们的值域分别为{x1,x2}
和{y1,y2},其样本频数列联表(称为 2×2 列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d
若设 n=a+b+c+d, 则 K2(χ2)=a+bcn+add-ab+cc2b+d.
(求:s2=n1[(x1- x )2+(x2- x )2+…+(xn- x )2],其中 x 为 数据 x1,x2,…,xn 的平均数)
【解】 (1)厨余垃圾投放正确的概率约为 “厨余垃厨圾余”垃箱圾里总厨量余垃圾量=400+410000+100=23.
(2)设生活垃圾投放错误为事件 A,则事件 A 表示生活垃 圾投放正确.
答案:D
5.(2012·江苏)某学校高一、高二、高三年级的学生人数 之比为 3 :3 :4,现用分层抽样的方法从该校高中三个年 级的学生中抽取容量为 50 的样本,则应从高二年级抽取 ________名学生.
解析:从高二年级中抽取学生比例为130,所以应从高二 年级抽取学生人数为 50×130=15.
【解析】 x =15(2+3+4+5+6)=4, y =15(2.2+3.8+ 5.5+6.5+7.0)=5.因为线性回归直线必过中心点( x , y ),代
做问卷 B 的人数为( )
A.7
B.9
C.10
D.15
解析:由题意知应将 960 人分成 32 组,每组 30 人.设 每组选出的人的号码为 30k+9(k=0,1,…,31),由 451≤30k +9≤750,

高考数学二轮复习 专题六第一讲统计及统计案例 理

高考数学二轮复习 专题六第一讲统计及统计案例 理

第一讲 统计及统计案例1.(2013·高考湖南卷)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件、80件、60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )A .9B .10C .12D .132.(2013·深圳市调研)某容量为180的样本的频率分布直方图共有n (n >1)个小矩形,若第一个小矩形的面积等于其余n -1个小矩形的面积之和的15,则第一个小矩形对应的频数是( )A .20B .25C .30D .353.(2013·高考辽宁卷)某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为:[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )A .45B .50C .55D .604.某人身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该人用线性回归分析的方法预测他孙子的身高约为( )A .182 cmB .183 cmC .184 cmD .185 cm5.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20优秀 非优秀 总计A 班 14 6 20B 班 7 13 20总计 21 19 40附:参考公式及数据(1)K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d ); (2)P (K 2≥k 0) 0.050 0.010k 0 3.841 6.635则下列说法正确的是A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关6.(2013·成都市诊断性检测)在某大型企业的招聘会上,前来应聘的本科生、硕士研究生和博士研究生共2 000人,各类毕业生人数统计如图所示,则博士研究生的人数为________.7.以下四个命题,其中正确的是__________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在回归直线方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2(χ2)的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.8.(2013·高考辽宁卷)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.9.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名 文艺节目 新闻节目 总计20至40岁 40 18 58大于40岁 15 27 42总计 55 45 100(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.10.某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80)[80,90),[90,100].(1)求图中a 的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均数;(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.11.某体育训练队共有队员40人,下表为跳远成绩的分布表,成绩分为1~5个档次,例如表中所示跳高成绩为4分、跳远成绩为2分的队员为5人,将全部队员的姓名卡混合在)(1)求x=4(2)若跳远、跳高成绩为4分及其以上时为“优秀”,否则为“一般”,试问:一个人的跳高成绩是否“优秀”与跳远是否“优秀”有没有关系?(3)若跳远、跳高成绩相等时的人数为分别为m,n,试问:m,n是否具有线性相关关系?若有,求出回归直线方程.若没有请说明理由.答案:1.【解析】选D.依题意得360=n 120+80+60,故n =13. 2.【解析】选C.设第一个小矩形的面积为x ,则x +5x =1,得x =16,即第一个小矩形对应的频率为16,∴第一个小矩形对应的频数为180×16=30. 3.【解析】选B.根据频率分布直方图的特点可知,低于60分的频率是(0.005+0.01)×20=0.3,所以该班的学生人数是150.3=50. 4.【解析】选D.父亲的身高(x ) 173 170 176儿子的身高(y ) 170 176 182所以回归直线方程为y =x +3,从而可预测他孙子的身高为182+3=185.5.【解析】选C.K 2=40×(14×13-7×6)220×20×21×19≈4.912, 因为3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.6.【解析】依题意,博士研究生的人数为2 000×(1-62%-26%)=2 000×12%=240.【答案】2407.【解析】①是系统抽样;对于④,随机变量K 2(χ2)的观测值k 越小,说明两个变量有关系的把握程度越小.【答案】②③8.【解析】设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5,则由题意知x 1+x 2+x 3+x 4+x 55=7,(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)2=20,五个整数的平方和为20,则必为0+1+1+9+9=20,由|x -7|=3可得x =10或x =4.由|x -7|=1可得x =8或x =6,由上可知参加的人数分别为4,6,7,8,10,故最大值为10.【答案】109.【解】(1)因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,所以,经直观分析,收看新闻节目的观众与年龄是有关的.(2)从题中所给条件可以看出收看新闻节目的共45人,随机抽取5人,则抽样比为545=19,故大于40岁的观众应抽取27×19=3(人). (3)抽取的5名观众中大于40岁的有3人,在20至40岁的有2人,记大于40岁的人为a 1,a 2,a 3,20至40岁的人为b 1,b 2,则从5人中抽取2人的基本事件有(a 1,a 2),(a 1,a 3),(a 2,a 3),(b 1,b 2),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2)共10个,其中恰有1人为20至40岁的有6个,故所求概率为610=35. 10.【解】(1)依题意得,10×(2a +0.02+0.03+0.04)=1,解得a =0.005.(2)这100名学生语文成绩的平均数为:55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.(3)数学成绩在[50,60)的人数为:100×0.05=5,数学成绩在[60,70)的人数为:100×0.4×12=20, 数学成绩在[70,80)的人数为:100×0.3×43=40, 数学成绩在[80,90)的人数为:100×0.2×54=25, 所以数学成绩在[50,90)之外的人数为:100-5-20-40-25=10.11.【解】(1)由于队员总数为40,当x =4时,即跳高成绩为4分时的队员共9人,于是,x =4的概率为P 1=940. x =4且y ≥3即跳高成绩为4分,跳远成绩不低于3分的人数共有3人,于是x =4且y ≥3的概率为P 2=340. 因此,x =4的概率为P 1=940,x =4且y ≥3的概率为P 2=340. (2)根据题中条件,对两变量进行分类,先看跳远成绩“优”的有“10”人,“一般”的有“30”人;跳高“优”的有“15”人,“一般”的有“25”人.于是,列联表如下:优 一般 合计跳高 15 25 40跳远 10 30 40合计 25 55 80假设跳高“优”与跳远“优”无关,则K 2=240×40×25×55≈1.455<2.706,显然,没有充分的证据显示跳高“优”与跳远“优”有关.(3)成绩 5 4 3 2 1跳远m 5 5 10 10 10跳高n 6 9 10 10 5。

2013届高三数学二轮复习课件:8.1统计与统计案例

2013届高三数学二轮复习课件:8.1统计与统计案例

《 走 向 高 考 》 二 轮 专 题 复 习 · ( ) 数 学 新 课 标 版
专题八
概率与统计
a+b+c+dad-bc2 则 χ2= , a+bc+da+cb+d 若 χ2>3.841,则有 95%的把握说两个事件有关; 若 χ2>6.635,则有 99%的把握说两个事件有关; 若 χ2<2.706,则没有充分理由认为两个事件有关.
《 走 向 高 考 》 二 轮 专 题 复 习 · ( ) 数 学 新 课 标 版
专题八
概率与统计
(2)茎叶图
①茎叶图:当数据有两位有效数字时,用中间的数字 表示十位数,即第一个有效数字,两边的数字表示个位数, 即第二个有效数字,它的中间部分像植物的茎,两边部分 像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶
专题八
概率与统计
(2010·安徽文,14)某地有居民100 000户,其中普通家 庭99 000户,高收入家庭1 000户.从普遍家庭中以简单随 机抽样方式抽取990户,从高收入家庭中以简单随机抽样方 式抽取100户进行调查,发现共有120户家庭拥有3套或3套 以上住房,其中普通家庭50户,高收入家庭70户.依据这 些数据并结合所掌握的统计知识,你认为该地拥有3套或3 套以上住房的家庭所占比例的合理估计是____________.
的作用. 5.了解回归的基本思想、方法及其简单应用.
( )
专题八
概率与统计
《 走 向 高 考 》 二 轮 专 题 复 习 · ( ) 数 学 新 课 标 版
专题八
概率与统计
1.本部分内容在高考中所占分数大约在5%左右.
2.本部分考查的主要内容是抽样方法,用样本估计总 体等,一般在每份试卷中有1~2题,多为容易题和中档

2013届高考北师大版数学总复习课件:10.4统计案例

2013届高考北师大版数学总复习课件:10.4统计案例

[解析] (1)积极参加班级工作的学生有 24 人,总人数为 24 12 50,频率为 = , 50 25 12 ∴概率为 ; 25 不太主动参加班级工作且学习积极性一般的学生有 19 人, 19 ∴概率为 . 50
2 50 × 18 × 19 - 6 × 7 150 2 (2)χ = = ≈11.5, 13 25×25×24×26
• 4.r是相关系数,则下列叙述中正确的个数 为( ) • ①r∈[ - 1 ,- 0.75] 时,两变量负相关很强 ; • ②r∈[0.75,1]时,两变量正相关很强; • ③ r∈( - 0.75 ,- 0.3] 或 [0.3,0.75) 时,两变 量相关性一般; • ④r=0.1时,两变量相关性很弱. • A.1 B.2
2.独立性检验 设 A、 B 为两个变量, 每一个变量都可以取两个值, 变量 A: A1,A2= A1 ;变量 B:B1,B2= B1 . 通过观察得到下表所示数据:
其中,a 表示变量 A 取 A1,且变量 B 取 B1 时的数据;b 表 示变量 A 取 A1,且变量 B 取 B2 时的数据;c 表示变量 A 取 A2, 且变量 B 取 B1 时的数据;d 表示变量 A 取 A2,且变量 B 取 B2 时的数据.
基 础 自 测
• 1. 对于独立性检验,下列说法中错误的是 ( ) • A.χ2值越大,说明两事件相关程度越大 • B.χ2值越小,说明两事件相关程度越小 • C . χ2≤3.841 时,有 95% 的把握说事件 A 与 B 无关 • D.χ2> 6.635时,有99%的把握说事件A与B 无关 • [答案] C
• 2.为了研究性格和血型的关系,抽查80人 实验,血型和性格情况如下: O 型或 A 型者 是内向型的有18人,外向型的有22人,B型 或 AB 型是内向型的有 12 人,是外向型的有 28 人,则有多大的把握认为性格与血型有 0.01 0.001 P(χ≥k0) 0.5 0.10 关系( ) 0 0.45 2.70 6.63 10.82 k0 5 6 5 8

高中数学统计与统计案例全章复习(题型完美版)

高中数学统计与统计案例全章复习(题型完美版)

第八章 统计与统计案例第1节 随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.(1)先将总体的N 个个体编号.(2)确定分段间隔K ,对编号进行分段,当N n 是整数时,取k =N n ,当N n不是整数时,随机从总体中剔除余数,再取k =N ′n(N ′为从总体中剔除余数后的总数). (3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k ).(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围: 当总体由差异明显的几个部分组成时,往往选用分层抽样.【例1】下列抽取样本的方式属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A .0B .1C .2D .3【例2】(2017•葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为( )A .12B .33C .06D .16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A .随机抽样B .分层抽样C .系统抽样D .以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3【变式1】(2017•大连二模)某单位员工按年龄分为A ,B ,C 三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C 组中某个员工被抽到的概率是91,则该单位员工总数为( )A .110B .10C .90D .80【变式2】(2017•黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19【变式3】(2017•宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是72,则男运动员应抽取( ) A .18人B .16人C .14人D .12人1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样 2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A .5,10,15,20,25B .3,13,23,33,43C .1,2,3,4,5D .2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )A .9B .10C .12D .134.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为( )A .700B .669C .695D .6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生( )A .1030人B .97人C .950人D .970人第2节用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法: 第一步:求极差,决定组数和组距,组距=极差组数; 第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征题型一 茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()A.91.5和91.5B.91.5和92C.91和91.5D.92和92【例2】(2016•唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为()A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017•东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋•威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017•灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017•唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017•肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.1.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是()A.19B.20C.21.5D.232.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()A.45B.50C.55D.604.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9-3-11中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个5.(2015•广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i ixn x yx n yx x x y y x xb 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y轴上 的截距. 3.相关系数a .计算公式:∑∑∑===----=ni ni iini ii y yx x y yx x r 11221)()())((b .当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r |大于0.75时,认为两个变量有很强的线性相关性.题型一 相关关系的判断【例】某公司2010~2015年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如下表所示:根据统计资料,则( )A.利润中位数是16,x与y有正线性相关关系B.利润中位数是17,x与y有正线性相关关系C.利润中位数是17,x与y有负线性相关关系D.利润中位数是18,x与y有负线性相关关系【变式】对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i =1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关题型二线性回归分析【例1】(2017•延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为yˆ=0.7x+0.35,则下列结论错误的是()A.线性回归直线一定过点(4.5,3.5)B.产品的生产能耗与产量呈正相关C .t 的取值必定是3.15D .A 产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017•南昌一模)设某中学的高中女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为yˆ=0.85x−85.71,则下列结论中不正确的是( )A .y 与x 具有正线性相关关系B .回归直线过样本的中心点(y x ,)C .若该中学某高中女生身高增加1cm ,则其体重约增加0.85kgD .若该中学某高中女生身高为160cm ,则可断定其体重必为50.29kg【例2】(2017•西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【变式2】(2017•成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x y ˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A.101.2 B.108.8 C.111.2D.118.2题型三线性相关关系检验【例1】(2017•广西一模)在两个变量y与x的回归模型中,分别选择了四个不同的模型,它们的相关指数R2如下,其中拟合效果最好的为()A.模型①的相关指数为0.976 C.模型③的相关指数为0.076 B.模型②的相关指数为0.776 D.模型④的相关指数为0.351【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y与工作年限x之间的相关系数.【变式】(2017•泉州模拟)关于衡量两个变量y与x之间线性相关关系的相关系数r与相关指数R2中,下列说法中正确的是()A.r越大,两变量的线性相关性越强C.r的取值范围为(-∞,+∞)B.R2越大,两变量的线性相关性越强D.R2的取值范围为[0,+∞)题型四线性回归方程【例1】(2017•乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x(百元)与日销售量y(件)之间有如下关系:(1)求y 关于x 的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017•全国模拟)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑==10180i ix,∑==10120i iy,∑==101184i ii yx ,∑==1012720i ix.(1)求家庭的月储蓄y 关于月收入x 的线性回归方程a x b yˆˆˆ+=; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017•甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.参考数据:32.971=∑=i iy,17.4071=∑=i ii yt ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt==--=-∑∑,=.a y bt -【例3】(2017•河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率; (2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y 与x 、z 与x 的相关系数说明物理与数学、化学与数学的相关程度;②求y 与x 、z 与x 的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i ix x,456)(812≈-∑=i iy y,550)(812≈-∑=i iz z,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017•汕头一模)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a bˆ,ˆ小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:4.18761=∑=i ii yx ,64.4761=∑=i ii zx ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.y46.6 56.3 6.8表中i w w =1881i i w =∑.(1)根据散点图判断,y a bx =+与y c d x =+,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(I )的判断结果及表中数据,建立y 关于x 的回归方程.附:对于一组数据),(),,(2211v u v u ,……,),(n n v u ,其回归线u v βα+=的斜率和截距的最小二乘估计分别为:∑∑==---=ni ini i iu uv v u u121)())((ˆβ.【变式3】(2017•衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).于时间x的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y关于x的回归方程;求该产品投放市场第几天的销售额最高?最高为多少元?1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:第3_____kg. 3.(2017•合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x (亿元)与当年度该电商的销售收入y (亿元)的数据如下表:):(1)求y 关于x 的回归方程;(2)2017年度该电商准备投入广告费1.5亿元,利用(Ⅰ)中的回归方程,预测该电商2017年的销售收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=ni ini i ix xy y x xb 121)())((,选用数据:1.1231=∑=ni ii yx ,1.512=∑=ni ix4.(2017•包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2017年该企业污水净化量; (3)请用数据说明回归方程预报的效果.附注:参考数据:54=y ,21))((71=--∑=i i i y y t t ,74.314≈,49)ˆ(712=-∑=i i i yy .参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式为第4节独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• (2010·安徽文,14)某地有居民100 000户, 其中普通家庭99 000户,高收入家庭1 000户.从普遍家庭中以简单随机抽样方 式抽取990户,从高收入家庭中以简单随 机抽样方式抽取100户进行调查,发现共 有120户家庭拥有3套或3套以上住房,其 中普通家庭50户,高收入家庭70户.依据 这些数据并结合所掌握的统计知识,你认 为该地拥有3套或3套以上住房的家庭所占 比例的合理估计是____________.
n n x y x y xi--yi-- xiyi-n-- i=1 i =1 b = ^= n n 2 x x xi-- x2-n-2 i i=1 i=1 ^=--b- a y ^ x 注意:回归直线一定经过样本的中心点(-,-),据此 x y 性质可以解决有关的计算问题.
• (1)求第二小组的频率,并补全这个频率分 布直方图; • (2)求这两个班参赛的学生人数. • [分析] 根据频率分布直方图及有关性质、 概念求解.
[解析]
(1)因为各小组的频率之和为 1.00.第一、三、
四、五组的频率分别是 0.30,0.15,0.10,0.05,所以第二小组 的频率为 1.00-(0.30+0.15+0.10+0.05)=0.40. 因为第二小组的频率为 0.40, 所以落在 59.5~69.5 的 频率 0.4 第二小组的小长方形的高= = =0.04, 由此可补全 组距 10 直方图.(如原图阴影部分所示)
• (2011·湖北文,5)有一个容量为200的样 本,其频率分布直方图如图所示.根据样 本的频率分布直方图估计,样本数据落在 区间[10,12)内的频数为( )
• • • • •
A.18 B.36 C.54 D.72 [答案] B [解析] 由0.02+0.05+0.15+0.19=0.41, ∴落在区间[2,10]内的频率为0.41×2= 0.82. • ∴落在区间[10,12)内的频率为1-0.82= 0.18. • ∴样本数据落在区间[10,12)内的频数为 0.18×200=36.
• 3.样本的数字特征 • (1)众数 • 在样本数据中,频率分布最大值所对应的 样本数据(或出现次数最多的那个数据). • (2)中位数 • 样本数据中,将数据按大小排列,位于最 中间的数据.如果数据的个数为偶数,就 取当中两个数据的平均数作为中位数.
(3)平均数 -=1(x1+x2+„+xn). 样本数据的算术平均数,即 x n (4)方差与标准差 方差 1 s = [(x1--)2+(x2--)2+„+(xn--)2]. x x x n
注意:在频率分布直方图中:(1)小矩形的面积=组距 频率 × =频率,所以各小矩形的面积表示相应各组的频率, 组距 这样频率分布直方图就以面积的形式反映了数据落在各个 小组内的频率大小;(2)各小矩形的面积之和等于 1.
• (2)茎叶图 • ①茎叶图:当数据有两位有效数字时,用 中间的数字表示十位数,即第一个有效数 字,两边的数字表示个位数,即第二个有 效数字,它的中间部分像植物的茎,两边 部分像植物茎上长出来的叶子,因此通常 把这样的图叫做茎叶图. • ②用茎叶图表示数据有两个优点:一是统 计图上没有原始数据信息的损失,所有数 据信息都可以从茎叶图中得到;二是茎叶 图中的数据可以随时记录,随时添加,方 便记录与表示.
5.回归分析 (1)相关系数 x y xi--yi--
i =1 n
①r=
n 2 n i =1 i= 1
,叫做相关系数. x y xi-- yi--2
• ②样本相关系数r的性质 • a.相关系数用来衡量变量x与y之间的线 性相关程度; • b.|r|≤1,且|r|越接近于1,相关程度越高, 且|r|越接近于0,相关程度越低.
• 1.抽样方法 • 三种抽样方法的比较
类 别 简 单 随 机 抽 样 系 共同 点 各自特点 适用范 相互联系 围 总体中 的个体 数较少
从总体中逐 抽样 个抽取 过 程中 每 将总体均分 个个
在起始部
注意:不论用哪种抽样方法,从容量为 N 的总体中抽 n 取容量为 n 的样本时,每一个个体被抽取的概率 P=N,这 是随机抽样的一个重要特点(随机抽样的等概率性), 但必须 注意的是等概率性是指“在整个抽样过程”中.
• [评析] (1)本题考查了茎叶图的识图问题 和平均数的计算,其中从茎叶图中读出数 据是关键,为此,首先要弄清“茎”和 “叶”分别代表什么. • (2)要熟练掌握众数、中位数、平均数、方 差、标准差的计算方法.
(2010· 山东理,6)样本中共有五个个体,其值分别为 a,0,1,2,3.若该样本的平均值为 1,则样本方差为( A. C. 2 6 5 6 B. 5 D.2 )
[解析]
50 普通家庭 3 套或 3 套以上住房比例为990,而
70 高收入家庭为100. ∴该地拥有 3 套或 3 套以上住房的家庭所占比例为 50 70 99 000× +1 000× 990 100 57 =1 000=5.7%. 100 000
• [例2] 随机抽取某中学甲、乙两班各10名 同学,测量他们的身高(单位:cm),获得 身高数据的茎叶图如图所示.
2
标准差 s= 1 [x1--2+x2--2+„+xn--2中总体所包含的个体数往往 较多,总体的平均数与标准差、方差是不 知道(或不可求)的,所以我们通常用样本 的平均数与标准差、方差来估计总体的平 均数与标准差、方差.来估计总体的平均 数与标准差、方差. • (2)平均数反映了数据取值的平均水平,标 准差、方差描述了一组数据围绕平均数波 动的大小.标准差、方差越大,数据的离 散程度越大,越不稳定;标准差、方差越 小,数据的离散程度越小,越稳定.
• 1.随机抽样 • (1)理解随机抽样的必要性和重要性. • (2)会用简单随机抽样方法从总体中抽取样 本;了解分层抽样和系统抽样的方法. • 2.总体估计 • (1)了解分布的意义和作用,会列频率分布 表,会画频率分布直方图、频率折线图、 茎叶图,理解它们各自的特点. • (2)理解样本数据标准差的意义和作用,会 计算数据标准差.
[解析]
h “每一层都按 的比例抽取”. N
6 高一年级学生的抽取比例为 ,则高二年级抽取的学 30 6 生数为 40×30=8 人.
• [评析] (1)解决此类题目首先要深刻理解 各种抽样方法的特点和适用范围,如分层 抽样,适用于数目较多且各部分之间具有 明显差异的总体. • (2)系统抽样中编号的抽取和分层抽样中各 层人数的确定是高考重点考查的内容.
• [例1] (2011·福建文,4)某校选修乒乓球 课程的学生中,高一年级有30名,高二年 级有40名.现用分层抽样的方法在这70名 学生中抽取一个样本,已知在高一年级的 学生中抽取了6名,则在高二年级的学生 中应抽取的人数为( ) • A.6 B.8 • C.10 D.12 • [答案] B
4.变量间的相关关系 (1)散点图直观反映了两变量的成对观察值之间存在的 某种关系, 利用散点图可以初步判断两个变量之间是否线性 相关. 如果散点图中点的分布从整体上看大致在一条直线的 附近,我们说变量 x 和 y 具有线性相关关系. (2)最小二乘法求回归直线的方程 ^ ^ ^ 设线性回归方程为y=bx+a. ^ ^ 其中,b是回归直线的斜率,a是截距.
[答案]
D
[解析]
2
a+0+1+2+3 ∵ =1,∴a=-1, 5
1 故 s =5[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3- 1)2]=2.
• [例3] 在育民中学举行的电脑知识竞赛中, 将高一两个班参赛学生的成绩(得分的整数) 进行整理后分成五组,绘制出如下的频率 分布直方图(如图),已知图中从左到右的 第一、第二、第三、第四、第五小组的频 率分别为0.30,0.15,0.10,0.05第二小组的 频数为40.
(2)设高一两个班参赛的学生人数为 x 人,因为第二小 40 组的频数为 40,频率为 0.40,所以 =0.40,所以 x= x 100(人).
• [评析] (1)在频率分布直方图中,组距是一 个固定值,各矩形面积和为1;(2)通过频率 分布直方图传递信息,识图获取信息是解 决这一问题的关键.
• (1)根据茎叶图判断哪个班的平均身高较高; • (2)计算甲班的样本方差; • (3)现从乙班这10名同学中随机抽取两名身 高不低于173cm的同学,求身高176cm的 同学被抽中的概率. • [解析] (1)由茎叶图可知:甲班身高集中 于160~179之间,而乙班身高集中于 170~180之间,因此乙班平均身高高于甲 班.
• 假设有两个分类变量X和Y,它们的取值分 别为{x1,x2y1 1,yy2 }和{y 总计 2},其样本频数列联表 (称为2×2列联表)为 b x a a+b
1
x2 总计
c a+c
d b+d
c+d a+b+c+d
a+b+c+dad-bc2 则 χ2= , a+bc+da+cb+d 若 χ2>3.841,则有 95%的把握说两个事件有关; 若 χ2>6.635,则有 99%的把握说两个事件有关; 若 χ2<2.706,则没有充分理由认为两个事件有关.
• [例4] 某市2010年4月1日-4月30日对空 气污染指数的监测数据如下(主要污染物为 可吸入颗粒物): • 61,76,70,56,81,91,92,91,75,81,88,67,101 ,103,95,91,77,86,81,83,82,82,64,79,86,8 5,75,71,49,45. • (1)完成频率分布表; • (2)作出频率分布直方图;
• (3)能从样本数据中提取基本的数字特征 (如平均数、标准差),并作出合理的解 释. • (4)会用样本的频率分布估计总体分布,会 用样本的基本数字特征估计总体的基本数 字特征,理解用样本估计总体的思想. • (5)会用随机抽样的基本方法和样本估计总 体的思想,解决一些简单的实际问题.
相关文档
最新文档