数学选修2-3第三章统计案例教案

合集下载

人教版高中选修(B版)2-3第三章统计教学设计

人教版高中选修(B版)2-3第三章统计教学设计

人教版高中选修(B版)2-3第三章统计教学设计一、教学目标通过本章的学习,使学生掌握以下知识和能力:1.了解统计学的基本概念和分类;2.掌握在统计过程中使用数据分析工具的基本方法;3.能够运用概率和统计方法进行数据分析和预测;4.培养数据分析和解决问题的能力。

二、教学内容2.1 统计学的基本概念和分类1.统计学的定义和历史;2.统计学的分类及其应用。

2.2 数据的描述和搜集1.数据的分类和表示方法;2.数据的搜集方法和调查方法。

2.3 数据的整理和分析1.数据的整理方法;2.数据的统计分析方法。

2.4 概率论和数理统计1.基本概念和公式;2.常用概率分布和统计分布;3.统计假设检验和置信区间估计。

1.理论讲解:通过讲解教材和示例分析,让学生了解统计学的基本概念和分类、数据的描述和搜集、数据的整理和分析、概率论和数理统计等知识点。

2.数据分析实践:通过实际案例或人工构造数据,让学生运用概率和统计方法进行数据分析和预测,培养数据分析和解决问题的能力。

3.讨论互动:通过小组讨论等形式,让学生学会相互交流,思考和解决问题的能力。

四、教学步骤和重点难点4.1 教学步骤1.通过讲解教材和示例分析,介绍统计学的基本概念和分类、数据的描述和搜集、数据的整理和分析、概率论和数理统计等知识点。

2.分组进行数据分析实践,让学生运用概率和统计方法进行数据分析和预测,培养数据分析和解决问题的能力。

3.进行小组讨论,让学生相互交流,思考和解决问题的能力。

4.2 重点难点1.统计学的基本概念和分类,让学生对统计学有清晰的认识;2.概率分布和统计分布,让学生掌握常用的概率分布和统计分布。

五、教学评估1.课堂测验:考察学生对统计学的基本概念和分类、数据的描述和搜集、数据的整理和分析、概率论和数理统计等知识点的掌握程度。

2.数据分析实践作业:让学生通过实际案例或人工构造数据,运用概率和统计方法进行数据分析和预测,培养数据分析和解决问题的能力。

人教版高中选修2-3第三章统计案例教学设计

人教版高中选修2-3第三章统计案例教学设计

人教版高中选修2-3第三章统计案例教学设计一、教学背景本教学设计面向人教版高中数学选修2-3第三章《统计》的教学内容,本章节主要讲解相关的统计知识,包括频率分布、分组、频率分布直方图、累计频率分布、等分点、统计标准差等等。

本教学设计针对高中学生特点,通过设计案例,激发学生的学习兴趣,增强学生的统计知识复习和巩固的效果,提高学生的学习兴趣和学习效果,通过实际案例让学生更好地理解理论知识,拓宽学生的思维维度,提高他们的综合应用能力。

二、教学目标1.了解和掌握统计的相关概念和方法2.掌握构造频数分布表、频数分布图、累计频数分布表、累计频数分布图的方法3.熟练应用统计方法解决实际问题4.培养数据分析和解决问题的能力三、教学内容1.频数分布•频数分布表•频数分布图2.累计频数分布•累计频数分布表•累计频数分布图3.等分点及等分位数4.统计标准差本教学设计采用讲授、案例分析和问答等教学方法相结合。

教师通过针对教学目标讲解知识点,设计相关案例进行分析,让学生参与案例分析过程中,深入了解教学重点。

教师根据学生的学习情况提问,引导学生思考,提高学生的思维能力和综合应用能力。

五、课程安排第一节课:频数分布1.讲解概念,构造表格2.讲解构造频数分布图方法3.讲解统计数据分析第二节课:累计频数分布1.讲解累计频数分布概念2.构造累计频数分布表3.构造累计频数分布图4.讲解累计数据分析第三节课:等分点及等分位数1.讲解概念2.讲解求解方法3.应用案例分析第四节课: 统计标准差1.讲解概念2.讲解求解方法3.应用案例分析通过本教学设计的教学实践,学生们以案例为基础,通过讲述来了解和掌握统计的相关概念和方法、熟练应用统计方法解决实际问题、培养数据分析和解决问题的能力。

教学效果良好,学生积极参与,学习效果明显。

值得注意的是,案例的选择要与学生相关,注重实用性,让学生通过教学理论知识的学习能够得到运用和提升。

在教学过程中,要注重学生的积极性,充分发挥案例分析的效果,让学生通过实例了解和理解知识点,提高学习效率和兴趣。

人教版高中数学选修2-3第三章统计案例3.2独立性检验的基本思想及其初步应用教案(2)

人教版高中数学选修2-3第三章统计案例3.2独立性检验的基本思想及其初步应用教案(2)

回归分析与独立性检验教材分析(一)地位与作用:本节课是一节高三文科复习课,复习内容为新课标人教版高中数学课本选修1-2第一章《统计案例》p1-19页的内容,是在《必修3》概率统计的基础上,通过研究一些典型案例进一步介绍回归分析、独立性检验的基本思想、方法及初步应用。

(二)学情分析:1、学生已经初步掌握概率统计的相关知识;2、学生已经具备了一定的抽象思维能力和演绎推理能力;3、学生整体基础比较薄弱,但求学意识浓厚,高考压力大。

目标分析通过对典型案例的探究,了解回归与独立性检验的基本思想、方法及其初步应用。

(一)教学目标:1、了解回归的基本思想、方法及其简单应用。

2、了解独立性检验(只要求列联表)的基本思想、方法及其简单应用。

(二)重点难点:重点是了解回归分析的方法步骤,独立性检验的基本思想及实施步骤;难点是独立性检验的基本思想及K2的含义。

(三)情感态度与价值观:教材案例典型,方案设计、数据的处理与分析、结论的形成主要通过学生的自主研究来完成,强化了学生的相互协作、合作交流的能力。

知识体系构建本节内容重在线性相关和列联表,最终体现在应用。

教法分析、学法分析(一)教法分析:基于本节课的内容特点和高三学生的年龄特征,在本节课中我采用启发式教学法和合作探究法,突出学生的主体地位,培养学生的自主意识和合作意识。

1、从学生熟悉的实际问题引入课堂,创设情境,引导学生温故知新。

尤其注重以典型案例引领学生探索、发现、掌握方法。

2、教师介绍高考要求和最新动态,学生相互补充复习要点,以起到明确目标、互动交流的作用。

3、合理安排例题讲解与习题巩固,以达到精讲多练、以练为主的目的。

4、合理采用多媒体手段,扩容增效,强化教学效果。

(二)学法分析:学习过程始终贯穿自主学习,通过分组协作,分工配合,协同完成学习。

教学过程分析一、考纲解读1、会作两个变量的散点图,判断两变量之间是否具有相关关系;2、了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;3、了解常见的统计方法,并能应用这些方法解决一些常见问题:①了解独立性检验(只要求列联表)的基本思想、方法及其简单应用;②了解回归的基本思想、方法及其简单应用.③了解假设检验的基本思想、方法及其简单应用.二、高考预测近几年全国高考个别省市对本部分内容考查有加强趋势,大部分地区以容易题为主。

【教学设计】《 数学人教A版高中选修2-3第三章 统计案例--3

【教学设计】《 数学人教A版高中选修2-3第三章 统计案例--3

《独立性检验的基本思想及其初步应用》本节课是人教A 版(选修)2—3第三章第二单元第二课时的内容.在本课之前,学生已经学习过事件的相互独立性、正态分布及回归分析的基本思想及初步应用。

本节课利用独立性检验进一步分析两个分类变量之间是否有关系,是高中数学知识中体现统计思想的重要课节。

在本节课的教学中,要把重点放在独立性检验的统计学原理上,理解独立性检验的基本思想,明确独立性检验的基本步骤。

在独立性检验中,通过典型案例的研究,介绍了独立性检验的基本思想、方法和初步应用。

独立性检验的基本思想和反证法类似,它们都是假设结论不成立,反证法是在假设结论不成立基础上推出矛盾从而证得结论成立,而独立性检验是在假设结论不成立基础上推出有利于结论成立的小概率事件发生,于是认为结论在很大程度上是成立的。

因为小概率事件在一次试验中通常是不会发生的,所以有利于结论成立的小概率事件的发生为否定假设提供了有力的证据。

学习独立性检验的目的是“通过典型案例介绍独立性检验的基本思想、方法及其初步应用,使学生认识统计方法在决策中的作用”。

这是因为,随着现代信息技术飞速发展,信息传播速度快,人们每天都会接触到影响我们生活的统计方面信息,所以具备一些统计知识已经成为现代人应具备的一种数学素养。

【知识与能力目标】通过生活中新闻案例的探究,理解独立性检验的基本思想,明确独立性检验的基本步骤,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题。

【过程与方法目标】通过探究“玩电脑游戏与注意力集中是否有关系”引出独立性检验的问题,借助样本数据的列联表分析独立性检验的实施步骤。

利用上节课所学已经由数据直观判断出玩电脑游戏与注意力集中可能有关系。

这一直觉来自于观测数据,即样本。

问题是这种来自于样本的印象能够在多大程度上代表总体。

这节课就是为了解决这个问题,在学生亲身体验感受的基础上,提高学生的数据分析能力。

【情感态度价值观目标】通过本节课的学习,加强数学与现实生活的联系。

数学人教A版选修2-3教学设计:第3章统计案例 Word版含解析

数学人教A版选修2-3教学设计:第3章统计案例 Word版含解析

教学设计本章复习本章知识脉络基础知识聚焦1.回归分析是对具有相关关系的两个变量进行统计分析的一种方法,而联系这两个变量之间的关系的方程称为回归方程,下列叙述正确的是()A.回归方程一定是直线方程B.回归方程一定不是直线方程C.回归方程是变量之间关系的严格刻画D.回归方程是变量之间关系的一种近似刻画2.在两个变量Y与X的回归模型中,选择了4个不同的模型,它们的相关指数R2如下,其中拟合效果最好的是()A.R2=0.98B.R2=0.80C.R2=0.50D.R2=0.25 3.下列关于K2的说法正确的是()A.K2在任何相互独立的问题中都可以用来检验有关还是无关B.K2的观测值越大,事件相关的可能性就越大C.K2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适合D.当K2的观测值大于某一数值(比如10.828)时,我们就说两个分类变量X与Y一定相关4.当我们建立多个模型拟合某一数据时,为了比较各个模型的拟合效果,我们可通过计算下列哪些量来确定()①残差平方和;②回归平方和;③相关指数R 2;④相关系数rA .①B .①②C .①②③D .③④ 5.线性回归方程y ^=b ^x +a ^必经过( )A .(0,0)B .(x ,0)C .(0,y )D .(x ,y ) 学生活动:先用3~5分钟的时间完成上面5个小题,然后再交流答案,相互讨论,并根据题目设计的知识,回顾本章的主要内容.活动结果:1.D 2.A 3.B 4.C 5.D 基础知识回顾:1.回归方程模型及相关检验(1)回归方程中a ^=y ^-b ^x ,b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,其中(x ,y )称为样本点的中心.(2)r 具有如下性质:||r ≤1,并且||r 越接近1,线性相关程度越强,||r 越接近0,线性相关程度越弱.(3)为了衡量预报的精确度,我们要进行残差分析,通常σ2越小,预报精度越高. 2.2×2列联表的独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,这类变量称为分类变量. (2)列联表:两个分类变量的频数表称为列联表.有两个分类变量的样本频数列联表称为2×2列联表.(3)独立性检验独立性检验一般采用列联表的形式,每个因素可以分为两个类别.当列联表是2×2列联表的形式时,独立性检验的随机变量K 2的计算公式如下:K 2=n(ac -bd)2(a +b)(c +d)(a +c)(b +d).这里的字母如下表在给定的出错概率上限下,我们可以通过K 2的观测值与已知数据的大小关系,来判断分类变量的关系.设计目的:把某一节复习课要复习的基础知识(概念、公式、法则、公理、定理、方法、思想、技能、技巧等)整理成一组问题的形式,通过解答问题,达到引发学生再现某些基础知识,进而牢记某些基础知识的目的,即这里的主要目的是再现本节课所要复习的知识、技能、方法与思想.典型示例类型一:线性回归模型及回归分析例1下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =b ^x +a ^; (3)已知该厂技术改造前100吨甲产品能耗为90吨标准煤;试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?思路分析:结合统计知识,正确作图和计算. 解:(1)散点图如图所示:(2)由系数公式可知,x =4.5,y =3.5,b ^ =66.5-4×4.5×3.586-4×4.52=66.5-635=0.7. a ^ =3.5-0.7×92=0.35,所以线性回归方程为y =0.7x +0.35;(3)x =100时,y =0.7x +0.35=70.35,所以预测生产100吨甲产品的生产能耗比技术改造前降低19.65吨标准煤.点评:回归分析是对具有相关关系的两个变量进行统计分析的常用方法.采用回归分析基本思想,解决实际问题的基本步骤如下:①明确对象;②画散点图;③选择模型,即通过观察分析散点图确定回归方程的类型,如果观察到数据呈线性关系,则选用线性回归方程y ^=b ^x +a ^;④估算方程,即按一定的规则估计回归方程的参数,如最小二乘法原理;⑤线性相关程度的判定,即通过样本相关系数的大小作出判断:|r|≤1;|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱.变式练习:一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下:(1)y 与x 是否具有线性相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程;(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少? 解:(1)列出下表x =55,y =91.7,∑i =110x 2i =38 500,∑i =110y 2i =87 777,∑i =110x i y i =55 950,因此 r =∑i =110x i y i -10x y(∑i =110x 2i -10x 2)(∑i =110y 2i -10y 2)=55 950-10×55×91.7(38 500-10×552)×(87 777-10×91.72)≈0.999 8, 由于r =0.999 8>0.75,因此x 与y 之间有很强的线性相关关系,因而可求回归直线方程.(2)设所求的回归直线方程为y ^ =b ^ x +a ^,则有b ^=∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.668,a ^=y -b ^x ≈54.96,因此,所求线性回归方程为y ^=0.668x +54.96.(3)这个回归直线方程的意义是当x 每增大1时,y 的值约增加0.668,而54.96是y 不随x 增加而变化的部分,因此,当x =200时,y 的估计值为y ^=0.668×200+54.96=188.56≈189,因此,加工200个零件所用的工时约为189分.类型二:非线性回归模型及回归分析 例2在试验中得到变量y 与x 的数据如下:由经验知,y 与1x 之间具有线性相关关系,试求y 与x 之间的回归曲线方程;当x 0=0.038时,预测y 0的值.分析:通过换元转化为线性回归问题.解:令u =1x,由题目所给数据可得下表所示的数据:计算得b ^=0.29,a ^=34.24,∴y ^=34.24+0.29u.故所求回归曲线方程为y ^=34.24+0.29x ,当x 0=0.038时,y ^ =34.24+0.290.038≈41.87.点评:非线性回归问题有时并不给出经验公式,此时我们可以由已知的数据画出散点图,并把散点图与已经学习过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出跟这些散点拟合得最好的函数,然后再采用变量的变换,把问题转化为线性回归问题,使问题得以解决.变式练习:某地大气中氰化物浓度测定结果如下:(1)试建立氰化物浓度与距离之间的回归方程. (2)求相关指数.(3)作出残差图,并求残差平方和.解:(1)选取污染源距离为自变量x ,氰化物浓度为因变量y ,作散点图.从表中所给的数据可以看出,氰化物浓度与距离有负的相关关系,用非线性回归方程来拟合,建立y 关于x 的指数回归方程:y ^=0.929 3e-0.009 4x.(2)相关指数R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y)2≈0.991 5.(3)残差平方和∑ni =1 (y i -y ^i )2=0.011 8. 类型三:独立性检验思想例3某些行为在运动员的比赛之间往往被赋予很强的神秘色彩,如有一种说法认为,在进入某乒乓球场比赛前先迈入左脚的运动员就会赢得比赛的胜利.某记者为此追踪了某著名乒乓球运动员在该球场中的308场比赛,获得数据如下表:据此资料,在出错概率不超过0.1的前提下,是否可以认为先迈进左脚与否跟比赛的胜负有关?思路分析:根据列联表,求出K 2的观测值,再进行判断. 解:由K 2=n(ad -bc)2(a +b)(a +c)(b +d)(c +d),得K 2的观测值k =308×(178×19-84×27)2205×103×262×46≈1.502.因为1.502<2.706,所以在出错概率不超过0.1的前提下,我们没有充分理由认为先迈进左脚与否跟比赛的胜负有关.点评:在日常生活中,经常会面临一些需要推断的问题.在对这些问题作出推断时,我们不能仅凭主观臆断得出结论,需要通过试验来收集数据,并依据独立性检验的原理作出合理的推断,这就是独立性检验的基本思想.依据这一基本思想,我们可以考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.其基本步骤是:①考察需抽样调查的背景问题,确定所涉及的变量是否为两个分类变量;②根据样本数据制作2×2列联表;③计算统计量K 2的观测值,并查表分析.变式练习:某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,在出错概率不超过0.01的前提下,根据上述数据能得出什么结论?解:根据列联表中的数据,得到K 2的观测值k =189×(54×63-40×32)294×95×86×103=10.76.因为10.76>6.635,所以在出错概率不超过0.001的前提下,可以得出:员工工作积极性与积极支持企业改革有关.设计目的:通过这组题目的解答,使学生在进一步加深对所复习基础知识、方法、思想的理解基础上,能力方面有所提高.目的是训练、培养学生灵活运用和综合运用知识解决问题的能力.这组题目一般先由学生稍作思考,再由教师精讲.达标检测1.下列两个变量之间的关系中,哪个是函数关系( )A .学生的性别与他的数学成绩B .人的工作环境与健康状况C .女儿的身高与父亲的身高D .正三角形的边长与面积 答案:D2.下列说法中正确的是( )①独立性检验的基本思想是带有概率性质的反证法;②独立性检验就是选取一个假设H 0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H 0的推断;③独立性检验一定能给出明确的结论.A .①②B .①③C .②③D .①②③ 答案:A3.已知两个变量的样本点的中心是(5,50),则两个变量间的回归直线方程可能为( ) A.y ^=7.5x +17.5 B.y ^=6.5x +17.5 C.y ^=7.5x +18.5 D.y ^=6.5x +18.5 答案:B (样本点的中心的坐标为(5,50),代入验证即可)4.在性别与吃零食这两个分类变量的判断中,下列说法正确的是______________.①若K2的观测值为k=6.635,我们认为吃零食与性别有关系的出错概率不超过0.01,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知吃零食与性别有关系的出错概率不超过0.01时,我们说某人吃零食,那么此人是女性的可能性为0.1%;③若从统计量中求出K2的观测值为k=6.635,则有1%的可能性使得出的判断出现错误.答案:③课堂小结1.本章的重要题型:(1)回归分析思想的应用;(2)独立性检验思想的应用.2.本章涉及的主要数学思想与方法:数形结合思想、化归思想等.补充练习【基础练习】1.下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④2.对两个变量的相关系数r,下列说法中错误的是()A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.r>0时,两个变量正相关D.|r|≤13.由“假设H0:评委的性别与参评年轻选手的性别没有关系”,而得到K2的观测值k≈7.056,则判断H0成立的出错概率不超过(设参评的男、女选手入围或被淘汰的人数均超过5人)()A.1% B.0.01% C.0.1% D.0.5%4.回归分析中,相关指数R2的值越大,说明残差平方和()A.越小B.越大C.可能大也可能小D.以上都不对5.为了考察两个变量x和y之间的线性相关性,甲乙两位同学各自独立地进行100次和150次试验,并且利用线性回归方程,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合6.某医院,利用独立性检验方法判断“长期服用安眠药与患抑郁症”是否有关,如图所示为“长期服用安眠药与患抑郁症”列联表,则认为“长期服用安眠药与患抑郁症有关”的判断出错概率最小不超过()A.10% B.5% C.2.5% D.0.1%【拓展练习】7.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.05的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?8.为了研究某种细菌随时间x的变化,繁殖的个数y,收集数据如下:(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;(2)描述解释变量与预报变量之间的关系;(3)计算残差平方和、相关指数R2.补充练习答案1.C 2.B 3.A 4.A5.A解析:回归直线一定过样本点的中心(x,y),而两次测量的样本点的中心都是(s,t),所以l1和l2一定交于点(s,t).6.D 解析:根据给出的列联表,求出K 2的观测值,再与临界值比较. 7.解析:依题意,计算随机变量K 2的观测值: k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.8.解析:(1)略.(2)由散点图看出样本点分布在一条指数函数y =c 1ec 2x 的附近,于是令Z =lny ,则由计算器算得Z ^=0.69x +1.112,则有y ^=e 0.69x +1.112.(3)∑i =16e 2i =∑i =16 (y i -y ^ i )2=3.1643,∑i =16 (y i -y )2=∑i =1ny 2i -6y 2≈24 642.8,R 2=1-3.164 324 642.8≈0.999 9.即解释变量天数对预报变量繁殖细菌的个数解释了99.99%.设计说明本节课的设计思路是:题组教学法.就是针对本节复习课的教学目标,精心设计几组题目(一般为四组,其中,前三组课前和课上用,最后一组课后用),将有关数学基础知识、基本技能、基本方法与数学思想溶于其中,换言之,即以分组题目为设计教学,在具体教学时,以题组中的题目开路(先出现题目,再出现其他),然后引导学生对题目进行分析、讨论、研究和解答.老师借题生话,借题发挥,画龙点睛,把有关的基础知识和解题方法总结出来,把解题的关键显露出来,把解题规律共同探讨出来,把易错点暴露出来,并共同找出错因,且纠正过来.使学生在积极主动的探索研究中,在解答题目的过程中巩固所学的知识,发现规律性的东西,并使学生智力与能力得到训练与提高.(设计者:杨雪峰)。

数学选修2-3第三章统计案例教案

数学选修2-3第三章统计案例教案

数学选修2-3第三章统计案例教案第三章 统计案例§3.1 独立性检验(1)1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?为了研究这个问题,(1)引导学生将上述数据用下表来表示:一.建构数学 1.独立性检验:(1)假设0H :患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论.(2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ2()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“26.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.象以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A 和类B (如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设0H :两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量; 第三步,查对课本中临界值表,作出判断. 3.独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立. 四.数学运用 1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?分析:在使用该种血清的人中,有48.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得221000(258284242216)7.075474526500500χ⨯⨯-⨯=≈⨯⨯⨯∵当0H 成立时,26.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?分析:在口服的病人中,有5859%98≈的人有效;在注射的病人中,有6467%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得22193(58314064) 1.3896 2.072122719895χ⨯⨯-⨯=≈<⨯⨯⨯当0H 成立时,21.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论. 说明:如果观测值22.706χ≤,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“0H 成立”,即Ⅰ与Ⅱ没有关系.§3.1 独立性检验(2)二.数学运用 1.练习题:1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。

数学:第三章《统计案例》教案(1)(新人教A版选修2-3)

数学:第三章《统计案例》教案(1)(新人教A版选修2-3)

第三章 统计案例3.1回归分析的根本思想及其初步应用(共计4课时 ) 授课类型:新授课一、教学内容与教学对象分析学生将在必修课程学习统计的根底上 ,通过对典型案例的讨论 ,了解和使用一些常用的统计方法 ,进一步体会运用统计方法解决实际问题的根本思想 ,认识统计方法在决策中的作用 .二、学习目标1、知识与技能通过本节的学习 ,了解回归分析的根本思想 ,会对两个变量进行回归分析 ,明确建立回归模型的根本步骤 ,并对具体问题进行回归分析 ,解决实际应用问题 .2、过程与方法本节的学习 ,应该让学生通过实际问题去理解回归分析的必要性 ,明确回归分析的根本思想 ,从散点图中点的分布上我们发现直接求回归直线方程存在明显的缺乏 ,从中引导学生去发现解决问题的新思路 -进行回归分析 ,进而介绍残差分析的方法和利用R 的平方来表示解释变量对于预|报变量变化的奉献率 ,从中选择较为合理的回归方程 ,最|后是建立回归模型根本步骤 .3、情感、态度与价值观通过本节课的学习 ,首|先让显示了解回归分析的必要性和回归分析的根本思想 ,明确回归分析的根本方法和根本步骤 ,培养我们利用整体的观点和互相联系的观点 ,来分析问题 ,进一步加强数学的应用意识 ,培养学生学好数学、用好数学的信心 .加强与现实生活的联系 ,以科学的态度评价两个变量的相关系 .教学中适当地增加学生合作与交流的时机 ,多从实际生活中找出例子 ,使学生在学习的同时 .体会与他人合作的重要性 ,理解处理问题的方法与结论的联系 ,形成实事求是的严谨的治学态度和锲而不舍的求学精神 .培养学生运用所学知识 ,解决实际问题的能力 . 三、教学重点、难点教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型 ,了解在解决实际问题的过程中寻找更好的模型的方法 .教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点 ,选择不同的模型建模 ,并通过比拟相关指数对不同的模型进行比拟 . 四、教学策略:教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结 . 教学手段:多媒体辅助教学 五、教学过程:(一 )、复习引入:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法 . (二 )、新课:探究:对于一组具有线性相关关系的数据:(11,x y ) , (22,x y ) ,… , (,n n x y ) ,我们知道其回归方程的截距和斜率的最|小二乘估计公式分别为: a y bx =- (1 )121()()()niii nii x x y y b x x ==--=-∑∑ (2 )其中1111,n ni i i i x x y y n n ====∑∑ , (,x y )成为样本点的中|心.注:回归直线过样本中|心. 你能推导出这两个计算公式吗 ?从我们已经学过的知识知道 ,截距a 和斜率b 分别是使 21(,)()niii Q y bx a αβ==--∑取到最|小值时,αβ的值. 由于 21(,)[()()]niii Q y x y x y x αββββα==---+--∑221{[()]2[()][()][()]}ni i i i i y x y x y x y x y x y x βββββαβα==---+---⨯--+--∑2211[()]2[()]()[()]nni i i i i i y x y x y x y x y x n y x βββββαβα===---+---⨯--+--∑∑注意到1[()]()niii y x y x y x βββα=-----∑1()[()]ni i i y x y x y x βαββ==-----∑11()[()]n ni i i i y x y x n y x βαββ===-----∑∑()[()]0y x ny n x n y x βαββ=-----=.221(,)[()]()ni i i Q y x y x n y x αββββα==---+--∑2222111()2()()()()nn nii i i i i i x x x x y y y y n y x βββα====----+-+--∑∑∑2222211221111()()[()()]()()[]()()()nniii i nni i i i nni i iii i x x y y x x y y n y x x x y y x x x x βαβ======----=--+----+---∑∑∑∑∑∑ 在上式中 ,后两项和,αβ无关 ,而前两项为非负数 ,因此要使Q 取得最|小值 ,当且仅当前两项的值均为0 ,即有1221niii nii x y nx yy x xnx βαβ==⋅-⋅==--∑∑,.这正是我们所要推导的公式.下面我们从另一个角度来推导的公式. 人教A 版选修2 -2P37习题组第4题:用测量工具测量某物体的长度 ,由于工具的精度以及测量技术的原因 ,测得n 个数据12,,,n a a a .证明:用这个数据的平均值11ni i x a n ==∑表示这个物体的长度 ,能使这n 个数据的方差211()()ni i f x x a n ==-∑最|小.思考:这个结果说明了什么 ?通过这个问题 ,你能说明最|小二乘法的根本原理吗 ?证明:由于211()()n i i f x x a n ==-∑ ,所以'12()()ni i f x x a n ==-∑ ,令'()0f x =, 得11ni i x a n ==∑ .可以得到 , 11ni i x a n ==∑是函数()f x 的极小值点 ,也是最|小值点.这个结果说明 ,用n 个数据的平均值11ni i a n =∑表示这个物体的长度是合理的 ,这就是最|小二乘法的根本原理.由最|小二乘法的根本原理即得定理 设x R ∈,12nx x x x n+++=,那么2222222121211[()()()][()()()]n n x x x x x x x x x x x x s n n-+-++-≥-+-++-= (*) 当且仅当12nx x x x x n+++==时取等号.(*)式说明, 12nx x x x n+++=是任何一个实数x 与12,,,n x x x 的差的平方的平均数中最|小的数.从而说明了方差具有最|小性,也即定义标准差的合理性.下面借助(*)式求2222211)()()(a bx y a bx y a bx y Q n n --++--+--= 的最|小值.1122()()()n n y bx y bx y bx n-+-++-1212n n y y y x x x b y b x n n++++++=-⋅=-⋅,由(*)式知,2221122[()][()][()]n n Q a y bx a y bx a y bx =--+--++--2221122[()()][()()][()()]n n y b x y bx y b x y bx y b x y bx ≥-⋅--+-⋅--++-⋅--2221122[()()][()()][()()]n n x x b y y x x b y y x x b y y =---+---++---222111()2()()()nnni i i i i i i x x b x x y y b y y ====----+-∑∑∑222211221111()()[()()]()[]()()()nniii i nni i i i nni i iii i x x y y x x y y x x b y y x x x x ======----=--+----∑∑∑∑∑∑222211221111()()[()()]()[]()()()nn iii i nni i i i nni i iii i x x y y x x y y x x b y y x x x x ======----=--+----∑∑∑∑∑∑221211[()()]()()ni i ni i ni ii x x y y y y x x ===--≥---∑∑∑22211121()()[()()]()nnniii i i i i nii x x y y x x y y x x ====-----=-∑∑∑∑当且仅当a y b x =-⋅,且1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑时, Q 到达最|小值22211121()()[()()]()n nniii i i i i n ii x x y y x x y y x x ====------∑∑∑∑.由此得到,⎪⎪⎩⎪⎪⎨⎧-=-⋅-⋅=---=∑∑∑∑====.,x b y a xn xyx n y xx x y y x x b ni ini i in i i ni i i 2121121)())((其中b 是回归直线的斜率,a 是截距.借助||||||||||||a b a b a b -≤+≤+和配方法,我们给出了人教A 版必修3的第二章统计第三节变量间的相关关系中回归直线方程y bx a =+的一个合理的解释 1、回归分析的根本步骤:(1) 画出两个变量的散点图. (2) 求回归直线方程.(3) 用回归直线方程进行预|报.下面我们通过案例 ,进一步学习回归分析的根本思想及其应用 2、举例:例1. 从某大学中随机选取 8 名女大学生 ,其身高和体重数据如表编号 123 4 5 6 7 8 身高/cm 165 165 157 170 175 165155 170 体重/kg48 57505464614359求根据女大学生的身高预|报体重的回归方程 ,并预|报一名身高为 172 cm 的女大学生的体重.解:由于问题中要求根据身高预|报体重 ,因此选取身高为自变量 x ,体重为因变量 y . 作散点图(图3 . 1 一 1)从图3. 1一1 中可以看出 ,样本点呈条状分布 ,身高和体重有比拟好的线性相关关系 ,因此可以用线性回归方程来近似刻画它们之间的关系根据探究中的公式 (1 )和 (2 ) ,可以得到ˆˆ0.849,85.712ba ==-. 于是得到回归方程084985.712y x =-.因此 ,对于身高172 cm 的女大学生 ,由回归方程可以预|报其体重为084917285.71260.316y =⨯-= ( kg ) .ˆ0.849b=是斜率的估计值 ,说明身高 x 每增加1个单位时 ,体重y 就增加0.849 位 ,这说明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱 ?在必修 3 中 ,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法本相关系数的具体计算公式为()()12211()()niii n niii i x x y y r x x y y ===--=--∑∑∑当r>0时 ,说明两个变量正相关;当r<0时 ,说明两个变量负相关.r 的绝|对值越接近1 ,说明两个变量的线性相关性越强;r 的绝|对值接近于0时 ,说明两个变量之间几乎不存在线性相关关系.通常 ,当r 的绝|对值大于0. 75 时认为两个变量有很强的线性相关关系在本例中 ,可以计算出r =0. 798.这说明体重与身高有很强的线性相关关系 ,从而也说明我们建立的回归模型是有意义的显然 ,身高172cm 的女大学生的体重不一定是60. 316 kg ,但一般可以认为她的体重接近于60 . 316 kg .图3 . 1 一 2 中的样本点和回归直线的相互位置说明了这一点由于所有的样本点不共线 ,而只是散布在某一条直线的附近 ,所以身高和体重的关系可用下面的线性回归模型来表示:y bx a e =++, ( 3 )这里 a 和 b 为模型的未知参数 ,e 是 y 与y bx a =+之间的误差.通常e 为随机变量 ,称为随机误差 ,它的均值 E (e ) =0 ,方差D (e ) =2()D e σ=>0 .这样线性回归模型的完整表达式为:2,()0,().y bx a e E e D e σ=++⎧⎨==⎩ (4) 在线性回归模型 (4 )中 ,随机误差e 的方差护越小 ,通过回归直线y bx a =+ (5)预|报真实值y 的精度越高.随机误差是引起预|报值y 与真实值 y 之间的误差的原因之一 ,大小取决于随机误差的方差.另一方面 ,由于公式 (1 )和 (2 )中a 和b 为截距和斜率的估计值 ,它们与真实值a 和b 之间也存在误差 ,这种误差是引起预|报值y 与真实值y 之间误差的另一个原因.思考:产生随机误差项e 的原因是什么?一个人的体重值除了受身高的影响外 ,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上 ,我们无法知道身高和体重之间确实切关系是什么 ,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差 e 的原因.因为随机误差是随机变量 ,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征 ,方差是反映随机变量集中于均值程度的数字特征 ,而随机误差的均值为0 ,因此可以用方差2σ来衡量随机误差的大小. 为了衡量预|报的精度 ,需要估计护的值.一个自然的想法是通过样本方差来估计总体方差.如何得到随机变量e 的样本呢 ?由于模型 (3 )或 (4 )中的e 隐含在预|报变量 y 中 ,我们无法精确地把它从 y 中别离出来 ,因此也就无法得到随机变量e 的样本.解决问题的途径是通过样本的估计值来估计2σ.根据截距和斜率的估计公式 (1 )和 (2 ) , 可以建立回归方程y bx a =+,因此y 是 (5 )中y 的估计量.由于随机误差e y y =- ,所以e y y =-是e 的估计量.对于样本点 (11,x y ) , (22,x y ) ,… , (,n n x y ) 而言 ,相应于它们的随机误差为,1,2,,i i i i i e y y y bx a i n =-=--=,其估计值为,1,2,,i i i i i e y y y bx a i n =-=--=,i e 称为相应于点(,)i i x y 的残差 (residual ).类比样本方差估计总体方差的思想 ,可以用22111(,)(2)22n ii e Q a b n n n σ===>--∑ 作为2σ的估计量 , 其中a 和b 由公式 (1) (2 )给出 ,Q (a ,b )称为残差平方和 (residual sum of squares ).可以用2σ衡量回归方程的预|报精度.通常 ,2σ越小 ,预|报精度越高.在研究两个变量间的关系时 ,首|先要根据散点图来粗略判断它们是否线性相关 ,是否可以用线性回归模型来拟合数据然后 ,可以通过残差12,,,n e e e来判断模型拟合的效果 ,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.表3一 2 列出了女大学生身高和体重的原始数据以及相应的残差数据 .编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 6143 59 残差e我们可以利用图形来分析残差特性作图时纵坐标为残差 ,横坐标可以选为样本编号 ,或身高数据 ,或体重的估计值等 ,这样作出的图形称为残差图.图 3 . 1 一 3 是以样本编号为横坐标的残差图 .从图3 . 1 一 3 中可以看出 ,第 1 个样本点和第 6 个样本点的残差比拟大 ,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误 ,就予以纠正 ,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误 ,那么需要寻找其他的原因.另外 ,残差点比拟均匀地落在水平的带状区域中 ,说明选用的模型比拟适宜.这样的带状区域的宽度越窄 ,说明模型拟合精度越高 ,回归方程的预|报精度越高.另外 ,我们还可以用相关指数2R 来刻画回归的效果 ,其计算公式是:22121()1()niii nii y y R y y ==-=--∑∑显然 ,2R 取值越大 ,意味着残差平方和越小 ,也就是说模型的拟合效果越好.在线性回归模型中 ,2R 表示解释变量对于预|报变量变化的奉献率. 2R 越接近于1 ,表示回归的效果越好 (因为2R 越接近于1 ,表示解释变量和预|报变量的线性相关性越强 ).如果对某组数据可能采取几种不同的回归方程进行回归分析 ,也可以通过比拟几个2R ,选择2R 大的模型作为这组数据的模型 .在例 1 中 ,2R =0. 64 ,说明 "女大学生的身高解释了64 %的体重变化〞 ,或者说 "女大学生的体重差异有 64 %是由身高引起的〞 用身高预|报体重时 ,需要注意以下问题:1.回归方程只适用于我们所研究的样本的总体.例如 ,不能用女大学生的身高和体重之间的回归方程 ,描述女运发动的身高和体重之间的关系.同样 ,不能用生长在南方多雨地区的树木的高与直径之间的回归方程 ,描述北方干旱地区的树木的高与直径之间的关系 .2.我们所建立的回归方程一般都有时间性.例如 ,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程 ,描述现在的身高和体重之间的关系 .3.样本取值的范围会影响回归方程的适用范围.例如 ,我们的回归方程是由女大学生身高和体重数据建立的 ,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当 (即在回归方程中 ,解释变量 x 的样本的取值范围为[155cm,170cm 〕 ,而用这个方程计算 x-70cm 时的y 值 ,显然不适宜 .)4.不能期望回归方程得到的预|报值就是预|报变量的精确值.事实上 ,它是预|报变量的可能取值的平均值.一般地 ,建立回归模型的根本步骤为:(1 )确定研究对象 ,明确哪个变量是解释变量 ,哪个变量是预|报变量; (2 )画出确定好的解释变量和预|报变量的散点图 ,观察它们之间的关系 (如是否存在线性关系等 )(3 )由经验确定回归方程的类型 (如我们观察到数据呈线性关系 ,那么选用线性回归方程 y =bx +a )(4 )按一定规那么估计回归方程中的参数 (如最|小二乘法 );(5 )得出结果后分析残差图是否有异常 (个别数据对应残差过大 ,或残差呈现不随机的规律性等等 ) ,假设存在异常 ,那么检查数据是否有误 ,或模型是否适宜等 例2.现收集了一只红铃虫的产卵数y 和温度x 之间的7组观测数据列于下表:温度x oC 21 23 25 27 29 3235产卵数y /个 7 11 21 24 66 115 325(1)试建立与之间的回归方程;并预测温度为28oC 时产卵数目 . (2)你所建立的模型中温度在多大程度上解释了产卵数的变化 ? 探究:方案1 (学生实施 ):(1 )选择变量 ,画散点图 .(2 )通过计算器求得线性回归方程:y=x -(3 )进行回归分析和预测: R 2 =r 2≈2预测当气温为28 时 ,产卵数为92个 .这个线性回归模型中温度解释了74.64%产卵数的变化 .困惑:随着自变量的增加 ,因变量也随之增加 ,气温为28 时 ,估计产卵数应该低于66个 ,但是从推算的结果来看92个比66个却多了26个 ,是什么原因造成的呢 ?方案2:(1)找到变量t =x 2 ,将y =bx 2+a 转化成y =bt +a ; (2)利用计算器计算出y 和t 的线性回归方程:y =t (3)转换回y 和x 的模型:(4)y =x 2(5 )计算相关指数R 2≈这个回归模型中温度解释了80.2%产卵数的变化 . 预测:当气温为28 时 ,产卵数为85个 .困惑:比66还多19个 ,是否还有更适合的模型呢 ? 方案3: (1)作变换z =lgy ,将xc c y 2101 转化成z =c 2x +lgc 1 (线性模型 ) . (2)利用计算器计算出z 和x 的线性回归方程:(3)转换回y 和x 的模型:672.1118.010-=x y(4)计算相关指数R 2≈这个回归模型中温度解释了98.5%产卵数的变化 .预测:当气温为28 时 ,产卵数为4 2个 .解:根据收集的数据作散点图 (图3. 1一4 ) .在散点图中 ,样本点并没有分布在某个带状区域内 ,因此两个变量不呈线性相关关系 ,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识 ,可以发现样本点分布在某一条指数函数曲线21c xy c e =的周围 ,其中1c 和2c 是待定参数.现在 ,问题变为如何估计待定参数1c 和2c .我们可以通过对数变换把指数关系变为线性关系.令ln z y = ,那么变换后样本点应该分布在直线11(ln ,ln )z bx a a c b c =+==的周围.这样 ,就可以利用线性回归模型来建立 y 和 x 之间的非线性回归方程了.由表3一3 的数据可以得到变换后的样本数据表 3一4 ,图3.1一5 给出了表 3 一 4 中数据的散点图.从图3.1一5 中可以看出 ,变换后的样本点分布在一条直线的附近 ,因此可以用线性回归方程来拟合.x 21 23 25 27 29 32 35 z由表 3 一 4 中的数据得到线性回归方程0.272 3.849z x =-.因此红铃虫的产卵数对温度的非线性回归方程为(1)0.272 3.849x ye -=. ( 6 )另一方面 ,可以认为图3. 1一4 中样本点集中在某二次曲线234y c x c =+的附近 ,其中3c 和4c 为待定参数.因此可以对温度变量做变换 ,即令2t x = ,然后建立y 与t 之间的线性回归方程 ,从而得到y 与x 之间的非线性回归方程.表3一5 是红铃虫的产卵数和对应的温度的平方 ,图3 . 1一6 是相应的散点图.t 441 529 625 729 841 1024 1225 x 711212466115325从图3.1一6 中可以看出 ,y 与t 的散点图并不分布在一条直线的周围 ,因此不宜用线性回归方程来拟合它 ,即不宜用二次曲线234y c x c =+来拟合 y 和 x 之间的关系.这个结论还可以通过残差分析得到 ,下面介绍具体方法.为比拟两个不同模型的残差 ,需要建立两个相应的回归方程.前面我们已经建立了y 关于x 的指数回归方程 ,下面建立y 关于x 的二次回归方程.用线性回归模型拟合表 3 一 5 中的数据 ,得到 y 关于 t 的线性回归方程(2)0.367202.543yt =-,即 y 关于 x 的二次回归方程为(2)20.367202.543yx =- . ( 7 )可以通过残差来比拟两个回归方程 ( 6 )和 ( 7 )的拟合效果.用 x i 表示表3一3 中第 1 行第 i 列的数据 ,那么回归方程 ( 6 )和 ( 7 )的残差计算公式分别为 (1)(1)0.272 3.849,1,2,,7x ii ii e y y y e i -=-=-=;(2)(2)20.367202.543,1,2,,7ii ii e y y y x i =-=-+=.表3一6 给出了原始数据及相应的两个回归方程的残差.从表中的数据可以看出模型 ( 6 )的残差的绝|对值显然比模型 ( 7 )的残差的绝|对值小 ,因此模型 ( 6 )的拟合效果比模型在一般情况下 ,比拟两个模型的残差比拟困难.原因是在某些样本点上一个模型的残差的绝|对值比另一个模型的小 ,而另一些样本点的情况那么相反.这时可以通过比拟两个模型的残差平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.由表 3 一 6 容易算出模型 ( 6 )和 ( 7 )的残差平方和分别为(1)(2)1550.538,15448.431QQ==.因此模型 (6 )的拟合效果远远优于模型 (7 ).类似地 ,还可以用尸来比拟两个模型的拟合效果 ,R 2越大 ,拟合的效果越好.由表 3 一6 容易算出模型 (6 )和 (7 )的R 2分别约为 0 . 98 和 0 . 80 ,因此模型 ( 6 )的效果好于模型 (7) 的效果.对于给定的样本点 (11,x y ) , (22,x y ) ,… , (,n n x y ) ,两个含有未知参数的模型(1)(,)y f x a =和(2)(,)yg x b =,其中 a 和 b 都是未知参数.可以按如下的步骤来比拟它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(,)y f x a =与(2)(,)y g x b =, ,其中a 和b分别是参数a 和b 的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)21()ni i i Qy y ==-∑与(2)(2)21()ni ii Qy y ==-∑; ( s )假设(1)(2)Q Q< ,那么(1)(,)yf x a =的效果比(2)(,)yg x b =的好;反之 ,(1)(,)yf x a =的效果不如(2)(,)y g x b =的好.例2: (提示后做练习、作业 )研究某灌溉渠道水的流速y 与水深x 之间的关系 ,测得一组数据如下:水深xm 流速ym/s(1 )求y 对x 的回归直线方程;(2 )预测水深为1 .95m 时水的流速是多少 ?解:依题意 ,把温度作为解释变量x ,产卵个数y 作为预|报变量 , 作散点图 ,由观察知两个变量不呈线性相关关系 .但样本点分布在某一条指数函数 y =c 1e c2 x周围.令 z =lny , a =lnc 1 , b =c 2 那么 z =bx +a因此红铃虫的产卵数对温度的非线性回归方程为Y =e.843.3、从上节课的例1提出的问题引入线性回归模型: Y =bx +a +e 解释变量x预|报变量y随机误差 e4、 (1 ) 相关指数: 相关系数 r (公式) , r>0 正相关. R<0 负相关R 绝|对值接近于1相关性强接 r 绝|对值 近于0 相关性几乎无()()()()()()()()()()2221212ˆˆˆ5ˆ17i ni i n i y yy yy y ---=--∑∑∑∑ni 1i i i ni 12总偏差平方和 : y3残差 e=y -y 4残差平方和 y 回归平方和 = 总偏差平方和 - 残差平方和6回归效果的相关指数R 残差分析通过残差判断模型拟合效果判断原始数据是否存在可疑数据5、回忆建立模型的根本步骤 ① 例2 问题背景分析 画散点图 . ② 观察散点图 ,分析解释变量与预|报变量更可能是什么函数关系 . ③ 学生讨论后建立自己的模型 ④ 引导学生探究如果不是线性回归模型如何估计参数 .能否利用回归模型 通过探究体会有些不是线性的模型通过变换可以转化为线性模型 ⑤ 对数据进行变换后 ,对数据 (新 )建立线性模型 ⑥ 转化为原来的变量模型 ,并通过计算相关指数比拟几个不同模型的拟合效果 ⑦ 总结建模的思想 .鼓励学生大胆创新 . ⑧ 布置课后作业: 习题1.1 1、6、复习与稳固:练习1:某班5名学生的数学和化学成绩如下表所示 ,对x 与y 进行回归分析 ,并预|报某学生数学成绩为75分时 ,他的化学成绩 .A B C D E 数学x 88 76 73 66 63 化学y 78 65 71 64 61解略 .练习2:某医院用光电比色计检验尿汞时 ,得尿汞含量 (mg/l) 与消光系数的结果如下:(1 )求回归方程 . (2 )求相关指数R 2.解:略 .(三 ) 课堂小结 1.知识梳理:2规律小结: (1 )回归直线方程; (2 )样本相关系数; (3 )样本残差分析; (4 )样本指数;(5 )建立回归模型的根本步骤 .(四 ) 作业:(五 ) 课后反思:本节内容对回归分析的探讨过程很精彩 ,学生讨论很热烈 ,激发了学生的学习热情 .但对残差分析学生只能欣赏它的过程 ,计算量太大 ,思维的跳跃性太强 !3.2 独立性检验的根本思想及其初步应用(共计3课时 )授课类型:新授课一、教学内容与教学对象分析通过典型案例 ,学习以下一些常用的统计方法 ,并能初步应用这些方法解决一些实际问题 .①通过对典型案例 (如 "患肺癌与吸烟有关吗〞等 )的探究 .了解独立性检验 (只要求2×2列联表 )的根本思想、方法及初步应用 .②通过对典型案例 (如 "人的体重与身高的关系〞等 )的探究 ,了解回归的根本思想、方法及其初步应用 .二. 学习目标1、知识与技能通过本节知识的学习 ,了解独立性检验的根本思想和初步应用 ,能对两个分类变量是否有关做出明确的判断 .明确对两个分类变量的独立性检验的根本思想具体步骤 ,会对具体问题作出独立性检验 .2、过程与方法在本节知识的学习中 ,应使学生从具体问题中认识进行独立性检验的作用及必要性 ,树立学好本节知识的信心 ,在此根底上学习三维柱形图和二维柱形图 ,并认识它们的根本作用和存在的缺乏 ,从而为学习下面作好铺垫 ,进而介绍K的平方的计算公式和K的平方的观测值R 的求法 ,以及它们的实际意义 .从中得出判断 "X与Y有关系〞的一般步骤及利用独立性检验来考察两个分类变量是否有关系 ,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小 .最|后介绍了独立性检验思想的综合运用 .3、情感、态度与价值观通过本节知识的学习 ,首|先让学生了解对两个分类博变量进行独立性检验的必要性和作用 ,并引导学生注意比拟与观测值之间的联系与区别 ,从而引导学生去探索新知识 ,培养学生全面的观点和辨证地分析问题 ,不为假想所迷惑 ,寻求问题的内在联系 ,培养学生学习数学、应用数学的良好的数学品质 .加强与现实生活相联系 ,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系 ,学习用图形、数据来正确描述两个变量的关系 .明确数学在现实生活中的重要作用和实际价值 .教学中 ,应多给学生提供自主学习、独立探究、合作交流的时机 .养成严谨的学习态度及实事求是的分析问题、解决问题的科学世|界观 ,并会用所学到的知识来解决实际问题 .三.教学重点、难点教学重点:理解独立性检验的根本思想;独立性检验的步骤 .教学难点;1、理解独立性检验的根本思想;2、了解随机变量K2的含义;3、独立性检验的步骤 .四、教学策略教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结 .教学手段:多媒体辅助教学五、教学过程:对于性别变量 ,其取值为男和女两种.这种变量的不同 "值〞表示个体所属的不同类别 ,像这类变量称为分类变量.在现实生活中 ,分类变量是大量存在的 ,例如是否吸烟 ,宗教信仰 ,国籍 ,等等.在日常生活中 ,我们常常关心两个分类变量之间是否有关系.例如 ,吸烟与患肺癌是否有关系 ?性别对于是否喜欢数学课程有影响 ?等等.为调查吸烟是否对肺癌有影响 ,某肿瘤研究所随机地调查了9965人 ,得到如下结果 (单位:人 )表那么吸烟是否对患肺癌有影响吗 ?像表3一7 这样列出的两个分类变量的频数表 ,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中 ,有0.54 %患有肺癌;在吸烟者中 ,有2.28%患有肺癌.因此 ,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.与表格相比 ,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图 ,从中能清晰地看出各个频数的相对大小.。

人教版高中选修2-3第三章统计案例课程设计 (2)

人教版高中选修2-3第三章统计案例课程设计 (2)

人教版高中选修2-3第三章统计案例课程设计一、课程目标通过本课程的学习,让学生了解统计学基础并能够灵活应用于实际生活中的问题解决。

同时,让学生了解统计学的应用范畴及其与其他学科的关联,培养学生数据分析和推理能力。

二、教学内容本课程主要包括以下内容:1. 常用统计方法通过介绍常用的统计方法,如均值、方差、标准差、中位数、众数等,让学生掌握基本的统计学知识。

2. 统计图形的绘制通过介绍统计图形的分类、绘制方法及其含义,让学生掌握利用图形进行数据分析和推理的能力。

主要包括:直方图、折线图、饼图、箱线图等。

3. 实际应用结合实际生活中的案例,如消费水平、人口增长、心理测量等,让学生学会利用统计学方法进行数据分析和推理,并能够处理实际问题。

三、教学方法本课程采用“理论讲解+案例分析”的教学方法。

1. 理论讲解首先,通过理论讲解,让学生了解统计学基础,掌握统计学的基本概念和内容,为后续案例分析打下坚实的基础。

2. 案例分析然后,通过实际生活中的案例,让学生学会灵活运用统计学方法进行数据分析和推理,并教授统计图形的绘制方法,提高学生的数据分析能力。

3. 课堂互动在教学过程中,鼓励学生积极参与课堂讨论和互动,提高学生的主动学习能力。

四、教学步骤1. 第一堂课:理论部分1.1 统计学基础概念及分类1.2 统计描述方法:中心位置度量、离散程度度量和位置及离散程度的综合度量1.3 统计学规律及其应用前景2. 第二堂课:案例分析2.1 案例一:消费水平2.2 案例二:人口增长3. 第三堂课:统计图形的绘制与应用3.1 直方图3.2 折线图3.3 饼图4. 第四堂课:案例分析4.1 案例三:心理测量4.2 案例四:销售分析五、教学评估本课程主要采用案例分析的方式进行学习并考核,教师将提供各种真实案例,让学生通过分析和解决这些实际问题,提高学生的学习能力、解决问题的能力和应用知识的能力。

六、教学资源本课程主要依赖人教版高中选修2-3第三章相关教材进行教学,并提供各种真实案例供学生分析和解决问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章 统计案例§3.1 独立性检验(1)1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?为了研究这个问题,(1)引导学生将上述数据用下表来表示:一.建构数学 1.独立性检验:(1)假设0H :患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论. (2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ2()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“26.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.象以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A 和类B (如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设0H :两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量; 第三步,查对课本中临界值表,作出判断. 3.独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立. 四.数学运用 1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?分析:在使用该种血清的人中,有48.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得221000(258284242216)7.075474526500500χ⨯⨯-⨯=≈⨯⨯⨯∵当0H 成立时,26.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?分析:在口服的病人中,有59%98≈的人有效;在注射的病人中,有67%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得22193(58314064) 1.3896 2.072122719895χ⨯⨯-⨯=≈<⨯⨯⨯当0H 成立时,21.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论. 说明:如果观测值22.706χ≤,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“0H 成立”,即Ⅰ与Ⅱ没有关系.§3.1 独立性检验(2)二.数学运用 1.练习题:1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。

女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。

(1)根据以上数据建立一个2× 2列联表; (2)判断性别与休闲方式是否有关系。

例2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?§3.2 回归分析(1)一.建构数学1.线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型.说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差;②忽略了某些因素的影响; ③存在观测误差. (2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理;②在模型合理的情况下,如何估计a ,b ? 2.探求线性回归系数的最佳估计值: 设有n对观测数据(,)i i x y (1,2,3,,)i n =L ,根据线性回归模型,对于每一个ix ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()ni i i Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为$a,b $. 注:这里的iε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求$a,b $? 线性回归方程的方法:最小二乘法.利用最小二乘法可以得到$a,b $的计算公式为 $1122211()()()()nni i i ii i n ni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$$,其中11nii x x n ==∑,11ni i y y n ==∑由此得到的直线$$y a bx =+$就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中$a ,b $分别为a ,b 的估计值,$a 称为回归截距,b $称为回归系数,$y 称为回归值.3. 线性回归方程$$y abx =+$中$a ,b $的意义是:以$a 为基数,x 每增加1个单位,y 相应地平均增加b$个单位; 4. 化归思想(转化思想)(了解)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)b y ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bx y ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+.(4)b xy ae=,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.二.数学运用 1.例题:例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.年份 1949 1954 1959 1964 1969 1974 1979 1984 1989 1994 1999 人口数/百万542 603 672 705 807 909 975 1035 1107 1177 1246解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y 表示,得到下面的数据表:x5 10 15 20 25 30 35 40 45 50 y542 603 672 705 807 909 975 1035 1107 1177 1246作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得$14.453,527.591.ba ⎧≈⎪⎨≈⎪⎩$ 这里的$,a b$分别为,a b 的估 计值,因此线性回归方程 为$527.59114.453y x =+ 由于2004年对应的55x =,代入线性回归方程$527.59114.453y x =+可得$1322.506y =(百万),即2004年的人口总数估计为13.23亿.§3.2 回归分析(2)1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n =L ,样本相关系数r 的计算公式为()()nniii ix x y y x y nx yr ---==∑∑.2.相关系数r 的性质: (1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强; (3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 3. 作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系.说明:1.对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.2.这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.3.这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.4.对于上节课的例1,可按下面的过程进行检验: (1)作统计假设0H :x 与y 不具有线性相关关系;(2)由检验水平0.05与29n -=在附录2中查得0.050.602r =;(3)根据公式()2得相关系数0.998r =;(4)因为0.9980.602r =>,即0.05r r >,所以有95﹪的把握认为x 与y 之间具有线性相关关系,线性回归方程为$527.59114.453y x =+是有意义的.。

相关文档
最新文档