用样本估计整体
用样本估计总体的三种题型

频 数 分 布 表
频数 ( 人
身 高分组
<1 5 5
频数
5
百分 比
1 O%
1 5 5≤ < 16 0
1 6 O≤ < 16 5
0
1 5
2 0%
3 O%
1 6 5≤ < 1 7 0
≥ 1 7 0
1 4
6
b
1 2%
总 计
1 O O %
图1
( 1 ) 填空 :
—
—
,
—
—
一
;
频数 ( 人
( 2 ) 补全 频数 分 布 直方 图 ;
( 3 ) 该 校九 年级 共有 6 0 0 名学 生 , 估 计 身高不低于1 6 5 e m 的学生大约有多少人?
解: ( 1 ) 总人数为5 ÷1 0 %= 5 0 ,
’ . .
a = 5 0 X 2 0% =1 0.
6 =1 4÷ 5 0 X 1 0 0 % =2 8 %.
( 2 ) 补全的频数分布直方图如图2 .
、
( 3 ) 6 0 0 X( 2 8 %+ 1 2 %) = 2 4 0 ( 人) .
图2
诺
…
… …
责任编辑 : 王 二 喜
的三种题 型
0/ - 7 -  ̄ 王 琦
统计 的基本思想是用样本估计 总体 , 即用部分来 推断整体 , 从 而做 出正确 的决策. 在2 0 1 6 年 的中考试题 中, 用样 本估计 总体有 以下三种题 型. 用样本的分布估计 总I 本的分布
一
高二数学必修32.2 用样本估计总体 教案2

用样本估计总体面对数据,能正确的分析、处理数据,面对现实问题,能主动尝试用数学的思维和方法去寻求解决问题的策略,提高分析问题和解决问题的能力,提高数学素养,提高应用数学的意识,让学生在合作中学会交流.引导学生自主探究,培养学生勤于思考的习惯.用数学的思维和方法解决实际问题.以学生合作探索活动为主.多媒体,计算器.(一)师:生活中处处有数据,当一串数据呈现在我们面前时,我们用统计知识学会了分析数据和处理数据.一些同学在处理教材第122页活动2的数据时遇到这样几个问题,请分组讨论一下,然后全班交流.问题 1 一个年级有几百名学生,可是计算器一次只能计算几十个数据的平均数,怎么办?(用多媒体展示)生1:用计算机计算.生2:可以先分班计算每个班男学生的平均身高,再计算全年级男同学的平均身高.28402930283235285.164400.166294.163302.163285.162321.164356.165++++++⨯+⨯+⨯+⨯+⨯+⨯+⨯.师:前面两位同学回答很好,还有什么方法?生3:将数据分组,全年级222名男生,分成10组,先分组计算平均数,再算全年级的男生的平均身高.师:非常好,请继续.生4:可以先统计各个数据出现的次数,再作计算.生5:可以采取随机抽样的方法,用计算器产生几十个不同的随机数,相应编号的学生作为样本,先计算这几十名男生的平均身高,再估计全年级男生的平均身高.师:同学们的讨论和回答非常好,继续思考下面两个问题.(用多媒体展示)问题2 在计算20名男同学平均身高时,小华将所有数据按由小到大的顺序排列,得下表.然后,这样计算20202167416521632160415721551143⨯+⨯+⨯+⨯+⨯+⨯+⨯.小华这样计算可以吗?为什么?问题3 某校九年级共有四个班,各班的男同学人数和平均身高如表.小强47.1608.1603.1622.161+++.小强这样计算平均数可以吗?为什么?生:小华这样算可以,小强这样算不可以,因为小强没有考虑到各班男生人数不等.师:小华这样算可以简化计算.解决小强遇到的问题,一般不能采取“相加除以4”的平均化策略,那么,只有在什么情况下可以采取这种策略呢?生:如果四个班的人数相同,才可以采取这种方法.(二)1.重庆市是一座美丽的城市,为增强市民的环保意识,某校家住缙云花园小区的30名九年级学生调查了某一天各自家庭丢弃废塑料袋的情况,统计结果如根据以上数据,若缙云花园小区有500户居民,则该小区所有家庭每天丢弃的废塑料袋总数约为__________万个.2.某动物园对5个旅游景点的门票价格进行了调整,据统计,调价前后各景(1)该动物园称调整前后这5个景点门票的平均收费不变,平均日总收入持平,问动物园是怎样计算的?(2)另一方面,游客认为调整收费后动物园的平均日总收入相对调价前,实际上增加了约9.4%,问游客是怎样计算的?(3)你认为动物园和游客哪一个的说法较能反映整体实际?师:对这两个实际问题请先独立思考,再与你的同伴交流,得到实际问题的结果.(三)通过这节课的学习,你有什么体会和收获?(引导学生小结)(四)作业1.教材第123页第1题.2.举出用样本估计总体的实例.(分组活动)。
简述以样本均值估计总体均值的理由

简述以样本均值估计总体均值的理由样本均值恰好等于总体均值的机会很少,但是样本均值的期望(平均值)却是等于样本均值的。
⼀般情况下样本均值与总体均值之间会有些差异,这个差异是可以科学计算并加以控制的。
样本均值也称为样本均值。
是样本的平均值。
平均值是⼀组数据集中趋势的数量,即⼀组数据中所有数据的总和,然后除以该组数据的数量。
它是反映数据集中趋势的指标。
样本均值是总体中样本数据的平均值。
样本是指从⼈⼝中提取的⼀部分个⼈。
样本中的个体数量称为样本数量或含量,并⽤符号n或n表⽰。
⼈⼝是指客观存在并基于相同属性组合的许多单个单元的整体,即具有某些特征的⼀类事物的整体,也称为矩阵或整个域。
简⽽⾔之,⼈⼝是相同性质的个体的总和。
样本是被检查物体或其⼀部分的反射图像。
以某种⽅式从种群中提取的⼀些个体⽤于提供有关种群的信息,从⽽对种群进⾏统计推断。
也称为⼦样本。
例如,由于⼈⼒和物⼒的限制,不可能对全国⼈⼝进⾏年度普查,但是可以通过抽样调查获得必要的信息。
从总体采样的过程称为采样。
最常⽤的采样⽅法是简单的随机采样。
这样,总体中的每个⼈都有相同的机会被采样到样本中,因此获得的样本称为简单随机样本。
样本的平均值称为样本平均值,样本偏差的平⽅的平均值称为样本⽅差。
在数学统计中,样本平均值通常⽤于估计总体平均值,样本⽅差⽤于估计总体⽅差。
平均值是代表⼀组数据集趋势的数量。
它指的是⼀组数据中所有数据的总和,然后除以该组数据的数量。
它是反映数据集中趋势的指标。
解决平均数问题的关键是确定“总数”以及与该总数相对应的副本总数。
在统计⼯作中,平均值和标准差是描述数据趋势和离散度的两个最重要的指标。
平均值是统计中的重要概念。
在统计中,算术平均值通常⽤于表⽰统计对象的⼀般⽔平。
它是⼀个统计数据,描述了数据集的位置。
它不仅可以⽤来反映⼀组数据的⼀般情况和平均⽔平,⽽且可以⽤来⽐较不同组的数据以查看组之间的差异。
使⽤平均值表⽰⼀组数据是直观⽽简洁的,因此在⽇常⽣活中经常使⽤它,例如平均速度,平均⾝⾼,平均输出,平均得分等。
样本估计整体

探究: 我国是世界上严重缺水的 国家之一,城市 缺水问题较为突出。某市政府为了节约用 水,计划在 本市试行居民生活用水定额管 理,即确定一个居民月用水量标准a,用水 量不超过a的按平价收费,超过 a的按议价 收费。如果希望大部分居民的 日常生活不 受影响,那么标准a定为多少比较合理? 你认为,为了较为合理地确定出这个标准, 需要做什么工作?
2、中位数不受少数几个极端数据(即排序靠前或排序靠后的数据) 的影响,容易计算,它仅利用了数据中排在中间数据的信息。 当样本数据质量比较差,即存在一些错误数据(如数据的录入 错误、测量错误等)时,应该用抗极端数据强的中位数表示 数据的中心值。
3、平均数受样本中每一个数据的影响,“越离群”的数据,对平均 数的影响越大。与众数和中位数相比,平均数代表了数据更多 的信息。
表2-1
3.1 3.4 2.5 2.6
100位居民的月均用水量 (单位 :t )
2.0 2.2 2.0 1.5 1.0 1.6 1.8 1.9 1.6 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2
3.3 3.2
2.7
2.8 2.9
2.3
2.3 2.4
2.1 1.6 1.2 3.7 1.5 0.5 3.8
图2.2-2 100位居民的月均用水量的频率分 布折线图
频率
组距
0
a
b
月均用水量/t
※总体密度曲线能够很好的反映总体在各个范围 内的百分比,能够提供更准确的信息。尽管有些 总体密度曲线是客观存在的,但是很难象函数图 象那样准确的地画出来。 ?思考一下图中阴影部分的面积表示什么?
甲
乙
8
4 6 3 3 6 8 3 8 9
思考1:2.03是通过频率直方图估计出来的中位数,
用样本估计整体的基本步骤

用样本估计整体的基本步骤
用样本估计整体的基本步骤通常包括以下几个部分:
1.确定研究目标和总体:首先确定你想要估计的总体,即你
希望得到关于整体特征的估计值。
2.定义样本和抽样方法:确定你将要使用的样本大小和抽样
方法。
样本应该以代表性的方式从总体中选择,以确保估计的结果具有统计学上的可靠性。
3.收集数据:采用所选择的抽样方法从总体中抽取样本,并
收集样本数据。
确保采样过程是随机的,以避免样本选择上的偏差。
4.数据整理和分析:对收集到的样本数据进行整理和分析。
这包括描述性统计分析、计算样本统计量等。
5.估计总体参数:根据样本数据,计算出所需的总体参数的
估计值。
例如,估计总体均值、总体比例等。
这通常涉及到对样本统计量的计算和推断。
6.确定估计的精度和置信水平:评估估计结果的精度和可靠
性。
这可以通过计算估计值的置信区间来完成,确定估计结果所在的范围。
7.结果解释和推断:将估计结果解释给目标受众。
解释估计
结果的含义、置信水平以及可能的限制。
8.结论和报告:根据估计结果,得出结论并撰写报告。
将报
告中包含所采用的方法、数据分析流程、估计结果和相关
的解释。
在用样本估计整体时,确保使用恰当的统计方法和技术,并遵循相关的统计学原则和假设。
此外,维护数据的质量和准确性也是十分重要的,以确保估计结果的可靠性和有效性。
九年级数学上册《用样本估计总体》教案、教学设计

2.讨论如何选择合适的样本进行数据收集和分析。
3.分享各自小组在实践操作中遇到的问题及解决方法。
我会采取以下步骤组织讨论:
1.将学生分成若干小组,确保每个小组成员都能积极参与。
2.提供讨论题目,引导学生在小组内进行深入交流。
3.鼓励小组成员发表见解,培养合作意识和表达能力。
二、学情分析
九年级的学生已经具备了一定的数学基础和逻辑思维能力,他们对于数据的收集、整理和分析已有初步的认识。在此基础上,学生对本章节的“用样本估计总体”的学习,既存在一定的认知基础,也面临一些挑战。一方面,学生需要将已学的统计知识运用到实际问题中,这需要他们具备较强的知识迁移能力;另一方面,本章节涉及的概念和方法较为抽象,学生可能会在理解和应用上遇到困难。
2.基本概念:讲解样本估计总体的基本原理,引导学生理解样本与总体的关系,掌握样本频率分布、样本均值、样本方差等概念。
3.方法探究:组织学生进行小组合作,探讨如何用样本数据估计总体数据,引导学生发现并总结出用样本估计总体的方法。
4.实践应用:布置实际案例,让学生运用所学方法,进行数据收集、整理、描述和分析,培养学生的实际操作能力。
-鼓励学生通过预习,培养自主学习能力和良好的学习习惯。
教学设想:
1.针对重点内容的教授,采用直观生动的案例导入,让学生在具体情境中感受样本估计总体的必要性,从而激发学习兴趣。
-设计一系列与学生生活密切相关的实际问题,如调查班级同学的身高分布、学习成绩等,让学生通过实际操作,体会样本数据对总体估计的作用。
2.对于难点的突破,采用循序渐进的教学策略,将复杂问题分解为若干小步骤,引导学生逐步深入理解和掌握。
-定期组织课堂展示,让学生分享各自小组的探究成果,促进相互学习和交流。
必修三2.2.用样本估计总体(教案)

2.2 用样本估计总体教案 A第1课时教学内容§2.2.1 用样本的频率分布估计总体分布教学目标一、知识及技能1. 通过实例体会分布的意义和作用.2. 在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图.3.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.二、过程及方法通过对现实生活的探究,感知应用数学知识解决问题的方法,理解数形结合的数学思想和逻辑推理的数学方法.三、情感、态度及价值观通过对样本分析和总体估计的过程,感受数学对实际生活的需要,认识到数学知识源于生活并指导生活的事实,体会数学知识及现实世界的联系.教学重点、难点重点:会列频率分布表,画频率分布直方图、频率折线图和茎叶图.难点:能通过样本的频率分布估计总体的分布.教学设想一、创设情境在NBA的2004赛季中,甲、乙两名篮球运动员每场比赛得分的原始记录如下﹕甲运动员得分﹕12,15,20,25,31,31,36,36,37,39,44,49,50乙运动员得分﹕8,13,14,16,23,26,28,38,39,51,31,29,33请问从上面的数据中你能否看出甲,乙两名运动员哪一位发挥比较稳定?如何根据这些数据作出正确的判断呢?这就是我们这堂课要研究、学习的主要内容——用样本的频率分布估计总体分布.二、探究新知探究1:我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做哪些工作?(让学生展开讨论)为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况.分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息.表格则是通过改变数据的构成形式,第 1 页为我们提供解释数据的新方式.下面我们学习的频率分布表和频率分布图,则是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律.可以让我们更清楚的看到整个样本数据的频率分布情况.(一)频率分布的概念频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:1.计算一组数据中最大值及最小值的差,即求极差;2.决定组距及组数;3.将数据分组;4.列频率分布表;5.画频率分布直方图.以教材P65制定居民用水标准问题为例,经过以上几个步骤画出频率分布直方图.(让学生自己动手作图)频率分布直方图的特征:1.从频率分布直方图可以清楚的看出数据分布的总体趋势.2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.探究2:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断,分别以0.1和1为组距重新作图,然后谈谈你对图的印象?(把学生分成两大组进行,分别作出两种组距的图,然后组织同学们对所作图的不同看法进行交流……)接下来请同学们思考下面这个问题:思考:如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-2和频率分布直方图2.2-1,(见教材P67)你能对制定月用水量标准提出建议吗?(让学生仔细观察表和图)(二)频率分布折线图、总体密度曲线1.频率分布折线图的定义:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2.总体密度曲线的定义:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.思考:1.对于任何一个总体,它的密度曲线是不是一定存在?为什么?2.对于任何一个总体,它的密度曲线是否可以被非常准确地画出来?为什么?实际上,尽管有些总体密度曲线是客观存在的,但一般很难像函数图象那样准确地画出来,我们只能用样本的频率分布对它进行估计,一般来说,样本容量越大,这种估计就越精确.(三)茎叶图1.茎叶图的概念:当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把第 3 页这样的图叫做茎叶图.(见教材P70例子)2.茎叶图的特征:(1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录及表示.(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.三、例题精析例1 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm ):(1)列出样本频率分布表;(2)画出频率分布直方图;(3)估计身高小于134cm的人数占总人数的百分比.分析:根据样本频率分布表、频率分布直方图的一般步骤解题.解:(1)样本频率分布表如下:(2)其频率分布直方图如下:(3)由样本频率分布表可知身高小于134cm 的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134cm 的人数占总人数的19%.cm )例2 为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高及频数成正比,各组频数之和等于样本容量,频率之和等于1.解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:40.0824171593=+++++, 又因为频率=.第二小组频数样本容量所以,12150.0.08===第二小组频数样本容量第二小组频率 (2)由图可估计该学校高一学生的达标率约为(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.四、课堂小结1. 总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布.2. 总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.五、评价设计1.P81习题2.2 A组1、2.第2课时教学内容§2.2.2 用样本的数字特征估计总体的数字特征教学目标一、知识及技能1. 正确理解样本数据标准差的意义和作用,学会计算数据的标准差.2. 能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.3. 会用样本的基本数字特征估计总体的基本数字特征.4. 形成对数据处理过程进行初步评价的意识.二、过程及方法在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解数形结合的数学思想和逻辑推理的数学方法.三、情感、态度及价值观会用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题,认识统计的作用,能够辩证地理解数学知识及现实世界的联系.教学重点、难点教学重点:用样本平均数和标准差估计总体的平均数及标准差.教学难点:能应用相关知识解决简单的实际问题.教学设想一、创设情境在一次射击比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕甲运动员﹕7,8,6,8,6,5,8,10,7,4;乙运动员﹕9,5,7,8,7,6,8,6,7,7.观察上述样本数据,你能判断哪个运动员发挥的更稳定些吗?为了从整体上更好地把握总体的规律,我们要通过样本的数据对总体的数字特征进行研究——用样本的数字特征估计总体的数字特征(板出课题).二、探究新知(一)众数、中位数、平均数探究(1)怎样将各个样本数据汇总为一个数值,并使它成为样本数据的“中心点”?(2)能否用一个数值来描写样本数据的离散程度?(让学生回忆初中所学的一些统计知识,思考后展开讨论)初中我们曾经学过众数,中位数,平均数等各种数字特征,应当说,这些数字都能够为我们提供第 5 页关于样本数据的特征信息.例如前面一节在调查100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t (最高的矩形的中点)(图见教材第72页)它告诉我们,该市的月均用水量为2. 25t 的居民数比月均用水量为其他值的居民数多,但它并没有告诉我们到底多多少.提问:请大家翻回到教材第66页看看原来抽样的数据,有没有2.25 这个数值呢?根据众数的定义,2.25怎么会是众数呢?为什么?(请大家思考作答)分析:这是因为样本数据的频率分布直方图把原始的一些数据给遗失的原因,而2.25是由样本数据的频率分布直方图得来的,所以存在一些偏差.提问:那么如何从频率分布直方图中估计中位数呢?分析:在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,矩形的面积大小正好表示频率的大小,即中位数左边和右边的直方图的面积应该相等.由此可以估计出中位数的值为2.02.(图略见教材73页图2.2-6)思考:2.02这个中位数的估计值,及样本的中位数值2.0不一样,你能解释其中的原因吗?(原因同上:样本数据的频率分布直方图把原始的一些数据给遗失了)图2.2-6显示,大部分居民的月均用水量在中部(2.02t 左右),但是也有少数居民的月均用水量特别高,显然,对这部分居民的用水量作出限制是非常合理的.思考:中位数不受少数几个极端值的影响,这在某些情况下是一个优点,但是它对极端值的不敏感有时也会成为缺点,你能举例说明吗?(让学生讨论,并举例)(二)标准差、方差1.标准差平均数为我们提供了样本数据的重要信息,可是,有时平均数也会使我们作出对总体的片面判断.某地区的统计显示,该地区的中学生的平均身高为176cm ,给我们的印象是该地区的中学生生长发育好,身高较高.但是,假如这个平均数是从五十万名中学生抽出的五十名身高较高的学生计算出来的话,那么,这个平均数就不能代表该地区所有中学生的身体素质.因此,只有平均数难以概括样本数据的实际状态.例如,在一次射击选拔比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕甲运动员﹕7,8,6,8,6,5,8,10,7,4;乙运动员﹕9,5,7,8,7,6,8,6,7,7.观察上述样本数据,你能判断哪个运动员发挥的更稳定些吗?如果你是教练,选哪位选手去参加正式比赛? 我们知道,77x x ==乙甲,.两个人射击的平均成绩是一样的.那么,是否两个人就没有水平差距呢?(观察P74图2.2-7)直观上看,还是有差异的.很明显,甲的成绩比较分散,乙的成绩相对集中,因此我们从另外的角度来考察这两组数据.考察样本数据的分散程度的大小,最常用的统计量是标准差.标准差是样本数据到平均数的一种平均距离,一般用s 表示.样本数据1,2,,n x x x 的标准差的算法:第 7 页(1) 算出样本数据的平均数x .(2) 算出每个样本数据及样本数据平均数的差:(1,2,)i x x i n -= (3) 算出(2)中(1,2,)i x x i n -=的平方.(4) 算出(3)中n 个平方数的平均数,即为样本方差.(5) 算出(4)中平均数的算术平方根,即为样本标准差.其计算公式为:显然,标准差较大,数据的离散程度较大;标准差较小,数据的离散程度较小.提问:标准差的取值范围是什么?标准差为0的样本数据有什么特点?从标准差的定义和计算公式都可以得出:s ≥0.当0s =时,意味着所有的样本数据都等于样本平均数.2.方差从数学的角度考虑,人们有时用标准差的平方2s (即方差)来代替标准差,作为测量样本数据分散程度的工具:在刻画样本数据的分散程度上,方差和标准差是一样的,但在解决实际问题时,一般多采用标准差.三、例题精析例1 画出下列四组样本数据的直方图,说明他们的异同点.(1)5,5,5,5,5,5,5,5,5(2)4,4,4,5,5,5,6,6,6(3)3,3,4,4,5,6,6,7,7(4)2,2,2,2,5,8,8,8,8分析:先画出数据的直方图,根据样本数据算出样本数据的平均数,利用标准差的计算公式即可算出每一组数据的标准差.解:(图见教材P76)四组数据的平均数都是5.0,标准差分别为:0.00,0.82,1.49,2.83.他们有相同的平均数,但他们有不同的标准差,说明数据的分散程度是不一样的.例2 甲乙两人同时生产内径为25.40mm 的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm ):甲 25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.3825.42 25.39 25.43 25.39 25.40 25.44 25.40 25.4225.45 25.35 25.41 25.39乙 25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.3625.34 25.49 25.33 25.43 25.43 25.32 25.47 25.3125.32 25.32 25.32 25.48从生产的零件内径的尺寸看,谁生产的质量较高?分析:比较两个人的生产质量,只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数及标准差的大小即可,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样本数据,然后比较这两个样本数据的平均数、标准差,以此作为两个总体之间的差异的估计值.解:四、课堂小结1. 用样本的数字特征估计总体的数字特征分两类:(1)用样本平均数估计总体平均数.(2)用样本标准差估计总体标准差.样本容量越大,估计就越精确.2. 平均数对数据有“取齐”的作用,代表一组数据的平均水平.3. 标准差描述一组数据围绕平均数波动的大小,反映了一组数据变化的幅度.五、评价设计P81 习题 2.2 A组 3、4.教案 B第1课时教学内容§2.2.1 用样本的频率分布估计总体分布教学目标一、知识及技能1.通过实例体会分布的意义和作用.2.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图.3.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.二、过程及方法通过对现实生活的探究,感知应用数学知识解决问题的方法,理解数形结合的数学思想和逻辑推理的数学方法.三、情感、态度及价值观通过对样本分析和总体估计的过程,感受数学对实际生活的需要,认识到数学知识源于生活并指导生活的事实,体会数学知识及现实世界的联系.教学重点、难点教学重点:会列频率分布表,画频率分布直方图、频率折线图和茎叶图.教学难点:能通过样本的频率分布估计总体的分布.教学设想一、创设情境,导入新课我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做哪些工作?(让学生展开讨论)为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况.分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息.表格则是通过改变数据的构成形式,为我们提供解释数据的新方式.下面我们学习的频率分布表和频率分布图,则是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律.可以让我们更清楚的看到整个样本数据的频率分布情况.二、新课探知(一)频率分布的概念频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:1. 计算一组数据中最大值及最小值的差,即求极差;2. 决定组距及组数;第 9 页cm ) 3. 将数据分组;4. 列频率分布表;5. 画频率分布直方图.以教材P65制定居民用水标准问题为例,经过以上几个步骤画出频率分布直方图.(让学生自己动手作图)例1 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm ):(1)列出样本频率分布表;(2)一画出频率分布直方图;(3)估计身高小于134C m的人数占总人数的百分比.分析:根据样本频率分布表、频率分布直方图的一般步骤解题.解:(1)样本频率分布表如下:(2)其频率分布直方图:(3134cm 的男孩出现的,所以我们估计身高小 (1趋势. (2把数据抹掉了.曲线 1.频率分布折线图连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2.总体密度曲线的定义:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.(见教材P69)(三)茎叶图1.茎叶图的概念:当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.(见教材P70例子)2.茎叶图的特征:(1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录及表示.(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.例2某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.用茎叶图表示,你能通过该图说明哪个运动员的发挥更稳定吗?解:“茎”指的是中间的一列数,表示得分的十位数;“叶”指的是从茎的旁边生长出来的数,分别表示两人得分的个位数.画这组数据的茎叶图的步骤如下第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;第二步,茎是中间的一列数,按从小到大的顺序排列;第三步,将各个数据的叶按大小次序写在茎右(左)侧.甲乙8 04 6 3 1 2 53 6 8 2 5 43 8 9 3 1 6 1 6 7 94 4 91 5 0从图中可以看出,乙运动员的得分基本上是对称的,页的分布是“单峰”的,有的叶集中在茎2,3,4上,中位数为36;甲运动员的得分除一个特殊得分(51分)外,也大致对称,叶的分布也是“单峰”的,有的叶主要集中在茎1,2,3上,中位数是26.由此可以看出,乙运动员的成绩更好. 另外i,从叶在茎上的分布情况看,乙运动员的得分更集中于峰值附近,这说明乙运动员的发挥更稳定.练习:在NBA的2010赛季中,甲、乙两名篮球运动员每场比赛得分的原始记录如下﹕甲运动员得分﹕12,15,20,25,31,31,36,36,37,39,44,49,50乙运动员得分﹕8,13,14,16,23,26,28,38,39,51,31,29,33学生画出茎叶图(略)三、巩固练习为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(见下页图示),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.第 11 页(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高及频数成正比,各组频数之和等于样本容量,频率之和等于1.解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:40.08 24171593=+++++,又因为频率=第二小组频数样本容量,所以,121500.08===第二小组频数样本容量第二小组频率.(2)由图可估计该学校高一学生的达标率约为(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.四、小结1. 总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布.2. 总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.五、布置作业P71练习1、2、3.第2课时教学内容§2.2.2 用样本的数字特征估计总体的数字特征教学目标一、知识及技能1. 正确理解样本数据标准差的意义和作用,学会计算数据的标准差.2. 能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.3. 会用样本的基本数字特征估计总体的基本数字特征.4. 形成对数据处理过程进行初步评价的意识.二、过程及方法在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解数形结合的数学思想和逻辑推理的数学方法.三、情感、态度及价值观会用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题,认识统计的作用,能够辩证地理解数学知识及现实世界的联系.教学重点、难点教学重点:用样本平均数和标准差估计总体的平均数及标准差.教学难点:能应用相关知识解决简单的实际问题.教学设想一、创设情境导入新课在一次射击比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕甲运动员﹕7,8,6,8,6,5,8,10,7,4;乙运动员﹕9,5,7,8,7,6,8,6,7,7.请问从上面的数据中你能否看出甲,乙两名运动员哪一位发挥比较稳定?为了从整体上更好地把握总体的规律,我们要通过样本的数据对总体的数字特征进行研究——用样本的数字特征估计总体的数字特征.二、新课探究(一)众数、中位数、平均数初中我们曾经学过众数,中位数,平均数等各种数字特征,应当说,这些数字都能够为我们提供关于样本数据的特征信息.例如前面一节在调查100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t(最高的矩形的中点)(图略见教材第72页)它告诉我们,该市的月均用水量为2. 25t的居民数比月均用水量为其他值的居民数多,但它并没有告诉我们到底多多少.提问:请大家翻回到教材第66页看看原来抽样的数据,有没有2.25 这个数值呢?根据众数的定义,2.25怎么会是众数呢?为什么?(请大家思考作答)分析:这是因为样本数据的频率分布直方图把原始的一些数据给遗失的原因,而2.25是由样本数据的频率分布直方图得来的,所以存在一些偏差.提问:那么如何从频率分布直方图中估计中位数呢?分析:在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,第 13 页。
用样本的频率分布估计总体分布

例1:某市政府了节约生活用水,计划在本市试
行居民生活用水定额管理,即确定一个居民月用水量标 准a , 用水量不超过a的部分按平价收费,超过a的部分 按议价收费。
①如果希望大部分居民的日常生活不受影响,那么标 准a定为多少比较合理呢?
②为了较合理地确定这个标准,你认为需要做哪些 工作?
频率分布表如下:
分组 [25,30) [30,35) [35,40) [40,45)
[45,50) [50,55) [55,60]
合计
频数
3 8 9 11 10 5
4 50
频率 0.06 0.16 0.18
0.22
0.20 0.10
0.08
1.00
0.012 0.032 0.036 0.044 0.040 0.020 0.016
月均用水量/t
频率 组距 0.5 0.4 0.3 0.2 0.1
思考 :如果当地政府希望使
85% 以上的居民每月的用水量不 超出标准,根据频率分布表和频 率分布直方图,你能对制定月用 水量标准提出建议吗?
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月均用水量/t
(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;
分组
频数累计
频数
频率
6.55~6.75
6.75~6.95
6.95~7.15
7.15~7.35
7.35~7.55 合计
频率:每组数据的个数除以全体数据个数的商叫做 该组的频率。
根据随机抽取样本的大小,分别计算某一事件出现 的频率,这些频率的分布规律(取值状况),就叫 做样本的频率分布。
说明:样本频率分布与总体频率分布有什么关系?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这就是说。
各个小长方形的面积等于相应各组的频率。
显然。
所有张方形面积之和等于1. 为了了解全部产品中优等品所占比例。
可以统计出内径尺寸在区间25.325到25.475内的个体数载样本容量中所占的比例、也就是他的频率。
从表中容易看出,这个频率值等于0.12+0.18+0.25+0.16+0.13=0.84,于是可以估计出所有生产的钢管中有84%的优等品、工厂可以根据质量规范。
看看是否达到优等品率的要求,如果没有达到。
就需要进一步分析原因。
解决问题。
当然。
用样本的频率分布估计总体的分布时。
要使样本能够很好的反应总体的特征。
必须随机抽取样本。
由于抽样的随机性,可以想到(参考本届练习A第三题),如果随机抽取另外一个容量为100的样本,所形成的样本频率分布一般会与请按一个样本频率分布有所不同。
但是。
他们都可以近似的看做总体的分布。
从频率分布直方图可以清楚的看出数据分布的总体态势,但是从直方图本身得不出原式的数据内容。
所以,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
把频率分布直方图各个张方形上边的中点用线段连接起来,就得到频率分布折线图,为了方便看图。
一般习惯于吧频率分布折线图化成与横轴相连。
所以横轴上的左右两端点没有实际的意义。
图中各个小长方形的面积,表明了所抽取的100件产品中内径尺寸落在各个小组内的产品个数与100的比值大小。
如果样本容量越大,所分组数越多。
图中表示的频率分布就越接近于总体在各个小组内取值的个数与总数比值的大小。
设想如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,他可以用仪表光滑取消Y=f (x)来描绘。
这条光滑曲线就叫做总体密度曲线。
总体密度曲线精确地反映了一个总体在各个区域内取值的规律。
产品尺寸落在(a,b)内的百分率就是图中带斜线部分的面积,对本例来说,总体密度曲线呈中间高两边低的“钟”形分布,总体的数据大致呈对称分布,并且大部分数据都集中在靠近中间的区间内。
抽样后的样本数据汇总。
号可以借助计算机来准确、快速的作出,图就是运用前面所讲到的画直方图的步骤,在工作表中对样本数据汇总得出的结果。
茎叶图:某赛季甲乙两名篮球运动员每场比赛的得分情况如下:甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50.乙的得分:8,13,14,16,23,26,28,33,38,39,51.上面的发数据可以用图来表示。
他的中间部分像一棵植物的茎,两边部分像这个植物茎上生长出来的叶子。
用中间的数字表示两位运动员得分的十位数,两边的数字分别表示两个人各场比赛得分个位数。
例如。
用3|389就表示了33,38,39这三个数据,通常把这样的图焦作茎叶图,根据上图可以对两名运动员的成绩进行比较。
从上面的茎叶图可以看出,甲运动员的得分情况是大致对称的。
中位数是36,:乙运动员的得分情况除一个特殊得分外。
也大致对称。
中位数是26.用茎叶图表示数据有两个突出的优点。
一是从统计图上没有原始信息的损失,所有的数据信息都可以从茎叶图中得到。
二是茎叶图可以在比赛时随时记录。
方便记录与表示。
2.2.2用样本的数字特征估计总体的数字特征在日常生活的很多情况下,我们往往并不需要了解总体的分布形态,而是更关心总体的某一数字特征。
比如购买灯泡时,消费者希望知道的是这批灯泡的平均使用寿命,我们怎样来了解这批灯泡的平均使用寿命呢?当然不可能把所有的灯泡逐一测试,因为测试后灯泡就报废了。
于是,需要通过随机抽样。
把这批灯泡的寿命看做整体,从中随机抽取出若干个个体作为样本,算出样本的数字特征,用样本的数字特征(如平均数等)来估计总体的数字特征。
1用样本的平均数估计总体平均数我们在初中学过,平均数描述了数据的平均水平,定量的反应了数据的集中趋势所处的水平,那么,怎样用样本的平均数估计总体的平均数呢?例1:从某大型企业全体员工某月的月工资中随机抽取50名员工的月工资资料如下(单位:元)试计算这50员工的月工资平均数,并估计这个企业的员工平均工资。
解:月平均工资=。
由此可以估计这家企业的员工月平均工资为1320元。
假如你去这家公司应聘职位,月平均工资水平是你考虑的重要因素。
一般来讲,月平均工资的水平可以与同类公司待遇进行比较。
同样,再随机抽取50名公司职员的工资。
计算说得的样本的平均数一般会与例1中的样本平均数不同,所以。
用样本平均数估计总体平均数时。
样本的平均数只是总体平均数的近似。
我们知道,N个样本x1,x2,…xn的平均数12nx x xxn-+++=,则有12nn x x x x-=+++。
也就是把每个(1,2,3)ix i n=都用x-代替后,数据总和保持不变,所以平均数x-对数据有“取齐”的作用,代表了一组数据的数值平均水平。
在例1中,可能有人会猜测,应用50%的员工工资超过平均数,而50%低于平均数。
我们用前面学习的方法画出例1中月工资的频率分布直方图。
并标出样本平均数,又数据可以得出,只有30%的员工月平均工资超过平均数,其余70%的在平均数以下,想一想什么原因导致了这个结果。
2.用样本标准差估计总体标准差数据的离散程度可以用极差、方差或标准差来描述。
我们知道,样本方差描述了一个数据围绕平均数波动的大小,为了得到以样本数据的单位表示的波动幅度,通常要求求出样本方差的算是平方根,一般的,设样本的元素x1,x2,…xn ,样本的平均数为x ,定义、其中s 的平方表示样本方差。
S 表示样本标准差。
计算样本数据x1,x2,…xn 的标准差的算法是:S1 算出样本数据的平均数x -:S2 算出每个样本数据与样本平均数的差(1,2,3,...)i x x i n --=S3 算出S2中(1,2,3,...)i x x i n --=的平方S4 算出S3中N 个平方数的平均数,即为样本方差。
S5 算出S4中平均数的算术平方根,即为样本标准差。
例2.计算数据5,7,7,8,10,11的标准差。
解:S1 57+7+8+10+11=86x -+=S4 2911049s 46+++++==2=所以这组数据的标准差为2.例4 从甲乙两名学生中选拔一人参加设计比赛,对他们的设计水平进行了测试,两人在相同条件下各射击10次,命中的环数如下:甲:7 8 6 8 6 5 9 10 7 4乙:9 5 7 8 7 6 8 6 7 7(1) 计算甲乙两人你射击命中环数的平均数和标准差:(2) 比较两个人的成绩,然后决定选择哪一人参赛解:(1)计算得77;=1.73s =1.10x x s --==甲乙乙甲(2)又(1)可知,甲乙两人的平均成绩相等,但S 乙<S 甲,这表明乙的成绩比甲的成绩稳定一些,从成绩的稳定性考虑,可以选择乙参加比赛。
样本标准差和频率分布直方图有什么关系呢?从标准差的定义可知,如果样本各数据值都相等,则标准差得0,表明数据没有波动幅度,数据没有离散性。
若个体的值与平均数的差的绝对值较大,则标准差也较大。
表明数据的波动幅度也很大,数据离散程度很高,因此标准差描述了数据对平均数的离散程度。
再来看钢管内径尺寸的例子,他的样本平均数为25.401,标本标准差为0.056,在这放图中用虚线i 标出平均数所在的位置,并画出距平均数两侧各一倍的标准差和两倍标准差的区间,可以看到大约有70%的钢管内径尺寸落在距离平均数两侧各一倍标准差的区间内,即区间(x ,x s s ---+),大约有95%的钢管内径尺寸落在距平均数两侧各两倍标准差的区间内,即区间(x 2,x 2s s ---+),由此我们估计总体中也有大致比率的产品尺寸落入到相应的区间内。
实际生产、生活中有大量的例子符合这样的统计规律,比如同一年龄段的人群的身高、体重、同一生产线生产的带装洗衣粉的质量等。
2.3变量的相关性2.3.1 变量的相关关系变量与变量之间的关系常见的有两类:一类是确定性的函数关系,像长方形的边长a 和面积S 的关系。
另一类是变量间确实存在关系,但又不具备函数关系所要求的确定性,他们的关系是带有随机性的,例如,人的身高并不能确定体重,但一般来说:“身高者,体也重”,我们说身高与体重这两个变量具有相关关系。
怎样判断两个变量有没有相关关系,我们来看下面的例子。
例 设某地10户家庭的年收入和年饮食支出的统计资料如下表。
由表中数据可以看出,y 有随x 增加而增加的趋势,并且增加的趋势变缓。
为了更清楚的看出x 与y 是否有相关关系,我们以年收入x 的取值做横坐标,把年饮食支出y 的相应取值作为纵坐标,在直接坐标系中描点(x1,y1)(i=1,2,3,…,10),如图所示,这样的图形叫做散点图,从图中可以只直观的看出家庭年收入和年饮食支出之间具有相关关系,并且当年收入的值由小变大时,年饮食支出的值也在由小变大,这种关系称为正相关,反之,如果一个变量的值由小变大时,另一个变量的值由大变小,这种关系称为负相关。
2.3.2 两个变量的线性相关看下面的例子例1下表是某小卖部六天卖出的热茶的杯数与当天天气温度的对比表。
(1)将表中的数据画成散点图;(2)你能从散点图中发现温度与饮料杯数近似成什么关系吗?(3)如果近似成线性关系的话,请画出一条直线近似地表示这种线性关系解:(1)画出的散点图如图(2)从图中可以发现温度和杯数具有相关关系,当温度的值由小到大变化时,杯数的值由大变小,所以温度和杯数成负相关。
图中的数据点大致分布在一条直线附近,因此温度和杯数近似成线性相关关系。
(3)根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系,比如连接最左侧点和最右侧点得到一条直线,或者让画出的直线上方的点和下方的点数目相等。
同学们也可以自己尝试制定标准来画出近似直线,管家能在与这一标准是否合理,是否能够得到最佳的近似直线。
(最优拟合直线)。
由图2-11可见,所有数据点都分布在一条直线附近,显然这样的直线还可以画出许多条,而我们希望找出其中一条,它能最好的反应x 和y 之间的关系,换言之,我们要找出一条直线,使这条直线“最贴近”已知的数据点,几座直线方程为^y a bx =+① 这里在y 的上方加几号“^”,是为了区分Y 的实际值y ,表示当x 取值xi (i=1,2,3, (6)时,Y 相应的观察值为y1,而直线上对应与xi 的纵坐标是^i y a bx =+,①式叫做Y 对x 的回归直线方程,b 叫做回归系数,要确定回归直线方程①,只要确定a 与回归系数b 。
下面我们来研究回归直线方程的求法,设x ,Y 的一组观察值为(xi ,yi )i=1,2,…,n且回归直线方程为^y a bx =+当x 取值xi (i=1,2,…,n )时,Y 的观察值为yi ,差^(1,2,...,)i y y i n -=刻画了实际观察值yi 与回归直线上相应点纵坐标之间的偏高程度,我们希望这n 个离差构成的总离差越小越好,才能使所找的直线很贴近已知点。