众数中位数平均数与频率分布直方图的关系
_众数,中位数,平均数与频率分布直方图

谢谢观看! 2020
月均用水量
/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
三 三种数字特征的优缺点
1、众数体现了样本数据的最大集中 点,但它对其它数据信息的忽视使得无 法客观地反映总体特征.如上例中众数是 2.25t,它告诉我们,月均用水量为2.25t的 居民数比月均用水量为其它数值的居民 数多,但它并没有告诉我们多多少.
二 、 众数、中位数、平均数 与频率分布直方图的关系
1、众数在样本数据的频率分布直方图 中,就是最高矩形的中点的横坐标。
例如,在上一节调查的100位居民的月 均用水量的问题中,从这些样本数据的频 率分布直方图可以看出,月均用水量的众 数是2.25t.如图所示:
频率分布直方图如下:
频率 组距
众数(Байду номын сангаас高的矩形的中点)
2200 1500
1100
2000 100 6900
(1)指出这个问题中周工资的众数、中
位数、平均数 (2)这个问题中,工资的平均数能客观
地反映该厂的工资水平吗?为什么?
分析:众数为200,中位数为220,
平均数为300。
因平均数为300,由表格中所列 出的数据可见,只有经理在平均数以 上,其余的人都在平均数以下,故用 平均数不能客观真实地反映该工厂的 工资水平。
3、平均数是频率分布直方图的“重 心”.
是直方图的平衡点. n 个样本数据的平均 数的估计值等于频率分布直方图中每个 小矩形的面积乘以小矩形底边中点的横 坐标之和。 给出.下图显示了居民月均用水量的平 均数: x=2.02
频率分布直方图如下:
频率 组距
平均数
0.50
0.40
0.30
(最全)高中数学概率统计知识点总结

概率与统计一、普通的众数、平均数、中位数及方差1、 众数 :一组数据中,出现次数最多的数。
2、平均数 : ①、常规平均数:xx 1x 2x n②、加权平均数: xx 1 1 x 2 2x nnn12n3、中位数: 从大到小或者从小到大排列,最中间或最中间两个数的平均数 。
4、方差: s 21[( x 1 x) 2 ( x 2 x )2( x nx )2 ]n二、频率直方分布图下的频率1、频率 =小长方形面积: f S y 距 d ;频率 =频数 / 总数2、频率之和 : f 1f 2f n 1 ;同时 S 1 S 2S n1 ;三、频率直方分布图下的众数、平均数、中位数及方差1、众数: 最高小矩形底边的中点。
2、平均数: x x 1 f 1 x 2 f 2 x 3 f 3 x n f nx x 1 S 1 x 2 S 2x 3 S 3x n S n3、中位数: 从左到右或者从右到左累加,面积等于0.5 时 x 的值。
4、方差: s 2( x 1x )2 f 1 ( x 2 x) 2 f 2( x n x) 2 f n四、线性回归直线方程 : ? ? ?bxy an(x ix )( y iy )nx i y i nxy??其中: b i 1i 1,a?ybxnn( x i x )2x i 2nx 2i 1i11、线性回归直线方程必过样本中心( x , y ) ;??0 : 负相关。
2、 b 0 : 正相关; b?3、线性回归直线方程: y? ?bx a?的斜率 b 中,两个公式中分子、分母对应也相等;中间可以推导得到。
五、回归分析?i1、残差 : ?iy i?i 越小越好;ey (残差 =真实值—预报值)。
分析:e2、残差平方和 :n? )2(y i,i 1y in( y iy )2( y 1 y )2 ( yy )2( yy )2分析:①意义:越小越好;②计算:?i?12?2n?ni 1n ?i )23、拟合度(相关指数) : R 21( yy ,分析:① . R 20,1②. 越大拟合度越高;i 1的常数;ny)2i ( y i1nn4、相关系数 : ri ( x i x )( y i y)x i y i nx y1i 1nx)2 ny) 2 nx) 2 ny )2i 1( x i i ( y i( x i ( y i1i 1i 1分析:① . r[ 1,1]的常数;② . r 0: 正相关; r0: 负相关③. r[0,0.25] ;相关性很弱;r(0.25,0.75) ;相关性一般;r [0.75,1] ;相关性很强;六、独立性检验 x 1 x 21、2×2 列联表 :合计2、独立性检验公式 bc)2y 1 a b a b ①. k 2(an( add )y 2cdc db)(c d )(a c)(b合计a cb dn②.犯错误上界 P 对照表3、独立性检验步骤①.计算观察值n(ad bc) 2k : k;(a b)(c d )(a c)(b d )②.查找临界值 k0:由犯错误概率P,根据上表查找临界值k0;③.下结论: k k0:即犯错误概率不超过P 的前提下认为:, 有 1-P 以上的把握认为:;k k0:即犯错误概率超过P 的前提认为:,没有 1-P 以上的把握认为:;【经典例题】题型 1 与茎叶图的应用例 1( 2014 全国)某市为考核甲、乙两部门的工作情况,学科网随机访问了50 位市民。
用频率分布直方图估计三个特征数

2.02这个中位数的估计值,与样本的中 位数值2.0不一样,你能解释其中的原因吗?
2.02这个中位数的估计值,与样本的中 位数值2.0不一样,这是因为样本数据的 频率分布直方图,只是直观地表明分布 的形状,但是从直方图本身得不出原始 的数据内容,所以由频率分布直方图得 到的中位数估计值往往与样本的实际 中位数值不一致.
1 ( x1 x 2 x n ) n
数,即 x=
频率 组距
众数在样本数据的频率分布直方图中 就是最高矩形的中点的横坐标。 例如下面是100位居民的月均用水量, 从这些样本数据的频率分布直方图可以 看出,月均用水量的众数是 2.25t
0.5 0.4 0.3 0.2 0.1
O
0.5
1
1.5
3、平均数是频率分布直方图的“重心”.是直方图的 频率 组距 平衡点n 个样本数据的平均数由公式:
1 X= ( x1 x 2 x n ) n
0.5 0.4 0.3
0.2
0.1 O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
上图显示了居民月均用水量的平均数: x=1.973
用样本的数字特征估计总 体的数字特征
一 众数、中位数、平均数的概念
众数:在一组数据中,出现次数最多的 数据叫做这组数据的众数.
中位数:将一组数据按大小依次排列,把处 在最中间位置的一个数据(或最中间两个数 据的平均数)叫做这组数据的中位数.
平均数: 一组数据 x1 , x2 xn 的算术平均
三、 三种数字特征的优缺点 1、众数体现了样本数据的最大集中点,但它对其它数据信息的 忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉 我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民 数多,但它并没有告诉我们多多少. 2、中位数是样本数据所占频率的等分线,它不受少数几个极 端值的影响,这在某些情况下是优点,但它对极端值的不敏感有 时也会成为缺点。如上例中假设有某一用户月均用水量为10t, 那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是 不能忽视的。 3、由于平均数与每一个样本的数据有关,所以任何一个样本数 据的改变都会引起平均数的改变,这是众数、中位数都不具有的 性质。也正因如此 ,与众数、中位数比较起来,平均数可以反映 出更多的关于样本数据全体的信息,但平均数受数据中的极端值 的影响较大,使平均数在估计时可靠性降低。
高中数学必修二统计概率知识点总结

必修第二册第九章 统计知识点总结知识点一:简单随机抽样1. 全面调查和抽样调查2.简单随机抽样的概念放回简单随机抽样不放回简单随机抽样一般地,设一个总体含有N(N 为正整数)个个体,从中逐个抽取n (1≤n<N)个个体作为样本如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本3.抽签法先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.调查方式全面调查(普查)抽样调查定义对每一个调查对象都进行调查的方法,称为全面调查,又称普查根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为 抽样调查相关概念总体:在一个调查中,我们把调查对象的全体称为总体.个体:组成总体的每一个调查对象称为个体样本:把从总体中抽取的那部分个体 称为样本.样本量:样本中包含的个体数称为 样本量4.随机数法(1)定义:先把总体中的个体编号,用随机数工具产生已编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本,重复上述过程,直到抽足样本所需要的个体数.(2)产生随机数的方法:(i)用随机试验生成随机数;(ii)用信息技术生成随机数.5.总体均值和样本均值(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,Y N,则称Y=Y1+Y2+⋯+Y NN =1N∑i=1NY i为总体均值,又称总体平均数.(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数f i(i=1,2,…,k),则总体均值还可以写成加权平均数的形式Y=1N ∑i=1kf i Y i.(3)如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,y n,则称y=y1+y2+⋯+y nn =1n∑i=1ny i为样本均值,又称样本平均数.6.分层随机抽样的相关概念(1)分层随机抽样的定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.(2)比例分配:在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.(3)进行分层随机抽样的相关计算时,常用到的关系①样本容量n总体容量N =该层抽取的个体数该层的个体数;②总体中某两层的个体数之比等于样本中这两层抽取的个体数之比;③样本的平均数和各层的样本平均数的关系:w=mm+n x+nm+ny=MM+Nx+NM+Ny.1.画频率分布直方图的步骤(1)求极差:极差为一组数据中最大值与最小值的差;(2)决定组距与组数:当样本容量不超过100时,常分成5-12组,为方便起见,一般取等长组距,并且组距应力求“取整”;(3)将数据分组;(4)列频率分布表:一般分四列:分组、频数累计、频数、频率.其中频数合计应是样本容量,频率合计是⑥1;.(5)画频率分布直方图:横轴表示分组,纵轴表示频率组距=频率,各小长方形的面积的总和等于1.小长方形的面积=组距×频率组距2.其他统计图表统计图表主要应用扇形图直观描述各部分数据在全部数据中所占的比例条形图和直方图直观描述不同类别或分组数据的频数和频率反映统计对象在不同时间(或其他合适情形)的发展折线图变化情况1.第p百分位数:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.2.计算一组n个数据的第p百分位数的步骤第1步,按从小到大排列原始数据.第2步,计算i=n×p%.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.3.四分位数:第25百分位数,第50百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.知识点四:总体集中趋势的估计1.众数、中位数和平均数的定义(1)众数:一组数据中出现次数最多的数.(2)中位数:一组数据按大小顺序排列后,处于中间位置的数.如果这组数据是偶数个,则取中间两个数据的平均数.(3)平均数:一组数据的和除以数据个数所得到的数.2.众数、中位数、平均数与频率分布直方图的关系(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.(3)众数:众数是最高小矩形底边的中点所对应的数据.2.众数、中位数、平均数与频率分布直方图的关系众数众数是最高小长方形底边的中点所对应的数据,表示样本数据的中心值中位数①在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数的值,但是有偏差;②表示样本数据所占频率的等分线平均数①平均数等于每个小长方形的面积乘小长方形底边中点的横坐标之和;②平均数是频率分布直方图的重心,是频率分布直方图的平衡点1.一组数据x1,x2,…,x n的方差和标准差数据x1,x2,…,x n的方差为1n ∑i=1n(x i-x)2=1n∑i=1nx i2-x2,标准差为√1n∑i=1n(x i-x)2.2.总体方差和总体标准差(1)总体方差和标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,Y N,总体的平均数为Y,则称S2= 1N ∑i=1N(Y i-Y)2为总体方差,S=√S2为总体标准差.(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数为f i(i=1,2,…,k),则总体方差为S2= 1N ∑i=1kf i(Y i-Y)2.3.样本方差和样本标准差如果一个样本中个体的变量值分别为y1,y2,…,y n,样本平均数为y,则称s2= 1n ∑i=1n(y i-y)2为样本方差,s=√s2为样本标准差.4.标准差的意义标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.5.分层随机抽样的方差设样本容量为n,平均数为x,其中两层的个体数量分别为n1,n2,两层的平均数分别为x1,x2,方差分别为s12,s22,则这个样本的方差为s2=n1n [s12+(x1-x)2]+n2n[s22+(x2-x)2].必修第二册第十章概率知识点总结知识点一:有限样本空间与随机事件1.随机试验的概念和特点(1)随机试验:我们把对随机现象的实现和对它的观察称为随机试验,简称试验,常用字母E表示.(2)随机试验的特点:(i)试验可以在相同条件下重复进行;(ii)试验的所有可能结果是明确可知的,并且不止一个;(iii)每次试验总是恰好出现这些可能结果中的一个,但事先不能确定出现哪一个结果.2.样本点和样本空间定义字母表示样本点我们把随机试验E的每个可能的基本结果称为样本点用ω表示样本点样本空间全体样本点的集合称为试验E的样本空间用Ω表示样本空间有限样本空间如果一个随机试验有n个可能结果ω1,ω2,…,ωn,则称样本空间Ω={ω1,ω2,…,ωn}为有限样本空间Ω={ω1,ω2,…,ωn}3.事件的类型我们将样本空间Ω的子集称为随机事件,简称事件,并把只包含一个样本点的事件称为基本事件.随机事件一般用大写字母A,B,C,…表示.在每次试验中,当且仅当A中某个样本点出现时,称为事件A发生.Ω作为自身的子集,包含了所有的样本点,在每次试验中总有一个样本点发生,所以Ω总会发生,我们称Ω为必然事件.而空集⌀不包含任何样本点,在每次试验中都不会发生,我们称⌀为不可能事件.必然事件与不可能事件不具有随机性.为了方便统一处理,将必然事件和不可能事件作为随机事件的两个极端情形.这样,每个事件都是样本空间Ω的一个子集.知识点二:事件的关系和运算1.包含关系定义一般地,若事件A 发生,则事件B 一定发生,我们就称事件B 包含事件A(或事件A 包含于事件B)含义 A 发生导致B 发生 符号表示B ⊇A(或A ⊆B)图形表示特殊情形如果事件B 包含事件A,事件A 也包含事件B,即B ⊇A 且A ⊇B,则称事件A 与事件B 相等,记作A=B2.并事件(和事件)定义一般地,事件A 与事件B 至少有一个发生,这样的一个事件中的样本点或者在事件A 中,或者在事件B 中,我们称这个事件为事件A 与事件B 的并事件(或 和事件)含义 A 与B 至少有一个发生符号表示A ∪B(或A+B)图形表示3.交事件(积事件)定义一般地,事件A 与事件B 同时发生,这样的一个事件中的样本点既在事件A中,也在事件B 中,我们称这样的一个事件为事件A 与事件B 的交事件(或积 事件)含义 A 与B 同时发生 符号表示A ∩B(或AB)图形表示4.互斥(互不相容)一般地,如果事件A与事件B不能同时发生,也就是说A∩B是一个不可能定义事件,即A∩B=⌀,则称事件A与事件B互斥(或互不相容)含义A与B不能同时发生符号表示A∩B=⌀图形表示5.互为对立一般地,如果事件A与事件B在任何一次试验中有且仅有一个发生,即A∪B=定义Ω,且A∩B=⌀,那么称事件A与事件B互为对立.事件A的对立事件记为A 含义A与B有且仅有一个发生符号表示A∩B=⌀,且A∪B=Ω图形表示6.清楚随机事件的运算与集合运算的对应关系有助于解决此类问题.符号事件的运算集合的运算A 随机事件集合A A的对立事件A的补集AB 事件A与B的交事件集合A与B的交集A∪B 事件A与B的并事件集合A与B的并集知识点三:古典概型1.古典概型的定义试验具有如下共同特征:(1)有限性:样本空间的样本点只有有限个;(2)等可能性:每个样本点发生的可能性相等.我们将具有以上两个特征的试验称为古典概型试验,其数学模型称为古典概率模型,简称古典概型.2.古典概型的概率计算公式一般地,设试验E是古典概型,样本空间Ω包含n个样本点,事件A包含其中的k个样本点,则定义事件A的概率P(A)= kn =n(A)n(Ω),其中n(A)和n(Ω)分别表示事件A和样本空间Ω包含的样本点个数.知识点四:概率的基本性质1.概率的基本性质性质1 对任意的事件A,都有P(A)≥0.性质2 必然事件的概率为1,不可能事件的概率为0,即P(Ω)=1,P(⌀)=0.性质3 如果事件A与事件B互斥,那么P(A∪B)=P(A)+P(B).性质4 如果事件A与事件B互为对立事件,那么P(B)=1-P(A),P(A)=1-P(B).性质5 如果A⊆B,那么P(A)≤P(B).性质6 设A,B是一个随机试验中的两个事件,我们有P(A∪B)=P(A)+P(B)-P(A∩B).知识点五:事件的相互独立性1.相互独立事件的定义:对任意两个事件A与B,如果P(AB)=P(A)P(B)成立,则称事件A 与事件B相互独立,简称为独立.2.相互独立事件的性质:当事件A,B相互独立时,则事件A与事件B相互独立,事件A与事件B相互独立,事件A与事件B相互独立.【提示】公式P(AB)=P(A)P(B)可以推广到一般情形:如果事件A1,A2,…,A n相互独立,那么这n个事件同时发生的概率等于每个事件发生的概率的积,即P(A1A2·…·A n)=P(A1)P(A2)·…·P(A n).3. 两个事件是否相互独立的判断方法(1)直接法:由事件本身的性质直接判定两个事件发生是否相互影响.(2)公式法:若P(AB)=P(A)P(B),则事件A,B为相互独立事件.4.求相互独立事件同时发生的概率的步骤:①首先确定各事件之间是相互独立的.②求出每个事件的概率,再求积.5.事件间的独立性关系已知两个事件A,B相互独立,它们的概率分别为P(A),P(B),则有事件表示概率A,B同时发生AB P(A)P(B)A,B都不发生A B P(A)P(B)A,B恰有一个发生(A B)∪(A B) P(A)P(B)+P(A)P(B)A,B中至少有一个发生(A B)∪(A B)∪(AB) P(A)P(B)+P(A)P(B)+P(A)P(B)A,B中至多有一个发生(A B)∪(A B)∪(A B) P(A)P(B)+P(A)P(B)+P(A)P(B)。
经典:众数、中位数、平均数与频率分布直方图的关系

分布直方图如图3,则这20名工人中一天生产
该产品 数量在
的中位 数.
3、平均数是频率分布直方图的“重心”.
是直方图的平衡点. n 个样本数据的平均数由 公式:
X= n 1(x1x2xn)
假设每组数据分别为〔a1, b1)、 〔a2, b2)、 … … 〔ak, bk)时, 且每组数据相应的 频率分别为f1、 f2 、 …… fk;那么样本的平 均数(或总体的数学期望)由下列公式计算即 可。
1002000.102003000.153004000.40
2
2
2
4005000.205006000.15151409082.5365.
2
2
我 们 估 计 总 体 生子产元的件电的 寿 命 的
期 望 值 ( 总 体 均36值5. ) 为
思考:从样本数据可知,所求得该样本的众 数、中位数和平均数,这与我们从样本频率 分布直方图得出的结论有偏差,你能解释一 下原因吗?
频数
20 30 80 40 30 200
频率
0.10 0.15 0.40 0.20
0.15 1
累积频率 0.10 0.25 0.65 0.85 1
0 100 200300400 500 600 寿命(h)
总体分布的估计
(3)由频率分布表 出可 ,以 寿看 命 10在 h0~400
的电子元件出现 为的 :0.6频 5,率 所以我们估计电子
元件寿命 10在 h0~40h0的概率:0为 .65.
( 4) .由 频 率 分 布 表 命可 在 40知 h0以, 上寿 的 电 子
元 件 出 现 的 :0.2频 00率 .15为 0.3, 5 故 我 们
众数 中位数 平均数与频率分布直方图的关系

O
0.5
1
1.5
2
2.5
3
3.5
4
4.5
月平均用水量(t)
例题分析:月均用水量的众数是2.25t.如图所示:(2+2.5)/2=2.25
2、从频率分布直方图中估计中位数
(中位数是样本数据所占频率的等分线。)
• 当最高矩形的数据组为〔a, b) 时, 设中位 数为(a+X),根据中位数的定义得知, 中位 数左边立方图的小矩形面积为0.5, 列方程 得: • 当最高矩形的数据组之前所有小矩形的面 积之和为fm,
用样本数字特征估计总体数字特征
众数、中位数、平均数与频率分布直方 图的关系
二 、 众数、中位数、平均数 与频率分布直方图的关系
1、众数在样本数据的频率分布直方图中, 就是最高矩形的中点的横坐标。 当最高矩形的数据组为〔a, b) 时, 那 么(a+b)/2就是众数。
频率 组距
0.5 0.4 0.3 0.2 0.1
• xh+fm=0.5求解X, 那么a+X即为中位数。 • h=最高矩形的高
思考题:如何从频率分布直方图中估计中位数? 频率/组距
0.50 0.44 0.40 0.30 0.16 0.20 0.08 0.10 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x
中位数左边立方图的小矩形面积为0.5 月均用水量 /t 0~2的小矩形面积之和为: 0.5×(0.08+0.16+0.30+0.44)=0.49 0.5-0.49=0.01 0.01/0.5=0.02 如图在直线t=2.02之前所有小矩形的面积为0.5 所以该样本的中位数为2.02
思考:从样本数据可知,所求得该样本的众 数、中位数和平均数,这与我们从样本频率 分布直方图得出的结论有偏差,你能解释一 下原因吗? 频率分布直方图损失了一些样本数据,得 到的是一个估计值,且所得估值与数据分组 有关. 注:在只有样本频率分布直方图的情况下,我 们可以按上述方法估计众数、中位数和平均 数,并由此估计总体特征.
222用样本的数字特征估计总体的数字特征(2)方差标准差讲解

性质归纳:kan b的平均数和方差:
已知a1,a2,,an的平均数是3,方差是2. 则a1 b,a2 b,,an b的平均数是3 b, 方差是2. ka1,ka2,,kan的平均数是3k,方差是2k 2.
标准差是样本平均数的一种平均距离,一般用s表示.
所谓“平均距离”,其含义可作如下理解:
假设样本数据是x1,x2,...xn ,x 表示这组数据的平均数,xi到 x
的距离是
-
xi - x (i = 1,2,… ,n).
, :
-
于是
样本数据x1,
x2,
x
到
n
x
的“平均距离”是
x1 x x2 x xn x
2.2.2用样本的数字特征估计总体 的数字特征(2) 方差、标准差
学习目标 1.明确标准差、方差等数字特征的意义,深刻 体会它们所反映的样本特征。 2.会用样本的数字特征估计总体的的数字特征, 初步体会样本的数字特征的随机性
复习回顾
一.什么是一组数据的众数、中位数及平均数?
众数:一组数据中出现次数最多的数据。
[解析] (1)甲组成绩的众数为 90 分,乙组成绩的众数为
70 分,从成绩的众数比较看,甲组成绩好些.
(2)s
2
甲
=
1 2+5+10+13+14+6
×[2×(50
-
80)2
+
5×(60
- 80)2 + 10×(70 - 80)2 + 13×(80 - 80)2 + 14×(90 - 80)2 +
A.众数 B.平均数
众数、中位数、平均数(1)标准差、方差

好;
(4)乙队很少不失球.
例题分析
例1 画出下列四组样本数据的条形图, 说明他们的异同点.
(1) 5,5,5,5,5,5,5,5,5; (2) 4,4,4,5,5,5,6,6,6;
频率
x5
1.0 0.8
s0
0.6
0.4
0.2
O 12345678
(1)
频率 x 5
1.0 0.8
s 0.82
0.6
0.4
4,x,7,14,中位数为5,则这组数据的平均数和
方差分别为
( A)
A.5,24 2 3
B.5,24 1 3
C.4,25 1
D.4,25 2
3
3
解析 ∵中位数为5,∴5= 4 x ,∴x=6.
2
x104671 45,
6
s2= 1 [(5+1)2+(5-0)2+(5-4)2+(5-6)2+
6
(5-7)2+(5-14)2]=24 2 . 3
0.000 4
三种数字特征的优缺点
1、众数体现了样本数据的最大集中点,但它对其它 数据信息的忽视使得无法客观地反映总体特征.
2、中位数它不受少数几个极端值的影响,这在某些 情况下是优点,但它对极端值的不敏感有时也会成为 缺点。
3、由于平均数与每一个样本的数据有关,所以任何 一个样本数据的改变都会引起平均数的改变,这是众 数、中位数都不具有的性质。也正因如此 ,与众数、 中位数比较起来,平均数可以反映出更多的关于样本 数据全体的信息,但平均数受数据中的极端值的影响 较大,使平均数在估计时可靠性降低。
频率 组距
0.5 0.4 0.3 0.2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由频率分布直方图估计样本平 均数(或总体数学期望)公式:
X =( a1+b1)/2* f1+ (a2+b2)/2* f2+ … … (ak+bk)/2* fk (其中每组数据的频率还可以由频率直方图的面积计算而得,即组距乘以频率/组距。)
练习.(广东11变式题2)为了调查某厂工人生产 某种产品的能力,随机抽查 了20位工人某天生 产该产品的数量.产品数量的分组区间为 45,55, 55,65 ,65,75 , 75,85 , 85,95 由此得到频率 分布直方图如图3,则这20名工人中一天生产 该产品 数量在 的平均 数 .
二 、 众数、中位数、平均数 与频率分布直方图的关系
(在只有频率分布直方图的情况下,也可以估计总体特征,而且直方图比较直观 便于形象地进行分析。)
1、众数在样本数据的频率分布直方图中, 就是最高矩形的中点的横坐标。 当最高矩形的数据组为〔a, b) 时, 那 么(a+b)/2就是众数。
频率 组距
一 众数、中位数、平均数的概念
众数、中位数、平均数都是描述一组 数据的集中趋势的特征数,只是描述的角 度不同,其中以平均数的应用最为广泛. 众数:在一组数据中,出现次数最多 的数据叫做这组数据的众数.
中位数:将一组数据按大小依次排列, 把处在最中间位置的一个数据(或最中 间两个数据的平均数)叫做这组数据的 中位数.
(5)估计总体的数学期望.
总体分布的估计
寿命 100~200 200~300 300~400 400~500 500~600 合计
频率/组距
频数 20 3Βιβλιοθήκη 80 40 30 200频率 0.10 0.15 0.40 0.20 0.15 1
累积频率 0.10 0.25 0.65 0.85 1
0
100 200 300 400 500 600 寿命(h)
3、平均数是频率分布直方图的“重心”.
是直方图的平衡点. n 个样本数据的平均数由 公式:
X=
1 ( x1 x 2 x n ) n
假设每组数据分别为〔a1, b1)、 〔a2, b2)、 … … 〔ak, bk)时, 且每组数据相应的 频率分别为f1、 f2 、 …… fk;那么样本的平 均数(或总体的数学期望)由下列公式计算即 可。
0.5 0.4 0.3 0.2 0.1
O
0.5
1
1.5
2
2.5
3
3.5
4
4.5
月平均用水量(t)
例题分析:月均用水量的众数是2.25t.如图所示:(2+2.5)/2=2.25
2、从频率分布直方图中估计中位数
(中位数是样本数据所占频率的等分线。)
• 当最高矩形的数据组为〔a, b) 时, 设中位 数为(a+X),根据中位数的定义得知, 中位 数左边立方图的小矩形面积为0.5, 列方程 得: • 当最高矩形的数据组之前所有小矩形的面 积之和为fm;(频率直方图的面积计算,即组距乘以频率/组距。) • x*最高矩形的(频率/组距)+ fm=0.5
总体分布的估计
(3) 由 频 率 分 布 表 可 以 出 看,寿命在 100h ~ 400 的电子元件出现的频为 率 : 0.65, 所 以 我 们 估 计 电 子 元件寿命在 100h ~ 400h的 概 率 为 : 0.65.
( 4 ) .由频率分布表可知,寿 命在400h以上的电子 元件出现的频率为: 0.20 0.15 0.35 ,故我们 估计电子元件寿命在 400h以上的概率为: 0.35.
练习.(广东11变式题1)为了调查某厂工人生产 某种产品的能力,随机抽查 了20位工人某天生 产该产品的数量.产品数量的分组区间为 45,55, 55,65 ,65,75 , 75,85 , 85,95 由此得到频率 分布直方图如图3,则这20名工人中一天生产 该产品 数量在 的中位 数 .
思考:从样本数据可知,所求得该样本的众 数、中位数和平均数,这与我们从样本频率 分布直方图得出的结论有偏差,你能解释一 下原因吗? 频率分布直方图损失了一些样本数据,得 到的是一个估计值,且所得估值与数据分组 有关. 注:在只有样本频率分布直方图的情况下,我 们可以按上述方法估计众数、中位数和平均 数,并由此估计总体特征.
• 求解X, 那么a+X即为中位数。
思考题:如何从频率分布直方图中估计中位数? 频率/组距
0.50 0.44 0.40 0.30 0.16 0.20 0.08 0.10 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
中位数左边立方图的小矩形面积为0.5 月均用水量 /t 0~2的小矩形面积之和为: 0.5×(0.08+0.16+0.30+0.44)=0.49 0.5-0.49=0.01 0.01/0.5=0.02 如图在直线t=2.02之前所有小矩形的面积为0.5 所以该样本的中位数为2.02
平均数: 一组数据的算术平均数,即
x=
1 ( x1 x 2 x n ) n
1、 平均数 :由数据及频率计算平均数,即 x = x1f1+x2f2+……xkfk (其中fk是xk的频率。) 2、加权平均数 :由数据及其权数和样本容量计算平均 数 ,即 x = (x1n1+x2n2+……xknk)/n (其中nk是xk的权数, n为样本容量, 且n1+n2 +……nk=n. ) 3、 已知xn的平均数为x, 则kxn+b的平均数为kx+b。
(5).样本的期望值为: 100 200 200 300 300 400 0.10 0.15 0.40 2 2 2 400 500 500 600 0.20 0.15 15 140 90 82.5 365. 2 2 我们估计总体生产的电 子元件的寿命的 期望值(总体均值)为 365.
总体分布的估计
练习:对某电子元件进行寿命追踪调查,情况如下: 寿命 个数 100~200 20 200~300 30 300~400 400~500 80 40 500~600 30
(1)列出频率分布表; (2)画出频率分布直方图; (3)估计电子元件寿命在100h~400h以内的概率;
(4)估计电子元件寿命在400h以上的概率;