第6章统计学初步知识点清单-高一上学期数学湘教版
高中数学第六章统计学初步章末复习与总结课件湘教版必修第一册

(2)因为抽样比为84000=210,故各层中依次抽取的人数分别是12600=8,32200=16, 22000=10,12200=6.
[答案] (1)B (2)D
二、数学运算
数学运算是解决数学问题的基本手段,是计算机解决问题的基础.在本章中,
数学运算主要体现在计算百分位数、平均数、中位数、方差和标准差中.
(2)因为0.000 2×500=0.1,0.000 4×500=0.2,0.000 5×500=0.25,0.1+0.2 =0.3<0.5,0.1+0.2+0.25=0.55>0.5,所以中位数在区间[3 500,4 000)内,
所以样本数据的中位数是 3 500+0.5-(0.000.10+5 0.2)=3 900(元). (3)样本平均数为(2 750×0.000 2+3 250×0.000 4+3 750×0.000 5+4 250×0.000 5+4 750×0.000 3+5 250×0.000 1)×500=3 900(元).
章末复习与总结
一、数学抽象 学生能更好地理解数学概念、命题、方法和体系,能通过抽象、概括去认识、
理解、把握事物的数学本质,能逐渐养成一般性思考问题的习惯.在本章中,数学 抽象主要体现在随机抽样中.
随机抽样
[例1] (1)问题:①某小区有800户家庭,其中高收入家庭200户,中等收入家
庭480户,低收入家庭120户,为了了解有关家用轿车购买力的某个指标,要从中抽
湘教版高中数学必修第一册课后习题 第6章 统计学初步 6.4.3 用频率分布直方图估计总体分布

6.4.3 用频率分布直方图估计总体分布必备知识基础练1.某学校为了调查学生在课外读物方面的支出情况,抽取了一个容量为n 的样本,其频率分布直方图如图所示,其中支出在[20,40)(单位:元)的同学有34人,则n的值为( )A.900B.1 000C.90D.1002.一个样本的容量为72,分成5组,已知第一、五组的频数都为8,第二、四组的频率都为2,则第三组的频数为( )9A.16B.20C.24D.363.(多选题)某大学生暑假到工厂参加生产劳动,生产了100件产品,质检人员测量其长度(单位:厘米),将所得数据分成6组:[90,91),[91,92),[92,93),[93,94),[94,95),[95,96],得到如下所示的频率分布直方图,则对这100件产品,下列说法中正确的是( )A.b=0.25B.长度落在区间[93,94)内的个数为35C.长度的平均数为94D.长度的中位数一定落在区间[93,94)内4.(甘肃兰州高三模拟)1月1日,“学习强国”学习平台在全国上线,某单位组织全体党员登录学习统计学习积分得到的频率分布直方图如图所示.若学习积分在[1,1.5)(单位:万分)的人数是32人,则该单位共有名党员,若学习积分超过2万分的党员可获得“学习达人”称号,则该单位有名党员能获得该称号.关键能力提升练5.一个样本容量为50的样本数据分组如下:[10,20),[20,30),[30,40),[40,50),[50,60],其中样本数据在[10,20)和[40,50)内的频率之和为0.7,[20,30),[30,40)对应的频数分别为4,5,则样本数据在[50,60]内的频数为( )A.4B.6C.11D.216.(多选题)在某次高中学科竞赛中,4 000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中的数据用该组区间中点值为代表,则下列说法中正确的是( )A.成绩在[70,80)分的考生人数最多B.不及格的考生人数为1 000C.考生竞赛成绩的平均分约为70.5分D.考生竞赛成绩的中位数为75分7.(多选题)某学校组织学生参加数学测试,某班成绩的频率分布直方图如图,数据的分组依次为[60,70),[70,80),[80,90),[90,100].若不低于80分的人数是35人,且同一组中的数据用该组区间的中点值代表,则下列说法中正确的是( )A.该班的学生人数是50B.成绩在[80,90)的学生人数是12C.估计该班成绩的众数是95分D.估计该班成绩的方差为1008.为了了解某校学生的体重情况,采用随机抽样的方法调查.将样本体重数据整理后,画出了频率分布直方图如图所示.已知图中从左到右前三个小长方形面积之比为1∶2∶3,第二小组频数为12,则全校共抽取人数为.学科素养创新练9.(多选题)如图,海水养殖厂进行某水产品的新旧网箱养殖方法产量对比,收获时各随机抽取了100个网箱,测量各箱水产品产量(单位:kg),其频率分布直方图如图所示.旧养殖法新养殖法根据频率分布直方图,下列说法正确的是( )A.箱产量的方差的估计值B.箱产量中位数的估计值C.箱产量平均数的估计值D.箱频率最高组总产量估计值的两倍答案:1.D 由题意,支出在[20,40)(单位:元)的同学有34人.由频率分布直方图可知,支出在[20,40)的同学的频率为(0.01+0.024)×10=0.34,∴n=340.34=100.故选D.2.C 因为频率=频数样本容量,所以第二、四组的频数都为72×29=16.所以第三组的频数为72-2×8-2×16=24.3.ABD 由频率和为1,得(0.35+b+0.15+0.1×2+0.05)×1=1,解得b=0.25,所以A正确.长度落在区间[93,94)内的个数为100×0.35=35,所以B正确.长度的平均数为90.5×0.1+91.5×0.1+92.5×0.25+93.5×0.35+94.5×0.15+95.5×0.05 =93,故C错误.[90,93)内有45个数,[94,96]内有20个数,所以长度的中位数一定落在区间[93,94)内,所以D正确.故选ABD.4.80 8 由频率分布直方图可知,该单位学习积分在[1,1.5)内的党员所占的频率为0.8×0.5=0.4,所以,该单位的党员总人数为320.4=80,该单位学习积分超过2万分的党员所占的频率为0.2×0.5=0.1,因此,该单位能获得“学习达人”称号的党员人数为80×0.1=8.5.B 由题可得,样本数据在[20,30),[30,40),[50,60]内的频率之和为1-0.7=0.3,又[20,30),[30,40)对应的频数分别为4,5,所以样本数据在[50,60]内的频数为50×0.3-4-5=6,故选B.6.ABC 由频率分布直方图可得,成绩在[70,80)内的频率最高,因此考生人数最多,故A正确;由频率分布直方图可得成绩在[40,60)的频率为0.25,因此,不及格的人数为4000×0.25=1000,故B正确;由频率分布直方图可得,平均分为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C正确;因为成绩在[40,70)内的频率为0.45,[70,80)的频率为0.3,所以中位数≈71.67,故D错误,故选ABC.为70+10×0.050.37.ACD 由题图可知a=0.1-0.01-0.02-0.04=0.03,从而不低于80分的频率为(0.03+0.04)×10=0.7,所以该班的学生人数是35=50,所以A选项正0.7确;成绩在[80,90)的频率为0.3,所以成绩在[80,90)的学生人数是50×0.3=15,所以B选项不正确;因为在频率分布直方图中,众数是最高矩=95,所以C选项正确;因为形的中点的横坐标,所以90+1002x=0.1×65+0.2×75+0.3×85+0.4×95=85,所以s2=0.1×(65-85)2+0.2×(75-85)2+0.3×(85-85)2+0.4×(95-85)2=100,所以D选项正确.故选ACD.8.48 由题意,得频率分布直方图左边三组的频率和为1-5×(0.0375+0.0125)=0.75,所以全校抽取的人数为12÷0.75×21+2+3=48. 9.BCD 对于A,旧养殖法的平均数x 旧=27.5×0.06+32.5×0.07+37.5×0.12+42.5×0.17+47.5×0.2+52.5×0.16+57.5×0.1+62.5×0.06+67.5×0.06=47.1,所以s 旧2=(27.5-47.1)2×0.06+(32.5-47.1)2×0.07+(37.5-47.1)2×0.12+(42.5-47.1)2×0.17+(47.5-47.1)2×0.2+(52.5-47.1)2×0.16+(57.5-47.1)2×0.1+(62.5-47.1)2×0.06+(67.5-47.1)2×0.06=107.34.新养殖法的平均数x 新=37.5×0.02+42.5×0.1+47.5×0.22+52.5×0.34+57.5×0.23+62.5×0.05+67.5×0.04=52.35,所以s 新2=(37.5-52.35)2×0.02+(42.5-52.35)2×0.1+(47.5-52.35)2×0.22+(52.5-52.35)2×0.34+(57.5-52.35)2×0.23+(62.5-52.35)2×0.05+(67.5-52.35)2×0.04=39.7275.因为s 新2<s 旧2,所以箱产量的方差的估计值,故A 错误;对于旧养殖法中,左边4个矩形的面积和为(0.012+0.014+0.024+0.034)×5=0.42,并且由于区间[45,50]的频率为0.04×5=0.2,因此旧养殖法的中位数在45和50之间.新养殖法中,左边三个矩形的面积和为(0.004+0.020+0.044)×5=0.34,第4个矩形[50,55]所占的概率为0.068×5=0.34,所以其中位数在50和55之间,因此箱产量中位数的估计值,所以B正确;=47.1,箱产量平均数的估计值高于旧网箱产量平均数的对于③,因为x旧估计值,故C正确;对于D,旧网箱频率最高组总产量估计值为47.5×100×0.2=950,新网箱频率最高组的总产量的估计值为52.5×100×0.34=1785,所以箱频率最高组总产量估计值的两倍,故D正确.。
第6章-6.1-获取数据的途径及统计概念-6.2-抽样高中数学必修第一册湘教版

第二步,将30个号码分别写在30张外形完全一样的纸张上,制成号签;
第三步,将30个号签放入一个不透明的盒子中,充分搅匀,从盒子中不放回地逐个抽
取8个号签,并记录上面的编号;
第四步,从报名的30名学生中找出与这8个编号对应的学生,组成志愿小组.
2
2
数占两个社团总人数的 ,故“剪纸”社团的人数为800 × = 320.
5
5
3
3
因为“剪纸”社团中高二年级人数比例为
=
= ,所以“剪纸”社团中高二
++
2+3+5
10
年级人数为320 ×
3
10
= 96.
50
800
由题意知,抽样比为
=
1
,(抽样比=
16
样本容量
)
总体容量
所以从高二年级“剪纸”社团中抽取的人数为96 ×
(2)旅客上飞机前的安检,事关安全,应采用普查的方式.
(3)了解北京市居民国庆假期期间的出行方式,调查对象太多,应采用抽样调查的
方式.
(4)日光灯管厂要检测一批灯管的使用寿命,检测具有破坏性,应采用抽样调查的
方式.
知识点3 简单随机抽样
例3-4 下面的抽样方法是随机抽样吗?为什么?
(1)统计某路口在某时段的车流量,选取每周周日该时段的车流量作为样本.
1
处在于每名学生被选中的可能性都相等,均为 .
40
例13 为了了解参加某次数学知识竞赛的200名学生的成绩,决定从中抽取20名学生
的试卷进行分析,利用随机数法设计抽样方案.
【解析】第一步,将200名学生进行编号,分别为1,2,3,⋯ ,200.
统计学初步高一知识点

统计学初步高一知识点统计学是一门研究数据收集、数据分析和数据解释的学科。
它在现代社会中扮演着重要的角色,帮助我们更好地理解和应用数据。
在高一阶段,我们将学习统计学的初步知识点,包括数据的收集和整理、数据的呈现和描述统计、概率与统计、以及推断统计等。
让我们一起来了解这些知识点的重要性和应用。
首先,数据的收集和整理是统计学的基础。
在现实生活中,我们经常需要收集各种各样的数据来支持我们的决策和研究。
统计学教会我们如何合理地选择样本、设计问卷、实施调查等。
通过学习统计学,我们将能够了解常见的数据收集方法,例如随机抽样、问卷调查等。
同时,我们也将学习如何从原始数据中提取有用的信息,并进行整理和归纳,以便更好地理解数据。
其次,数据的呈现和描述统计是统计学的重要组成部分。
当我们收集到大量数据后,我们将使用图表、表格和描述性统计指标等方式对数据进行呈现和描述。
例如,柱状图可以帮助我们比较不同组别之间的差异,折线图可以展示变量随时间的趋势。
描述性统计指标,如平均值、中位数、众数、标准差等,可以帮助我们总结和概括数据的特征。
通过这些方法,我们可以更清晰地了解数据的分布、中心趋势和离散程度。
概率与统计是统计学的重要分支,也是自然科学、社会科学等领域的基础。
概率是描述随机现象发生的可能性的数学工具,而统计则是从已有数据中进行推断和预测的方法。
我们将学习概率的基本概念,例如样本空间、事件、概率函数等。
我们也将学习统计的基本方法,包括参数估计、假设检验等。
通过掌握概率与统计的基本原理,我们可以更好地理解随机现象的规律,并能够应用概率与统计的方法解决实际问题。
最后,推断统计是统计学的重要应用之一。
推断统计是指从样本数据中推断总体特征的方法。
当我们无法获取总体数据时,我们可以通过对样本数据的分析来推断总体特征。
例如,我们可以通过抽取一部分学生的考试成绩,推断整个班级学生的平均分。
在推断统计中,我们将学习如何选择合适的抽样方法、计算置信区间和进行假设检验等。
新教材高中数学第6章统计学初步4用样本估计总体课件湘教版必修第一册

4=0.275,在[79.0,83.0]内的频率为0.031 25×4=0.125,
则所有样本国家的国民平均寿命约为61×0.05+65×0.15+69×0.275+73×0.225+77×
0.175+81×0.125=71.8(岁).
因为前三组频率之和为0.05+0.15+0.275=0.475,
2|用样本估计总体的离散程度 1.极差 在统计学中,我们将一组数据中的最大值与最小值统称为极值,将最大值与最小 值之差称为极差,也称全距,用R表示. 2.方差 (1)总体方差 统计上,常采用方差来刻画一组数据波动的大小:若设y1,y2,…,yN是总体的全部个 体,μ是总体均值,则称
⑤ σ2= ( y1 μ)2 ( y2 μ)2 ( yN μ)2
6
s甲2
=
1 6
×[(8-9)2×2+(9-9)2×2+(10-9)2×2]=
2 3
,
s乙2
=
1 6
×[(7-9)2+(9-9)2×3+(10-9)2×2]=1,
因为 x甲= x乙, s甲2 < s乙2 ,
所以甲与乙的平均成绩相同,但甲的发挥比乙稳定.
2|用样本的数字特征估计总体的数字特征
1.一般情况下,如果样本容量恰当,抽样的方法比较合理,那么样本的数字特征能 够反映总体的数字特征.在允许一定误差存在的前提下,可以用样本的数字特征 去估计总体的数字特征. 2.用样本估计总体是研究统计问题的一个基本思想方法,即用样本平均数估计总 体平均数,用样本方差估计总体方差(方差和标准差是描述一个样本和总体的波 动大小的特征数,方差或标准差越小,表示这个样本或总体的波动越小,即越稳定). 一般地,样本容量越大,这种估计就越准确. 3.利用样本估计总体的目的是通过对样本平均数和方差的比较,能对总体进行全 面的分析、比较,进而提出合理的建议和指导意见,对实际应用问题做出正确的 反馈.
湘教版高中同步学案数学必修第一册精品课件 第6章统计学初步 6.4.3 用频率分布直方图估计总体分布

解 (1)设年龄在[25,30)岁的频数为x,年龄在[30,35)岁的频率为y.
(方法
35
1)根据题意可得 =0.20, =y,
100
100
解得x=20,y=0.35,故①处应填20,②处应填0.35.
(方法2)由题意得5+x+35+30+10=100,
0.05+0.20+y+0.30+0.10=1,
的有8人,在[90,100)的有2人,由此推测频率分布直方图中的x=( B )
A.0.04
B.0.03
C.0.02
D.0.01
解析 得分在[50,60)的有8人,在[90,100)的有2人,
8
所以
0.16
=
2
,解得
10
y=0.004.
由频率分布直方图的性质可知(0.004+0.010+0.016+x+0.040)×10=1,
( C )
A.210
B.205
C.200
D.195
解析 由频率分布直方图,得在该次测验中成绩不低于100分的学生的频率
为1-(0.012+0.018+0.030)×10=0.4,则在该次测验中成绩不低于100分的学
生人数为500×0.4=200.故选C.
规律方法
根据频率分布直方图(表)求样本数据在某一区间内的频率就
为增强市民节能环保意识,某市面向全市征召义务宣传志愿者,现从符合条
件的500名志愿者中随机抽取100名志愿者,他们的年龄情况如下表所示:
分组(单位:岁)
[20,25)
湘教版高中同步学案数学必修第一册精品课件 第6章 统计学初步 6.4.2 用样本估计总体的离散程度

探究点一
极差、方差与标准差的计算
【例 1】 (1)已知数据 x1,x2,x3,…,xn 的方差是
1
xn-2
2
的方差是( C )
A.8
B.4
C.2
D.1
1
1
1
8,则数据2x1-2,2x2-2,2x3-2,…,
解析 (方法 1)设 x1,x2,x3,…,xn 的平均数为,则 =
1 + 2 + 3 +…+
用方差的性质得到a2s2.
变式训练1
(1)某校举行了一次知识竞赛,满分10分,有10名同学代表班级参加比赛,已
知学生得分均为整数,比赛结束后统计这10名同学得分情况如折线统计图
所示,则这10名同学成绩的极差为
7
.
解析 由题意知数据3,6,6,6,6,6,7,8,9,10的极差是10-3=7.
(2)某人任意统计5次上班步行到单位所花的时间(单位:分钟)分别为
(2)确定;
(3)应用公式 s
1 2
= [1 +(1
2
− )
2
]+
2
[22 +(2 − )2].
学以致用·随堂检测促达标
1 2 3 4 5 6
1.(多选题)下列说法正确的是( ABC )
A.方差是标准差的平方
B.标准差的大小不会超过极差
C.若一组数据的值大小相等,没有波动变化,则标准差为0
,
因为数据 x1,x2,x3,…,xn 的方差是 8,
( 1 -)2 +( 2 -)2 +( 3 -)2 +…+( -)2
所以
2024-2025学年高一数学必修第一册(湘教版)配套课件第6章-6.1获取数据的途径及统计概念

.
4.下列调查属于抽查的是 ②③④ .(填序号) ①为了了解高一(4)班每个学生的体重情况,对全班同学进行调查; ②为了了解人们对2019年春节联欢晚会的收视情况,对部分电视观众进行调查; ③某乳业公司对其当天生产的液态奶制品进行质量检验; ④医生检验某地居民的血液中血糖指标.
高中数学 必修第一册 湖南教育版
二 总体和样本
1.总体与个体:调查对象的全体称为总体.把总体中的成员叫作个体 2.样本:从总体中抽取的一部分个体称为总体的一个样本,(样本又称观测数据). 3.样本容量:构成样本的个体数目称为样本容量,简称样本量. 4.总体的分布:总体中各类数据的百分比. 5.抽样:从总体中抽取样本的工作称为抽样
提示
在抽样调查时,要尽可能地使得样本分布与总体分布相同.
高中数学 必修第一册 湖南教育版
即时巩固
为了了解一批零件的长度,抽测了其中200个零件的长度,在这个问题中,200个零件的长度是( C )
A.总体
B.个体
C.总体的一个样本 D.样本容量
解析:研究对象是这批零件的长度,总体是这一批零件的长度,个体是每个零件的长度,样本是抽取的200个 零件的长度,样本容量是200.
思考 普查的优点和缺点分别是什么? 普查的优点在于所取得的资料全面、系统;缺点是会耗费大量的人力、物力和财力.
思考 普查与抽查的适用范围各是什么? 普查适用于总体容量不大,或者要获取翔实、系统和全面信息的统计调查;抽查适用于大批量或破坏性 的检验及不必要的普查等的统计调查.
高中数学 必修第一册 湖南教育版
解读 (1)普查的目的是为了详细地了解某些与国计民生有关的基本数据. (2)普查的种类:目前,我国所进行的普查主要有:人口普查、农业普查、工业普查、第三产业普查、基本单位 普查等. (3)抽查的主要优点:迅速、及时、节约人力、物力和财力. (4)抽查是由部分推及全体,其结果具有不确定性.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
新教材湘教版2019版数学必修第一册
第6章知识点清单
目录
第6章统计学初步
6. 1 获取数据的途径及统计概念
6. 2 抽样
6. 3 统计图表
6. 4 用样本估计总体
第6章统计学初步
6. 1 获取数据的途径及统计概念 6. 2 抽样
一、收集数据
1. 从使用者的角度看,统计数据主要来自两条途径:间接来源和直接来源.
2. 间接来源数据又称为二手数据,二手数据来源虽然方便,但从使用者角度可能有诸多不能满足需要的地方. 这时就要通过调查和实验的方法直接获得第一手数据.
二、统计中的几个基本概念
三、简单随机抽样
1. 一般地,设一个总体含有N个个体,从中无放回地抽取n(n≤N)个个体作为样本,如果总体内的每个个体都有相同的可能性被抽到,则把这样的抽样方法称为简单随机抽样.
2. 把简单随机抽样得到的样本称为简单随机样本.
3. 常用的简单随机抽样方法有抽签法和随机数法.
四、分层抽样
1. 当总体由差异明显的几个部分组成时,为了使抽取的样本更好地反映总体的情况,把总体中各个个体按照某种特征或某种规则划分为互不交叉的层,然后对各层按其在总体中所占比例独立进行简单随机抽样,这种抽样方法称为分层抽样.
五、抽签法和随机数法
1. 抽签法的步骤
(1)假设一个总体有N个个体,将它们逐一编号;
(2)制作N个号签(号签可以用小球、纸片等制作),将编号写在号签上;
(3)将号签放在一个容器中,并充分搅拌均匀;
(4)从容器中任意抽取n个号签,记录其编号,就得到一个容量为n的样本.
2. 随机数法的步骤
假设一个总体有N个个体,将它们逐一编号,然后利用抽签法或者借助计算机在1~N中产生n个随机数,把产生的随机数作为抽中的编号,就得到一个容量为n 的样本.
六、分层抽样
6. 3 统计图表
一、基本的统计图
二、频率分布表和频率分布直方图
绘制频率分布表和频率分布直方图的步骤
1. 计算极差(即一组数据中最大值与最小值的差).
2. 确定组距与组数. 为了分组方便,一般取等长组距,并且组距应“取整”,组数应适当,当样本容量不超过100时,常分成5~12组.
极差、组距、组数之间有如下关系:
(1)若极差
组距为整数,则组数=极差
组距
;
(2)若极差
组距不为整数,则组数=[极差
组距
]+1. ([x]表示不大于x的最大整数)
3. 将数据分组.
4. 列频率分布表. 统计各组数据的频数,计算数据落入各组的频率,列出频率分布表.
5. 画频率分布直方图. 根据频率分布表,画出频率分布直方图. 在频率分布直方图中,
纵轴表示频率
组距
,各个小矩形的面积表示相应各组的频率.
三、频率分布折线图
1. 如果将频率分布直方图中的左边和右边各延长一个分组,取各相邻小矩形上底边的中点,用线段顺次连接各点,就得到频率分布折线图.
2. 频率分布直方图
由频率分布直方图进行有关计算时,要掌握下列结论:
(1)每个小矩形的面积=组距×频率
组距
=频率;
(2)各小矩形的面积之和等于1;
(3)频数
样本容量=频率,此关系式的变形为频数
频率
=样本容量,样本容量×频率=频数.
6. 4 用样本估计总体
一、用样本估计总体的集中趋势
1. 平均数
平均数也称为均值,在统计学中具有重要的地位,是刻画一组数据集中趋势最主
要的指标. 若样本容量为n,第i个个体是x i,则样本平均数x=x1+x2+⋯+x n
n
.
在分层抽样中,用N表示总体A的个体总数,若将总体A分为L层,用N i表示
第i层(i=1,2,…,L)的个体总数,则有N=N1+N2+…+N L. 我们称W i=N i
N
(i=1,2,…,L)为第i层的层权. 对i=1,2,…,L,用x i表示从第i层抽出样本的均值. 我们称X=W1x1+W2x2+…+W L x L是总体均值μ的简单估计.
2. 众数、中位数
我们称观测数据中出现次数最多的数是众数,用M0表示.
将一组观测数据按从小到大的顺序排列后,我们称处于中间位置的数是中位数,用M e表示.
二、用样本估计总体的离散程度
1. 极差
在统计学中,我们将一组数据中的最大值与最小值之差称为极差,也称全距,用R表示.
2. 方差
统计上,常采用方差来刻画一组数据波动的大小:若设y1,y2,…,y N是总体的全
部个体,μ是总体均值,则称σ2=(y1−μ)2+(y2−μ)2+⋯+(y N−μ)2
N
为总体方差或方差.
总体方差σ2刻画了总体中的个体向总体均值μ的集中或离散的程度:方差越小,表明个体与均值μ的距离越近,个体向μ集中得越好.
总体方差σ2也刻画了总体中个体的稳定或波动的程度:方差越小,表明个体越整齐,波动越小.
类似地,若从总体中随机抽样,获得n个观测数据x1,x2,…,x n,用x表示这n个数据的均值,则称s2=1
n
[(x1-x)2+(x2-x)2 +…+(x n-x)2]为这n个数据的样本方差,也简称为方差.
样本方差s2刻画了样本数据相对于样本均值x集中或离散的程度.
样本方差依赖于样本的选取,带有随机性. 如果样本是随机抽取的,当样本容量较
大时,样本方差是总体方差的估计.
3. 标准差
标准差是方差的算术平方根.
如果σ2是总体方差,则称σ=√σ2是总体标准差﹔如果s2是样本方差,则称s=√s2是样本标准差.
给定数据x1,x2,…,x n和均值x. 由方差计算公式知道,样本标准差s可以用下面的公
式计算:s=√1
n
[(x1−x)2+(x2−x)2+⋯+(x n−x)2].
三、百分位数
1. 百分位数是位于按一定顺序排列的一组数据中某一个百分位置的数值,以P r表示,其中r是区间[1,99]上的整数. 一个百分位数P r将总体或样本的全部观测值分为两部分,至少有r%的观测值小于或等于它,且至少有(100-r)%的观测值大于或等于它,当r%=50%时,P r即对应中位数.
四、估计总体的数字特征
1. 如果样本容量恰当,抽样的方法比较合理,那么样本的数字特征才能有效地反映总体的数字特征. 在允许一定误差存在的前提下,可以用样本的数字特征去估计总体的数字特征.
2. 用样本估计总体是研究统计问题的一个基本思想方法,即用样本平均数估计总体平均数,用样本方差估计总体方差. 一般地,样本容量越大,这种估计就越准确.
五、频率分布直方图中数据的数字特征
1. 平均数、中位数、众数与频率分布直方图的关系:
(1)众数在频率分布直方图中,就是最高的小矩形中某个(些)点的横坐标.
(2)由于在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此在频率分布直方图中,中位数左侧和右侧的小矩形的面积和应该相等,据此可以估计样本数据的中位数.
(3)平均数是频率分布直方图的“重心”,是频率分布直方图的平衡点. 用频率分布直方图估计平均数时,平均数的估计值等于频率分布直方图中各个小矩形的面积与小矩形底边中点的横坐标(组中值)之积的和.
2. 利用频率分布直方图求得的众数、中位数和平均数均为近似值,往往与由实际数据得出的结果不一致,但这些近似值能粗略估计众数、中位数和平均数.
六、分层抽样中平均数及方差的计算
1. 平均数的计算公式
设样本中不同层的平均数和相应权重分别为x1,x2,…, x n和w1,w2,…,w n,则这个样本的平均数x=w1x1+w2x2+…+w n .
2. 方差的计算公式
设样本中不同层的平均数分别为x1,x2,…, x n,方差分别为s12,s22,…, s n2,相应的权重分别为w1,w2,…,w n,则这个样本的方差为s2=∑n i=1w i[s i2+(x i-x)2], x为
.
总样本数据的平均数. 其中,某层的权重=该层被抽中的个体数
样本容量
七、百分位数
1. 计算一组n个数据的p分位数的一般步骤如下:
第一步,按照从小到大的顺序排列原始数据;
第二步,计算i=np;
第三步,若i不是整数,大于i的最小整数为j,则p分位数为第j项数据;若i是整数,则p分位数为第i项与第(i+1)项数据的平均数.。