第58讲 统计初步(解析版)

第58讲 统计初步(解析版)
第58讲 统计初步(解析版)

第58讲:统计初步

一、课程标准

1、了解抽样方法

2、频率分布直方图的应用

3、用样本的数字特征估计总体的数字特征

二、基础知识回顾

一、抽样方法

1. 简单随机抽样

(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.

(2)最常用的简单随机抽样的方法:抽签法和随机数表法.

2. 分层抽样

(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.

(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.

3. 两种抽样方法的区别与联系:

1. 总体分布

(1)频率分布表:当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布,我们把反映总体频率分布的表格称为频率分布表.

(2)频率分布直方图:利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图.

(3)频率分布折线图:如果将频率分布直方图中,各相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,我们称这条折线为本组数据的频率分布折线图.频率分布折线图的优点是它反映了数据的变化趋势.

4. 总体特征数的估计

(1)中位数:在频率分布直方图中,中位数左边和右边的直方图面积应该相等,由此可以估计中位数的值.

(2)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标.

(3)平均数及其估计:平均数是直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.

平均数x =1

n _(x 1+x 2+…+x n ).

(4)方差与标准差 标准差s =

1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].、方差s 2=1n

[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 5、频率分布直方图中的常见结论

(1)众数的估计值为最高矩形的中点对应的横坐标.

(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 平均数、方差的公式推广

(1)若数据x 1,x 2,…,x n 的平均数为x ,则mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a . (2)若数据x 1,x 2,…,x n 的方差为s 2,则数据ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2.

三、自主热身、归纳总结

1、某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )

A. 33,34,33

B. 25,56,19

C. 20,40,30

D. 30,50,20 【答案】 B

【解析】 因为125∶280∶95=25∶56∶19,所以抽取人数分别为25,56,19. 2、一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )

A. 4

B. 8

C. 12

D. 16 【答案】 B

【解析】 设频数为n ,则n 32=0.25,所以n =32×1

4

=8.

3、已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层随机抽样的方法抽取2%的学生进行调查,则样本量和抽取的高中生近视人数分别为( )

A.200,20 B.100,20

C.200,10 D.100,10

【答案】A

【解析】该地区中小学生总人数为3 500+2 000+4 500=10 000(人),则样本量为10 000×2%=200(人),其中抽取的高中生近视人数为2 000×2%×50%=20(人).故选A.

4、(多选)(2019·济南市模拟考试)随着我国经济实力的不断提升,居民收入也在不断增加.某家庭2018年全年的收入与2014年全年的收入相比增加了一倍,实现翻番.同时该家庭的消费结构随之也发生了变化,现统计了该家庭这两年不同品类的消费额占全年总收入的比例,得到了如下折线图:

则下列结论中错误的是()

A.该家庭2018年食品的消费额是2014年食品的消费额的一半

B.该家庭2018年教育医疗的消费额与2014年教育医疗的消费额相当

C.该家庭2018年休闲旅游的消费额是2014年休闲旅游的消费额的五倍

D.该家庭2018年生活用品的消费额是2014年生活用品的消费额的两倍

【答案】ABD

【解析】设该家庭2014年全年收入为a,则2018年全年收入为2a.对于A,2018年食品消费额为0.2×2a =0.4a,2014年食品消费额为0.4a,故两者相等,A不正确.对于B,2018年教育医疗消费额为0.2×2a=0.4a,2014年教育医疗消费额为0.2a,故B不正确.对于C,2018年休闲旅游消费额为0.25×2a=0.5a,2014年休闲旅游消费额为0.1a,故C正确.对于D,2018年生活用品的消费额为0.3×2a=0.6a,2014年生活用品的消费额为0.15a,故D不正确.

8,10内的频数为____.5、有一个容量为200的样本,其频率分布直方图如图所示,据图知,样本数据在[)

第5题图

【答案】76

【解析】根据频率分布直方图,样本数据不在[8,10)内的频率为(0.02+0.05+0.09+0.15)×2=0.62;∴样本数据在[8,10)内的频率为1-0.62=0.38;∴样本数据在[8,10)内的频数为0.38×200=76,故答案为

76.

6、甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如下表所示,从这四个人中选择一人参加奥运会射击项目比赛,最佳人选是____.

【答案】丙

【解析】乙与丙的平均成绩好于甲与丁的平均成绩,而且丙的方差小于乙的方差,说明丙的成绩比乙稳定,应派丙参加比赛.

四、例题选讲

考点一抽样方法

例1要考察某种品牌的850颗种子的发芽率,从中抽取50颗种子进行实验,利用随机数表法抽取种子,先将850颗种子按001,002,…,850进行编号,如果从随机数表第3行第6列的数开始向右读,请依次写出最先检验的4颗种子的编号:.

注:下面抽取了随机数表第1行至第5行.

03 47 43 73 8636 96 47 36 6146 98 63 71 62

33 26 16 80 4560 11 14 10 95

97 74 24 67 6242 81 14 57 2042 53 32 37 32

27 07 36 07 5124 51 79 89 73

16 76 62 27 6656 50 26 71 0732 90 79 78 53

13 55 38 58 5988 97 54 14 10

12 56 85 99 2696 96 68 27 3105 03 72 93 15

57 12 10 14 2188 26 49 81 76

55 59 56 35 6438 54 82 46 2231 62 43 09 90

06 18 44 32 5323 83 01 30 30

【答案】227,665,650,267

【解析】从随机数表第3行第6列的数2开始向右读第一个小于850的数字是227,第二个数字是665,第三个数字是650,第四个数字是267,符合题意.

变式1、下列抽取样本的方式属于简单随机抽样的个数为()

①从无限多个个体中抽取100个个体作为样本;

②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;

③从20件玩具中一次性抽取3件进行质量检验;

④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.

A. 0

B. 1

C. 2

D. 3

【答案】 A

【解析】①不是简单随机抽样,因为是从无限多个个体中抽取.②不是简单随机抽样.由于它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.

变式2、(1)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为________.

(2)

①从无限多个个体中抽取100个个体作为样本.

②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.

③从20件玩具中一次性抽取3件进行质量检验.

④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.

【答案】:(1) 01(2) ①②③④

【解析】:(1)由题意知前5个个体的编号为08,02,14,07,01.

(2)①不是简单随机抽样.

②不是简单随机抽样.由于它是放回抽样.

③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.

④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.

变式3、(1)(2019·河南名校联考)《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问各几何?”其意为:“今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱”,则丙应出________钱(所得结果四舍五入,保留整数).

(2)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).

学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a 的值为________. 【答案】:(1)17 (2)30

【解析】(1)按照钱的多少按比例出钱,所以丙应该出钱为180560+350+180×100=18 0001 090≈17.

(2)由分层抽样得1245+15=30

120+a ,解得a =30.

方法总结:简单随机抽样的两种方法 (1)抽签法,抽签法的步骤是:

①将总体中的N 个

个体编号;

②将这N 个号码写在形状、大小相同的号签上; ③将号签放在同一箱中,并搅拌均匀; ④从箱中每次抽取1个号签,连续抽取k 次; ⑤将总体中与抽到的号签的编号一致的k 个个体取出. (2)随机数表法,随机数表法的步骤是: ①将总体的个体编号(每个号码的位数一致); ②在随机数表中任选一个数作为开始;

③从选定的数开始按一定的方向读下去,若得到的号码在编号中,则取出;若得到的号码不在编号中或前面已经取出,则跳过,如此继续下去,直到取满为止;

④根据选定的号码抽取样本. 考点二 总体分布的估计

例2、(2019·南昌市第一次模拟测试)市面上有某品牌A 型和B 型两种节能灯,假定A 型节能灯使用寿命都超过5 000小时.经销商对B 型节能灯使用寿命进行了调查统计,得到如下频率分布直方图:

某商家因原店面需重新装修,需租赁一家新店面进行周转,合约期一年.新店面只需安装该品牌节能灯5支(同种型号)即可正常营业.经了解,A 型20瓦和B 型55瓦的两种节能灯照明效果相当,都适合安装.已知A 型和B 型节能灯每支的价格分别为120元、25元,当地商业电价为0.75元/千瓦时.假定该店面一年

周转期的照明时间为3 600小时,若正常营业期间灯坏了立即购买同型灯管更换.(用频率估计概率)

(1)根据频率分布直方图估算B型节能灯的平均使用寿命;

(2)根据统计知识知,若一支灯管一年内需要更换的概率为p,那么n支灯管估计需要更换np支,若该商家新店面全部安装了B型节能灯,试估计一年内需更换的数量;

(3)若只考虑灯的成本和消耗电费,你认为该商家应选择哪种型号的节能灯,请说明理由.

【解析】:(1)由题图可知,各组中值依次为3 100,3 300,3 500,3 700,对应的频率依次为0.1,0.3,0.4,0.2,故B型节能灯的平均使用寿命为3 100×0.1+3 300×0.3+3 500×0.4+3 700×0.2=3 440(小时).

(2)由题图可知,使用寿命不超过3 600小时的频率为0.8,将频率视为概率,每支灯管需要更换的概率为0.8,故估计一年内5支B型节能灯需更换5×0.8=4(支).

(3)若选择A型节能灯,一年共需花费5×120+3 600×5×20×0.75×10-3=870(元);

若选择B型节能灯,一年共需花费(5+4)×25+3 600×5×55×0.75×10-3=967.5(元).

因为967.5>870,所以该商家应选择A型节能灯.

变式1、某网络营销部门随机抽查了某市200名网友在2019年11月11日的网购金额,所得数据如下表:

已知网购金额不超过3千元与超过3千元的人数比恰为3∶2.

(1)试确定x,y,p,q的值,并补全频率分布直方图(如图);

(2)该营销部门为了了解该市网友的购物体验,从这200名网友中,用分层抽样的方法从网购金额在(1,2]和(4,5]的两个群体中确定5人进行问卷调查,若需从这5人中随机选取2人继续访谈,则此2人来自不同群体的概率是多少?

【解析】:(1)根据题意有????

?

16+24+x +y +16+14=200,16+24+x y +16+14=32

解得?

????

x =80,

y =50,∴p =0.40,q =0.25.

补全频率分布直方图如图所示.

(2)根据题意,抽取网购金额在(1,2]内的人数为 24

24+16

×5=3(人). 抽取网购金额在(4,5]内的人数为

16

24+16

×5=2(人). 故此2人来自不同群体的概率P =C 13C 12C 25=3

5

.

变式2、某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30).根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )

A . 56

B . 60

C . 120

D . 140

【解析】由频率分布直方图知,自习时间不少于22.5小时为后三组,有200×(0.16+0.08+0.04)×2.5=140(人).故选D .

变式3、某公司为了解用户对其产品的满意度,从A ,B 两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A 地区用户满意度评分的频率分布直方图和B 地区用户满意度评分的频数分布表.

A地区用户满意度评分的频率分布直方图

图①

B地区用户满意度评分的频数分布表

(1)

及分散程度(不要求计算出具体值,给出结论即可).

B地区用户满意度评分的频率分布直方图

图②

(2)根据用户满意度评分,将用户的满意度分为三个等级:

【解析】:(1)如图所示.

通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.

(2)A地区用户的满意度等级为不满意的概率大.

记C A 表示事件:“A 地区用户的满意度等级为不满意”;C B 表示事件:“B 地区用户的满意度等级为不满意”. 由直方图得P (C A )的估计值为(0.01+0.02+0.03)×10=0.6,P (C B )的估计值为(0.005+0.02)×10=0.25.

所以A 地区用户的满意度等级为不满意的概率大.

方法总结: 本题主要考查频率分布直方图,是一道基础题目.图表题作为一道应用题,主要考查考生的视图、用图能力,以及应用数学解决实际问题的能力.频率分布直方图的两个要点:

(1)各个小矩形的面积之和等于1,各个小矩形的面积为各组的频率,小矩形的高为频率

组距.

(2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数.

五、优化提升与真题演练

1、(2020年高考天津)从一批零件中抽取80个,测量其直径(单位:mm ),将所得数据分为9组:

[5.31,5.33),[5.33,5.35),,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的

零件中,直径落在区间[5.43,5.47)内的个数为( )

A .10

B .18

C .20

D .36

【答案】B

【解析】根据直方图,直径落在区间[)5.43,5.47之间的零件频率为:()6.25 5.000.020.225+?=, 则区间[)5.43,5.47内零件的个数为:800.22518?=. 故选:B.

2、(2019年高考全国Ⅲ卷理数)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7

D .0.8

【答案】C

【解析】由题意得,阅读过《西游记》的学生人数为90-80+60=70,则其与该校学生人数之比为70÷100=0.7.故选C .

3、(2019年高考全国Ⅱ卷理数)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( ) A .中位数 B .平均数 C .方差

D .极差 【答案】A

【解析】设9位评委评分按从小到大排列为1234

89x x x x x x <<<<<.

则①原始中位数为5x ,去掉最低分1x ,最高分9x 后剩余2348x x x x <<<<,中位数仍为5x ,

A 正确; ②原始平均数1234891

()9x x x x x x x =

<<<<<,后来平均数234

81

()7

x x x x x '=<<<,平均数

受极端值影响较大,∴x 与x '不一定相同,B 不正确; ③2

222111

[()()()]9q S x x x x x x =

-+-++-,22222381

[()()()]7

s x x x x x x '=-'+-'+

+-',由②

易知,C 不正确;

④原极差91x x =-,后来极差82x x =-,显然极差变小,D 不正确.故选A .

4、(2020年高考江苏)已知一组数据4,2,3,5,6a a -的平均数为4,则a 的值是 . 【答案】2

【解析】∵数据4,2,3,5,6a a -的平均数为4 ∴4235620a a ++-++=,即2a =. 故答案为:2.

5、(2019年高考江苏卷)已知一组数据6,7,8,8,9,10,则该组数据的方差是______________.

【答案】

5

3

【解析】由题意,该组数据的平均数为

6788910

86

+++++=,

所以该组数据的方差是2

2

2

2

2

2

15[(68)(78)(88)(88)(98)(108)]6

3

-+-+-+-+-+-=

. 6、(2019年高考全国Ⅱ卷理数)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10

个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为______________. 【答案】0.98

【分析】本题考查通过统计数据进行概率的估计,采取估算法,利用概率思想解题.

【解析】由题意得,经停该高铁站的列车正点数约为100.97200.98100.9939.2?+?+?=,其中高铁个数为10201040++=,所以该站所有高铁平均正点率约为39.2

0.9840

=.

7、(2019年高考全国Ⅲ卷理数)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:

记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;

(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).【答案】(1)a=0.35,b=0.10;(2)甲、乙离子残留百分比的平均值的估计值分别为4.05,6.00.【解析】(1)由已知得0.70=a+0.20+0.15,故a=0.35.

b=1–0.05–0.15–0.70=0.10.

(2)甲离子残留百分比的平均值的估计值为

2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.

乙离子残留百分比的平均值的估计值为

3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.

相关主题
相关文档
最新文档