高中数学知识点之统计及统计案例分析

第十一编 统计、统计案例

§11.1 抽样方法

1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度

2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③

3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,18

4.(2008·广东理)某校共有学生2 000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为 .

一年级 二年级 三年级 女生 373 x y 男生

377

370

z

答案 16

5.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n = . 答案 80

例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解 抽签法:

第一步:将18名志愿者编号,编号为

1,

2,3, (18)

第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 第五步:所得号码对应的志愿者,就是志愿小组的成员.

基础自测

随机数表法:

第一步:将18名志愿者编号,编号为01,02,03, (18)

第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;

第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.

第四步:找出以上号码对应的志愿者,就是志愿小组的成员.

例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k =

10

000

1=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l .

(6)按编号将l ,100+l ,200+l ,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本.

例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程. 解 应采取分层抽样的方法. 3分

过程如下:

(1)将3万人分为五层,其中一个乡镇为一层.

5分

(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×

15

3

=60(人), 10分 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本.

14分

例4 为了考察某校的教学水平,将抽查这个学校高三年级的部分学生本年度的考试成绩.为了全面反映实际情况,采

取以下三种方式进行抽查(已知该校高三年级共有20个班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生的人数相同):①从高三年级20个班中任意抽取一个班,再从该班中任意抽取20名学生,考察他们的学习成绩;②每个班抽取1人,共计20人,考察这20名学生的成绩;③把学生按成绩分成优秀、良好、普通三个级别,从其中共抽取100名学生进行考察(已知该校高三学生共1 000人,若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人). 根据上面的叙述,试回答下列问题:

(1)上面三种抽取方式的总体、个体、样本分别是什么?每一种抽取方式抽取的样本中,样本容量分别是多少? (2)上面三种抽取方式各自采用的是何种抽取样本的方法? (3)试分别写出上面三种抽取方式各自抽取样本的步骤.

解 (1)这三种抽取方式的总体都是指该校高三全体学生本年度的考试成绩,个体都是指高三年级每个学生本年度的考试成绩.其中第一种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第二种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第三种抽取方式的样本为所抽取的100名学生本年度的考试成绩,样本容量为100. (2)三种抽取方式中,第一种采用的是简单随机抽样法; 第二种采用的是系统抽样法和简单随机抽样法; 第三种采用的是分层抽样法和简单随机抽样法. (3)第一种方式抽样的步骤如下:

第一步,首先用抽签法在这20个班中任意抽取一个班.

第二步,然后从这个班中按学号用随机数表法或抽签法抽取20名学生,考察其考试成绩.

第一步,首先用简单随机抽样法从第一个班中任意抽取一名学生,记其学号为a .

第二步,在其余的19个班中,选取学号为a 的学生,加上第一个班中的一名学生,共计20人. 第三种方式抽样的步骤如下:

第一步,分层,因为若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应该把全体学生分成三个层次.

第二步,确定各个层次抽取的人数.因为样本容量与总体的个体数之比为:100∶1 000=1∶10,所以在每个层次中抽取的个体数依次为

10150,10600,10

250

,即15,60,25. 第三步,按层次分别抽取.在优秀生中用简单随机抽样法抽取15人;在良好生中用简单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.

1.有一批机器,编号为1,2,3,...,112,为调查机器的质量问题,打算抽取10台入样,问此样本若采用简单随机抽样方法将如何获得? 解 方法一 首先,把机器都编上号码001,002,003,...,112,如用抽签法,则把112个形状、大小相同的号签放在同一个箱子里,进行均匀搅拌,抽签时,每次从中抽出1个号签,连续抽取10次,就得到一个容量为10的样本. 方法二 第一步,将原来的编号调整为001,002,003, (112)

第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如:选第9行第7个数“3”,向右读.

第三步,从“3”开始,向右读,每次读取三位,凡不在001~112中的数跳过去不读,前面已经读过的也跳过去不读,依次可得到074,100,094,052,080,003,105,107,083,092.

第四步,对应原来编号74,100,94,52,80,3,105,107,83,92的机器便是要抽取的对象.

2.某单位在岗职工共624人,为了调查工人用于上班途中的时间,该单位工会决定抽取10%的工人进行调查,请问如何采用系统抽样法完成这一抽样?

解 (1)将624名职工用随机方式编号由000至623. (2)利用随机数表法从总体中剔除4人. (3)将剩下的620名职工重新编号由000至619. (4)分段,取间隔k =

62

620

=10,将总体分成62组,每组含10人. (5)从第一段,即为000到009号随机抽取一个号l .

(6)按编号将l ,10+l ,20+l ,…,610+l ,共62个号码选出,这62个号码所对应的职工组成样本.

3.某电台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12 000人,其中持各种态度的人数如下表:

电视台为进一步了解观众的具体想法和意见,打算从中抽取60人进行更为详细的调查,应当怎样进行抽样? 解 可用分层抽样方法,其总体容量为12 000.“很喜爱”占000124352,应取60×00012435

2≈12(人);“喜爱”占000125674,应取60×

000

125674≈23(人);“一般”占

000129263,应取60×000129263≈20(人);“不喜爱”占000120721,应取60×000

12072

1≈5(人).因此采用分层抽样

在“很喜爱”、“喜爱”、“一般”和“不喜爱”的2 435人、4 567人、3 926人和1 072人中分别抽取12人、23人、20人和5人. 4.某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270,使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段,如果抽得号码有下列四种情况: ①7,34,61,88,115,142,169,196,223,250;

②5,9,100,107,111,121,180,195,200,265;

③11,38,65,92,119,146,173,200,227,254;

④30,57,84,111,138,165,192,219,246,270.

关于上述样本的下列结论中,正确的是(填序号).

(1)②、③都不能为系统抽样

(2)②、④都不能为分层抽样

(3)①、④都可能为系统抽样

(4)①、③都可能为分层抽样

答案(4)

一、填空题

1.(2008·安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .

答案15,10,20

2.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .

答案系统抽样,简单随机抽样

3.下列抽样实验中,最适宜用系统抽样的是(填序号).

①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样

②某厂生产的2 000个电子元件中随机抽取5个入样

③从某厂生产的2 000个电子元件中随机抽取200个入样

④从某厂生产的20个电子元件中随机抽取5个入样

答案③

4.(2008·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .

答案分层抽样法

5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).

①高一学生被抽到的概率最大

②高三学生被抽到的概率最大

③高三学生被抽到的概率最小

④每名学生被抽到的概率相等

答案①②③

6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .

答案 6

7.(2008·天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工人.

答案10

8.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 .

答案0795

二、解答题

9.为了检验某种作业本的印刷质量,决定从一捆(40本)中抽取10本进行检查,利用随机数表抽取这个样本时,应按怎样的步骤进行? 分析 可先对这40本作业本进行统一编号,然后在随机数表中任选一数作为起始号码,按任意方向读下去,便会得到10个号码. 解 可按以下步骤进行:

第一步,先将40本作业本编号,可编为00,01,02, (39)

第二步,在附录1随机数表中任选一个数作为开始.如从第8行第4列的数78开始.

第三步,从选定的数78开始向右读下去,得到一个两位数字号码59,由于59>39,将它去掉;继续向右读,得到16,由于16<39,将它取出;继续读下去,可得到19,10,12,07,39,38,33,21,后面一个是12,由于在前面12已经取出,将它去掉;再继续读,得到34.至此,10个样本号码已经取满,于是,所要抽取的样本号码是16,19,10,12,07,39,38,33,21,34.

10.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴

510=2,570=14,5

20=4 ∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.

(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人. (3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.

11.从某厂生产的10 002辆电动自行车中随机抽取100辆测试某项性能,请合理选择抽样方法进行抽样,并写出抽样过程. 解 因为总体容量和样本容量都较大,可用系统抽样. 抽样步骤如下:

第一步,将10 002辆电动自行车用随机方式编号;

第二步,从总体中剔除2辆(剔除法可用随机数表法),将剩下的10 000辆电动自行车重新编号(分别为00001,00002,…,10000)并分成100段;

第三步,在第一段00001,00002,…,00100这100个编号中用简单随机抽样抽出一个作为起始号码(如00006);

第四步,把起始号码依次加间隔100,可获得样本.

12.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容 量n .

解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n 36,分层抽样的比例是36n ,抽取工程师36n ×6=6n

(人),

抽取技术人员36n ×12=3

n

(人), 抽取技工

36n ×18=2

n

(人). 所以n 应是6的倍数,36的约数即n =6,12,18,36.

当样本容量为(n +1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为1

35

+n 必须是整数,所以n 只能取6,即样本容量为6.

§11.2 总体分布的估计与总体特征数的估计

1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 .

答案 5

2.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 .

答案 303.6

3.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m ,该组在频率分布直方图的高为h ,则|a -b |= . 答案

h

m

4.(2008

答案

5

10

2 5.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:

基础自测

根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40

例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交

作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:

(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?

(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)依题意知第三组的频率为 1464324

+++++=5

1,

又因为第三组的频数为12, ∴本次活动的参评作品数为

5

112

=60. (2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1

464326

+++++=18(件).

(3)第四组的获奖率是

1810=9

5, 第六组上交的作品数量为 60×

1

464321

+++++=3(件),

∴第六组的获奖率为

32=9

6

,显然第六组的获奖率高. 例2 对某电子元件进行寿命追踪调查,情况如下:

(1)列出频率分布表; (2)画出频率分布直方图;

(3)估计电子元件寿命在100 h ~400 h 以内的概率;

(4)估计电子元件寿命在400 h 以上的概率. 解 (1)样本频率分布表如下:

(2)频率分布直方图

(3)由频率分布表可以看出,寿命在100 h ~400 h 的电子元件出现的频率为0.65,所以我们估计电子元件寿命在 100 h ~400 h 的概率为0.65.

(4)由频率分布表可知,寿命在400 h 以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h 以上的概率为0.35.

例3 为了解A ,B 两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位:1 000 km ) 轮胎A 96, 112, 97, 108, 100, 103, 86, 98 轮胎B 108, 101, 94, 105, 96, 93, 97, 106 (1)分别计算A ,B 两种轮胎行驶的最远里程的平均数,中位数; (2)分别计算A ,B 两种轮胎行驶的最远里程的极差、标准差; (3)根据以上数据你认为哪种型号的轮胎性能更加稳定? 解 (1)A 轮胎行驶的最远里程的平均数为:

898

861031001089711296+++++++=100,

中位数为:

2

98

100+ =99; B 轮胎行驶的最远里程的平均数为:

8106

97939610594101108+++++++=100,

中位数为:2

97

101+=99.

(2)A 轮胎行驶的最远里程的极差为:112-86=26, 标准差为:

s =8

21430831242222222+++++++=

2

221

≈7.43; B 轮胎行驶的最远里程的极差为:108-93=15, 标准差为:

s = 8637456182

2222222+++++++=2

118≈5.43.

(3)由于A 和B 的最远行驶里程的平均数相同,而B 轮胎行驶的最远里程的极差和标准差较小,所以B 轮胎性能更加 稳定.

例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98, 99; 乙:110, 115,

90,

85,

75,

115,

110.

(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;

(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样.

2分

(2)茎叶图如下:

5分

(3)甲车间: 平均值:

1x =

7

1

(102+101+99+98+103+98+99)=100, 7分 方差:s 12

=7

1[(102-100)2+(101-100)2+…+(99-100)2

]≈3.428 6.

9分

乙车间:

平均值:2x =7

1

(110+115+90+85+75+115+110)=100, 11分 方差:s 22

=

7

1[(110-100)2+(115-100)2+…+(110-100)2

]≈228.571 4. 13分 ∵1x =2x ,s 12

<s 22

,∴甲车间产品稳定.

14分

1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.

(1)求第四小组的频率;

(2)参加这次测试的学生人数是多少?

(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2.

则有n =第一小组频率

第一小组频数

=5÷0.1=50(人).

(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内.

2.从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分) [40,50),2;[50,60),3;[60,70),10;[70,80),15; [80,90),12;[90,100],8. (1)列出样本的频率分布表; (2)画出频率分布直方图;

(3)估计成绩在[60,90)分的学生比例; (4)估计成绩在85分以下的学生比例. 解 (1)频率分布表如下:

(2)频率分布直方图如图所示.

(3)成绩在[60,90)的学生比例即为学生成绩在[60,90)的频率,即为(0.20+0.30+0.24)×100%=74%. (4)成绩在85分以下的学生比例即为学生成绩不足85分的频率.

设相应的频率为b . 由808560.0--b =80

9060.084.0--,故b =0.72. 估计成绩在85分以下的学生约占72%.

3.有甲、乙两位射击运动员在相同条件下各射击10次,记录各次命中环数; 甲:8,8,6,8,6,5,9,10,7,4 乙:9,5,7,8,7,6,8,6, 8,7 (1)分别计算他们环数的标准差; (2)谁的射击情况比较稳定. 解 (1)x 甲=

10

1

(8+8+6+8+6+5+9+10+7+4)=7.1, x 乙=

10

1

(9+5+7+8+7+6+8+6+8+7)=7.1, 2甲s =

10

1[(8-7.1)2+(8-7.1)2+(6-7.1)2+(8-7.1)2+(6-7.1)2+(5-7.1)2+(9-7.1)2+(10-7.1)2+(7-7.1)2+(4-7.1)2

]=3.09,

∴s 甲≈1.76.

2乙

s =10

1[(9-7.1)2+(5-7.1)2+(7-7.1)2+(8-7.1)2+(7-7.1)2+(6-7.1)2+(8-7.1)2+(6-7.1)2+(8-7.1)2+(7-7.1)2

]=1.29, ∴s 乙≈1.14.

(2)∵x 甲=x 乙,s 乙<s 甲,∴乙射击情况比较稳定.

4.(2008·海南、宁夏理,16)从甲、乙两品种的棉花中各抽测了25根棉花的纤维长度(单位:mm ),结果如下: 甲品种:271

273 280 285 285 287 292 294 295 301 303 303 307 308 310 314 319

323

325

325 328 331 334 337 352 乙品种:284

292 295 304 306 307 312 313 315 315 316 318 318 320 322 322 324

327

329

331

333

336

337

343

356

由以上数据设计了如下茎叶图:

根据以上茎叶图,对甲、乙两品种棉花的纤维长度作比较,写出两个统计结论:

① ; ② .

答案 ①乙品种棉花的纤维平均长度大于甲品种棉花的纤维平均长度(或:乙品种棉花的纤维长度普遍大于甲品种棉花的纤维长度). ②甲品种棉花的纤维长度较乙品种棉花的纤维长度更分散.(或:乙品种棉花的纤维长度较甲品种棉花的纤维长度更集中(稳定).甲品种棉花的纤维长度的分散程度比乙品种棉花的纤维长度的分散程度更大).

③甲品种棉花的纤维长度的中位数为307 mm ,乙品种棉花的纤维长度的中位数为318 mm.

④乙品种棉花的纤维长度基本上是对称的,而且大多集中在中间(均值附近).甲品种棉花的纤维长度除一个特殊值(352)外,也大致对称,其分布较均匀.

一、填空题

1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率

②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值

④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③

2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙

3.某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用条形图表示如下:

根据条形图可得这50名学生这一天平均每人的课外阅读时间为 h.

答案0.9

4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分

第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图.

设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学

生人数为y,则从频率分布直方图中可分析出x和y分别为 .

答案0.9,35

5.(2009·启东质检)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频

率分布直方图如图所示,由于不慎,部分数据丢失,但知道前四组的频数成等比数列,后六组的频数成等差

数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a,b的值分别为 .

6.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩

答案<乙甲

7.(2008·上海理,9)已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中

位数为10.5.若要使该总体的方差最小,则a、b的取值分别是 .

答案10.5、10.5

8.某教师出了一份共3道题的测试卷,每道题1分,全班得3分,2分,1分,0分的学生所占比例分别为30%,40%,20%,10%,若全班30人,

则全班同学的平均分是分.

答案 1.9

二、解答题

9.在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布

直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40.

(2)求这两个班参赛的学生人数是多少?

(3)这两个班参赛学生的成绩的中位数应落在第几小组内?(不必说明理由)

解 (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05. ∴第二小组的频率为:

1.00-(0.30+0.15+0.10+0.05)=0.40. ∴落在59.5~69.5的第二小组的小长方形的高=

组距频率=10

40

.0=0.04.则补全的直方图如图所示.

(2)设九年级两个班参赛的学生人数为x 人. ∵第二小组的频数为40人,频率为0.40, ∴

x

40

=0.40,解得x =100(人). 所以九年级两个班参赛的学生人数为100人.

(3)因为0.3×100=30,0.4×100=40,0.15×100=15,0.10×100=10,0.05×100=5,

即第一、第二、第三、第四、第五小组的频数分别为30,40,15,10,5,所以九年级两个班参赛学生的成绩的中位数应落在第二小组内.

10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.

(1)第二小组的频率是多少?样本容量是多少?

(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:

391517424

+++++=0.08.

又因为频率=

样本容量第二小组频数, 所以样本容量=

第二小组频率

第二小组频数=

08

.012

=150. (2)由图可估计该学校高一学生的达标率约为

3

91517423

91517++++++++×100%=88%.

(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内. 11.观察下面表格:

(1)完成表中的频率分布表;

(2)根据表格,画出频率分布直方图;

(3)估计数据落在[10.95,11.35)范围内的概率约为多少?

解 (1)频率依次为:0.03,0.09,0.13,0.16,0.26,0.20,0.07,0.04,0.02,1.00. (2)频率分布直方图如图所示

(3)数据落在[10.95,11.35)范围的频率为 0.13+0.16+0.26+0.20=0.75.

12.某赛季甲、乙两名篮球运动员每场比赛得分情况如下:

甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50; 乙的得分:8,13,14,16,23,26,28,33,38,39,59. (1)制作茎叶图,并对两名运动员的成绩进行比较;

(2)计算上述两组数据的平均数和方差,并比较两名运动员的成绩和稳定性; (3)能否说明甲的成绩一定比乙好,为什么? 解 (1)制作茎叶图如下:

从茎叶图上可看出,甲运动员发挥比较稳定,总体得分情况比乙好.

(2)x 甲=33,2甲s ≈127.23,x 乙=27,2

乙s ≈199.09,

∴x 甲>x 乙, 2甲s <2乙s ,

∴甲运动员总体水平比乙好,发挥比乙稳定.

(3

)不能说甲的水平一定比乙好,因为上述是甲、乙某赛季的得分情况,用样本估计总体也有一定的偶然性,并不能说一定准确反映总体情况.

§11.3 线性回归方程

1.下列关系中,是相关关系的为 (填序号).

①学生的学习态度与学习成绩之间的关系;

基础自测

②教师的执教水平与学生的学习成绩之间的关系;

③学生的身高与学生的学习成绩之间的关系;

④家庭的经济条件与学生的学习成绩之间的关系.

答案①②

2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).

①直线l1,l2有交点(s,t)

②直线l1,l2相交,但是交点未必是(s,t)

③直线l1,l2由于斜率相等,所以必定平行

④直线l1,l2必定重合

答案①

3.下列有关线性回归的说法,正确的是(填序号).

①相关关系的两个变量不一定是因果关系

②散点图能直观地反映数据的相关程度

③回归直线最能代表线性相关的两个变量之间的关系

④任一组数据都有回归直线方程

答案①②③

4.下列命题:

①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;

②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;

③通过回归直线y?=b?x+a?及回归系数b?,可以估计和预测变量的取值和变化趋势.

其中正确命题的序号是 .

答案①②③

5.已知回归方程为y?=0.50x-0.81,则x=25时,y?的估计值为 .

答案11.69

例1下面是水稻产量与施化肥量的一组观测数据:

施化肥量15 20 25 30 35 40 45

水稻产量320 330 360 410 460 470 480

(1)将上述数据制成散点图;

(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?

解(1)散点图如下:

(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长. 例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出

的关系,该市统计部门随机调查了10个家庭,得数据如下:

(1)判断家庭平均收入与月平均生活支出是否相关? (2)若二者线性相关,求回归直线方程. 解 (1)作出散点图:

5分

观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分

(2)x =

10

1

(0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74, y =

10

1

(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42, 9分

b

?=∑∑==-?-n

i i

n

i i i x n x

y

x n y x 1

2

21

≈0.813 6,

a

?=1.42-1.74×0.813 6≈0.004 3, 13分 ∴回归方程y

?=0.813 6x +0.004 3.

14分

例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.

(1)请画出上表数据的散点图;

(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y

?=b ?x +a ?; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?

(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:

(2)x =

46543+++=4.5,y =4

5

.4435.2+++=3.5 ∑=4

1i i

i y

x =3×2.5+4×3+4×5+6×4.5=66.5.

∑=4

1

2

i i

x

=32+42+52+62

=86

∴b

?=2

4

1

24

1

44x x y

x y

x i i i i

i -?-∑

∑===

2

5

.44865.45.345.66?-??-=0.7

a

? =y -b ?x =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为y ?=0.7x +0.35. (3)现在生产100吨甲产品用煤 y =0.7×100+0.35=70.35,

∴降低90-70.35=19.65(吨)标准煤.

1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.

(1)试画出散点图;

(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,

(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.

2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:

由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =

5

.1283.1120.850.767.66++++=93.6.

b

?=2

5

1

25

1

55x x

y

x y

x i i

i i

i -?-∑∑==≈0.880 9.

a

?=y -b ?x =93.6-0.880 9×30=67.173. ∴回归方程为y

?=0.880 9x +67.173.

3.某企业上半年产品产量与单位成本资料如下:

(1)求出线性回归方程;

(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,

∑=6

1i i

x

=21,

∑=6

1

i i

y

=426,x =3.5,y =71,

=6

1

2

i i x =79,

∑=6

1

i i

i y

x =1 481,

b

?=2

6

1

26

166x x y

x y

x i i i i

i -?-∑

∑===

2

5

.3679715.364811?-??-=-1.82.

a

?=y -b ?x =71+1.82×3.5=77.37.

回归方程为y

?=a ?+b ?x =77.37-1.82x . (2)因为单位成本平均变动b

?=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元

. (3)当产量为6 000件时,即x =6,代入回归方程:

y

?=77.37-1.82×6=66.45(元) 当产量为6 000件时,单位成本为66.45元.

一、填空题

1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .

答案 a ,c ,b

2.回归方程y

?=1.5x -15,则下列说法正确的有 个. ①y =1.5x -15 ②15是回归系数a ③1.5是回归系数a ④x =10时,y =0 答案 1

3.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为y ?=8.25x +60.13,下列叙述正确的是 .

①该地区一个10岁儿童的身高为142.63 cm ②该地区2~9岁的儿童每年身高约增加8.25 cm ③该地区9岁儿童的平均身高是134.38 cm

④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 ②

4.三点(3,10),(7,20),(11,24)的回归方程是 .

答案 y

?=1.75x +5.75 5.某人对一地区人均工资x (千元)与该地区人均消费y (千元)进行统计调查,y 与x 有相关关系,得到回归直线方程y ?=0.66x +1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%

6.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得

∑=8

1

i i

x

=52,

∑=8

1

i i

y

=228,

=8

1

2

i i x =478,

∑=8

1

i i

i y

x =1 849,则其线性回归方程为 .

答案 y

?=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④

8.已知关于某设备的使用年限x 与所支出的维修费用y (万元),有如下统计资料:

高中数学统计、统计案例知识点总结和典例说课讲解

统计 一.简单随机抽样:抽签法和随机数法 1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。 2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。 抽签法的一般步骤:a、将总体的个体编号。 b、连续抽签获取样本号码。 3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。 随机数表法的步骤:a、将总体的个体编号。b、在随机数表中选择开始数字。c、读数获取样本号码。 4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。 二.系统抽样: 1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。 系统抽样的一般步骤: (1)采用随机抽样的方法将总体中的N个个编号。 (2)将整体按编号进行分段,确定分段间隔k=N/n。(k∈N,L≤k). (3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。 (4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。 在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。 三.分层抽样: 1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。 分层抽样的步骤: (1)分层:按某种特征将总体分成若干部分。(2)按比例确定每层抽取个体的个数。 (3)各层分别按简单随机抽样的方法抽取。(4)综合每层抽样,组成样本。 2.分层抽样是当总体由差异明显的几部分组成时采用的抽样方法,进行分层抽样时应注意以下几点: (1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠。 (2)为了保证每个个体等可能入样,所有层应采用同一抽样比等可能抽样。 (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样。 四.用样本的频率分布估计总体分布: 1.频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。 其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布直方图 2.频率分布折线图、总体密度曲线 频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

高项案例知识点总结

1、项目经理的选择和素质:P18-23 一个合格项目经理应具备的素质:(1)广博的知识,丰富的经历,良好的协调能力,良好的职业道德,良好的沟通和表达能力,良好的领导能力。 项目经理应具备的五大知识领域:项目管理知识体系,应用领域的知识、标准和规定,项目环境知识,通用的管理知识和技能,软技能和人际关系技能。 2、项目干系人的需求分析和沟通分析,两部分组成——P31+P232 项目干系人的分析:1、非组员的干系人的三大职责:参与、审查、反馈2、项目干系人的分析的目的:确定项目干系人的需求,帮助项目经理制定沟通管理策略。 项目干系人的管理的方法:沟通方法(分析干系人需求和期望目标,分层次分目标进行沟通,不同干系人采用不同的沟通策略,综合运用正式的和非正式的或公开或私下等多种沟通方法),问题日志需求分析就是确定待开的信息系统应该做什么。 需求分析的特点: 1、用户与开发人员之间存在着沟通方面的困难; 2、用户的需求是动态变化的; 3、生命周期种不同的阶段系统变更的代价呈非线性增长; 需求分析的过程1、问题识别;2、分析与综合;3、制订规格说明;4、评审; 需求分析的方法1、原型化方法2、结构化方法3、动态分析法 需求分析步骤: 1、阅读甲方所有资料文件-组织资产、业务法规制度、业务流程; 2、撰写调研提纲,并与甲方业务人员确认; 3、业务岗位实地调研,岗位调研报告(一地)业务调研集中会议与试点地区岗位调研(省地市异地); 4、撰写业务调研报告,与甲方主要需求人员开会讨论; 5、甲方高层参加的业务需求调研报告会,认可业务需求内容 6、正式撰写“需求分析”系列文档;与甲方主要需求人员讨论; 7、真是提交需求评审,开会,确认需求; 3、项目的组织结构对项目管理的影响P34 第五章 4、整体管理计划的制定流程,作用和内容P91-93 整体管理作用:对项目管理过程中的不同过程和活动进行识别、定义、整合、统一和协调的过程。 整体管理计划的制定流程:制订项目章程,制订项目范围说明书初步,制订项目管理计划,指导和管理项目执行,监督和控制项目工作,整体变更控制,项目收尾。 5、范围管理——范围的定义、确认,P110 范围定义:描述项目过程并把结果与项目写进详细范围说明书中。 项目范围确认的工作要点:制订并执行确认程度,项目干系人对项目范围的正式确认,让系统的使用者有效参与,项目各阶段的确认和项目最终验收的确认。 分阶段分步骤的确认是归避风险的有效方法。确认的方法:测量、测试、检验,审查、产品评审、走查 6、WBS——工作分解的方法、作用P113 创建WBS所采用的方法:使用指导方针,类比法,自顶向下、自底向上 WBS的局限:不能显示活动之间的顺序,不能显示活动之间的依赖关系 WBS的表现形式:分级的树型结构,表格形式 WBS分解的详细程度:大项目:WBS分为总纲和子项目目录;小项目:WBS直接划分到工作包。 WBS的作用通及意义:将项目大的可交付物成果与项目工作划分为较小的和易管理的组成部分,详

(典型题)高考数学二轮复习-知识点总结-统计与统计案例

统计和统计案例 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率和统计交汇等. 2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题. 1. 随机抽样 (1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少. (2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多. (3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成. 2. 常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距× 频率 组距 =频率; ②各小长方形的面积之和等于1; ③小长方形的高=频率组距,所有小长方形的高的和为1 组距. (2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好. 3. 用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数 数字特征 样本数据 频率分布直方图 众数 出现次数最多的数据 取最高的小长方形底边中点的横坐标 中位数 将数据按大小依次排列,处在最 中间位置的一个数据(或最中间两个数据的平均数) 把频率分布直方图划分左右两个面积相等的分界线和x 轴交点的横坐标 平均数 样本数据的算术平均数 每个小矩形的面积乘以小矩形底边中点的横坐标之和 (2)方差:s 2=n [(x 1-x )2+(x 2-x )2+…+(x n -x )2 ]. 标准差:

s = 1n [ x 1-x 2 +x 2-x 2 +…+x n -x 2 ]. 4. 变量的相关性和最小二乘法 (1)相关关系的概念、正相关和负相关、相关系数. (2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q = i =1 n (y i -a -bx i )2 最小时,得到线性回归方程y ^ =b ^ x +a ^ 的方法叫做最小二乘法. 5. 独立性检验 对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是: y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d n 则K 2 = n ad -bc 2a +b c + d a +c b +d (其中n =a +b +c +d 为样本容量). 考点一 抽样方法 例1 (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为 ( ) A .7 B .9 C .10 D .15 答案 C 分析 由系统抽样的特点知:抽取号码的间隔为 960 32 =30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人. 在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分 成几个组,则分段间隔即为N n (N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样

高中数学知识点之统计及统计案例分析

高中数学知识点之统计及统计案例分析 第十一编统计、统计案例 §11.1 抽样方法 1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个 问题中,总体的一个样本是 . 答案 200个零件的长度 2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人 家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样 方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案①②③ 3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现 采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,18 4.(2019·广东理)某校共有学生2 000名,各年级男、女生人数如下表.已知在全 校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取 64名学生,则应在三年级抽取的学生人数为 . 女生男生 答案 16 5.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用 分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量 n= .答案 80 例1 某大学为了支援我国西部教育事业,决定从2019应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案.解抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18) 第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀;第四步:从盒子中逐个抽取 6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法: 第一步:将18名志愿者编号,编号为01,02,03, (18) 第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的 数7开始,向右读; 第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.

高中数学统计案例分析及知识点归纳总结

统计 一、知识点归纳 1、抽样方法: ①简单随机抽样(总体个数较少) ②系统抽样(总体个数较多) ③分层抽样(总体中差异明显) 注意:在N 个个体的总体中抽取出n 个个体组成样本,每个个体被抽到的机会(概率)均为N n 。 2、总体分布的估计: ⑴一表二图: ①频率分布表——数据详实 ②频率分布直方图——分布直观 ③频率分布折线图——便于观察总体分布趋势 注:总体分布的密度曲线与横轴围成的面积为1。 ⑵茎叶图: ①茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数、众位数等。 ②个位数为叶,十位数为茎,右侧数据按照从小到大书写,相同的数据重复写。 3、总体特征数的估计: ⑴平均数:n x x x x x n ++++= 321; 取值为n x x x ,,,21 的频率分别为n p p p ,,,21 ,则其平均数为n n p x p x p x +++ 2211; 注意:频率分布表计算平均数要取组中值。 ⑵方差与标准差:一组样本数据n x x x ,,,21 方差:2 1 2)(1 ∑=-= n i i x x n s ; 标准差:2 1 )(1∑=-= n i i x x n s 注:方差与标准差越小,说明样本数据越稳定。 平均数反映数据总体水平;方差与标准差反映数据的稳定水平。 ⑶线性回归方程 ①变量之间的两类关系:函数关系与相关关系; ②制作散点图,判断线性相关关系 ③线性回归方程:a bx y +=∧ (最小二乘法) 1 221n i i i n i i x y nx y b x nx a y bx ==? -? ?=??-??=-??∑∑ 注意:线性回归直线经过定点),(y x 。

高中数学统计与统计案例概率知识点上课讲义

高中数学统计与统计案例概率知识点

统计与统计案例概率(文科) 知识点 1.抽样调查 (1)抽样调查 通常情况下,从调查对象中按照一定的方法抽取一部分,进行______,获取数据,并以此对调查对象的某项指标作出______,这就是抽样调查. (2)总体和样本 调查对象的称为总______体,被抽取的称为样______本. (3)抽样调查与普查相比有很多优点,最突出的有两点: ①______ ②节约人力、物力和财力. 2.简单随机抽样 (1)简单随机抽样时,要保证每个个体被抽到的概率. (2)通常采用的简单随机抽样的方法:_____ 3.分层抽样 (1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样. (2)分层抽样的应用范围: 当总体是由差异明显的几个部分组成时,往往选用分层抽样. 4.系统抽样 系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按______(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机

械抽样. 5.统计图表 统计图表是______数据的重要工具,常用的统计图表有______ 6.数据的数字特征 (1)众数、中位数、平均数 众数:在一组数据中,出现次数最多的数据叫作这组数据的众数. 中位数:将一组数据按大小依次排列,把处在______位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数. 平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ). 在频率分布直方图中,中位数左边和右边的直方图的面积应该______ (2)样本方差 标准差s = 1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2], 其中x n 是样本数据的第n 项,n 是,______x 是______ 标准差是刻画数据的离散程度的特征数,样本方差是标准差的______.通常用样本方差估计总体方差,当______时,样本方差很接近总体方差. 7.用样本估计总体 (1)通常我们对总体作出的估计一般分成两种,一种是______,另一种______. (2)在频率分布直方图中,纵轴表示,______数据落在各小组内的频率用______表示,各小长方形的面积总和等于.______ (3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图. (4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且______,方便表示与比较.

高考知识点变量间的相关关系与统计案例

第3节变量间的相关关系与统计案例 最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用. 知识梳理 1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数. (1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则 ^是回归方程的斜率,a^是在y轴上的截距. 其中,b 回归直线一定过样本点的中心(x,y). 3.回归分析

(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强. r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. (4)相关指数: 其中21()n i i i y y =-∑是残差平方和,其值越小, 则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验 (1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为 则随机变量K 2 =n (ad -bc )2 (a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样 本容量. [常用结论与微点提醒] 1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点 (x ,y ). 2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习 A组 一、选择题 1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为() A.200 B.240 C.400 D.480 解析:选C设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,由此估计学生人数为0.4×1 000=400. 2.AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0~50),二级良(51~100),三级轻度污染(101~150),四级中度污染(151~200),五级重度污染(201~300),六级严重污染(大于300).如图是昆明市2019年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2020年4月份空气质量优的天数为() A.3 B.4 C.12 D.21

解析:选C从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为4 10= 2 5, 所以估计昆明市2020年4月份空气质量为优的天数为30×2 5=12,故选C. 3.(成都模拟)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图. 已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是() A.最低气温与最高气温为正相关 B.10月的最高气温不低于5月的最高气温 C.月温差(最高气温减最低气温)的最大值出现在1月 D.最低气温低于0 ℃的月份有4个 解析:选D在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D. 4.(承德模拟)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是() A.是否倾向选择生育二胎与户籍有关 B.是否倾向选择生育二胎与性别无关

高考数学二轮复习-统计与统计案例知识点总结

统计与统计案例 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等. 2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题. 1.随机抽样 (1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少. (2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多. (3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成. 2.常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距× 频率 组距 =频率; ②各小长方形的面积之和等于1; ③小长方形的高=频率组距,所有小长方形的高的和为1 组距. (2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数 (2)方差:s 2=n [(x 1-x )2+(x 2-x )2+…+(x n -x )2 ]. 标准差:

s = 1n [ x 1-x 2+ x 2-x 2+…+ x n -x 2 ]. 4.变量的相关性与最小二乘法 (1)相关关系的概念、正相关和负相关、相关系数. (2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q = i =1 n (y i -a -bx i )2 最小时,得到线性回归方程y ^ =b ^ x +a ^ 的方法叫做最小二乘法. 5.独立性检验 对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是: 则K 2 =n a +b c +d a +c b +d (其中n =a +b +c +d 为样本容量). 考点一 抽样方法 例1 (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机 编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为 ( ) A .7 B .9 C .10 D .15 答案 C 解析 由系统抽样的特点知:抽取号码的间隔为 960 32 =30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人. 在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分 成几个组,则分段间隔即为N n (N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,

高中数学选修1-2《统计案例》知识点讲义教学内容

第一章统计案例一、回归分析的基本思想及其初步应用 1、数学变量相关关系 的定义:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不 确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系. (1)按方向分类 ①正相关:两个变量的变化趋势相同,从散点图可以看出各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大。 ②负相关:两个变量的变化趋势相反,从散点图可以看出各点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小。 正相关负相关不相关 (2)相关性系数r(在《必修3》中有介绍) 用相关系数r来衡量两个变量之间的相关关系 ()() ()() 1 22 11 n i i i n n i i i i x x y y r x x y y = == -- = -- ∑ ∑∑

2、两变量之间的关系存在两种不同的类型 (1)相关关系——非确定性关系 (2)函数关系——确定性关系 3、回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。 其基本步骤是:①画出两个变量的散点图; ②求回归直线方程; ③并用回归直线方程进行预报。 4、回归直线方程:∧ ∧∧+=a x b y ?? ?? ????? -=--=---=∧∧====∧∑∑∑∑x b y a x n x y x n y x x x y y x x b n i i n i i i n i i n i i i ,)())((1 221121 ()()()10.00,2,. b b r x y ≠==说明:回归系数因为当时,相关系数这时不具有线性相关关系. 称为样本点的中心,回归直线必定经过样本点的中心

(完整版)数学知识点--考点14--统计与统计案例

极差 组数、组距 分组 列表 咼频率/组距 面积=频率= 频数 样本容量 小矩形面积和=1 统计与统计案例 1. 统计的基本思想是用部份来估计总体。 2. 统计中所考察的对象的全体构成的集合看做总体, 构成总体的每个元素作为个体,从总 体中抽取的一部份个体所组成的集合叫做样本,样本中个体的数目叫做样本容量。 一、抽样方法 2.图形特征 1) 茎叶图 2) 直方图 、用样本估计总体 1.数字特征 注意: 2 2 i am b ,贝U i 的平均数为ax b ,方差为a s

3)条形图与直方图的区别:直方图中矩形通常连续排列,条形图则是分开排开; 直方图是用面积表示各 组频率的多少, 高表示每一组的频率除以组距, 组距,条形图的高表示频数的多少,其宽是固定的,表示类别。 三、变量间的相关关系 确定关系:函数关系 2.样本相关系数r : r 0.75时,认为两个变量有很强的线性相关关系。 3. 最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法。 过样本中心X, y 2 2 6. 相关指数R : R 的值越大,说明残差平方和越小,即模型的拟合效果起好。 回归效果越好。 7. 回归方程:只适用于研究的样本的总体;具有时间性;样本的取值范围会影响总 体的范围;预报值与精 确值往往不一样。 8. 步骤 宽表示 关系 非确定:相关关系 回归分析 散点图 回归曲线 回归直线 y $x $b X i y i i 1 nxy -2 x y i y X i nx 5.随机误差 e y bX i a 估计值 残差 y i bX i $ 残差分析 形:残差图 数:R 2 0,1 线性回归模型中, R 2表示解释变量对预报变量的贡献率, R 2越接近于 1,表示

高中数学选修1-2《统计案例》知识点讲义汇编

第一章 统计案例 一、回归分析的基本思想及其初步应用 1、数学变量相关关系的定义:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系. (1)按方向分类 ①正相关:两个变量的变化趋势相同,从散点图可以看出各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大。 ②负相关:两个变量的变化趋势相反,从散点图可以看出各点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小。 正相关 负相关 不相关 (2)相关性系数r (在《必修3》中有介绍) 用相关系数r 来衡量两个变量之间的相关关系 ()() ()() 1 2 2 1 1 n i i i n n i i i i x x y y r x x y y ===--= --∑∑∑

2、两变量之间的关系存在两种不同的类型 (1)相关关系——非确定性关系 (2)函数关系——确定性关系 3、回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。 其基本步骤是:①画出两个变量的散点图; ②求回归直线方程; ③并用回归直线方程进行预报。 4、回归直线方程:∧ ∧∧+=a x b y ?? ?? ????? -=--=---=∧∧====∧∑∑∑∑x b y a x n x y x n y x x x y y x x b n i i n i i i n i i n i i i ,)())((1 221121 ()()()10.00,2,. b b r x y ≠==说明:回归系数因为当时,相关系数这时不具有线性相关关系. 称为样本点的中心,回归直线必定经过样本点的中心

人教版高中数学【选修2-3】[知识点整理及重点题型梳理]-《统计案例》单元复习巩固

人教版高中数学选修2-3 知识点梳理 重点题型(常考知识点)巩固练习 《统计案例》单元复习巩固 【学习目标】 1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用. 2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用. 3. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤. 4. 能作出散点图,能求其回归直线方程。 5. 会用所学的知识对简单的实际问题进行回归分析。 【知识网络】 【要点梳理】 要点一、分类变量 有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。 要点诠释: (1)对分类变量的理解。 这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。 (2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。 要点二、2×2列联表 1. 列联表 用表格列出的分类变量的频数表,叫做列联表。 2. 2×2列联表 对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:

这样的表格称为2×2列联表。 要点三:卡方统计量公式 为了研究分类变量X 与Y 的关系,经调查得到一张2×2列联表,如下表所示 统计中有一个有用的(读做“卡方”)统计量,它的表达式是: 22 ()()()()() n ad bc K a b c d a c b d -=++++(n a b c d =+++为样本容量)。 要点四、独立性检验 1. 独立性检验 通过2×2列联表,再通过卡方统计量公式计算2K 的值,利用随机变量2K 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 2. 变量独立性的判断 通过对2 K 统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断: ①如果2K ≤3.841时,认为事件A 与B 是无关的。 ②如果2K >3.841时,有95%的把握说事件A 与事件B 有关; ③如果2K >6.635时,有99%的把握说事件A 与事件B 有关; 要点诠释: (1)独立性检验一般是指通过计算2 K 统计量的大小对两个事件是否有关进行判断; (2)独立性检验的基本思想类似于反证法。即在H 0:事件A 与B 无关的统计假设下,利用2 K 统计量的大小来决定在多大程度上拒绝原来的统计假设H 0,即拒绝“事件A 与B 无关”,从而认为事件A 与B 有关。独立性检验为假设检验的特例。 (3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把

高中数学统计统计案例知识点总结和典例

高中数学统计统计案例知识点总结和典例 标准化管理处编码[BBX968T-XBB8968-NNJ668-MM9N]

统计 一.简单随机抽样:抽签法和随机数法 1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。 2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。 抽签法的一般步骤:a、将总体的个体编号。 b、连续抽签获取样本号码。 3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。 随机数表法的步骤:a、将总体的个体编号。b、在随机数表中选择开始数字。c、读数获取样本号码。 4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。 二.系统抽样: 1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。 系统抽样的一般步骤: (1)采用随机抽样的方法将总体中的N个个编号。

(2)将整体按编号进行分段,确定分段间隔k=N/n。(k∈N,L≤k). (3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。 (4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。 在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。 三.分层抽样: 1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。 分层抽样的步骤: (1)分层:按某种特征将总体分成若干部分。(2)按比例确定每层抽取个体的个数。 (3)各层分别按简单随机抽样的方法抽取。(4)综合每层抽样,组成样本。 2.分层抽样是当总体由差异明显的几部分组成时采用的抽样方法,进行分层抽样时应注意以下几点: (1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠。 (2)为了保证每个个体等可能入样,所有层应采用同一抽样比等可能抽样。 (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样。

高中数学统计和统计案例全章复习(题型完美版).doc

第八章统计与统计案例 第1节随机抽样 最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本; 3?了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题. 1知识梳 1.简单随机抽样 (1)定义:设一个总体含有N个个体,从屮逐个不放冋地抽取n个个体作为样本5WN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样. (2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样的步骤 假设要从容量为N的总体屮抽収容量为n的样本. (1)先将总体的N个个体编号. (2)确定分段间隔K,对编号进行分段,当号是整数时,取当号不是整数时,随机从总体中剔除余数,再取k=*(N为从总体屮剔除余数后的总数). (3)在第1段用简单随机抽样确定第一个个体编号/(/

人教A版高中数学选修2-3统计案例知识点归纳

统计案例 1. 随机变量 在一次实验中随着实验结果改变而改变的变量。举例:扔硬币的实验结果用1表示正面向上,用0表示背面向上,则实验得到1还是0是随着扔硬币的结果决定的,这就是一个随机变量。 2. 离散型随机变量 结果是可一一列出的(不论数量有限还是无限,教材中只有限)的随机变量称为离散型随机变量。比如一个人的寿命是有无限种可能值的,所以寿命不是离散型随机变量,但是如果定义随机变量“寿命大于等于50岁时Y=1,寿命不足50岁时Y=0”,则Y 是一个离散型随机变量。 3. 离散型随机变量的概率分布列 列举出{X=x i }所有取值及取值时对应概率P(X=x i )=p i 的表称为离散型随机变量的概率分布列(i=1、2、3、4、5……)。 举例:著名古典概型掷骰子,定义随机变量X 为掷骰子的点数,根据古典概型,所有结果的概率都是 11333,则3≤X ≤6,P(3≤X ≤6)=p 3+p 4+p 5+p 6=2/3。 有时为了简单起见,也可只用P(X=x i )=p i 来表示X 的分布列。 离散型随机变量的概率分布列具有如下两个性质:1.任一分布列的所有的p i 大于等于0。即任何分布列里的任一概率大于等于0。2.同一分布列的所有p i 总和为1。即概率和为1。 4. 两点分布 离散型随机变量中X 只有两种取值(也就是只有两种结果)的情况,通常是0和1,例 5. 超几何分布 这种概率分布列的文字表述通常是如下类型的字眼:在含有M 个有特性(比如残次品)的总共N 个个体中不放回地(不放回这个特征要跟二项分布区分)抽取n 个个体,其中恰有X 个有特性的物品,则通过组合方式(抽取结果跟顺序无关所以用组合C 不用排列A )计算可以得到{X=k} 的概率为)。(m k C C C k x P n N k n M N k M ,3,2,1,0)(?===-- 其中k M C 代表在M 个有特性个体中抽到k 件的办法数 k n M N C --代表在N -M 个没有特性的个体中抽到n -k 件的办法数 n N C 代表在N 个个体中抽n 件的办法数 ∈N +) 来自课本的典型案例:某工厂生产100件产品中有5件残次品,现不放回的抽取3件,求取到次品数X 的分布列和至少取到1件次品的概率。 按照描述,)(3,2,1,0)(3 100 35 1005===--k C C C k x P k k , 其中k C 5代表在5个残次品中抽到k 件的办法数 k C --35100代表在100-5个正常产品中抽到3-k 件的办法数

相关文档
最新文档