1抽样方法(1)简单随机抽样(抽签法

合集下载

随机事件的概率(古典概型、简单的几何概型、抽样方法)

随机事件的概率(古典概型、简单的几何概型、抽样方法)
【答案】 C 【解析】由题意可作出维恩图如图所示:
所以该学校阅读过《西游记》的学生人数为70人, 则该学校阅读过《西游记》的学生人数与
该学校学生总数比值的估计值为:70 0.7.故选C. 100
7.(2018西安八校联考)某班对八校联考成绩进行分析,利用随机 数表法抽取样本时,先将60个同学按01,02,03,…,60进行编号, 然后从随机数表第9行第5列的数开始向右读,则选出的第6个 个体是 ( )
(红,黄),(红,蓝),(红,绿),(红,紫),共4种,
故所求概率P 4 2. 10 5
3.(2018新课标Ⅲ卷)若某群体中的成员只用现金支付的概率为
0.45,既用现金支付也用非现金支付的概率为0.15,则不用现金支
第1节 随机事件的概率(古典概型、简单的几何概型、抽样方法)
付的概率为 ( ) 第三组取的数为(10号)36,第四组取的数为(14号)43,
A .2 3
B .3 5
C .2 5
D .1 5
【答案】 B 【解析】由题意,通过列举可知从这5只兔子中随机取出3只的 所有情况数为10, 恰有2只测量过该指标的所有情况数为6.
所以P 6 3.故选B. 10 5
9.(2019新课标Ⅲ卷,文)两位男同学和两位女同学随机排成一列,
则两位女同学相邻的概率是
表第9行第5列的数开始向右读,则选出的第6个个体是 ( )
4.取一根长度为5m的绳子,拉直后在任意位置剪断,那么所得两
段绳子的长度都不小于2m的概率是
()
A .1 5
B .1 3
C .1 4
D .1 2
【 答 案 】 A 【 解 析 】 记 两 段 绳 子 的 长 度 都 不 小 于 2m为 事 件 A, 则 只 能 在 中 间 1m的 绳 子 上 剪 断 ,所 得 两 段 绳 子 的 长 度 才 都 不 小 于 2m,

常用的抽样方法

常用的抽样方法
精品课件
精品课件
二、估计比例用的3种改进模型
1、模型I 把问题 B改为一个完全无关、答案 为“是”的概率是已知值的问题
将沃纳模型中与敏感性问题相对的具有特
征A的问题改为一个与敏感性问题不相关的
其它问题。
A
B
精品课件
例14-2: 欲调查某地已婚育龄妇女有无婚前
性行为的比例。
问题A:婚前有过性行为? 回答: ①是 ②否 问题B:你生日(月+日)除以3余数是0吗? 回答: ①是 ②否
(2)问卷中设A、B两个问题。 (3)备有一个口袋,里面装有黑白两种颜色的 球(也可用围棋的黑子和白子),两种球的比例不是 1:1,例如可以是60%和40%。
精品课件
(4)调查对象在填写答案前,先随机抽取一个球 (球的颜色对调查员保密),据球的颜色决定回 答两个问题中的哪一个。
(5)由于调查员不知道某一对象抽取的球是什么颜 色的,所以无法知道某一对象回答的是问题A还 是问题B,也无法知道调查对象的“秘密”。
随机化回答是指在调查中使用特定的随机化装置, 使得被调查者以预定的概率来回答敏感性问题。这一技术的 宗旨就是最大限度地为被调查者保守秘密,从而取得被调查 者的信任。
RRT技术的基本原理在于当被调查者确信调查者及 其他人无法从被调查者的回答中获知他们的真实行为时,能 更加真实地对敏感问题进行回答。并且RRT技术保护调查对 象的个人隐私,能充分得到调查对象的配合,最终可显著降 低无应答率和误答率,得到高质量的调查结果。
常用的抽样方法
精品课件
一、单纯随机抽样(simple random sampling)
1、抽样方法
根据研究目的选定总体,首先对总体中所有 的观察单位编号,遵循随机原则,采用不放回抽取 方法,从总体中随机抽取一定数量观察单位组成样 本。

高中数学统计抽样方法精选题目(附答案)

高中数学统计抽样方法精选题目(附答案)

高中数学统计抽样方法精选题目(附答案)一、抽样方法1.简单随机抽样(1)特征:①一个一个不放回的抽取;②每个个体被抽到可能性相等.(2)常用方法:①抽签法;②随机数表法.2.系统抽样(1)适用环境:当总体中个数较多时,可用系统抽样.(2)操作步骤:将总体平均分成几个部分,再按照一定方法从每个部分抽取一个个体作为样本.3.分层抽样(1)适用范围:当总体由差异明显的几个部分组成时可用分层抽样.(2)操作步骤:将总体中的个体按不同特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样.1.(1)采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7B.9C.10 D.15(2)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.[解析](1)从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n组抽到的号码为a n=9+30(n-1)=30n-21,由451≤30n-21≤750,得23615≤n≤25710,所以n=16,17,…,25,共有25-16+1=10人.(2)小学中抽取30×150150+75+25=18所学校;从中学中抽取30×75150+75+25=9所学校.[答案](1)C(2)189注:1.系统抽样的特点(1)适用于元素个数很多且均衡的总体. (2)各个个体被抽到的机会均等.(3)总体分组后,在起始部分抽样时采用的是简单随机抽样. (4)如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn . 2.与分层抽样有关问题的常见类型及解题策略(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.(3)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数. 2.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )A .抽签法B .系统抽样法C .分层抽样法D .随机数法解析:选C 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法. 3.某学校高一、高二、高三3个年级共有430名学生,其中高一年级学生160名,高二年级学生180名,为了解学生身体状况,现采用分层抽样方法进行调查,在抽取的样本中高二学生有32人,则该样本中高三学生人数为________.解析:高三年级学生人数为430-160-180=90,设高三年级抽取x 人,由分层抽样可得32180=x90,解得x =16. 答案:164.某单位有职工960人,其中青年职工420人,中年职工300人,老年职工240人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为14人,则样本容量为________.解析:因为分层抽样的抽样比应相等,所以420960=14样本容量,样本容量=960×14420=32.答案:32二、用样本的频率分布估计总体的频率分布1.频率分布直方图2.茎叶图5.(1)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5].样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为________.(2)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].①求图中a的值;②根据频率分布直方图,估计这100名学生语文成绩的平均分;③若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60)[60,70)[70,80)[80,90)x∶y 1∶12∶13∶44∶5 [为50×0.18=9.答案:9(2)解:①由频率分布直方图可知(0.04+0.03+0.02+2a)×10=1.所以a=0.005.②该100名学生的语文成绩的平均分约为x=0.05×55+0.4×65+0.3×75+0.2×85+0.05×95=73.③由频率分布直方图及已知的语文成绩、数学成绩分布在各分数段的人数比,可得下表:分数段[50,60)[60,70)[70,80)[80,90)x 5403020x∶y 1∶12∶13∶44∶5y 5204025100-(5+20+40+25)=10.注:与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.6.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为()A.0.2 B.0.4C.0.5 D.0.6解析:选B由茎叶图可知数据落在区间[22,30)内的频数为4,所以数据落在区间[22,30)内的频率为410=0.4,故选B.7.为了了解某学校学生的身体发育情况,抽查了该校100名高中男生的体重情况,根据所得数据画出样本的频率分布直方图如图所示.根据此图,估计该校2 000名高中男生中体重大于70.5公斤的人数为()A .300B .360C .420D .450解析:选B 样本中体重大于70.5公斤的频率为: (0.04+0.034+0.016)×2=0.090×2=0.18.故可估计该校2 000名高中男生中体重大于70.5公斤的人数为:2 000×0.18=360(人). 8.某商场在庆元宵节促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.解析:总销售额为2.50.1=25(万元),故11时至12时的销售额为0.4×25=10(万元).答案:10三、用样本的数字特征估计总体的数字特征有关数据的数字特征9.(1)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A .46,45,56B .46,45,53C .47,45,56D .45,47,53(2)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差(3)由正整数组成的一组数据x 1,x 2,x 3,x 4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)[解析] (1)从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即45+472=46,众数为45,极差为68-12=56,故选择A.(2)由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错.故选C.(3)假设这组数据按从小到大的顺序排列为x 1,x 2,x 3,x 4,则⎩⎨⎧x 1+x 2+x 3+x44=2,x 2+x32=2,∴⎩⎪⎨⎪⎧x 1+x 4=4,x 2+x 3=4, 又s = 14[(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2] =12(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2=122[(x 1-2)2+(x 2-2)2]=1, ∴(x 1-2)2+(x 2-2)2=2. 同理可求得(x 3-2)2+(x 4-2)2=2.由x 1,x 2,x 3,x 4均为正整数,且(x 1,x 2),(x 3,x 4)均为圆(x -2)2+(y -2)2=2上的点,分析知x 1,x 2,x 3,x 4应为1,1,3,3.[答案] (1)A (2)C (3)1,1,3,3 注:平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.10.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③D .②④解析:选B 法一:∵x 甲=26+28+29+31+315=29,x 乙=28+29+30+31+325=30,∴x 甲<x 乙,又s 2甲=9+1+0+4+45=185,s 2乙=4+1+0+1+45=2,∴s 甲>s 乙.故可判断结论①④正确.法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.11.甲和乙两个城市去年上半年每月的平均气温(单位:℃)用茎叶图记录如图所示,根据茎叶图可知,两城市中平均温度较高的城市是__________,气温波动较大的城市是__________.解析:根据题中所给的茎叶图可知,甲城市上半年的平均温度为9+13+17×2+18+226=16,乙城市上半年的平均温度为12+14+17+20+24+276=19,故两城市中平均温度较高的是乙城市,观察茎叶图可知,甲城市的温度更加集中在峰值附近,故乙城市的温度波动较大.答案:乙 乙12.甲、乙两台机床同时加工直径为100 mm 的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm):甲:99,100,98,100,100,103; 乙:99,100,102,99,100,100.(1)分别计算上述两组数据的平均数和方差;(2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求. 解:(1)x 甲=99+100+98+100+100+1036=100(mm),x 乙=99+100+102+99+100+1006=100(mm),s 2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73(mm 2), s 2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1(mm 2).(2)因为s 2甲>s 2乙,说明甲机床加工零件波动比较大,因此乙机床加工零件更符合要求.四、线性回归1.两个变量的线性相关(1)散点图:将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形.(2)正相关与负相关:①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b x .13.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[解] (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000 =-20(x -8.25)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 注:(1)线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算.(2)回归直线方程恒过点(x ,y ).14.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)}共15个基本事件,设抽到相邻两个月的事件为A ,则A ={(1,2),(2,3),(3,4),(4,5),(5,6)}共5个基本事件,∴P (A )=515=13.(2)由表中数据求得x =11,y =24,∑i =14x i y i =1 092,∑i =14x 2i =498.代入公式可得b ^=187.再由a ^=y -b ^x ,求得a ^=-307,所以y 关于x 的线性回归方程为 y ^=187x -307.(3)当x =10时,y ^=1507,⎪⎪⎪⎪1507-22=47<2; 同样,当x =6时,y ^=787,⎪⎪⎪⎪787-12=67<2. 所以该小组所得线性回归方程是理想的.。

1.抽样方法

1.抽样方法
第二步:由于100÷20=5,则将编号按顺序每5个一段, 分成20段; 第三步:在第一段001,002, …, 005这五个编号中用简 单随机抽样法抽出一个(如004)作为起始号码;
第四步:将编号为004,014,024,034,044,054,064, 074,084,094的个体抽出,组成样本。
名; 名; 名;
100
2、在各年级中按简单随机机抽样分别抽取
例1、 某工厂中共有职工3000人,其中,中,青,老 职工的比例有5:3:2,从所有职工中抽取一个样本 容量为400人的样本,应采取哪种抽样方法较合 理?且中,青老年职工应分别抽取多少人? 解: 采用分层抽样较合理.由样本容量为400, 中,青,老职工所占比例为5:3:2,所以应抽取 中年职工为: 400
C
四个特点:①总体个数有限;②逐个抽取; ③不放回;④每个个体机会均等,与先后 无关。
5
抽样方法2
二、分层抽样
问题:某校高一、高二、高三年级分别有学生 1000、800和700名,为了了解全校学生的视力 情况,欲从中抽取容量为100的样本,问怎样抽 取较为合理?
分析:考察对象的特点是由具有明显差异的几部分组成。 当已知总体由差异明显的几部分组成时,为了使 样本更充分地反映总体的情况,常将总体分成几 个部分,然后按照各部分所占的比例进行抽样, 这种抽样叫做“分层抽样”,其中所分成的各部 分叫做“层”。
ቤተ መጻሕፍቲ ባይዱ
k 时,
N n
;当
N
不是整数时,从总体中剔除一些
(4)将编号为 l , l k , l 2k ,..., l (n 1)k 的个体抽出。 简记为:编号;分段;在第一段确定起始号;加 间隔获取样本。
例2:从含有100个个体的总体中抽取20个样本, 请用系统抽样法给出抽样过程。

抽样方法有些抽样方法大全

抽样方法有些抽样方法大全

抽样方法有些抽样方法大全抽样方法是指从总体中选取一部分样本进行调查或研究的方法。

抽样方法的选择对于研究结果的可靠性和推广性有着重要的影响。

下面是一些常用的抽样方法:1. 简单随机抽样(Simple Random Sampling):在总体中的每个个体具有相同的被选中的机会,通过随机抽取样本来代表总体。

2. 分层抽样(Stratified Sampling):将总体分成若干层次,每一层次中的个体具有相似的特征,然后从每个层次中随机抽取样本。

3. 整群抽样(Cluster Sampling):将总体划分为若干个群组,然后通过随机抽取部分群组来代表总体,然后在所选的群组中进行全面调查。

4. 系统抽样(Systematic Sampling):根据固定的抽样间隔,从总体中随机选择一个起始点,然后按照固定的间隔依次选取样本。

5. 多阶段抽样(Multistage Sampling):将总体分层和分群组,然后通过多个抽样阶段来实现抽样,通常用于大规模调查。

6. 比率抽样(Ratio Sampling):根据总体中的其中一特征的比例,确定样本的大小。

例如,如果总体中男性比例是60%,则样本中男性比例也应该是60%。

7. 效应抽样(Convenience Sampling):根据研究者的方便或可获得性,选择样本。

这种方法容易产生偏差,结果可能无法推广到整个总体。

8. 整齐抽样(Quota Sampling):根据总体中一些特征的比例,确定样本的大小。

例如,如果总体中男性比例是60%,则样本中男性数量也应该是60%。

9. 小组抽样(Snowball Sampling):从已经选择的样本中获取参与者的指引,逐渐扩大样本规模,并在招募新样本时依靠参与者的推荐。

10. 专家抽样(Expert Sampling):指选择一些具有特定知识、经验或技能的专家作为样本,以获取专业领域的意见或建议。

以上是一些常用的抽样方法,每种方法都有其适用的场景和限制,研究者需要根据研究目的、总体特征、样本大小和可行性等因素综合考虑选择最合适的抽样方法。

常见的随机抽样方法介绍

常见的随机抽样方法介绍

抽样方法介绍朱一军福建省产品质量检验研究院一、随机方法选择及随机数产生按照GB/T10111-2008《随机数的产生及其在产品质量抽样检验中的应用程序》的要求,并根据受检单位的产品堆放形式、基数(批量)大小,确定抽样方法通常包括简单随机抽样、分层随机抽样、系统抽样、整群抽样、全数抽样五种方法)。

随机数一般可使用随机数表、骰子或扑克牌中任选一种方式产生。

(一)简单随机抽样(抽签法、随机样数表法)常常用于总体个数较少时,它的主要特征是从总体中逐个抽取;优点:操作简便易行缺点:总体过大不易实行1.定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n 个个体作为样本(nWN),如果每次抽取式总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。

2.简单随机抽样方法(1)抽签法一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本。

(抽签法简单易行,适用于总体中的个数不多时。

当总体中的个体数较多时,将总体“搅拌均匀”就比较困难,用抽签法产生的样本代表性差的可能性很大)(2)随机数法随机抽样中,另一个经常被采用的方法是随机数法,即利用随机数表、随机数骰子或计算机产生的随机数进行抽样。

(二)分层抽样(StratifiedRandomSampling)主要特征分层按比例抽样,主要使用于总体中的个体有明显差异。

共同点:每个个体被抽到的概率都相等N/M。

定义一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样(stratifiedsampling)。

(三)系统抽样当总体中的个体数较多时,采用简单随机抽样显得较为费事。

这时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。

1抽样方法(1)简单随机抽样(抽签法

1抽样方法(1)简单随机抽样(抽签法

1抽样方法(1)简单随机抽样(抽签法1.抽样方法:(1)简单随机抽样(抽签法、随机数表法)常常用于总体个数较少时,它的特点是从总体中逐个抽取;(2)系统抽样也叫等距离抽样,常用于总体个数较多时,它的要紧特点是均衡成若干部分,每部分只取一个;(3)分层抽样,要紧特点是分层按比例抽样,要紧用于总体中有明显差异,它们的共同点:每个个体被抽到的概率都相等n N ,体现了抽样的客观性和平等性。

如(1)某社区有500个家庭,其中高收入家庭125户,中等收入家庭280户,低收入家庭95。

为了调查社会购买力的某项指标,要从中抽取一个容量为100户的样本,把这种抽样记为A;某中学高中一年级有12名女排运动员,要从中选取3人调查学习负担的情形,把这种抽样记为B,那么完成上述两项调查应分别采纳的抽样方法:A为_______,B为_____。

(答:分层抽样,简单随机抽样);(3)某中学有高一学生4 00人,高二学生300人,高三学生300人,现通过分层抽样抽取一个容量为n的样本,已知每个学生被抽到的概率为0.2,则n= _______(答:20 0);(4)容量为100的样本拆分成10组,前7组的频率之和为0.79,而剩下的三组的频数组成等比数列,且其公比不为1,则剩下的三组中频数最大的一组的频率是______(答:0.16);(5)用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为2的样本,则某一个体a“第一次被抽到的概率”,“第一次未被抽到,第二次被抽到的概率”,“在整个抽样过程中被抽到的概率”分别是______________(答:111,, 10105);2.总体分布的估量:用样本估量总体,是研究统计咨询题的一个差不多思想方法,即用样本平均数估量总体平均数(即总体期望值――描述一个总体的平均水平);用样本方差估量总体方差(方差和标准差是描述一个样本和总体的波动大小的特点数,方差或标准差越小,表示那个样本或总体的波动越小,即越稳固)。

常见的随机抽样方法介绍

常见的随机抽样方法介绍

常见的随机抽样方法介绍抽样方法介绍朱一军福建省产品质量检验研究院一、随机方法选择及随机数产生按照GB/T 10111-2008 《随机数的产生及其在产品质量抽样检验中的应用程序》的要求,并根据受检单位的产品堆放形式、基数(批量)大小,确定抽样方法(通常包括简单随机抽样、分层随机抽样、系统抽样、整群抽样、全数抽样五种方法)。

随机数一般可使用随机数表、骰子或扑克牌中任选一种方式产生。

(一)简单随机抽样(抽签法、随机样数表法)常常用于总体个数较少时,它的主要特征是从总体中逐个抽取;优点:操作简便易行缺点:总体过大不易实行1. 定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≦N),如果每次抽取式总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。

2. 简单随机抽样方法(1)抽签法一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本。

(抽签法简单易行,适用于总体中的个数不多时。

当总体中的个体数较多时,将总体“搅拌均匀”就比较困难,用抽签法产生的样本代表性差的可能性很大)(2)随机数法随机抽样中,另一个经常被采用的方法是随机数法,即利用随机数表、随机数骰子或计算机产生的随机数进行抽样。

(二)分层抽样(Stratified Random Sampling) 主要特征分层按比例抽样,主要使用于总体中的个体有明显差异。

共同点:每个个体被抽到的概率都相等N/M。

定义一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样(stratified sampling)。

(三)系统抽样当总体中的个体数较多时,采用简单随机抽样显得较为费事。

这时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计1.抽样方法:(1)简单随机抽样(抽签法、随机数表法)常常用于总体个数较少时,它的特征是从总体中逐个抽取;(2)系统抽样也叫等距离抽样,常用于总体个数较多时,它的主要特征是均衡成若干部分,每部分只取一个;(3)分层抽样,主要特征是分层按比例抽样,主要用于总体中有明显差异,它们的共同点:每个个体被抽到的概率都相等nN,体现了抽样的客观性和平等性。

如(1)某社区有500个家庭,其中高收入家庭125户,中等收入家庭280户,低收入家庭95。

为了调查社会购买力的某项指标,要从中抽取一个容量为100户的样本,把这种抽样记为A;某中学高中一年级有12名女排运动员,要从中选取3人调查学习负担的情况,把这种抽样记为B,那么完成上述两项调查应分别采用的抽样方法:A为_______,B为_____。

(答:分层抽样,简单随机抽样);(3)某中学有高一学生400人,高二学生300人,高三学生300人,现通过分层抽样抽取一个容量为n的样本,已知每个学生被抽到的概率为0.2,则n= _______(答:200);(4)容量为100的样本拆分成10组,前7组的频率之和为0.79,而剩下的三组的频数组成等比数列,且其公比不为1,则剩下的三组中频数最大的一组的频率是______(答:0.16);(5)用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为2的样本,则某一个体a“第一次被抽到的概率”,“第一次未被抽到,第二次被抽到的概率”,“在整个抽样过程中被抽到的概率”分别是______________(答:111,,10105);2.总体分布的估计:用样本估计总体,是研究统计问题的一个基本思想方法,即用样本平均数估计总体平均数(即总体期望值――描述一个总体的平均水平);用样本方差估计总体方差(方差和标准差是描述一个样本和总体的波动大小的特征数,方差或标准差越小,表示这个样本或总体的波动越小,即越稳定)。

一般地,样本容量越大,这种估计就越精确。

总体估计要掌握:(1)“表”(频率分布表);(2)“图”(频率分布直方图)。

频率分布直方图的特征:(1)从频率分布直方图可以清楚的看出数据分布的总体趋势。

(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。

频率直方图的作法:(1)算数据极差();minmaxxx-(2)决定组距和组数;(3)决定分点;(4)列频率分布表;(5)画频率直方图。

提醒:直方图的纵轴(小矩形的高)一般是频率除以组距的商(而不是频率),横轴一般是数据的大小,小矩形的面积表示频率。

组数的决定方法是:设数据总数目为n,50≤n时,分为8~5组;10050≤<n时,分为12~8组.如(1)一个容量为20的样本数据,分组后组距与频数如下:(10,20],2;(20,30],3;(30,40],4;(40,50],5;(50,60],4;(60,70],2;则样本在区间]50,50(-上的频率为A.5%B.25%C.50%D.70%(答:D);(2)已知样本:10 8 6 10 13 8 10 12 11 7 8 9 11 9 12 9 10 11 12 12 ,那么频率为0.3的范围是A.5.5~7.5 B.7.5~9.5C.9.5~11.5 D.11.5~13.5(答:B);(3)观察新生儿的体重,其频率分布直方图如图所示,则新生儿的体重在[2700,3000]的频率为_______(答:0.3);(4)如图,是一次数学考试成绩的样本频率分布直方图(样本容量n=200),若成绩不低于60分为及格,则样本中的及格人数是_____(答:120);(5) 有同一型号的汽车100辆,为了解这种汽车每蚝油1L所行路程的情况,现从中随即抽出10辆在同一条件下进行蚝油1L所行路程实验,得到如下样本数据(单位:km ):13.7,12.7,14.4,13.8, 13.3,12.5,13.5,13.6,13.1,13.4,其分组如下: (2)根据上表,在给定坐标系中画出频率分布直线图,并根据样本估计总体数据落在[12.95,13.95)中的概率;(3)根据样本,对总体的期望值进行估计 解:(1)频率分布表:分组频数 频率 [12.45,12.95) 2 0.2 [12.95,13.45) 3 0.3 [13.45,13.95) 4 0.4 [13.95,14.45)10.1合计 10 1.0(2)频率分布直方图:估计总体数据落在[12.95,13.95)中的概率为0.7(3)0.7(0.3) 1.40.80.3(0.5)0.50.60.10.41310x -+-++++-++++=+=13.4因此,总体的期望值进行估计约为13.4.(6)为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.(1) 第二小组的频率是多少?样本容量是多少? (2) 若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3) 在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由。

分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。

解:(1)由于频率分布直方图以面积的形式反分组频数 频率 [12.45,12.95) [12.95,13.45) [13.45,13.95) [13.95,14.45) 合计101.090101112131415o0.000.000.010.010.020.020.02频率/组距0.030.03映了数据落在各小组内的频率大小,因此第二小组的频率为:40.0824171593=+++++又因为频率=第二小组频数样本容量,所以 121500.08===第二小组频数样本容量第二小组频率 (2)由图可估计该学校高一学生的达标率约为171593100%88%24171593+++⨯=+++++(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内。

3、样本平均数: 12111()n n i i x x x x x nn ==+++=∑。

如有一组数据:x 1,x 2,…,x n (x 1≤x 2≤…≤x n ),它们的算术平均值为20,若去掉其中的x n ,余下数据的算术平均值为18,则x n 关于n 的表达式为 (答:218n x n =+)。

4、样本方差:2222121[()()()]n s x x x x x x n=-+-++-211()n i i x x n ==-∑; 样本标准差:(n s x x =++-。

如(1)甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环)(答:甲);(2)已知实数)2(,,,21≥n x x x n 的期望值为x ,方差为2S ,∑=-=n i i a x n m 12)(1,若x a ≠,则一定有A .m S >2B .m S <2C .m S =2D .2S 与m 无法比较大小(答:B ); (3)某班40人随机平均分成两组,两组学生一次考试的成绩情况如下表: 则全班的平均分为_______,方差为______(答:85,51) 提醒:若12,,,n x x x 的平均数为x ,方差为2s ,则12,,,n ax b ax b ax b +++的平均数为ax b +,方差为22a s 。

如已知数据n x x x ,,,21 的平均数5=x,方差42=S ,则数据73,,73,7321+++n x x x 的平均数和标准差分别为 A .15,36 B .22,6 C .15,6 D .22,36(答:B ) 5.茎叶图(1) 茎叶图的画法:①将每个数据分为茎(高位)与叶(低位)两部分,②将最大茎和最小茎之间的数按大小顺序排成一列,③将各数据的叶依先后次序写在其茎的左(右)两侧. (2)茎叶图的特征: (1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。

(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。

6. 独立性检验独立性检验是检定两个事件间是否独立的统计方法,是卡方检验的一个应用. 卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验.即根据样本的频数分布来推断总体的分布,卡方独立性检验的零假设是各事件之间相互独立.卡方值永远大于零. χ2的两个临界值分别是3.841,与6.635.2x ≤3.841时,接受假设即两事件无关. 相关系数是测定变量之间相关密切程度和相关方向的代表性指标。

相关系数用符号“r”表示,其特点表现在:参与相关分析的两个变量是对等的,不分自变量和因变量,改变两变量的地位并不影响相关系数的数值,因此相关系数只有一个;相关系数有正负号反映相关系数的方向,正号反映正相关,负号反映负相关;回归和相关都是研究两个变量相互关系的分析方法。

相关分析研究两个变量之间相关的方向和相关的密切程度。

但是相关分析不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。

回归方程则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量。

为估算预测提供一个重要的方法。

相关性检验的步骤是:(1)做统计假设:x 与Y 不具备线性相关关系.(2)根据小概率0.05与2n -查出r 的一个临界值.(3)根据样本相关系数公式计算出r 的值.(4)作统计推断:如果0.05,r r >表明95%的把握认为x 与Y 之间具备线性相关关系,如果0.05,r r ≤接受假设.提醒:A 与B 有关并不意味着A 的发生必然导致B 的发生.7.回归分析回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。

在回归分析中,由X 推算Y 与由Y 推算X 的回归方程是不同的,不可混淆:2()(),()ii ix x y y b a y bxx x --==--∑∑由x 推y 2()(),()i iix x y y b a x byy y --==--∑∑由y 推x .与相关分析相比,回归分析的特点是:两个变量是不对等的,只能用自变量来估计因变量,而不允许由因变量来推测自变量,必须区分自变量,一般说,事物的原因作自变量X.回归分析和相关分析是互相补充、密切联系的。

相关文档
最新文档