抽样理论讲义

合集下载

随机抽样 - 简单 - 讲义

随机抽样 - 简单 - 讲义

随机抽样知识讲解一、统计中的相关概念总体:所考察对象的某一数值指标的全体构成的集合看作总体.个体:构成总体的每一个元素作为个体.样本:从总体中抽出若干个体所组成的集合叫做样本.样本容量:样本中个体的数目叫样本容量.统计的基本思想方法:用样本估计总体,即通常不去直接去研究总体,而是通过从总体中随机抽取一个样本,根据样本的情况去估计总体的相应情况.二、简单随机抽样1.简单随机抽样的概念概念:一般地,从元素个数为N的总体中不放回地抽取容量为n样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.2.简单随机抽样的特点1)被抽取样本的总体的个数有限;2)从总体中逐个地进行抽取,使抽样便于在实践中操作;3)它是不放回抽样,使其具有广泛的应用性;4)它是等可能抽样,每个个体被抽到的可能性都是nN,保证了抽样方法的公平性.3.常用的简单随机抽样方法1)抽签法:把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一张号签,连续抽取n次,就得到一个容量为n的样本.抽签法的步骤:a.编号,即给总体中的所有个体编号,号码可以从1到N.b.制签,即将1~N这N个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作).c搅拌均匀,即将号签放在一个不透明的容器中,搅拌均匀..d逐个不放回抽取,即从容器中每次抽取一个号签,并记录其编号,连续抽取n次.抽签法的优缺点:.a优点:简单易行..b缺点:当总体的容量非常大时,费时、费力又不方便.况且,如果号签搅拌的不均匀,可能导致抽样的不公平.2)随机数表法:随机数表是由0,1,2,,9L这10个数字组成的数表,并且表中的每一位置出现各个数字的可能性相同.通过,随机数表,根据实际需要和方便使用的原则,将几个数组合成一组,然后通过随机数表抽取样本.随机数表法的步骤:.a编号,即将总体中的所有个体进行编号(每个号码位数一致);.b在随机数表中任选一个数作为起始号码;.c从选定的数开始按一定的方向读下去,得到的号码若不在编号中,则跳过,若再编号中,则取出,如果得到的号码前面已经取出,也跳过,如此继续下去,直到取满为止;随机数表法的优缺点:.a优点:简单易行,它很好的解决了用抽签法当总体中的个体数较多时制签难的问题..b缺点:当总体中的个体数很多,需要的样本容量也很大时,用随机数表法抽取仍不方便.4.简单随机抽样的应用应用:常用的简单随机抽样方法有抽签法和随机数表法.抽签法一般适用于容量较小的总体,易于操作;随机数表法解决了制签比较麻烦的问题,但在利用“随机数表法”进行简单随机抽样时,要严格按照课本中介绍的步骤,否则易出错误.结合具体的问题,我们应灵活使用这两种方法.三、系统抽样1.系统抽样的概念概念:当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样.(由于抽样样的间隔相等,因此系统抽样也被称作等距抽样)2.系统抽样的步骤:1)编号,即将总体中的个体编号.为方便起见,也可直接利用个体所带有的号码,如准考证号、门牌号等;2)分段,即为将整个的编号进行分段,要确定分段的间隔k .当N n 是整数时,N k n =;当Nn不是整数时,则可用简单随机抽样的方法从总体中剔除一些个体,使剩下的总体中个体个数'N 能被n 整除,这时'N k n=. 3)确定起始个体编号,即由数字1~k 中随机抽取一个数S .4)按照预先确定的规则抽取样本,即通常是将S 依次加上间隔k 的倍数,这样样本的编号依次是:,,2,,(1).S S k S k S n k +++-L3.系统抽样的公平性当N n 是整数时,N k n =;当Nn不是整数时,则可用简单随机抽样的方法从总体中剔除一些个体,使剩下的总体中个体个数'N 能被n 整除,这时'N k n=,上述过程中,总体的每个个体被剔除的可能性相同,也就是说每个个体不被剔除的可能性相同,所以在整个抽样过程中每个个体抽取的可能性仍然相同.4.系统抽样的特点1)适用于总体容量较大的情况;2)剔除多余个体及第一段抽样都用简单随机抽样,因而与简单随机抽样有密切联系; 3)它是等可能抽抽样,每个个体被抽到的可能性都是nN. 四、分层抽样1.分层抽样的概念概念:当总体由有明显差别的几部分组成时,为了使抽取的样本更好地反映总体的情况,我们经常将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这样的抽样方法叫做分层抽样.2.分层抽样的步骤1)分层,即将总体中各个个体按某种特征分成若干个互不重叠的几部分; 2)按比例确定每层抽取个体的个数;3)各层抽样,即各层中采用简单随机抽样或系统抽样抽取相应的个数; 4)汇合成样本.3.分层抽样的特点1)适用于总体由差异明显的几部分组成的情况;2)更充分的反映了总体的情况;3)它是等可能抽样,每个个体被抽到的可能性都是nN .五、三种抽样方式的区别与联系典型例题一.选择题(共5小题)1.(2015•湖北)我国古代数学名著《九章算术》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石【解答】解:由题意,这批米内夹谷约为1534×≈169石,故选:B.2.(2014•重庆)某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为()A.100 B.150 C.200 D.250【解答】解:分层抽样的抽取比例为=,总体个数为3500+1500=5000,∴样本容量n=5000×=100.故选:A.3.(2014•广东)为了解1000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为()A.50 B.40 C.25 D.20【解答】解:∵从1000名学生中抽取40个样本,∴样本数据间隔为1000÷40=25.故选:C.4.(2014•湖南)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为P1,P2,P3,则()A.P1=P2<P3B.P2=P3<P1C.P1=P3<P2D.P1=P2=P3【解答】解:根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,即P1=P2=P3.故选:D.5.(2013•湖南)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=()A.9 B.10 C.12 D.13【解答】解:∵甲、乙、丙三个车间生产的产品件数分别是120,80,60,∴甲、乙、丙三个车间生产的产品数量的比依次为6:4:3,丙车间生产产品所占的比例,因为样本中丙车间生产产品有3件,占总产品的,所以样本容量n=3÷=13.故选:D.二.填空题(共2小题)6.(2017•江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取18件.【解答】解:产品总数为200+400+300+100=1000件,而抽取60件进行检验,抽样比例为=,则应从丙种型号的产品中抽取300×=18件,故答案为:187.(2012•江苏)某学校高一、高二、高三年级的学生人数之比为3:3:4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取15名学生.【解答】解:∵高一、高二、高三年级的学生人数之比为3:3:4,∴高二在总体中所占的比例是=,∵用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,∴要从高二抽取,故答案为:15三.解答题(共3小题)8.从2开始的200个偶数,即2、4、6、8…400中,用系统抽样的办法抽取20个偶数作样本.【解答】解:S1:编号,把2、4、6、8…400这200个偶从002到400按偶数次序编号;S2:分段,计算分间隔为k==10,把编号从小到大依次分成20段,每段10个号;S3:定首号,在第一段002~020的10个号中,用简单随机抽样的方法,抽取一个号码,假设抽中的是008;S4:取余号,依次抽取008,028,048,068,088,108,128,148,168,188,208,228,248,268,288,308,328,348,368,388.9.某校组织高一学生对所在市的居民中拥有电视机、电冰箱、组合音响的情况进行一次抽样调查,调查结果:3户特困户三种全无;有一种的:电视机1090户,电冰箱747户,组合音响850户;有两种的:电视机、组合音响570户,组合音响、电冰箱420户,电视机、电冰箱520户;“三大件”都有的265户.调查组的同学在统计上述数字时,发现没有记下被调查的居民总户数,你能避免重新调查而解决这个问题吗?【解答】解:由题意,抽样调查总数3+265+255+265+72+305+155+125=1445户,∴有两种的有1445﹣3﹣747﹣265=430户,故比例为3:747:430:265,利用分层抽样即可解决.10.某地区工人的平均工资是15元/小时,标准差为4元/小时.若从该地区抽取n=50个工厂,问所取得样本的平均工资的期望和方差各是多少?平均工资的抽样分布是什么?【解答】解:∵某地区工人的平均工资是15元/小时,∴抽取的样本的期望是15.∵标准差为4元/小时,∴抽取样本的方差是16.抽样分布符合二项分布,即X~N(15,16).。

抽样检验讲义

抽样检验讲义

抽样检验讲义·检验:ISO9000:2000下的定义:通过观察和判断,适当时结合测量、试验,所进⾏的符合性评价。

·全数检验:即百分之百检验,⼀般在以下情况下适⽤(1)检验是⾮破坏性的;(2)检验的项⽬少,数量少,费⽤少;(3)影响产品质量的重要特性项⽬;(4)昂贵的、⾼精度或重型的产品;(5)能够应⽤⾃动化检验⽅法的产品和零部件。

·抽样检验:就是从⼀批产品中随机抽取⼀部份进⾏检验,并据此判定该批产品是否合格的活动。

本教材抽检检验与抽样验收是同⼀概念。

·抽样检验适⽤的范围:1、破坏性检查验收;2、测量对象是连续体(流程性材料);3、产品数量多;4、希望节省单位检验费⽤和时间。

·经过抽样检验判为合格的批,不等于批中每个产品都合格。

经过抽样检验判为不合格的批,不等于批中全部产品都不合格,合格批只是允许含有不超过规定限量的不合格品,⽽被拒收的不合格批,只是不合格品超过限量,其中⼤部分可能仍然是合格品。

第⼀节基本概念⼀、名词术语1、抽样检验按产品的质量特性不同分为两⼤类:计件检验:将单位产品简单地分成合格品或不合格品计数抽样检验抽样检验计点检验:只是统计出单位产品中不合格数的检验计量抽样检验:按照给定的产品技术标准,将单位产品的质量特性⽤连续尺度量出其具体数值的抽样检验。

例:检验⼀批轴的平均长度是否符合要求和检验⼀批轴⾥包含的不合格品数的主要区别在于:A、检验资料性质不同B、抽取样本的⽅式不同C、抽取样本个数不同2、单位产品:为了实施抽样检验⽽划分的单位体或单位量:包括⾃然划分和⼈为划分。

⼀台电视机与钢⽔、布匹等划分单位体的区别。

3、检验批:它是作为检验对象⽽汇集起来的⼀批产品:应由⽣产条件、⽣产时间基本相同,同型号、同等级、同种类(尺⼨、特性、成分等)的单位产品数组成。

它可以和投产批,销售批,运输批相同或不同。

4、批量:检验批中单位产品的数量,⽤N表⽰。

抽样教学课件 PPT

抽样教学课件 PPT
抽样教学课件
第一节 抽样得意义与作用
一、抽样得概念
1、总体:构成它得所有元素(个体、分析单位、研 究对象)得集合,就是从中抽取样本得元素(个体) 得集合体。
2、样本:按照一定方法从调查总体中抽取出来元 素得集合 。
3、抽样:从总体中按照一定方式抽取样本得过程。
4、抽样单位:指一次直接抽样过程中使用得基本 单位,它往往就是多层次得。
4、优缺点
优点:方便易行、较为灵活,特别适用于调查 范围大,单位多,情况复杂得调查对象
缺点:误差较大,可相应增加开头阶段得样本 数而减少最后阶段得样本数。
第四节 户内抽样与PPS抽样
一、户内抽样得方法——kish选择法
1、kish选择法 (1)将调查表分为八种, A、B1、B2、C、D、 E1、E2、F, A、C、D、F各占总数得1/6、 B1、 B2、 E1、E2 1各占/12。 (2)印制相应八种选择卡 (3)将家体中成员进行排序编号,顺序就是:最 年长男性、次年长男性……最年幼男性、最 年长女性、次年长女性……最年幼女性 (4)按照调查表上得编号,用相应得选择卡进 行选择。
抽样得程序
总体 抽样框
抽样方法
样本
四、抽样设计得原则
1、目得性原则: 以课题研究得总体方案与研究目标为依据
2、可测性原则 能够从样本自身计算出有效得估计值或抽样 变动得近似值。
3、可行性原则 抽样方案必须在实践中切实可行
4、经济性原则 方案设计与研究得经费、时间、人力等适应
大家有疑问的,可以询问和交流
元素2
G院
900
9
70 061~070 076
元素3
H院
800
8
78 071~078

抽样理论培训讲义

抽样理论培训讲义

抽樣理論培訓講義一.培訓目的讓檢查員熟悉抽樣檢驗的基本概念,熟練運樣抽樣方案。

二.培訓內容1.質量抽樣理論的創建美國貝爾實驗室分為過程控制組:學術負責人為休哈特,產品控制組:學術負責人道奇,前者創建SPC理論,後者創建了質量抽樣理論,美國軍方採用了此理論,從而現行之MIL-STD-105E為美國軍用抽樣標準。

2.抽樣的基本概念(1)樣本:是取自總體中的一個或每個個體,用於提供總體的信息並作為可能作出對總體的某種判定的基礎。

(2)抽樣:隨機抽取或組成樣本的過程為抽樣(SAMPLING INSPECTION)3.樣本數(大小):樣本中所包含的抽樣單位數目(SAMPIE SIZE)4.簡單隨機抽樣:從N個個體的總體中抽取n個個體的所有可能組合被抽取的概率都相同,舉例說明:已知實際不良率,求抽樣概率的計算公式P(n,r/p)=C r n Pr(1-p)n-r5.相關術語及定義(1)批:在一致條件下或按規定方式匯總起來的一定數量的個體。

批量:一批中包含的個體數量(2)缺陷:⏹致命缺陷(CRI):對使用維護產品或與此有關人員可能造成危害或不安全狀況的缺陷,或可能損壞重要的最終產品的基本功能的缺陷。

⏹嚴重缺陷(MAJ):不致於致命缺陷,能引起失效或顯著降低預期性能的缺陷。

⏹輕微缺陷(MIN):不顯著降低產品預期性能的缺陷,或偏離標準隻輕微影響產品的有效使用或操作的缺陷。

(3)抽樣檢驗的分類:⏹按檢驗數分:全檢,抽檢,免檢⏹按檢驗次數分:單次,雙次,多次,序貫,截尾⏹按檢驗程度分:減量,正常,加嚴一般開始使用正常檢驗正常檢驗-----嚴格檢驗:連續抽檢5批中有2批被拒收嚴格檢驗-----正常檢驗:連續5批允許,則調回正常檢驗-----減量檢驗:連續10批全被允收者⏹檢驗連續性:連續性,非連續性(4)MIL-STD-105E抽樣標準講解概念:AQL(Acceptable Quality Level)質量允收水準使用方法講解:⏹根據批量對應樣本大小⏹根據抽樣方案嚴重程度及AQL值對應AC RE⏹根據箭頭所指方向改變抽樣方案⏹舉例:來料10000PCS AQL=0.4求AC RE使用程序:⏹確立品質標準⏹規定檢查水平⏹AQL確定⏹確定樣本量⏹確定抽樣方案⏹查得AC RE。

抽样定理99615上课讲义

抽样定理99615上课讲义

抽样定理99615第一章信源编码技术实验一抽样定理实验一、实验目的1、了解抽样定理在通信系统中的重要性。

2、掌握自然抽样及平顶抽样的实现方法。

3、理解低通采样定理的原理。

4、理解实际的抽样系统。

5、理解低通滤波器的幅频特性对抽样信号恢复的影响。

6、理解低通滤波器的相频特性对抽样信号恢复的影响。

7、理解带通采样定理的原理。

二、实验器材1、主控&信号源、3号模块各一块2、双踪示波器一台3、连接线若干三、实验原理1、实验原理框图图1-1 抽样定理实验框图2、实验框图说明抽样信号由抽样电路产生。

将输入的被抽样信号与抽样脉冲相乘就可以得到自然抽样信号,自然抽样的信号经过保持电路得到平顶抽样信号。

平顶抽样和自然抽样信号是通过开关S1切换输出的。

抽样信号的恢复是将抽样信号经过低通滤波器,即可得到恢复的信号。

这里滤波器可以选用抗混叠滤波器(8阶3.4kHz 的巴特沃斯低通滤波器)或FPGA 数字滤波器(有FIR 、IIR 两种)。

反sinc 滤波器不是用来恢复抽样信号的,而是用来应对孔径失真现象。

要注意,这里的数字滤波器是借用的信源编译码部分的端口。

在做本实验时与信源编译码的内容没有联系。

四、实验步骤实验项目一抽样信号观测及抽样定理验证概述:通过不同频率的抽样时钟,从时域和频域两方面观测自然抽样和平顶抽样的输出波形,以及信号恢复的混叠情况,从而了解不同抽样方式的输出差异和联系,验证抽样定理。

1、关电,按表格所示进行连线。

出)2、开电,设置主控菜单,选择【主菜单】→【通信原理】→【抽样定理】。

调节主控模块的W1使A-out输出峰峰值为3V。

3、此时实验系统初始状态为:被抽样信号MUSIC为幅度4V、频率3K+1K正弦合成波。

抽样脉冲A-OUT为幅度3V、频率9KHz、占空比20%的方波。

4、实验操作及波形观测。

(1)观测并记录自然抽样前后的信号波形:设置开关S13#为“自然抽样”档位,用示波器分别观测MUSIC主控&信号源和抽样输出3#。

抽样设计的理论与方法讲义

抽样设计的理论与方法讲义

抽样设计的理论与方法讲义引言抽样设计是统计学中重要的概念,它涉及到从一个总体中选取一局部样本来进行研究,以代表总体的特征。

抽样设计的正确性和有效性对于研究结果的可靠性至关重要。

本讲义将介绍抽样设计的理论和方法,帮助读者了解如何进行适宜的抽样设计以及如何评估抽样结果的可靠性。

一、抽样设计的根本概念1.1 总体和样本在抽样设计中,我们需要明确研究的总体和样本的概念。

总体是我们希望研究的对象的全体,而样本那么是从总体中选取的一局部个体。

样本应该具有代表性,能够反映总体的特征。

1.2 抽样误差抽样误差是指样本统计量与总体参数之间的差异。

抽样误差包括抽样偏差和抽样变异两个方面。

抽样偏差是由于样本选择方式的不同导致的误差,而抽样变异是由于随机性导致的误差。

二、抽样设计的方法2.1 简单随机抽样简单随机抽样是一种最根本的抽样方法,每个个体都有相同的概率被选中。

简单随机抽样的优点是易于实施,但在总体规模较大时,本钱较高。

在进行简单随机抽样时,可以使用随机数表或者计算机随机数生成器来选择样本。

2.2 分层抽样分层抽样是将总体划分为假设干个层次,并分别从每个层次抽取样本。

这种抽样方法的优势是可以更好地控制样本的代表性和效率。

在进行分层抽样时,需要确定适宜的层次划分规那么,并保证每个层次内部的可变性较小。

2.3 整群抽样整群抽样是将总体划分为假设干个群体,然后从每个群体中抽取所有的个体作为样本。

这种抽样方法的优势是可以减少样本选择的本钱,但可能会导致群体内的个体之间的相似性较高。

2.4 多阶段抽样多阶段抽样是将总体划分为假设干个阶段,然后依次进行抽样。

多阶段抽样的优势是可以灵巧地控制抽样过程,并确保样本的多样性。

在进行多阶段抽样时,需要注意每个阶段的抽样方法和样本数量。

2.5 效率优化的抽样设计除了以上介绍的常用抽样设计方法外,还有一些效率优化的抽样设计方法,例如系统抽样、整体重复抽样和分层整群抽样等。

这些方法都是为了在保证样本代表性的前提下,尽可能降低抽样的本钱和时间。

抽样理论与方法(统计学专业)知识讲稿

抽样理论与方法(统计学专业)知识讲稿

1.1.1. 非概率抽样
判断抽样 研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提 供所需要信息的人作为样本。
含义:又称立意抽样法,它是指由市场调查的专家依据自己的判断来选取 样本的一种方法。 适用范围:总体的构成单位差异较大而样本数又很小的情况
优点:因为是按照调查人员的需要来选定样本,所以较好地满足了特殊 的调查需要。
放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。
统计学专业硕士课
2.1.1 放回简单随机抽样
简单随机抽样的抽取原则: (1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已知的或事先确定的; (3)每个抽样单元被抽中的概率都是相等的。
统计学专业硕士课
2.1.1 放回简单随机抽样
统计学专业硕士课
1.1.1. 非概率抽样
适用范围 (1)可用于经常性的市场调查; (2)可用于正式市场调查之前的试验调查; (3)任意调查适用于同质总体。
优点:方便、灵活,简便易行,及时取得所需资料,节约时间 和费用成本低 缺点:因为个体差异性,抽样误差很大,结果不够可靠,应用 价值较低
统计学专业硕士课
and control the costs of survey data collection. * 在固定费用下精度最高; * 或在一定精度条件下调查总费用最省;
统计学专业硕士课
1.3 抽样调查的发展简史
百年历史,全面调查——非全面,推论统计的发展——数理统计的 分支。
1. 个别场合适用,1802法国数学家拉普拉斯,人口调查,两阶段 (便利),比估计(出生人口)
评估样本质量:质量、代表性、偏差
将可得到的反映总体中某些重要特征及其分布的资料与样本
中的同类指标进行对比。

抽样检验培训讲义

抽样检验培训讲义

(10* k1+ 500 * k2)/ 1,000 * k
(10* k1+ 500 * k2)/ 1,000 * k ≤ AQL%
二、 GB/T 2828介绍
引用GB/T2828应规定的内容 1、规定单位产品
为实施抽样检验的需要而划分的基本单位。 2、规定检验批
为实施抽样检验而汇集起来的单位产品构成的 集合。 3、按不合格的分类分别规定接收质量限(AQL) 4、按不合格的分类分别规定检验水平(IL) 5、按不合格的分类分别规定抽样方案类型
(4)不合格分类是整个抽样系统的重要特点;
(5)供方质量一贯好时,可按转移规则采取放宽检 验;
(6)更多地靠实践经验,而非完全统计学。
(五)GB/T2828的若干要素
1、过程平均
一定时期或一定产品范围内的稳定生产的 过程水平的平均值称为过程平均。
“稳定生产条件下一系列连续提交的平均 不合格品率”
理论表达式:P= D1+D2+…..DKⅹ100%
(3) AQL 的数值
在抽样方案(n;Ac Re)中, n总是指样本量(件 数);
不合格项数
不合格数
不合格点数
当AQL指不合格品百分数时,Ac指样本中允许 的最大不合格品数,抽取n件并检测后,应 统计样本中含有的不合格品数d,用d与Ac 比较,以确定是否接收该批。
当AQL指每百单位产品不合格数时,Ac指 样本中允许的最大不合格数,抽取n件并 检测后,应统计样本中含有的不合格数 d,用d与Ac比较,以确定是否接收该批。
☼一次抽样方案的检索方法总结如下:
加严一次抽样方案T (8;0 1) 跟着箭头走,见数就停留,同行是方案
,千万别回头。
放宽一次抽样方案R (2;0 1)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

抽样讲义壹、导论抽样得意思顾名思义,就就是从全体之中抽取一部分个体做为样本,借着对样本得观察,再对全体做出推论。

譬如说,我们想知道某个地区七岁到十二岁得小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或就是我们得商品检验单位想要知道有一批货柜得棒球就是不就是每一个都符合使用标准;或就是水库管理当局想要知道到底水库里有多少鱼。

在理论上,我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。

一、为什么要抽样?(一)因为要节省经费,(二)因为要节省时间。

这两个理由很容易了解,如果要访问全体,则所耗费得时间与经费就是相当可观得,而且有许多调查性质具有时间性,如果拖得太长就会失去时效。

例如想知道学生们对某一项考试得反应如何,就非得打铁趁热,在短时间内完成调查不可。

(三)因为要提高资料得准确性,这就是由于全体调查牵涉到相当大量而又繁杂得作业,动员不少人力、物力与行政管道,增加许多犯错得机会,导致取得得数据质量不佳,而抽样调查工作涉及得作业负担相对地轻松许多,参与人员因为较少,好控制,使得数据得品质也较好。

事实上联合国得专家们也发现,在一些教育较不发达得地区,人口普查得资料就不如抽样调查来得好。

(四)因为要取得较详尽得数据,譬如我们想要知道七岁到十二岁小孩得压岁钱流到那里去,如果进行全体调查得话,由于人力与物力得限制,我们只能针对每一个小孩取得一点点资料,但就是如果就是抽样调查,则因为调查对象不多,反而可以很从容得取得细节资料提供分析之用。

每十年一次得人口普查,除了全体都查之外,总就是还要再抽取少数样本做更详尽得访问就就是这个道理。

(五)因为要减轻损失,例如汽车车身得耐撞试验,罐头食品得安全检查,或就是电灯泡寿命得质量管理检验。

这些调查本身就具有破坏性,总不能每部汽车都撞一撞,或就是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目还要控制到越少越好。

二、机率抽样与非机率抽样在谈抽样设计之前,让我们先厘清一下这里所谈得抽样就是指机率抽样,也就就是说:「在完整定义得母体之中,每一个个体都有一个不为零得中选机会」。

凡不属于这个定义范围得都就是非机率抽样。

常见得非机率抽样方法,综合Kish(1965)与Cochran(1977)得说法,有下列几种:(一)偶遇样本(haphazard sample)或便利抽样(convenient sample),就是碰到谁就选谁得抽样,做研究得人并不在乎调查对象就是否有代表性,例如生物学家解剖青蛙,心理学家观察人们对声光刺激得反应,医生征求自愿者做药物反应得实验等等。

(二)立意选样(purposive sampling)或判断选样(judgment sampling),这就是经由专家主观判断,立意选定她们认为「有代表性」得样本来观察。

例如人类学家或社会学家会选定一个或几个村庄来代表乡村地区,交通专家选定几个路口来计算交通流量,教育专家选定几个学校班级得学生来代表所有得学生等等。

(三)自愿样本(volunteer subjects),听任自动送上门来得人组成样本群。

(四)配额选样(quota sampling),依照母体得人口特征按比例分配样本数,在配额之内进行非机率抽样,也就就是把调查对象依照特征分类后,根据各类别得百分比每类立意选样至额满为止。

例如某个地区七岁到十二岁得小孩之中,约有一半就是男得,另一半就是女得,有四分之一住在都市,四分之三住在乡村。

如果样本数就是一千,则根据上述各类别得比例先算出各种特征交叉汇编后每一组合得配额,在配额内立意选出符合该类别得人即可。

这样做可以节省时间与资源,而又维持了样本得「代表性」。

(五)雪球抽样(snowballed sample),先找到原始受访者,然后再从受访者所提供得信息找到其它受访者。

以上这些非机率抽样方法由于没有机率做推论基础,大多只能做描述性得用途,而不能对全体做科学得估计或验证理论得假设检定,因为它们提不出确切得误差数据,无法计算样本数据得准确程度。

贰、抽样得基本原理假设某个地区七岁到十二岁得小孩共有两百四十万人,如果我们要抽取一千个人来调查有关她们得压岁钱收入与支出情形,怎么抽才会「准」呢?用常识来判断,总要有一些都市人,一些乡下人,要男生,也要女生,要富豪子弟,也要清寒子弟等等。

这些顾虑都就是担心万一抽得不好,变成瞎子摸象,整个推论就失效了。

在谈抽样原理之前,首先让我们先熟悉几个名词与符号。

一、 资料得中心点与离散程度:平均数与标准差大家都知道平均数就是什么,它就是所有个案观察值得总与除以累加得个案数,也就就是我们通常说得一组资料得中心点。

我们把全体得平均数写成μ(念成mu )。

它得定义就是:μ = (x 1 + x 2 + …+ x N ) / N ……………………………………(2、1)式中N就是全体得总个案数,x i 就是第 i 个个案得观察值。

其次一个名词就是标准差σ(念成sigma),就是衡量一组资料中各个点与中心点之间得「标准距离」。

也就就是衡量一组数据中各点得集中或离散程度。

它得定义就是: N x x x N /])(...)()[(22221μμμσ-++-+-+= ………………………(2、2)从定义上来瞧,它就是每一个点与中心点μ得差,平方后累加起来取平均数,再开根号还原。

平方得原因就是要避免各点与中心点得差正负相抵。

二、正态分布与中央极限定理假设这个地区两百多万个七岁到十二岁小孩得压岁钱平均数就是μ,标准差就是σ。

现在我们要抽取一千个样本,从样本观察值来估计μ,一个很自然得选择就是用样本得平数来估计,让我们把样本得平均数写成X (念成XBar,Bar 就是横杠得意思),它得定义就是:x x x x n n =+++(...)/12 ………………………………………… (2、3)式中n就是样本数。

如果我们使用一套机率抽样得作业程序抽出一千人,取得她们得观察值后会得到一个平均数,把它写成,表示就是第一次抽样得到得结果。

现在把整个作业重做一遍,我们可能得到不同得一千个人,因为在机率抽样之下每个人都有中选得机会,重新做一遍就可能抽到不同得人。

我们把第二次抽样得结果写成。

当然这个不一定会与相同,就像两颗子弹不会射中相同得一点一样。

如此一直做下去,如果我们做K次得话,会有一共有K个样本平均数。

在数学上有个中央极限定理,它得内容就是:在样本数足够大得情况下,如果把这K个排起来,它们会形成正态分布,而这些样本平均数得平均数会等于μ,这些样本平均数得标准差会等于。

什么就是正态分布呢?它就是一种钟形,以平均数为中心、左右对称得图形分布。

譬如说,全校同学得身高由低而高排列起来,会有少数人很矮或很高,大部分人集中在中间,而越靠近平均身高得人会越多,形成像钟形得样子。

事实上,我们可以利用正态分布得特性计算出身高在某一高度之间者到底有多少人。

这就是因为根据正态分布,有68%得人会落在平均数左右一个标准差距离之内,有95%得人会落在平均数左右两个标准差之内,而有99、7%得人会落在平均数左右三个标准差范围之内得缘故。

三、点估计、区间估计、与信赖系数根据中央极限定理,我们知道如果做很多次抽样得话会得到很多个,而这些排起来会形成正态分布,它们得平均数就是μ,标准差就是。

换句话说,有68%得会落在之间,有95%得会落在之间,有99、7%得会落在之间。

把上述得说法稍为转换一下就变成:有68%得会包含着μ,有95%得会包含着μ,有99、7%得会包含着μ,而这就就是抽样与估计最根本得道理。

我们从全体之中以机率抽样方式抽取n个样本,取得样本观察值,计算它们得平均数,然后加减两倍得得到一组上下区间,然后说:我们有95%得信心,这个上下区间一定会包含着全体得平均数μ。

如果我们仍不放心得话,可以用加减三倍得,那么这组区间包含着μ得信赖度就有99、7%。

用样本平均数来估计全体得平均数μ称为点估计。

点估计命中目标得机会就是很低得,因为只凭着少数样本观察值得到得结果要与全体得平均数吻合几乎就是不可能得事,所以我们最好不要用点估计,而要用区间估计。

根据中央极限定理与正态分布得特性我们知道这个区间包含着全体平均数μ得机会有68%,得机会有95%,而得机会有99、7%!真正可靠得估计势必要用区间估计,只有这样做我们才可以知道估计准确得程度,而这68%,95%,99、7%就称做就是信赖系数。

说得更确切一点,以95%信赖系数为例,它得意思就是:如果我们进行一百次独立得抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数μ。

实际上我们不会做一百次抽样,而就是只做一次,所以说这一次抽样而来得区间估计会包含着μ得机会就是95%,信赖系数越高,估计得区间也就越宽,这就是高信赖系数所必须付出得代价。

譬如我们估计全国七岁到十二岁小孩得压岁钱平均数就是在10元到1000元之间。

这个估计即使有99、7%得信赖度也没有什么用,因为这段区间实在太宽了,如果就是100元到120元之间,而且信赖系数就是99、7%,这就就是个非常好得估计。

我们学习抽样方法就就是要使这个信赖区间尽可能得缩小。

刚刚提到过一个好得估计必须既准又稳,我们用来估计μ,如果做很多次得话,会有很多个。

中央极限定理已经给我们保证,这些得平均数会等于μ,所以就是「准」得估计已无问题,但就是这些就是否都靠近在一起,称得上就是「稳」呢?这就要瞧这些得标准差了。

我们已经知道得标准差就是,其中σ就是全体得标准差,n就是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。

其次,σ就是全体数据得标准差,我们并不知道它到底就是多少,在区间估计里我们也需要用到它,因此为了要知道估计得准确程度,连全体资料得σ也要一起估计才行。

至少有两种方法来估计σ,一就是用样本观察值得标准差,它得定义就是:………………… (2、4) 在数学上可以证明用来估计就是合乎「准」得要求得,但就是这个方法必须做完抽样,取得样本数据后才能派上用场,有时很不方便事前得规划与设计。

二就是用速简方式,我们知道通常得数据若以平均数为中心,左右各三个标准差得距离大概可以网罗绝大部分得数据。

所以我们可以用常识判断,找出这组资料可能得最大数与最小数得差,再除以六,即就是我们对σ得速简估计,因为从最小数到最大数之间大概有六个标准差得距离。

举例来说:压岁钱最少得大概就是零,最大得大概有一万元,差距就是一万,除以六得1667 元,这就就是我们对σ得估计。

先不论我们抽样得到得就是多少,在规画作业时我们就可以知道,如果样本数就是一千,那么95%信赖度得区间宽度就是,估计就是或就是±105元,这个宽度通常也叫做抽样误差。

相关文档
最新文档