抽样理论讲义-洪永泰
《通信原理抽样定理》课件

奈奎斯特频率
定义奈奎斯特频率,它是信号 采样频率的两倍。
采样定理
给出抽样定理的数学表达式: 采样频率 ≥ 2 × 信号最高频率
重建滤波器
引入重建滤波器,用于恢复原 始信号。
抽样定理的应用举例
1
图像压缩
2
介绍抽样定理在图像压缩算法明抽样定理在无线通信中的应用,如 蜂窝网络和卫星通信。
音频编码
说明抽样定理在音频编码中的应用,例 如MP3。
视频传输
解释抽样定理在视频传输中的重要性, 包括流媒体和视频会议。
抽样定理的适用范围和限制
1 频域限制
解释抽样定理在频域上的限制,包括信号频谱的最高频率。
2 信噪比要求
说明抽样定理对信噪比有要求,高信噪比可放宽抽样定理的限制。
3 采样定理的实现
通信系统中的抽样问题
说明在通信系统中抽样的重要性和挑战。
直观实例
通过直观的实例帮助听众理解抽样定理。
抽样定理的定义和原理
抽样定义
解释抽样是什么,包括对连续信 号进行离散化的过程。
别名现象
说明抽样频率不足会引发别名现 象。
奈奎斯特准则
介绍奈奎斯特准则,它是抽样定 理的核心原理。
抽样定理的数学表达式
介绍实际系统中如何满足抽样定理的要求。
抽样定理的实际意义
数据传输
说明抽样定理如何保证数据在信 号传输中的可靠性。
信号处理
介绍抽样定理在信号处理中的重 要性,如滤波和解调。
通信技术发展
解释抽样定理对通信技术发展的 推动作用。
总结和应用建议
总结
总结抽样定理的重要性和应用。
应用建议
提供一些建议,如如何避免抽样问题,优化信号采 样。
(定稿)《抽样技术》讲义(060702)

第一次课 一、本次内容
第一章 绪论之引论(含§1.1 之一、之二) 〖引论〗 本次要旨惟一:明课程轮廓。 轮廓者,乃如下过程之概述:views(能见所见) → problems(见之 所得,已非所见) → ideas(能思所思) → methods(思之所得,已非所 思) 。 “抽样”之观念早已暗藏于我们的行为、态度甚至行动中( “我们的知 识、我们的态度和我们的行动在很大程度上都是以样本为依据的” ,William G. Cochran 语) ,其与“归纳”之逻辑本能混杂也久,而稍假思索, “演绎” 之逻辑本能即明其终非可凭藉者也。 然辗转相续, 不离不弃, 其竟无用者矣? 不然。乃“演绎”之成立,端赖“确定者”也,于“非确定者” ,其奈何哉! 若无“概率论”之发端,则“抽样”与“归纳”混杂依然,而“归纳” 与“演绎”同一旨趣,如是, “抽样”委屈难伸。至“概率论”首揭“随机 现象” ,抽样之理实成,故“概率论”实“抽样技术”之理论基础。亦有史 为证。 时至今日, “与抽样调查有关的所有文献” (C.R.Rao 语) 计有 188 篇 (有 价值的论文、专著、教材,列于 Elements of Sampling Theory and Methods by Zakkula Govindarajulu 一书) ,也由此构成了“抽样理论与方法” (或“抽样 技术” ,或“抽样方法” )之主要内容,厥有三端:一者,抽样设计(sampling designs) :样本抽取方式和估计量的构造; (2,3,4,5,6,7,8,9) ;二 者,抽样误差的计算(或估计)与控制(2,3,4,5,6,7,8,9,10) ; 三者,非抽样误差的分析与控制(11) 。前二者,乃理之实者,逻辑使然, 一成即不变,虽无趣也,却为进一步研究之基石、必由之途径。后一者,则 理之阙如,无可倚者,虽无端绪,却为研究之急所,趣味即由生也。 是则本课程轮廓。
抽样理论讲义

抽样讲义壹、导论抽样得意思顾名思义,就就是从全体之中抽取一部分个体做为样本,借着对样本得观察,再对全体做出推论。
譬如说,我们想知道某个地区七岁到十二岁得小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或就是我们得商品检验单位想要知道有一批货柜得棒球就是不就是每一个都符合使用标准;或就是水库管理当局想要知道到底水库里有多少鱼。
在理论上,我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。
一、为什么要抽样?(一)因为要节省经费,(二)因为要节省时间。
这两个理由很容易了解,如果要访问全体,则所耗费得时间与经费就是相当可观得,而且有许多调查性质具有时间性,如果拖得太长就会失去时效。
例如想知道学生们对某一项考试得反应如何,就非得打铁趁热,在短时间内完成调查不可。
(三)因为要提高资料得准确性,这就是由于全体调查牵涉到相当大量而又繁杂得作业,动员不少人力、物力与行政管道,增加许多犯错得机会,导致取得得数据质量不佳,而抽样调查工作涉及得作业负担相对地轻松许多,参与人员因为较少,好控制,使得数据得品质也较好。
事实上联合国得专家们也发现,在一些教育较不发达得地区,人口普查得资料就不如抽样调查来得好。
(四)因为要取得较详尽得数据,譬如我们想要知道七岁到十二岁小孩得压岁钱流到那里去,如果进行全体调查得话,由于人力与物力得限制,我们只能针对每一个小孩取得一点点资料,但就是如果就是抽样调查,则因为调查对象不多,反而可以很从容得取得细节资料提供分析之用。
每十年一次得人口普查,除了全体都查之外,总就是还要再抽取少数样本做更详尽得访问就就是这个道理。
(五)因为要减轻损失,例如汽车车身得耐撞试验,罐头食品得安全检查,或就是电灯泡寿命得质量管理检验。
这些调查本身就具有破坏性,总不能每部汽车都撞一撞,或就是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目还要控制到越少越好。
抽样理论培训讲义

抽樣理論培訓講義一.培訓目的讓檢查員熟悉抽樣檢驗的基本概念,熟練運樣抽樣方案。
二.培訓內容1.質量抽樣理論的創建美國貝爾實驗室分為過程控制組:學術負責人為休哈特,產品控制組:學術負責人道奇,前者創建SPC理論,後者創建了質量抽樣理論,美國軍方採用了此理論,從而現行之MIL-STD-105E為美國軍用抽樣標準。
2.抽樣的基本概念(1)樣本:是取自總體中的一個或每個個體,用於提供總體的信息並作為可能作出對總體的某種判定的基礎。
(2)抽樣:隨機抽取或組成樣本的過程為抽樣(SAMPLING INSPECTION)3.樣本數(大小):樣本中所包含的抽樣單位數目(SAMPIE SIZE)4.簡單隨機抽樣:從N個個體的總體中抽取n個個體的所有可能組合被抽取的概率都相同,舉例說明:已知實際不良率,求抽樣概率的計算公式P(n,r/p)=C r n Pr(1-p)n-r5.相關術語及定義(1)批:在一致條件下或按規定方式匯總起來的一定數量的個體。
批量:一批中包含的個體數量(2)缺陷:⏹致命缺陷(CRI):對使用維護產品或與此有關人員可能造成危害或不安全狀況的缺陷,或可能損壞重要的最終產品的基本功能的缺陷。
⏹嚴重缺陷(MAJ):不致於致命缺陷,能引起失效或顯著降低預期性能的缺陷。
⏹輕微缺陷(MIN):不顯著降低產品預期性能的缺陷,或偏離標準隻輕微影響產品的有效使用或操作的缺陷。
(3)抽樣檢驗的分類:⏹按檢驗數分:全檢,抽檢,免檢⏹按檢驗次數分:單次,雙次,多次,序貫,截尾⏹按檢驗程度分:減量,正常,加嚴一般開始使用正常檢驗正常檢驗-----嚴格檢驗:連續抽檢5批中有2批被拒收嚴格檢驗-----正常檢驗:連續5批允許,則調回正常檢驗-----減量檢驗:連續10批全被允收者⏹檢驗連續性:連續性,非連續性(4)MIL-STD-105E抽樣標準講解概念:AQL(Acceptable Quality Level)質量允收水準使用方法講解:⏹根據批量對應樣本大小⏹根據抽樣方案嚴重程度及AQL值對應AC RE⏹根據箭頭所指方向改變抽樣方案⏹舉例:來料10000PCS AQL=0.4求AC RE使用程序:⏹確立品質標準⏹規定檢查水平⏹AQL確定⏹確定樣本量⏹確定抽樣方案⏹查得AC RE。
抽样设计的理论与方法讲义

抽样设计的理论与方法讲义引言抽样设计是统计学中重要的概念,它涉及到从一个总体中选取一局部样本来进行研究,以代表总体的特征。
抽样设计的正确性和有效性对于研究结果的可靠性至关重要。
本讲义将介绍抽样设计的理论和方法,帮助读者了解如何进行适宜的抽样设计以及如何评估抽样结果的可靠性。
一、抽样设计的根本概念1.1 总体和样本在抽样设计中,我们需要明确研究的总体和样本的概念。
总体是我们希望研究的对象的全体,而样本那么是从总体中选取的一局部个体。
样本应该具有代表性,能够反映总体的特征。
1.2 抽样误差抽样误差是指样本统计量与总体参数之间的差异。
抽样误差包括抽样偏差和抽样变异两个方面。
抽样偏差是由于样本选择方式的不同导致的误差,而抽样变异是由于随机性导致的误差。
二、抽样设计的方法2.1 简单随机抽样简单随机抽样是一种最根本的抽样方法,每个个体都有相同的概率被选中。
简单随机抽样的优点是易于实施,但在总体规模较大时,本钱较高。
在进行简单随机抽样时,可以使用随机数表或者计算机随机数生成器来选择样本。
2.2 分层抽样分层抽样是将总体划分为假设干个层次,并分别从每个层次抽取样本。
这种抽样方法的优势是可以更好地控制样本的代表性和效率。
在进行分层抽样时,需要确定适宜的层次划分规那么,并保证每个层次内部的可变性较小。
2.3 整群抽样整群抽样是将总体划分为假设干个群体,然后从每个群体中抽取所有的个体作为样本。
这种抽样方法的优势是可以减少样本选择的本钱,但可能会导致群体内的个体之间的相似性较高。
2.4 多阶段抽样多阶段抽样是将总体划分为假设干个阶段,然后依次进行抽样。
多阶段抽样的优势是可以灵巧地控制抽样过程,并确保样本的多样性。
在进行多阶段抽样时,需要注意每个阶段的抽样方法和样本数量。
2.5 效率优化的抽样设计除了以上介绍的常用抽样设计方法外,还有一些效率优化的抽样设计方法,例如系统抽样、整体重复抽样和分层整群抽样等。
这些方法都是为了在保证样本代表性的前提下,尽可能降低抽样的本钱和时间。
《抽样检验培训教材》课件

卡方检验
卡方分布
卡方分布是用于比较观测频数与 期望频数之间的差异是否具有统 计学显著性的概率分布。
Goodness-of-Fit检验
Goodness-of-Fit检验用于比较观测 频数与预期频数在分布上是否有 显著差异。
独立性检验
独立性检验用于检验两个变量之 间是否存在显著的关联。
案例应用
实际应用场景
常见的抽样检验类型包括t检验、F检验和卡方检验等。
假设检验原理
1
怀疑总体参数
通过抽样检验,我们可以对总体参数进行推断,从而验证我们的假设。
2
假设设定
在进行抽样检验时,我们需要明确研究的原假设和备择假设。
3
判断假设
通过计算得到的统计量与临界值进行比较,以判断是否拒绝原假设。
抽样分布
中心极限定理
中心极限定理表明,当样本容量足 够大时,样本均值的分布会趋近于 正态分布。
发展前景
随着数据分析和统计学的进一步发 展,抽样检验将继续在各个领域中 发挥重要作用。
学习资料推荐
如果你对抽样检验感兴趣,可以查 阅相关论文、学习R语言代码和 Python代码等学习资料。
抽样误差
抽样误差是样本统计量与总体参数 之间的差异,可Βιβλιοθήκη 过增大样本容量 来减小。自由度
自由度是指在计算统计量时能够自 由变动的样本观测值的数量。
t检验
t分布
t分布是以自由度为参数的概率分 布,用于计算样本均值与总体均 值之间的差异在统计学上的显著 性。
单样本t检验
单样本t检验用于比较一个样本均 值与一个已知总体均值之间的差 异是否显著。
双样本t检验
双样本t检验用于比较两个独立样 本均值之间的差异是否显著。
抽样技术指导理论

《抽样技术》第一篇概述第一章抽样调查概论第一节抽样调查的概念一.什么是抽样调查(一)什么是抽样调查抽样调查(survey sampling),也称样本调查,是非全面调查中的一种重要方法,它是按一定程序从所研究对象的全体(总体)中抽取一部分(样本),进行调查或观察,获取资料,并以此对总体的一定目标量(参数)做出推断(例如估计)。
本课程所指抽样调查为概率抽样。
(二)与非概率抽样比较1.非概率抽样是用主观的(非随机的)方法从总体中抽选单元,是一种快速、简易且节省的从总体中选取样本单元的方法。
由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出各个单元的入样概率。
从而无法得到总体目标量的可靠估计值及其抽样误差估计值。
优点:快速简便;费用相对较低不需要抽样框;对探索性研究和调查的设计开发很有用。
缺点:为了对总体进行推断,需要对样本的代表性做很强的假定;不可能得到可靠的估计值以及抽样误差估计值。
2.非概率抽样的种类随意抽样;自愿抽样;判断抽样;配额抽样。
3.判断抽样由专家有目的地抽选有代表性的样本。
它适用于探索性研究,如:抽选参加焦点座谈或深入访谈的人,但不宜用在试调查中。
4.配额抽样这是最常见的一种非概率抽样。
抽样要从各个子总体中选取特定数量的单元(配额)。
优点:所抽取样本结构接近总体结构,提高样本代表性,调查单位少缺点:难以估计误差,无法排除主观因素影响(三)抽样调查以概率论和随机原则为依据来选取样本,不受调查者主观因素的影响从而充分保证了样本的代表性。
(1)在调查单位的选取上,遵循随机原则1.随机原则:并不是随便,随机有严格的科学含义,可以用概率来描述,也不等同于等概率原则。
等概率抽取是随机抽取,但随机抽取并不限定必须是等概率抽取。
一般要求总体中每个单元均有一个非零的概率被抽中。
2.抽取样本单元要按照给定的入样概率通过一定的随机化程序来实现。
3.估计总体参数,要考虑入样概率。
4.随机原则的实施,并不排斥采取不同的抽样方式。
抽样理论与方法(统计学专业)知识讲稿

1.1.1. 非概率抽样
判断抽样 研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提 供所需要信息的人作为样本。
含义:又称立意抽样法,它是指由市场调查的专家依据自己的判断来选取 样本的一种方法。 适用范围:总体的构成单位差异较大而样本数又很小的情况
优点:因为是按照调查人员的需要来选定样本,所以较好地满足了特殊 的调查需要。
放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。
统计学专业硕士课
2.1.1 放回简单随机抽样
简单随机抽样的抽取原则: (1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已知的或事先确定的; (3)每个抽样单元被抽中的概率都是相等的。
统计学专业硕士课
2.1.1 放回简单随机抽样
统计学专业硕士课
1.1.1. 非概率抽样
适用范围 (1)可用于经常性的市场调查; (2)可用于正式市场调查之前的试验调查; (3)任意调查适用于同质总体。
优点:方便、灵活,简便易行,及时取得所需资料,节约时间 和费用成本低 缺点:因为个体差异性,抽样误差很大,结果不够可靠,应用 价值较低
统计学专业硕士课
and control the costs of survey data collection. * 在固定费用下精度最高; * 或在一定精度条件下调查总费用最省;
统计学专业硕士课
1.3 抽样调查的发展简史
百年历史,全面调查——非全面,推论统计的发展——数理统计的 分支。
1. 个别场合适用,1802法国数学家拉普拉斯,人口调查,两阶段 (便利),比估计(出生人口)
评估样本质量:质量、代表性、偏差
将可得到的反映总体中某些重要特征及其分布的资料与样本
中的同类指标进行对比。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样讲义洪永泰台湾大学政治学系壹、导论抽样的意思顾名思义,就是从全体之中抽取一部分个体做为样本,借着对样本的观察,再对全体做出推论。
譬如说,我们想知道某个地区七岁到十二岁的小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或是我们的商品检验单位想要知道有一批货柜的棒球是不是每一个都符合使用标准;或是水库管理当局想要知道到底水库里有多少鱼。
在理论上,我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。
一、为什么要抽样?(一)因为要节省经费,(二)因为要节省时间。
这两个理由很容易了解,如果要访问全体,则所耗费的时间和经费是相当可观的,而且有许多调查性质具有时间性,如果拖得太长就会失去时效。
例如想知道学生们对某一项考试的反应如何,就非得打铁趁热,在短时间内完成调查不可。
(三)因为要提高资料的准确性,这是由于全体调查牵涉到相当大量而又繁杂的作业,动员不少人力、物力和行政管道,增加许多犯错的机会,导致取得的数据质量不佳,而抽样调查工作涉及的作业负担相对地轻松许多,参与人员因为较少,好控制,使得数据的品质也较好。
事实上联合国的专家们也发现,在一些教育较不发达的地区,人口普查的资料就不如抽样调查来得好。
(四)因为要取得较详尽的数据,譬如我们想要知道七岁到十二岁小孩的压岁钱流到那里去,如果进行全体调查的话,由于人力和物力的限制,我们只能针对每一个小孩取得一点点资料,但是如果是抽样调查,则因为调查对象不多,反而可以很从容的取得细节资料提供分析之用。
每十年一次的人口普查,除了全体都查之外,总是还要再抽取少数样本做更详尽的访问就是这个道理。
(五)因为要减轻损失,例如汽车车身的耐撞试验,罐头食品的安全检查,或是电灯泡寿命的质量管理检验。
这些调查本身就具有破坏性,总不能每部汽车都撞一撞,或是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目还要控制到越少越好。
二、机率抽样与非机率抽样在谈抽样设计之前,让我们先厘清一下这里所谈的抽样是指机率抽样,也就是说:「在完整定义的母体之中,每一个个体都有一个不为零的中选机会」。
凡不属于这个定义范围的都是非机率抽样。
常见的非机率抽样方法,综合Kish(1965)和Cochran(1977)的说法,有下列几种:(一)偶遇样本(haphazard sample)或便利抽样(convenient sample),是碰到谁就选谁的抽样,做研究的人并不在乎调查对象是否有代表性,例如生物学家解剖青蛙,心理学家观察人们对声光刺激的反应,医生征求自愿者做药物反应的实验等等。
(二)立意选样(purposive sampling)或判断选样(judgment sampling),这是经由专家主观判断,立意选定他们认为「有代表性」的样本来观察。
例如人类学家或社会学家会选定一个或几个村庄来代表乡村地区,交通专家选定几个路口来计算交通流量,教育专家选定几个学校班级的学生来代表所有的学生等等。
(三)自愿样本(volunteer subjects),听任自动送上门来的人组成样本群。
(四)配额选样(quota sampling),依照母体的人口特征按比例分配样本数,在配额之内进行非机率抽样,也就是把调查对象依照特征分类后,根据各类别的百分比每类立意选样至额满为止。
例如某个地区七岁到十二岁的小孩之中,约有一半是男的,另一半是女的,有四分之一住在都市,四分之三住在乡村。
如果样本数是一千,则根据上述各类别的比例先算出各种特征交叉汇编后每一组合的配额,在配额内立意选出符合该类别的人即可。
这样做可以节省时间和资源,而又维持了样本的「代表性」。
(五)雪球抽样(snowballed sample ),先找到原始受访者,然后再从受访者所提供的信息找到其它受访者。
以上这些非机率抽样方法由于没有机率做推论基础,大多只能做描述性的用途,而不能对全体做科学的估计或验证理论的假设检定,因为它们提不出确切的误差数据,无法计算样本数据的准确程度。
贰、抽样的基本原理假设某个地区七岁到十二岁的小孩共有两百四十万人,如果我们要抽取一千个人来调查有关他们的压岁钱收入和支出情形,怎么抽才会「准」呢?用常识来判断,总要有一些都市人,一些乡下人,要男生,也要女生,要富豪子弟,也要清寒子弟等等。
这些顾虑都是担心万一抽得不好,变成瞎子摸象,整个推论就失效了。
在谈抽样原理之前,首先让我们先熟悉几个名词和符号。
一、 资料的中心点和离散程度:平均数和标准差大家都知道平均数是什么,它是所有个案观察值的总和除以累加的个案数,也就是我们通常说的一组资料的中心点。
我们把全体的平均数写成μ(念成mu )。
它的定义是:μ = (x 1 + x 2 + …+ x N ) / N ……………………………………(2.1)式中N是全体的总个案数,x i 是第 i 个个案的观察值。
其次一个名词是标准差σ(念成sigma ),是衡量一组资料中各个点和中心点之间的「标准距离」。
也就是衡量一组数据中各点的集中或离散程度。
它的定义是: N x x x N /])(...)()[(22221μμμσ-++-+-+= ………………………(2.2)从定义上来看,它是每一个点和中心点μ的差,平方后累加起来取平均数,再开根号还原。
平方的原因是要避免各点和中心点的差正负相抵。
二、正态分布和中央极限定理假设这个地区两百多万个七岁到十二岁小孩的压岁钱平均数是μ,标准差是σ。
现在我们要抽取一千个样本,从样本观察值来估计μ,一个很自然的选择是用样本的平数来估计,让我们把样本的平均数写成X (念成XBar ,Bar 是横杠的意思),它的定义是:x x x x n n =+++(...)/12 ………………………………………… (2.3) 式中n是样本数。
如果我们使用一套机率抽样的作业程序抽出一千人,取得他们的观察值后会得到一个平均数,把它写成x 1,表示是第一次抽样得到的结果。
现在把整个作业重做一遍,我们可能得到不同的一千个人,因为在机率抽样之下每个人都有中选的机会,重新做一遍就可能抽到不同的人。
我们把第二次抽样的结果写成x 2。
当然这个x 2不一定会和x 1相同,就像两颗子弹不会射中相同的一点一样。
如此一直做下去,如果我们做K次的话,会有x x x K 12,,...,一共有K个样本平均数。
在数学上有个中央极限定理,它的内容是:在样本数足够大的情况下,如果把这K个X 排起来,它们会形成正态分布,而这些样本平均数的平均数会等于μ,这些样本平均数的标准差会等于σ/n 。
什么是正态分布呢?它是一种钟形,以平均数为中心、左右对称的图形分布。
譬如说,全校同学的身高由低而高排列起来,会有少数人很矮或很高,大部分人集中在中间,而越靠近平均身高的人会越多,形成像钟形的样子。
事实上,我们可以利用正态分布的特性计算出身高在某一高度之间者到底有多少人。
这是因为根据正态分布,有68%的人会落在平均数左右一个标准差距离之内,有95%的人会落在平均数左右两个标准差之内,而有99.7%的人会落在平均数左右三个标准差范围之内的缘故。
三、点估计、区间估计、和信赖系数 根据中央极限定理,我们知道如果做很多次抽样的话会得到很多个X ,而这些X 排起来会形成正态分布,它们的平均数是μ,标准差是σ/n 。
换句话说,有68%的X 会落在μσ±/n 之间,有95%的X 会落在μσ±2/n 之间,有99.7%的X 会落在μσ±3n 之间。
把上述的说法稍为转换一下就变成:有68%的X n σ/会包含着μ,有95%的X n 2σ/会包含着μ,有99.7%的X n 3σ/会包含着μ,而这就是抽样和估计最根本的道理。
我们从全体之中以机率抽样方式抽取n个样本,取得样本观察值,计算它们的平均数X ,然后加减两倍的σ/n 得到一组上下区间,然后说:我们有95%的信心,这个上下区间一定会包含着全体的平均数μ。
如果我们仍不放心的话,可以用X 加减三倍的σ/n ,那么这组区间包含着μ的信赖度就有99.7%。
用样本平均数X 来估计全体的平均数μ称为点估计。
点估计命中目标的机会是很低的,因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事,所以我们最好不要用点估计,而要用区间估计。
根据中央极限定理和正态分布的特性我们知道X n ±σ/这个区间包含着全体平均数μ的机会有68%,X n ±2σ/的机会有95%,而X n ±3σ/的机会有99.7%!真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确的程度,而这68%,95%,99.7%就称做是信赖系数。
说得更确切一点,以95%信赖系数为例,它的意思是:如果我们进行一百次独立的抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数μ。
实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着μ的机会是95%,信赖系数越高,估计的区间也就越宽,这是高信赖系数所必须付出的代价。
譬如我们估计全国七岁到十二岁小孩的压岁钱平均数是在10元到1000元之间。
这个估计即使有99.7%的信赖度也没有什么用,因为这段区间实在太宽了,如果是100元到120元之间,而且信赖系数是99.7%,这就是个非常好的估计。
我们学习抽样方法就是要使这个信赖区间尽可能的缩小。
刚刚提到过一个好的估计必须既准又稳,我们用X 来估计μ,如果做很多次的话,会有很多个X 。
中央极限定理已经给我们保证,这些X 的平均数会等于μ,所以是「准」的估计已无问题,但是这些X 是否都靠近在一起,称得上是「稳」呢?这就要看这些X 的标准差了。
我们已经知道X 的标准差是σ/n ,其中σ是全体的标准差,n是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。
其次,σ是全体数据的标准差,我们并不知道它到底是多少,在区间估计里我们也需要用到它,因此为了要知道估计的准确程度,连全体资料的σ也要一起估计才行。
至少有两种方法来估计σ,一是用样本观察值的标准差,它的定义是: S=/[()()...()]()x x x x x x n n 122221-+-++-- ………………… (2.4) 在数学上可以证明用S 2来估计σ2是合乎「准」的要求的,但是这个方法必须做完抽样,取得样本数据后才能派上用场,有时很不方便事前的规划和设计。
二是用速简方式,我们知道通常的数据若以平均数为中心,左右各三个标准差的距离大概可以网罗绝大部分的数据。
所以我们可以用常识判断,找出这组资料可能的最大数和最小数的差,再除以六,即是我们对σ的速简估计,因为从最小数到最大数之间大概有六个标准差的距离。