统计 第四章 统计推断

合集下载

统计推断1

统计推断1

小概率事件在一次观察中是不应发生的, 但是它现在发生了!!说明了什么? 一个合理的解释就是它本不是“小概率事件”, 是人们把概率算错了,算错的原因就是在 一开始就做了一个错误的假设 米
换句话说,此时应该认为: 即年来男孩的身高有明显增长。
【例2 】某地进行了两个水稻品种对比试验, 在相同条件下,两个水稻品种分别种植10个 小区,获得两个水稻品种的平均产量(kg/亩) 为:
第四章 统计推断
第一节 统计推断概述
研究样本的目的是以各种样本统计量的 抽样分布为基础去推断总体。 如何从一些包含有随机误差,又不完全的信息 中得出科学的、尽可能正确的结论是统计学 要解决的主要问题。
从样本中获得的信息所包含的不确定性,
主要来自以下几个方面:
(1)测量过程引入的随机误差;
(2)取样随机性所带来的变化,由于只取出 少数样品测量,那么取出的这一批样品的测量 结果与抽取另外一批当然会有差别; (3)我们所关心的性质确实发生了某种变化。 显然,只有第三种变化才是我们要检测的。
对于从有误差的实验数据中得出结论的科学工作者
来说,统计学是一种不可或缺的工具。
一、 统计推断的途径
1、 统计假设检验** 2、总体参量估计。
二、假设检验的基本思想 先看两个实例 【例1】 某地区10年前普查时,13岁男孩子的 平均身高是1.51米,现抽查200个12.5~13.5岁 的男孩子,身高平均值为1.53米,标准差为 0.073米,问:10年来该地区男孩身高是否有 明显增长?
3、选择显著性水平与建立拒绝域 (2)建立拒绝域
① 分位数法(临界值法) ② 概率法(P值法) 利用显著性水平(概率值)构成接受域和拒绝域。 根据统计量数值的大小,先计算(或查表)出 (X>统计量数值)出现的概率,这个概率称为P值, 用P值与显著性水平相比较进行判断。

第4章 统计推断2

第4章 统计推断2

成对数据平均数的比较
在生物学或医学试验中,经常将试验配成若干配对,分 别作以不同处理,例如:用高粱的若干父本与两个不同 母本杂交,同一父本的两个杂交种是一个配对;用若干 同窝的两只动物作不同处理,每一窝的两只动物是一个 配对;在做药效试验时,测定若干试验动物服药前后的 有关数值,服药前后的一对数值是一个配对,等等。
2 2 x1 120.17( g ) s1 451.97( g ) 2 2 x2 101.00( g ) s2 425.33( g )
n1 12 n2 7
(1)假设 H0:σ12=σ22=σ2
HA: σ12 ≠ σ22
(2)水平 选取显著水平α=0.05 (3)检验
s12 451.97 F 2 1.063 s2 425.33
差异?
B法:调查200株,平均天数为70.3d
试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。
分 析
(1)这是两个样本(成组数据)平均数比较的假设检 验,σ12=σ22=(6.9d)2,样本为大样本,用u检验。
(2)因事先不知A、B两方法得到的天数孰高孰低,用 双尾检验。
6
(1)假设 (2)水平 (3)检验
2 e 2 1 2 2
s x1 x2
2 2 se se 10 .005 n1 n2
x1 x2 t 1.916 sx x
1 2

x1 x2 t 1.916 sx x
1 2
df=(n1-1)+(n2-1)=17 t 0.05(17) =2.110 P>0.05
差值样本的平均数等于样本平均数的差值
25
样本差数的方差
s
2 d

第4章 统计推断

第4章 统计推断
第四章 统计推断
第一节 假设检验的方法 第二节 单个样本平均数假设测验 第三节 两个样本平均数假设测验 第四节 参数的区间估计
学习目的
理解假设检验与区间估计的原理
掌握假设检验的步骤 对实际问题进行统计测验及总体参数估 计
第一节 假设检验的方法
统 计 推 断 的 概 念
总体
抽样分布
样本1
表2 两种栽培方法的地瓜产量 单位(kg/亩)
有机
2722.2
2866.7
2675.9
2169.2
2253.9
2315.1
标准
951.4
1417
1275.3
2228.5
2462.6
2715.4
(一) 成组数据的平均数比较
1. u检验
两个样本总体方差已知,或总体方差未知, 但为大样本时采用 例1 已知早稻佳辐品种σ2=1.35,用A、B两种方 法取样,A取15个样点,平均产量x1=7.69;B法取9 个样点,平均产量x2=8.77。检验两种取样法测得
t = d sd
[例4-7] 选生长期、发育
进度、植株大小和其他方
面皆比较一致的两块地的 红心地瓜苗配成一对,共 有6对。每对中一块地按 标准化栽培,另一块地进
表 两种栽培方法的地瓜产量 单位(kg/亩)
有机 2722.2 2866.7 2675.9 2169.2 2253.9 2315.1
标准 951.4 1417 1275.3 2228.5 2462.6 2715.4
两尾测验与一尾测验
假设 双尾测验 左尾测验 右尾测验
H0 HA
μ=μ0 μ≠μ0
μ≥μ0 μ<μ0
μ≤μ0 μ>μ0

第四章 统计推断

第四章 统计推断

.
二、双侧检验与单侧检验 (一)双侧检验 H0:µ =µ 0, HA:µ ≠ µ 0 H0的拒绝域 :|U| > ua/2 ; H0的接受域: |U| < ua/2 。(见图示) (二)单侧检验 H0:µ =µ 0, HA:µ < µ 0 或 HA:µ > µ 0 1、下尾检验 H0:µ =µ 0, HA:µ < µ 0 H0的拒绝域 :U< -ua ;
.
u=
x m0
s
x
s s x = n
.
10.23 10 u= = 3.15 0.40 30
根据u值的大小,即可判定假设H0:µ=µ 0 ( m =10㎏)是否正确?
.
.
.
查附表2,实得u=3.15值对应的概率p< 0.05。表明0.23Kg差异属于抽样误差的概 率小于5%。 (三)根据小概率事件实际不可能性原理, 推断 H0是否正确。 判定假设H0是否正确的小概率标准称为
.
2 s1 193.4 F = 2 = = 0.206 s2 937.7
.
④H0的拒绝域:因为是下尾检验,当F<F0.95时拒 绝 H 0。
F19,19,0.95 =
.
1 F19,19,0.05
2 n 1 s 10 124.23 2 = = = 1.113
.
.
14 2 ④H0的拒绝域:当a=0.01时,拒绝域为2 <20.99 从附表6中查出20.99,9=2.088 。
s 02
⑤结论:因实得2 < 2.088 ,P < 0.01,所以拒 绝H 。推断经过提纯后株高已变得非常整齐。
s F = s
2 1 2 2

统计推断的内容概要

统计推断的内容概要

弯曲点


误 差
Sx = 平均的标准误差
Sx = 样本的标准偏差
n = 样本大小
0
10
20
30
标准误差在样本大小为5,6时趋于稳定,样本大小为30时趋于平行.一般样本大 小应为5以上,为了得到更精确的平均推断值,样本大小应为30以上.
3. 区间推断
区间推断与点推断相比是引用误差概念的统计推断法,推断出总体特征 值
n=2时的理论分布
举例(连续型数据)
洗衣机传动装置的总高度将影响制动性能。项目Y是总高度,目标值
=5.394,加工这种部件时所使用的固定架共有8个。
您想了解什么?
使用第三个固定架生产出的部件的平均 高度与目标值是否一致?
分析步骤:
1. 将数据绘制成图
2. 使用置信区间来确定所观测到的差异是
否真实。

但是点推断值中没有误差的概念。

即,无法知道样本中求出的推断值是否接近总体的真值。

■ 区间推断: 推断总体可能包括的期望区间

例)置信区间,置信水平

区间推断是完善点推断的短处,在点推断值上包括误差概念

是否还记得基础统计学中讲到总体和样本的
知识?
Stat > Basic Statistics > Display Descriptive Statistics
样本
信息分析
措施及行动
对事件的 结论
因此我们要注意的是:观察样本并非为得到样本的信息,其目的在于通过样本分析, 得到总体的信息,并对总体下恰当结论,采取相应措施。
点推断与区间推断
当我们不知道的总体的特征值,我们可以利用样本推断总体的方法有两 种.

统计学第四章 统计推断1

统计学第四章  统计推断1

求解似然方程
ˆ
1 1 7 i1 xi x 4
27
7
27
【例】总体均匀分布 X ∼ U(a,b),其中,a,b 是未知参数。设 X1,..., X n 为来自该总体的随机样本, x1 ,..., xn 为样本观察值,求未知参 数 a,b 的极大似然估计
1 x [a, b] b a f (x, a, b) 解:总体服从均匀分布,即 0 x [a, b]
ˆ X,
n n 1 1 ˆ 2 X i2 X 2 ( X i X ) 2 . n i 1 n i 1
16
16
例总体X的概分布为
X
1
1
2

1 „
θ
1
试求未知参数θ的估计量。
pi
E ( X ) 1
1 1 1 1 1 (1 ) (1 ) 2 (1 2 ) [ ] 2 2
12
(一) 矩估计法
统计学中,矩是指以期望值为基础而定 义的数字特征,如数学期望、方差、协方差等。 矩估计法是英国统计学家K.皮尔逊最早提 出来的,其理论基础是大数定理。 设X为随机变量,对任意的正整数k ,称E(Xk)、
E[(X-EX)] k分别为随机变量X的k 阶原点矩和k 阶中心矩。
由样本矩去估计总体矩的方法称为矩估计法; 由矩估计法得到的估计量称为矩估计量。
13
k E ( X ) 存在,则 由大数定律,若总体 k 阶原点矩
1 n k lim P X i E ( X k ) 0 n ,即样本的 n i 1
k 阶原点矩依概率收敛于总体
k k E ( X ) E ( X ) 知时,自然会想到用子样 k 阶 k 阶原点矩 ,所以当

《应用统计学》(04)第4章 用样本推断总体

《应用统计学》(04)第4章 用样本推断总体

1500 1520 1510 1470
*
应用统计学
Applied Statistics
一个总体均值的区间估计
(例题分析—小样本)
解:已知X~N(,2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得:x 1490 , s 24.77 总体均值在1-置信水平下的置信区间为
资 料 来 源 : GUDMUND R.IVERSEN 和 MARY GERGRN著,《统计学—基本概念和方法》
4-5
*
应用统计学
Applied Statistics
统计应用
小儿麻痹症实验

1954年,为了检验沙克疫苗对小儿麻痹症预防的有效 性而进行了一项实验。大约有20万名儿童注射了无效 的盐水,而另外20万名儿童注射了疫苗 这项实验是“双盲的”,因为接受注射的儿童不知道 是被注射了疫苗还是安慰剂,进行注射并评价结果的 医生也不知道 在20万名注射疫苗的儿童中,只有33人后来患了小儿 麻痹症,而注射了盐水的 20万名儿童中后来有 115 人 患了小儿麻痹症。根据这些结果和其他一些结果的统 计分析得出结论,沙克疫苗在预防小儿麻痹症方面确 实是有效的
4 - 20
应用统计学
Applied Statistics
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数
P(ˆ ) 无偏 有偏Biblioteka A4 - 21
B
ˆ
*
应用统计学
Applied Statistics
有效性
(efficiency)
量,有更小标准差的估计量更有效
怎样解决下面的问题?
一个水库里有多少鱼? 一片原始森林里的木材储蓄量有多少?

统计学 第四章 推断统计概述

统计学 第四章  推断统计概述

第四章 推断统计概述第一部分 概率论基本知识← 一、概率的定义;二、概率的性质;三、概率的加法定理和乘法定理← 四、概率分布类型四、概率分布类型← 概率分布(probability distribution )是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。

← 依不同的标准,对概率分布可作不同的分类。

1、离散型分布与连续型分布← 依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。

← 教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。

2、经验分布与理论分布← 依分布函数的来源,可将概率分布分为经验分布与理论分布。

← 经验分布(empirical distribution )是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。

← 理论分布(theoretical distribution )是按某种数学模型计算出的概率分布。

3、基本随机变量分布与抽样分布← 依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution )。

← 基本随机变量分布是随机变量各种不同取值情况的概率分布,← 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。

第二部分 几种常见的概率分布← 一、二项分布← 二项分布(binomial distribution )是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。

← 2.二项分布函数← 二项分布是一种离散型随机变量的概率分布。

← 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X =0,1…,n )的概率分布,叫做二项分布函数。

← 二项展开式的通式(即二项分布函数):← ←← ← ←← 成功概率 p ;样本容量 n← 在成功概率为p 的总体中随机抽样,抽取样本容量为n 的样本中,有X 次为成()011111100q p C q p C q p C q p C q p n n n n n n n n n n n ++++=+---Λ()Xn X X n X q p C P -⋅⋅=()X n X q p X n X n -⋅-=!!!功的概率: ←(X =0,1…,n ) ←称X 服从参数为n ,p 的二项分布,记为: ←X ~B(n ,p ) 其中,0<p<1 ←二项分布的性质 ←二项分布有如下性质: ←①当p=q 时,图形是对称的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

解: 13 (1)n=100 p= =0.13 100 P:p- p, p p 即 6.2% P 19.8 % (2) p =p(1-p)=0.13 0.87=0.1131 2 0.1131 = = = 0.034 = 3.4% 100 n p 6.8% p= t t= = =2 3.4% F 2)=0.9545 (
●总体成数区间估计
(1)样本成数 f' p f
(2)抽样平均误差
p
p
n

p(1 p) n
(3) 实际误差 p pt
(4)区间估计 P: p p
例题
对某批产品的质量进行 检验,现随机抽取10 0件, 发现其中有13件废品 ,在极限误差不超过6 .8%的条件 下,试求该批产品的不 合格率的范围及相应的 概率。
则来自于该总体的所有样本容量为n的样本均值 x 也服从正态分布, x 的期望值为X,方差为
2
n

即: N (X, ) x n

2
(二)抽样平均误差概念
●抽样平均误差是根据随机原则抽样时,所有可能 出现的样本平均数的标准差。
●它反映样本平均数(样本成数)与总体平均数(总体 成数)的平均误差程度,常用μ表示。
2
x 2 / n X x 2 / n
2
常用概率度与概率保证度表
分位数t 1.00 1.64 ★1.96 ★ 2.00 2.58 3.00 概率1-a 68.27 90.00 95.00 95.45 99.00 99.73 (%)
抽样实际误差表达式:
x X x xt p P p pt
●由于总体参数未知,无法计算其实际抽样 误差。只能从样本的角度,根据样本估计量 的抽样分布来计算其抽样的平均误差程
度。
●在计算抽样误差时常常假设不存在登记性 误差和系统误差。
(二)抽样误差大小的影响因素
(1)总体各单位标志值的变异程度。在其他条件 不变的情况下,总体各单位标志值的变异程度愈 大,抽样误差也愈大,反之则愈小。 (2)样本单位数的多少。在其他条件不变的情况 下,样本单位数愈多,抽样误差就愈小,反之则 愈大。 (3)抽样方法。抽样方法不同,抽样误差也不同。 (4)抽样的组织形式。选择不同的抽样组织形式, 也会有不同的抽样误差。
f (t)
x X t / n
1-
t (n 1)
2

0
t (n 1)
2

t
当t (n 1) 1.96时,查表得:1- 95%
x 1.96 / n X x 1.96 / n
当t (n 1) 2时,查表得:1- 95.45%


求全班学生的平均月支出
测算每一名学生的月支出 ?
根据部分学生月支出推断 全体学生平均月支出
在相同条件下,对80名学生进行5次 重复的、独立的抽样(或观测), 结果见下表
姓名
月支出(元)
小张
小王 小赵 小蔡 小唐
1120
1320 1870 1600 1740
x 1530
估计认为全班80名学生的月均支出 为1530元。
第四章 统计推断
第一节 置信度与置信区间
一、置信度也称为置信水平,它是指总体 参数真值落在样本估计值某一区间内的 概率(把握性程度)。它反映的是抽样 推断的可靠性程度。 如:以100%的概率保证统计学考试成绩在 (0分 100分) 以5%的概率保证英语六级考试成绩在 (480分 490分)
二、置信区间指的是样本估计值的波动范围, 置信区间反映的是抽样的精确性程度。
修正因子
P
P (1 P ) n (1 ) n N
其中,N:总体单位数;
:样本标准差;
n:样本单位数 p: 样本成数
例某公司出口一种名茶,规定每包规格重量不
低于150g,现用简单随机抽样方法抽取其中1% 进行检验,结果如下:
每包重量g 148—149 149—150 150—151 151—152 包数 10 20 50 20
(三)抽样平均误差的两种形式
(1)在重置抽样条件下: 样本平均数误差 x x 样本成数误差 P P

x
n P(1 P) n
x:样本标准差 n:样本个数 P:样本成数
在有限总体中,一般都是重置抽样
(2)在非重置抽样条件下: 样本平均数误差 1 n N n 样本成数误差
二、抽样误差的度量
抽样实际误差 抽样平均误差 抽样实际误差是指在某一次抽样中,由随机 因素引起的样本指标与总体指标之间的数量 差异,常用R表示。 平均数的实际误差 Rx X x
成数的实际误差
Rp P p
三、抽样平均误差
(一)抽样推断理论基础:中心极限定理
当总体X服从正态分布时:X N(X, 2 ),
解:先求出各组组中值,再开展以下步骤
x f 76.6分 x f ( x x) f 11.38 = f
i i i 2 i i i
11.38 1.14 n 100 由于置信度为95.45%,故临界值t 2 t 1.14 2 2.28 置信区间为(x x )=(76.6-2.28 76.6+2.28) 即(74.32 78.88) 在95.45%的概率保证下,该校学生英语测验的平均成绩 在74.32分至78.88分之间。
p
某学校进行了一次全校性英语测试,为了了解考 试情况,从参加测试的1000名学生中,随机重复 抽选了10%进行调查,所得的分配数列如下:
测试成绩 学生数 60以下 10 60-70 20 70-80 22 80-90 40 90以上 8
试以95.45%的置信度估计: (1)该校1000名学生英语平均成绩的估计区间 (2)成绩在80分以上学生所占比重的估计区间
n 100 0.208 P 0.392
第五节 总方差、组内方差与组间方差
2005年南京市企业主要岗位高级别工资指导价位(万元)
财务经理 企业经理(厂长) 生产或经营经理 行政经理 人事经理 17.2074 24.6347 15.0087 10.9362 13.1960 计算机应用工程技术人员 电气工程技术人员 通信工程技术人员 建筑工程技术人员 13.6300 10.9897 15.6587 6.7116
机械工程技术人员
交通工程技术人员 电子工程技术人员 铁路工程技术人员 电力工程技术人员
7.9388
11.2369 15.3553 5.1503 10.0588
xf 解:( )x 1 75, f n (2) t 2.15 (3) p 0.3,
( x x) f
2
f
10.95
1.095
X : x 72.85 X 77.15 p (1 p ) 0.21
0.21 0.046试求抽样平均误差?
每包重量g 148—149 149—150 150—151 151—152 合 计
组中值 148.5 149.5 150.5 151.5
包数 10 20 50 20 100
Σxf x 150.3g Σf
2
Σ(x x ) f σ 0.87g Σf σ 0.87 重置 :μx 0.087g n 100 σ n 非重置 :μx 1 0.087g N n
x p
n p(1-p) n
第四节 区间估计
学生姓名 小张 小刘 小李 小王 小赵
月支出(元) 1120 1980 1500 1320 1870
小黄
小谭 小杜 小蔡 小唐 小高 小许
1390
1700 1380 1600 1740 1760 1850
80名
小卢
小吴 小郑
1780
1670 1720
在1530元上下浮动的一个区间内。
点估计和区间估计
(一)点估计 当总体参数不清楚时,用一个特定值(一
般用样本统计量)对其进行估计,称为点估 计。如:用样本均值代替总体均值,用样本 2 离差 ( )代替总体方差( ) 2 S 点估计从总体抽取一个样本,根据该样本的 观察值对总体指标作出一个数值点的估计 。
f ( x)
X
x
x N(X

2
n
)
f (t)
x X t / n
1-
t (n 1)
2

0
t (n 1)
2

t
P(-t <t<t )=1-
2 2
即在1- 置信度下,有: -t <t<t
2 2
x X 推导 即: < -t <t x t / n X x t / n / n 2 2 2 2
作业
从1000名学生中按理论抽样法抽取100人进行分析, 资料如下: 成绩 样本数目 (x x)2 f

60分以下 60—70 70—80 80—90 90分以上
合计
10 20 40 20 10
100
4000 2000 0 2000 4000
12000
求:(1)样本成绩的平均抽样误差。 (2)以F(1.96)=95%的置信度估计全部学生 的平均成绩。 (3)以F(2)=95.45%的置信度估计全部学生中 80分以上学生所占的比重。
◆全班中抽取10名学生,算出平均月支出额为 1530元,据此认为估计认为全班80名学生的 月均支出为1530元
(二)区间估计
区间估计就是根据样本估计量以一定可靠程 度推断总体参数所在的区间范围。 如:在一定置信度下 X在区间( x x+x) x-
相关文档
最新文档