第四章 统计推断
第4章 统计推断2

成对数据平均数的比较
在生物学或医学试验中,经常将试验配成若干配对,分 别作以不同处理,例如:用高粱的若干父本与两个不同 母本杂交,同一父本的两个杂交种是一个配对;用若干 同窝的两只动物作不同处理,每一窝的两只动物是一个 配对;在做药效试验时,测定若干试验动物服药前后的 有关数值,服药前后的一对数值是一个配对,等等。
2 2 x1 120.17( g ) s1 451.97( g ) 2 2 x2 101.00( g ) s2 425.33( g )
n1 12 n2 7
(1)假设 H0:σ12=σ22=σ2
HA: σ12 ≠ σ22
(2)水平 选取显著水平α=0.05 (3)检验
s12 451.97 F 2 1.063 s2 425.33
差异?
B法:调查200株,平均天数为70.3d
试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。
分 析
(1)这是两个样本(成组数据)平均数比较的假设检 验,σ12=σ22=(6.9d)2,样本为大样本,用u检验。
(2)因事先不知A、B两方法得到的天数孰高孰低,用 双尾检验。
6
(1)假设 (2)水平 (3)检验
2 e 2 1 2 2
s x1 x2
2 2 se se 10 .005 n1 n2
x1 x2 t 1.916 sx x
1 2
x1 x2 t 1.916 sx x
1 2
df=(n1-1)+(n2-1)=17 t 0.05(17) =2.110 P>0.05
差值样本的平均数等于样本平均数的差值
25
样本差数的方差
s
2 d
统计学:第四章 抽样推断(1)

、38、42、46、50元。
34,42 38 34,46 40
X
X N
42(元)
34,50 42 38,34 36
38,42 40
2(X
)
(X N
X
)2
32(元)
38,46 38,50 42,34
42 44 38
42,38 40
现用不重置抽样的方法从5人 42,46 44 中随机抽2个构成样本。共有20 42,50 46 个样本。
(二)意义 1.是由部分推断整体的的一种研究方法。 2.建立在随机原则取样的基础上。
随机原则:(1)每个单位有相同的中选可能性。(2)每个单位 的中选不中选不是主观所决定的。
3. 是运用概率的估计方法 。
例如:通过抽样推断得出,厦大学生的平均月支出在(820, 870)元上的可靠性为90%。
1-13
总体参数和样本统计量
总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。 样本统计量:根据样本分布计算的指标。是随机变量。
总体
样本
☺
☺ ☺
☺ ☺
☺☺☺
☺☺ ☺
参数
、2
p
平均数 标准差、方差
成数
统计量
X
S、 S2
P
s2
(x x)2 n 1
s2
(x
f
x)2 1
f
总体与样本比较
总 体 参 数
样本
46,34 46,38 46,42
样本平
均数x
40 42 44
46,50 48 50,34 42 50,38 44 50,42 46 50,46 48
1-24
得出两个结论:
样本平均数x
第4章 统计推断(1)

四、双侧检验与单侧检验 检验目的不同(HA不同): ɑ的否定域不同
即 U >1.96,拒绝
双尾检验时拒绝
H0,就是在ɑ=0.05
域分为两块,但阴 P(U U0 ) 0.05 水平上达到显著
影部分总面- 积与单 U0 1.96 尾检验相同。
因此,当α相同时,
-1.96
1.96
单侧检验的U值小
(四)推断是否接受假设
若P>0.05,H0成立,差异不显著 若P<0.05,HA成立,差异显著
P值是在假设的条件下事件H0出现的可能性,即在假设条件 下的n次独立重复试验中,事件H0将按预定的概率发生。
综上所述,显著性检验,从提出无效假设与备择 假设到根据小概率事件实际不可能性原理来否定或接 受无效假设,其基本步骤如下:
x 136 126
u
1.581
x
240 / 6
Байду номын сангаас
P( u 1.581) 0.1142
即所得样本平均数与126相差为10以上的概率为0.1142, 注意:0.1142不是实得差异的概率,而是超过实得差异的概率。
概率的计算方法:
U检验
总体方差已知 总体方差未知,但n>30
t检验
样本容量n<30且总体方差未知
即用克矽平治疗后患者血红蛋白含量与治疗前血红蛋白含 量相同.
HA: 0
对一个样本平均数的假设 对两个样本平均数的假设
H0 : 1 2 H A : 1 2
(二)确定显著水平
确定一个否定H0的概率标准,记作ɑ。 ɑ是人为规定的小概率界限,常取0.05和0.01。
(三)计算概率
在H0正确的前提下,根据样本平均数的抽样分布计算出由抽样 误差造成的概率,
统计学第四章 统计推断1

求解似然方程
ˆ
1 1 7 i1 xi x 4
27
7
27
【例】总体均匀分布 X ∼ U(a,b),其中,a,b 是未知参数。设 X1,..., X n 为来自该总体的随机样本, x1 ,..., xn 为样本观察值,求未知参 数 a,b 的极大似然估计
1 x [a, b] b a f (x, a, b) 解:总体服从均匀分布,即 0 x [a, b]
ˆ X,
n n 1 1 ˆ 2 X i2 X 2 ( X i X ) 2 . n i 1 n i 1
16
16
例总体X的概分布为
X
1
1
2
„
1 „
θ
1
试求未知参数θ的估计量。
pi
E ( X ) 1
1 1 1 1 1 (1 ) (1 ) 2 (1 2 ) [ ] 2 2
12
(一) 矩估计法
统计学中,矩是指以期望值为基础而定 义的数字特征,如数学期望、方差、协方差等。 矩估计法是英国统计学家K.皮尔逊最早提 出来的,其理论基础是大数定理。 设X为随机变量,对任意的正整数k ,称E(Xk)、
E[(X-EX)] k分别为随机变量X的k 阶原点矩和k 阶中心矩。
由样本矩去估计总体矩的方法称为矩估计法; 由矩估计法得到的估计量称为矩估计量。
13
k E ( X ) 存在,则 由大数定律,若总体 k 阶原点矩
1 n k lim P X i E ( X k ) 0 n ,即样本的 n i 1
k 阶原点矩依概率收敛于总体
k k E ( X ) E ( X ) 知时,自然会想到用子样 k 阶 k 阶原点矩 ,所以当
第四章:统计描述及统计推断

500.00
26
天 计 算
300.00 200.00 0 20 40 60 80 100
工龄(年)
直方图(Histogram )
条形图的弱点,例如身高问题
2.0
1.5
Count
1.0
0.5
0.0 160.00 163.00 165.00 168.00 170.00 171.00 172.00 175.00 176.00 177.00 178.00 180.00 181.00 182.00 183.00 185.00 186.00 190.00
“茎节”的宽度,是指“茎节”的末位数上的数字1, 所代表的实际数为(10或k,k是整数) “茎节”确定后,“叶”便随之确定。例如,规定“茎 节”的宽度是100,则十位数和其后的位数都是“叶”。样 本数123,“茎节” “叶”表达方式1,23。
例如,规定“茎节”的宽度是10,则个位数和其后的位
作为总体未知参数的估计值的一种推断方法。
点估计的方法有矩估计法、极大似然估计法、最小 二乘法等。
2.2.2、区间估计
就是以一定的概率保证估计包含总体参数的一个值 域(区间),即根据样本统计量和抽样平均误差推断总
体参数的可能范围(区间)。
包括两部分内容:一是这一可能区间的大小;二是 总体参数落在这一可能区间内的概率。区间估计既说清
正态分布几个典型区间的面积
μ ±σ
区间的面积 68.27%
μ ±1.64σ 区间的面积 90.00%
μ ±1.96σ 区间的面积 95.00%
μ ±2σ 区间的面积 95.45%
μ ±2.58σ 区间的面积 99.00% μ ±3σ 区间的面积 99.73%
文库最新发布:sas第四章

结果输出及解释
Analysis Variable : H
1
N
Mean
Std Dev
Minimum
Maximum
----------------------------------------------------16 1.6725000 0.0866025 1.5200000 1.8000000
结果。 ---------- GROUP=1 ------------
Variable=X
N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank
W:Normal
Univariate Procedure
Moments
11
Sum Wgts
体参数可能存在的区间,这种估计是以一定的 概率得出的,具有一定的可信度,称为可信区 间。可信度,称为显著性水平 ,常取0.05或 0.01。
• 可信度作为区间估计的准确性度量
• 区间宽度作为区间估计的精密性度量
总体均数区间估计的计算
• 双侧 • 单侧
x t,vs / n x t,s / n x t,s / n
4.3.1 样本均数与已知总体均数μ0的比较。
程序/* The following example is t-test of type Ⅰ*/;
data d1; input x@@; x=x-500; cards;
504 498 496 487 509 476 482 510 469 472 ;
proc univariate normal; var x; run;
否相同有关)
• a. 方差齐(σ12=σ22)时:t;b. 方差不齐(σ12≠σ22) 时 t’
统计学 第四章 推断统计概述
第四章 推断统计概述第一部分 概率论基本知识← 一、概率的定义;二、概率的性质;三、概率的加法定理和乘法定理← 四、概率分布类型四、概率分布类型← 概率分布(probability distribution )是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。
← 依不同的标准,对概率分布可作不同的分类。
1、离散型分布与连续型分布← 依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。
← 教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。
2、经验分布与理论分布← 依分布函数的来源,可将概率分布分为经验分布与理论分布。
← 经验分布(empirical distribution )是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。
← 理论分布(theoretical distribution )是按某种数学模型计算出的概率分布。
3、基本随机变量分布与抽样分布← 依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution )。
← 基本随机变量分布是随机变量各种不同取值情况的概率分布,← 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。
第二部分 几种常见的概率分布← 一、二项分布← 二项分布(binomial distribution )是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。
← 2.二项分布函数← 二项分布是一种离散型随机变量的概率分布。
← 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X =0,1…,n )的概率分布,叫做二项分布函数。
← 二项展开式的通式(即二项分布函数):← ←← ← ←← 成功概率 p ;样本容量 n← 在成功概率为p 的总体中随机抽样,抽取样本容量为n 的样本中,有X 次为成()011111100q p C q p C q p C q p C q p n n n n n n n n n n n ++++=+---Λ()Xn X X n X q p C P -⋅⋅=()X n X q p X n X n -⋅-=!!!功的概率: ←(X =0,1…,n ) ←称X 服从参数为n ,p 的二项分布,记为: ←X ~B(n ,p ) 其中,0<p<1 ←二项分布的性质 ←二项分布有如下性质: ←①当p=q 时,图形是对称的。
统计推断案例
案例2 公司总经理的平均年收入 是否有效
公司总经理的报酬是多少?为了回答这 个问题,《商业周刊》(美)每年都要 对公司经理作一次调查。1994年这家杂 志调查了360家公司的经理,书上表4-2 是其中20家大公司总经理1993年的总收 入(薪金、各种费用、红利等等)。假 定这些数据代表了美国高收入公司经理 的一个样本。
(
),
即这些高收入公司总经理1993年平均收入的 95%置信区间为(5930.3,45999.1)千美元。
(3)由上述分析可知,该置信区间有效的条件 就是这些高收入公司总经理薪金近似服从正态 分布。
(4)因为这20位总经理样本并非随机抽取,所 以这个高收入置信区间,有可能右偏。
案例3 生产过程的运行状况是否令人满意
(4)当显著水平变大时,暗示着什么?这时,哪 种错误或误差将增大?
• 分析过程 1. 设计规格要求该生产过程的均值为12,
Quality Associates建议采用如下形式的 假设检验:
只要H0被拒绝,就应采取纠正措施。
• 2.计算每一样本的标准差。
• 从每一个样本的标准差来看,假设总体 标准差为0.21基本合理。
公司考虑多售机票以提高上座率,不知是否 可行。于是想了解如下3个问题: (1)预订78张机票,出现75人以上登机的概率 (2)每张机票价格200元,当出现75人以上登 机时,对未能登机者按票价加倍补偿,应否 多预售机票?
(3)预售机票多少张时,平均收益最大?
• 方法的确定
泊松分布适合于描述单位时间(或空间)内随 机事件发生的次数。根据所收集的信息,了解 数据的概率分布特征,用泊松分布进行近似分 析。
根据以上数据,我们要讨论下列几个问题:
(1)计算和s; (2)计算这些高收入公司总经理1993年平均收
第四章 统计推断3PPT课件
u x
x
其中平均数标准误为:
x
n
由于假设H0:μ=μ0,故:
x
u
0
x
由于总体标准差不易求得,若为大样本, 可以用样本标准差估计总体标准差,则样 本平均数的标准误及u值为:
sx
s n
x
u
0
sx
如果实得 u u ,则否定H0,接受HA。当
时 u u ,接受H0。
大样本平均数的检验
❖ 例4.1 ❖ 解题思路:总体标准差已知,故采用u双尾检
本例利U分 用布 了来|u估 |2.5计 6的 2 尾区概率, u检所 验以 。称
ux0 称为检验统计量。 / n
3 双侧检验与单侧检验
在例一里,HA 备 :择 0。 假 HA实 设际 是上包 0含 或 0这两种情水 况平 ,的 此拒 时 ( , 绝 u/域 2] 为
和 [u/2,)。
这种利用两的 个检 尾验 部称 进作 行 双 双侧 侧检 检验 验的 。
首先对样本所 作在 一的 假总 设体 。假 药设 剂喷 的洒 玉了 米单
总体平与 均原 数来的玉米 体单 平穗 均 0之重 数 间总 没有真实 即=0。也就是说表 x面 0)差 是异 由( 抽样误 。差造成
0被称为零假设 设或 ,无 记 H0效 :为 假 0.
所谓“零”就是指处理(药剂) 没有效果
H0是待检验的假 可设 能, 被它 接有 受, 被也 否有 定可 。 因此,需要设 立定 的一 假个 设对 ,称 设为 。备择假
验 ❖ 检验步骤: ❖ 无效假设H0:1=2.即新育苗方法与常规育
苗方法所育鱼苗体长相同 ❖ 备择假设HA:12即新育苗方法与常规育
苗方法所育鱼苗体长不相同
❖ 选取显著水平α=0.05
课件-数理统计与多元统计 第四章 非参数统计 4.1非参数统计推断模型
30
1)利用样本均值差估计位置差
利用样本均值差估计,如果X,Y的期望均
存在,则 ˆ1 Y X E(Y ) E( X )
即为的无偏估计,故而自然用作为的
点估计。 这里没有要求X,Y的分布函数是对称的。 故此估计使用范围较宽,但易受少数异常 值的影响。
31
2)利用中位数之差估计位置差 因为样本均值易受异常值影响,而样本
1 n
n i 1
(Xi
X )2
的估计值常常也不能对总体取值的离散度 作出一个直观的说明,在非参数统计中常 用极差来说明总体取值的离散度:
24
2 对称中心的估计 一般地,设F(x)为关于原点对称的分布
函数,则记F(x)为关于参数 对称的分布 函数,称为F的对称中心。 对称性:一般地,设F(x)为以 对称中心
函数,则有
F( x) 1 F(2 x), F( x ) 1 F( x) f (2 x) f ( x)
25
1)利用样本均值估计对称中心
样本均值与样本方差是非参数统计常 用统计量。
3
一 次序统计量及其分布 二 秩统计量及其分布
4
一 次序统计量及其分布
1 .次序统计量的定义
定义4.2.1 设有总体X 的一个容量为n 的样 本X1,X2,…,Xn,若把X1,X2,…,Xn
按从小到大的次序排序为
X(1)≤X(2)≤…≤X(n) 则称X1,X2,…,Xn 为原样本X1,X2,…, Xn的次序统计量。其中X(i)(1≤i≤n)称为第 i
①平均法确定“结”秩:
定义4.2.6 如果(m≤n,i1<i2<…<im)为 X1,X2,…,Xn 的结,结长为m,若在次序统 计量中位置为第k个,则其余的为第k + 1,…, k + m 1个次序统计量,此时按平均法定义它 们的秩相等,称之为结的秩,由下式计算: