第4章 统计推断 120
统计学-第四章-统计推断的理论基础

1,ω = 正 = , X(ω) 0,ω = 反
随机变量也是变量,是变量就要有值。投币事件X的值可以设为 随机变量也是变量,是变量就要有值。投币事件 的值可以设为1 的值可以设为 表示正面, 表示反面 当然,也可将X设为 表示反面; 设为1或 表示正面 表示正面, 或0,1表示正面,0表示反面;当然,也可将 设为 或2,1表示正面, , 表示正面 2表示反面。 表示反面。 表示反面
第一节: 第一节:概率与概率分布
(1)古典(等可能)概型的概率 )古典(等可能) 古典概型确定概率的三个步骤: 古典概型确定概率的三个步骤: 第一,找到随机实验的样本空间,即样本数 ; 第一,找到随机实验的样本空间,即样本数n; 第二,事件A发生的样本数 ; 发生的样本数m; 第二,事件 发生的样本数 第三,计算 的值。 第三,计算P(A)=m/n的值。 的值
第一节: 第一节:概率与概率分布
离散型随机变量举例: 离散型随机变量举例:
在一个箱子中有10个大小、材质完全相同的小球,其中红色的有 个 在一个箱子中有 个大小、材质完全相同的小球,其中红色的有2个, 个大小 蓝色的5个 黄色的有3个 从箱子中随机摸出一个小球, 蓝色的 个,黄色的有 个。从箱子中随机摸出一个小球,摸出红球的概 率为0.2,摸出篮球的概率为0.5,摸出黄球的概率为0.3。随机变量X的 率为 ,摸出篮球的概率为 ,摸出黄球的概率为 。随机变量 的 概率分布情况就可用下表表示: 概率分布情况就可用下表表示:
P ( AB) P( A) P( B) 若事件A与 相互独立 相互独立, 若事件 与B相互独立,则: P( B A) = = = P( B) P( A) P( A)
第一节:概率与概率分布 第一节:
事件关系的文氏图计算法
统计学:第四章 抽样推断(1)

、38、42、46、50元。
34,42 38 34,46 40
X
X N
42(元)
34,50 42 38,34 36
38,42 40
2(X
)
(X N
X
)2
32(元)
38,46 38,50 42,34
42 44 38
42,38 40
现用不重置抽样的方法从5人 42,46 44 中随机抽2个构成样本。共有20 42,50 46 个样本。
(二)意义 1.是由部分推断整体的的一种研究方法。 2.建立在随机原则取样的基础上。
随机原则:(1)每个单位有相同的中选可能性。(2)每个单位 的中选不中选不是主观所决定的。
3. 是运用概率的估计方法 。
例如:通过抽样推断得出,厦大学生的平均月支出在(820, 870)元上的可靠性为90%。
1-13
总体参数和样本统计量
总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。 样本统计量:根据样本分布计算的指标。是随机变量。
总体
样本
☺
☺ ☺
☺ ☺
☺☺☺
☺☺ ☺
参数
、2
p
平均数 标准差、方差
成数
统计量
X
S、 S2
P
s2
(x x)2 n 1
s2
(x
f
x)2 1
f
总体与样本比较
总 体 参 数
样本
46,34 46,38 46,42
样本平
均数x
40 42 44
46,50 48 50,34 42 50,38 44 50,42 46 50,46 48
1-24
得出两个结论:
样本平均数x
04 统计推断的理论基础

p(X=xi)=p(xi)(i=1,2,…)
概率分布的性质:
0 p(xi)1 (i=1,2,…), p(xi) =1
随机变量
连续型随机变量的概率分布
分布函数:对任意实数x,X<x是一随机事件, 可求其概率。记F(x)=p(X<x),该函数就是随机 变量的分布函数。 密度函数:对分布函数求导,可得密度函数,记 为f(x)
不可能事件——不可能出现的试验结果 用空集表示。 A发生或B发生事件记为A∪B; A与B同时发生事件记为A∩B,或AB; 前面的例子中, A∪ B= 是必然事件; AB= 是不可能事件。 如果AB= ,称为A与B不相容
随机事件与概率 概率
定义:概率也称为机率,是指随机事件发 生的可能性,或者说对随机事件发生可能 性的度量
每次试验之前不能确定何种结果会出现;
试验在相同条件下重复进行
随机事件与概率
随机试验与事件
随机事件:随机试验中可能出现也可能不出现 的结果,简称为事件 • 简单事件:也称为基本事件,它是不可以 再分解的事件,其也被称为样本点。
• 复杂事件:也称为复合事件,由简单事件 组合而成的事件。
基本事件也被称为样本点。设试验有n个基本事 件,分别记为i,(i=1,2,…,n),集合 ={1,2,…,n}称为样本空间, 中的元素就 是样本点。
随机变量
连续型随机变量的概率分布
正态分布:如果连续型随机变量X的密度
函数为
x
2 2
2
f x
1 2
e
x
则称随机变量X服从均值为,方差为2的
正态分布,记为X~N(, 2)
=0.6 =1 =2
随机变量
连续型随机变量的概率分布
第4章 统计推断(1)

四、双侧检验与单侧检验 检验目的不同(HA不同): ɑ的否定域不同
即 U >1.96,拒绝
双尾检验时拒绝
H0,就是在ɑ=0.05
域分为两块,但阴 P(U U0 ) 0.05 水平上达到显著
影部分总面- 积与单 U0 1.96 尾检验相同。
因此,当α相同时,
-1.96
1.96
单侧检验的U值小
(四)推断是否接受假设
若P>0.05,H0成立,差异不显著 若P<0.05,HA成立,差异显著
P值是在假设的条件下事件H0出现的可能性,即在假设条件 下的n次独立重复试验中,事件H0将按预定的概率发生。
综上所述,显著性检验,从提出无效假设与备择 假设到根据小概率事件实际不可能性原理来否定或接 受无效假设,其基本步骤如下:
x 136 126
u
1.581
x
240 / 6
Байду номын сангаас
P( u 1.581) 0.1142
即所得样本平均数与126相差为10以上的概率为0.1142, 注意:0.1142不是实得差异的概率,而是超过实得差异的概率。
概率的计算方法:
U检验
总体方差已知 总体方差未知,但n>30
t检验
样本容量n<30且总体方差未知
即用克矽平治疗后患者血红蛋白含量与治疗前血红蛋白含 量相同.
HA: 0
对一个样本平均数的假设 对两个样本平均数的假设
H0 : 1 2 H A : 1 2
(二)确定显著水平
确定一个否定H0的概率标准,记作ɑ。 ɑ是人为规定的小概率界限,常取0.05和0.01。
(三)计算概率
在H0正确的前提下,根据样本平均数的抽样分布计算出由抽样 误差造成的概率,
统计学第四章 统计推断1

求解似然方程
ˆ
1 1 7 i1 xi x 4
27
7
27
【例】总体均匀分布 X ∼ U(a,b),其中,a,b 是未知参数。设 X1,..., X n 为来自该总体的随机样本, x1 ,..., xn 为样本观察值,求未知参 数 a,b 的极大似然估计
1 x [a, b] b a f (x, a, b) 解:总体服从均匀分布,即 0 x [a, b]
ˆ X,
n n 1 1 ˆ 2 X i2 X 2 ( X i X ) 2 . n i 1 n i 1
16
16
例总体X的概分布为
X
1
1
2
„
1 „
θ
1
试求未知参数θ的估计量。
pi
E ( X ) 1
1 1 1 1 1 (1 ) (1 ) 2 (1 2 ) [ ] 2 2
12
(一) 矩估计法
统计学中,矩是指以期望值为基础而定 义的数字特征,如数学期望、方差、协方差等。 矩估计法是英国统计学家K.皮尔逊最早提 出来的,其理论基础是大数定理。 设X为随机变量,对任意的正整数k ,称E(Xk)、
E[(X-EX)] k分别为随机变量X的k 阶原点矩和k 阶中心矩。
由样本矩去估计总体矩的方法称为矩估计法; 由矩估计法得到的估计量称为矩估计量。
13
k E ( X ) 存在,则 由大数定律,若总体 k 阶原点矩
1 n k lim P X i E ( X k ) 0 n ,即样本的 n i 1
k 阶原点矩依概率收敛于总体
k k E ( X ) E ( X ) 知时,自然会想到用子样 k 阶 k 阶原点矩 ,所以当
第4章 贝叶斯统计推断

x!
例 2.3 证明了伽玛分布 Gamma(, ) 是均值(方差) 的共轭 先验分布,且此时的后验分布是 Gamma( nx, n) 。例 3.16 证明了 () 1/2 是 的杰弗里斯无信息先验,此时 的后验 分布是
ˆMD
x
n
1
2
,
ˆ E
x n
注 : 由 第 3 章 例 3.18 知 的 杰 弗 里 斯 先 验 为 ( ) 1/2 (1 )1/2 ( 即 贝 塔 分 布
B e t a( 0 . 5, 0 . 5),) 而由贝叶斯假设得 的先验分布为均匀分布U (0,1) (即贝塔分布 Beta(1,1) ),
4.1.3 区间估计
在贝叶斯统计中,区间估计问题处理简明、含义清晰、解释易懂。下面给出正 式定义。
定义 4.3 设给定的样本 x (x1, , xn ) 来自总体 p(x | ) 而且参数 的后验分布为 ( x) 。对于给定的概率1 (一般而言, 是小于或等于 0.1 的正数),(1)如果 可找到二个统计量ˆL ˆL (x) 和ˆU ˆU (x) ,使得
x
0,1,..., n
其中参数 为成功概率。现取贝塔分布 Beta(, ) 为 的先验分布,试求参数 的后验众数估
计和后验期望估计。
解:我们已知贝塔分布 Beta(, ) 是参数 的共轭先验分布,所以, 的后验分布为贝塔
分布 Beta( x, n x) 。因此, 的后验众数估计和后验期望估计分别为
( | x) p(x | ) () e nx1/2 n
4统计推断

第四章
•
统计推断
例3 现从某天生产的洗衣粉中随机地取16袋,称得重量(以克计)如 下表所示。 506 508 499 503 504 510 497 512
514 505 493 496 506 502 509 496 设洗衣粉的重量近似地服从正态分布,试求总体均值的置信度为0.95的 置信区间 。 解 这里,总体的方差未知,故总体均值 的置信区间为:
S S t / 2 (n 1), X t / 2 (n 1)) n n 而,经过计算得, x 503.75, s 6.2022 , 故所求的置信区间为(500.4, 507.1)。 (X
t0 又查表得,.025 (15) 2.1315
第四章
统计推断
2.两个正态总体的情况
( x y t0.025 (14)sw
即(-4.15,0.11)
1
1 1 1 , x y t0.025 (14) sw ) 8 8 8 8
第四章
统计推断
(2)两个总体方差比的置信区间
• 这里仅讨论 1 , 2 未知的情形
12 • 对于给定的置信度 1 , 的置信区间为 2 2
这样,我们就得到了 的一个置信度为 1 的置信区间
X z , X z n 2 n 2
简写成
X z n 2
第四章
统计推断
确定未知参数置信区间的一般步骤 (1)构造一个样本的函数W它包含待估未知参数,而不 含其它未知参数,并且 W 的分布已知且不依赖于任何 未知参数; (2)对于给定的置信度1 ,定出两个常数a,b,使得
X 的一个样
1 2 2 12
应用统计学 教案 第4章 抽样推断

第4章抽样推断 教 4. 1 统计抽样的一般问题 4.2抽样推断的相关基本概念 4. 3参数估计 4.4抽样误差 4.5抽样调查的组织方式及其误差的计算 4.6样本数目的确定 4.7 Excel在参数估计中的应用 教学要求 1. 理解不同种类抽样推断的基本原理; 2. 理解统计量与统计分布、重置抽样与非重置抽样概念的内涵: 3. 理解置信度与置信区间、抽样实际误差与平均误差的区别和联 系: 4. 掌握不同类型抽样的参数估计原理和方法: 5. 了解样本数目确定的原理和方法。 教学重点 统计量与统计分布、重置抽样和非重置抽样的概念;抽样平均误差 的计
算;不同类型抽样的参数估计原理和方法:样本数目确定的原 理和方法
教学难点 抽样平均误差的计算;不同类型抽样的参数估计原理和方法
教学方法
课堂讲授、多媒体教学、课堂讨论、案例分析、课堂练习、上机操 作。 课时数 12课时(课堂讲授9课时+课堂练习2课时+上机操作1课时)
导入案例 某品牌手机电池经过技术改进,待机时间得以提高,从该工厂抽取 一定数
量的样本,测得其平均待机时间,以此推断该工厂生产的电 池的待机时间。
4.1抽样推断的一般问题
抽样推断的概念及特点 抽样调查是一种非全面调查,它按照随机的原则从总体中抽取部分样本加以调查,目的是对 总体相关信息进行推断。 抽样调查是一种非全面调查,它按照随机的原则从总体中抽取部分样本加以调查,目的是对 总体相关信息进行推断。 抽样推断的主要特点如下。
课程思政目标: 统计推断就是利用样本 数据来推断总体特征的 方法,由点及面、由部 分推断总体真假的过 程。互联网技术带来了 信息时代,纷繁复杂、 Nf N2 -> n2
NL,h 2.类型抽样下的总体参数区间估计的计算步骤
(I )标志值条件下的计算步骤 第一步,计算样本均值。
其中,,也即分组的个数。 第二步,计算抽样平均误差。
第三步,计算极限误差。 印)=68.28%,/= 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H0
1 2
1 2 1 2
H1
1 2
1 2 1 2
医学统计学
12
三 、双尾检验与单尾检验
2
否定区 接受区
2
否定区
双尾 检验
接受区 否定 区
单尾 检验
二 、假设检验的步骤
2.确定检验水准 检验水准(size of a test)亦称显著 性根水据准选(定sig的ni显fic著an性ce水le平ve(l)0,.0符5或号0为.0α1。),决定接受 还它是是拒判绝别H差0. 异有无统计意义的概率水准,其大小 应根据分析的要求确定。通常取α= 0.05。
u值。
医学统计学
15
二 、假设检验的步骤
4.确定概率P值 P值是指在H0所规定的总体中作随机抽样,获得等于
或及的样大前本于提(下间出或的小现差于观异)察由样现抽有本样统以误计及差更量所的极致概端的率情概。况即的率概在。率H0为。真
│t│≥ tα,υ ,则P≤ α;
可以认为差别不由抽样误差引起,可以拒绝H0
医学统计学
14
二 、假设检验的步骤
3.选定检验方法和计算统计量
的根选检据验择研方究法适设。计当如的完类的全型随统和机统计设计计推方中断,法的两目计样的本要算均求数H选的用0比不较同 可不成同用的t立检统验计的,检样可验本方能含法量,性较可大即得时到(概不n同>率1的00有统)计,可多量用,大Z如检t验值。和
假设检验的原理
反证法:当一件事情的发生只有两种可能A和B, 为了肯定其中的一种情况A,但又不能直接证实A, 这时否定另一种可能B,则间接的肯定了A。
小概率原理:概率很小的事件在一次抽样试验中
实际是几乎不可能发生的。 =0.05/0.01
• 如果假设一些条件,并在假设的条件下能够准确地算出事件A出 现的概率α 为很小,则在假设条件下的n次独立重复试验中,事件 A将按预定的概率发生,而在一次试验中则几乎不可能发生。
(typeⅠerror)或第一类错误,也称为α错误。 ②不拒绝实际上是不成立的H0,这叫Ⅱ型错误 纳伪错误
(typeⅡerror)或第二类错误,也称为β错误。
实际情况
H0真 H0不真
推断结论和两类错误
检验结果
│t│< tα,υ,则P >α。
医学统计学
16
二 、假设检验的步骤
5.作出推断结论
①当P≤α时,表示在H0成立的条件下,出现等于及大
于现有统计量的概率是小概率,根据小概率事件原理, 现有样本信息不支持H0,因而拒绝H0,结论为按所取 检验水准拒绝H0,接受H1,即差异有统计学意义,如 前例可认为两总体脉搏均数有差别。
②当P>α时,表示在H0成立的条件下,出现等于及大于
现有统计量的概率不是小概率,现有样本信息还不能
拒统计绝意H0,义结,论如为前按例所尚取不检能认验为水两准总不体拒脉绝搏H0,均即数有差差异别无。
医学统计学
17
下结论时的注意点
P ≤α ,拒绝H0,不能认为H0肯定不成立,因为 虽然在H0成立的条件下出现等于及大于现有统计量 的概率虽小,但仍有可能出现。
双侧检验 单侧检验
目的
是否 0
是否 0 是否 0
H0
0
0 0
H1
0
0 0
医学统计学
11
两样本均数所代表的未知总体均数的比较
目的
双 侧 检 验 是否 1 2
单侧检验
是否 1 2 是否 1 2
医学统计学
9
二 、假设检验的步骤
1.建立检验假设
(1)一种是无效假设(null hypothesis),符号为
H0;
差别仅由抽样误差引起
(2)一种是备择假设(alternative hypothesis),
符号为H1。
确有差别
H0 : 0
H1 : 0
医学统计学
10
样本均数所代表的未知总体均数 与已知总体均数的比较
第一节 假设检验
一、基本概念
假设检验(hypothesis test)亦称显著性检验 (significance test)是利用小概率反证法思想,先 对总体特征做出两种对立的假设(H0与H1),然后 在H0成立的条件下计算检验统计量,以获得概率值, 并与预先规定的概率值α相比较来间接判断H1是否成 立的统计推断过程。
第4章
统计推断 (statistical inference)
医学统计学
1
第四章 统计推断
统
由一个样 本或一糸
计
列样本所
推
得的结果
断
来推断总 体的特征
参数估计 假设检验
第一节
第四章 假设检验的原理与方法
第二节 样本平均数的假设检验
第三节 样本频率的假设检验
第四节 参数的区间估计与点估计
第五节 方差的同质性检验
医学统计学
6
假设检验的原因
从两个总体中进行随机抽样,得到两个样本均 数 X 1、X 2。X 1 、X 2 不同。不同的原因是什么?
不同有两种(而且只有两种)可能: (1)分别所代表的总体均数相同,由于抽样误差 造成了样本均数别有显著性。
医学统计学
7
二 、假设检验的步骤
实例分析
例 根据大量调查,已知健康成年男子脉搏的均 数为72次/分钟,某医生在一山区随机测量了25 名健康成年男子脉搏数,求得其均数为74.2次/ 分钟,标准差为6.5次/分钟,能否认为该山区成 年男子的脉搏数与一般健康成年男子的脉搏数不 同?
医学统计学
8
本例两个均数不等有两种可能性
同理,P>α ,不拒绝H0,也不能认为H0肯定成立。 由此可见,假设检验的结论是具有概率性的,无论 拒绝H0或不拒绝H0,都有可能发生错误,即第一类 错误或第二类错误 。
假设检验只是统计结论。判断差别还要根据专业知 识。
医学统计学
18
假设检验中作出的推断结论可能发生两种错误: ①拒绝了实际上是成立的H0,这叫Ⅰ型错误 弃真错误
①山区成年男子的脉搏总体均数与一般健康成年男子的脉搏总 体均数是相同的,差别仅仅由于抽样误差所致; ②受山区某些因素的影响,两个总体的均数是不相同的。
如何作出判断呢?按照逻辑推理: 如果第一种可能性较大时,可以接受它,统计上称差异无统 计学意义; 如果第一种可能性较小时,可以拒绝它而接受后者,统计上 称差异有统计学意义。