t分布的概念及表和查表方法
5第四章 t检验

2.非参数检验ห้องสมุดไป่ตู้2.非参数检验 (nonparametric test)
非参数检验是一类不依赖总体分布的具体形式的统 非参数检验是一类不依赖总体分布的具体形式的统 计方法。 Ridit分析 秩和检验、符号检验、 分析、 计方法。如Ridit分析、秩和检验、符号检验、 中位数检验、序贯试验、等级相关分析等。 中位数检验、序贯试验、等级相关分析等。 优点: 对总体的分布形式不要求; ⑴优点:①对总体的分布形式不要求;②可用于不 能精确测量的资料;③易于理解和掌握;④计算 能精确测量的资料; 易于理解和掌握; 简便。 简便。 缺点:不能充分利用资料所提供的信息, ⑵缺点:不能充分利用资料所提供的信息,使检验 效率降低。 效率降低。
一、适用条件
1.设计类型是配对设计。 设计类型是配对设计。 数值变量的对子差值是正态 2.数值变量的对子差值是正态 分布。 分布。
二、计算公式
t= d−
µ
2
d
Sd
d = Sd
2
d = Σd n
ν=n-1 =n-1 d 式中d为各个对子数值的差数, 式中d为各个对子数值的差数, 为差数的平均数 , sd为差数的标准差, sd为差数的标准误,n为对 为差数的标准差, 为差数的标准误,n ,n为对 子数。 子数。
二、正态性检验的方法
为总体分布是正态分布, 检验假设 H 0 为总体分布是正态分布 , 当 P > α 时 , 认为样本所来自的总体服从正态分布; 不拒绝H0,认为样本所来自的总体服从正态分布; 而 P≤α 时 , 拒绝 H 0 , 认为样本所来自的总体不 服从正态分布。 服从正态分布。 1.W检验 Shapiro-Wilk检验是基于次序统计量对 Shapiro-Wilk检验是基于次序统计量对 它们期望值的回归而构成的。 它们期望值的回归而构成的。所用检验统计量为W, 检验。在样本量3 50时使用 时使用。 又称为W检验。在样本量3≤n≤50时使用。 Kolmogorov-Smirnov检验的统计量为 2.D 检验 Kolmogorov-Smirnov 检验的统计量为 D , 检验,在样本量50 50≤ 1000时使用 时使用。 所以也称D检验,在样本量50≤n≤1000时使用。
4正态分布

正态分布的图形特征
• 正态分布的密度函数
f (X ) 1 e
( X ) 2 / 2 2
2
, X
式中,μ为总体均数,σ为总体标准差,π为圆周 率,e为自然对数的底,仅x为变量。 当x确定后, f(x)为x相应的纵坐标高度,则x 服从参数为μ和σ2的正态分布( normal distribution), 记作X~N( μ,σ2 )。
正态分布及其应用
一、正态分布的概念和特征:
观察表7-2资料绘成的直方图
概念:如果观察例数逐渐增多,组段不断 分细,直方图顶端的连线就会逐渐形成一条高 峰位于中央(均数所在处),两侧逐渐降低且 左右对称,不与横轴相交的光滑曲线,这条曲 线称为频数曲线或频率曲线,近似于数学上的 正态分布(高斯分布;Gauss)。 由于频率的总和为100%或1,故该曲线下 横轴上的面积为100%或1。
1
2
标准正态分布曲线下面积规律:
1. 标准正态分布区间(-1,1)的面积占总面积的68.26% 。 2. 标准正态分布区间(-1.96,1.96)的面积占总面积的95% 。 3. 标准正态分布区间(-2.58,2.58)的面积占总面积的99% 。
二、正态曲线下面积的分布规律
实际工作中,常需了解正态曲线下横轴 上某一区间的面积占总面积的百分数,以便估 计该区间的例数占总例数的百分数或观察值落 在该区间的概率。为了便于应用,统计学家按 φ (u)编制了附表1标准正态分布曲线下的面积, 由此表可查出曲线下某区间的面积。
参考值范围的制定方法:
(1)正态分布法:适用于正态或近似正态分布资料; 双侧界值 单侧上界 单侧下界
X u / 2 s
X u s
X u s
[课件]概率与统计 6.2 常用统计分布
![[课件]概率与统计 6.2 常用统计分布](https://img.taocdn.com/s3/m/1b84a2116c175f0e7cd1370c.png)
2 Y = ∑ Xi 2 i =n +1 1
电子科技大学
n +n2 1
常用统计分布
则
Y +Y = ∑ 1 2
n +n2 1 i =1
2 Xi
相互独立, 且Xi , i=1,2,…,n1+n2 相互独立,Xi~N(0,1), 从而 Y1+Y2~ χ2 (n1+n2).
电子科技大学
常用统计分布
总体, 总体,个体 简单随机样本 正态总体的 2个抽样定理 个抽样定理
统计量
样本均值 样本方差 样本矩(样本相关系数) 样本矩(样本相关系数)
统计量的分布
χ2分布
t 分布 F分布 分布
分位数 结构定理
电子科技大学
常用统计分布
设随机变量X 服从正态分布N(0,1), 对给 例6.2.1 设随机变量 服从正态分布 定的α(0<α<1),数uα满足 , 定的 , P{X > uα} = α
电子科技大学
T~t(n) ~
又称学生氏分布--第一个研究者以 又称学生氏分布--第一个研究者以Student --第一个研究者
常用统计分布
定理6.2.2 设随机变量 Y 相互独立 X 设随机变量X, 相互独立, 定理 ~N(0,1),Y~ χ2(n),则 , ~ ,
X T= ~ t(n) Yn
即随机变量 T 服从自由度为 n 的 t 分布 服从自由度为 分布.
电子科技大学
常用统计分布
χ2分布的三条性质: 分布的三条性质 三条性质:
性质1. 数字特征 数字特征) 性质 (数字特征 设 χ2 ~ χ2(n) ,则有 E( χ2 ) = n , 证明 D( χ2 ) = 2n
t检验

第三节 两独立样本均数的t检验
适用资料:完全随机设计资料 完全随机设计:将受试对象完全随 机地分为两组,分别接受两种不同 的处理。两组例数可相等或不等, 数据间相互独立,无对子关系。 目的:推断两总体均数(μ1,μ2)是否 相同。
27
3.05 3.76 2.75 3.23 3.67 4.49 5.16 5.45 2.06 1.64 2.55 1.23
----
1.建立假设、确定检验水准α
H0: μd = 0
H1: μ d ≠ 0
α=0.05
2.计算检验统计量
d = 4.79 12 = 0.399 , ∑ d = 4.79 , ∑ d 2 = 4.1721 ,u变换
标准正态分布 N(0,12) 标准正态分布 N(0,12) Student t分布 自由度:n-1
4
N (μ ,σ
n)
X −μ u= σ n
X −μ X −μ t= = SX S n
t分布曲线
t分布有如下性质:
①单峰分布,曲线在 t =0 处最高,并以 t =0为中心 左右对称 ②与正态分布相比,曲线 最高处较矮,两尾部翘得 高(见彩色线) ③ 随自由度增大,曲线逐 渐接近正态分布;分布的 极限为标准正态分布。
Sd =
t=
∑d
2
− (∑ d )2 / n n−1
=
4.1721 − 4.79 2 / 12 = 0.453 12 − 1
|d | 0.399 = = 3.051, ν = n − 1 = 12 − 1 = 11 S d / n 0.453 / 12
3.查相应界值表,确定 P 值,下结论。 查表 t 0.05 / 2 ,11 = 2.201 , t > t 0.05 / 2,11 ,P <0.05,按α=0.05 水准,拒 绝 H0,接受 H1,差别有统计学意义,可以认为两种方法的测量结果 不同。
t检验临界值表(t-test)-t检验表

t < t (df )0.05
5、根据是以上分析,结合具体情况,作出结论。
T检验举例说明
例如,T检验可用于比较药物治疗组与安慰剂治疗组病人的测量差别。理论上, 即使样本量很小时,也可以进行T检验。(如样本量为10,一些学者声称甚至更小的 样本也行),只要每组中变量呈正态分布,两组方差不会明显不同。如上所述,可以 通过观察数据的分布或进行正态性检验估计数据的正态假设。方差齐性的假设可进行 F检验,或进行更有效的Levene's检验。如果不满足这些条件,只好使用非参数检验代 替T检验进行两组间均值的比较。
2)如果要评断两组样本平均数之间的差异程度,其统计量t值的计算公式为:
3、根据自由度df=n-1,查t值表,找出规定的t理论值并进行比较。理论值差异的显著 水平为0.01级或0.05级。不同自由度的显著水平理论值记为t(df)0.01和t(df)0.05 4、比较计算得到的t值和理论t值,推断发生的概率,依据下表给出的t值与差异显 著性关系表作出判断。
例1 难产儿出生体重
一般婴儿出生体重μ0 = 3.30(大规模调查获得),问相同否? 解:1.建立假设、确定检验水准α H 0:μ = μ0 (难产儿与一般婴儿出生体重的总均数相等;H 0无效假设,null (难产儿与一般婴儿出生体重的总均数不等;H 1备择假设,alternative 双侧检验,检验水准:α = 0.05 2.计算检验统计量
P越小,不是说明实际差别越大,而是说越有理由拒绝H0 ,越有理由说明两者有 差异,差别有无统计学意义和有无专业上的实际意义并不完全相同
假设检验和可信区间的关系 结论具有一致性 差异:提供的信息不同
区间估计给出总体均值可能取值范围,但不给出确切的概率值,假设检验可以给出 H0成立与否的概率
统计学t检验简介(二)

n1 n2
12 12
2019/7/5
15
(3)确定P值 作出推断结论 ν =12+12-2=22,查t界值 表,得t0.005/2,22=3.119, t0.001/2,22=3.505,现t0.005/2,22<t< t0.002/2,22, 故 0.005>P>0.002。按α水准,拒绝H0,接受H1,差异有统计学 意义。可以认为银屑病患者与正常人的血清IL-6平均水平不同, 银屑病患者血清IL-6平均水平较高。
2019/7/5
20
第四节 正态性检验和两总体方差的齐性检验
一、正态性检验
正态性检验只介绍以下基本概念。定量资料的假设检验方 法,如t 检验、F检验等大都要求资料服从于正态分布,通过 频数分布表可近似的看出资料的分布形态,但要确定资料是否 为正态分布要通过假设检验的方法。
(一)图示法:常用的图示法包括P-P图法和Q-Q图法。图 中数据呈直线关系可认为呈正态分布,不呈直线关系可认为呈 偏态分布。主要通过SAS或SPSS统计软件实现的。
2019/7/5
26
偏度系数g1和峰度系数g2的计算和假设检验主要通过SAS或 SPSS统计软件完成,两种检验方法都是P>0.05时,不拒绝H0; P≤0.05时,拒绝H0。一般认为两种检验方法均为P>0.05时,才 能认为总体分布为正态分布。
2019/7/5
27
二、两样本方差的齐性检验
两样本均数比较的t检验,要求相应的两总体方差相等,即
2019/7/5
5
如果在总体标准差σ0已知的情况下,样本均数与总体均数 比较可用z检验,因为z值符合标准正态分布,其计算公式为:
z X 0 0 / n
03 第三章 t检验2013
表3-1 对子号 1 2 3 4 5 6 7 8 合计
不同饲料组大白鼠肝中维生素A含量 ( m ol/ g ) 正常组 VE缺乏组 3.72 2.57 2.09 2.51 3.14 1.88 4.14 3.35 3.98 3.40 3.93 2.83 3.61 2.62 3.19 1.83 d 1.15 -0.42 1.26 0.79 0.58 1.10 0.99 1.36 6.81 d的平方 1.3225 0.1764 1.5876 0.6241 0.3364 1.2100 0.9801 1.8496 8.0867
X t / 2, S X
有样本计算的置信区间(3.13,3.41)kg,已知总体被 包含在置信区间内,可认为:该地农村新生儿出生体 重与该地新生儿平均出生体重相同。
置信区间法(单侧) μ0=3.36kg n=40 x =3.27kg s=0.44kg
X t , S X
有样本计算的置信区间(?)kg,已知总体被包含在 置信区间内,可认为:该地农村新生儿出生体重与该 地新生儿平均出生体重相同。
t
X 0 S n
例
已知某地新生儿出生体重均数为3.36kg。从 该地农村随机抽取 40 名新生儿,测得其平均体
重为3.27kg,标准差为0.44kg,
问该地农村新生儿出生体重是否与该地新 生儿平均出生体重不同?
双侧检验
(1)建立检验假设,确定检验水准
H0 : μ = 3.36 ,即 该地农村新生儿出生体重与该地
(1)建立检验假设,确定检验水准
H0:μ=3.36,即该地农村新生儿出生体重与
该地新生儿平均出生体重相同;
H1:μ≠3.36,即该地农村新生儿出生体重与
16几个常用的抽样分布与抽样分布定理
(s
0),
(s 1)
s (s) ,(12)
3
3.性质:
1)期望与方差
提示: 2
X
2 1
X
2 n
若 2 ~ 2(n),则 E( 2)= n,D( 2)=2n
证明: 因为Xi~N(0, 1)
所以
E
(
X
2 i
)
D( Xi
) [E( Xi
)]2
1 0 1
D(
X
2 i
)
E
(
X
4 i
)
[
2 1
/
2 2
~
F (n1
1, n2
1)
29
定理2结论(3)
假定
2 1
2 2
2,
就有
t T ( X Y ) (1 2 ) ~ S 1 n1 1 n2
(n1 n2 2)
其中
S2
(n11)S12 (n2 1)S22 n1 n 2 2
即
( X Y ) (1 2 )
13
T 的概率密度为
(s) xs1e x d x (s 0),
0
f (t)
( n 1) 2
(1
t2
)
n1
2,
(12)
t
n ( n) n
2
14
2.基本性质:
(1) f ( t ) 关于 t = 0(纵轴)对称。
(2) f ( t ) 的极限为 N(0, 1) 的密度函数,即
lim f (t) (t)
标准化
定理1:设总体 X ~ N ( , 2 ) ,X1, X2,…, Xn 是
来自总体 X 的样本,
卫生统计学重点笔记
医师资格考试蓝宝书预防医学之答禄夫天创作医学统计学方法第一节基本概念和基本步伐(非常重要)一、统计工作的基本步伐设计(最关键、决定成败)、搜集资料、整理资料、分析资料.总体:根据研究目的决定的同质研究对象的全体,确切地说,是性质相同的所有观察单元某一变量值的集合.总体的指标为参数.实际工作中,经常是从总体中随机抽取一定命量的个体,作为样本,用样本信息来推断总体特征.样本的指标为统计量.由于总体中存在个体变异,抽样研究中所抽取的样本,只包括总体中一部份个体,这种由抽样引起的不同称为抽样误差.抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低.某事件发生的可能性年夜小称为概率,用P暗示,在0~1之间,0和1为肯定不发生和肯定发生,介于之间为偶然事件,<0.05或0.01为小概率事件.二、变量的分类变量:观察单元的特征,分数值变量和分类变量.第二节数值变量数据的统计描述(重要考点)一、描述计量资料的集中趋势的指标有1.均数均数是算术均数的简称,适用于正态或近似正态分布.2.几何均数适用于等比资料,尤其是对数正态分布的计量资料.对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据的对数值lgX取代X)服从正态分布,观察值不能为0,同时有正和负.3.中位数一组按年夜小顺序排列的观察值中位次居中的数值.可用于描述任何分布,特别是偏态分布资料的集中位置,以及分布不明或分布末端无确定命据资料的中心位置.不能求均数和几何均数,但可求中位数.百分位数是个界值,将全部观察值分为两部份,有X%比小,剩下的比年夜,可用于计算正常值范围.二、描述计量资料的离散趋势的指标1.全距和四分位数间距.2.方差和标准差最为经常使用,适于正态分布,既考虑了离均差(观察值和总体均数之差),又考虑了观察值个数,方差使原来的单元酿成了平方,所以开方为标准差.均为数值越小,观察值的变异度越小.3.变异系数多组间单元分歧或均数相差较年夜的情况.变异系数计算公式为:CV=s/×100%,公式中s为样本标准差,为样本均数.三、标准差的应用暗示观察值的变异水平(或离散水平).在两组(或几组)资料均数相近、怀抱单元相同的条件下,标准差年夜,暗示观察值的变异度年夜,即各观察值离均数较远,均数的代表性较差;反之,暗示各观察值多集中在均数周围,均数的代表性较好.(常考!)四、医学参考值的计算方法,单双侧问题,医学为95%医学参考值是指正凡人体或植物体的各种生理常数,由于存在变异,各种数据不单因人而异,而且同一个人还会随机体内外环境的改变而改变,因而需要确定其摆荡的范围,即正常值范围.医学参考值的计算公式:①正态分布资料95%医学参考值:±1.96s(双侧);+1.645s或 1.645s(单侧),s为标准差.②百分位数法P2.5和P97.5(双侧);P5或P95(单侧).第三节数值变量数据的统计推断(重要考点)一、标准误,标准误与标准差和样本含量的关系标准差和标准误的区别.样本标准误即是样本标准差除以根号下样本含量.标准误与标准差成正比;与样本含量的平方根成反比.因此.为减少抽样误差,应尽可能保证足够年夜的样本含量.样本标准差与样本标准误是既有联系又有区另外两个统计量,二者的联系是公式:二者的区别在于:样本标准差是反映样本中各观测值X1,X2,……,Xn变异水平年夜小的一个指标,它的年夜小说明了对该样本代表性的强弱.样本标准误是样本平均数1,2,……的标准差,它是抽样误差的估计值,其年夜小说明了样本间变异水平的年夜小及精确性的高低.(掌握!)二、t分布和标准正态u分布关系均以0为中心左右两侧完全对称的分布,只是t分布曲线顶端较u分布低,两端翘.(v逐渐增年夜,t分布逐渐迫近u分布).正态分布的特点:①以均数为中心左右两侧完全对称分布;②两个参数,均数u(位置参数)和s(变异参数);③对称均数的两正面积相等.三、总体均数的估计样本统计量推算总体均数有两个重要方面:区间估计和假设检验.样本均数估计总体均数称点估计.总体均数区间估计(可信区间)的概念:按一定的可信度估计未知总体均数所在范围.其统计上习惯用95%(或99%)可信区间暗示总体均数μ有95%(或99%)的可能在某一范围.可信区间的两个要素,一为准确度,反映在可信度1α的年夜小,即区间包括总体均数的概率年夜小,固然愈接近1愈好;二是精度,反映在区间的长度,固然长度愈小愈好.在样本例数确定的情况下,二者是矛盾的,需要兼顾.总体均数可信区间的计算方法:1.当n小按t分布的原理用式计算可信区间为:±tα/2,vS2.当n足够年夜因n足够年夜时,t分布迫近μ分布,按正态分布原理.用式估计可信区间为:±μα/2S可信区间与医学参考值范围的区别:二者的意义和算法分歧.四、假设检验的步伐1.建立假设:H0(无效,两样本代表的总体均数相同),H1(备择,两样原本自分歧总体),当拒绝H0就接受H1,不拒绝就不接受H1.2.确定显著性水平:区分年夜概率和小概率事件的标准,通常取α=0.05.3.计算统计量:根据资料类型和分析目的选择适当的公式计算.4.确定概率P值:将计算获得的t值或u值查界值表获得P 值和α值比力.5.做出推断结论.|t|值、P值与统计结论五、两均数的假设检验(常考!)1.样本均数与总体均数比力 u检验和t检验用于样本均数与总体均数的比力.理论上要求样原本自正态分布总体实际中,只要样本例数n较年夜,或n小但总体标准差σ已知,就选用u检验.n较小且σ未知时,用于t检验.两样本均数比力时还要求两总体方差等.以算得的统计量t,按表所示关系作判断.2.配对资料的比力在医学研究中,经常使用配对设计.配对设计主要有四种情况:①同一受试对象处置前后的数据;②同一受试对象两个部位的数据;③同一样品用两种方法(仪器等)检验的结果;④配对的两个受试对象分别接受两种处置后的数据.情况①的目的是推断其处置有无作用;情况②、③、④的目的是推断两种处置(方法等)的结果有无分歧.v=对子数1;如处置前后或两法无分歧,则其差数d的总体均数应为0,可看作样本均数和总体均数0的比力.为差数的均数;为差数均数的标准误,Sd为差数的标准差;n为对子数.因计算的统计量是t,按表所示关系作判断.3.完全随机设计的两样本均数的比力亦称成组比力.目的是推断两样本各自代表的总体均数μ1与μ2是否相等.根据样本含量n的年夜小,分u检验与t检验.t检验用于两样本含量n1、n2较小时,且要求两总体方差相等,即方差齐.若被检验的两样本方差相差显著则需用t′检验.u检验:两样本量足够年夜,n>50.=v=(n11)+(n21)=n1+n22式中,为两样本均数之差的标准误,Sc2为合并估计方差(combined estimate variance).算得的统计量为t,按表所示关系做出判断.4.Ⅰ型毛病和Ⅱ型毛病弃真,拒绝正确的H0为Ⅰ型毛病α暗示,若显著性水平α定为0.05,则犯Ⅰ型毛病的概率0.05;接受毛病的H0为Ⅱ型毛病,概率用β暗示,β值的年夜小很难确切估计.当样本含量一按时,两者反比,增年夜n,当α一按时,可减少β.1β称为检验效能或掌控度,其统计意义是若两总体确有分歧,按α水准能检出其差另外能力.客观实际拒绝H0 不拒绝H0H0成立Ⅰ型毛病(α)推断正确1αH0不成立推断正确(1β)Ⅱ型毛病(β)5.假设检验注意事项保证组间可比性;根据研究目的、资料类型和设计类型选用适当的检验方法,熟悉各种检验方法的应用条件;“显著与否”是统计学术语,为“有无统计学意义”,不能理解为“分歧是不是年夜”;结论不能绝对化.第四节分类变量资料的统计描述(一般考点)相对数是两个有关联事物数据之比.经常使用的相对数指标有构成比、率、相比较等.一、构成比暗示事物内部各个组成部份所占的比重,通常以100为例基数,故又称为百分比.其公式如下:构成比=×100%该式可用符号表达如下:构成比=×100%构成比有两个特点:(1)各构成部份的相对数之和为100%.(2)某一部份所占比重增年夜,其他部份会相应地减少.二、率用以说明某种现象发生的频率或强度,故又称频率指标,以100,1000,10000或100000为比例基数(K)均可,原则上以结果至少保管一位整数为宜,其计算公式为:率和构成比分歧之处:率的年夜小仅取决于某种现象的发生数和可能发生该现象的总数,不受其他指标的影响,而且各率之和一般不为1.率=×K该式亦可用符号表达如下阳性率=×K(若算阴性率则分子为A())式中A(+)为阳性人数,A()为阴性人数.三、相比较暗示有关事物指标之比较,常以百分数和倍数暗示,其公式为:相比较:甲指标/乙指标(或×100%)或用符号暗示为:A/B×K四、注意事项①构成比和率的分歧,不能以比代率;②计算相对数时,观察例数不宜过小;③率的比力注意可比性,特别是混杂因素的问题,有的话,可用标准化法和分层分析消除;④观察单元分歧的几个率的平均率不即是几个率的算术均数;⑤样本率或构成比的比力应做假设检验.第五节分类变量资料的统计推断(非常重要)一、率的抽样误差用抽样方法进行研究时,肯定存在抽样误差.率的抽样误差年夜小可用率的标准误来暗示,计算公式如下:σp=式中:σp为率的标准误,π为总体阳性率,n为样本含量.因为实际工作中很难知道总体阳性率π,故一般采纳样本率P来取代,而上式就酿成Sp=二、总体率的可信区间由于样本率与总体率之间存在着抽样误差,所以也需根据样本率来推算总体率所在的范围,根据样本含量n和样本率P的年夜小分歧,分别采纳下列两种方法:(一)正态近似法(常考!)当样本含量n足够年夜,且样本率P和(1P)均不太小,如nP 或n(1P)均≥5时,样本率的分布近似正态分布.则总体率的可信区间可由下列公式估计:总体率(π)的95%可信区间:p±1.96sp总体率(π)的99%可信区间:p±2.58sp(二)查表法当样本含量n较小,如n≤50,特别是P接近0或1时,则按二项分布原理确定总体率的可信区间,其计算较繁,读者可根据样本含量n和阳性数x参照专用统计学介绍的二项分布中95%可信限表.三、u检验(非常重要!)当样本含量n足够年夜,且样本率P和(1P)均不太小,如nP 或n(1P)均≥5时,样本率的分布近似正态分布.样本率和总体率之间、两个样本率之间差另外判断可用u检验.1.样本率和总体率的比力公式 u=|Pπ|/σP=|Pπ|/;2.两样本率比力公式u=|P1P2|/Sp1P2=|P1P2|/也可用χ2检验,两者相等.四、χ2检验(非常重要!)可用于两个及两个以上率或构成比的比力;两分类变量相关关系分析.其数据构成,一定是相互对峙的两组数据,四格表资料自由度v永远=1.四格表χ2检验各种公式适用条件,n>40且每个格子T>5,可用基本公式或专用公式,不用校正.基本公式:χ2=∑(AT)2/T专用公式:χ2=∑(adbc)2n/(a+b)(c+d)(a+c)(b+d)只要有一个格子T在1~5之间,需校正.校正公式:基本公式:χ2=∑(|AT|0.5)2/T专用公式:χ2=∑(|adbc|n/2)2n/(a+b)(c+d)(a+c)(b+d)n<40或T<1,用确切概率法.五、行×列表χ2检验当行数或列数超越2时,称为行×列表.行×列表χ2检验是对多个样本率(或构成比)的检验.适用条件:一般认为行×列表中不宜有1/5以上格子的理论数小于5,或有小于1的理论数.1.当理论数太小可采用下列方法处置①增加样本含量以增年夜理论数;②删去上述理论数太小的行和列;③将太小理论数所在组与性质相近的组合并,使重新计算的理论数增年夜.由于后两法可能会损失信息,损害样本的随机性,分歧的合并方式有可能影响推断结论,故不宜作惯例方法.另外,不能把分歧性质的实际数合并,如研究血型时,不能把分歧的血型资料合并.2.如检验结果拒绝检验假设,只能认为各总体率或总体构成比之间总的来说有分歧,但不能说明它们彼此之间都有分歧,或某两者间有分歧.3.关于单向有序行列表的统计处置在比力各处置组的效应有无分歧时,宜用秩和检验法,如作χ2检验只说明各处置组的效应在构成比上有无不同.六、配对计数资料的χ2检验同一样品用两种方法处置,观察阳性和阴性个数.判断两种处置方法是否相同.当b+c>40时,χ2=(bc)2/b+c;b+c<40时,校正公式:χ2=(|bc|1)2/b+c第六节直线相关和回归(一般考点)一、直线相关分析的用途、相关系数及其意义相关分析是研究事物或现象之间有无关系、关系的方向和密切水平.相关系数:是定量暗示两个变量(X,Y)之间线性关系的方向和密切水平的指标,用r暗示,r=lxy/,其值在1至+1间,r 没有单元.r呈正值,两变量间呈正相关,即两者的变动趋势是同向的,r=1时为完全正相关;如r呈负值,两变量呈负相关,即两者的变动趋势是反向的,r=1时为完全负相关.r的绝对值越接近1,两变量间线性相关越密切;越接近于0,相关越不密切.当r=0时,说明X和Y两个变量之间无直线关系.二、直线回归分析的作用、回归系数及其意义直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小.这个方程称为直线回归方程,据此方程描绘的直线就是回归直线.直线同归方程式的一般表达式Y=a+bX式中a为回归直线在Y轴上的截距,即a>0暗示直线与Y轴的交点在原点上方,<0在原点下方,a=0过原点.b为样本回归系数,即回归直线的斜率,暗示当X变动一个单元时,Y平均变动b个单元.b>0:暗示Y随X增年夜而增年夜b<0:暗示Y随X增年夜而减少b=0:暗示Y不随X变动而变动第七节统计表和统计图(重要考点)一、统计表原则:结构简单、条理分明、内容安插合理、重点突出、数据准确.1.题目简练表达表的中心内容,位置在表的上方.2.标目有横标和纵标目,横标目通常位于表内左侧;纵标目列在表内上方,其表达结果与主辞呼应.3.线条力求简洁,一般为三线表.4.用阿拉伯数暗示,如无数据或暂缺资料,也可用“”或“…”来暗示.5.备注一般不列入表内,解释在表下.内容排列:一般按事物发生频率年夜小顺序来排列,比较鲜明,重点突出.二、统计图1.线图(line diagram)(常考!)资料性质:适用于连续变量资料.分析目的:用线段的升降表达某事物的静态(差值)变动.2.半对数线图(semilogarithmic line graph)资料性质:适用于连续变量资料.分析目的:用线段的升降表达事物的发展速度变动趋势.3.直方图(histogram)资料性质:适用于数值变量,连续性资料的频数表资料.分析目的:直方图是以直方面积表达各组段的频数或频率.4.直条图(bar chart)资料性质:适用于彼此自力的资料.分析目的:直条图是用等宽直条的和长短来暗示各统计量的年夜小,进行比力.5.百分条图(percentchart)资料性质:构成比.分析目的:用长条各段的长度(面积)表达内部构成比.6.圆形图(circulargraph)(常考!)资料性质:构成比.分析目的:用圆的扇形面积表达内部构成比.7.散点图(scatterdiagram)资料性质:双变量资料.分析目的:用点的密集度和趋势表达两变量间的相关关系.8.统计舆图(statistical map)资料性质:地区性资料.分析目的:用分歧纹线或颜色代表指标高低,说明地区分布.。
第三章平均数比较zt
解:代入公式后,得:x 2.724 ,Sx=0.2147,n1=10; y 2.851 , SY=0.1791, n2=9
检验方差是否相等:H0:σx=σy; HA:σx≠σy
F
0.2147 2 0.1791 2
1.437
查表, F0. 05(9, 8) =3.39 > F(查F值表),∴接受H0,可认为方差 相等。
30.0mm (2)显著水平α=0.05 (3)计算概率:
(4)推断:当α=0.05时,单尾检验临界值u0.05X2 =1.64。 实际得到 <1.64, P>0.05. 接受H0,否定HA,认为该棉花品种纤维长度不符合纺织品生产的要求。
例
新旧两个小麦品系进行对比试验,旧品系共收获25个小区,
3.60
5.499
S12
S
2 2
2.772 1.562
0.3069 0.1217
mn
25
20
再求t的自由度:
K S12 m
S12 m
S22 n
0.3069 0.3069 0.1217
0.3069 0.4286
0.7161
df
0.71612 24
(二)m, n<30,样本方差通过F检验没有显著差异:t 检验。在H0:μ1=μ2成立的条件下,有:
t
X1 X2
~ t(m n 2)
(m 1)S12
(n
1)S
2 2
(1
1)
mn2
mn
df= m+n-2
加权平均方差 加权平均标准误
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在概率论和统计学中,学生t-分布(t-distributen ),可简称为t分布,用于根据
小样本来估计呈正态分布且方差未知的总体 的均值。如果总体方差已知(例如在样本数量足 够多
时),则应该用正态分布来估计总体均值。
t分布曲线形态与n (确切地说与自由度df
)大小有关。与标准正态分布曲线相比,自 由度
df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大, t
分布曲
线愈接近正态分布曲线,当自由度 df= %时,t分布曲线为标准正态分布曲线。
中文名 t分布 应用
在对呈正态分布的总体
外文名 t -distributi on 别称
学生t分布
学科 概率论和统计学 相关术语
t
检验
目录
1
历史
2
定义
3
扩展
4
特征
5
置信区间
6
计算
历史
在概率论和统计学中, 学生t -分布(Student's t-distribution )经常应用在对呈正态分布的总体
的均值进行估计。它是对两个样本均值差异进行显著性测试的学生 t测定的基础。t检定改进了 Z检定
(en:Z-test ),不论样本数量大或小皆可应用。在样本数量大 (超过120等)时,可以应用 Z检定,但
Z检定用在小的样本会产生很大的误差, 因此样本很小的情况下得改用学生 t
检定。在数据有三组以上时,
当母群体的标准差是未知的但却又需要估计时,我们可以运用学生
学生t-分布可简称为t分布。其推导由威廉•戈塞于 1908年首先发表,当时他还在都柏林的健力士 酿酒厂工
作。因为不能以他本人的名义发表,所以论文使用了学生( Student )这一笔名。之后t检验以
及相关理论经由罗纳德•费雪的工作发扬光大,而正是他将此分布称为学生分布。
定义
由于在实际工作中,往往 (7是未知的,常用S作为(T的估计值,为了与 U变换区别,称为t变换,
统计量t值的分布称为t分布。
假设X服从标准正态分布 N(0,1 ), Y服从 分布,那么 的分布称为自由度为 n的t分布,记
为 。
分布密度函数 ,
其中,Gam(x)为伽马函数。
扩展
正态分布(normal distribution )是数理统计中的一种重要的理论分布,是许多统计方法的理论基
础。正态分布有两个参数,卩 和7,决定了正态分布的位置和形态。为了应用方便,常将一般的正态变
量X通过u变换[(X-卩)/ 7 ]转化成标准正态变量 u,以使原来各种形态的正态分布都转换为 卩
=0,7 =1
的标准正态分布(standard normal distribution ),亦称 u分布。
根据中心极限定理,通过上述的抽样模拟试验表明, 在正态分布总体中以固定 n,抽取若干个样本时, 样本均
数的分布仍服从正态分布,即 N(「 )。所以,对样本均数的分布进行 u变换,也可变换为标
准正态分布 N (0,1)。
特征
1. 以0
为中心,左右对称的单峰分布;
2. t分布是一簇曲线,其形态变化与 n (确切地说与自由度 df
)大小有关。自
由度 df越小,t分布曲线 越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线,如图:
t
-
分布。
t(n)分布与标准正态N(0,1)
的密度函数。
3. 随着自由度逐渐增大,t
分布逐渐接近标准正态分布。
对应于每一个自由度 df,就有一条t分布曲线,每条曲线都有其曲线下统计量 t的分布规律,计算
较复杂。
学生的t-分布(或也t分布),在概率统计中,在置信区间估计、显著性检验等问题的计算中发挥 重要作用。
t
分布情况出现时(如在几乎所有实际的统计工作)的总体标准偏差是未知的,并要从数据估算。教 科书问题的
处理标准偏差,因为如果它被称为是两类:
(1 )那些在该样本规模是如此之大的一个可处理的数据为基础估计的差异,就好像它是一定的;
(2 )这些说明数学推理,在其中的问题,估计标准偏差是暂时忽略的,因为这不是一点,这是作 者或导师当
时的解释。
置信区间
假设数量A在当T呈t-分布(T的自由度为n-1)满足
这与是相同的。A是这个概率分布的第 95个百分点。
那么
等价于
因此卩的90%置信区间为: 。
计算
下表列出了自由度为 1-30以及80、100、120等t-分布的单侧和双侧区间值。 例如,当样本数量
n=5
时,则自由度df=4,我们就可以查找表中以 4开头的行。该行第 5列值为,对应的 单侧值为95% (双侧 值为90%。
这也就是说,T小于的概率为95% (即单侧),记为 Pr(- < T < =;同时,T值介于 和之间的概率为 90% (即双
侧),记为 Pr( - < T < =。
这是根据分布的对称性计算得到的。
Pr( T < - = 1 - Pr( T > - = 1 -=
因此,
Pr( - < T < = 1 - 2 =
(查表时注意:V是指自由度,并分单侧和双侧两种类型)
(右侧的示意图是单侧检验的情形)
(下图是左右、双侧等检验的情形)
单侧
75% 80% 85% 90% 95% % 99% % % % %
双侧
50% 60% 70% 80% 90% 95% 98% 99% % % %
(V)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
80
100
120
无穷大
如何查t分布表
1、 本表是自由度V和下侧概率P给出t分布的分位数tp(v)
。
例:对于 V=20和 P=, tp(v)=。
2、 当 P<时,t p(v)= -t w(v)
。
例:(20)= (20)=。
3、 与双侧概率a相应的分位数为tl- a/2(v)
。
例:对于 V=20和 a =,
11-a/2(v)=(20)==。
注:对于自由度V和t给出t分布函数P(t ; v)的数值,方法类似“自由度 V和下侧概率P 给出
t分布的分位数tp(v)
”,此表忽略,见标准。