总体、样本及统计量
统计学知识点(完整)

基本统计方法第一章概论1•总体(Population ):根据研究目的确定的同质对象的全体(集合) ;样本(Sample ):从总体中随机抽取的部分具有代表性的研究对象。
2.参数(Parameter ):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3.统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第二章计量资料统计描述1.集中趋势:均数(算术、几何)、中位数、众数2.离散趋势:极差、四分位间距( QR=P75-P25)、标准差(或方差)、变异系数(CV)3.正态分布特征:①X轴上方关于X= 对称的钟形曲线;②X= 时,f(X)取得最大值;③ 有两个参数,位置参数和形态参数;④曲线下面积为1,区间土的面积为68.27% ,区间±1.96 的面积为95.00%,区间±2.58 的面积为99.00%。
4.医学参考值范围的制定方法:正态近似法:X U /2 S ;百分位数法:P2.5-P 97.5。
第三章总体均数估计和假设检验1.抽样误差(Sampling Error ):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产生的根本原因是生物个体的变异性。
2.均数的标准误(Standard error of Mean, SEM):样本均数的标准差,计算公式:八n。
反映样本均数间的离散程度,说明抽样误差的大小。
3.降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。
4.t分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度,越小,t值越分散,t分布的峰部越矮而尾部翘得越高;③当逼近a ,S X逼近X, t分布逼近u分布,故标准正态分布是t分布的特例。
5.置信区间(Con fide nee In terval , CI ):按预先给定的概率(1-)确定的包含总体参数的一个范围,计算公式:X t /2, S X或X U /2, S X。
统计学简答题及部分名词解释

1.简述总体与样本、参数和统计量的含义总体:我们所要研究的所有基本单位的总和。
样本:总体的一部分单位。
参数:描述总体或概率分布的数量值。
统计量:又称样本统计量,是对样本数据特征值的数量描述。
2.关于样本均值的抽样分布,中心极限定理的含义是什么?样本均值的抽样分布:当总体服从正态分布N(μ,σ2)时,在重复抽样条件下,来自该总体的容量为n的样本的均值⎺x也服从正态分布,⎺x 的数学期望为μ,方差为σ2/n。
即⎺x~N(μ,σ2/n)中心极限定理:设从均值为μ,方差为σ2的一个任意总体中重复地抽取容量为n的样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布含义:中心极限定理就是一个抽自任意总体样本容量为n的随机样本。
当n充分大时,样本均值的抽样分布将近似于一个具有均值和标准差的正态分布。
3.什么是抽样误差?其特点是什么?抽样误差是利用样本推断总体时产生的误差。
特点:对任何一个随机样本来讲都是不可避免的;是可以计量的,并且是可以控制的;样本的容量越大,抽样误差就越小;总体的变异性越大,抽样误差也就越大。
4.简述样本容量与置信水平、总体方差、允许误差的关系样本容量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本容量也就越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与允许误差成反比,可以接受的允许误差越大,所需的样本容量就越小。
5.假设检验中的第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?第Ⅰ类错误(弃真错误):原假设为真时拒绝原假设时所犯的错误第Ⅱ类错误(取伪错误):原假设为假时未拒绝原假设当样本容量n确定后,当α变小时,则检验的拒绝域变小,相应的接受域会变大,因此β值也就随之变大;相反,若β变小,则α又会变大.6.试解释“上组限不在内”的原则是指当相邻两组的上下限相叠时,为了“不重”(任一个单位数值只能分在其中某一组中,不能同时分在两组中),上组限数值不算在该组内。
统计学

名解01.医学统计学:运用概率论和数理统计等数学的原理、方法,研究医学资料的搜集、整理、分析和推断的一门学科。
02.总体(population):根据研究目的所确定的同质研究对象某项观察指标的全体。
03.样本(sample):根据随机化的原则从总体中抽出具有代表性的一部分观察单位。
04.参数(parameter):总体的统计指标。
05.统计量(statistic):样本的统计指标。
06.频率(f)(frequence):f=m/n=A发生的试验数/试验的总次数07.概率(P):描述随机事件发生可能性大小的数值。
08.小概率事件:P≤0.05或P≤0.01的随机事件,称作小概率事件。
09.定量资料:以定量值表达每个观察单位的某项观察指标。
10.定性资料:以定性方式表达每个观察单位的某项观察指标。
11.等级资料:以等级方式表达每个观察单位的某项观察指标。
12.变异:是指某项观察指标在其同质性观察单位之间显示的差别。
13.正偏态:指分布尾部偏向数轴正侧,又称右偏态,反之为负偏态。
14.中位数M:是指将全部观察值从小到大排列,位置居中的观察值水平。
15.百分位数Px:将全部观察值从小到大排列,将样本例数一百等分,其x等分处的变量值即第x百分位数记为Px。
16.全距R:是一组变量值中最大值与最小值之差。
17.四分位数间距:四分位数是两个特定的百分位数,第25%分位数P25,和第75% 分位数P75,分别记为Ql与Qu, 四分位数间距定义为Ql-Qu,其间包括了全部观察值的一半。
18.变异系数CV:是标准差与均数之比,其同时排除了平均水平和量纲的影响。
19.标准化目的:采用统一的标准,以消除某方面的构成不同对总率比较的影响,使标准化的数据具有可比性。
20.参考值:正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。
21.参考值范围(reference interval):绝大多数正常人的测定值应该所在的范围。
概率论第六章样本及抽样分布

本相互独立,记
1 n1 X Xi n1 i 1 1 n2 Y Yi n2 i 1
则有 ⑴
2 1 2 2 2 1 2 2
1 n1 S12 ( X k X )2 n1 1 k 1 1 n2 2 S2 (Yk Y ) 2 n2 1 k 1
S / ~ F (n1 1, n2 1) S /
⑵ 当 时
2 1 2 2 2
X Y ( 1 2 ) ~ N (0,1) 1 1 n1 n2
(n1 1) S12
2 1
2 (n2 1) S2
2 2
~ 2 (n1 n2 2)
X Y ( 1 2 ) ~ t (n1 n2 2) 1 1 S n1 n2
2
又因为
(n 1)S 2
2
~ (n 1)
2
X n1 X n
故 Y
(n 1) S 2
n n 1 ~ t (n 1) /(n 1)
2
X n1 X n Y S
n ~ t (n 1) n 1
例4
设总体X , Y 相互独立 X ~ N (0,32 ) , Y ~ N (0,32 ) ,
2
X n1 X n n X 1 , X 2 ,, X n , X n1 , 求 Y 的分布 . S n 1 1 n 1 n 2 2 其中 X n X i , S ( Xi X n ) n i 1 n 1 i 1
1 2 解 由已知得 X n1 ~ N ( , ) , X n ~ N ( , ) , n n 1 2 所以 X n1 X n ~ N (0, ) n n 标准化得 X n1 X n ~ N (0,1) n 1
抽样调查中的基本概念

这个定理告诉我们:在大样本情况下样本成数p近似服从
正态分布,记作
p
~N
P
,P(1- n P)
。
统计学
2、总体的分类
按单位标志的性质不同:分为变量总体和属性总体两种。
如果构成总体的每个单位标志的具体表现是用标志值表示 ,这种总体就是变量总体。
如果构成总体的每个单位的具全表现是用文字表示,这种 总体就是属性总体。
通常用符号N表示总体中的单位数量。
抽样调查中的基本概念
(二)样本(也称样本总体)
它是从全及总体中随机抽取出来的,用来代表全及总 体的那一部分单位的集合体。
(一)总体参数
1、什么是总体参数?
在抽样调查中,用来反映总体数量特征的总体指标,也称为总 体参数。
研究目的一经确定,总体也就唯一地确定了。所以总体指标 的数值是客观存在的、确定的、未知的,需要用样本资料去估计 推断的。分析一个总体常常可运用多个总体指标,通常所需要估 计的总体参数有总体平均数、结构相对指标、总体方差或总体标 准差等。
方差: P P(1 P)
标准差: P P(1 P)
X
1 0 合计
表7-1 属性总体平均数和方差计算表
F
F
X
F
F
(X X )2
(X X )2 F
F
P
P
(1−P)2
Q2P
Q
0
(0−P)2
P2Q
1
P
—
PQ
抽样调查中的基本概念
(二)样本统计量
1、什么是样本指标
根据样本资料计算的指标称为样本指标,又称为样本统计量
B
n N
N2
抽样调查中的基本概念
总体、样本、统计量

图5-2所示。
图5-2
3. χ统2 计量
定义7 设 X ∼N ( , 2 ) ,( X1 ,X 2 , ,X n ) 是X的一个样本,则
称
(n 1)s2
2
为
χ2
统计量,且
χ2
(n 1)s2
2
∼ χ2 (n
1)
。
类似于标准正态分布,对给定的 (0 1),称满足条件
P{[ χ 2 χ12 (n 1)]
称 X 为 t 统计量,且 t X ∼t(n 1) 。
s/ n
s/ n
类似于标准正态分布,对给定的 (0 1),称满足条件
P{| t | t (n 1)}
2
的点 t (n 1) 为t分布的双侧 a 分位点或 2
双侧临界值,自由度为 n 1。
同样可以查t分布临界值表(附表
Ⅲ),得临界值 t (n 1) ,其几何意义如
例如,若 X ∼N ( n 是总体X
的一个样本,则
1 n
n i 1
n
Xi ,
i 1
n
X
2 i
,
i 1
(Xi
4)2, 1 n 1
n i 1
(Xi
X )2 ,等
均为统计量;而
n
(Xi
i 1
n
),
i 1
Xi
2
均不是统计量。这是因为
若样本 X1 ,X 2 , ,X n相互独立,且与总体X同分布,则称 此样本为简单随机样本,简称样本。
1.2 统计量
定义4 设 ( X1 ,X 2 , ,X n ) 是总体X的一个样本,f ( X1 ,X 2 , ,X n )是一个 连续函数,如果 f ( X1 ,X 2 , ,X n )中不包含任何未知参数,则称 f ( X1 ,X 2 , ,X n )为一个统计量。当 ( X1 ,X 2 , ,X n ) 取完一组观测值 (x1 ,x2 , ,xn ) 时,f ( X1 ,X 2 , ,X n ) 就是统计量的一个观测值。
统计学名词解释

1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
2.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
3.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
4.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。
计数资料亦称定性资料或分类资料。
其观察值是定性的,表现为互不相容的类别或属性。
如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。
等级资料又称有序变量。
如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。
统计3:样本和统计量

统计3:样本和统计量统计推断是指,在数理统计中,我们研究的随机变量,其分布是未知的,或者是不完全知道的,⼈们是通过对所研究的随机变量进⾏重复独⽴的观察,得到许多观察值,对这些数据进⾏分析,从⽽对所研究的随机变量的分布做出种种推断。
⼀,随机样本总体和个体在数理统计中,研究对象是某⼀项数量指标(例如,学⽣的⾝⾼,体重等),对这⼀项数量指标进⾏观察。
把试验的全部可能的观察值称为总体,每⼀个可能的观察值称为个体。
总体中的每⼀个个体是随机试验的⼀个观察值,因此,它是某⼀随机变量X的值。
⼀个总体就对应⼀个随机变量X,对总体的研究就是对⼀个随机变量X的研究。
样本在实际中,总体的分布⼀般是未知的,或只知道它具有某种形式⽽其中包含了未知参数。
在数理统计中,⼈们都是通过从总体中抽取⼀部分个体,根据获得的数据对总体分布做出推断,被抽出的部分个体叫做总体的⼀个样本。
所谓从总体抽取⼀个个体,就是对总体X进⾏⼀次观察并记录观察结果。
在相同的条件下对总体X进⾏n次重复的,独⽴的观察,把n次观察的结果按照试验的次序记为:X1,X2,...,Xn,由于X1,X2,...,Xn是对随机变量X观察的结果,且各次观察是在相同的条件下独⽴进⾏的,所以有理由认为X1,X2,...,Xn是相互独⽴的,且都与X具有相同分布的随机变量,把X1,X2,...,Xn 称为来⾃总体X的⼀个简单随机样本。
当n次观察⼀经完成,得到⼀组实数x1,x2,...,xn,它们依次是随机变量X1,X2,...,Xn的观察值,称为样本值。
样本定义,设X是具有分布函数F的随机变量,若 X1,X2,...,Xn 是具有同⼀分布函数F的,相互独⽴的随机变量,则称 X1,X2,...,Xn 为从分布函数F(或总体F,总体X)得到的简单随机样本,简称样本。
它们的观察值 x1,x2,...,xn称为样本值,⼜称为X的n个独⽴的观察值。
若 X1,X2,...,Xn 为总体X的⼀个样本,则X1,X2,...,Xn相互独⽴,且它们的分布函数都是F(x),所以(X1,X2,...,Xn)的分布函数是:⽩话:随机变量X1,X2,...,Xn同时发⽣的概率是单独发⽣的概率之积。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简单随机样本的性质
1 若总体X的分布函数为F ( x),则样本 ( X1 , X2 , , Xn )的联合分布函数为
n
F总( x1 , x2 , , xn ) F ( xi )
i 1
2 若总体X的密度函数为f ( x),则样本的 联合密度函数为
n
f总( x1, x2 , , xn ) f ( xi ).
由此可见,概率论是数理统计的理论基础,而 数理统计是概率论的重要应用.
数理统计的分类.
描述统计学——对随机现象进行观测、试验,
以取得有代表性的观测值.
推断统计学
—对已取得的观测值进行整理、 分析,作出推断、决策,从而
找出所研究的对象的规律性.
本课程主要讲述推断统计学,主要有参数估计、 假设检验、方差分析、回归分析等内容.
二 总体与个体
总体——研究对象的全体元素构成的集合; 个体——组成总体的每一个元素. 通常我们研究的都是一些数量指标,其数值随 着个体的不同而不同. 例 研究某城市在职职工的年收入情况,
研究某中学高二学生的身高与体重情况. 在进行理论研究时,我们将研究的数量指标视 为随机变量X . (或随机向量X ( X1 , , Xk )). 因此,
第五章 数理统计的基本知识 第一讲 总体与样本
主讲教师 胡发胜 教授
一 课程简介
从本节课开始,我们将学习课程的数理统计部 分. 重点介绍数理统计的一些重要概念和典型的统 计方法.
人类很早就开始了统计的工作,留下了大量的 统计资料. 但早期的统计,只是对有关事实进行简 单记录和整理,没有在理论的指导下,作出更进一 步的推断. 到了十九世纪末二十世纪初,随着近代 数学和概率论的发展,才真正诞生了数理统计学这 门学科.
i 1
样本来自于总体,含有总体性质的信息,但较 为分散.为了进行统计推断,需要把分散的信息集 中起来,针对不同的研究目的,构造不同的样本 函数,这种函数在统计学中称为统计量.
四 统计量的概念
定义 设X1 , X2, , Xn是来自总体X的一个样本, T ( X1 , X2, , Xn )是样本的函数,且T ( X1 , X2, , Xn ) 不依赖于任何未知参数,则称函数T ( X1 , X2, , Xn ) 为一个统计量.
数理统计学是研究如何以有效的方式去收集、整 理和分析带有随机性的数据,以便对所考察的问题 作出推断和预测,进而为采取一定的决策和行动提 供依据和建议.
在数理统计中, 不是对所研究对象的全体进行 观察,而是抽取其中的部分进行观察获得数据,由 于抽样数据带有随机性,因此处理这些数据必然要 用到概率论的理论和方法.
1 n1
n
(Xi
i 1
X )k ;
(6)最大最小顺序统计量
X(1) min{X1 ,X2, , Xn}
X(n) max{X1 , X2, , Xn }.
当样本取得观测值x1 , x2, , xn后,代入即可 得到这些统计量的观测值.
对于二维总体( X ,Y ),常用的统计量有
(7) 样本协方差
最常用的一种抽样方法叫作“简单随机抽样” , 它要求样本X1 , X2 , , Xn满足下面两点: 1. 代表性:样本X1 , X2 , , Xn中的每个Xi 与所 考察的总体具有相同的分布.
2. 独立性:样本X1 , X2 , , Xn是相互独立的. 若不特别说明,本文都是指简单随机样本.
获取简单随机抽样的主要方法有: 直接抽选法、抽签法、随机数表法等方法.
不是统计量.
T4 =
X1
.
常用的统计量
对于一维总体X,常用的统计量有
(1)样本均值
n
X
1 n
i 1
Xi;
(2)样本方差
S 2
1 n1
n i 1
(Xi
X
)2;
(3)样本标准差
S
1 n1
n i 1
(Xi
X )2 ;
(4)样本k阶矩
Ak
1 n
n i 1
xik ;
(5)样本k阶中心矩
Bk
总体就是一随机变量(或随机向量)
三 样本Байду номын сангаас
从总体X中抽取的待考查的个体称为样本,样本 中个体的数量n称为样本容量. 容量为n的样本常记为 ( X1 , X2 , , Xn ). 样本一旦经过考查,得到的是n个具 体的数( x1, x2 , , xn ),称为样本的一次观察值,简称 样本值.
样本空间——样本所有可能取值的集合. 抽样的目的是为了对总体进行统计推断,为了 使抽取的样本能很好地反映总体的信息,必须考虑 抽样方法.
为了更好的利用统计量去推断总体,我们必须 了解统计量的分布.
下一讲
我们将学习数理统计中的三大分布——
2分布,t分布,F 分布.
S 2 XY
1 n 1
n
( Xi
i 1
X )(Yi Y );
(8) 样本相关系数
n
(Xi X )(Yi Y )
XY
i 1
n
;
n
( Xi X )2 (Yi Y )2
i 1
i 1
本讲小结
这一讲我们学习了总体、样本、统计量的概念, 总体与样本都是随机变量,它们具有相同的分布, 样本之间相互独立,统计量是样本的函数.
若( x1, , xn )是样本观测值,则称T ( x1, , xn ) 为统计量T ( X1 , X2, , Xn )的一个观测值.
例
设X
2
,)的X
, 1
,X 2
是正态总体X
n
一个样本,其中参数, 2未知,那么
N (,
n
T1=
X
,
i
i 1
是统计量,但
n
T2 = Xi2,
i 1
n
T3= ( Xi -)2, i 1