第五章 样本与统计量

合集下载

统计学导论 第5章

统计学导论  第5章
2 2 2 2
= (1.0 2 × 1 + 1.52 × 2 + 2.0 2 × 3 + 2.52 × 4 + 3.0 2 × 3
+3.5 × 2 + 4.0 × 1) / 16 − 2.5 = 0.625
keyuqin
2
2
2
σx =
V (X ) =
0.625 = 0.791
经济贸易与统计学院
15
二、大数定理与中心极限定理
keyuqin 经济贸易与统计学院 11
样本序 样本中 样本均 样本方 样本序 样本中 样本均 样本方 号 的元素 值 差 号 值 差 的元素 1 2 3 4 5 6 7 8
keyuqin
1,1 1,2 1,3 1,4 2,1 2,2 2,3 2,4
1.0 1.5 2.0 2.5 1.5 2.0 2.5 3.0
一般地, 一般地,样本单位数大于30个的样本称为大样 本,不超过30个的样本称为小样本。 个的样本称为小样本。
• 样本个数: 样本个数:样本个数又称样本可能数目, 样本个数又称样本可能数目,它是指 从一个总体中可能抽取多少个样本。 从一个总体中可能抽取多少个样本。
keyuqin
经济贸易与统计学院
3
(二)总体参数与样本统计量
= 1.25 EX = u = 2.5 1.25 σX = = = 0.625 = 0.791 2 n
比较及结论: 比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n
(一)几个分布 •
χ2分布
设 X ~ N ( µ , σ ) ,则
2
Z=
X −µ
令 Y = Z 2 ,则 Y 服从自由度为1的χ2分布, 分布,即

第五章《概率论与数理统计教程》课件

第五章《概率论与数理统计教程》课件

试决定常数 3.
X ,Y
C
使得随机变量 cY 服从分布

2
分布。
相互独立,都与 N ( 0 , 9 ) 有相同分布, X 分别是来自总体
X ,Y
1
, X 2 , , X 9和
Y1 ,Y 2 , ,Y 9
的样本,

Z
9
X
i
i1
6 - 23
Y
i1
9
则Z 服从—— ,自由度为——。
2 i
4.
X1, X 2, X 3, X 4
是来自总体
X ~ N ( , )
2
的样本,则随机变
量 Y
X3 X4
服从——分布,其自由度为———。
2
(X i )
i1
2
5.

X 1 , X 2 , , X 10
是来自总体 X
~ N ( ,4 )
2
的样本, ( S 2 P
a ) 0 .1
一. 单个正态总体的统计量的分布
X 1 , X 2 , X n是来自正态总体 ~ N ( , 2 )的样本, X
X , S 分别是样本均值和样本 方差
2
定理1
X
n
1
n
X i ~ N ( ,

n
2
);
i1
定理2 U
1
X
/
~ N ( 0 ,1 );
n
定理3
6 - 18
定理7
当 1
2
2 2
2 2 时, 令 S w
( n1 1) S 1 ( n 2 1) S 2
2

统计学 第五章

统计学      第五章

第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。

(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。

全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。

(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。

社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。

样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。

一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。

在样本容量确定之后,样本的可能数目便完全取决于抽样方法。

抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。

抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。

在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。

样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。

第05章 统计推断

第05章  统计推断

单侧检验 α=0.05或0.01 统计推断 第五章
§5.1 单个样本的统计假设检验
5.1.2 单个样本的显著性检验程序
统计假设检验的三步曲: 1、建立零假设(null hypothesis)——假设差异不显著或无关; 2、计算统计量(u-检验,t-检验,x2-检验,F-检验);
3、判断假设。 对于带备择假设的零假设:需根据备择假设的拒
F
s , df n 1, df n 1 s
下侧临界点F1-α的 值,按右式计算
解释: F< F0.05,或P>0.05,接受H0; F> F0.05,或P<0.05,拒 Fdf1,df2,α,df 1附表7中没有给出 df 2为分母自由度 为分子自由度, 1 绝H0, ② F < F 1-α
s ③HA:μ≠μ0,包括μ>μ0和μ<μ0 此时相应各备择假设的H0的拒绝域分别为:
①t > tα解释: t<t0.05,接受H0; t>t0.05,拒绝H0 ②t < -tα ③|t| > tα/2,或表示为|t| > tα(两侧)
t n 1
n
第五章 统计推断
§5.1 单个样本的统计假设检验
379.2 377.2 u 1.82 3. 3 n 9 由于u 1.82 u0.05 1.645 ,所以拒绝H0假设、接受HA。
即栽培条件的改善显著地提高了豌豆籽粒重量。
x 0
第五章 统计推断
§5.1 单个样本的统计假设检验
5.1.4 σ未知时平均数的显著性检验——t 检验(t-test) 检验的程序: (1)零假设H0:μ=μ0 备择假设:①HA:μ>μ0,若已知μ不可能小于μ0 (2)计算统计量: x 0 (3)判断统计量: ②HA:μ<μ0,若已知μ不可能大于μ0

样本函数与统计量

样本函数与统计量
计算样本均值、样本方差及样本二阶中心矩的观测值.
解: 数据进行如下分组,
该段时间内通过的 汽车数所在区间
(220,230] (230,240] (240,250] (250,260] (260,270] (270,280] (280,290]
总计
区间中点值x(i )
225 235 245 255 265 275 285
观测值 x(1) 频 数 m1
x(2)
m2
x(l )
总计
ml
n

x
1 n
l
mi x(i)
i1
,
s2
1 n 1
l i1
mi
( x(i )
x)2
,
~2
1 n
l i1
mi
( x(i )
x)2
.
注:对于连续随机变量或者某些离散随机变量抽样得 到的样本观测值,分成若干个子区间整理后,通常把
各个子区间的中点值取作 x(i) , 样本观测值落在对应区 间的频数取作 mi 进行计算.
若总体 X 的k阶矩 E( X k ) 记成 k 存在, 则当n 时, Vk P k , k 1, 2, .
证明 因为 X1, X2 , , Xn 独立且与X 同分布,
所以 X1k ,
X
k 2
,
,
X
k n
独立且与X k 同分布,
故有
E(
X1k
)
E
(
X
k 2
)
E
(
X
k n
)
k
.
再根据第三章大数定律知
统计量 :不依赖任何未知参数的样本函数.
例1 设 X1, X2, X3是来自总体N (, 2 )的一个 样本, 其中 为已知, 2 为未知, 判断下列各式哪

曾五一 应用统计学 第5章

曾五一 应用统计学 第5章
2
(
)
(
)
2
P =
n1 n
σ 2 ( P ) = P( 1 − P )
二、样本容量与样本个数 1.样本容量。样本集合的大小称为样本容量, 一般用n表示。一般地,样本容量大于30的样 本称为大样本,不超过30的样本称为小样本。 2.样本个数。样本个数又称样本可能数目,它 是指从一个总体中可能抽取多少种样本。样本 个数的多少与抽样方法有关。
Xi = ∑ X ij
j =1 M
M 样本平均是: X=
i =1 j =1
(i = 1,2,L, r )
∑ ∑ X ij rM
r M
= i =1
∑Xi r
r
群间方差是: 2 ∑ (µ i − µ ) 2 δ = R 或者由样本数据估计: −X δ2 r 由于整群抽样都采用不重复抽样的方法,所以样本平均数的标准差是:
四、抽样组织的设计 1.简单随机抽样是基本抽样组织方式 2.类型抽样与整群抽样比较 (1)减小类型抽样中样本平均数标准差的 办法。 (2)减小整群抽样的样本平均数标准差的 办法。
第四节 大数定理与中心极限定理
大数定理:独立同分布的随机变量 X1,X2,…,Xn,…,设它们的平均数 为 µ ,方差为 σ 2 ,即, E ( X i ) = X , σ 2 ( X i ) = σ 2 ,(i=1,2,…)。则对任意的 正数 ε,有: 1 n lim p ∑ X i − µ < ε = 1 n→∞ n i =1
解:样本平均数(平均每次加油量) X = 用样本组间方差代替总体组间方差:
i =1
∑ Xi r
r
=
330 = 33 (公斤) 10
δ2
∑ (X =

统计学第五章

统计学第五章

2-分布
(性质和特点)
• 1. 期望为:E(2)=n,

方差为:D(2)=2n(n为自由度)
• 2. 可加性:

若U和V为两个独立的2分布随机变量,
U~2(n1),V~2(n2),则U+V这一随机变量服从 自由度为n1+n2的2分布
• 3. 当 n 时, 2分布的极限分布是正态
分布
不同自由度的2-分布
(central limit theorem)
从均值为,方差为 2的一个任意总体中抽取容量
为n的样本,当n充分大时,样本均值的抽样分布近 似服从均值为μ、方差为σ2/n的正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
x
中心极限定理
(2)系统抽样的评价 ——操作上简便易行 ——如果总体是按有关标志进行排列的话,可以提 高样本的代表性,改进抽样精度 ——对估计量方差的估计比较困难
4、整群抽样(cluster random sampling) (1)整群抽样的概念
整群抽样是指将总体分成群,从中随机抽取 若干群,群中的所有单位构成样本
E(x)
2 x
2
n
样本比例的分布
(proportion)
1. 总体(或样本)中具有某种属性的单位与全部单位 总数之比
– 不同性别的人与全部人数之比
– 合格品(或不合格品) 与全部产品总数之比
2. 总体比例可表示为
N0 或 1 N1
N
N
3. 样本比例可表示为
4.
p n0 或 1 p n1
2. 一种理论概率分布

2021统计学原理-《统计学》第五章统计量及其抽样分布试题(精选试题)

2021统计学原理-《统计学》第五章统计量及其抽样分布试题(精选试题)

统计学原理-《统计学》第五章统计量及其抽样分布试题1、智商的得分服从均值为100,标准差为16的正态分布。

从总体中抽取一个容量为n的样本,样本均值的标准差为2,样本容量为____________。

2、样本均值与总体均值之间的差被称作____________。

3、从均值为50,标准差为5的无限总体中抽取容量为30的样本,则抽样分布的超过51的概率为____________。

4、某校大学生中,外国留学生占10%。

随机从该校学生中抽取100名学生,则样本中外国留学生比例的标准差为____________。

5、假设总体服从均匀分布,从此总体中抽取容量为36的样本,则样本均值的抽样分布( )。

A.服从非正态分布B.近似正态分布C.服从均匀分布D.服从x²分布6、从服从正态分布的无限总体中分别抽取容量为4,16,36的样本,当样本容量增大时,样本均值的标准差( )。

A.保持不变B.增加C.减小D.无法确定7、总体均值为50,标准差为8,从此总体中随机抽取容量为64的样本,则样本均值的抽样分布的均值和标准误差分别为( )。

A.50,8B.50,1C.50,4D.8,88、某厂家生产的灯泡寿命的均值为60小时,标准差为4小时。

如果从中随机抽取30只灯泡进行检测,则样本均值( )。

A.抽样分布的标准差为4小时B.抽样分布近似等同于总体分布C.抽样分布的中位数为60小时D.抽样分布近似等同于正态分布,均值为60小时9、假设某学校学生的年龄分布是右偏的,均值为23岁,标准差为3岁。

如果随机抽取100名学生,下列关于样本均值抽样分布描述不正确的是( )。

A.抽样分布的标准差等于3B.抽样分布近似服从正态分布C.抽样分布的均值近似为23D.抽样分布为非正态分布10、从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的数学期望是( )。

A.150B.200C.100D.25011、从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的标准差是( )。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总体的数量规 律
统计学探索数量规律性的过程
引言 概率论的问题中, 随机变量的概率分布是已知的或假设是已知的, 而一切计算与推理 都是在这已知的基础上进行的. 但实际中, 一个随机变量所服从的分布可能是完全不知道 的, 或者知道其分布概型, 但是其中的某些参数是未知的. 例如, 某公路上车辆的速度服从的分布是未知的; 电视机的使用寿命服从的分布是未知的; 产品是否合格服从两点分布, 但参数——合格率p是未知的. 数理统计的任务是以概率论为基础, 根据试验所得到的数据, 对研究对象的客观统计规律 做出推断. 数理统计所包含的内容十分丰富, 从第五章开始, 我们学习数理统计的基础知识, 介绍其中 的参数估计, 假设检验, 方差分析, 回归分析等内容. 第五章主要介绍数理统计的一些基本术语, 基本概念, 重要的统计量及其分布, 它们是后面 各章的基础.
U4 X1 X2 2m, ✓
U5 X1X2X3 s .
几个常用的统计量
设(X1, X2, … , Xn)是总体X的一个样本, 样本均值 样本方差 样本均方差或标准差 它们的观测值用相应的小写字母表示.
X
1 n
n i 1
Xi
S 2
1 n1
n i 1
(Xi
X )2
S
1 n
1
n i 1
中心问题是减少误差, 降低出错的可能性. 统计推断是 “数理统计”(属理科)的主要内容.
/descriptive statistics /inferential statistics
描述统计与推断统计的关系
概率论
反映客观 现象的数

样本数据 总体数据
描述统计 (数据的搜集, 整理,显示和
分析等)
推断统计 运用概率论分析样本信息, 对总体 的数量特征进行估计和检验等.
第五章 样本与统计量
第一节 样本与统计量 第二节 数据的简单处理 第三节 统计量的分布
关于统计的一些说法
“没有统计, 其它科学可以存在, 但是很渺小.”
“Statistics is the science for learning from data.”
统计是“关于收集和分析数据的科学与艺术/art” ——《不列颠百科全书》
1. 内容的数量性
统计总是用数字来表述事实.
2. 目的的总体性, 手段的个体性
目的是找出由大量个体组成的整体的总体特征,但常常从观察个体数量特征入手.
统计的分类
描述统计: 对整体的调查和描述. 常用表和图, 计算特征量(如平均值)等.
统计描述是“社会经济统计学”(属文科)的主要内容. 推断统计: 分析部分资料, 推断出整体情况.
例1 为对某小麦杂交组合F2代的株高X进行研究, 抽取容量为100的样本, 测试的原始数据记录如下(单位: 厘米), 试根据以上数据,
画出它的频率直方图, 求随机变量X的分布状况.
87
88
111
91
73
70
92
98
105
94
99
91
98
0
98
97
90
83
92
88
86
94
102
99
89
104
94
94
92
96
87
94
92
86
102
88
75
90
/statistic.
统计量是样本(X1, X2, … , Xn)的不含未知参数的连续函数 f (X1, X2, … , Xn).
2
2
例1 下列哪些是统计量? 其中 X1, X2, X3 是来自总体 N(m, s ) 的一个样本, m 为已知, s 为未知.
U1 X1, ✓ U2 X1 X2e X3 , ✓ U3 max( X1, X 2 , X 3 ), ✓
•数据有随机性(带偶然误差); •应用时有人的判断和主动性(“艺术”).
统计研究的特点
统计学是一门研究收集数据, 表现数据, 分析数据, 解释数据, 从而认识数量规律的方法论科学. /collect /present /analyze /interprete /methodological
统计研究的特点:
计算样本特征数:
(1)反映趋势的特征数
样本均值 前述.
中位数: 数据按大小顺序排列后, 位置居中的那个数
或居中的两个数的平均数.
众数: 样本中出现最多的那个数.
(2)反映分散程度的特征数: 样本方差, 样本标准差 极差, 四分位数,四分位差数. 极差 样本数据中最大值与最小值之差: R = M m. 四分位数 将样本数据依概率分为四等份的3个数椐, 依次称为第一, 第二, 第三四分位数. 第一四分位数Q1: P{X < Q1} = 0.25, 第二四分位数Q2: P{X < Q1} = 0.50, 第三四分位数Q3: P{X < Q1} = 0.75. 四分位差数 (Q3 Q1)/2.
population/individual/sample/size/observed value
常用的抽样是简单随机抽样, 它满足①代表性: 子样(X1, X2, … , Xn) 的每个分量 Xi与总体X具有相同的概率分布. ②独立 性:各次抽样的结果互不影响. 由简单随机抽样所得子样(X1, X2, … , Xn)称为简单随机子样, 它是来自总体X, 与总体 X具有相同分布的n个相互独立的随 机变量.
第五章 样本与统计量
第一节 样本与统计量 第二节 数据的简单处理 第三节 统计量的分布
在数理统计中, 研究对象的全体称为总体或母体, 而组成总体的每个单元称为个体. 要了解总体的分布规律, 往往从总体中抽取一部分个体进行观测, 这个过程称为抽样. 在抽样过程中, 每抽取一个个体, 就是对总体X进行一次随机试验, 所抽取的n个个体(X1, X2, … , Xn)称为总体X的 一个样本或子样, 其中所含的个体数量n称为样本容量. 样本(X1, X2, … , Xn) 的观测数据(x1, x2, … , xn)称为样本值或子样观察值.
(Xi
X
)2
sample mean/sample variance
第五章 样本与统计量
第一节 样本与统计量 第二节 数据的简单处理 第三节 统计量的分布
数据的简单处理 抽样调查所得的原始数据往往杂乱无章, 需要以一种直观明了方式对数据进行加工:
数据整理;
计算样本特征数.
数据整理: 将数据分组, 计算各组频数; 作频率分布表, 作频率直方图.
相关文档
最新文档