04统计描述及区间估计-《现代医学统计方法与STATA应用》

04统计描述及区间估计-《现代医学统计方法与STATA应用》
04统计描述及区间估计-《现代医学统计方法与STATA应用》

第四章 统计描述及区间估计 

本章介绍资料的统计描述和统计量的区间估计。 

§4.1 统计资料的一般描述 

统计描述在统计分析过程中占有相当重要的地位,必须给予充分重视。通过统计描述,我们不仅可以对整个数据的概貌、分布状况有个大致的了解,对各因素或变量间的相互关系有个初步的结论,而且还可发现数据中的异常现象,为进一步分析选择方法提供依据。而数据的可靠性,正是保证统计分析正确揭示客观规律的前提条件。因此,在进行任何统计分析之前,必须对分析数据进行全面的描述。 

Stata具有很强的统计描述功能,可用统计量(数值)描述,也可用图形描述。本章介绍统计量描述,图形描述见第五章。部分专用统计描述指令穿插在有关章节讲述。如描述指标间的相关性安排在第九章,生存率的描述安排在第十六章等。

注意:统计描述是对分析数据进行描述,而第三章中的指令describe是对数据库的结构进行描述。

一、 数值变量资料的描述 

对一组数值变量资料的描述,最常用的统计量有均数、标准差、百分位数、偏度系数与峰度系数、变异系数等。主要命令有summary与centile。

summarize[变量名] [, detail ]

centile [变量名] [, centile(# [# ...]) cci normal meansd level(#) ] 

这里的选择项分别表示:

detail /* 详细描述,缺失时为简单描述

meansd /* 指定百分位数用近似正态法,缺失时为直接算法

cci /* 指定百分位数的可信区间用保守算法

normal /* 指定百分位数的可信区间用近似正态法

level(#) /* 指定百分位数的可信区间的可信限

下面看一个例子。

例4.1 某市1982年110名7岁男童的身高(cm)资料如下: 

112.4 117.2 122.7 123.0 113.0 110.8 118.2 108.2 118.9 118.1 123.5 

118.3 120.3 116.2 114.7 119.7 114.8 119.6 113.2 120.0 119.7 116.8 

119.8 122.5 119.7 120.7 114.3 122.0 117.0 122.5 119.8 122.9 128.0 

121.5 126.1 117.7 124.1 129.3 121.8 112.7 120.2 120.8 126.6 120.0 

130.5 120.0 121.5 114.3 124.1 117.2 124.4 116.4 119.0 117.1 114.9 

129.1 118.4 113.2 116.0 120.4 112.3 114.9 124.4 112.2 125.2 116.3 

125.8 121.0 115.4 121.2 117.9 120.1 118.4 122.8 120.1 112.4 118.5 

113.0 120.8 114.8 123.8 119.1 122.8 120.7 117.4 126.2 122.1 125.2 

118.0 120.7 116.3 125.1 120.5 114.3 123.1 122.4 110.3 119.3 125.0 

111.5 116.8 125.6 123.2 119.5 120.5 127.1 120.6 132.5 116.3 130.8 

首先对资料作简单描述。设数据已被存入d:\mydata\ex4-1.dta。 

. drop _all 

. use ex4-1 

. summ

Variable | Obs Mean Std. Dev. Min Max

---------+-----------------------------------------------------

x | 110 119.7273 4.741325 108.2 132.5

这里,只用了summ命令,没有加任何选择项。结果中给出了变量x的样本含量(Obs)、均数(Mean)、标准差(Std.Dev.)、最小值(Min)、最大值(Max)。

要得到更多的信息,需要加选择项“detail”(或d):

. summ x , d

-------------------------------------------------------------

Percentiles Smallest

 1% 110.3 108.2

 5% 112.3 110.3

10% 113.1 110.8 Obs 110

25% 116.4 111.5 Sum of Wgt. 110

50% 119.9 Mean 119.7273

Largest Std. Dev. 4.741325

75% 122.8 129.3

90% 125.7 130.5 Variance 22.48017

95% 128 130.8 Skewness .1524946

99% 130.8 132.5 Kurtosis 2.921794

除样本含量,均数,标准差外,结果中还给出了9个百分位数(Percentiles),即1%,5%,10%,25%,50%,75%,90%,95%和99%,他们依次是:110.3,112.3,113.1,116.1,119.9,122.8,125.7,128.0和130.8;给出了4个最小数和4个最大数;方差(Varance),偏度系数 (Skewness) 与峰度系数(Kurtosis)。对正态分布来说,偏度系数=0,峰度系数=3。偏度系数为0时称为对称分布, 大于0为正偏态, 小于0为负偏态;峰度系数为3时称为正态峰,大于3为尖峭峰, 小于3为平阔峰。

如欲得到更多的百分位数,则用命令“centile”。

. centile x , centile(2.5,50,97.5)

-- Binom. Interp. --

Variable | Obs Percentile Centile [95% Conf. Interval]

---------+-------------------------------------------------------------

x | 110 2.5 110.6875 108.2 112.389*

| 50 119.9 118.9211 120.5789

| 97.5 130.5675 127.1988 132.5*

* Lower (upper) confidence limit held at minimum (maximum) of sample 我们在选择项centile中指定了3个百分位数,即2.5%,50%和97.5%。结果中除给出了百分位数,同时还给出了百分位数的95%可信区间。如2.5%分位数为110.6875,其95%的可信区间为(108.2,112.389),这里的*号表示可信区间的下限已达到所给数据的最小值(108.2)。

这里,百分位数的可信区间是按二项分布用插值法求出的。也可用近似正态法,只需加上选择项norm。

. centile x , centile(2.5,50,97.5) norm

-- Normal, based on observed centiles --

Variable | Obs Percentile Centile [95% Conf. Interval]

---------+-------------------------------------------------------------

x | 110 2.5 110.6875 108.5527 112.8223

| 50 119.9 118.7888 121.0112

| 97.5 130.5675 125.8348 135.3002 加上选择项norm后,所得百分位数相同,但可信区间不同。Stata还提供了另一种保守的基于二项分布的百分位数可信区间算法cci(conservative confidence interval)。

. centile x , centile(2.5,50,97.5) cci

-- Binomial Exact --

Variable | Obs Percentile Centile [95% Conf. Interval]

---------+-------------------------------------------------------------

x | 110 2.5 110.6875 108.2 112.4*

| 50 119.9 118.9 120.6

| 97.5 130.5675 127.1 132.5*

* Lower (upper) confidence limit held at minimum (maximum) of sample

该法所得可信区间一般比插值法要宽。

上述百分位数用直接法计算的,Stata提供了正态分布算法,即按公式:

x

+ (4.1)

u

s

α

如本例,x=119.7273,s=4.741325,故2.5%分位数为:

119.7273-1.96×4.741325=110.4343

这只需在centile命令中增加选择项meansd。 

. centile x , centile(2.5) meansd

-- Normal, based on mean and std. dev.--

Variable | Obs Percentile Centile [95% Conf. Interval]

---------+-------------------------------------------------------------

x | 110 2.5 110.4344 108.9156 111.9533

此时,百分位数的可信区间的算法也是基于正态分布的。

二、 分类变量资料的描述 

对分类资料一般用率、构成比、比来描述某事物的发生强度、频率或构成,相应的命令为: tabulate 变量名 [, generate(新变量) missing nofreq nolabel plot ]

tab1 变量1 变量2 变量3……… [, missing nolabel plot ]

tabulate 变量1 变量2 [, cell column row missing nofreq] tab2 变量1 变量2 变量3 ………[, tabulate_options ]

其中,前两个命令用于单变量的分类描述,后两个命令用于两个变量的交叉分类描述。选择项的意义:

generate(新变量) /* 按分组变量产生哑变量

nofreq /* 不显示频数

nolabel /* 不显示数值标记

plot /* 显示各组频数图示

missing/* 包含缺失值

cell /* 显示各小组的构成比(小组之和为1)

column /* 按栏显示各组之构成(各栏总计为1)

row /* 按行显示各组之构成(各行总计为1)

例4.2有三组(group)患者,男女(sex)若干人,sex=1表示男性,sex=0表示女性。测得其血红蛋白浓度(x1,%)和红细胞计数(x2,万/mm3),资料存入d:\mydata\ex4-2.dta。试对其进行描述。 . use d:\mydata\ex4-2 

. list

 

x1 x2 group sex

1. 3.9 210 1 0

2. 4.2 190 1 0

3. 3.7 240 1 0

4. 4 170 1 0

5. 4.4 220 1 0

6. 5.2 230 1 0

7. 2.7 160 1 0

8. 2.4 260 1 0

9. 3.6 240 1 1

 10. 5.5 180 1 1

 11. 2.9 220 1 1

 12. 3.3 300 1 1

 13. 4.8 270 2 0 

 14. 4.7 180 2 0 

 15. 5.4 230 2 0 

 16. 4.5 245 2 0 

 17. 4.6 270 2 1 

 18. 4.4 220 2 1 

 19. 5.9 290 2 1 

 20. 5.5 290 2 1 

 21. 4.3 220 2 1 

 22. 5.1 310 2 1 

 23. 4.4 250 2 1 

 24. 3.7 305 3 1 

 25. 2.9 330 3 1 

 26. 4.5 240 3 1 

 27. 3.3 195 3 1 

 28. 4.5 275 3 0 

 29. 3.8 310 3 0 

 30. 3.7 240 3 0 

首先看看各组的频数。 

. tab group

group| Freq. Percent Cum.

------------+-----------------------------------

1 | 12 40.00 40.00

2 | 11 36.67 76.67

3 | 7 23.33 100.00

------------+-----------------------------------

Total | 30 100.00

结果显示,各组的样本含量分别为:12,11,7。产生组变量的哑变量,分别以g1,g2,g3表示:

. tab group , gen(g)

group| Freq. Percent Cum.

------------+-----------------------------------

1 | 12 40.00 40.00

2 | 11 36.67 76.67

3 | 7 23.33 100.00

------------+-----------------------------------

Total | 30 100.00

这样,Stata自动产生group的3个哑变量(group有3组),命令中用g表示哑变量,Stata自动以g1,g2,g3表示,结果如下: 

. list group g1-g3

group g1 g2 g3 1. 1 1 0 0 2. 1 1 0 0 3. 1 1 0 0 4. 1 1 0 0 5. 1 1 0 0 6. 1 1 0 0 7. 1 1 0 0 8. 1 1 0 0 9. 1 1 0 0 10. 1 1 0 0 11. 1 1 0 0 12. 1 1 0 0 13. 2 0 1 0 14. 2 0 1 0 15. 2 0 1 0 16. 2 0 1 0 17. 2 0 1 0 18. 2 0 1 0 19. 2 0 1 0 20. 2 0 1 0 21. 2 0 1 0 22. 2 0 1 0 23. 2 0 1 0 24. 3 0 0 1 25. 3 0 0 1 26. 3 0 0 1 27. 3 0 0 1 28. 3 0 0 1 29. 3 0 0 1 30. 3 0 0 1 这一命令在广义线性回归中是很有用的。

再看看各组性别分布情况。

. tab group sex | sex group| 0 1 | Total -----------+----------------------+---------- 1 | 8 4 | 12 2 | 4 7 | 11

3 | 3 4 | 7 -----------+----------------------+---------- Total| 15 15 | 30 欲了解各组男女构成,在命令中加row选择项:. tab group sex, row | sex group| 0 1 | Total -----------+----------------------+---------- 1 | 8 4 | 12 | 66.67 33.33 | 100.00 -----------+----------------------+---------- 2 | 4 7 | 11 | 36.36 63.64 | 100.00 -----------+----------------------+---------- 3 | 3 4 | 7 | 42.86 57.14 | 100.00 -----------+----------------------+---------- Total| 15 15 | 30 | 50.00 50.00 | 100.00 欲了解各组构成,在命令中加cell选择项:

. tab group sex, cell | sex group| 0 1 | Total -----------+----------------------+---------- 1 | 8 4 | 12 | 26.67 13.33 | 40.00 -----------+----------------------+---------- 2 | 4 7 | 11 | 13.33 23.33 | 36.67 -----------+----------------------+---------- 3 | 3 4 | 7 | 10.00 13.33 | 23.33 -----------+----------------------+---------- Total| 15 15 | 30 | 50.00 50.00 | 100.00

三、 分类变量与连续变量资料的综合描述 

欲了解某数值变量资料在各组的均数、标准差等,用综合描述命令:

tab 分组变量,summ(数值变量)

tab 分组变量1 分组变量2 ,summ(数值变量)

前者用于按一个变量分类,后者用于按两个变量分类。summ后每次只能指定一个数值变量。

例4.3 对例4.2资料,计算血红蛋白浓度和红细胞计数在各组的均数、标准差。

. tab group, sum(x1)

| Summary of x1

group| Mean Std. Dev. Freq.

------------+------------------------------------

1 | 3.8166667 .93889033 12

2 | 4.8727273 .52932203 11

3 | 3.7714286 .58513326 7

------------+------------------------------------

Total | 4.1933333 .88236879 30

. tab group, sum(x2)

| Summary of x2

group| Mean Std. Dev. Freq.

------------+------------------------------------

1 | 218.33333 39.962103 12

2 | 252.27273 38.299062 11

3 | 270.71429 48.082271 7

------------+------------------------------------

Total | 243 45.383424 30

若按分组变量和性别变量交叉分组,则得各交叉分类时血红蛋白浓度的均数: 

. tab group sex , sum(x1) nofreq

Means and Standard Deviations of x1

| sex

group| 0 1 Total

-----------+----------------------+----------

1 | 3.8125 3.825 | 3.8166667

| .90307009 1.1528949 | .93889033

-----------+----------------------+----------

2 | 4.85 4.8857143 | 4.8727273

| .3872984 .6256425 | .52932203

-----------+----------------------+----------

3 | 4 3.6 | 3.7714286

| .43588989 .68313003 | .58513326

-----------+----------------------+----------

Total | 4.1266667 4.26 | 4.1933333

| .8224238 .9627342 | .88236879

§4.2 可信区间估计 

统计推断有两个重要内容,其一是假设检验,其二是参数的可信区间估计。Stata提供了均数(正态分布),率(二项分布)和事件数(Poisson分布)的可信区间的估计。用于可信区间估计的命令是:

ci 变量 [, level(#) binomial poisson exposure(观察数变量) by(分组变量) total ]

Stata还提供了已知n,x,s时均数的可信区间估计,已知n,x时率的可信区间估计,以及已知n,x(事件数)时的总体事件数的可信区间估计。相应的命令为:

cii 观察数均数标准差 [, level(#) ] /* 正态分布

cii 观察数阳性数 [, level(#) ] /* 二项分布

cii 观察数事件数 , poisson [level(#) ] /* Poisson分布

其中选择项: 

level(#) /* 指定可信度,缺失时为95(%)

binomial/poisson /* 指定总体分布。只能选其中之一,缺失时为正态分布

exposure(观察数变量) /* 指定观察数变量,仅用于Poisson分布时

by(分组变量) /* 指定按分组变量分别估计均数的可信区间

total /* 指定除按分组变量估计可信区间外,还对整个数据估计,

仅用于by(分组变量)时

 

例4.4 对例4.2中资料分别估计各组血红蛋白浓度和红细胞计数均数的可信区间。 

. use d:\mydata\ex4-2 

. sort group /* 在用by(分组变量)前,必须对分组变量排序 

. ci x1 x2, by(group)

-> group=1

Variable | Obs Mean Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------

x1 | 12 3.816667 .2710343 3.220124 4.413209

x2 | 12 218.3333 11.53607 192.9426 243.724

-> group=2

Variable | Obs Mean Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------

x1 | 11 4.872727 .1595966 4.517124 5.228331

x2 | 11 252.2727 11.5476 226.5431 278.0024

-> group=3

Variable | Obs Mean Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------

x1 | 7 3.771429 .2211596 3.230271 4.312587

x2 | 7 270.7143 18.17339 226.2456 315.183

结果中给出了各组各变量的样本含量,均数,均数的标准误(Std. Err.),以及95%的可信区间(95% conf. Interval)。

如果已知各组均数,则可用cii命令直接估计,如第一组血红蛋白浓度均数的可信区间:. cii 12 3.816667 0.2710343

Variable | Obs Mean Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------

| 12 3.816667 .0782409 3.64446 3.988874 结果与从原始资料估计所得结果相同。估计90%的可信区间的命令为: 

. cii 12 3.816667 0.2710343, level(90)

(结果略) 

例4.5某地抽查了10名献血员的乙肝表面抗原(HBsAg)携带情况,阳性人数为2,试估计该地HBsAg阳性率。

直接用cii命令:

. cii 10 2

-- Binomial Exact --

Variable | Obs Mean Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------

| 10 .2 .1264911 .0251953 .55625

结果,阳性率为0.2,标准误为0.1265,阳性率的95%可信区间为:(0.0252, 0.5563)。

例4.6将一个面积为100cm2的培养皿置于某病房,1小时后取出,培养24小时,查得8个菌落,求该病房平均每100cm2的面积细菌数的95%可信区间。 

. cii 1 8 , poisson

-- Poisson Exact --

Variable | Exposure Mean Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------

| 1 8 2.828427 3.454 15.76225

这里的1表示1个100cm2的面积。即病房平均每100cm2的面积细菌数的95%可信区间为(3.5,15.8)。

2014年7月高等教育自学考试 00974《统计学原理》试题及答案

2014年7月高等教育自学考试 统计学原理试卷及答案 (课程代码 00974) 一、单项选择题(本大题共20小题,每小题1分,共20分) 1.构成统计总体的每一个别事物,称为 C A .调查对象 B .调查单位 C .总体单位 D .填报单位 2.对事物进行度量,最精确的计量尺度是A A .定比尺度 B .定序尺度 C .定类尺度 D .定距尺度 3.《中华人民共和国统计法》对我国政府统计的调查方式做的概括中指出,调查方式的主体是C A .统计报表 B .重点调查 C .经常性抽样调查 D .周期性普查 4.是非标志的成数p 和q 的取值范围是D A .大于零 B .小于零 C .大于1 D .界于0和1之间 5.在经过排序的数列中位置居中的数值是A A .中位数 B .众数 C .算术平均数 D .平均差 6.确定中位数的近似公式是A A .d f S f L m m ?-+ -∑1 2 B .d L ??+??+ 2 11 C .∑∑? f f x D . ∑-)(x x 7.反映现象在一段时间内变化总量的是B A .时点指标 B .时期指标 C .动态指标 D .绝对指标 8.重置抽样与不重置抽样的抽样误差相比A A .前者大 B .后者大 C .二者没有区别 D .二者的区别需要其他条件来判断 9.如果总体内各单位差异较大,也就是总体方差较大,则抽取的样本单位数A A .多一些 B .少一些 C .可多可少 D .与总体各单位差异无关 10.进行抽样调查时,样本对总体的代表性受到一些可控因素的影响,下列属于可控因素的是D A .样本数目 B .样本可能数目 C .总体单位数 D .样本容量 11.在12个单位中抽取4个,如果进行不重置抽样,样本可能数目M 为B A .4 12 B . ! 8!4! 12 C .12×4 D .12 4 12.方差是各变量值对算术平均数的A A .离差平方的平均数 B .离差平均数的平方根 C .离差平方平均数的平方根 D .离差平均数平方的平方根

(抽样检验)样本均数的抽样误差与置信区间

第三章 样本均数的抽样误差与置信区间 ★ 联系: 3.1 样本均数的分布 ·从同一总体中独立抽取多份样本, 他们的均数常大小不一, 这说明样本均数存在变异。通过电脑实验来认识样本均数的变异规律 一、正态总体样本均数的分布 实验 3.1 从正态分布总体抽样的实验 假定正常男子的红血球计数服从正态分布N(4.6602, 0.57462),随机抽取1000份样本 , 每份含n =5个个体。样本均数依然是一个随机变量, 且 (1) (2) (3) 样本均数的分布很有规律,围绕着总体均数,中间多、两边少, 左右基本对称(对称、正态?); (4) (5) 随着样本量的增大, 表3.1 从N(4.6602, 0.57462)中随机抽样, 样本量为5, 100份独立 12图3.1 从正态分布总体抽样的实验结果 23.7 4.1 4.5 4.9 5.3 5.7 3.7 4.1 4.5 4.9 5.3 5.7 3.7 4.1 4.5 4.9 5.3 5.7(a) (b) (c)

* 由这份样本估计的95%置信区间实际上并未复盖总体均数 表3.2 从N(4.6602, 0.57462)中随机抽取1000 份独立样本, 其均数的频数分布 组段下限(1012 /L) 频数 频率(%) 累积频率(%) 3.60- 1 0.1 0.1 3.80- 5 0.5 0.6 4.00- 32 3.2 3.8 4.20- 117 11.7 1 5.5 4.40- 229 22.9 38.4 4.60- 304 30.4 68.8 4.80- 218 21.8 90.6 5.00- 76 7.6 98.2 5.20- 15 1.5 99.7 5.40- 3 0.3 100.0 合计 1000 100.0 ·理论上可以证明, 从正态分布N(μ, σ2)的总体中随机抽取含量为n 的样本,其样本均数X ~N(μ, σ2 /n)。 ·样本均数的标准差习惯上又称为样本均数的标准误(standard error),简称标准误。值得注意的是如下的普遍规律: 或 ·实际应用中往往总体标准差σ未知, 人们只能用样本标准差S 代替σ,从而获得x σ的估计值x S ,则有 ·为方便计,可称x σ为理论标准误,x S 为样本标准误。 二、非正态总体样本均数的分布 实验3.2 从正偏峰的分布总体抽样的实验 (1) 随着样本量的增大, 样本均数分布的对称性逐渐改善, 样本

统计学原理试题及答案解析

统计学原理试题(6) 一、单项选择题:(每小题1分,共20分) 1、设某地区有200家独立核算得工业企业,要研究这些企业得产品生产情 况,总体就是( )。 A、每一家工业企业 B、200家工业企业 C、每一件产品 D、200家工业企业得全部工业产品 2、有600家公司每位职工得工资资料,如果要调查这些公司得工资水平情 况,则总体单位就是( )。 A、600家公司得全部职工 B、600家公司得每一位职工 C、600家公司所有职工得全部工资 D、600家公司每个职工得工资 3、一个统计总体( )。 A、只能有一个指标 B、可以有多个指标 C、只能有一个标志 D、可以有多个标志 4、以产品等级来反映某种产品得质量,则该产品等级就是( )。 A、数量标志 B、品质标志 C、数量指标 D、质量指标 5、在调查设计时,学校作为总体,每个班作为总体单位,各班学生人数就是( )。 A、变量值 B、变量 C、指标值 D、指标 6、年龄就是( )。 A、变量值 B、连续型变量 C、离散型变量 D、连续型变量,但在实际应用中常按离散型处理 7、人口普查规定统一得标准时间就是为了( )。 A、登记得方便 B、避免登记得重复与遗漏 C、确定调查得范围 D、确定调查得单位 8、以下哪种调查得报告单位与调查单位就是一致得( )。 A、职工调查 B、工业普查 C、工业设备调查 D、未安装设备调查 9、通过调查大庆、胜利、辽河等油田,了解我国石油生产得基本情况。这 种调查方式就是( )。 A、典型调查 B、抽样调查 C、重点调查 D、普查 10、某市进行工业企业生产设备普查,要求在10月1日至15日全部调查完 毕,则这一时间规定就是( )。 A、调查时间 B、登记期限 C、调查期限 D、标准时间 11、统计分组得关键问题就是( )。 A、确定分组标志与划分各组界限 B、确定组距与组中值

医学统计学研究生题库

医学统计学复习练习题库 研究生教材使用 一、最佳选择题 1.卫生统计工作的步骤为 A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括 A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指 A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 A.全距 B.标准差 C.变异系数 D.四分位数间距

E.方差

7.用均数与标准差可全面描述其资料分布特点的是 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为 A.μ+1.96σ B.μ-1.96σ C.μ+2.58σ D.μ+1.64σ E.μ-2.58σ 12.下列哪个变量为标准正态变量 A.s x μ- B.σμ-x C. x s x μ- D.x x σμ- E. s x μ- 13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标 (如血糖水平)的正常值范围一般指 A.该指标在所有人中的波动范围 B.该指标在所有正常人中的波动范围 C.该指标在绝大部分正常人中的波动范围 D.该指标在少部分正常人中的波动范围 E.该指标在一个人不同时间的波动范围 14.下列哪一变量服从t 分布 A. σμ-x B. σμ-x C. x x σμ- D. x s x x - E. x s x μ- 2.统计分析的主要内容有

统计学习题区间估计与假设检验..-共10页

第五章抽样与参数估计 一、单项选择题 1、某品牌袋装糖果重量的标准是(500±5)克。为了检验该产品的重量是否符合标准,现从某日生产的这种糖果中随机抽查10袋,测得平均每袋重量为498克。下列说法中错误的是( B ) A、样本容量为10 B、抽样误差为2 C、样本平均每袋重量是估计量 D、498是估计值 2、设总体均值为100,总体方差为25,在大样本情况下,无论总体的分布形式如何,样本平均数的分布都服从或近似服从趋近于( D ) A、N(100,25) B、N(100,5/n) C、N(100/n,25) D、N(100,25/n) 3、在其他条件不变的情况下,要使置信区间的宽度缩小一半,样本量应增加( C ) A、一半 B、一倍 C、三倍 D、四倍 4、在其他条件不变时,置信度(1–α)越大,则区间估计的( A ) A、误差范围越大 B、精确度越高 C、置信区间越小 D、可靠程度越低 5、其他条件相同时,要使抽样误差减少1/4,样本量必须增加( C ) A、1/4 B、4倍 C、7/9 D、3倍 6、在整群抽样中,影响抽样平均误差的一个重要因素是( C ) A、总方差 B、群内方差 C、群间方差 D、各群方差平均数 7、在等比例分层抽样中,为了缩小抽样误差,在对总体进行分层时,应使( B )尽可能小 A、总体层数 B、层内方差 C、层间方差 D、总体方差 8、一般说来,使样本单位在总体中分布最不均匀的抽样组织方式是( D ) A、简单随机抽样 B、分层抽样 C、等距抽样 D、整群抽样 9、为了了解某地区职工的劳动强度和收入状况,并对该地区各行业职工的劳动强度和收入情况进行对比分析,有关部门需要进行一次抽样调查,应该采用( A ) A、分层抽样 B、简单随机抽样 C、等距(系统)抽样 D、整群抽样 10、某企业最近几批产品的优质品率分别为88%,85%,91%,为了对下一批产品的优质品率进行抽样检验,确定必要的抽样数目时,P 应选( A ) A、85% B、87.7% C、88% D、90% 二、多项选择题 1、影响抽样误差大小的因素有(ADE ) A、总体各单位标志值的差异程度 B、调查人员的素质

统计学原理练习题及答案

统计学原理练习题及答案 2007-12-7 9:32:24 阅读数:6162 《统计学原理》综合练习题 一、判断题(把正确的符号“√”或错误的符号“×”填写在题后的括号中。) 1、社会经济统计的研究对象是社会经济现象总体的各个方面。() 2、在全国工业普查中,全国企业数是统计总体,每个工业企业是总体单位。() 3、总体单位是标志的承担者,标志是依附于单位的。() 4、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。() 5、全面调查和非全面调查是根据调查结果所得的资料是否全面来划分的()。 6、调查单位和填报单位在任何情况下都不可能一致。() 7、在统计调查中,调查标志的承担者是调查单位。() 8、对全同各大型钢铁生产基地的生产情况进行调查,以掌握全国钢铁生产的基本情况。这种调查属于非全面调查。() 9、统计分组的关键问题是确定组距和组数( ) 10、按数量标志分组的目的,就是要区分各组在数量上的差别( ) 11、总体单位总量和总体标志总量是固定不变的,不能互相变换。() 12、相对指标都是用无名数形式表现出来的。() 13、众数是总体中出现最多的次数。() 14、国民收入中积累额与消费额之比为1:3,这是一个比较相对指标。() 15、总量指标和平均指标反映了现象总体的规模和一般水平。但掩盖了总体各单位的差异情况,因此通过这两个指标不能全面认识总体的特征。() 16、抽样推断是利用样本资料对总体的数量特征进行估计的一种统计分析方法,因此不可避免的会产生误差,这种误差的大小是不能进行控制的。() 17、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。() 18、在抽样推断中,作为推断的总体和作为观察对象的样本都是确定的、唯一的。() 19、抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。() 20、在其它条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样估计的精确度。() 21、抽样平均均误差反映抽样的可能误差范围,实际上每次的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差。() 22、施肥量与收获率是正相关关系。() 23、计算相关系数的两个变量都是随机变量() 24、利用一个回归方程,两个变量可以互相推算()

统计学原理-计算题

《统计学原理》 计算题 1.某地区国民生产总值(GNP)在1988-1989年平均每年递增15%,1990-1992年平均每年递增12%,1993-1997年平均每年递增9%,试计算: 1)该地区国民生产总值这十年间的总发展速度及平均增长速度 答:该地区GNP在这十年间的总发展速度为 115%2×112%3×109%5=285.88% 平均增长速度为 111.08% == 2)若1997年的国民生产总值为500亿元,以后每年增长8%,到2000年可达到多少亿元? 答:2000年的GNP为 500(1+8%)13=1359.81(亿元) 2.某地有八家银行,从它们所有的全体职工中随机动性抽取600人进行调查,得知其中的486人在银行里有个人储蓄存款,存款金额平均每人3400元,标准差500元,试以95.45%的可靠性推断:(F(T)为95.45%,则t=2) 1)全体职工中有储蓄存款者所占比率的区间范围 答:已知:n=600,p=81%,又F(T)为95.45%,则t=2所以 0.1026% == 故全体职工中有储蓄存款者所占比率的区间范围为 81%±0.1026% 2)平均每人存款金额的区间范围 3.某厂产品产量及出厂价格资料如下表: 要求:对该厂总产值变动进行因素分析。(计算结果百分数保留2位小数) 答:①总产值指数 11 00500010012000604100020 104.08% 600011010000504000020 p q p q ?+?+? ==?+?+? ∑ ∑ 总成本增加量 Σp1q1-Σp0q0=2040000-1960000=80000(元)②产量指数

概率论与数理统计期末考试之置信区间与拒绝域

概率论与数理统计期末 置信区间问题 八(1)、从某同类零件中抽取9件,测得其长度为( 单位:mm ): 设零件长度X 服从正态分布N (μ,1)。求μ的置信度为的置信区间。 0.050.050.025((9)=2.262, (8)=2.306, 1.960 )t t U =已知: 解:由于零件的长度服从正态分布,所以~(0,1) x U N = 0.025{||}0.95P U u <= 所以μ的置信区间为 0.025 0.025 (x u x u -+ 经计算 9 19 1 6i i x x == =∑ μ的置信度为的置信区间为 11 33(6 1.96,6 1.96)-?+? 即, 八(2)、某车间生产滚珠,其直径X ~N (μ, ,从某天的产品里随机抽出9个量得直径如下(单位:毫米 ): 若已知该天产品直径的方差不变,试找出平均直径μ的置信度为的置信区间。 0.050.050.025((9)=2.262, (8)=2.306, 1.960 )t t U =已知: 解:由于滚珠的直径X 服从正态分布,所以~(0,1) x U N = 0.025{||}0.95P U u <= 所以μ的置信区间为: 0.0250.025 (x u x u -+ 经计算 9 19 1 14.911i i x x == =∑ μ的置信度为的置信区间为 (14.911 1.96 1.96-+ 即, 八(3)、工厂生产一种零件,其口径X (单位:毫米)服从正态分布2 (,)N μσ,现从某日生产的零件中随机抽出9个,分别测得其口径如下:

已知零件口径X 的标准差0.15σ=,求μ的置信度为的置信区间。 0.050.050.025((9)=2.262, (8)=2.306, 1.960 )t t U =已知: 解:由于零件的口径服从正态分布, 所以~(0,1)x U N = 0.025{||}0.95P U u <= 所以μ 的置信区间为:0.025 0.025 (x u x u -+ 经计算 9 19 1 14.9i i x x == =∑ μ 的置信度为的置信区间为 0.150.15 33(14.9 1.96,14.9 1.96)-?+? 即 , 八(4)、随机抽取某种炮弹9发做实验,测得炮口速度的样本标准差S =3(m/s),设炮口速度服从正态分布,求这种炮弹的炮口速度的方差2 σ的置信度为的置信区间。 22220.0250.9750.0250.975((8)17.535, (8) 2.18(9)19.02, (9) 2.7)χχχχ====已知:; 因为炮口速度服从正态分布,所以 2 22 (1)~(1)n S W n χσ-= - 220.0250.975{(8)(8)}0.95P W χχ≤≤= 2 σ的置信区间为:()()22220.0250.975(1)(1),11n S n S n n χχ??-- ? ?--?? 2σ的置信度的置信区间为 8989,17.535 2.180???? ??? 即()4.106,33.028 八(5)、设某校女生的身高服从正态分布,今从该校某班中随机抽取9名女生,测得数据经计算如下: 162.67, 4.20x cm s cm ==。求该校女生身高方差2σ的置信度为的置信区间。 22220.0250.9750.0250.975((8)17.535, (8) 2.18(9)19.02, (9) 2.7)χχχχ====已知:; 解:因为学生身高服从正态分布,所以2 22 (1)~(1)n S W n χσ-= - 220.0250.975{(8)(8)}0.95P W χχ≤≤= 2 σ的置信区间为:()()22220.0250.975(1)(1),11n S n S n n χχ??-- ? ?--?? 2 σ的置信度的置信区间为 228 4.28 4.2,17.535 2.180???? ??? 即 ()8.048,64.734

统计学原理第九章(相关与回归)习题答案

第九章相关与回归 一.判断题部分 题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。() 答案:× 题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。() 答案:√ 题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。() 答案:× 题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。() 答案:× 题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。() 答案:× 题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。() 答案:√ 题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。() 答案:×

题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。() 答案:× 题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。() 答案:√ 题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。() 答案:× 题目11:完全相关即是函数关系,其相关系数为±1。() 答案:√ 题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。() 答案× 二.单项选择题部分 题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 答案:B 题目2:现象之间的相互关系可以归纳为两种类型,即()。 A.相关关系和函数关系 B.相关关系和因果关系

统计学原理例题分析一(20200920021933)

统计学原理例题分析(一) 一、判断题(把“V”或“X”填在题后的括号里) 1.社会经 济统计的研究对象是社会经济现象总体的各个方面。()参考答案:X 2.总体单位是标志的承担者,标志是依附于单位的。() 参考答案:“ 3?标志通常分为品质标志和数量标志两种。() 参考答案:“ 4.当对品质标志的标志表现所对应的单位进行总计时就形成统计指标。() 参考答案:“ 5.调查方案的首要问题是确定调查对象。() 参考答案:“ 6.我国目前基本的统计调查方法是统计报表、抽样调查和普查。() 参考答案:“ 7.调查单位和填报单位在任何情况下都不可能一致。() 参考答案:X 8.按数量标志分组,各组的变量值能准确的反映社会经济现象性质上的差别。() 参考答案:X 9.在确定组限时,最大组的上限应低于最大变量值。() 参考答案:X 10.按数量标志分组的目的,就是要区别各组在数量上的差别。() 参考答案:X 11.离散型变量可以作单项式分组或组距式分组,而连续型变量只能作组距式分组。() 参考答案:2

12.对于任何两个性质相同的变量数列,比较其平均数的代表性,都可以采

用标准差指标。() 参考答案:X 13.样本成数是指在样本中具有被研究标志表现的单位数占全部样本单位数的比重。() 参考答案:“ 14.样本容量指从一个总体中可能抽取的样本个数。() 参考答案:X 15.在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定、唯一的。() 参考答案:X 16.产量增加,则单位产品成本降低,这种现象属于函数关系。() 参考答案:X 17.在直线回归方程Y = a +bx中,b值可以是正的,也可以是负的。 () 参考答案:“ 18.回归系数b和相关系数丫都可用来判断现象之间相关的密切程度。 () 参考答案:X 19.平均指标指数是综合指数的一种变形。() 参考答案:X 20.序时平均数与一般平均数完全相同,因为它们都是将各个变量值的差异抽象化了。() 参考答案:X 二、单项选择题(从下列每小题的四个选项中,选出一个正确的,请将正确答案的序号填在括号内) 1 ?以产品的等级来衡量某种产品的质量好坏,则该产品等级是() A.数量标志 E.品质标志 C.数量指标 D.质量指标。

统计学原理第三章习题答案

第三章统计资料整理 一.判断题部分 1:对统计资料进行分组的目的就是为了区分各组单位之间质的不同。(×) 2:统计分组的关键问题是确定组距和组数。(×) 3:组中值是根据各组上限和下限计算的平均值,所以它代表了每一组的平均分配次数。(×) 3:分配数列的实质是把总体单位总量按照总体所分的组进行分配。(∨) 4:次数分配数列中的次数,也称为频数。频数的大小反映了它所对应的标志值在总体中所起的作用程度。(∨) 5:某企业职工按文化程度分组形成的分配数列是一个单项式分配数列。(×) 6:连续型变量和离散型变量在进行组距式分组时,均可采用相邻组组距重叠的方法确定组限。(∨) 7:对资料进行组距式分组,是假定变量值在各组内部的分布是均匀的,所以这种分组会使资料的真实性受到损害。(∨) 8:任何一个分布都必须满足:各组的频率大于零,各组的频数总和等于1 或100%。(×) 9:按数量标志分组形成的分配数列和按品质标志分组形成的分配数列,都可称为次数分布。( ∨ ) 10:按数量标志分组的目的,就是要区分各组在数量上的差异。(×) 11:统计分组以后,掩盖了各组内部各单位的差异,而突出了各组之间单位的差异。(∨) 12:分组以后,各组的频数越大,则组的标志值对于全体标志水平所起的作

用也越大;而各组的频率越大,则组的标志值对全体标志水平所起的作用越小。(×) 二.单项选择题部分 1:统计整理的关键在( B )。 A、对调查资料进行审核 B、对调查资料进行统计分组 C、对调查资料进行汇总 D、编制统计表 2:在组距分组时,对于连续型变量,相邻两组的组限( A )。 A、必须是重叠的 B、必须是间断的 C、可以是重叠的,也可以是间断的 D、必须取整数 3:下列分组中属于按品质标志分组的是( B )。 A、学生按考试分数分组 B、产品按品种分组 C、企业按计划完成程度分组 D、家庭按年收入分组 4:有一个学生考试成绩为70分,在统计分组中,这个变量值应归入( B )。 A、60---70分这一组 B、70---80分这一组 C、60—70或70—80两组都可以 D、作为上限的那一组 5:某主管局将下属企业先按轻、重工业分类,再按企业规模分组,这样的分组属于( B )。 A、简单分组 B、复合分组 C、分析分组 D、结构分组 6:简单分组和复合分组的区别在于( B )。 A、选择的分组标志的性质不同 B、选择的分组标志多少不同

统计学原理例题分析及综合练习

统计学原理例题分析及综合练习 第一部分例题分析 一、判断 1.社会经济统计工作的研究对象是社会经济现象总体的数量方面。【√】 2.全面调查包括普查和统计报表。【×】 3.统计分组的关键是确定组限和组距。【×】 4.变异指标和平均指标从不同侧面反映了总体的特征,因而变异指标的数值越大则平均指标的代表性越高,反之平均指标的代表性越低。【×】 5.抽样极限误差总是大于抽样平均误差。【×】 6.根据样本各单位标志值或标志属性计算的综合指标称为统计量(样本指标)。【√】7.(甲)某产品产量与单位成本的相关系数是-0.8:(乙)产品单位成本与利润率的相关系数是-0. 95;因此,(乙)比(甲)的相关程度高。【√】 8.已知:工资(元)倚劳动生产率(千元)的回归方程为:y。=10+80x因此,当劳动生产率每增长1千元,工资就平均增加90元。【×】 9.在综合指数中,要求其同度量因素必须固定在同一时期。【√】 10.某产品产量在一段时间内发展变化的速度,平均来说是增长的,因此该产品产量的环比增长速度也是年年上升的。【×】 11.已知各期环比增长速度为3%、2%、7%和5%,则相应的定基增长速度的计算方法为【103%×102%×107%×105%】 -100%。【√】二、单选1.设某地区有670家工业企业,要研究这些企业的产品生产情况,总体单位是【C.每一件产品】。 2.对一个统计总体而言【D.可以有多个指标】。 3.在某班学生学习情况调查中【C.全班平均成绩是指标】。 4.全面调查与非全面调查的划分是以【C.调查对象所包括的单位是否完全来划分的】。 5.全国工业企业设备普查,全国每个工业企业是【D.填报单位】。 6.下列分组中哪个是按品质标志分组【B.半成品按品种分组】。 7.某市场销售洗衣机,2009年共销售60000台,年底库存50台。这两个指标是【C.前者是时期指标,后者是时点指标】。 8.反映抽样指标与总体指标之间可允许的误差范围的指标是【B.抽样极限误差】。 9.当所有的观察值y都落在直线yc=a+bx上时,则x与y之间的相关系数为【B.γ=1】。 10.某工厂今年一季度同去年一季度相比,产量提高了5%,产值增长了15%,则产品价格提高了【B.9.5%】。 11.某企业第一、第二季度和下半年的原材料平均库存额分别为l0万元、15万元和20万元,则全年平均库存额为【B.16. 25万元】。 三、多选 1.总体单位是总体的基本组成单位,是标志的直接承担者。因此【A.在国营企业这个总体下,每个国营企业就是总体单位 D.在全部工业产品这个总体下,每一个工业产品就是总体单位】 2.在全国人口普查中【B.每个人是总体单位 C.年龄是变量 E.具有大专以上文化程度的人数是指标】 3.有三个学生,其统计学原理成绩分别是60分、70分、80分。这三个数字是【C.数量标志表现 D.标志值 E.变量值】 4.要了解某市商业企业经营状况,则统计指标是【A.该市商业企业个数 B.该市商业职工数 D.该市商业企业销售额】 5.在对工业企业生产设备的调查中【B.工业企业的全部生产设备是调查对象 C.每台生产设备是调查单位 E.每个工业企业是填报单位】 6.在统计调查中【C.调查时限是调查工作起止的期限 D.抽样调查与典型调查的根本区

区间估计和误差计算

(二)区间估计 区间估计是指用样本指标、抽样误差和概率所构造的区间以估计总体指标存在的可能范围。 在进行区间估计的时候,根据所给定的条件不同,总体平均数和总体成数的估计有两条模式可供选择: 第一套:给定置信度要求,去推算抽样误差的可能范围。 第二套:根据已给定的抽样误差范围,求出概率保证程度。 1. 总体平均数的区间估计 按照第一套模式,根据置信度F t ()的要求,估计极限抽样误差的可能范围)(???或p x ,并指出估计区间(置信区间)。具体步骤是: (1)抽取样本,并根据调查所得的样本单位标志值,计算样本平均数x ;计算样本标准差;在大样本下用以代替总体标准差推算抽样平均误差μ。 (2)根据给定的置信度F t ()的要求,查《正态分布概率表》,求得概率度t 值。 (3)根据概率度t 和抽样平均误差μx 计算极限抽样误差的可能范围μx x t =?,并据以计算置信区间的上下限。 例14 麦当劳餐馆在7周内抽查49位顾客的消

费额(元)如下,求在概率95%的保证下,顾客平均消费额的置信区间。 15 24 38 26 30 42 18 30 25 26 34 44 20 35 24 26 34 48 18 28 46 19 30 36 42 24 32 45 36 21 47 26 28 31 42 45 36 24 28 27 32 36 47 35 22 24 32 46 26 第一步:根据样本计算样本平均数和标准差: x x n ==∑32 (元) S n x x ==-∑2 945().(元),用样本标准差代替总体 标准差σ=945.(元) 样本平均误差 x n μσ ===94549135..(元)

最新《统计学原理》常用公式汇总及计算题目分析

《统计学原理》常用公式汇总及计算题目分析 第一部分常用公式 第三章统计整理 a)组距=上限-下限 b)组中值=(上限+下限)÷2 c)缺下限开口组组中值=上限-1/2邻组组距 d)缺上限开口组组中值=下限+1/2邻组组距 第四章综合指标 i.相对指标 1.结构相对指标=各组(或部分)总量/总体总量 2.比例相对指标=总体中某一部分数值/总体中另一部分数值 3.比较相对指标=甲单位某指标值/乙单位同类指标值 4.强度相对指标=某种现象总量指标/另一个有联系而性质不同的现 象总量指标 5.计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii.平均指标

1.简单算术平均数: 2.加权算术平均数或 iii.变异指标 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差: 重复抽样: 不重复抽样: 2.抽样极限误差 3.重复抽样条件下: 平均数抽样时必要的样本数目

成数抽样时必要的样本数目 4.不重复抽样条件下: 平均数抽样时必要的样本数目 第七章相关分析 1.相关系数 2.配合回归方程y=a+bx 3.估计标准误: 第八章指数分数 一、综合指数的计算与分析 (1)数量指标指数

此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 ( - ) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数 此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。 ( - ) 此差额说明由于质量指标的变动对价值量指标影响的绝对额。 加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析 相对数变动分析: = × 绝对值变动分析:

数理统计 区间估计

区间估计 教程 一、复习,1:正态总体情况三大抽样分布结论 2:点估计两种基本方法 二、定义区间估计 总体()~,X F x θ,样本()1,...,n X X ,找出两个统计量1T 和2T ,使得总体的真实参数为θ的时候,区间[1T ,2T ]包含θ的概率为某个给定的水平1α-(置信水平) 例题1:已知总体()2 0~,X N a σ,20σ已知而a 未知,样本()1,...,n X X ,求a 的置信水 平95%的估计区间 解答:()((20~,~(0,1) 1.9695%n n X N a X a N P X a σ??→-→-≤= ??? 95%95% n n P X a P X a ?? →-≤=→-≤-≤= ?? 95% n n P X a X ? →--≤-≤-+= ? 95% n n P X a X ? →-≤≤+= ? 这说明,未知参数a 落在随机区间 n n X X ? -+??的概率为95%, n n X X ?-+??的一个观察区间n n x x ? -+?? 包含真实未 知参数a 的置信水平95% 模拟:假定包装机械包装白糖总量各种可能() 2 ~1,0.05X N 斤,用matlab 模拟容量为 25的对应样本观察 sampleobservation=normrnd(1,0.05,1,25) %这里客观的未知a 是1,已知2 200.05σ= sampleobservation = 0.978371759423589 0.916720781088095 1.00626661532374 1.01438382101793 0.942676432465927 1.05954577328215 1.05945821008261 0.998118336170334 1.01636461807043 1.00873195714105 0.990664571115928 1.03628952741467 0.970584172849291 1.10915929090986 0.993180205845670 1.00569656567604

统计学原理模拟题

统计学原理模拟试题 一、填空 1.统计工作和统计资料之间是(统计过程与统计结果)的关系,统计学和统计工作之间是(统计理论与统计实践)的关系。 2.统计表中,宾词配置方式有(平行设置)和(层叠设置)两种。 3.总体参数估计有(点估计)和(区间估计)两种方法。 4.进行工业生产设备普查时,调查单位是(每台生产设备),报告单位是(工业企业)。 5.调查资料准确性的检查方法有(逻辑性检查)和(计算检查)。 6.根据分组标志的不同,分配数列可分为(品质分配数列)和(变量数列)。 7.总量指标按其反映时间状态不同分为(日期指标)和(时点指标)。 8.各年末商品库存量数列属于(时期)数列,各年的基建投资额数列属于(时点)数列。 9.统计研究运用大量观察法是由于研究对象的(大量性)和(复杂性)。 10.统计调查根据(被研究总体的范围)可分为全面调查和非全面调查,根据(调查登记时间是否)否可分为连续调查和不连续调查。 11任何一个统计分布都必须满足(多组频率大于0)和(各组频率之和等于100%)两个条件。 12.相关分析研究的是(相关)关系,它所使用的分析指标是(相关系)。 中楼阁 13.根据时间间隔相等的时期数列计算序时平均数时应采用(简单算术平均)方法。根据时间间隔相等的时点数列计算序时平均数时应采用(首末折半)方法。 14.某市城镇房屋普查中,统计总体是(城镇所属房屋)、总体单位是(每一座房屋)。 15.统计报表按填报单位不同可分为(基层报表)和(综合报表)。 16总量指标按其反映现象总体内容不同分为(总体单位总量)和(总体标志总量)。17.销售利润率指标属于(结构)相对指标,成本利润率属于(强度)相对指标。 20.本期定基发展速度与前一期定期发展速度之比等于(环比发展速度),本期累计增长 18.普查的对象主要是(时点)现象,因而要求统一规定调查资料所属的(标准时间)。 19.按照资料汇总特点不同,普查可分为(一般普查)和(快速普查)两种形式。 20.根据相关密切程度的判断标准,0.5<|V|<0.8时称为(显著相关),0.8<|V|<1时称为(高度相关)。 21.统计总指数的计算形式有(综合指标)和(平均指标)。 22.社会经济现象发展的动态分析主要包括(水平分析)和(速度分析)两部分。 二、单项选择题 1.有20个工人看管机器台数资料如下:25443434422434634524,如按以上资料编制分配数列应采用(A) A.单项式分组 B.等距分组 C.不等距分组 D.以上几种分组均可以 2.将某地区国有企业按利润计划完成程度分为以下四组,正确的是(C) A.第一种,80%—90% 90%—99% 100%—109% 110%以上 B.第二种,80%以下80.1%—90% 90.1%—100% 100.1%—110 110%以上 C.第三种,80%以上80%—90% 90%—100% 100%—110% 110%以上 D.第四种,85%以下85%—95% 95%—105% 105%—115% 115%以上 3.我国人口中,男女人口的性别比为1.6:100,这是(A) A.比例相对指标 B.比较相对指标 C.强度相对指标 D.平均指标 4.用标准差比较,分析两个同类总体平均指标的代表性的前提条件是(B)

统计学原理试题及答案解析

统计学原理试题(6) 一、单项选择题:(每小题1分,共20分) 1.设某地区有200家独立核算的工业企业,要研究这些企业的产品生产情况, 总体是( )。 A.每一家工业企业 B.200家工业企业 C.每一件产品 D.200家工业企业的全部工业产品 2.有600家公司每位职工的工资资料,如果要调查这些公司的工资水平情 况,则总体单位是()。 A.600家公司的全部职工 B.600家公司的每一位职工 C.600家公司所有职工的全部工资 D.600家公司每个职工的工资 3.一个统计总体()。 A.只能有一个指标 B.可以有多个指标 C.只能有一个标志 D.可以有多个标志 4.以产品等级来反映某种产品的质量,则该产品等级是()。 A.数量标志 B.品质标志 C.数量指标 D.质量指标 5.在调查设计时,学校作为总体,每个班作为总体单位,各班学生人数是()。 A.变量值 B.变量 C.指标值 D.指标 6.年龄是()。 A.变量值 B.连续型变量 C.离散型变量 D. 连续型变量,但在实际应用中常按离散型处理 7.人口普查规定统一的标准时间是为了()。 A.登记的方便 B.避免登记的重复与遗漏 C.确定调查的范围 D.确定调查的单位 8.以下哪种调查的报告单位与调查单位是一致的()。 A.职工调查 B.工业普查 C.工业设备调查 D.未安装设备调查 9.通过调查大庆、胜利、辽河等油田,了解我国石油生产的基本情况。这 种调查方式是()。 A.典型调查 B.抽样调查 C.重点调查 D.普查 10.某市进行工业企业生产设备普查,要求在10月1日至15日全部调查完 毕,则这一时间规定是()。 A.调查时间 B.登记期限 C.调查期限 D.标准时间 11.统计分组的关键问题是()。 A.确定分组标志和划分各组界限 B.确定组距和组中值 C.确定组距和组数 D.确定全距和组距

《统计学原理》习题集(附答案解析)

《统计学原理习题集》

第一章绪论 复习思考题 1.从统计工作的产生和发展说明统计工作的性质和作用。 2.试说明统计工作与统计学的关系。 3.我国统计工作的基本任务是什么? 4.试述统计学的研究对象和性质。 5.解释并举例说明下列概念: 统计总体、总体单位、标志、统计指标、变异、变量。 6.试说明标志与指标的区别和联系。 练习题 一、填空题: 1.统计总体的特征可概括成、和。 2.统计学的发展史有三个起源,即技术学派、及数理统计学派。 3.统计研究的基本方法有、统计分组法和三种方法。 4.在现实生活中,“统计”一词有三种涵义,即、及 统计学。 5.统计的作用主要体现在它的三大职能上,即信息职能、及。 6.从认识的特殊意义上看,一个完整的统计过程,一般可分为四个阶段,即、统计调查、及。 7. 当某一标志的具体表现在各个总体单位上都相同时,则为。 8. 当某一标志的具体表现在各个总体单位上不尽相同时,则为。 9. 同一变量往往有许多变量值,变量按变量值是否连续可分为和。 10. 凡是客观存在的,并在某一相同性质基础上结合起来的许多个别事物

组成的整体,我们称之为。 二、单项选择题: 1. 要了解某市工业企业的技术装备情况,则统计总体是()。 A、该市全部工业企业 B、该市每一个工业企业 C、该市全部工业企业的某类设备 D、该市工业企业的全部设备 2. 对交院学生学习成绩进行调查,则总体单位是()。 A、交院所有的学生 B、交院每一位学生 C、交院所有的学生成绩 D、交院每一位学生成绩 3. 对全国城市职工家庭生活进行调查,则总体单位是()。 A、所有的全国城市职工家庭 B、所有的全国城市职工家庭生活 C、每一户城市职工家庭 D、每一户城市职工家庭生活 4. 对全国机械工业企业的设备进行调查,则统计总体是()。 A、全国所有的机械工业企业 B、全国所有的机械工业企业的设备 C、全国每一个机械工业企业 E、全国每一个机械工业企业的设备 5. 对食品部门零售物价进行调查,则总体单位是()。 A、所有的食品部门零售物 B、每一个食品部门零售物 C、所有的食品部门零售物价 D、每一个食品部门零售物价

极限抽样误差和区间估计

极限抽样误差和区间估计.txt懂得放手的人找到轻松,懂得遗忘的人找到自由,懂得关怀的人找到幸福!女人的聪明在于能欣赏男人的聪明。生活是灯,工作是油,若要灯亮,就要加油!相爱时,飞到天边都觉得踏实,因为有你的牵挂;分手后,坐在家里都觉得失重,因为没有了方向。《极限抽样误差和区间估计》教案 2008-11-04 10:46:00 -------------------------------------------------------------------------------- 佘山成人学校沈玉霞 教学目标:1.掌握极限抽样误差的计算及在区间估计中的应用; 2.能理论联系实际进行模拟区间估计。 教学重点:1.极限抽样误差的计算; 2.区间估计方法的应用。 教学难点:模拟区间估计 教学方式:讲练结合 教学过程: 一、复习: 同学们,上节课我们学习了抽样误差,知道了,它是因抽样的随机性而产生的样本指标和总体指标之间的平均离差,它有两种形式即平均数抽样平均误差和成数的抽样平均误差,又由于抽样的方法不同分重复抽样和不重复抽样。现有一小题,请同学们计算一下它的抽样平均误差(出示小黑板)引出公式: 大家都知道,我们学习抽样调查,其中一个重要作用就是用样本指标来推断总体指标,那么为了使所推断的总体指标不会超出某一给定的抽样误差范围,这节课我们将学习“极限抽样误差和区间估计” 板书:第四节极限抽样误差和区间估计 二、新授

1、导入:生活中我们可以观察到这样的片断,“统一100方便面”的外包装上印有:净含量每包100g±5g,5 g即是它的极限抽样误差。表示每包方便面的重量在95 g—105g之间。如果扩大抽样误差范围,将能提高抽样推断的可信度,当方便面的净含量为100g±10g时,区间范围变大的,把握程度也大大提高了,因为包括在这个范围的方便面的数目增多了。 2、讲解:极限抽样误差的概念──样本指标和总体指标之间的抽样平均误差的可能范围称作极限抽样误差,用大写的希腊字母“Δ”表示,Δx表示平均数的极限抽样误差,Δp表示成数的极限抽样误差。由于总体指标是一个确定的量,抽样指标围绕总体指标上下变动,所以极限抽样误差从正负两个方面为抽样指标与总体指标之间划定了可能的误差范围。 即:x-Δx≤x≤x+Δx p—Δp≤p≤p+Δp 但在区间估计中,总体指标是未知的,而抽样指标是已知的。因而抽样极限误差的实际意义是总体指标落在样本指标的误差范围内,即: x-Δx≤X≤x+Δx p—Δp≤P≤p+Δp 3、讲解:抽样估计的可靠程度───极限抽样误差只是指定了总体指标落在抽样指标范围的一个可能的误差范围内。也就是说,总体指标可能在这个误差范围之内,也可能不在这个范围之中。那么,落在这个范围中的可能性有多大?这就要求我们在考虑了抽样误差可能范围的同时,还要研究抽样估计的可靠程度,对抽样估计的结果给予一定的概率保证。 数理统计已证明: 当极限抽样误差Δ为1?时把握程度为68.27% 当极限抽样误差Δ为2?时把握程度为95.45% 当极限抽样误差Δ为3?时把握程度为99.73% 这里扩大或缩小抽样误差范围的倍数叫概率度,用“t”表示,即上例中的1、2、3,所以说,所谓极限抽样误差即是t倍的抽样误差。 数量关系式:Δ=t·? 举例1、平均数极限抽样误差“Δx”与区间估计“x±Δx” 公式: x-Δx≤X≤x+Δx

相关文档
最新文档