统计学第七章、第八章

合集下载

《统计学》完整袁卫-贾俊平PPT课件

定比数据
定距测定的量可以进行加或减的运算，但却不能进行乘或除的运算。
也称比率数据，是比定距数据更高一级的定量数据。它不仅可以进行加减运算，而且还可以作乘除运算。
如产量、产值、固定资产投资额、居民
货币收入和支出、银行存款余额等。
精品ppt
11
统计数据四个层次的概括
测定层次特征
运算功能举例
1. 定类测定分类
计数
产业分类
2. 定序测定分类；排序计数；排序企业等级
3. 定距测定分类；排序；计数；排序；温度
有基本测量单位加减
4. 定比测定分类；排序；计数；排序；商品销售
有基本测量单位；加减
额
有绝对零点乘除
精品ppt
12
4. 截面数据和时间序列数据
截面数据：所搜集的不同单位在同一时间的数据。例如，所有上市公司公布的2004年年度的净利润。
（三）数据的类型
1. 定性数据和定量数据定性数据：用文字描述的。
如在本章的“统计引例”中消费者对永美所提供服务的总体评价等都属于文字描述的定性数据。
精品ppt
8
定量数据：用数字描述的。
如企业的净资产额、净利润额等。 2. 离散型数据和连续型数据
变量若我们所研究现象的属性和特征的具体表现在不同时间、不同空间或不同单位之间可取不同的数值，则可称这种数据为变量。
定序数据，也称序列数据，是对事物所具有的属性顺序进行描述。
例如，对企业按经营管理的水平和取得的效益划分为一级企业、二级企业等。
精品ppt
10
定距数据
也称间距数据，是比定序数据的描述功能更好一些的定量数据。
如10℃、20℃等。它不仅有明确的高低之分，而且可以计算差距，如20℃比 10℃高10℃，比5℃高15℃等。

统计学重点

第一章1、数据类型：按照所采用的计量尺度不同，我们将数据分为：分类数据（归于某一类别的非数字型数据，ex:血型），顺序数据（有序类别的非数据型数据，ex:喜好，产品等级），数值型数据（按照数字尺度测量的观测值）2、统计量：用来描述样本特征的概括性数字度量，它是根据样本数据计算出来的一些量，是样本的函数，样本统计量通常用小写英文字母表示，若存在未知变量就不是统计量。

第二章1、概率抽样（随机抽样）：（1）特点：按一定的概率以随机原则抽取样本（抽取样本时使每个单位都有一定的机会被抽中）。

每个单位被抽中的概率是已知的，或是可以计算出来的。

当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率（2）简单随机抽样：体现在每一个样本点的选取上（简单直观方便，但是效率低）（3）分层抽样：适用于总体差距大，体现在每一层样本点选取上（精度最高）（4）系统抽样：第一个样本点的选取是随机的（简单，提高精度，但是方差估计难）（5）整群抽样：要求：群集间互斥且周延，群集与群集间差异小，群集内类似总体每一群的选取是随机的（简单，相对集中，方便，但是精度较差）（6）多阶段抽样：先抽取群，但并不是调查群内的所有单位，而是再进行一步抽样，从选中的群中抽取出若干个单位进行调查。

2、非概率抽样（1）抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查（2）有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式3、比较：4、抽样误差：所有样本可能的结果与总体真值之间的平均性差异影响因素：样本量的大小、总体的变异性第三章1、数据审核：（1）原始数据：完整性，准确性；（2）二手数据：适用性，时效性，确认是否有必要做进一步的加工整理2、分类数据的图示：（1）条形图：主要反映分类数据的频数分布（2）帕累托图：各类别数据出现的频数多少排序的柱形图，用于展示分类数据分布。

（3）饼图：主要用于表示样本或总体中各组成部分所占的比例，用于研究结构性问题。

统计学各章计算题公式及解题方法

统计学各章计算题公式及解题方法第四章数据的概括性度量1.组距式数值型数据众数的计算：确定众数组后代入公式计算:下限公式：；上限公式：,其中，L为众数所在组下限，U为众数所在组上限，为众数所在组次数与前一组次数之差，为众数所在组次数与后一组次数之差，d为众数所在组组距2.中位数位置的确定：未分组数据为；组距分组数据为3.未分组数据中位数计算公式：4.单变量数列的中位数:先计算各组的累积次数（或累积频率）—根据位置公式确定中位数所在的组-对照累积次数（或累积频率）确定中位数（该公式假定中位数组的频数在该组内均匀分布)5.组距式数列的中位数计算公式:下限公式：；上限公式：，其中，为中位数所在组的频数，为中位数所在组前一组的累积频数,为中位数所在组后一组的累积频数6.四分位数位置的确定：未分组数据：；组距分组数据：7.简单均值：8.加权均值：，其中，为各组组中值统计学各章计算题公式及解题方法9.几何均值(用于计算平均发展速度）：10.四分位差（用于衡量中位数的代表性)：11.异众比率（用于衡量众数的代表性）:12.极差：未分组数据:；组距分组数据：13.平均差（离散程度)：未分组数据：；组距分组数据:14.总体方差：未分组数据：；分组数据:15.总体标准差：未分组数据：;分组数据:16.样本方差:未分组数据:；分组数据：17.样本标准差：未分组数据：;分组数据：18.标准分数:19.离散系数：第七章参数估计1.的估计值:置信水平α90％0.1 0。

05 1.65495% 0。

05 0.025 1.9699% 0.01 0。

005 2。

58统计学各章计算题公式及解题方法2.不同情况下总体均值的区间估计：总体分布样本量σ已知σ未知大样本（n≥30）正态分布小样本（n<30）非正态分布大样本(n≥30）其中，查p448 ，查找时需查n—1的数值3.大样本总体比例的区间估计：4.总体方差在置信水平下的置信区间为：5.估计总体均值的样本量：，其中，E为估计误差6.重复抽样或无限总体抽样条件下的样本量：，其中π为总体比例第八章假设检验1.总体均值的检验（已知或未知的大样本）[总体服从正态分布，不服从正态分布的用正态分布近似］假设双侧检验左侧检验右侧检验假设形式已知统计量未知拒绝域值决策，拒绝2.总体均值检验（未知，小样本，总体正态分布）假设双侧检验左侧检验右侧检验统计学各章计算题公式及解题方法假设形式已知统计量未知拒绝域值决策，拒绝注：已知的拒绝域同大样本3.一个总体比例的检验（两类结果，总体服从二项分布，可用正态分布近似）（其中为假设的总体比例）假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝4.总体方差的检验(检验）假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策，拒绝5.统计量的参考数值0.1 0。

医学统计学第七、八章假设检验的基本概念和t检验

S x 1 − x 2 为两样本均数差值的标准误
Sx −x
1
2
⎛1 1⎞ ⎟ = S ⎜ + ⎜n n ⎟ 2 ⎠ ⎝ 1
2 c
在两总体方差相等的条件下，可将两方差合并，求合并方差(pooled variance) S c2
2 ⎡ ( Σ x1 ) ⎤ 2 ⎢ Σ x1 − ⎥ + n1 ⎦ ⎣ = n1 − 1 + 2 ⎡ ( Σx2 ) ⎤ 2 ⎢Σ x2 − ⎥ n2 ⎦ ⎣ n2 − 1
t 检验的应用条件:
① 单样本t检验中，σ 未知且n 较小，样本取自正态总体； ② 两小样本均数比较时，两样本均来自正态分布总体，两样本的总体方差相等；若两总体方差不齐可用t’检验； ③ 两大样本均数比较时，可用Z检验。
1、样本均数与总体均数比较的 t 检验
• 使用范围：用于样本均数与已知总体均数（一般为理论值、标准值或经过大量观察所得的稳定值等）的比较。 • 分析目的：推断样本所代表的未知总体均数 μ 与已知总体均数 μ0有无差别。 • 若 n 较大，则 tα .ν ≈ tα .∞ , 可按算得的 t 值用 v = ∞ 查 t 界值表( t 即为 Z )得P值。
回到例子:
2.计算统计量
已知μ0＝ 3min，n＝50, X=4min
4−3 t= = 4 .7140 1 .5 / 50
υ = 50 − 1 = 49
3、确定 P 值，作出统计推断根据算出的检验统计量如 t、z 值，查相应的界值表，即可得到概率 P。 P值是在H0成立前提下，抽得比现有样本统计量更极端的统计量值的概率。 P值越小只能说明：作出拒绝H0 ，接受 H1的统计学证据越充分。
X −μ X −μ 用公式：t = 或z = σX SX

统计学(第六版)贾俊平-课后习题及答案

目录第一章P10 (1)第二章P34 (2)第三章P66 (3)第四章P94 (8)第七章P176 (11)第八章Ｐ212 (15)第10 章Ｐ258 (17)第11 章Ｐ291 (21)第13 章P348 (26)第14 章P376 (30)第一章P10一、思考题1.1什么是统计学？1.2解释描述统计和推断统计。

1.3统计数据可分为哪几种类型？不同类型的数据各有什么特点？1.4解释分类数据、顺序数据和数值型数据的含义。

1.5举例说明总体、样本、参数、统计量、变量这几个概念。

1.6变量可分为哪几类？1.7举例说明离散型变量和连续型变量。

1.8请举出统计应用的几个例子。

1.9请举出应用统计的几个领域。

1.1 指出下面变量的类型：（1）年龄（2）性别（3）汽车产量（4）员工对企业某项改革措施的态度（赞成、中立、反对）（5）购买商品时的支付方式（现金、信用卡、支票）（1）数值型变量。

（2）分类变量。

（3）离散型变量。

（4）顺序变量。

（5）分类变量。

1.2 某研究部门准备抽取 2000 个职工家庭推断该城市所有职工家庭的年人均收入。

要求：（1）描述总体和样本。

（2）指出参数和统计量。

（1）总体是该市所有职工家庭的集合；样本是抽中的 2000 个职工家庭的集合。

（2）参数是该市所有职工家庭的年人均收入；统计量是抽中的 2000 个职工家庭的年人均收入。

1.3 一家研究机构从 IT 从业者中随机抽取 1000 人作为样本进行调查，其中 60%的人回答他们的月收入在5000 元以上，50%的人回答他们的消费支付方式是用信用卡。

回答下列问题：（1）这一研究的总体是什么？（2）月收入是分类变量、顺序变量还是数值型变量？（3）消费支付方式是分类变量、顺序变量还是数值型变量？（4）这一研究涉及截面数据还是时间序列数据？（1）总体是所有 IT 从业者的集合。

（2）数值型变量。

（3）分类变量。

（4）截面数据。

1.4 一项调查表明，消费者每月在网上购物的平均花费是 200 元，他们选择在网上购物的主要原因是“价格便宜”。

统计学第七章、第八章课后题答案

统计学复习笔记第七章参数估计一、思考题1．解释估计量和估计值在参数估计中，用来估计总体参数的统计量称为估计量。

估计量也是随机变量。

如样本均值，样本比例、样本方差等。

根据一个具体的样本计算出来的估计量的数值称为估计值。

2．简述评价估计量好坏的标准（1）无偏性：是指估计量抽样分布的期望值等于被估计的总体参数。

（2）有效性：是指估计量的方差尽可能小。

对同一总体参数的两个无偏估计量，有更小方差的估计量更有效。

（3）一致性：是指随着样本量的增大，点估计量的值越来越接近被估总体的参数。

3．怎样理解置信区间在区间估计中，由样本统计量所构造的总体参数的估计区间称为置信区间。

置信区间的论述是由区间和置信度两部分组成。

有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），并不说明置信度，也不给出被调查的人数，这是不负责的表现。

因为降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。

在公布调查结果时给出被调查人数是负责任的表现。

这样则可以由此推算出置信度（由后面给出的公式），反之亦然。

4．解释95%的置信区间的含义是什么置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率。

也就是说，无穷次重复抽样所得到的所有区间中有95%（的区间）包含参数。

不要认为由某一样本数据得到总体参数的某一个95%置信区间，就以为该区间以0.95的概率覆盖总体参数。

5．简述样本量与置信水平、总体方差、估计误差的关系。

1. 估计总体均值时样本量n 为2. 样本量n 与置信水平1-α、总体方差、估计误差E 之间的关系为其中： 2222α2222)(E z n σα=n z E σα2=▪ 与置信水平成正比，在其他条件不变的情况下，置信水平越大，所需要的样本量越大；▪ 与总体方差成正比，总体的差异越大，所要求的样本量也越大；▪ 与与总体方差成正比，样本量与估计误差的平方成反比，即可以接受的估计误差的平方越大，所需的样本量越小。

统计学基础复习提纲复习内容统计数据数据搜集

统计学基础复习提纲复习内容：第一章：统计数据；第二章；数据搜集；第四章：数据分布特征的测度；第五章：抽样与参数估计；第六章：假设检验；第七章：相关与回归分析；第八章：时间序列分析和预测：第九章：指数。

重点内容：第一章统计和数据（1）统计的概念和应用（2）统计数据类型：分类数据、顺序数据、数值型数据；观测数据和实验数据；截面和时间序列数据。

（3）统计中的基本概念：总体与样本；参数与统计量；变量。

第二章数据搜集（1）数据来源：直接来源和间接来源（2）调查设计：调查方案设计和调查问卷设计（3）统计数据质量第四章数据分布特征的测度（1）集中趋势的测度：平均数；中位数和分位数；众数（2）离散程度的度量：极差和四分位差；平均差；方程和标准差；离散系数（3）偏态与峰态度量：偏态系数；峰态系数第五、六章参数估计与假设检验（1）参数估计的基本原理：点估计与区间估计（2）总体均值的区间估计和总体比率的区间估计（3）样本容量的确定（4）假设检验的基本原理：原假设与备择假设；两类错误与显著性水平；检验统计量与拒绝域。

（5）总体均值的检验：大样本检验方法；小样本检验方法。

第七章相关与回归分析（1）变量间关系度量：相关关系的描述和测度；散点图与离散系数。

（2）一元线性回归：一元线性回归模型；参数的最小二乘估计；回归方程的拟合优度；显著性检验。

（3）利用回归房产进行估计和预测第八章时间序列分析与预测（1）时间序列的分解和描述：图形描述；增长率分析（2）预测方法的选择和估计（3）平稳序列的预测：移动平均法；指数平滑法（4）趋势序列的预测：线性趋势预测；非线性趋势预测平均数：x 二2 4 10 11| 14 151096 9.610(2-9.6)2(4-9.6)2 川(15-9.6)2n -110-12、一家公司在招收职员时，首先要进行两项能力测试。

在A 测试中，其平均分数是100分, 标准差是15分；在B 项测试中，其平均数是 400分，标准分数是50分。

统计学第八章

19
8.1.3 两类错误
项目
没有拒绝H0
拒绝H0
H0为真
1-α（正确）
α（弃真错误）
H0为假
β（取伪错误）
1-β（正确）
假设检验中各种可能结果的概率
20
8.1.3 两类错误
α和β的关系： 1、 α和β的关系就像跷跷板， α小β就大， α大β就小。因为，要减少弃真错误α，就要扩大接受域。而扩大接受域，就必然导致取伪错误的可能性增加。因此，不能同时做到犯两种错误的概率都很小。要使α和β同时变小，唯一的办法就是增大样本量。 α和β两者的关系就像是区间估计当中可靠性和精确性的关系一样。 2、在假设检验中，大家都在执行这样一个原则，即首先控制犯α错误原则。
一般来说，在研究问题的过程中，我们想要予以反对的那个结论，我们就把它作为原假设。
比如，一家研究机构估计，某城市当中家庭拥有汽车的比例超过 30%。为了验证这种估计是否正确，该研究机构随机的抽取了一个样本进行检验。试陈述用于检验的原假设和备择假设。
解：研究者想要收集证据予以支持的假设是：“该城市中家庭拥有汽车的比例超过30%”。因此，原假设是总体比例小于等于30%，备择假设是总体比例大于30%。可见，通常我们应该先确定备择假设，再确定原假设。
6
8.1.2 假设的表达式
在假设检验中，一般要先设立一个假设（比如从来没做过坏事），然后从现实世界的数据中找出假设与现实的矛盾，从而否定该假设。所以，在多数统计教材当中，假设检验都是以否定事先设定的那个假设为目标的。
如果搜集到的数据分析结构不能否定该假设，只能说明我们掌握的现实不足以否定该假设，但不能说明该假设一定成立。这是假设检验做结论的时候尤其要注意的一点。比如一个人在数次的观察中都没有干坏事，但并不说明他从来都没干过坏事。

统计学课后练答案

第七章参数估计(1)x σ==(2)2x z α∆==1.96=某快餐店想要估计每位顾客午餐的平均花费金额。

在为期3周的时间里选取49名顾客组成了一个简单随机样本。

(1)假定总体标准差为15元，求样本均值的抽样标准误差。

x σ=== (2)在95％的置信水平下，求估计误差。

x x t σ∆=⋅，由于是大样本抽样，因此样本均值服从正态分布，因此概率度t=z α 因此，x x t σ∆=⋅x z ασ=⋅0.025x z σ=⋅=×=(3)如果样本均值为120元，求总体均值的95％的置信区间。

置信区间为：2x z x z αα⎛-+ ⎝=()120 4.2,120 4.2-+=（，）2x z x z αα⎛-+ ⎝=104560±（,）从总体中抽取一个n=100的简单随机样本,得到x =81，s=12。

要求：大样本，样本均值服从正态分布：2,x N n σμ⎛⎫ ⎪⎝⎭:或2,s x N n μ⎛⎫⎪⎝⎭:置信区间为：22x z x z αα⎛-+ ⎝， (1)构建μ的90％的置信区间。

2z α=0.05z =，置信区间为：()81 1.645 1.2,81 1.645 1.2-⨯+⨯=（，） (2)构建μ的95％的置信区间。

2z α=0.025z =，置信区间为：()81 1.96 1.2,81 1.96 1.2-⨯+⨯=（，） (3)构建μ的99％的置信区间。

2z α=0.005z =，置信区间为：()81 2.576 1.2,81 2.576 1.2-⨯+⨯=（，）（1）2x z α±=25 1.96±（，）（2）2x z α±=119.6 2.326±=（，）（3）2x z α±=3.419 1.645±（，）（1）2x z α±=8900 1.96±=（，）（2）2x z α±=8900 1.96±=（，）（3）2x z α±=8900 1.645±=（，）（4）2x z α±=8900 2.58±=（，）某大学为了解学生每天上网的时间，在全校7 500名学生中采取重复抽样方法随机抽取36人，调查解：（1）样本均值x =，样本标准差s=1α-=，t=z α=0.05z =，xz α±=3.32 1.645±（，） 1α-=，t=z α=0.025z =，x z α±=3.32 1.96±（，）1α-=，t=z α=0.005z =，x zα±=3.32 2.76±（，）2x t α±=10 2.365±=,某居民小区为研究职工上班从家里到单位的距离，抽取了由16个人组成的一个随机样本，他们到单位的距离(单位：km)分别是：10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2假定总体服从正态分布，求职工上班从家里到单位平均距离的95％的置信区间。

统计学知识点(完整)

基本统计方法第一章概论1. 总体（Population ）：根据研究目的确定的同质对象的全体（集合）；样本（Sample ）：从总体中随机抽取的部分具有代表性的研究对象。

2. 参数（Parameter ）：反映总体特征的统计指标，如总体均数、标准差等，用希腊字母表示，是固定的常数；统计量（Statistic ）：反映样本特征的统计指标，如样本均数、标准差等，采用拉丁字字母表示，是在参数附近波动的随机变量。

3. 统计资料分类：定量（计量）资料、定性（计数）资料、等级资料。

第二章计量资料统计描述1. 集中趋势：均数（算术、几何）、中位数、众数2. 离散趋势：极差、四分位间距（QR =P 75-P 25）、标准差（或方差）、变异系数（CV ）3. 正态分布特征：①X 轴上方关于X =μ对称的钟形曲线；②X =μ时，f(X)取得最大值；③有两个参数，位置参数μ和形态参数σ；④曲线下面积为1，区间μ±σ的面积为68.27%，区间μ±1.96σ的面积为95.00%，区间μ±2.58σ的面积为99.00%。

4. 医学参考值范围的制定方法：正态近似法：/2X u S α±；百分位数法：P 2.5-P 97.5。

第三章总体均数估计和假设检验1. 抽样误差（Sampling Error ）：由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。

抽样误差不可避免，产生的根本原因是生物个体的变异性。

2. 均数的标准误（Standard error of Mean, SEM ）：样本均数的标准差，计算公式：/X σσ=3. 降低抽样误差的途径有：①通过增加样本含量n ；②通过设计减少S 。

4. t 分布特征：①单峰分布，以0为中心，左右对称；②形态取决于自由度ν，ν越小，t 值越分散，t 分布的峰部越矮而尾部翘得越高；③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布，故标准正态分布是t 分布的特例。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

统计学复习笔记第七章参数估计一、思考题1．解释估计量和估计值在参数估计中，用来估计总体参数的统计量称为估计量。

估计量也是随机变量。

如样本均值，样本比例、样本方差等。

根据一个具体的样本计算出来的估计量的数值称为估计值。

2．简述评价估计量好坏的标准（1）无偏性：是指估计量抽样分布的期望值等于被估计的总体参数。

（2）有效性：是指估计量的方差尽可能小。

对同一总体参数的两个无偏估计量，有更小方差的估计量更有效。

（3）一致性：是指随着样本量的增大，点估计量的值越来越接近被估总体的参数。

3．怎样理解置信区间在区间估计中，由样本统计量所构造的总体参数的估计区间称为置信区间。

置信区间的论述是由区间和置信度两部分组成。

有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），并不说明置信度，也不给出被调查的人数，这是不负责的表现。

因为降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。

在公布调查结果时给出被调查人数是负责任的表现。

这样则可以由此推算出置信度（由后面给出的公式），反之亦然。

4．解释95%的置信区间的含义是什么置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率。

也就是说，无穷次重复抽样所得到的所有区间中有95%（的区间）包含参数。

不要认为由某一样本数据得到总体参数的某一个95%置信区间，就以为该区间以0.95的概率覆盖总体参数。

5．简述样本量与置信水平、总体方差、估计误差的关系。

1. 估计总体均值时样本量n 为2. 样本量n 与置信水平1-α、总体方差、估计误差E 之间的关系为其中：2222α2222)(E z n σα=nz E σα2=▪ 与置信水平成正比，在其他条件不变的情况下，置信水平越大，所需要的样本量越大；▪ 与总体方差成正比，总体的差异越大，所要求的样本量也越大； ▪ 与与总体方差成正比，样本量与估计误差的平方成反比，即可以接受的估计误差的平方越大，所需的样本量越小。

二、练习题1．从一个标准差为5的总体中采用重复抽样方法抽出一个样本量为40的样本，样本均值为25。

1) 样本均值的抽样标准差等于多少？2) 在95%的置信水平下，估计误差是多少？2．某快餐店想要估计每位顾客午餐的平均花费金额，在为期3周的时间里选取49名顾客组成了一个简单随机样本。

1) 假定总体标准差为15元，求样本均值的抽样标准误差。

2) 在95%的置信水平下，求估计误差。

3) 如果样本均值为120元，求总体均值µ的95%的置信区间。

xx3．从一个总体中随机抽取n =100的随机样本，得到=104560，假定总体标准差σ = 85414，试构建总体均值µ的95%的置信区间。

4．从总体中抽取一个n =100的简单随机样本，得到 =81，s=12。

要求：1）构建µ的90%的置信区间。

2）构建µ的95%的置信区间。

3）构建µ的99%的置信区间。

5．利用下面的信息，构建总体均值的置信区间。

1） = 25，σ = 3.5，n =60，置信水平为95% 2） =119，s =23.89，n =75，置信水平为98% 3） =3.149，s =0.974，n =32，置信水平为90%x x x x x6．利用下面的信息，构建总体均值µ的置信区间：1）总体服从正态分布，且已知σ = 500，n = 15，=8900，置信水平为95%。

2）总体不服从正态分布，且已知σ = 500，n = 35， =8900，置信水平为95%。

3）总体不服从正态分布，σ未知，n = 35， =8900，s =500，置信水平为90%。

4）总体不服从正态分布，σ未知，n = 35， =8900，s =500，置信水平为99%。

x x x x7．某大学为了解学生每天上网的时间，在全校7500名学生中采取重复抽样方法随机抽取36人，调查他们每天上网的时间，得到下面的数据（单位：小时）。

3.3 3.1 6.2 5.8 2.34.15.4 4.5 3.24.4 2.05.4 2.66.4 1.8 3.5 5.7 2.32.1 1.9 1.2 5.1 4.3 4.23.6 0.8 1.54.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5求该校大学生平均上网时间的置信区间，置信水平分别为90%8．从一个正态总体中随机抽取样本量为8的样本，各样本值分别为：10，8，12，15，6，13，5，11。

求总体均值µ的95%置信区间。

9．某居民小区为研究职工上班从家里到单位的距离，抽取了由16个人组成的一个随机样本，他们到单位的距离分别是：10，3，14，8，6，9，12，11，7，5，10，15，9，16，13，2。

假设总体服从正态分布，求职工上班从家里到单位平均距离的95%的置信区间。

10．从一批零件是随机抽取36个，测得其平均长度是149.5，标准差是1.93。

1)求确定该种零件平均长度的95%的置信区间。

2)在上面估计中，你使用了统计中的哪一个重要定理？请解释。

11．某企业生产的袋装食品采用自动打包机包装，每袋标准重量为100克，现从某天生产的一批产品中按重复抽样随机抽取50包进行检查，测得每包重量如下：已知食品包重服从正态分布，要求：1）确定该种食品平均重量的95%的置信区间。

2）如果规定食品重量低于100克属于不合格，确定该批食品合格率的95%的置信区间。

12．假设总体服从正态分布，利用下面的数据构建总体均值μ的99%的置信区间。

（略）13．一家研究机构想估计在网络公司工作的员工每周加班的平均时间，为此随机抽取了18个员工，得到他们每周加班的时间数据如下（单位：小时）：假定员工每周加班的时间服从正态分布，估计网络公司员工平均14．利用下面的样本数据构建总体比例丌的置信区间：1）n =44，p = 0.51 ，置信水平为99%2）n =300，p = 0.82 ，置信水平为95%3）n =1150，p = 0.48，置信水平为90%15．在一项家电市场调查中，随机抽取了200个居民户，调查他们是否拥有某一品牌的电视机，其中拥有该品牌电视机的家庭占23%。

求总体比例的置信区间，置信水平分别为90%和95%。

16．一位银行的管理人员想估计每位顾客在该银行的月平均存款额。

他假设所有顾客月存款额的标准差为1000元，要求的估计误差在200元以内，置信水平为99%。

应选取多大的样本？17．要估计总体比例丌，计算下列条件下所需的样本量。

1）E=0.02，丌=0.40，置信水平96%2）E=0.04，丌未知，置信水平95%3）E=0.05，丌=0.55，置信水平90%18．某居民小区共有居民500户，小区管理者准备采用一项新的供水设施，想了解居民是否赞成。

采取重复抽样方法随机抽取了50户，其中有32户赞同，18户反对。

1）求总体中赞成该项改革的户数比例的置信区间（α=0.05）2）如果小区管理者预计赞成的比例能达到80%，估计误差不超过10%，应抽取多少户进行调查（α=0.05）19．根据下面的样本结果，计算总体标准差σ的90%的置信区间：1）=21，S=2，N=502）=1.3，S=0.02，N=153）=167，S=31，N=2220.顾客到银行办理业务时往往需要等待一段时间，而等待时间的长短与许多因素有关，比如，银行业务员办理业务的速度，顾客等待排队的方式等。

为此，某银行准备采取两种排队方式进行试验，第一种排队方式是：所有顾客都进入一个等待队列；第二种排队方式是：顾客在三个业务窗口处列队三排等待。

为比较哪种排队方式使顾客等待的时间更)如下：要求：(1)构建第一种排队方式等待时间标准差的95％的置信区间。

(2)构建第二种排队方式等待时间标准差的95％的置信区间。

第八章一、思考题1．假设检验和参数估计有什么相同点和不同点？解：参数估计与假设检验是统计推断的两个组成部分。

相同点：它们都是利用样本对总体进行某种推断。

不同点：推断的角度不同。

参数估计讨论的是用样本统计量估计总体参数的方法，总体参数μ在估计前是未知的。

而在假设检验中，则是先对μ的值提出一个假设，然后利用样本信息去检验这个假设是否成立。

2．什么是假设检验中的显著性水平？统计显著是什么意思？解：显著性水平用α表示，在假设检验中，它的含义是当原假设正确时却被拒绝的概率或风险，即假设检验中犯弃真错误的概率。

它是由人们根据检验的要求确定的。

（我理解的统计学意义，统计显著是统计上专用的判定标准，指在一定的概率原则下，可以承认一种趋势或者合理性达到的程度，达到为统计上水平显著，达不到为统计上水平不显著）3．什么是假设检验中的两类错误？解：弃真错误（α错误）：当原假设为真时拒绝原假设，所犯的错误成为第I类错误，又称为弃真错误。

犯第I类错误的概率常记作α。

取伪错误（β错误）：当原假设为假时没有拒绝原假设，所犯的错误称为第II类错误，又称取伪错误。

犯第II类错误概率常记作β。

发生第I类错误的概率也常被用于检验结论的可靠性度量。

假设检验中犯第I类错误的概率被称为显著性水平，记作α。

4．两类错误之间存在什么样的数量关系？在样本容量n一定的情况下，假设检验不能同时做到犯α和β两类错误的概率都很小。

若减小α错误，就会增大犯β错误的机会；若减小β错误，也会增大犯α错误的机会。

要使α和β同时变小只有增大样本容量。

但样本容量增加要受人力、经费、时间等很多因素的限制，无限制增加样本容量就会使抽样调查失去意义。

因此假设检验需要慎重考虑对两类错误进行控制的问题。

5．解释假设检验中的P值。

解：如果原假设为真，所得到的样本结果会像实际观测结果那么极端或更极端的概率，称为P值。

也称为观察到的显著性水平。

P值是反映实际观测到的数据与原假设H0之间不一致程度的一个概率值。

P值越小，说明实际观测到的数据与H0之间不一致程度就越大。

6．显著性水平与P值有何区别？解：α（显著性水平）是一个判断的标准（当原假设为真，却被拒绝的概率)，而P是实际统计量对应分位点的概率值（当原假设为真时，所得到的样本观察结果或更极端结果出现的概率）。

可以通过α计算置信区间，然后与统计量进行比较判断，也可以通过统计量计算对应的p值，然后与α值比较判断。

7．假设检验依据的基本原理是什么？解：假设检验利用的是小概率原理，小概率原理是指发生概率很小的随机事件在一次试验中是几乎不可能发生的。

根据这一原理，可以先假设总体参数的某项取值为真，也就是假设其发生的可能性很大，然后抽取一个样本进行观察，如果样本信息显示出现了与事先假设相反的结果且与原假设差别很大，则说明原来假定的小概率事件在一次实验中发生了，这是一个违背小概率原理的不合理现象，因此有理由怀疑和拒绝原假设；否则不能拒绝原假设。