关于总体均值的统计推断
统计推断1

小概率事件在一次观察中是不应发生的, 但是它现在发生了!!说明了什么? 一个合理的解释就是它本不是“小概率事件”, 是人们把概率算错了,算错的原因就是在 一开始就做了一个错误的假设 米
换句话说,此时应该认为: 即年来男孩的身高有明显增长。
【例2 】某地进行了两个水稻品种对比试验, 在相同条件下,两个水稻品种分别种植10个 小区,获得两个水稻品种的平均产量(kg/亩) 为:
第四章 统计推断
第一节 统计推断概述
研究样本的目的是以各种样本统计量的 抽样分布为基础去推断总体。 如何从一些包含有随机误差,又不完全的信息 中得出科学的、尽可能正确的结论是统计学 要解决的主要问题。
从样本中获得的信息所包含的不确定性,
主要来自以下几个方面:
(1)测量过程引入的随机误差;
(2)取样随机性所带来的变化,由于只取出 少数样品测量,那么取出的这一批样品的测量 结果与抽取另外一批当然会有差别; (3)我们所关心的性质确实发生了某种变化。 显然,只有第三种变化才是我们要检测的。
对于从有误差的实验数据中得出结论的科学工作者
来说,统计学是一种不可或缺的工具。
一、 统计推断的途径
1、 统计假设检验** 2、总体参量估计。
二、假设检验的基本思想 先看两个实例 【例1】 某地区10年前普查时,13岁男孩子的 平均身高是1.51米,现抽查200个12.5~13.5岁 的男孩子,身高平均值为1.53米,标准差为 0.073米,问:10年来该地区男孩身高是否有 明显增长?
3、选择显著性水平与建立拒绝域 (2)建立拒绝域
① 分位数法(临界值法) ② 概率法(P值法) 利用显著性水平(概率值)构成接受域和拒绝域。 根据统计量数值的大小,先计算(或查表)出 (X>统计量数值)出现的概率,这个概率称为P值, 用P值与显著性水平相比较进行判断。
简述以样本均值估计总体均值的理由

估计理论估计理论提供了从样本统计量估计未知总体参数的方法。
样本统计量是某些测量值样本特征的经验性数值量度,不能将样本的经验抽样分布与样本理论抽样分布及总体概率分布混淆。
(回顾:通俗解释“大数据”及推断性统计学:抽样分布)两个概念估计量:指任何一个对总体参数给出估计值的样本统计量,例如样本均值。
估计值:指从某一样本计算得到的估计量的一个具体数值。
点估计对于来自一个测量总体的任何随机样本,如果对随机量(例如:样本的均值、方差或标准差)算得一个具体的数值(某个样本的均值、方差或标准差),用以估计总体的参数(例如:总体的均值、方差或标准差),则该数值称为总体参数(例如:总体的均值、方差或标准差)的一个点估计。
用点估计反映总体参数时,应该给出尽可能多的附加信息,使得便于评价估计值的准确度和精度。
准确度受度量方法和抽样设计影响;精度则由固定容量n的样本标准差决定,标准差越小越精确。
尽管有点估计及其准确度和精度的一些信息,但是仍然未能从样本跳跃到总体,即未能把点估计与待估总体参数联系起来,给出估计对参数的接近程度或确定在估计值中存在多大的可能误差,为了从样本信息推断总体参数,需要用到区间估计。
区间估计区间估计是一个从样本到总体的推断,区间估计将总体参数置于一个实区间上。
区间的边界值由三个因素决定:1、样本点估计值;2、联系总体参数和样本点估计的样本统计量(如Z统计量,做正态变换得到);3、该统计量的抽样分布(例如,样本均值的理论抽样分布服从正态分布,则Z统计量的抽样分布是标准正态分布);总体均值的区间估计公式推导上述推导给出了总体均值的区间估计的概率形式,基于要求:容量为n的单样本来自无限大且标准差已知的正态分布总体。
置信水平在进行数据分析时,经常需要输入置信水平,大多数情况选择95%的置信水平,当然也可以选择其他的置信水平。
什么是置信水平呢?通过上面的公式推导,得到了总体均值区间估计的概率表示:其中的1-α称为置信系数,它的百分数表示形式(1-α)100%称为置信水平。
统计推断中方差分析实现过程的细节注意事项

统计推断中方差分析实现过程的细节注意事项方差分析(Analysis of Variance,ANOVA)是一种常用的统计方法,用于比较两个或多个总体均值是否存在差异。
在统计推断中进行方差分析时,有一些细节和注意事项需要注意。
本文将介绍方差分析的实现过程中需要特别关注的细节。
1. 数据的正态性检验在进行方差分析之前,需要先检验数据是否符合正态分布假设。
常用的正态性检验方法包括Shapiro-Wilk检验、Kolmogorov-Smirnov检验等。
如果数据不符合正态分布假设,可能需要进行数据转换或者考虑使用非参数方法。
2. 方差齐性检验方差齐性是指不同样本之间的方差是否相等。
方差分析是建立在方差齐性的基础上进行的,因此需要进行方差齐性检验。
通常使用Levene检验或Bartlett检验进行方差齐性检验。
如果方差齐性检验结果不显著,说明样本方差不等,可能会影响方差分析的结果,此时需要选择适合的非参数方法。
3. 组间平方和(SSB)和组内平方和(SSW)的计算方差分析的基本思想是将总体的方差分解为组间平方和和组内平方和。
组间平方和反映了不同组之间的差异程度,组内平方和反映了组内个体之间的差异程度。
需要注意的是,计算SSB和SSW时要根据方差齐性的检验结果选择适当的方法。
4. 计算统计量(F值或P值)在方差分析中,常常使用F值或P值来进行假设检验。
F值是组间平方和(SSB)与组内平方和(SSW)的比值,因此可以通过计算F值来判断组间的差异是否显著。
P值是指F值在给定自由度下的概率,通过与显著性水平比较来做出决策。
需要注意的是,在进行多个组间比较时,需要进行适当的多重比较校正。
5. 后续分析如果方差分析结果显示组间存在显著差异,通常需要进行后续分析来确定具体哪些组之间存在差异。
Tukey's HSD检验、Bonferroni法和Duncan多重范围检验等是常用的后续分析方法。
后续分析的目的是通过两两比较来确定特定组之间的差异情况。
统计学单选

1、测量抽样误差最常用的指标是(B)A变异系数B标准差C抽样方差D置信区间2、某企业生产某种产品的产量每年增加十万吨,则该产品产量的环比增长速度(D)A无法得出结论B年年增长C年年保持不变D年年下降3、方差分析是用来判断(B)A数值型自变量对数值型应变量是否有显著影响B数值型自变量对分类型应变量是否有显著影响C分类型自变量对分类型应变量是否有显著影响D分类型自变量对数值型应变量是否有显著影响4、下列各项中不会影响到抽样误差大小的是(C)A样本容量B总体方差C总体均值D抽样方式5、全球各大都市的气温资料,属于何种尺度(D)A顺序尺度B比率尺度C定类尺度D等距尺度6、在其他条件不变的情况下,提高抽样估计的置信水平,其区间范围将(D)A保持不变B随之缩小C无法确定D随之扩大7、随意抽样假定总体是(D)A差异足够大的B没有偏差的C没有差异的D均匀地或随机分布的8、以下说法正确的是(B)A进行回归分析时不需事先确定自变量和因变量B进行相关分析时不需事先确定自变量和因变量C进行回归分析和相关分析时都需事先确定自变量和因变量D进行回归分析和相关分析时都不需事先确定自变量和因变量13、在总体均值的抽样推断中,会影响到必要样本容量的是(C)A样本均值B总体均值C总体方差9、当样本数增加,其他条件不变,总体参数置信区间的长度会(C)A维持不变B增加C减少D有时增加有时减少10、绘制箱线图时,不需要求算哪一个统计量(B)A中位数B平均数C第一个四分位数D最大值11、当调查总体中各单位之间差异较小,或调查对象不明,难以分组,分类时,适用的抽样技术是(D)A系统抽样B配额抽样C分层随机抽样D简单随机抽样12、抽样调查时如果测量的指标很多,那么在确定样本量时应选择(A)清楚选择A变异程度最大的指标B变异程度最小的指标C均值最大的指标D均值最小的指标13、若两个总体均服从正态分布,分别从两个总体中随机抽取样本,则两个样本均值之差服从的分布为(D)A标准正态分布B t分布C正态分布D f分布14、在总体比例估计时,样本量的确定经常要考虑到正态比例的大小,当总体比例未知时,出于谨慎考虑,一般假定总体比例为(D)A 0.25B 0C 0.75D 0.515、若从总体中抽取一个样本,用该样本对某一未知参数所做的一个数值点的估计,称为(B)A区间估计B点估计C普查D抽样16、某校高三年级学生共1000人参加考试,将1000份试卷编号号码后,从中随机抽取30份计算平均成绩,此种抽样方法为(A)A简单随机抽样B系统随机抽样C分层抽样17、为研究北京市城镇居民的收入情况,在北京市城镇居民中随机抽取800户进行调查,计算的到其户均月收入为8180元,此“户均月收入”属于(A)A统计量B样本容量C总体均值D参数18、若要观察现象在某一段时间内变动的基本趋势,需测定现象的(C)A季节变动B不规则变动C长期趋势D循环变动19、时间数列在长时期内呈现出来的某种持续上升或持续下降的变动称为(B)A不规则变动B趋势C季变动D循环波动20、下列各项中描述样本统计量的分布,但不能直接观察到的一种理论分布是(A)A总体分布B样本分布C抽样分布D正态分布21、为获得某批日光灯产品平均寿命数据,现随机从中收取100件产品,测得平均寿命为2000小时,则样本平均数为(B)A 2100小时B 2000小时C 100小时D 1900小时22、计算方差所依据的中心值是(C)A中位数B众数C均值D几何平均数23、某企业为了研究客户满意度,需抽取一些客户进行调查,以便于推断全部客户的满意度,该企业可以采用的调查方法有(C)A配额抽样B方便抽样C分层抽样D判断抽样24、如果要对子总体进行推断,则应采用(B)A整群抽样B简单随机抽样C分层抽样D系统抽样25、一般来说,对于给定的概率把握度(A)A允许误差越小,估计值的精度越高B允许误差越小,估计值的精度越低C允许误差的大小,不影响估计值的精度D允许误差越大,估计值的精度越高26、众数是数据中出现次数或频率最多的数值,所以在定量数列中(B)A只能有一个众数B肯定会有众数C不一定有众数D肯定会有多个众数27、检验统计量实质上是(C)A总体参数B点估计量C标准化后的点估计量D样本均值28、在从一个方差已知的总体中采用同样的方法抽取两个随机样本进行总体均值的统计推断,样本容量分别为50和100,则以此建立的95%置信区间宽度(C)A前者小于后者B两者一样大C前者大于后者D无法确定29、某医师为探索新药A用药方式对机体的影响,将30只兔子按窝别相同,体重相近划分为10组,每组随机采用A,B,C,三种处理方案,这种试验数据方式属于(C)A正交试验B随机区组试验C完全随机试验D拉丁方试验30、需要进行假设检验的原因是(C)A估计方法不合理B样本选择不科学C存在抽样误差D存在偏差31、在纯随机重复抽样下,如果将样本单位数扩大为原来的四倍,则抽样平均误差(A)A缩小一半B扩大四倍C缩小一倍D扩大两倍32、点估计的优良性准则包括一致性,有效性,(B)A真实性B无偏性C准确性D科学性33、简单易懂平均法中的计算方法是对时间数列进行(A)A简单算术平均B加权序时平均C简单序时平均D加权算术平均34、比例与比例方差的关系是(C)A比例的数值越大,比例的方差越大B比例的数值越接近1,比例的方差越大C比例的数值越接近0.5,比例的方差越大D比例的数值越接近0,比例的方差越大35、一般来说,对于给定的概率把握度(D)A允许误差的大小,不影响估计值的精度B允许误差越小,估计值的精度越高C允许误差越小,估计值的精度越低D允许误差越大,估计值的精度越高36、用样本的矩去估计总体的矩,从而获得有关参数的估计量,称之为(D)A最大似然估计法B点估计法C最小二乘法D矩估计法37、在总体参数的区间估计中,能够说明估计可靠程度的是(C)A置信区间B判定系数C置信水平D估计标准误差38、典型相关分析的应用前提是(B)A要求两组变量之间为非线性关系B要求两组变量之间为线性关系C要求任意两个变量之间为非线性关系D要求任意两个变量之间为线性关系39、如果变量x和变量y之间的相关系数为-1,这说明两个变量之间是(A)A完全相关关系B完全不相关C高度相关关系D低度相关关系40、抽样效率是指两个抽样方案在样本容量相同的情况下的(A)A抽样方差之比B样本比例之比C样本均值之比D抽样平均误差之比41、方差分析中的原假设是关于所研究因素的(B)A各水平之间的相关关系是否密切B各水平的理论均值是否相等C各水平总体方差是否相等D同一水平内部数量差异是否显著42、相关系数等于0表示两个变量(C)A存在相关关系B存在线性相关关系C不存在相关关系D不存在线性相关关系43、要检验两正态总体的方差是否相等,需要用(A)A f检验B t检验C z检验D x²检验44、假设检验的目的是(B)A假设原假设成立B收集证据拒绝原假设C假设备择假设成立D收集证据拒绝备择假设45、下面几种抽样方法中,抽样单元和总体基本单元不一致的是(C)A系统抽样B完全随机设计C正交试验设计D随机区组设计46、一个城市的总人口为2500万,其包含5个城区,每个城区的人口大约在500万左右,计划进行一项抽样调查,经计算可知对该城市总人口进行推断的样本量为n。
贾俊平《统计学》第8章 假设检验

备择假设的方向为“ 备择假设的方向为“<”,称为左侧检验 备择假设的方向为“ 备择假设的方向为“>”,称为右侧检验
双侧检验与单侧检验
(假设的形式) 假设的形式)
以总体均值的检验为例
假设
原假设 备择假设
双侧检验
H0 : =0 H1 : ≠0
单侧检验 左侧检验
H0 : ≥0 H1 : <0
右侧检验
提出假设
(结论与建议) 结论与建议)
1. 原假设和备择假设是一个完备事件组,而且 原假设和备择假设是一个完备事件组, 相互对立
在一项假设检验中, 在一项假设检验中, 原假设和备择假设必有一 个成立, 个成立,而且只有一个成立
2. 先确定备择假设,再确定原假设 先确定备择假设, 3. 等号“=”总是放在原假设上 等号“ 4. 因研究目的不同,对同一问题可能提出不同 因研究目的不同, 的假设(也可能得出不同的结论) 的假设(也可能得出不同的结论)
1、某厂生产的化纤度服从正态分布, 纤维度的均值为1.4。某天测得25根纤维的 纤维度的均值为1.4。某天测得25根纤维的 均值为1.39,检验与原来设计的标准均值 均值为1.39,检验与原来设计的标准均值 相比是否有所变化,则假设形式是?
2、某一贫困地区估计营养不良人数高 达20%,然而有人认为这个比例实际上还 20%,然而有人认为这个比例实际上还 要高,要经验该说法是否正确,则假设形 式为?
统计学习题05

2.下面哪些是影响必要样本容量的因素()。
A.总体各单位标志变异程度B.允许的极限误差大小
C.推断的可靠程度D.抽样方法和抽样组织方式
E.样本均值和样本统计量
答案:ABCD
3.评价估计量是否优良的常用标准有( )。
A.无偏性B.有效性
C.准确性D.一致性
E.随机性
答案:ABC
4.点估计( )。
[参考答案]
28.306
2.现有一大批种子,为了估计其发芽率,随机抽取400粒进行发芽试验。结果有15粒每发芽。试以90%的置信度估计这批种子的发芽率。
[参考答案]
[ 0.95 , 0.97 ]
3.设总体X服从参数 的泊松分布,其概率分布率为 ,
x=0,1,2,……试求参数 的极大似然估计量及矩估计量。
A.求每晚睡眠时间总体均值的点估计。
B.假定总体是正态分布,求总体均值的点估计的95%置信区间。
[参考答案]
A.6.86,B.[6.54 , 7.18]
5.在某地方选举进行以前展开的民意测验表明,在随机抽取的121名居民中有65名支持某候选人,试求该候选人支持率的信赖区间。( =5%)
[参考答案]
0.54-0.089=0.451
答案:C
21.已知σ2的1-α置信区间为,该区间也可表示为()。
(D)以上答案都不正确
答案:B
二、多项选择题
1.在区间估计中,如果其他条件保持不变,置信度与精确度之间存在下列关系( )。
A.前者愈低,后者也愈低B. 前者愈高,后者也愈高
C. 前者愈低,后者愈高D.前者愈高,后者愈低
E. 两者呈相反方向变化
3.在进行参数估计时,我们并不是直接用一个个的具体样本之来估计、推断总体参数,而是根据样本构造出一些特定的量,用这些特定量来估计总体参数,这些根据样本构造的特定量就称为样本统计量。在估计过程中,我们把用来推估总体参数的样本统计量称为估计量。
统计学分析
统计学分析统计学分析是指利用统计方法和技术对数据进行整理、描述、分析和解释的过程。
统计学分析广泛应用于各个领域,如社会科学、人文科学、医学、经济学等,在决策制定、问题解决和科学研究中起到至关重要的作用。
本文将简要介绍统计学分析的概念、原理和应用,并进一步探讨其价值和前景。
统计学分析的基本原理在于从大量的数据中提取有用的信息,并通过合适的统计方法对这些信息进行分析和解释。
其核心思想是利用样本来推断总体的特征。
统计学分析主要包括数据收集、数据整理、数据描述、数据分析和结论推断等几个步骤。
数据收集是统计学分析的第一步,它是获取数据的过程。
数据可以通过问卷调查、实地观察、实验设计或者从现有的数据库中获取。
数据收集的关键是保证数据的准确性和可靠性,避免收集到的数据出现偏差。
数据整理是将收集到的原始数据进行整理和清洗的过程。
这个过程包括删除无效数据、处理缺失值、进行数据转换等步骤。
数据整理的目的是为了使数据能够被更好地分析和解读。
数据描述是对数据进行整体性和个体性描述的过程。
通过描述数据的中心趋势、离散程度和分布形式等指标,可以更好地了解数据的特征。
常见的数据描述方法包括均值、中位数、众数、方差、标准差等。
数据分析是统计学分析的核心环节,它是根据问题的需求选择合适的统计方法和技术对数据进行分析和解释的过程。
根据数据的性质,数据分析可以分为描述性分析、推断性分析和关联性分析等。
常用的数据分析方法包括假设检验、回归分析、方差分析、相关分析等。
结论推断是通过对数据的分析得出关于总体的结论。
根据样本的特征和假设的置信水平,可以对总体进行推断和预测。
通过结论推断,可以得出决策制定、问题解决和科学研究等方面的结论。
统计学分析在各个领域中具有广泛的应用。
在社会科学领域,统计学分析可以用于分析人口统计学数据、社会调查数据等,从而了解社会现象和社会问题。
在医学领域,统计学分析可以用于分析疾病发病率、治疗效果等,从而指导医疗决策和治疗方案。
统计学期末考试题库及答案
统计学期末考试题库及答案在统计学的学习中,考试是检验学生掌握知识和能力的重要环节。
为了帮助同学们更好地复习统计学知识,本文为大家准备了一份统计学期末考试题库及答案。
希望能对大家的复习有所帮助。
第一部分:基本统计学概念与原理1. 请简要解释什么是样本和总体。
答案:在统计学中,总体是指研究对象的全体,而样本是从总体中抽取出的部分个体或观察值。
2. 请解释什么是均值、中位数和众数,并比较它们的特点。
答案:均值是一组数据的平均值,是各数据值之和除以数据个数;中位数是一组数据按照大小排列后位于中间位置的值;众数是一组数据中出现频率最高的值。
均值对于异常值比较敏感,中位数对异常值较为稳健,众数适用于分类数据。
3. 请简要描述正态分布的特征与重要性。
答案:正态分布是一种对称的概率分布,在统计学中占有重要地位。
正态分布的特征包括均值等于中位数等于众数,呈钟形曲线,具有68-95-99.7原则等特点。
正态分布在众多领域的研究中被广泛应用,有助于揭示事物间的规律和关系。
第二部分:统计描述与推断4. 什么是参数估计和假设检验?答案:参数估计是利用样本数据推断总体特征的方法,常用的参数估计方法有点估计和区间估计;假设检验是为了检验总体参数假设,通过判断样本数据是否支持或拒绝参数假设来得出结论。
5. 请简要阐述相关系数和回归分析的应用。
答案:相关系数是用来衡量两个变量之间相关关系的强度和方向,常用的是皮尔逊相关系数。
回归分析是一种通过建立数学模型来探索自变量与因变量之间关系的统计方法,可以用来预测和解释变量间的相互影响。
6. 请解释抽样方法中的简单随机抽样和分层抽样。
答案:简单随机抽样是从总体中随机地抽取样本的方法,每个个体被抽到的概率相等;分层抽样是将总体划分为若干个层次,再从各层中分别抽取样本,以保证各层都有代表性。
第三部分:统计推断的方法与应用7. 请解释什么是假设检验的原理和步骤。
答案:假设检验是基于样本数据对总体参数进行推断的方法。
均值的比较检验
30 整理课件
输出结果(2) Independent Samples Test
Levene's Test for Equality of t-test for Equality of Means Variances
F
Sig. t
身 Equal variances 高 assumed
.843 .375 -4.315
确定两个独立样本的方差是否相等,是构 造和选择检验统计量的关键,因此在决定 要用哪一个t统计量公式前,必须进行方差 齐性的检验。
SPSS中利用Levene F方差齐性检验方法检验 两个独立总体的方差是否存在显著性差异。
23 整理课件
方差齐性的检验步骤
提出假设 H 0 :1 22 2 ;H 1 :1 22 2
S2/n1S2/n2
22.482(11)
87
取显著性水平=0.05,进行双侧检验,查t分布表可得临界 值 t0.025(13)2.16。t 4.315t0.025(13) ,说明t值落在拒绝区域 内,应该拒绝原假设。因此可以得出结论:男生和女生的
平均身高有显著差异。
27 整理课件
SPSS应用
操作步骤(1)
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 身高 175 174 168 173 164 169 170 166 158 165 156 152 156 168 160
11 整理课件
答案
提出假设: H 0:1 6 5 ,H 1 :1 6 5
确定检验统计量:由于总体方差未知,因此采用t检验统计量 经计算得:
其中,标准误差的公式为:S S
x
n
14 整理课件
输出结果(2)
概率论与数理统计第6章
不含未知参数的样本的函数称为统计量 不含未知参数的样本的函数称为统计量. 统计量 2. 几个常见统计量
1 n 样本均值 X = ∑Xi n i=1
反映总体 均值的信息 反映总 体方差 的信息
1 n 2 2 样本方差 S = ∑( Xi − X) n −1 i=1
样本2阶中心矩 样本 阶中心矩
反映总体2 反映总体 阶 中心矩的信息
(
)
−
n1 +n2 2
x≥0
例1 设X、Y相互独立均服从正态分布 、 相互独立均服从正态分布 N(0,3), X1,X2,…,X9和Y1,Y2,…,Y9分别为来 的样本。 自X、Y的样本。求 、 的样本
U=
X1 + X 2 + L + X 9 Y +Y +L+Y
2 1 2 2
的分布。 的分布。
2 9
小样本问题中使用) 精确抽样分布(小样本问题中使用) 抽样分布 大样本问题中使用) 渐近分布 (大样本问题中使用
{
三. 统计三大分布
1 . χ 分布
2
定义: 相互独立, 定义 设 X1 , X2 ,L, Xn相互独立 都服从正态 分布N(0,1), 则称随机变量: 则称随机变量: 分布 2 2 2 2 χ = X 1 + X 2 + …+X n 所服从的分布为自由度为 n 的 χ 分布. 分布
3. F分布 分布 与 X ~ χ (n1),Y ~ χ (n2 ), X与Y X / n1 相互独立, 相互独立,则称统计量 F = Y / n2 定义: 定义 设
2 2
服从自由度为n 分布, 服从自由度为 1及 n2 的F分布,n1称为第 分布 一自由度, 称为第二自由度, 一自由度,n2称为第二自由度,记作 F~F(n1,n2) .
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 关于总体均值的统计推断习题5.11. 什么是参数,统计量,估计量? 答:所谓总体参数,通常是指描述总体分布的一些特征,例如总体的均值(数学期望)、方差或标准差等等.一般,如果由总体抽得一个容量为的样本,则一个不包含任何未知参数的样本函数就称为一个统计量.一般地说,如果θ是一个未知的总体参数,当要对θ进行估计时,总是去寻找一个合适的统计量12()n X X X θθ∧∧= ,,,,在取得样本观察值后,就计算出统计量θ∧的值作为对未知参数的一个估计值.这样对未知参数给出一个具体数值的估计方法称为参数的点估计.用于估计未知参数θ的统计量θ∧称为θ的一个估计量,或者简称为θ的一个估计.2. 如何理解统计量是随机变量?答:在没有得到具体样本观察值时,虽然可以给出一个统计量的表达式,但是我们无法确定它的具体取 值,因而它是一个随机变量,它的取值将随着所得到的样本观察值的不同而改变;然而,一旦获得了具体的样本观察值,那么我们就可以按照所给表达式确定地计算出一个统计量的值.3. 对某城市内两个地点的距离作了4次测量,结果如下(单位:m ):2781,2836,2763,2858已知测量方法和仪器都无系统误差,求此距离的估计值.解:用样本均值作为总体均值μ的估计.计算得__1(2781283627632858)2809.54X μ∧==+++=所以总体均值μ被估计为2809.5μ∧=(m ).习题 5.21.在总体中随机抽取一容量为36的样本,求样本均值___X 落在50.8到53.8之间的概率.解:这是一个正态总体的样本,其容量36n =.由(5.2)__(0,1)N 所以有 ______(50.853.8)P X P <<=<<( 1.14 1.71)(1.71)( 1.14)(1.71)[1(1.14)]0.9564(10.8729)0.7293P Z =-<<=Φ-Φ-=Φ--Φ=--=.2.某车间生产滚珠,假定滚珠直径X 服从正态分布,方差是0.05.从某天的产品里随机抽取6个,量得直径为(单位:mm ):14.6,15.1,14.9,14.8,15.2,15.1.试求出该天平均直径的95%的置信区间.解:因为总体服从正态分布,且方差已知,所以用公式______1122X Z X Z αα--⎡⎤-+⎢⎣. 因为置信水平为10.95α-=,所以10.9752α-=.由已知有09751.96Z =..由题可求得___14.95X =.将___0975014.95, 1.96,6X Z n σ====.代入公式得置信度为95%的置信区间是[]14.231,15.129.3.用一仪器间接测量温度,重复测量了5次,结果如下(单位:):1250,1265,1245,1260,1275.假定测得温度值服从正态分布,并且所用仪器没有系统误差,试求温度真值的置信度为95%的区间估计.解:因为总体服从正态分布,且方差未知,所以用公式______1122(1),(1)X t n X t n αα--⎡⎤--+-⎢⎣.因为置信水平为10.95α-=,所以10.9752α-=.由题中数据可求得___1259,142.5X S ==.将___09751259,(4) 2.7764,142.5,5X t S n ====.代入公式得置信度为95%的置信区间是[]1244.179,1273.822.4.从某县小学五年级数学测试中随机抽取152份作文试卷,计算得到平均分___71.4X =,标准差11.3S =.试求该县此次测验总平均分的置信度为99%的区间估计.解:因为样本容量152n =比较大,所以用正态分布来求近似的区间估计.由于总体方差未知,所以我们用公式______1122X Z X Z αα--⎡⎤-+⎢⎣.因为置信水平为10.99α-=,所以10.9952α-=.由已知有09952575Z =... 将___0995714, 2.575,11.3,152X Z S n ====..代入公式得置信度为99%的置信区间是[]69.0399,73.7601.习题 5.31.某饲养场声称其所培养的蛋鸡所产蛋的平均重量达到每个70克.如果要用假设检验方法对此断言作出判断,以公式化形式给出原假设0H 是什么?答:以μ表示该饲养场培养的蛋鸡所产蛋的平均重量,那么前述的原假设可以表示为0H :250μ=.2.用统计方法检验假设0H :某品种苹果的平均重量每个为200克.如果统计检验得到的决断是在显著水平0.10α=时拒绝原假设0H ,试问这意味着什么?答:假设检验作出的统计判断是拒绝原假设0H ,即认为原假设0H 不成立,但可能原假设0H 恰恰成立.发生这种错误的概率是我们指定的显著水平α.也就是说我们作出拒绝原假设0H 的判断时有10%的风险.习题 5.41.某地区7岁男童的平均体重为2161kg .,标准差为2.21kg ,从该地区一个小学中随机抽取70位7岁男童称体重,计算得到他们的平均体重为229kg ..一般认为体重服从正态分布,试在0.05α=的显著水平上,检验该校7岁男童的平均体重与全地区平均值相等的假设.解:根据题意,如果以μ表示该校7岁男童的平均体重,则现在要检验的假设是 0H :2161μ=., 1H :2161μ≠..由于总体方差已知,所以我们用统计量___Z =.因为置信水平为10.95α-=,所以10.9752α-=.所以假设检验的拒绝域为{ 1.96}C Z Z =≥. 将___0022.9,21.61, 2.21,70X n μσ====代入统计量中得___4.884Z ===.因为计算出来的值落在拒绝域C 中,所以我们在的显著水平上拒绝原假设0H ,即认为该校7岁男童的平均体重与全地区平均值不相等.2.某一年高考中,某市物理考试的平均成绩为75.从该市郊区考生中,随机抽取了25名考生,得到他们的物理考试成绩如下:68,65,76,75,89,81,85,61,73,48,64,94,67,70,76,87,75,50,62,66,73,83,64,69,79.如果这次物理考试成绩服从正态分布,试问该市郊区考生的物理平均成绩是否与全市平均相同(显著水平0.10α=)?解: 根据题意,如果以μ表示该市郊区考生的物理平均成绩,则现在要检验假设0H :75μ=, 1H :75μ≠.由于总体方差未知,所以我们用统计量___T =.因为置信水平为10.90α-=,所以10.952α-=.所以假设检验的拒绝域为{ 1.7109}C T T =≥.将___072,75,25X S n μ====代入统计量中得___0.7476X T -===.因为计算出来的值不在拒绝域C 中,所以我们接受原假设0H ,即认为该市郊区考生的物理平均成绩与全市平均成绩相同.3.某工厂制成一种新的钓鱼绳,声称其平均折断力(N )为15.为检验15这个指标是否属实,随机抽取该厂产品24件,测得平均折断力是14.75,样本标准差是 0.5.试分别在0.010.05α=,的不同显著水平上,检验15这个平均折断力的指标.解: 根据题意,如果以μ表示该工厂制成一种新的钓鱼绳的平均折断力,则现在要检验的假设是0H :14.75μ=, 1H :14.75μ≠.由于总体方差未知,所以我们用统计量___T =.因为显著水平为0.01α=,所以10.9952α-=.由已知有0995(23) 2.8073t =.,所以假设检验的拒绝域为{28073}C T T =≥..将___14.75,0.5,24X S n ===代入___T =统计量中得___2.4495T ===.因为计算出来的值不在拒绝域C 中,所以我们接受原假设0H ,即认为平均折断力为15.习题 5.51.进行一项家庭经济情况的社会调查.从甲城市随机抽取了500户的家庭样本,每户每月的平均消费开支为640元.从乙城市随机抽取了400户的家庭样本,每户每月的平均消费开支为590元.根据历史资料,这两城市的家庭消费开支是服从正态分布的,标准差为125元.试在0.05α=的水平上检验,这两城市一个家庭的月平均消费开支是否有差异?解: (1)提出假设0120H μμ-=:, 1120H μμ-≠: .(2)由显著水平0.05α=,由标准正态分布表查得0.975121.96ZZ α-==,即拒绝域{}1.96C Z Z =≥.(3)根据题目所给,____22212500125m X Y σσ===,n=400,=640,=590,,代入____()Z X Y =-得____()() 2.817Z X Y =-=-=118.64117.68 . 由于 1.96Z ≥,因此拒绝原假设0H ,即认为这两城市一个家庭的月平均消费开支有差异.2.为比较两个煤矿所产煤的品质,随机抽取了若干个样本,测量得每吨煤所释放的热量数据列于表5.2.如果假设两矿煤释放的热量都服从正态分布,且方差相等.试在0.05α=的水平上检验,该两矿生产的每吨煤所释放的平均热量是否相等?解:(1)提出假设0120H μμ-=:, 1120H μμ-≠:(2)由显著水平0.05α=,自由度25528m n +-=+-=,从t 分布表查得0.97512(8)(39) 2.3060tt α-==,得拒绝域{}2.3060C T T =≥. (3)根据题目可得,____221256220013750m X Y S S ===,n=5,=8160,=7730,,,代入____()T X Y =-____()(81607730)430 3.4889T X Y =-=-==(4)由于 2.3060T ≥,因此拒绝原假设0H ,即认为这两矿生产的每吨煤所释放的平均热量不相等.3.调查不同的小麦中的营养成份.从A 品种小麦中抽取了10个样品,测出其蛋白含量平均为__X =14.3%,样本标准差1S =1.621;从B 品种小麦中抽取了8个样品,测出其蛋白含量平均为__X =11.7%,样本标准差2S =0.935.试以95%的置信度,给出这两个品种小麦蛋白质含量平均值之差的区间估计(假定这两个品种小麦中蛋白质的含量都服从正态分布,且方差相等).解: 以1μ记A 品种小麦蛋白质含量平均值,2μ记B 品种小麦蛋白质含量平均值.现在要求作出12μμ-的置信区间.由于两总体的方差都不知道,所以考虑估计式____12()(X Y t m n α--±+-.当然这要满足前提条件:两个总体方差相等,即2212σσ=,这里暂时先承认2212σσ=.所要求区间估计的置信度10.9510.9752αα-=-=,.自由度2108216m n +-=+-=,从t 分布表中查得0.975(16) 2.1199t =.将108m n ==,,____1214.3%11.7% 1.6210.935X Y S S ====,,,代入估计式,得____12()((14.3%11.7%) 2.11990.026 1.3716X Y t m n α--±+-=±=±-即所求置信区间是[]1.34561.3976-,.习题 5.61. 某商店经理想了解星期六和星期日的营业额收入是否有差异,随机选取了16个星期,记录净收入如表5.5.如果星期六与星期日营业净收入之差服从正态分布.试在的显著水平上检验两天的营业净收入之间无差异这一假设.解: (1)提出假设00H μ=:, 10H μ≠:(2)由显著水平0.05α=,自由度115n -=,从t 分布表查得0.97512(15)(15) 2.1314tt α-==,得拒绝域{}2.1314C T T =≥.(3)根据表 5.4所给数据,计算得到Z —=0.1556,S=0.1224,n=9,,代入(5.18)式得 __3.8137T ===(4)由于T 的值落在拒绝域{}2.3060C T T =≥内,所以我们拒绝(5.17)式中原假设0H ,接受备择假设1H ,即认为星期六与星期日营业净收入有显著差异.2. 为了准备参加英语竞赛,某校选取了15名学生进行英语词汇训练,这些学生在训练前与训练后都作了测试,成绩列于表5.6中.如果两次测试分数之差服从正态分布,在0.05α=的显著水平上,能否作出“训练有效果”的断言?解: (1)提出假设00H μ=:, 10H μ≠:(2)由显著水平0.05α=,自由度114n -=,从t 分布表查得0.97512(14)(14) 2.1448tt α-==,得拒绝域{}2.1448C T T =≥.(3)根据表5.4所给数据,计算得到Z —=1.7333,S=10.7810,n=15,,代入(5.18)式得 __2.0445T ===1.7333(4)因为计算出来的值不在拒绝域C 中,所以我们接受原假设0H ,即认为训练前与训练后没有显著差异,因而不能作出“训练有效果”的断言.复习题五1. 随机地从一批钉子中抽取16枚,测得其平均长度为(厘米).设钉长总体服从正态分布,并且(厘米),试求总体均值的90%的置信区间.解:因为总体服从正态分布,且方差已知,所以用公式______1122X Z X Zαα--⎡⎤-+⎢⎣.因为置信水平为10.90α-=,所以10.952α-=.由已知有0951.645Z≈..将___09502.125, 1.645,0.01,16X Z nσ=≈==.代入公式得置信度为90%的置信区间是[]1.7138,2.5363.2.测得一圆孔的直径.测量6次得直径平均值为1.495(cm),样本方差为0.00051(cm2).试求孔径的置信区间(置信度分别为0.95,0.99).解:因为总体服从正态分布,且方差未知,所以用公式______1122(1),(1)X t n X t nαα--⎡⎤--+-⎢⎣.当置信水平为10.95α-=,所以10.9752α-=.由题中数据可求得.将___209751.495,0.00051,(5)2.5706,6X S t n====.代入公式得置信度为95%的置信区间是0510.000511.49506952.570⎡-+⎢⎣,即[]1.471,1.519.当置信水平为10.99α-=,所以10.9952α-=.可得0995(5) 4.0321t=.,代入公式得置信度为99%的置信区间是1.495 4.0321 4.0321⎡-+⎢⎣,即[]1.458,1.532.3.某林场造丰产林若干亩.五年后抽测50棵得树高的平均值为9.2米,标准差为0.5米,问丰产林的树高与10米的差异是否显著(显著水平0.05α=)?解:(1)因为样本容量50n=比较大,所以我们用统计量___Z=.现在要检验假设H:10μ=,1H:10μ≠.(2)因为置信水平为10.95α-=,所以10.9752α-=.查表可得0975 1.96Z =..所以假设检验的拒绝域为{ 1.96}C Z Z =≥.(3)将___09.2,10,0.5,50X S n μ====代入统计量中得___11.312X T -===-.(4)因为计算出来的值在拒绝域C 中,所以我们拒绝原假设0H ,接受备择假设1H ,即认为丰产林的树高与10米的差异显著.4. 从市场上供应的某种润滑油中随机抽取10瓶,称得其重量数据为10.2,9.7,10.1,10.3,10.1,9.8,9.9,10.4,10.3,9.8.假定重量服从正态分布,试在0.01α=的显著水平上,检验“瓶装润滑油平均重量为10”这个假设.10.99α-=,所以10.9952α-=.可得0995(5) 4.0321t =.,解:(1)我们用统计量___T =.现在要检验假设0H :10μ=, 1H :10μ≠. (2)因为置信水平为10.99α-=,所以10.9952α-=.查表可得0995(9) 3.2498t =..所以假设检验的拒绝域为{ 3.2498}C T T =≥.(3)计算可得___2010.06,10,0.0604,10X S n μ====代入统计量中得___0.772T ===.(4)因为计算出来的值不在拒绝域C 中,所以我们接受原假设0H ,即认为瓶装润滑油平均重量为10.5. 试讨论在正态总体条件下,总体均值μ的1α-置信度区间估计与以显著水平α检验假设(5.8)之间的相互关系.答:总体均值μ的1α-置信度区间估计与以显著水平α检验假设(5.8)之间的有某种等价关系.6. 研究冰的熔化潜热使用电学法(A )和混合法(B ).用这两种不同方法对-0.72℃的样品进行测量,得到从至时水的总热量变化数据如下:A 方法:79.98,80.04,80.02,80.04,80.03,80.03,80.02,80.04,79.97,80.05,80.03,80.02,80.00B 方法:80.02,79.947,79.98,79.97,79.97,80.03,79.95,79.97 如果上述实验数据被认为是服从正态分布的,并且方差相等.(A )试在0.05α=的显著水平上,检验两种方法所得数据的均值相等的假设;(B )试以95%的置信度,求出这两种不同方法均值之差的置信区间.解: 以1μ记电学法(A )得到的实验数据平均值,2μ记混合法(B )得到的实验数据平均值.(A )(1)提出假设0120H μμ-=:, 1120H μμ-≠:(2)由显著水平0.05α=,自由度2138219m n +-=+-=,从t 分布表查得0.97512(19)(19) 2.0930tt α-==,得拒绝域{}2.0930C T T =≥. (3)根据题目可得,____2212130.00057430.0009839m X Y S S ===,n=8,=80.0208,=79.9788,,,代入____()T X Y =-____()()/0.042/0.0121 3.4708T X Y =-=-==80.020879.9788(4)由于 2.0930T ≥,因此拒绝原假设0H ,即认为两种方法所得数据的均值不相等.(B )现在要求作出12μμ-的置信区间.由于两总体的方差都不知道,所以考虑估计式____12()(X Y t m n α--±+-.当然这要满足前提条件:两个总体方差相等,即2212σσ=,这里暂时先承认2212σσ=.所要求区间估计的置信度10.9510.9752αα-=-=,.自由度2138219m n +-=+-=,从t 分布表中查得0.97512(19)(19) 2.0930tt α-==.将____2212130.00057430.0009839m X Y S S ===,n=8,=80.0208,=79.9788,,,代入估计式,得____12()(() 2.09300.0420.0253X Y t m n α--±+-=±=±80.0208-79.9788即所求置信区间是[]0.01670.0673,.7.某人由于搬家,上班的路程也有了变化.现在他上班有A 、B 两条路径可以选择.为了探明哪条路径更为快捷,他作了一番试验.在头一周,他星期一、三、五选择路径A 上班,星期二、四选择路径B 上班.第二周则在星期一、三、五选择路径B 上班,星期二、四选择路径A 上班.表5.16是他在这两周中上班路程上所花时间的记录.试在0.10α=的显著水平上,以成对数据的检验方法判断沿A 、B 两条路径上班所花费时间是否相同?解: 以1μ记沿A 路径上班所花费时间平均值,2μ记沿B 路径上班所花费时间平均值.(1)提出假设00H μ=:, 10H μ≠:(2)由显著水平0.10α=,自由度14n -=,从t 分布表查得0.9512(4)(4)2.1318t t α-==,得拒绝域{}2.1318C T T =≥. (3)根据表 5. 16所给数据,计算得到Z —2=1.18,S =2.007,n=5,,代入(5.18)式得 __1.8625T ===.(4)因为计算出来的值不在拒绝域C 中,所以我们接受原假设0H ,即认为沿A 、B 两条路径上班所花费时间相同.。