概率统计第8章参数估计

合集下载

参数估计的基础(8)

可信区间和可信限
❖ 可信区间（confidence interval 简记为CI）可信区间是以上下可信限为界的一个范围。例如 95%的可信区间为（171.97，173.49）cm。
❖ 可信限（ confidence limit 简记为CL）可信限是指上限和下限两个点值。如171.97为下限
结果报告：可将点值估计和区间估计同时写出如 172.72（171.97，173.49）cm
例
该市19岁健康男大学生的身高的95%置信区间 (171.3,173.1)cm
总体均数可信区间的估计
可信区间
已知
未知但n足够大
未知且n小
95% Sx
X±1.96x
X±1.96Sx
99% Sx
X±2 0.05（） X±t 0.01（）
（二）、总体概率的置信区间
表3.1 100个样本均数
173.22 172.06 170.89 174.07 172.60 173.14 172.61 172.26 171.93 172.85
175.23 173.76 174.77 172.57 171.76 172.74 173.36 173.69 171.10 173.40
呈正态分布； ④样本均数变异范围较原变量变异范
围大大缩小，这100个样本均数的均数为167.69cm、标准差为1.69cm。
在非正态分布总体中可进行类似抽样。
数理统计推理和中心极限定理表明:
从 N (, 2 )中随机抽取n例的样本，样本均数 X也服从
正态分布,且
x
~
N
(,
2 x
)
即使从非正态总体中抽取样本，当n足够大（n>30),
本例n=27，S=15

概率论与数理统计(8)假设检验

概率论与数理统计(8)假设检验第八章假设检验第一节假设检验问题第二节正态总体均值的假设检验第三节正态总体方差的检验第四节大样本检验法第五节 p值检验法第六节假设检验的两类错误第七节非参数假设检验第一节假设检验问题前一章我们讨论了统计推断中的参数估计问题，本章将讨论另一类统计推断问题——假设检验.在参数估计中我们按照参数的点估计方法建立了参数的估计公式，并利用样本值确定了一个估计值，认为参数真值。

由于参数是未知的，只是一个假设（假说，假想），它可能是真，也可能是假，是真是假有待于用样本进行验证（检验）.下面我们先对几个问题进行分析，给出假设检验的有关概念，然后总结给出检验假设的思想和方法.一、统计假设某大米加工厂用自动包装机将大米装袋,每袋的标准重量规定为10kg，每天开工时，需要先检验一下包装机工作是否正常. 根据以往的经验知道,自动包装机装袋重量X服从正态分布N( )．某日开工后，抽取了8袋，如何根据这8袋的重量判断“自动包装机工作是正常的”这个命题是否成立？请看以下几个问题：问题1引号内的命题可能是真，也可能是假，只有通过验证才能确定．如果根据抽样结果判断它是真，则我们接受这个命题，否则就拒绝接受它，此时实际上我们接受了“机器工作不正常”这样一个命题．若用H0表示“”，用H1表示其对立面，即“”，则问题等价于检验H0：是否成立，若H0不成立，则H1：成立．一架天平标定的误差方差为10-4(g2)，重量为的物体用它称得的重量X服从N( )．某人怀疑天平的精度，拿一物体称n次，得n 个数据，由这些数据(样本)如何判断“这架天平的精度是10-4(g2)”这个命题是否成立？问题2记H0: =10-4，H1: ，则问题等价于检验H0成立，还是H1成立．某种电子元件的使用寿命X服从参数为的指数分布，现从一批元件中任取n个，测得其寿命值（样本），如何判定“元件的平均寿命不小于5000小时”这个命题是否成立？记问题3则问题等价于检验H0成立，还是H1成立．某种疾病，不用药时其康复率为，现发明一种新药（无不良反应），为此抽查n位病人用新药的治疗效果，设其中有s人康复，根据这些信息，能否断定“该新药有效”？记问题4则问题等价于检验H0成立，还是H1成立．自1965年1月1日至1971年2月9日共2231天中，全世界记录到震级4级及以上的地震共计162次，问相继两次地震间隔的天数X是否服从指数分布？问题5记服从指数分布，不服从指数分布．则问题也等价于检验H0成立，还是H1成立．在很多实际问题中，我们常常需要对关于总体的分布形式或分布中的未知参数的某个陈述或命题进行判断，数理统计学中将这些有待验证的陈述或命题称为统计假设，简称假设．如上述各问题中的H0和H1都是假设.利用样本对假设的真假进行判断称为假设检验。

统计学第七章、第八章课后题答案

统计学复习笔记之南宫帮珍创作第七章第八章参数估计一、思考题1．解释估计量和估计值在参数估计中, 用来估计总体参数的统计量称为估计量.估计量也是随机变量.如样本均值, 样本比例、样本方差等.根据一个具体的样本计算出来的估计量的数值称为估计值. 2．简述评价估计量好坏的标准（1）无偏性：是指估计量抽样分布的期望值即是被估计的总体参数.（2）有效性：是指估计量的方差尽可能小.对同一总体参数的两个无偏估计量, 有更小方差的估计量更有效.（3）一致性：是指随着样本量的增年夜, 点估计量的值越来越接近被估总体的参数.3．怎样理解置信区间在区间估计中, 由样本统计量所构造的总体参数的估计区间称为置信区间.置信区间的论述是由区间和置信度两部份组成.有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间）, 其实不说明置信度, 也不给出被调查的人数, 这是不负责的暗示.因为降低置信度可以使置信区间变窄（显得“精确”）,有误导读者之嫌.在公布调查结果时给出被调查人数是负责任的暗示.这样则可以由此推算出置信度（由后面给出的公式）, 反之亦然.4．解释95%的置信区间的含义是什么置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率.也就是说, 无穷次重复抽样所获得的所有区间中有95%（的区间）包括参数.不要认为由某一样本数据获得总体参数的某一个95%置信区间, 就以为该区间以0.95的概率覆盖总体参数.5．简述样本量与置信水平、总体方差、估计误差的关系.1.估计总体均值时样本量n为其中：2.样本量n与置信水平1-α、总体方差、估计误差E之间的关系为▪与置信水平成正比, 在其他条件不变的情况下, 置信水平越年夜, 所需要的样本量越年夜；▪与总体方差成正比, 总体的不同越年夜, 所要求的样本量也越年夜；▪与与总体方差成正比, 样本量与估计误差的平方成反比, 即可以接受的估计误差的平方越年夜, 所需的样本量越小.二、练习题1．从一个标准差为5的总体中采纳重复抽样方法抽出一个样本量为40的样本, 样本均值为25.1)样本均值的抽样标准差即是几多？2)在95%的置信水平下, 估计误差是几多？解： 1）已知σ = 5, n = 40, = 25∵∴2）已知∵2．某快餐店想要估计每位顾客午餐的平均花费金额, 在为期3周的时间里选取49名顾客组成了一个简单随机样本.1)假定总体标准差为15元, 求样本均值的抽样标准误差.2)在95%的置信水平下, 求估计误差.3)如果样本均值为120元, 求总体均值µ的95%的置信区间.解：1）已知σ = 15, n = 49∵∴2）已知∵3）已知 = 120∵ 置信区间为±E3．从一个总体中随机抽取n =100的随机样本, 获得 =104560, 假定总体标准差σ = 85414, 试构建总体均值µ的95%的置信区间.解：已知n =100, =104560, σ = 85414, 1-a＝95% ,由于是正态总体, 且总体标准差已知.总体均值m在1-a置信水平下的置信区间为104560 ± 1.96×85414÷√1004．从总体中抽取一个n =100的简单随机样本, 获得 =81, s=12.要求：1）构建µ的90%的置信区间.2）构建µ的95%的置信区间.3）构建µ的99%的置信区间.解：由于是正态总体, 但总体标准差未知.总体均值m在1-a置信水平下的置信区间公式为81±×12÷√100 = 81±×????????4）= 25, σ = 3.5, n =60, 置信水平为95%5）=119, s =23.89, n =75, 置信水平为98%6）=3.149, s =0.974, n =32, 置信水平为90%解：∵∴ 1） 1-a＝95% ,其置信区间为：25±1.96×3.5÷√602） 1-a＝98% , 则a=0.02, a/2=0.01, 1-a/2=0.99,查标准正态分布表,可知:其置信区间为: 119±2.33×23.89÷√753) 1-a＝90%,其置信区间为:3.149±1.65×0.974÷√325．利用下面的信息, 构建总体均值µ的置信区间：1）总体服从正态分布, 且已知σ = 500, n = 15, =8900, 置信水平为95%.解：N=15, 为小样本正态分布, 但σ已知.则1-a＝95%, .其置信区间公式为∴置信区间为：8900±1.96×500÷√15=（8646.7 , 9153.2）2）总体不服从正态分布, 且已知σ = 500, n = 35, =8900,置信水平为95%.解：为年夜样本总体非正态分布, 但σ已知.则1-a＝95%, .其置信区间公式为∴置信区间为：8900±1.96×500÷√35=（8733.9 9066.1）3）总体不服从正态分布, σ未知, n = 35, =8900, s =500, 置信水平为90%.解：为年夜样本总体非正态分布, 且σ未知, 1-a＝90%,1.65.其置信区间为：8900±1.65×500÷√35=（8761 9039）4）总体不服从正态分布, σ未知, n = 35, =8900, s =500, 置信水平为99%.解：为年夜样本总体非正态分布, 且σ未知, 1-a＝99%,2.58.其置信区间为：8900±2.58×500÷√35=（8681.9 9118.1）6．某年夜学为了解学生每天上网的时间, 在全校7500名学生中采用重复抽样方法随机抽取36人, 调查他们每天上网的时间, 获得下面的数据（单元：小时）（略）.求该校年夜学生平均上网时间的置信区间, 置信水平分别为90%解：先求样本均值：= 3.32再求样本标准差：置信区间公式：7．从一个正态总体中随机抽取样本量为8的样本, 各样本值分别为：10, 8, 12, 15, 6, 13, 5, 11.求总体均值µ的95%置信区间.解：本题为一个小样本正态分布, σ未知.先求样本均值：= 80÷8=10再求样本标准差：于是 , 的置信水平为的置信区间是,已知, n = 8, 则,α/2=0.025, 查自由度为n-1 = 7的分布表得临界值所以, 置信区间为：10±2.45×3.4641÷√78．某居民小区为研究职工上班从家里到单元的距离, 抽取了由16个人组成的一个随机样本, 他们到单元的距离分别是：10, 3,14, 8, 6, 9, 12, 11, 7, 5, 10, 15, 9, 16, 13, 2.假设总体服从正态分布, 求职工上班从家里到单元平均距离的95%的置信区间.解：小样本正态分布, σ未知.已知, n = 16, , 则, α/2=0.025, 查自由度为n-1 = 15的分布表得临界值样本均值再求样本标准差：于是 , 的置信水平为的置信区间是?? ??????????????????±??×??÷√??9．从一批零件是随机抽取????个, 测得其平均长度是??????, 标准差是????.1)求确定该种零件平均长度的????August的置信区间.2)在上面估计中, 你使用了统计中的哪一个重要定理？请解释.解：）??这是一个年夜样天职布.已知N??????, ??????????????, S????????, α?? ????, .其置信区间为：149.5±1.96×1.93÷√36 2）中心极限定理论证：如果总体变量存在有限的平均数和方差, 那么, 不论这个总体的分布如何, 随着样本容量的增加, 样本均值的分布便趋近正态分布.在现实生活中, 一个随机变量服从正态分布未必很多, 可是多个随机变量和的分布趋于正态分布则是普遍存在的.样本均值也是一种随机变量和的分布, 因此在样本容量充沛年夜的条件下, 样本均值也趋近于正态分布, 这为抽样误差的概率估计理论提供了理论基础.10．某企业生产的袋装食品采纳自动打包机包装, 每袋标准重量为100克, 现从某天生产的一批产物中按重复抽样随机抽取50包进行检查, 测得每包重量如下：（略）已知食品包重服从正态分布, 要求：1）确定该种食品平均重量的95%的置信区间.2）如果规定食品重量低于100克属于分歧格, 确定该批食品合格率的95%的置信区间.解：1）本题为一个年夜样本正态分布, σ未知.已知N=50, µ=100, 1-α=0.95, .① 每组组中值分别为97、99、101、103、105, 即此50包样本平均值= （97+99+101+103+105）/5 = 101② 样本标准差为：③其置信区间为：101±1.96×1.666÷√502）∵ 分歧格包数（＜100克）为2+3=5包, 5/50 = 10%（分歧格率）, 即P = 90%.∴ 该批食品合格率的95%置信区间为：11．假设总体服从正态分布, 利用下面的数据构建总体均值μ的99%的置信区间.（略）解：样本均值样本标准差：尽管总体服从正态分布, 可是样本n=25是小样本, 且总体标准差未知, 应该用T统计量估计.1-α=0.99, 则α=0.01, α/2=0.005, 查自由度为n-1 =24的分布表得临界值的置信水平为的置信区间是,12．一家研究机构想估计在网络公司工作的员工每周加班的平均时间, 为此随机抽取了18个员工, 获得他们每周加班的时间数据如下（单元：小时）：（略）假定员工每周加班的时间服从正态分布, 估计网络公司员工平均每周加班时间的90%的置信区间.解：① N = 18 ＜ 30, 为小样本正态分布, σ未知.②样本均值样本标准差：=③ 1-α= 90%, α= 0.1, α/2= 0.05, 则查自由度为n-1 = 17的分布表得临界值④的置信水平为的置信区间是,13．利用下面的样本数据构建总体比例丌的置信区间：1）n =44, p = 0.51 , 置信水平为99%2）n =300, p = 0.82 , 置信水平为95%3）n =1150, p = 0.48, 置信水平为90%解： 1） 1-α= 99%, α= 0.01, α/2= 0.005, 1-α/2= 0.995, 查标准正态分布表, 则2）1-a＝95%,3）1-a＝90%,分别代入14．在一项家电市场调查中, 随机抽取了200个居民户, 调查他们是否拥有某一品牌的电视机, 其中拥有该品牌电视机的家庭占23%.求总体比例的置信区间, 置信水平分别为90%和95%.解： 1）置信水平90%, 1-a＝90%, 1.65, N = 200, P = 23%.代入2）置信水平95%, 1-a＝95%, , N = 200, P = 23%.代入15．一位银行的管理人员想估计每位顾客在该银行的月平均存款额.他假设所有顾客月存款额的标准差为1000元, 要求的估计误差在200元以内, 置信水平为99%.应选取多年夜的样本？解：已知 1-α = 99%, 则 2.58.E = 200, σ= 1000元.则N = （²×σ²）÷E²= （2.58²×1000²）÷200²≈167（得数应该是166.41, 不论小数后是几多, 都向上进位取整, 因此至少是167人）16．要估计总体比例丌, 计算下列条件下所需的样本量.1）E=0.02, 丌=0.40, 置信水平96%2）E=0.04, 丌未知, 置信水平95%3）E=0.05, 丌=0.55, 置信水平90%解： 1）已知 1-α = 96%, α/2 =0.02 , 则N = ｛²×丌（1-丌）｝÷E²=2.06²×0.4×0.6÷0.02²≈25472)已知 1-α = 95%, α/2 =0.025 , 则丌未知,则取使丌（1-丌）最年夜时的0.5.N = ｛²×丌（1-丌）｝÷E²=1.96²×0.5×0.5÷0.04²≈601 3）置信水平90%, 1-a＝90%, 1.65,N = ｛²×丌（1-丌）｝÷E²=1.65²×0.55×0.45÷0.05²≈27017．某居民小区共有居民500户, 小区管理者准备采纳一项新的供水设施, 想了解居民是否赞成.采用重复抽样方法随机抽取了50户, 其中有32户赞同, 18户反对.1）求总体中赞成该项改革的户数比例的置信区间（α=0.05）2）如果小区管理者预计赞成的比例能到达80%, 估计误差不超越10%, 应抽取几多户进行调查（α=0.05）解：1）已知N=50, P=32/50=0.64, α=0.05, α/2 =0.025 , 则置信区间：P±2）已知丌=0.8 , E = 0.1, α=0.05, α/2 =0.025 , 则N= ²丌(1-丌)/E²= 1.96²×0.8×0.2÷0.1²≈6218．根据下面的样本结果, 计算总体标准差σ的90%的置信区间：1）=21, S=2, N=502）=1.3, S=0.02, N=153）=167, S=31, N=22解：1）年夜样本, σ未知, 置信水平90%, 1-a＝90%,21±1.65×2÷√502）小样本, σ未知, 置信水平90%, 1-a＝90%, 则查自由度为n-1 = 14的分布表得临界值, = 1.3±1.761×0.02÷√153) 年夜样本, σ未知, 置信水平90%, 1-a＝90%,167±1.65×31÷√2219．题目(略)1)构建第一种排队方式等候时间标准差的95%的置信区间2)构建第二种排队方式等候时间标准差的95%的置信区间3)根据1)和2)的结果, 你认为哪种排队方式更好？解：本题为小样本正态分布, σ未知, 应用公式,置信水平95%, 1-a＝95%, 则查自由度为n-1 = 9的分布表得临界值1）= 7.15,其置信区间为7.15±2.31×0.48÷√102)= √0/9 = 0其置信区间为7.15±04)第二种排队方式更好.（19题是对总体方差的估计, 应该用卡方统计量进行估计, 20题是对两个总体参数的估计, 这二种类型老师未讲, 不是本次考试的内容, 不能用Z统计量像估计总体均值和比例那样去估计, 具体内容见书上P188――P194）第九章假设检验一、思考题1．假设检验和参数估计有什么相同点和分歧点？解：参数估计与假设检验是统计推断的两个组成部份.相同点：它们都是利用样本对总体进行某种推断.分歧点：推断的角度分歧.参数估计讨论的是用样本统计量估计总体参数的方法, 总体参数μ在估计前是未知的.而在假设检验中, 则是先对μ的值提出一个假设, 然后利用样本信息去检验这个假设是否成立.2．什么是假设检验中的显著性水平？统计显著是什么意思？解：显著性水平用α暗示, 在假设检验中, 它的含义是当原假设正确时却被拒绝的概率或风险, 即假设检验中犯弃真毛病的概率.它是由人们根据检验的要求确定的.（我理解的统计学意义, 统计显著是统计上专用的判定标准, 指在一定的概率原则下, 可以供认一种趋势或者合理性到达的水平, 到达为统计上水平显著, 达不到为统计上水平不显著）3．什么是假设检验中的两类毛病？解：弃真毛病（α毛病）：当原假设为真时拒绝原假设, 所犯的毛病成为第I类毛病, 又称为弃真毛病.犯第I类毛病的概率常记作α.取伪毛病（β毛病）：当原假设为假时没有拒绝原假设, 所犯的毛病称为第II类毛病, 又称取伪毛病.犯第II类毛病概率常记作β.发生第I类毛病的概率也常被用于检验结论的可靠性怀抱.假设检验中犯第I类毛病的概率被称为显著性水平, 记作α.4．两类毛病之间存在什么样的数量关系？在样本容量n一定的情况下, 假设检验不能同时做到犯α和β两类毛病的概率都很小.若减小α毛病, 就会增年夜犯β毛病的机会；若减小β毛病, 也会增年夜犯α毛病的机会.要使α和β同时变小只有增年夜样本容量.但样本容量增加要受人力、经费、时间等很多因素的限制, 无限制增加样本容量就会使抽样调查失去意义.因此假设检验需要慎重考虑对两类毛病进行控制的问题.5．解释假设检验中的P值.解：如果原假设为真, 所获得的样本结果会像实际观测结果那么极端或更极真个概率, 称为P值.也称为观察到的显著性水平.P值是反映实际观测到的数据与原假设H0之间纷歧致水平的一个概率值.P值越小, 说明实际观测到的数据与H0之间纷歧致水平就越年夜.6．显著性水平与P值有何区别？解：α（显著性水平）是一个判断的标准（当原假设为真, 却被拒绝的概率), 而P是实际统计量对应分位点的概率值（当原假设为真时, 所获得的样本观察结果或更极端结果呈现的概率）.可以通过α计算置信区间, 然后与统计量进行比力判断, 也可以通过统计量计算对应的p值, 然后与α值比力判断.7．假设检验依据的基来源根基理是什么？解：假设检验利用的是小概率原理, 小概率原理是指发生概率很小的随机事件在一次试验中是几乎不成能发生的.根据这一原理, 可以先假设总体参数的某项取值为真, 也就是假设其发生的可能性很年夜, 然后抽取一个样本进行观察, 如果样本信息显示呈现了与事先假设相反的结果且与原假设分歧很年夜, 则说明原来假定的小概率事件在一次实验中发生了, 这是一个违背小概率原理的分歧理现象, 因此有理由怀疑和拒绝原假设；否则不能拒绝原假设.8．你认为在单侧检验中原假设和备择假设的方向应该如何确定？解：假设问题有两种情况, 一种是所考察的数值越年夜越好（左单侧检验或下限检验）, 临界值和拒绝域均在左侧；另一种是数值越小越好（右单侧检验或上限检验）, 临界值和拒绝域均在右侧.二、练习题1．已知某炼铁厂的含碳量服从正态分布N （4.55, 0.108²）, 现在测定了9炉铁水, 其平均含碳量为4.484.如果估计方差没有变动, 可否认为现在生产的铁水平均含碳量为4.55（α=0.05）？解：已知μ0=4.55, σ²=0.108², N=9, =4.484,这里采纳双侧检验, 小样本, σ已知, 使用Z 统计.假定现在生产的铁水平均含碳量与以前无显著不同.则, α=0.05, α/2 =0.025 , 查表得临界值为计算检验统计量： = (4.484-4.55)/(0.108/√9) 决策：∵Z 值落入接受域, ∴在=0.05的显著性水平上接受H0. nx Z / σ - =μ0结论：有证据标明现在生产的铁水平均含碳量与以前没有显著不同, 可以认为现在生产的铁水平均含碳量为4.55.2．一种元件, 要求其使用寿命不得低于700小时.现从一批这种元件中随机抽取36件, 测得其平均寿命为680小时.已知该元件寿命服从正态分布, σ=60小时, 试在显著性水平0.05下确定这批元件是否合格.解：已知N=36, σ=60, =680, μ0=700这里是年夜样本, σ已知, 左侧检验, 采纳Z 统计量计算. 提出假设：假定使用寿命平均不低于700小时H0：μ≥700H1: μ < 700= 0.05, 左检验临界值为负, 查得临界值: -Z0.05=-1.645计算检验统计量： = (680-700)/(60/√36) = -2决策：∵Z 值落入拒绝域, ∴在=0.05的显著性水平上拒绝H0, 接受H1结论：有证据标明这批灯胆的使用寿命低于700小时, 为分歧格产物.3．某地域小麦的一般生产水平为亩产250公斤, 其标准差是30公斤.现用一种化肥进行试验, 从25个小区抽样, 平均产量为n x Z / σ - = μ0270公斤.这种化肥是否使小麦明显增产（α=0.05）？解：已知μ0 =250, σ = 30, N=25, =270提出假设：假定这种化肥没使小麦明显增产.即 H0：μ≤250H1: μ＞250计算统计量：Z = （结论：Z统计量落入拒绝域, 在α =0.05的显著性水平上, 拒绝H0, 接受H1.决策：有证据标明, 这种化肥可以使小麦明显增产.4．糖厂用自动打包机打包, 每包标准重量是100千克.每天开工后需要检验一次打包机工作是否正常.某日开工后测得9包重量（单元：千克）如下：（略）已知包重服从正态分布, 试检验该日打包机工作是否正常.（α =0.05）= 99.98提出假设, 假设打包机工作正常：即 H0：μ= 100H1: μ≠100计算统计量：决策：有证据标明这天的打包机工作正常.5．某种年夜量生产的袋装食品, 按规定不得少于250克.今从一批该食品中任意抽取50袋, 发现有6袋低于250克.若规定不符合标准的比例超越5%就不得出厂, 问该批食品能否出厂（=0.05）？H0：丌≤5%H1：丌＞5%（因为没有找到丌暗示的公式, 这里用P0暗示丌0）结论：因为Z 值落入拒绝域, 所以在=0.05的显著性水平上, 拒绝H0, 而接受H1.决策：有证据标明该批食品合格率不符合标准, 不能出厂. 6．某厂家在广告中声称, 该厂生产的汽车轮胎在正常行驶条件下超越目前的平均水平25000公里.对一个由15个轮胎组成的随机样本做了试验, 获得样本均值和标准差分别为27000公里和5000公里.假定轮胎寿命服从正态分布, 问该厂家的广告是否真- = ns x t μ0实（=0.05）？解：N=15,H0：μ0 ≤25000H1：μ ＞25000结论：因为t 值落入接受域, 所以接受H0, 拒绝H1.决策：有证据标明, 该厂家生产的轮胎在正常行驶条件下使用寿命与目前平均水平25000公里无显著性不同, 该厂家广告不真实. 7．某种电子元件的寿命x （单元：小时）服从正态分布.现测得16只元件的寿命如下：（略）.问是否有理由认为元件的平均寿命显著地年夜于225小时（=0.05）？解：= 241.5,H ：μ??＞ ??创作时间：二零二一年六月三十日 - = ns x t - = ns x tμ0 μ0。

概率论与数理统计-参数估计_图文

或
于是得到
的置信水平为的置信区间为
为已知
其中
于是得到
的置信水平为的置信区间为
其中
例3 为比较 I ,ቤተ መጻሕፍቲ ባይዱⅡ 两种型号步枪子弹的枪口
速度 ,随机地取 I 型子弹 10 发 ,得到枪口速度的平
均值为
标准差
随
机地取 Ⅱ 型子弹 20 发 ,得到枪口速度的平均值为
标准差
假设两总
体都可认为近似地服从正态分布.且生产过程可认
2. 估计的精度要尽可能的高. 如要求区间长度
尽可能短，或能体现该要求的其它准则.
可靠度与精度是一对矛盾，一般是在保证可靠度的条件下尽可能提高精度.
二、置信区间的求法
在求置信区间时，要查表求分位点.
定义设
, 对随机变量X，称满足
的点为X的概率分布的上分位点.
若 X 为连续型随机变量 , 则有所求置信区间为
X~N( )
样本均值是否是的一个好的估计量？
样本方差是否是的一个好的估计量？
这就需要讨论以下几个问题: (1) 我们希望一个“好的”估计量具有什么特性？ (2) 怎样决定一个估计量是否比另一个估计量“好”？
(3) 如何求得合理的估计量？
常用的几条标准是：
1．无偏性 2．有效性 3．相合性
这里我们重点介绍前面两个标准 .
概率论与数理统计-参数估计_图文.ppt
参数估计
现在我们来介绍一类重要的统计推断问题参数估计问题是利用从总体抽样得到的信息来估计总体的某些参数或者参数的某些函数.
估计新生儿的体重
估计废品率
在参数估计问题
估计降雨量中，假定总体分布形式已知，未
… 知的仅仅是一个 … 或几个参数.

概率论与数理统计教案参数估计

概率论与数理统计教案-参数估计教案章节一：参数估计概述教学目标：1. 理解参数估计的定义及意义；2. 掌握参数估计的两种方法：最大似然估计和最小二乘估计；3. 了解参数估计的假设条件。

教学内容：1. 参数估计的定义及意义；2. 最大似然估计和最小二乘估计的方法及步骤；3. 参数估计的假设条件。

教学方法：1. 讲授法：讲解参数估计的定义、意义、方法及步骤；2. 案例分析法：分析实际案例，让学生更好地理解参数估计的方法及应用。

教学难点：1. 最大似然估计和最小二乘估计的方法及步骤；2. 参数估计的假设条件。

教学准备：1. 教学PPT；2. 相关案例资料。

教学过程：1. 引入参数估计的概念，讲解其意义；2. 讲解最大似然估计和最小二乘估计的方法及步骤；3. 分析实际案例，展示参数估计的应用；4. 讲解参数估计的假设条件；5. 课堂互动，回答学生问题。

作业布置：1. 复习parameter estimation 的定义及意义；2. 学习maximum likelihood estimation 和least squares estimation 的相关知识；3. 思考如何应用parameter estimation 解决实际问题。

教案章节二：最大似然估计教学目标：1. 理解最大似然估计的定义及意义；2. 掌握最大似然估计的计算方法；3. 了解最大似然估计的应用场景。

教学内容：1. 最大似然估计的定义及意义；2. 最大似然估计的计算方法；3. 最大似然估计的应用场景。

教学方法：1. 讲授法：讲解最大似然估计的定义、意义、计算方法；2. 案例分析法：分析实际案例，展示最大似然估计的应用。

教学难点：1. 最大似然估计的计算方法；2. 最大似然估计的应用场景。

教学准备：1. 教学PPT；2. 相关案例资料。

教学过程：1. 引入最大似然估计的概念，讲解其意义；2. 讲解最大似然估计的计算方法；3. 分析实际案例，展示最大似然估计的应用；4. 课堂互动，回答学生问题。

概率论和数理统计(第三学期)第8章参数估计

n n 1
由契比雪夫不等式，有
P( S 2 ES2
n
n
)
DS
2
n
＝
2 4
2 n 1 2
即 lim P( S 2 ES2 ) 0
n
n
n
(n 1)S 2
E
2
n n 1
ES2 2 n
故 lim P( S 2 2 ) 0
n
n
§8.3 参数的区间估计
定义
设是总体的未知参数，若（1 1
6
S~2 1 1.20 0.162 0.85 0.162 0.30 0.162 6 0.45 0.162 0.82 0.162 0.12 0.162 1 1.042 0.692 0.142 0.612 0.982 0.282 6 1 2.99 6 0.498 2
n
p xi
1
p
1 xi
xi p i1
1
p
n
n xi
i1
i 1
n
令y xi，得： i 1 ln Lxi , p y ln p n yln1 p
由对数似然方程
d ln L y n y 0 dp p 1 p
解得
p
y n
1 n
n i 1
xi
x
因为这是惟一的解，所以p的极大似然估计值为
二、顺序统计量法
定义
1
, 2
,
,
为总体
n
的一个样本，将它
们按大小次序排列，取居中的一个数 (若n为偶
数时，则取居中两数的平均值)记为~，称~为
样本中位数。
即
~
k
1
,
1 2
k

概率论与数理统计第8章

后所生产的灯管中抽取 25 只，测得平均寿命为 1675 小时。问采用新工艺后，灯管寿命是否有显著性提高?
现在的问题就是要判别新产品的寿命是服从 μ >1500 的
正态分布，还是服从 μ ≤1500的正态分布? 若是前者，我们就说新产品的寿命有显著性提高；若是后者，就说新产品的寿命没有显著性提高。
定义 1 将对总体提出的某种假设称为原假设，记为 H 0 ；将与原假设矛盾的假设称为备择假设，记为 H 1 。
在例 8－1 中，我们把涉及的两种情况用假设的形式表示
出来，第一个假设 μ ≤1500 表示采用新工艺后产品平均寿命没有显著性提高，第二个假设 μ >1500 表示采用新工艺后产品平
均寿命有显著性提高。第一个假设为原假设，即“ H 0 ：μ
定义 8 给定犯第一类错误的概率不大于 α 所作的假设检验称为显著性检验，称 α 为显著性水平。例 8－2 某车间用一台包装机包装食盐，每袋食盐的净重是一个随机变量，它服从正态分布。当包装机正常时，其均值为 0.5kg ，标准差为 0.015kg 。某日开工后为检查包装机工作是否正常，随机地抽取它所包装的食盐 9 袋，称得样本均值 �� X =0. 511kg ，问在显著性水平 α =0.05 下，这天包装机工作是否正常。
由于无论是第一类错误还是第二类错误都是作假设检验时的随机事件，因此在假设检验中它们都有可能发生。我们当然希望尽可能使犯两类错误的概率都很小，但一般来说，当样本的容量固定时，若刻意地减少犯一类错误的概率，则犯另一类错误的概率往往会增大。若要使两类错误的概率都减小，就需增大样本的容量。在给定样本容量的情况下，我们总是对犯第一类错误的概率加以控制，使它不大于 α ，而不关心犯第二类错误的概率 β是增大了还是减小了，这样的假设检验就是显著性检验。

概率论与数理参数估计

概率论与数理参数估计参数估计是概率论与数理统计中的一个重要问题，其目标是根据样本数据推断总体的未知参数。

参数估计分为点估计和区间估计两种方法。

点估计是通过样本计算得到总体未知参数的一个估计值。

常见的点估计方法有最大似然估计和矩估计。

最大似然估计是通过观察到的样本数据，选择使得观察到的样本数据出现的概率最大的未知参数值作为估计值。

矩估计是通过样本的矩（均值、方差等统计量），与总体矩进行对应，建立样本矩与总体矩之间的方程组，并求解未知参数。

这两种方法都可以给出参数的点估计值，但是其性质和效果不尽相同。

最大似然估计具有渐近正态性和不变性，但是可能存在偏差较大的问题；矩估计简单且易于计算，但是可能存在方程组无解的情况。

区间估计是给出参数估计结果的一个范围，表示对未知参数值的不确定性。

常见的区间估计方法有置信区间和预测区间。

置信区间是指给定的置信水平下，总体参数的真值落在一些区间内的概率。

置信区间的计算依赖于样本的分布和样本量。

预测区间是对一个新的观察值进行预测的区间，它比置信区间要宽一些，以充分考虑不确定性。

在参数估计过程中，需要注意样本的选取和样本量的确定。

样本是总体的一个子集，必须能够代表总体的特征才能得到准确的估计结果。

样本量的确定是通过统计方法和实际需求来确定的，要保证估计结果的可靠性。

参数估计在实际应用中有着广泛的应用。

例如，在医学领域中，通过对病人的样本数据进行统计分析，可以推断患者患其中一种疾病的概率，进而进行治疗和预防措施的制定。

在金融领域中，可以通过对股票的历史价格进行统计分析，推断未来股价的变动趋势，从而进行投资决策和风险评估。

在市场调研中，可以通过对消费者的问卷调查数据进行统计分析，推断消费者的偏好和需求，为企业的市场开发和产品设计提供依据。

综上所述，概率论与数理统计中的参数估计是一门重要的学科，通过对样本数据的统计分析，可以推断总体的未知参数，并对不确定性进行评估。

参数估计在实际应用中有着广泛的应用，对于科学研究和决策制定具有重要的意义。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第八章参数估计
§8.1点估计点估计
2010-10-21
1
估计量
定义8.1 设总体X的分布函数为定义设总体的分布函数为
F ( x , θ)
从总体X中抽取样本从总体中抽取样本 X 1 , X 2 ,..., X n 其观测值为 x1 , x 2 ,..., x n 构造某个统计量
θ( X 1 , X 2 ,..., X n ) 用它的观测值 θ( x1 , x 2 ,..., x n ) 来估计未知参数 θ ，则
,σ
2
的矩估计量。的矩估计量。
解：因为有两个参数，故将总体前二阶矩表因为有两个参数，为参数的函数，为参数的函数，即
m1 = E ( X ) = 2 2 2 m2 = E ( X ) = σ +
2010-10-21 9
例8.2
反解得
= m1 2 2 σ = m 2 m1
再用2阶样本原点矩替代对应的总体矩得再用阶样本原点矩替代对应的总体矩得
= X 2 σ = A2 X2 = B2
2010-10-21
10
参数函数的矩估计
若 η = g ( θ )为未知参数 θ 的连续函数 , 则 η 也是一个未知参数
^ ^ ^
, 容易证明 : η 的矩估计
量为 η = g ( θ ), θ 为 θ 的矩估计量 .
例 8 .3 .总体 X ~ B ( N , p ), N 为已知 , Ｘ１, X 2 , , X n 为样本 . (1)求参数 p 的矩估计量 ; ( 2 )求总体方差 σ 的矩估计量并将其表示
x 总体的分布律或者密度函数已知，总体的分布律或者密度函数已知， 1 , x 2 ,..., x n 为一组样本观测值，为一组样本观测值，若存在θ 的一个值
θ ( x1 , x 2 ,..., x n ) = θ
使得 L(θ ) = max L(θ )
则称 θ ( x1 , x 2 ,..., x n ) 是 θ 的极大似然估计值，的极大似然估计值，
2010-10-21 15
练习
设 X 1 , X 2 , , X n 是来自均匀分布总体 U ( θ , θ + 1 )( θ > 0 ) 上的一个样本，则 θ 上的一个样本，的矩估计是 _______ .
2θ + 1 解： m 1 = E ( X ) = ， 2
^
2θ + 1 X 令：＝ 2 1 故矩估计量为：故矩估计量为： θ = X 2 2010-10-21
2010-10-21
一般地设总体X有分布函数 F ( x , θ ) ，若一般地设总体有分布函数
7
多个未知参数时的矩估计反解出θ1 ,θ 2 ,...,θ k为m1 , m2 ,...,mk 的函数 n
再用 r 则得到矩估计量
1 r 阶样本原点矩 Ar = ∑ X i 替代 m r n i =1
x2 2θ
例8.1
解：（1）先求总体期望。：（）先求总体期望。
m = E( X) = ∫ xf ( x, θ)dx
0
+∞
=∫
+∞
0
x x e θ
x2 2θ
dx =
2π θ
∫
+∞
0
x
2
1 e 2π θ
x2 2θ
dx
4
2010-10-21
例8.1
= 2π θ = θ 2 2π θ 2
注意：注意：这里用到一个结果：当X ~ N(0, σ 2 )时, E( X 2 ) = D( X) = σ 2
+∞ 1 2σ 2 e dx 2π σ x2 x2
而 E( X 2 ) = = 2∫
+∞
∫
∞
x2
0
x
2
1 2 2σ 2 e dx = σ 2π σ
5
2010-10-21
例8.1
反解θ 得到
用 X 替换，得 θ 的矩估计量θ 替换m，
2 2 θ= m π
=
2
( 2 )若 3.5,4.2,5.3,2.1,4.4,7.5,6.2,4.1,5.4作为一组样本观测值，一组样本观测值，求 θ 的矩估计值 .
1 9 x 解： = ∑ x i = 4.74, 9 i =1 2 2 2 = x = × 4.74 2 = 14.34 θ π 3.14
^
π
X
2
2010-10-21
6
多个未知参数时的矩估计
θ = (θ 1 , θ 2 ,...,θ k ) 为 k 维未知参数，且维未知参数， X的直到 k 阶原点矩存在，则有的直到阶原点矩存在， m1 = E ( X ) = m1 (θ 1 ,...,θ n ) 2 m 2 = E ( X ) = m 2 (θ 1 ,...,θ n ) m = E ( X k ) = m (θ ,...,θ ) k 1 n k
X
10次的结果为次的结果为
(数据样本观测值数据,样本观测值数据样本观测值)
( x1 , x 2 ,..., x10 ) = (1,0,1,0,0,0,1,0,0,0)
2010-10-21 19
极大似然估计引例
次摸球的所有可能的结果有多少个? 问:10次摸球的所有可能的结果有多少个次摸球的所有可能的结果有多少个
极大似然估计的思想是：一随机试验有若干极大似然估计的思想是：个可能的结果，如果在一次试验中某一结果出个可能的结果，现了，现了，我们便认为这一结果是所有可能出现的结果中，出现概率最大的一个。结果中，出现概率最大的一个。因此 p 应该达到最大的估计。是使 L( p ) 达到最大的估计。
2010-10-21 12
例8.3
的矩估计量为：则σ = V (m )的矩估计量为：
2
2 = V( X) = X X . σ N
^
2
例 8.4.总体 X服从均匀分布 U ( θ 1 , θ 2 ), 其中 θ 1 , θ 2 为两个未知参数 , X 1 , X 2 , , X n 为样本，求 θ 1， θ 2的矩估计量 .
而统计量 θ ( X 1 , X 2 ,..., X n ) 称为 θ 的极大似然估计量。然估计量。
2010-10-21 23
极大释然估计求解
(1)写出似然函数； L(θ ) = 写出似然函数；写出似然函数
∏ f ( x ,θ ).
i =1 n i
n
(2)对似然函数求对数；对似然函数求对数；对似然函数求对数
令d ( L( p )) / dp = 0 p = 0.3
2010-10-21 21
总体为连续型时的似然函数
设总体X是连续型随机变量，密度函数为设总体是连续型随机变量，是连续型随机变量 f ( x , θ) 若取得样本观测值 x1 , x 2 ,..., x n 则因为随机变量 X i 落在点 x i 的邻域内的概率近似于 f ( x i , θ ) x i 则似然函数 n 可写为 f ( x , θ ) x
或 = ∏ p ( xi ,θ ).
i= i =1
(3)对求对数后的似然函数求导；对求对数后的似然函数求导；对求对数后的似然函数求导 (4)令导数为；解方程令导数为0；令导数为
d ln L(θ ) = 0. dθ
14
2010-10-21
例8.4
代入 m及σ 的矩估计量 X及B 2 , 得θ1 , θ 2
2
的矩估计量
θ 1 = X 3B 2 , ^ θ 2 = X + 3B 2
^
: 矩估计的特点和缺陷
总体的分布从例 ( 矩估计一般不要求知道 8.2可以看出使用起来简单但它未充分 ), , , 故有时精度较差 . 利用到已知分布的信息
∏
i =1
i
i
因为x i 与 θ 无关，故只要使无关，
n i =1
L(θ ) = ∏ f ( x i , θ ) 达到极大即可。达到极大即可。
22
2010-10-21
Maximum Likelihood Estimation
定义8.2 设总体X仅含一个未知参数，并且定义设总体仅含一个未知参数，仅含一个未知参数
^
16
§8.1.2 极大似然法
设总体X是离散型随机变量，分布律为设总体是离散型随机变量，是离散型随机变量的概率为
P ( X = x ) = p( x , θ )则样本取某组观测值
P {X 1 = x1 , X 2 = x 2 ,..., X n = x n }
n
= P{ X 1 = x1 }P { X 2 = x 2 } P { X n = x n } = ∏ p( x i ,θ ) = L(θ )
2
为 X的函数 .
2010-10-21 11
例8.3
解：二项分布 B( N, p )服从自然指数分布族分布 .
N 2 ( 2)要将总体方差 σ 表示为 m的函数 , 即
m m = E( X) = Np, 故p = , 于是p的 N ^ X 矩估计量为：矩估计量为： =
p
m2 2 2 σ = D( X) = Np(1 p ) = Np Np = m N
m = E ( X ) 一般是 θ 的函数，即的函数，
m = m (θ) 由此反解出 θ = g(m ) θ
再由样本均值
X
代替
m ，就得到 θ
P
的一个估计量 θ = g ( X )
注：A k → m k , X → m = = E( X)
P
2010-10-21 3
x e ,x>0 设总体X的密度为设总体的密度为 f ( x , θ ) = θ 未知，的矩估计量。 θ 未知分布，其中分布，则X服从服从分布