概率统计样本估计

合集下载

概率论与数理统计第六章统计量,样本及抽样分布

(2) X 1
~
2 (n1 ),
X2
~
2 (n2 ),
X1,
X
独
2
立
，
则
X 1 X 2 ~ 2 (n1 n2 ).
(3) X ~ 2 (n), E( X ) n, D( X ) 2n,
.
2021/3/11
20
(4). 2分布的分位点
对于给定的正数，0 1,
称满足条件
P
2 2 (n)
k 1
,
X
k 2
,,
X
k n
独立且与X
k同分布,
E
(
X
k i
)
k
k 1,2,,n 再由辛钦大数定律可得上述结论.
再由依概率收敛性质知，可将上述性质推广为
g( A1, A2 ,, Ak ) p g(1,2 ,,k ) 其中g为连续函数.
这就是矩估计法的理论根据.
2021/3/11
18
皮肌炎图片——皮肌炎的症状表现数理统计
10
3. 总体、样本、样本值的关系
事实上我们抽样后得到的资料都是具体的、确定的值. 如我们从某班大学生中抽取10人测量身高, 得到10个数，它们是样本取到的值而不是样本. 我们只能观察到随机变量取的值而见不到随机变量.
2021/3/11
11
总体（理论分布）？
样本
样本值
统计是从手中已有的资料--样本值，去推断总体的情况---总体分布F(x)的性质.
2. t分布的密度函数关于t 0对称.当n充分大时, 其图形近似于标准正态分布概率密度的图形，
再由函数的性质有
lim h(t)
n
1 et2 2. 2

概率与统计的基本概念及计算方法

概率与统计的基本概念及计算方法概率与统计是数学中的两个重要分支，它们在各个领域中都有着广泛的应用。

概率与统计的基本概念及计算方法是我们理解和运用这两个概念的基础。

本文将从概率与统计的基本概念入手，深入探讨其计算方法，并结合实际案例进行说明。

一、概率的基本概念概率是研究随机现象的可能性的数学工具。

它描述了某一事件发生的可能性大小。

概率的基本概念包括样本空间、事件和概率的定义。

样本空间是指一个随机试验所有可能结果的集合。

例如，掷一枚骰子的样本空间为{1, 2, 3, 4, 5, 6}。

事件是样本空间的一个子集，它表示我们感兴趣的结果。

例如，掷一枚骰子得到奇数的事件可以表示为{1, 3, 5}。

概率的定义是指一个事件发生的可能性大小，它的取值范围在0到1之间，其中0表示不可能事件，1表示必然事件。

计算概率的方法有频率法和古典概型法。

频率法是通过实验的频率来估计概率。

例如，我们可以通过多次掷骰子的实验，统计出掷出奇数的频率，从而估计出掷出奇数的概率。

古典概型法是指在样本空间中，每个结果发生的可能性相等。

例如，掷一枚均匀的骰子，每个数字出现的可能性相等，所以每个数字的概率为1/6。

二、统计的基本概念统计是研究数据的收集、分析和解释的一门学科。

它通过对一定数量的数据进行分析，推断出总体的特征。

统计的基本概念包括总体和样本、参数和统计量、抽样和抽样误差。

总体是指研究对象的全体，它包含了我们感兴趣的所有个体。

例如，我们想研究全国人口的平均身高，那么全国所有人口就是我们的总体。

样本是从总体中选取的一部分个体，它是总体的一个子集。

参数是用来描述总体特征的数值，例如总体的平均值、方差等。

统计量是用来描述样本特征的数值，例如样本的平均值、方差等。

抽样是从总体中选取样本的过程。

为了保证抽样的公正性和代表性，我们通常采用随机抽样的方法。

抽样误差是指样本统计量与总体参数之间的差异。

由于样本是从总体中选取的一部分，所以样本统计量与总体参数之间存在一定的误差。

(新课标)高考数学大一轮复习-第十章算法及概率、统计 10.6 用样本估计总体课件文

授人以渔
题型一用样本频率分布估计总体的分布
例 1 某制造商 3 月生产了一批乒乓球，随机抽样 100 个进
行检查，测得每个球的直径(单位：mm)，将数据分组如下表：
分组
频数频率
[39.95，39.97) 10
[39.97，39.99) 20
[39.99，40.01) 50
[40.01，40.03] 20
1．判断下面结论是否正确(打“√”或“×”)． (1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势． (2)一组数据的众数可以是一个或几个，那么中位数也具有相同的结论． (3)一组数据的方差越大，说明这组数据越集中．
(4)从频率分布直方图得不出原始的数据内容，把数据表示成直方图后，原有的具体数据信息就被抹掉了．
(3)整体数据的平均值约为 39.96×0.10＋39.98×0.20＋40.00 ×0.50＋40.02×0.20≈40.00(mm)．
【答案】 (1)略 (2)0.9 (3)40.00 mm
探究 1 (1)画频率分布直方图时，注意纵轴表示的不是频率，而是频率与组距之比．
【解析】
分组
频数频率频率/组距
[39.95，39.97) 10 0.10
5
[39.97，39.99) 20 0.20
10
[39.99，40.01) 50 0.50
0.20
10
合计
100 1
频率分布直方图如下：
(2)误差不超过 0.03 mm，即直径落在[39.97，40.03]范围内，其概率为 0.2＋0.5＋0.2＝0.9.
请注意 1．本节是用样本估计总体，是统计学的基础．以考查频率分布直方图、茎叶图、平均数、方差、标准差为主，同时考查对样本估计总体的思想的理解． 2．本节在高考题中主要是以选择题和填空题为主，属于中低档题目．

概率论与数理统计参数估计

数理统计
你就会想，只发一枪便打中, 猎人命中的概率一般大于这位同学命中的概率 . 看来这一枪是猎人射中的 . 这个例子所作的推断已经体现了极大似然法的基本思想 .
数理统计
最大似然估计原理：
当给定样本X1,X2,…Xn时，定义似然函数为：
L( ) P( ; x1 , , xn ) P( ; X 1 x1 , X 2 x2 , , X n xn P( X 1 x1 ; ) P( X 2 x2 ; ) P( X n xn ; ) L( ) f ( ; x1 , , xn ) f ( x1 ; ) f ( x2 ; ) f ( xn ; )
而全部信息就由这100个数组成 . 据此,我们应如何估计和呢 ?
数理统计
二、寻求估计量的方法 1. 矩估计法 2. 极大似然法
数理统计
1. 矩估计法
矩估计法是英国统计学家K.皮尔逊最早提出来的 . 由辛钦定理 , 若总体 X 的数学期望 E X μ 有限, 则有

1 n P X X i E( X ) μ n i 1 1 n k P Ak X i E ( X k ) μk ( k 1,2,) n i 1
数理统计
常用的几条标准是：
1．无偏性 2．有效性 3．相合性这里我们重点介绍前面两个标准 .
数理统计
一、无偏性
估计量是随机变量，对于不同的样本值会得到不同的估计值 . 我们希望估计值在未知参数真值附近摆动，而它的期望值等于未知参数的真值. 这就导致无偏性这个标准 .
ˆ( X ,, X ) 是未知参数的估计量，若设 1 n
在似然函数中可以看成是“原因”,而 ( x1 , x2 ,, xn ) 则被看成是 “结果” .导致结果 ( x1 , x2 ,, xn ) 发生的所有

概率与统计

<1>众数：一组数据中出现次数最多的数。 <2>中位数：将数据从小到大排列，最中间的数是中位数。 <3>平均数：反映一组数据平均水平。 <4>标准差：反映一组数据离散程度。 <5>方差：标准差的平方。 <6>极差：一组数据中最大值和最小值的差。
平均数、众数和中位数都是描述一组数据的集中趋势的量，但它们描述的角度和适用的范围又不尽相同。
三.变量间的相关关系及回归分析
1.相关关系:
当自变量取值一定时，因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。与函数关系不同，相关关系是一种不确定关系。
2.散点图
3.回归分析：
对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
ˆx a <1>回归直线方程: y ˆ b
一般地，设一个总体含有N个个体，从中逐个不放回地抽取n个个体作为样本(n≤N)，如果每次抽取时总体内的各个个体被抽到的机会都相等，就把这种抽样方法叫做简单随机抽样。（抽签法，随机数表法）
3.系统抽样
当总体中的个体比较多时，首先把总体分成均衡的若干部分，然后按照事先确定的规则，从每一部分中抽取一个个体，得到所需要的样本，这种抽样方法叫做系统抽样。
(2)特点：
①无限性：试验中所有可能出现的结果（基本事件）有无限多个； ②等可能性：试验结果在每一个区域内均匀分布。
构成事件A的区域长度（面积或体积） (3)计算公式： P( A) 试验的全部结果所构成的区域长度（面积或体积）
7.条件概率 (1)定义：
对于任何两个事件A和B，在已知事件A发生的条件下，事件B发生的概率叫做条件概率，用符号P(B|A)来表示。

高中数学第五章统计与概率51统计514用样本估计总体教学课件新人教B版必修第二册

2021/4/17
高中数学第五章统计与概率51统计514用样本估计总体教学课件新人教B版必修第二册
14
解
因为
x甲
=
8+11+14+15+22 5
=14，
x乙
=
6+7+10+23+24 5
=14.
x甲 x乙.
s
2 甲
=
62 +32 +02 +12 +82 5
=22，
s
2 乙
=
82 +72 +42 +92 +102 5
（2）已知抽取的样本中，男生20人，女生15人，怎样估计总体平均数与方差？
2021/4/17
高中数学第五章统计与概率51统计514用样本估计总体教学课件新人教B版必修第二册
8
问题3.如何分析频率分布直方图，用样本的分布估计总体的分布通过整理某中学1257名高一学生期中考试数学成绩，得到如下数据，并作出了频率分布直方图和折线图.
2021/4/17
高中数学第五章统计与概率51统计514用样本估计总体教学课件新人教B版必修第二册
16
2021/4/17
高中数学第五章统计与概率51统计514用样本估计总体教学课件新人教B版必修第二册
17
解（1）由（0.002+0.0095+0.011+0.0125+x+0.005+0.0025）x20=1，得x=0.0075. （2）众数为[220,240）区间的中点230. 因为（0.002+0.0095+0.011）x20=0.45<0.5，所以中位数在[220,240）

概率与统计常见题型(文)

概率与统计常见题型一、随机抽样和用样本估计总体规律方法 (1)解答与抽样方法有关的问题的关键是深刻理解各种抽样方法的特点、适用围和实施步骤，熟练掌握系统抽样中被抽个体的确定方法，掌握分层抽样中各层人数的计算方法．(2)与频率分布直方图、茎叶图有关的问题，应正确理解图表中各个量的意义，通过图表掌握信息是解决该类问题的关键．(3)在做茎叶图或读茎叶图时，首先要弄清楚“茎”和“叶”分别代表什么，正确求出数据的众数和中位数；方差越小，数据越稳定．特别提醒：频率分布直方图中的纵坐标为频率组距，而不是频率值．1、交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况，对甲、乙、丙、丁四个社区做分层抽样调查．假设四个社区驾驶员的总人数为N ，其中甲社区有驾驶员96人．若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43，则这四个社区驾驶员的总人数N 为( )． A ．101B ．808C ．1 212D ．2 0122、如图是根据部分城市某年6月份的平均气温(单位：℃)数据得到的样本频率分布直方图，其中平均气温的围是[20.5,26.5]，样本数据的分组为[20.5,21.5)，[21.5,22.5)，[22.5,23.5)，[23.5,24.5)，[24.5,25.5)，[25.5,26.5]．已知样本中平均气温低于22.5 ℃的城市个数为11，则样本中平均气温不低于25.5 ℃的城市个数为__________．3、如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图，则该运动员在这五场比赛中得分的方差为________．(注：方差s 2＝1n[(x 1－x )2＋(x 2－x )2＋…＋(x n －x )2]，其中x 为x 1，x 2，…，x n 的平均数)二、变量的相关性和统计案例规律方法解决线性回归问题的关键是：(1)正确理解计算b ^，a ^的公式并准确的计算，若对数据作适当的预处理，可避免对大数字进行运算；(2)分析两个变量的相关关系时，可根据样本数据作散点图来确定两个变量之间是否具有相关关系，若具有线性相关关系，则可通过线性回归方程估计和预测变量的值．4、某工厂为了对新研发的一种产品进行合理定价，将该产品按事先拟定的价格进行试销，得到如下数据：单价x /元 8 8.2 8.4 8.6 8.8 9 销量y /件 90 848380 75 68(1)求回归直线方程y ^＝b ^x ＋a ，其中b ＝－20，a ＝y －b x ；(2)预计在今后的销售中，销量与单价仍然服从(1)中的关系，且该产品的成本是4元/件，为使工厂获得最大利润，该产品的单价应定为多少元？(利润＝销售收入－成本) 5、某地最近十年粮食需求量逐年上升，下表是部分统计数据：(1)利用所给数据求年需求量与年份之间的回归直线方程y ＝b x ＋a ； (2)利用(1)中所求出的直线方程预测该地2013年的粮食需求量．三、古典概型与几何概型规律方法 (1)解决古典概型问题的关键是①正确求出基本事件总数和所求事件包含的基本事件数．②P (A )＝mn既是古典概型的定义，又是求概率的计算公式，应熟练掌握．(2)解决几何概型的关键是寻找试验的全部结果构成的区域和事件发生时构成的区域，有时需要设出变量，在坐标系中表示所需要的区域．(3)若事件正面情况比较多、反面情况较少，则一般利用对立事件进行计算．对于“至少”、“至多”等事件的概率计算，往往用这种方法求解．6、如图，在圆心角为直角的扇形OAB 中，分别以OA ，OB 为直径作两个半圆．在扇形OAB 随机取一点，则此点取自阴影部分的概率是( )．A ．12－1π B ．1πC ．1－2πD ．2π第6题第8题7、有3个兴趣小组，甲、乙两位同学各自参加其中一个小组，每位同学参加各个小组的可能性相同，则这两位同学参加同一个兴趣小组的概率为( )． A ．13B ．12C ．23D ．348、如图，矩形ABCD 中，点E 为边CD 的中点，若在矩形ABCD 部随机取一个点Q ，则点Q 取自△ABE 部的概率等于( )．A ．14 B ．13C ．12 D ．23四、概率统计综合问题规律方法 1．抽样方法和概率问题的综合一般是从分层抽样开始，设置分层抽样中的一些计算问题，然后就分层抽样中各个层设置一个古典概型计算问题．虽然此类题目所考查的知识横跨两部分，但是分解开来后，并不难解决．由于此类题目多与实际问题联系紧密，题干较长，信息量大，且会有图表，因此要认真审题并要掌握解答题目所需的知识．要做到：(1)分层抽样中的公式运用要准确． ①抽样比＝样本容量个体总量＝各层样本容量各层个体总量.②层1的数量∶层2的数量∶层3的数量＝样本1的容量∶样本2的容量∶样本3的容量． (2)在计算古典概型概率时，基本事件的总数要计算准确． 2．频率分布与概率的综合主要有两种形式：(1)题目中给出了样本的频率分布表，它反映了样本在各个组的频数和频率，要求根据频率分布表画出频率分布直方图，并根据样本在各组的频数，设置分层抽样和概率计算等．(2)利用频率与概率的关系，频率近似于概率，给出某类个体中的一个个体被抽中的概率，从而求出样本容量及其他类个体的数量．在解决此类问题时，可将题目中所给概率作为此类个体被抽中的频率，从而求解． 9、近年来，某市为了促进生活垃圾的分类处理，将生活垃圾分为厨余垃圾、可回收物和其他垃圾三类，并分别设置了相应的垃圾箱．为调查居民生活垃圾分类投放情况，现随机抽取了该市三类垃圾箱中总计1 000吨生活垃圾，数据统计如下(单位：吨)：“厨余垃圾”箱 “可回收物”箱 “其他垃圾”箱厨余垃圾 400 100 100 可回收物 30 240 30 其他垃圾202060(1)试估计厨余垃圾投放正确的概率； (2)试估计生活垃圾投放错误的概率；(3)假设厨余垃圾在“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱的投放量分别为a ，b ，c ，其中a ＞0，a ＋b ＋c ＝600.当数据a ，b ，c 的方差s 2最大时，写出a ，b ，c 的值(结论不要求证明)，并求此时s 2的值．(注：s 2＝1n[(x 1－x )2＋(x 2－x )2＋…＋(x n －x )2]，其中x 为数据x 1，x 2，…，x n 的平均数)10、某河流上的一座水力发电站，每年六月份的发电量Y (单位：万千瓦时)与该河上游在六月份的降雨量X (单位：毫米)有关．据统计，当X ＝70时，Y ＝460；X 每增加10，Y 增加5.已知近20年X 的值为：140,110,160,70,200,160,140,160,220,200,110,160,160,200,140,110,160,220,140,160. (1)完成如下的频率分布表近20年六月份降雨量频率分布表降雨量 70 110 140 160 200 220 频率120420220(2)求今年六月份该水力发电站的发电量低于490(万千瓦时)或超过530(万千瓦时)的概率．五、数形结合思想——解决有关统计问题(1)通过频率分布直方图和频数条形图研究数据分布的总体趋势； (2)根据样本数据散点图确定两个变量是否存在相关关系．解答时注意的问题： (1)频率分布直方图中的纵坐标为频率组距，而不是频率值；(2)注意频率分布直方图与频数条形图的纵坐标的区别．11、为了解学生身高情况，某校以10%的比例对全校700名学生按性别进行分层抽样调查，测得身高情况的统计图如下：(1)估计该校男生的人数；(2)估计该校学生身高在170～185cm 之间的概率；(3)从样本中身高在180～190cm 之间的男生中任选2人，求至少有1人身高在185～190cm 之间的概率．概率与统计练习：1．在某次测量中得到的A 样本数据如下：82,84,84,86,86,86,88,88,88,88.若B 样本数据恰好是A 样本数据每个都加2后所得数据，则A ，B 两样本的下列数字特征对应相同的是( )．A ．众数B ．平均数C ．中位数D ．标准差2．对某商店一个月每天的顾客人数进行了统计，得到样本的茎叶图(如图所示)，则该样本的中位数、众数、极差分别是( )．A ．46,45,56 B ．46,45,53C ．47,45,56 D ．45,47,533．在长为12 cm 的线段AB 上任取一点C .现作一矩形，邻边长分别等于线段AC ，CB 的长，则该矩形面积大于20 cm 2的概率为( )．A ．16B ．13C ．23D ．454．袋中有五卡片，其中红色卡片三，标号分别为1,2,3；蓝色卡片两，标号分别为1,2. (1)从以上五卡片中任取两，求这两卡片颜色不同且标号之和小于4的概率；(2)向袋中再放入一标号为0的绿色卡片，从这六卡片中任取两，求这两卡片颜色不同且标号之和小于4的概率．5．设某大学的女生体重y (单位：kg)与身高x (单位：cm)具有线性相关关系．根据一组样本数据(x i ，y i )(i＝1,2，…，n )，用最小二乘法建立的回归方程为y ^＝0.85x －85.71，则下列结论中不正确的是( )．A ．y 与x 具有正的线性相关关系B ．回归直线过样本点的中心(x ，y )C ．若该大学某女生身高增加1cm ，则其体重约增加0.85kgD ．若该大学某女生身高为170c m ，则可断定其体重必为58.79kg6．要完成下列两项调查：①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户调查社会购买力的某项指标；②从某中学的15名艺术特长生中选出3人调查学习负担情况．宜采用的抽样方法依次为( )．A ．①简单随机抽样法，②系统抽样法B ．①分层抽样法，②简单随机抽样法C ．①系统抽样法，②分层抽样法D ．①②都用分层抽样法7．容量为20的样本数据，分组后的频数如下表：则样本数据落在区间[10,40)的频率为( )．分组 [10,20) [20,30) [30,40) [40,50) [50,60) [60,70) 频数234 542A ．0.35B ．0.45C ．0.55D ．0.658．设不等式组⎩⎪⎨⎪⎧0≤x ≤2，0≤y ≤2表示的平面区域为D ，在区域D 随机取一个点，则此点到坐标原点的距离大于2的概率是( )．A ．π4B ．π－22C ．π6D ．4－π49．为了分析某同学在班级中的数学学习情况，统计了该同学在6次月考中的数学名次，用茎叶图表示如图所示，则该组数据的中位数为__________．10．若某产品的直径长与标准值的差的绝对值不超过1 mm 时，则视为合格品，否则视为不合格品，在近期一次产品抽样检查中，从某厂生产的此种产品中，随机抽取5 000件进行检测，结果发现有50件不合格品，计算这50件不合格品的直径长与标准值的差(单位：mm)，将所得数据分组，得到如下频率分布表：分组频数频率[－3，－2)0.10 [－2，－1) 8(1,2]0.50 (2,3] 10 (3,4] 合计501.00(1)将上面表格补充完整；(2)估计该厂生产的此种产品中，不合格品的直径长与标准值的差落在区间(1,3]的概率；(3)现对该厂这种产品的某个批次进行检查，结果发现有20件不合格品，据此估算这批产品中的合格品的件数．11．甲、乙两位同学参加数学竞赛培训，现分别从他们在培训期间参加的若干次预赛成绩中随机抽取5次，绘制成茎叶图如图：(1)现要从中选派一人参加数学竞赛，从统计学的角度考虑，你认为选派哪位学生参加合适？请说明理由； (2)若在茎叶图中的甲、乙预赛成绩中各任取1次成绩分别记为a 和b ，求满足a ＞b 的概率．1、解析：四个社区抽取的总人数为12＋21＋25＋43＝101，由分层抽样可知，9612＝N101，解得N ＝808.故选B.2、9 解析：由于组距为1，则样本中平均气温低于22.5 ℃的城市频率为0.10＋0.12＝0.22.平均气温低于22.5 ℃的城市个数为11，所以样本容量为110.22＝50. 而平均气温高于25.5 ℃的城市频率为0.18，所以，样本中平均气温不低于25.5 ℃的城市个数为50×0.18＝9.3、6.8 解析：∵x ＝8＋9＋10＋13＋155＝11，∴s 2＝8－112＋9－112＋10－112＋13－112＋15－1125＝6.8.4、解：(1)由于x ＝16(x 1＋x 2＋x 3＋x 4＋x 5＋x 6)＝8.5，y ＝16(y 1＋y 2＋y 3＋y 4＋y 5＋y 6)＝80，所以a ^＝y －b ^x ＝80＋20×8.5＝250，从而回归直线方程为y ^＝－20x ＋250. (2)设工厂获得的利润为L 元，依题意得L ＝x (－20x ＋250)－4(－20x ＋250)＝－20x 2＋330x －1 000＝－202334x ⎛⎫- ⎪⎝⎭＋361.25，当且仅当x ＝8.25时，L 取得最大值．故当单价定为8.25元时，工厂可获得最大利润．5、解：(1)由所给数据看出，年需求量与年份之间是近似直线上升，下面来求回归直线方程，为此对数据预处理如下：年份－2006－4－2 0 24需求量－257 －21 －11 0 19 29对预处理后的数据，容易算得x ＝0，y ＝3.2，b ^＝－4×－21＋－2×－11＋2×19＋4×29－42＋－22＋22＋42＝26040＝6.5，a ^＝y －b ^x ＝3.2. 由上述计算结果，知所求回归直线方程为y ^－257＝b ^(x －2 006)＋a ^＝6.5(x －2 006)＋3.2，即y ^＝6.5(x －2 006)＋260.2. ①(2)利用直线方程①，可预测2013年的粮食需求量为：6．5×(2 013－2 006)＋260.2＝6.5×7＋260.2＝305.7(万吨)≈306(万吨)．6、C 解析：设OA ＝OB ＝2R ，连接AB ，如图所示，由对称性可得，阴影的面积就等于直角扇形拱形的面积，S 阴影＝14π(2R )2－12×(2R )2＝(π－2)R 2，S 扇＝πR 2，故所求的概率是π－2R 2πR2＝1－2π.7、A 解析：记三个兴趣小组分别为1,2,3，甲参加1组记为“甲1”，则基本事件为“甲1，乙1；甲1，乙2；甲1，乙3；甲2，乙1；甲2，乙2；甲2，乙3；甲3，乙1；甲3，乙2；甲3，乙3”，共9个．记事件A 为“甲、乙两位同学参加同一个兴趣小组”，则事件A 包含“甲1，乙1；甲2，乙2；甲3，乙3”，共3个．因此P (A )＝39＝13.8、C 解析：由题意知，可设事件A 为“点Q 取自△ABE ”，构成试验的全部结果为矩形ABCD 所有点，事件A 为△ABE 的所有点，又因为E 是CD 的中点，所以S △ABE ＝12AD ×AB ，S 矩形ABCD ＝AD ×AB ，所以P (A )＝12.9、解：(1)厨余垃圾投放正确的概率约为： “厨余垃圾”箱里厨余垃圾量厨余垃圾总量＝400400＋100＋100＝23.(2)设生活垃圾投放错误为事件A ，则事件A 表示生活垃圾投放正确．事件A 的概率约为“厨余垃圾”箱里厨余垃圾量、“可回收物”箱里可回收物量与“其他垃圾”箱里其他垃圾量的总和除以生活垃圾总量，即P (A )约为400＋240＋601 000＝0.7，所以P (A )约为1－0.7＝0.3.(3)当a ＝600，b ＝c ＝0时，s 2取得最大值．因为x ＝13(a ＋b ＋c )＝200，所以s 2＝13×[(600－200)2＋(0－200)2＋(0－200)2]＝80 000.10、解：(1)在所给数据中，降雨量为110毫米的有3个，为160毫米的有7个，为200毫米的有3个，故近20年六月份降雨量频率分布表为降雨量 70 110 140 160 200 220 频率120 320420720320220(2)P (“发电量低于490万千瓦时或超过530万千瓦时”)＝P (Y ＜490或Y ＞530)＝P (X ＜130或X ＞210)＝P (X ＝70)＋P (X ＝110)＋P (X ＝220)＝120＋320＋220＝310.故今年六月份该水力发电站的发电量低于490(万千瓦时)或超过530(万千瓦时)的概率为310.11、解：(1)样本中男生人数为40，由分层抽样比例为10%估计全校男生人数为400.(2)由统计图知，样本中身高在170～185cm 之间的学生有14＋13＋4＋3＋1＝35人，样本容量为70，所以样本中学生身高在170～185cm 之间的频率f ＝3570＝0.5，故由f 估计该校学生身高在170～185cm 之间的概率P 1＝0.5.(3)样本中身高在180～185cm 之间的男生有4人，设其编号为①，②，③，④，样本中身高在185～190cm 之间的男生有2人，设其编号为⑤，⑥，从上述6人中任取2人的树状图为：故从样本中身高在180～190cm 之间的男生中任选2人的所有可能结果数为15，至少有1人身高在185～190cm 之间的可能结果数为9，因此，所求概率P 2＝915＝35. 练习答案：：1．D 解析：由s ＝x 1－x2＋x 2－x2＋…＋x n －x2n，可知B 样本数据每个变量增加2，平均数也增加2，但(x n －x )2不变，故选D.2．A 解析：由茎叶图可知中位数为46，众数为45，极差为68－12＝56.故选A.3．C 解析：此概型为几何概型，由于在长为12 cm 的线段AB 上任取一点C ，因此总的几何度量为12，满足矩形面积大于20 cm 2的点在C 1与C 2之间的部分，如图所示．因此所求概率为812，即23，故选C.4．解：(1)标号为1,2,3的三红色卡片分别记为A ，B ，C ，标号为1,2的两蓝色卡片分别记为D ，E ，从五卡片中任取两的所有可能的结果为：(A ，B )，(A ，C )，(A ，D )，(A ，E )，(B ，C )，(B ，D )，(B ，E )，(C ，D )，(C ，E )，(D ，E )，共10种．由于每一卡片被取到的机会均等，因此这些基本事件的出现是等可能的．从五卡片中任取两，这两卡片颜色不同且它们的标号之和小于4的结果为：(A ，D )，(A ，E )，(B ，D )，共3种．所以这两卡片颜色不同且它们的标号之和小于4的概率为310.(2)记F 为标号为0的绿色卡片，从六卡片中任取两的所有可能的结果为：(A ，B )，(A ，C )，(A ，D )，(A ，E )，(A ，F )，(B ，C )，(B ，D )，(B ，E )，(B ，F )，(C ，D )，(C ，E )，(C ，F )，(D ，E )，(D ，F )，(E ，F )，共15种．由于每一卡片被取到的机会均等，因此这些基本事件的出现是等可能的．从六卡片中任取两，这两卡片颜色不同且它们的标号之和小于4的结果为：(A ，D )，(A ，E )，(B ，D )，(A ，F )，(B ，F )，(C ，F )，(D ，F )，(E ，F )，共8种．所以这两卡片颜色不同且它们的标号之和小于4的概率为815.5．D 选项中，若该大学某女生身高为170 cm ，则其体重约为：0.85×170－85.71＝58.79 kg.故D 不正确． 6．①中总体由差异明显的几部分构成，宜采用分层抽样法，②中总体中的个体数较少，宜采用简单随机抽样法，故选B.7．B 解析：样本数据落在区间[10,40)的频数为2＋3＋4＝9，故所求的频率为920＝0.45.8．D 解析：题目中⎩⎪⎨⎪⎧0≤x ≤2，0≤y ≤2表示的区域为如图所示的正方形，而动点D 可以存在的位置为正方形面积减去四分之一圆的面积部分，因此P ＝2×2－π4·222×2＝4－π4，故选D.9．18.5 解析：由茎叶图知中间两位数为18和19，所以中位数为18＋192＝18.5.10．解：(1)分组频数频率 [－3,－2) 5 0.10 [－2,－1) 8 0.16 (1,2] 25 0.50 (2,3] 10 0.20 (3,4]20.04合计50 1.00(2)由频率分布表知，(1,3]的概率约为0.50＋0.20＝0.70；(3)设这批产品中的合格品数为x 件，依题意有505 000＝20x ＋20，解得x ＝5 000×2050－20＝1 980.所以该批产品中的合格品件数估计是1 980件． 7．解：由茎叶图知甲乙两同学的成绩分别为：甲：88 82 81 80 79乙：85 85 83 80 77 (1)方法一：派乙参赛比较合适，理由如下：甲的平均分=82x 甲，乙的平均分=82x 乙，甲、乙平均分相同；又甲的标准差的平方(即方差)s 2甲＝10，乙的标准差的平方(即方差)s 2乙＝9.6，s 2甲＞s 2乙，甲、乙平均分相同，但乙的成绩比甲稳定，所以派乙去比较合适．方法二：派乙参赛比较合适，理由如下：从统计学的角度看，甲获得85分以上(含85分)的概率P 1＝15，乙获得85分以上(含85分)的概率P 2＝25，甲的平均分=82x 甲，乙的平均分=82x 乙，平均分相同，所以派乙去比较合适．方法三：派乙参赛比较合适，理由如下：从得82分以上(含82分)去分析，甲获得82分以上(含82分)的概率P 1＝25，乙获得82分以上(含82分)的概率P 2＝35，甲的平均分=82x 甲，乙的平均分=82x 乙，平均分相同，所以派乙去比较合适．(2)甲、乙预赛成绩中各任取1次成绩分别记为(a ，b )，有(88,85)，(88,85)，(88,83)，(88,80)，(88,77)，(82,85)，(82,85)，(82,83)，(82,80)，(82,77)，(81,85)，(81,85)，(81,83)，(81,80)，(81,77)，(80,85)，(80,85)，(80,83)，(80,80)，(80,77)，(79,85)，(79,85)，(79,83)，(79,80)，(79,77)共25种，满足a ＞b 的有(88,85)，(88,85)，(88,83)，(88,80)，(88,77)，(82,80)，(82,77)，(81,80)，(81,77)，(80,77)，(79,77)共11种．满足a ＞b 的概率为1125.。

概率论与数理统计--- 估计量的评选标准

15
例3 设总体 X 的均值和方差均存在 ,nX1, „, Xn 是总体 X 的样本, C1 , C2 ,„ ,Cn 为不全相同且满足 C i 1 的任一组常数,
证明: (1) 样本的线性函数 Ci X i 是总体均值的无偏估计量 ; i 1 n n 1 X 较 C X 有效. (2) 总体均值的无偏估计量 X n i i i i 1 i 1 n n n 证(1) E ( C i X i ) C i EX i C i
24
譬如，在估计湖中鱼数的问题中, 若我们根据一个实际样本得到鱼数 N 的极大似然估计为 1000 条.
但实际上, N 的真值可能大于 1000 条, 也可能小于1000条. 若我们能给出一个区间, 在此区间内我们合理地相信 N 的真值位于其中, 这样对鱼数的估计就有把握多了.
也就是说, 我们希望确定一个尽可能小的区间, 使我们能以 • 比较高的可靠程度相信它包含真参数值.
i 1 j 1
n
m
解:(1) E(T)=an+bm =(na+mb) 当na+mb=1时, E(T)=
此时,T是的无偏估计
(2) D(T)=a2n+b24m
1 na 2 na 4m( ) m 2 4(1 na ) 2 na m 8n(1 na ) dD 0 0 2na 令 m da 4 (4n+m)a=4 a 4n m D(a)>0 此时D(T)最小,即T最有效 4 1 a , b 4n m 4n m
定义:设ˆ (X1,X2,…,Xn)为的估计量,若E(ˆ) 存在,且有 ˆ E ( ) , 则称ˆ 为的无偏估计量

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

§6.1点估计的几种方法● 参数估计问题----如何根据抽取的样本观测值12,,,n x x x 估计总体分布中的未知参数θ● 参数点估计问题----如何选取合适的统计量12ˆ(,,,)nX X X θ 估计未知参数θ。

称12ˆ(,,,)n XX X θ 为θ的估计量，12ˆ(,,,)nx x x θ 为θ的估计值.引例1 设总体],0[~θU X ，现从该总体中抽取容量为10的样本，样本值为0.5, 1.3, 0.6, 1.7, 2.2, 1.2, 0.8, 1.5, 2.0, 1.6试问应该如何估计未知参数(0)θ>？引例2 设总体),(~2σμN X ，现从该总体中抽取容量为10的样本，样本值为0.5, 1.3, 0.6, 1.7, 2.2, 1.2, 0.8, 1.5, 2.0, 1.6试问应该如何估计未知参数2,μσ？1. 矩法估计用样本矩代替总体矩，从而得到未知参数估计的方法，称为矩估计法. 例1 设总体2~(,)X N μσ，求未知参数2,μσ的矩估计.解因为()E X μ=，2)(σ=X D ，所以)(X E =μ，)(2X D =σ。

故2,μσ的矩估计分别为ˆX μ=，22ˆS =σ。

注：1）总体均值()E X 的矩估计是样本均值X ；总体方差()D X 的矩估计是样本方差2S ； 2）矩估计法直观、简便；估计总体均值和总体方差时不必知道总体的分布. 3）矩估计法需要总体的原点矩存在. 例2 设总体)(~λP X，未知参数0>λ。

求λ的矩估计.解因为λλ。

E=(XE，所以))=(X故λ的矩估计为Xλˆ。

=注：2S也可算是λ的矩估计。

2. 最大似然估计（1）最大似然原理：一个随机试验如有若干个可能的结果Ａ，Ｂ，Ｃ，….若在一次试验中结果Ａ出现，则可认为试验条件对Ａ出现有利，故应选择分布参数，使Ａ出现的概率最大。

例3 设有外形完全相同的两个箱子，甲箱有99个白球1个黑球，乙箱有1个白球99个黑球。

今随机抽取一箱，再从此箱中随机抽取一球，结果是白球。

试问这个白球是从哪个箱中取出的？解甲箱中取得白球的概率为99(|)100P =白甲；乙箱中取得白球的概率为1(|)100P =白乙。

可见，这个白球从甲箱中取出的概率比从乙箱中取出的概率大得多.根据极大似然原理，推断白球是从甲箱中取出的。

（2）似然函数：设样本12,,,nX X X 取自概率函数为);(θx p 的总体X ，12,,,n x x x 为样本观测值。

定义样本的联合概率函数为样本的似然函数，即∏==ni i x p L 1);()(θθ对离散随机变量总体X ，似然函数就是1()()nii i L P Xx θ===∏；即为样本出现的（联合）概率.对连续随机变量总体X ，似然函数为1()(;)ni i L f x θθ==∏。

即为样本出现的（联合）密度.（3）最大似然估计：选取参数θ的取值，使样本观测值12,,,nx x x 出现的概率最大，即使得似然函数()L θ达到最大值。

这样得到的估计称为参数θ的最大似然估计（MLE ）。

求参数θ的最大似然估计值，就是求似然函数()L θ的最大值点。

在ln ()L θ可导时可以通过求解似然方程: ln ()0d L d θθ=得到.例4 设总体~()XP λ，未知参数0λ>。

求λ的最大似然估计.解设样本观测值为12,,,n x x x ，则似然函数为111()!(!)niii x x nn ni i i i L e e x x λλλλλ=--==∑⎛⎫== ⎪⎝⎭∏∏故11ln ()()ln ln(!)nni ii i L x x n λλλ===--∑∑，有似然方程:1l n ()1ni i d L x n d λλλ==-=∑，解之得11ˆnii x xnλ===∑。

又ˆ1)(ln 12ˆ22<-=∑==ni ixd L d λλλλλ，故λ的最大似然估计为 X =λˆ。

例5 设总体~()Xe λ，未知参数0λ>。

求λ的最大似然估计。

解设样本观测值为12,,,nx xx ，则似然函数为()11()niii nx x ni L eeλλλλλ=--=∑==∏故1l n ()l n nii L nxλλλ==-∑，有似然方程:1ln ()0nii d L nxd λλλ==-=∑，解之得11ˆnii nxxλ===∑。

又ˆ)(ln 2ˆ22<-==λλλλλnd L d ，故λ的最大似然估计为 X1ˆ=λ。

例6 设总体],0[~θU X ，现从该总体中抽取容量为10的样本，样本值为0.5, 1.3, 0.6, 1.7, 2.2, 1.2, 0.8, 1.5, 2.0, 1.6求参数(0)θ>的矩估计及最大似然估计.解：因为1()2E X x dx θθθ=⋅=⎰，所以有矩法方程：2X θ=。

解之得θ的矩估计为 ˆ2X θ=，相应的矩估计值为68.22ˆ==x θ。

设样本观测值为 12,,,n x x x ，则似然函数为()(0)(0)111()i n nx x ni L I I θθθθθ≤≤≤≤===∏其中()12m ax{,,,}n n x x x x = ，()(0)n x I θ≤≤为示性函数。

当()0n x θ<<时，()0L θ=；而当()n x θ≥时，()L θ为θ的严格单调递减正函数，故θ的最大似然估计值为()ˆn x θ=2.2=，最大似然估计是()ˆn X θ=。

例7设总体2~(,)X N μσ，求未知参数2,μσ的最大似然估计。

解设样本观测值为12,,,n x x x ，则似然函数为222211()()222111(,)ni i i nx nx i L ee μμσσμσ=----=⎛⎫∑⎛⎫ ⎪== ⎪ ⎪⎝⎭⎝⎭∏故222211ln (,)ln(2)ln()()222ni i n n L x μσπσμσ==----∑，有似然方程组:221222241ln (,)1()0,ln (,)1()0.22n ii n i i L xL n x μσμμσμσμσσσ==⎧∂=-=⎪∂⎪⎨∂⎪=-+-=⎪∂⎩∑∑解之得11ˆnii x xnμ===∑，2211ˆ()nii x x nσ==-∑。

利用二阶导函数矩阵的非正定性可以证明2,μσ的最大似然估计分别是X =μˆ，∑=-=ni iX X n122)(1ˆσ。

注：最大似然估计的不变性：若θˆ是θ的MLE ，则)ˆ(θg 是)(θg 的MLE 。

1．正态总体的标准差σ的最大似然估计是∑=-=ni iX X n12)(1ˆσ。

2．⎪⎭⎫⎝⎛-Φ=≤σμa a X P )(的MLE 是⎪⎪⎭⎫⎝⎛-ΦS X a 。

作业：P 291 4(2)(4)；P 292 8(2)(3)例1 设总体],0[~θU X ，现从该总体中抽取容量为10的样本，样本值为0.5, 1.3, 0.6, 1.7, 2.2, 1.2, 0.8, 1.5, 2.0, 1.6则（1）θ的矩估计是1ˆ2Xθ=，矩估计值是68.22=x；(2) 最大似然估计是()ˆn X θ=，最大似然估计值是2.2)(=n x 。

问题是谁好？ §6.2 点估计的评价标准（1）相合性（一致性）称 12ˆ(,,,)n n X X X θθ= 是未知参数θ的一致估计，如果对任意0ε>，有lim (||)1n n P θθε→∞-<=.注：样本均值X 是()E X 的一致估计；样本方差2S 是()D X 的一致估计。

定理6.2.2（P294）若n θˆ是θ的相合估计，)(θg 是θ的连续函数，则)ˆ(n g θ是)(θg 的相合估计。

定理6.2.1（P293）若θθ=→∞)ˆ(lim n n E ，0)ˆ(lim =→∞n n D θ，则n θˆ是θ的相合估计。

例1（续）()ˆn X θ=的密度为 ⎩⎨⎧≤≤=-otherwisey nyy p nn ,0,0,)(1θθ故θθθθθθ−−→−+==⋅=→∞-⎰⎰n nnn n n dy yn dy nyy E 1)ˆ(1121121222)ˆ(θθθθθ+==⋅=⎰⎰+-n n dy yn dy nyy E n n n0)2()1()ˆ(22−−→−++=∞→n n n nD θθ，故)(ˆn X =θ是θ的相合估计。

（2）无偏性称 12ˆ(,,,)n X X X θθ= 为未知参数θ的无偏估计，如果()E θθ=.注：1）用无偏估计 12ˆ(,,,)nX X X θθ= 代替未知参数θ不产生系统误差； 2）样本均值X 是()E X 的无偏估计；样本方差2S 是()D X 的无偏估计。

3）无偏估计不唯一，当然应选方差较小者为好.例1（再续）从总体],0[~θU X 中抽取容量为10的样本，则（1）矩估计1ˆ2Xθ=是θ的无偏估计：θθθ=⋅===22)(2)(2)ˆ(1X E X E E ；(2) 最大似然估计()ˆn X θ=是有偏估计： θθθθθθ≠+==⋅=⎰⎰-1)ˆ(11n n dy yn dy nyy E nnn 令)(21ˆn X nn +=θ，则它是θ的无偏估计。

（3）有效性设1112ˆ(,,,)n X X X θθ= 与 2212ˆ(,,,)n X X X θθ= 都是参数θ的无偏估计，称 1θ比 2θ有效，如果12()()D D θθ<.如，2n ≥时，总体均值的无偏估计X 比1X 有效，因为1()()()D X D X D X n=<。

例1（三续）从总体],0[~θU X 中抽取容量为10的样本，样本值为0.5, 1.3, 0.6, 1.7, 2.2, 1.2, 0.8, 1.5, 2.0, 1.6则矩估计1ˆ2Xθ=的方差为：22131124)(4)(4)ˆ(θθθnn X D n X D D =⋅===。

因为)(ˆn X =θ的方差是 22)2()1()ˆ(θθ++=n n nD ，故)(21ˆn X nn +=θ的方差是 2)(222)2(1)()1()ˆ(θθ+=+=n n X D n n D n ；故当1n >时，)(21ˆn X n n +=θ比1ˆ2Xθ=有效；相应的估计值为42.21)(=+n x n n 。

例2 设样本nX X ,,1 来自总体X，μ=)(X E ；又n c c ,,1 为常数，且11=∑=n i i c 。

（1）证明：∑=ni iiX c 1都是μ的无偏估计；（2）在所有这些无偏估计中，试求方差最小的无偏估计。

例3 设参数θ有两个相互独立的无偏估计1112(,,,)nX X X θθ= 和2212(,,,)n X X X θθ= ，且方差12()2()D D θθ=。