3 极值分布的统计推断.
统计推理知识点总结

统计推理知识点总结统计推理是通过对数据进行分析和推断来得出结论的一种方法。
它是一种重要的思维方式,能够帮助人们理解和解释现实世界中的现象,同时也能够帮助我们做出合理的决策。
统计推理的基本概念统计推理是统计学的一个重要分支,它涉及到通过对样本数据的分析和推断来对总体进行推断。
在统计推理中,我们通常会关注两个主要问题:参数估计和假设检验。
参数估计是指通过对样本数据的分析来对总体参数进行估计的过程。
在参数估计中,我们通常会用样本数据的均值、方差等统计量来估计总体的均值、方差等参数。
常用的参数估计方法包括最大似然估计、最小方差无偏估计等。
假设检验是指对总体参数进行检验的过程。
在假设检验中,我们通常会根据样本数据来判断总体参数是否符合某种特定的假设。
假设检验包括参数检验和非参数检验两种。
参数检验通常用 t 检验、F 检验等方法,而非参数检验通常用秩和检验、秩和检验等方法。
统计推理的应用领域统计推理在现实生活中有着广泛的应用。
它可以帮助我们理解和解释现实世界中的各种现象,同时也可以帮助我们做出合理的决策。
统计推理的应用领域包括但不限于以下几个方面:市场调研和预测:在市场调研和预测中,统计推理可以帮助我们通过对市场数据的分析和推断来预测商品的需求量、价格走势等。
医学研究和临床诊断:在医学研究和临床诊断中,统计推理可以帮助我们通过对临床试验数据的分析和推断来评估药物的疗效、疾病的风险等。
财务分析和风险管理:在财务分析和风险管理中,统计推理可以帮助我们通过对财务数据的分析和推断来评估企业的盈利能力、风险暴露等。
政策评估和决策支持:在政策评估和决策支持中,统计推理可以帮助我们通过对政策实施效果的分析和推断来评估政策效果、制定合理的政策建议等。
统计推理的常用方法在统计推理中,我们通常会用到一些常用的方法来进行数据分析和推断。
这些方法包括但不限于以下几种:描述统计分析:描述统计分析是指通过对数据的分布、集中趋势、离散程度等进行描述的过程。
统计学上三大分布推导方法

统计学上三大分布推导方法统计学涉及到众多的概率分布,其中三大分布推导方法是统计学中的重要内容。
这三种分布分别是正态分布、指数分布和泊松分布。
首先,我们来介绍正态分布。
正态分布又称为高斯分布,是统计学中常见且重要的分布之一。
正态分布的形状呈钟形曲线,两侧尾部逐渐递减。
我们经常可以在生活中观察到符合正态分布的现象,如人的身高、体重等。
正态分布的推导方法主要基于中心极限定理,通过对大量独立随机变量求平均值的方式得到。
正态分布的参数包括均值和标准差,通过对原始数据进行变换和标准化,可以将任意分布转化为标准正态分布。
正态分布在统计学中有广泛的应用,如假设检验、置信区间估计等。
接下来,让我们看看指数分布。
指数分布是一种描述随机事件发生时间间隔的分布,常用于描述连续事件的无记忆性。
例如,指数分布可以用于描述等待某件事情发生的时间,如等待公交车到站的时间。
指数分布的推导方法主要基于随机过程理论中的泊松过程。
指数分布的参数是速率参数,参数的倒数表示了事件发生的平均等待时间。
指数分布的特点是呈右偏态分布,即事件发生的概率逐渐减小。
在实际应用中,指数分布常用于可靠性分析、风险评估等方面。
最后,我们来了解一下泊松分布。
泊松分布是一种用于描述单位时间内随机事件发生次数的分布。
例如,泊松分布可以用于描述在一段时间内电话呼叫的次数、邮件的接收量等。
泊松分布的推导方法主要基于稀有事件的统计推断,通过限制时间段内的事件次数来得到。
泊松分布的参数是平均发生次数,参数越大,分布形状越集中在平均发生次数附近。
泊松分布的特点是呈正偏态分布,即事件发生的概率逐渐增加后逐渐减小。
在实际应用中,泊松分布常用于建模离散事件的发生情况,如交通流量、事故发生率等。
综上所述,正态分布、指数分布和泊松分布是统计学中重要的三大分布推导方法。
通过对中心极限定理、随机过程理论和稀有事件统计推断的研究,我们可以得到这三种分布。
这些分布在实际问题的建模和分析中有广泛的应用,对于理解和解决实际问题具有重要的指导意义。
实用极值统计方法

实用极值统计方法实用极值统计方法是一种用于描述随机变量极端值的统计方法,它对于风险管理、预测和决策等领域非常重要。
在此我将向您介绍几种常用的实用极值统计方法。
首先,最大值和最小值方法是最简单和最直观的实用极值统计方法之一。
它们分别是观察样本中的最大值和最小值来估计总体中的极值。
通过样本最大值和最小值,可以描述数据集中的最大和最小可能值,从而帮助我们了解数据的范围和分布。
其次,块极值法是一种常用的实用极值统计方法,它将数据集划分为多个块,分别找到每个块中的最大值或最小值。
然后,通过对这些极值进行统计分析,可以得到总体的极值。
块极值法能够减小极值估计的方差,并提高估计的准确性。
另外,极大似然估计是一种常用的实用极值统计方法,它基于对极值的概率分布进行建模。
通过寻找最大似然估计,可以找到最适合于数据的极值分布参数。
这种方法在预测极端事件的概率和幅度方面非常有用,有助于我们更好地理解风险和采取相应的措施。
此外,近似分布法也是一种实用的极值统计方法。
它基于极值定理,假设极端值可以由极值分布来近似描述。
通过选择合适的极值分布模型,可以将大部分极值数据以及其分布特征进行建模。
这种方法在风险管理和环境工程等领域中得到广泛应用。
还有一个重要的实用极值统计方法是百分位数估计法。
它基于百分位数的概念,通过对累积分布函数的逆函数进行估计来计算百分位数。
百分位数估计法可以帮助我们更好地理解和预测极端事件的频率和幅度。
在实际应用中,这些实用极值统计方法可以结合使用。
比如,可以使用最大值和最小值方法来初步了解数据的极值范围,然后使用块极值法或极大似然估计来提高极值的估计精度。
最后,通过近似分布法和百分位数估计法来进一步分析极端事件的概率和幅度。
总结而言,实用极值统计方法是一组重要的工具,可以帮助我们描述和分析随机变量的极端值。
这些方法可以用于风险管理、预测和决策等领域,有助于我们更好地理解和应对极端事件。
极值分布

§18.8极值分布防洪时节人们经常谈论某年的河水的日流量(或者水位)的最大值是多少。
从统计学角度看我们可以仅研究每年的一日流量的最大值(每年的老大)。
如果有很多年的资料,可以把它们(每年的老大)本身看作是随机变量。
显然这种随机变量也有概率分布规律。
可以想象,每年的一日最大流量的概率密度分布函数与一日流量的概率密度分布函数既有联系又有区别。
在概率论中这种极大值(或者极小值)的概率分布称为极值分布。
举例来说y1,1,y1,2,…y1,365是第1年的每日的流量值,把其中挑出来的极大值记为x1;y2,1,y2,2,…y2,365是第2年的每日的流量值,把其中挑出来的极大值记为x2;…y N,1,y N,2,…y N,365是第N年的每日的流量值,把其中挑出来的极大值记为x N;那么所谓极值分布就是不研究变量y的分布,仅研究从很多个彼此独立的y 值中(不同年的日流量)挑出来的各个极大值(x1,x2,…,x N值)应当服从的概率密度分布函数f(x)。
概率论中给出的一种(还有其他类型的)极值分布的概率密度分布函数由下面的公式描述:(18.42)现在的任务是从最复杂原理配合对应的约束条件,使利用拉哥朗日方法反求的分布函数具有这种形式。
根据过去处理这类问题的经验,取下面的约束条件。
认为变量的平均值是有限值,既有(18.43)另外再补一个如下形状的约束(18.44)另外,当然有分布函数的积分必然等于1的约束(18.45)如果变量有随机性,最复杂原理有效,就可以利用拉哥朗日方法使我们得到与公式(18.42)对应的分布函数。
即这种极大值的概率分布密度函数可以从最复杂原理和三个约束条件推导出来。
约束条件(18.45)是一切概率密度分布函数都具有的,不必多解释。
约束条件(18.8.2)是我们比较熟悉的一种约束,平均值为有限值,接受这个约束不会感到别扭。
约束条件公式(18.44)应当如何理解它?这个问题捆扰我很长时间,下面是目前的认识。
统计推断知识点总结

统计推断知识点总结统计推断是统计学的一个重要分支,它利用样本数据对总体的特征进行推断。
统计推断是数据分析的重要手段,可以帮助我们通过样本数据来了解总体的特征,进行决策和预测。
在实际应用中,我们经常需要对总体进行推断,比如通过抽样调查来了解人口的特征、通过对商品的抽样检验来了解产品的质量等。
统计推断主要包括参数估计和假设检验两个方面,参数估计是通过样本数据来估计总体参数,假设检验是用样本数据来对总体参数进行检验。
本文将从这两个方面对统计推断的基本知识点进行总结。
一、参数估计参数估计是统计推断的一个重要内容,它用于根据样本数据估计总体的某个特征。
常见的参数包括总体均值、总体方差、总体比例等。
在参数估计中,我们常用的方法有点估计和区间估计。
1. 点估计点估计是利用样本数据来估计总体参数的值。
常见的点估计方法有最大似然估计和矩估计。
最大似然估计是指在给定样本数据条件下,选择总体参数的值使得样本观察到的概率最大。
矩估计是通过样本矩来估计总体矩,常用的矩估计包括均值和方差的估计。
点估计的优缺点是估计量的无偏性和精确性。
2. 区间估计区间估计是针对总体参数进行一个区间的估计。
常见的区间估计方法有基于正态分布的区间估计和基于t分布的区间估计。
区间估计的优缺点是区间估计的置信水平和置信区间的长度,置信水平是指区间估计包含总体参数真值的概率,置信区间的长度是区间估计的精度。
二、假设检验假设检验是统计推断的另一个重要内容,它用于对总体参数进行检验。
在假设检验中,我们常用的方法有参数检验和非参数检验。
1. 参数检验参数检验是利用样本数据对总体参数进行检验。
常见的参数检验方法有单样本参数检验、两样本参数检验和多样本参数检验。
单样本参数检验是对总体均值进行检验,两样本参数检验是对两个总体均值进行检验,多样本参数检验是对多个总体均值进行检验。
参数检验的步骤包括设置假设、选择检验统计量、计算P值和做出判断。
2. 非参数检验非参数检验是针对非正态总体分布的检验。
用Pearson-Ⅲ分布推算梅州最大一日降水量的重现期

的 最 大 一 日降水 量 进 行 理 论 估 算 , 为 防 汛 抗 洪 提 供 科 学依 据 。 本 文应 用 P asn I 率 分 布 推 算 了 可 ero —H 概 梅 州 市 最 大 一 日 降 水 量 的 重 现 期 : 0年 一 遇 为 l 3 8mm, 0年 一 遇 为 2 8 8 2 q .1 5 0 .mm, 0 年 一 遇 为 10
5 4年 、 艳 群 [用 韶 关 市 5 刘 8 ] 1年 的年 最 大 1 降 水 资 3
料 ,用 Pas —I型 曲 线 各 自拟 合 珠 海 和 韶 关 的 降 er n I o I 水 频 数分 布 , 现其拟 合 结果 均 良好 。 发 有 关 研 究 和 实 践 证 实 , er n I型 概 率 分 布 P a o —I s I ( 下 简 称 P I 分 布 ) 曲 线 能 较 好 拟 合 许 多 地 区 的 以 —I 1 暴 雨 频 数 分 布 [。其 概 率 分 布 具 有 广 泛 的 概 括 和 模 8 ] 拟 能 力 ,在 气 象 上 常 用 来 拟 合 年 、 月 的 最 大 风 速 和 最 大 1 降 水 量 等 极 值 分 布 ., 此 本 文 采 用 该 方 法 3 9因 ] 计 算 梅 州 市 年 最 大 一 1降 水 量 的 极 值 问 题 。 er n 3 Pa o— s
至 以前 所 用 的 ,这 些 方 法 所 用 资料 年 限 相 对 较 短
( 到 5 不 O年 ) 而 近 1 来 , 开 玉 用 南 京 市 5 。 O年 马 7年 最 大 1 降 水 量 资 料 ,试 用 Pa o —I型 曲 线 拟 合 降 3 er n I s I 水 频 数 分 布 ,发 现 拟 合 情 况 很 好 ; 王 丽 文 用 珠 海 市
统计学中的极值问题

统计学中的极值问题统计学是一门研究和应用数据收集、分析、解释和呈现的学科。
在统计学中,极值问题是其中一个重要的问题领域。
极值是指在一组数据中,最大或最小的数值。
对于极值问题的研究,可以帮助我们理解数据的特征,并从中推导出有用的结论。
极值问题的定义在统计学中,极值可以分为两种类型:最大值和最小值。
最大值指数据集中的最大数值,而最小值则指数据集中的最小数值。
这些极值可以用来衡量数据的极端情况,可能反映出数据中的异常或特殊情况。
极值问题的研究方法为了解决极值问题,统计学家使用了多种方法和技术。
以下是一些常用的研究方法:1. 描述性统计:通过计算平均值、中位数和众数等统计量,可以了解数据集的整体趋势和集中程度。
同时,最大值和最小值可以通过描述性统计来衡量数据的极端情况。
2. 离群值检测:离群值是指与其他数值相比较极端的数值。
通过使用离群值检测方法,可以识别出数据集中的异常值,并进一步分析其原因。
离群值检测方法包括箱线图、Z-score方法和DBSCAN聚类等。
3. 极值分布:统计学中有一些特定的分布模型,可以用来描述极值的出现概率。
例如,极值分布模型可以用来描述极大值的累积分布函数。
这些分布模型可以帮助我们更好地理解极值的特征和规律。
极值问题的应用领域极值问题在很多领域都有广泛的应用,以下是一些例子:1. 金融领域:在金融市场中,极值问题可以用来衡量风险和波动性。
例如,通过分析股票收益率的极值,可以评估股票的风险水平。
2. 天气预测:在气象学中,极值问题可以用来预测极端天气事件的发生概率。
通过对历史天气数据进行极值分析,可以提前做好防范和准备。
3. 工程设计:在工程领域中,极值问题可以用来评估结构的稳定性和耐久性。
通过考虑设计条件下可能出现的最大或最小负荷,可以确保结构的安全性。
总结统计学中的极值问题是一个重要且有广泛应用的问题领域。
通过研究极值问题,我们可以更好地理解数据的特征并从中得出有用的结论。
无论是在金融、气象还是工程领域,极值问题都扮演着重要的角色,并对决策和预测产生着重要影响。
统计推理知识点总结归纳

统计推理知识点总结归纳1. 总体和样本在统计推理中,总体是指研究对象的全部个体或事物的集合,而样本是从总体中选择出来的一部分个体或事物。
通过对样本进行研究和分析,可以推断出有关总体的信息。
统计推理通常是基于样本数据进行的,因此对样本的选择和分析至关重要。
2. 参数和统计量在统计推理中,参数是总体特征的数值度量,如总体均值、方差等;而统计量是样本特征的数值度量,如样本均值、样本方差等。
通过统计量对参数进行估计,可以帮助我们了解总体的特征。
常用的统计量包括样本均值、样本标准差、样本相关系数等。
3. 抽样分布抽样分布是统计推理中非常重要的概念,它描述了在各种情况下统计量的概率分布。
常见的抽样分布包括正态分布、t分布、F分布等。
在统计推理中,我们通常假设样本满足某种特定的抽样分布,利用该分布性质对参数进行估计和假设检验。
4. 置信区间置信区间是对参数估计结果的一种度量方式,它表示了参数的估计值的不确定性范围。
置信区间的计算通常基于抽样分布的性质,可以帮助我们更准确地了解参数的估计结果。
置信区间的计算方法包括正态分布的置信区间、t分布的置信区间等。
5. 假设检验假设检验是统计推理中常用的一种方法,它用于在已知样本的情况下对总体参数进行推断。
假设检验通常包括建立原假设和备择假设、选择适当的检验统计量、计算p值等步骤。
通过对假设检验的分析,可以判断总体参数是否符合某种要求,如均值是否等于某个值、两个总体均值是否相等等。
6. 方差分析方差分析是一种用于比较多个总体均值是否相等的统计方法,它能够帮助我们了解不同因素对总体均值的影响。
方差分析通常包括单因素方差分析、双因素方差分析等,通过对方差分析的结果进行解释,可以得出对总体均值的有效比较。
7. 回归分析回归分析是统计推理中常用的一种方法,它用于探索因变量和自变量之间的关系。
通过回归分析,我们能够了解自变量对因变量的影响程度,并进行预测和推断。
常见的回归分析包括线性回归、多元回归、逻辑回归等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 极值分布的统计推断统计推断就是依据样本推断总体分布的未知部分。
本章只讨论在已知总体分布为极值分布或属于极值分布最大值吸引场情况下,如何估计其中的未知参数或其它数值特征,如高分位数、尾部特征,如何进行模型的检验等问题。
依照统计学中惯用的记号,以1X ……n X 表示一个随机样本,1x ,……,n x 表示相应的观测值。
前者强调所处理的是独立同分布的随机变量,后者则强调它们是一组实数值。
3.1数据的经验分析给定数据集合1x ,……,n x ,统计分析的目的之一是寻找一个较好的模型拟合这些数据。
为寻求合适的模型,首先必须了解这些数据的统计特征。
我们从散点图开始,因为图形醒目直观,尤其对于大型数据集合,更是如此。
数据的散点图由点(i ,i x ),i =1,2,……组成,从图上可粗略估计数据是否平稳(见4.1节)。
如果平稳,再进一步确认数据是独立同分布还是存在相关性。
大多数情况下,可以假定数据是独立同分布的。
样本1n (,)X X ……,的数字特征能从不同角度综合反映数据的概况,最常用的就是样本的q 阶原点矩(moment of order q about the origin ),它是观测值q 次幂的算术平均11,n q q i i A X n ==∑和q 阶中心矩(central moment of order q),它是观测值与它们算术平均之差的q 次幂的算术平均11(),nq i i B X X n ==-∑其中 表示样本均值,即一阶原点矩。
一阶中心矩等于零,二阶中心矩即样本方差,记为 ,S 称为样本标准差。
通过样本矩估计总体分布未知参数的方法,既是通常所说的参数矩估计。
样本偏度系数是3阶中心矩与标准差3次幂的比,即()()()331/2113/23/222111()1n n i i i i s n n i i i i X X n X X n b X X X X n ====--==⎡⎤⎡⎤--⎢⎥⎢⎥⎣⎦⎣⎦∑∑∑∑ 若偏度系数小于0,则该分布是一种左偏的分布,又称为负偏。
若偏度系数大于0,则该分布是一种右偏的分布,又称为正偏。
样本偏度系数是4阶中心矩与标准差4次幂的比,即()()()44112222111()1n n i i i i s n n i i i i X X n X X n b X X X X n ====--==⎡⎤⎡⎤--⎢⎥⎢⎥⎣⎦⎣⎦∑∑∑∑也是常用的数字特征,它是分布形状的另一种度量。
2.5节已提到正态分布的峰度为3.若3k b >,表示分布有较厚的尾部,说明样本含有较多 远离均值的数据,即通常所说的“尖峰后尾”,金融数据大部分是以峰度判定它的后尾性的。
若对总体分布没有多少认识,样本经验分布不失为一个较好的选择。
假定n n n-1.n 1.n x x x ≤≤≤,……是次序统计量,则样本经验分布函数为,1..1,0,;1(),1,2,1;1,.n n n n i n n i n n x x F x x x x i n n x x -+-⎧⎪⎪==-⎨⎪⎪⎩≤<≤……,<有了经验分布函数,不难得到样本分位数函数。
{}1()inf ()(),01n n n q p x F x p F p p -==△≥<<,即经验p 分位数,特别,对连续的分布函数F ,我们有1,,()1/1(1)n k n F p X k n p k n -=---<≤/,其中k=1,……,n 即{}(1)1,n p n X -+是经验p 分位数。
例如95%经验分位数就是 []0.051,n n x +,其中[ y ]表示y 的整数分布。
如果选择适当的分布ˆF 作为样本1n ,X X ……, 的总体分布,则ˆF 必须与经验分布nF 在某种度量上尽可能一致,许多模型就是基于F 和n F 的这种比较。
3.3广义极值分布的参数估计本节主要讨论GEV 分布三个参数的各种估计方法,包括最常用的极大似然估计、概率权矩估计和L 矩估计。
由于极大似然估计的优良性质,R 中的极值统计包括如evir ,evd 和ismev 提供的GEV 分布参数估计的函数都是基于极大似然方法的。
最后还探讨了参数的bayes 估计以及自助(bootstrap )方法,ebdbayes 包主要处理参数的bayes 估计,至于自助法,可以进一步参阅其他书籍,R 中boot 包提供了更多关于自助法的函数。
3.3.1GEV 模型的建立由定理2.2可知,GEV 分布为区组最大值提供了一个理想的模型。
为此首先按等长度对数据进行分组,并以GEV 分布作为区组最大值序列的模型。
区组大小的选择是关键问题,这需要权衡偏和方差:区组过小使得由定理2.1得到的极限模型与实际模型有较大差别,导致一个有偏估计;区组过大,只能得到少量的区组最大值,由此得到的统计量有较大方差。
在实际应用中,如果只是记录了年最大值,自然形成最大值序列。
如果记录的是每日观测值,一般按年度分组,此时定理2.1独立同分布的条件不满足,它们可能是相关的,但年最大值可以认为是满足定理2.1的条件。
例如,日温度随季节而变化,这不满足i x 具有相同分布的假定。
如果将数据以3各月为一季分组,夏季的最高温度将远大于冬季的最高温度,这种没有考虑到非齐次性的推断会得到不准确的结论。
但如果是以年度分组,由于不同姐姐的日温度各有不同的分布,GEV 分布作为年最高温度近似分布的理由似乎不是很充分,但各个区组最大值有共同分布的假定却是可以将接受的。
为简单起见,记区组最大值序列为1m ,x x ……,,且假定是含有未知参数的GEV 分布的独立观测值。
极值模型参数估计方法,包括图形法、矩法、L 矩法以及基于似然估计的各种方法。
每种方法均有其优劣,但极大似然法是一个比较好的,且是对复杂模型具有易适应性的方法。
3.3.2极大似然估计假定1m X X ,……,是服从GEV 分布的独立随机变量,当0ε≠时,GEV 分布的对数似然函数为1/11(,,)log (11/)log 1()1()mm i i i i x u x u u m ξσξσξξξσσ-==--⎡⎤⎡⎤=--++-+⎢⎥⎢⎥⎣⎦⎣⎦∑∑这里要求1()m i x uξσ-+>0,i =1,……,否则似然函数值为零,对应的对数似然函数值为-∞当0ξ=时,对数似然函数为式(3.7)。
将式(3.21)关于参数向量(,,μσξ)极大化,得到GEV 分布的极大似然估计.尽管不存在解析解,但对给定的数据,用数值算法可得到极大似然估计值,注意这里始终要求式(3.22)成立。
当ξ在0附近时,对数似然用式(3.7)而不是式(3.21),以避免数值计算时可能遇上的麻烦。
当0.5ξ>时,极大似然估计量(ˆˆˆ,,μσξ)的渐近分布是多元正态分[]178布,均值向量为(,,μσξ),协方差矩阵为观测信息矩阵0()I θ在极大似然估计值处的逆矩阵。
尽管对极值分布,协方差矩阵1()E I θ-有解析表示,但对一般分布,()E I θ的元素未必有解析表示,因此用数值微分法来计算()θ的二阶导数,并用标准的数值方法计算逆矩阵,即用1ˆ()E I θ-作为(ˆˆˆ,,μσξ)的协方差矩阵,可能会更容易些。
相应的置信区间及其它推断可推断可由估计量的渐近正态性得到。
有了参数的估计值后,就可以进一步估计分位数。
对于0<p <1,由式(2.13)和式(2.14)知分位数p x 的极大似然估计为ˆˆˆ(1,0ˆˆˆˆˆlog ,=0p p p y x y ξσμξξμσξ-⎧--≠⎪=⎨⎪-⎩当;当;其中y log .p p =-而且,由delta 法可知ˆ(),p p Var xx V τ∇∇≈ 其中V 是(ˆˆˆ,,μσξ)的协方差矩阵,px τ∇为12,,(1,(1),(1)log p p p p p p p x x x y y y ξξξξσξσξμσξ-----∂∂∂⎛⎫=---- ⎪∂∂∂⎝⎭在(ˆˆˆ,,μσξ) 处的值。
我们最关心的是当p 很大,即高分位数时的情形。
如果ˆ0ξ<,可能需要估计分布支撑的上端点n x ,及对应于p = 1时p x 的极大似然估计1ˆˆˆˆ/xμσξ=- 且由式(3.25),知1x τ∇是11(1,,)ξσξ---在(ˆˆˆ,,μσξ)处的值。
当ˆ0ξ>时,上端点n x 的极大似然估计为∞。
当有讨厌参数(见3.4.3节)时,可以用轮廓似然函数构造感兴趣参数的置信区间,一般对形状参数ξ是最感兴趣的。
为了得到ξ的轮廓似然函数,我们可以假定0=ξξ不变,求式(3.21)关于μ和ξ的极大值,并对一定范围内的0ξ重复此步骤。
这样每给定一个0ξ,就可以得到一个似然函数的极大值,实际上就是ξ的轮廓似然函数值。
在对轮廓似然函数取极大值,对应的ˆξ就是ξ的轮廓似然估计,最后由定理3.5可得到ξ的近似置信区间。
轮廓似然方法也可以用于估计多参数函数的置信区间。
例如,为得到分位数p x 的置信区间,需要重新定义GEV 模型的参数,使p x 是其中一个参数,比如新的参数为p x ,σ和p x ,有关系式[]{}1log ,p x p ξσμξ-=+-- 将式(3.26)打入式(3.21)就可得到GEV 模型关于参数(,,p x σξ)的对数似然函数。
再按照上述方法求出参数p x 的轮廓似然估计ˆp x及轮廓似然置信区间。
使用极大似然法估计GEV 分布不满足这些正则条件,因为GEV 分布的支撑是其参数的函数:0ξ<时,/μσξ-是分布的上端点;当0ξ>时,/μσξ-是分布支撑的下端点。
极大似然估计的渐近正态性不一定成立,但有以下结[]179论:1.当0.5ξ>时,极大似然估计是正则的,即通常的渐进性质成立;2.当0.5ξ-1<<时,可得到极大似然估计,但它不具有标准的渐进性质;3. 当1ξ-<时,得不到极大似然估计。
在0.5ξ≤时,GEV 分布具有非常端点上尾,这种情形在极值的应用中很少见。
因此,上述问题并不妨碍极大似然估计在实际中的应用。
3.3.3 概率权估计在参数估计方法中,矩法是很有意义的一种。
矩法的一般原则是让所有研究的总体分布 (,)F F x θ=的各阶矩与对应的样本矩相等。
因为二阶及高阶样本矩的抽样性质不好,所以矩法的性质一般并不好。
因此引入一类新的矩估计,即概率权矩(probability-weighted moments )。
首先给出概率权矩的定义,称()0((;)),r r E XF X r N θωθ=∈ 为r 阶概率权矩,更一般定义为3,,()(;)(1(;)).r ts r t E X F X F X ωθθθ⎡⎤=-⎣⎦()r ωθ是,,()s r t ωθ在s=1,t=0是的特殊情况。
我们只考虑X 的分布是参数为(,,)θμσξ=的GEV 分布H 。