第6讲谱估计4最大熵法

合集下载

现代信号处置最大熵谱估计

M k 1
Ak2
1
2
exp[
j(k m)]dk
M
Ak2 exp[ j(k m)] k 1
（5.5.2）
假如c(n)与u(n)时互不有关旳，则x(n)旳自有关函数为：
M
R(m) Ak2 exp[ j(k m)] u (m) k 1
x(n)旳功率谱为：
m 0,1, , p（5.5.3）
假设：信号 x n是由M个复正弦信号加白噪声构成，即：
M
x n Ak e j(knk ) u(n) c n u n k 1
（5.5.1）
式中：k是[- , ]内均匀分布的零均值随机变量， u(n)为白噪声，A k 和k 为常数
c(n) 旳自有关函数为：
R '(m) E[c(n)c*(n m)]
当代数字信号处理
第五章功率谱估计
内容摘要
• 5.1 概述 • 5.2 经典谱估计旳基本措施
5.2.1 周期图 5.2.2 有关图 • 5.3 功率谱估计旳参数模型法 5.3.1 AR谱估计旳有关函数法
5.3.2 AR参数谱估计与最佳线性预测器旳关系 5.3.3 Levinson-Durbin算法 5.3.4 Burg算法 5.3.5 AR谱估计旳性质 5.3.6 MA谱估计、ARMA谱估计 5.4 最大熵谱分析 5.5 特征分解法谱估计 5.5.1 Pisarenko谐波分解与有关矩阵旳特征分解 5.5.2 基于信号子空间旳频率估计及功率谱估计
☆ N维高斯分布:
p( x1 ,
x2 ,,
xN
)
(2
)N
/2
det
R(N )
1/ 2
exp
1 2
X

谱熵的计算方法概述及解释说明

谱熵的计算方法概述及解释说明1. 引言1.1 概述谱熵是一种用于衡量信号复杂性和不确定性的数学工具。

它基于信号的频谱分布来计算信号的信息熵，可以提供对信号统计特征的重要洞察。

谱熵广泛应用于各个领域，包括信号处理、数据压缩和图像识别等。

1.2 文章结构本文将全面介绍谱熵的计算方法以及其应用场景，并对计算方法进行优缺点分析。

文章内容主要包括以下几个方面：首先，在第2节中详细阐述了谱熵的定义与原理。

通过解释其数学模型和核心思想，我们可以更好地理解谱熵的含义和作用。

其次，在第3节中探讨了在不同领域中谱熵的应用场景。

我们将重点关注信号处理、数据压缩和图像识别领域，并列举一些典型案例来说明谱熵在这些领域中的实际应用价值。

接着，在第4节中对谱熵计算方法进行了深入分析，并评估其优缺点。

我们将探讨谱熵作为信息度量工具时所具备的优势以及在实际应用中可能存在的限制。

最后，在第5节中，我们对本文进行总结，并展望了谱熵未来的发展方向及其应用前景。

通过回顾现有研究成果和对未来趋势的探索，可以为相关领域的科学家和工程师提供启示和参考。

1.3 目的本文的目的是为读者介绍谱熵的计算方法，并深入探讨其在不同领域中的应用。

通过阅读本文，读者将了解到谱熵作为一种重要的信息度量方法，其在信号处理、数据压缩和图像识别等领域中的实际价值。

此外，我们还将分析谱熵计算方法的优缺点，以期能够全面评估其适用性和局限性。

最终，我们希望通过本文对谱熵进行全面概述，从而促进相关领域的进一步研究和应用发展。

2. 谱熵的计算方法：2.1 定义与原理：谱熵是一种衡量信号复杂性的指标，用于描述信号频谱的均匀分布程度。

在信号处理领域，谱熵常被用来度量信号的信息丰富程度和预测能力。

其计算方法基于信息论中的熵概念，通过对信号频谱进行统计分析得出。

2.2 基本概念解释：在计算谱熵之前，首先需要了解几个基本概念：- 频谱：频率域上表示信号各频率成分强度的函数。

- 幅度谱：描述信号不同频率成分幅度大小的函数。

最大熵算法笔记

最大熵算法笔记最大熵，就是要保留全部的不确定性，将风险降到最小，从信息论的角度讲，就是保留了最大的不确定性。

最大熵原理指出，当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。

在这种情况下，概率分布最均匀，预测的风险最小。

因为这时概率分布的信息熵最大，所以人们称这种模型叫" 最大熵模型" 。

匈牙利著名数学家、信息论最高奖香农奖得主希萨（Csiszar）证明，对任何一组不自相矛盾的信息，这个最大熵模型不仅存在，而且是唯一的。

而且它们都有同一个非常简单的形式-- 指数函数。

我们已经知道所有的最大熵模型都是指数函数的形式，现在只需要确定指数函数的参数就可以了，这个过程称为模型的训练。

最原始的最大熵模型的训练方法是一种称为通用迭代算法GIS （generalized iterative scaling）的迭代算法。

GIS 的原理并不复杂，大致可以概括为以下几个步骤：1. 假定第零次迭代的初始模型为等概率的均匀分布。

2. 用第N 次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小；否则，将它们便大。

3. 重复步骤2 直到收敛。

GIS 最早是由Darroch 和Ratcliff 在七十年代提出的。

但是，这两人没有能对这种算法的物理含义进行很好地解释。

后来是由数学家希萨（Csiszar）解释清楚的，因此，人们在谈到这个算法时，总是同时引用Darroch 和Ratcliff 以及希萨的两篇论文。

GIS 算法每次迭代的时间都很长，需要迭代很多次才能收敛，而且不太稳定，即使在64 位计算机上都会出现溢出。

因此，在实际应用中很少有人真正使用GIS 。

大家只是通过它来了解最大熵模型的算法。

八十年代，很有天才的孪生兄弟的达拉皮垂(Della Pietra) 在IBM 对GIS 算法进行了两方面的改进，提出了改进迭代算法IIS ( improved iterative scaling )。

最大熵模型算法

最大熵模型算法今天我们来介绍一下最大熵模型系数求解的算法IIS算法。

有关于最大熵模型的原理可以看专栏里的这篇文章。

有关张乐博士的最大熵模型包的安装可以看这篇文章。

最大熵模型算法 1在满足特征约束的条件下，定义在条件概率分布P(Y|X)上的条件熵最大的模型就认为是最好的模型。

最大熵模型算法 23. IIS法求解系数wi先直接把算法粘贴出来，然后再用Python代码来解释。

这里也可以对照李航《统计学习方法》P90-91页算法6.1来看。

这个Python代码不知道是从哪儿下载到的了。

从算法的计算流程，我们明显看到，这就是一个迭代算法，首先给每个未知的系数wi赋一个初始值，然后计算对应每个系数wi的变化量delta_i，接着更新每个wi，迭代更新不断地进行下去，直到每个系数wi都不再变化为止。

下边我们一点点儿详细解释每个步骤。

获得特征函数输入的特征函数f1,f2,...,fn，也可以把它们理解为特征模板，用词性标注来说，假设有下边的特征模板x1=前词, x2=当前词, x3=后词 y=当前词的标记。

然后，用这个特征模板在训练语料上扫，显然就会出现很多个特征函数了。

比如下边的这句话，我/r 是/v 中国/ns 人/n用上边的模板扫过，就会出现下边的4个特征函数(start，我，是，r)(我，是，中国，v)(是，中国，人，ns)(中国，人，end，n)当然，在很大的训练语料上用特征模板扫过，一定会得到相同的特征函数，要去重只保留一种即可。

可以用Python代码得到特征函数def generate_events(self, line, train_flag=False):"""输入一个以空格为分隔符的已分词文本，返回生成的事件序列:param line: 以空格为分隔符的已分词文本:param train_flag: 真时为训练集生成事件序列；假时为测试集生成事件:return: 事件序列"""event_li = []# 分词word_li = line.split()# 为词语序列添加头元素和尾元素，便于后续抽取事件 if train_flag:word_li = [tuple(w.split(u'/')) for w inword_li if len(w.split(u'/')) == 2]else:word_li = [(w, u'x_pos') for w in word_li]word_li = [(u'pre1', u'pre1_pos')] + word_li + [(u'pro1', u'pro1_pos')]# 每个中心词抽取1个event，每个event由1个词性标记和多个特征项构成for i in range(1, len(word_li) - 1):# 特征函数a 中心词fea_1 = word_li[i][0]# 特征函数b 前一个词fea_2 = word_li[i - 1][0]# 特征函数d 下一个词fea_4 = word_li[i + 1][0]# 构建一个事件fields = [word_li[i][1], fea_1, fea_2, fea_4] # 将事件添加到事件序列event_li.append(fields)# 返回事件序列return event_li步进值 \delta_{i} 的求解显然delta_i由3个值构成，我们一点点儿说。

随机信号的功率谱估计方法

随机信号的功率谱估计方法随机信号的功率谱估计方法介绍随机信号是指信号的每个值都是随机的，即在同一时刻下，其取值可以是不同的。

由于随机性导致了随机信号的分布不确定，因此分析随机信号的机理比较复杂。

一个优秀的信号分析方法是估计随机信号的功率谱。

功率谱是一个很有用的统计量，它描述了信号在不同频率上的能量分布。

估计功率谱可以帮助我们了解信号的构成、将信号分解成不同的频率分量、对信号的特征进行定量分析，以及在通信和控制系统中使用。

本文将介绍几种常见的随机信号功率谱估计方法，包括周期图法、自相关函数法、半岭功率谱估计法和最大熵谱估计法。

方法一、周期图法周期图法经常用于信号频谱估计。

当我们有大量采样数据时，可以通过对信号进行傅里叶变换来计算功率谱。

但是，当信号是随机过程时，它的频谱也是一个随机变量，因此我们必须通过使用大量的测量值来确定频谱估计的不确定性。

由此带来的问题是，我们要计算的是随机过程信号的平均功率谱密度函数，而不仅仅是单次测量结果的功率谱。

周期图法通过将数据分成多个重叠的子段，然后计算每个子段的傅立叶变换来估计平均功率谱密度函数。

二、自相关函数法自相关函数法采用的是自相关函数相关的频谱估计方法。

通过对随机信号进行卷积，可以获得信号的自相关函数。

自相关函数是指信号与自身的延迟信号的乘积。

自相关函数可以通过傅立叶变换来计算功率谱密度函数。

这种方法可以用于非平稳和平稳信号，并且在信号较长的情况下效果良好。

三、半岭功率谱估计法半岭功率谱估计法是利用谱曲线的形状确定能量的集中程度。

半岭是谱曲线上右侧的谷底点。

我们可以将信号的谱曲线绘制出来，并计算它到半岭的近似功率谱曲线。

该方法可以适用于处理非平稳信号，需要进行多次计算才能获得准确结果。

四、最大熵谱估计法最大熵谱估计法可以通过最小化误差来估计功率谱密度函数。

该方法通过将信号视为时间序列，然后利用最大熵原理来进行谱估计。

最大熵原理是指在不知道任何关于信号的先验信息的情况下，使用最少的假设来描述数据的过程。

最大熵和积算法

最大熵和积算法
最大熵和积算法（Maximum Entropy and Minimum Divergence Algorithm，MEMD）是一种用于解决数据分类问题的机器学习算法。

它基于最大熵原理和最小散度原理，能够在保证分类结果准确性的前提下，最大限度地保持模型的简洁性。

最大熵原理是指在已知一些约束条件的情况下，选择概率分布最均匀的模型作为
最优模型。

最小散度原理是指在已知两个概率分布的情况下，选择最小散度的模
型作为最优模型。

MEMD算法将这两个原理结合起来，通过学习约束条件下的最大熵模型，然后使
用最小散度原理进行模型简化，从而得到一个简洁、准确的分类模型。

具体来说，MEMD算法首先使用最大熵模型进行分类，然后通过最小化KL散度来优化分类结果，使得分类结果更加准确。

最后，算法会对模型进行正则化，以保
证模型的简洁性。

MEMD算法具有较好的分类效果和泛化能力，适用于文本分类、情感分析、图像
分类等应用场景。

第6讲谱估计1.概述

R y ( n, n + m ) =
k = ∞
h ( k ) ∑ h * ( r ) Rx ( m + k r ) = R y ( m) ∑
r = ∞
∞
∞
4.4.3 功率传递关系
H ( e jω ) = S y ( e jω ) S x ( e jω )
功率谱函数是偶正实函数 4.4.4 输出过程的互相关函数、互功率谱输出过程的互相关函数、
* S yx (e jω ) = S xy (e jω ) = H (e jω ) S x (e jω )
4.5 估计量的质量评定
4.5.1 偏倚（无偏性）偏倚（无偏性）
估计量的偏倚偏倚：参数的真值减去估计量的期望值，偏倚 ∧ 即：偏倚 = a E[ a ] = B 若偏倚B=0，则所得的估计量为无偏估计。无偏估计若 N →∞ (N为求均值运算时的样本数)时，有 lim B = 0 则称 a 是对a 的渐近无偏估计渐近无偏估计。渐近无偏估计
由于系统是稳定的，若x(n)有界，则y(n)必有界。如果输入是平稳的，则输出也是平稳的。 4.4.1 输出过程的均值
∞ ∞ m y = E [ y (n)] = E ∑ h(k )x(n k ) = mx ∑ h(k ) = mx H (e j 0 ) k = ∞ k = ∞
4.4.2 输出过程的自相关函数
传统谱估计方法又称为线性谱分析法，现代谱估计又称为非线性谱估计法，它分辨率高，而且特别适用于短数据序列的谱估计。通常的功率谱估计只包含振幅信息，不包含相位信息。需要运用多维谱估计方法给出相位信息。还包括自适应谱估计法与Robust谱估计法。
4.3.3 随机信号分析的预处理
假定随机信号的均值为零时，其自相关序列与功率谱密度互为傅立叶变换对，但存在一些广义平稳信号，其均值为常数（不为零）。

简述最大熵定理内容

简述最大熵定理内容最大熵原理是一种选择随机变量统计特性最符合客观情况的准则，也称为最大信息原理。

随机量的概率分布是很难测定的，一般只能测得其各种均值（如数学期望、方差等）或已知某些限定条件下的值（如峰值、取值个数等），符合测得这些值的分布可有多种、以至无穷多种，通常，其中有一种分布的熵最大。

选用这种具有最大熵的分布作为该随机变量的分布，是一种有效的处理方法和准则。

这种方法虽有一定的主观性，但可以认为是最符合客观情况的一种选择。

在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。

在信息处理中，这个原理同样适用。

在数学上，这个原理称为最大熵原理。

历史背景最大熵原理是在1957年由E.T.Jaynes提出的，其主要思想是，在只掌握关于未知分布的部分知识时，应该选取符合这些知识但熵值最大的概率分布。

因为在这种情况下，符合已知知识的概率分布可能不止一个。

我们知道，熵定义的实际上是一个随机变量的不确定性，熵最大的时候，说明随机变量最不确定，换句话说，也就是随机变量最随机，对其行为做准确预测最困难。

从这个意义上讲，那么最大熵原理的实质就是，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，这是我们可以作出的不偏不倚的选择，任何其它的选择都意味着我们增加了其它的约束和假设，这些约束和假设根据我们掌握的信息无法作出。

可查看《浅谈最大熵原理和统计物理学》——曾致远(RichardChih-YuanTseng)研究领域主要为古典信息论，量子信息论及理论统计热物理学，临界现象及非平衡热力学等物理现象理论研究古典信息论在统计物理学中之意义及应用[1]。

发展过程早期的信息论其中心任务就是从理论上认识一个通信的设备（手段）的通信能力应当如何去计量以及分析该通信能力的规律性。

但是信息论研究很快就发现利用信息熵最大再附加上一些约束，就可以得到例如著名的统计学中的高斯分布（即正态分布）。

最大熵算法

最大熵算法
最大熵算法是一种用于分类和预测问题的机器学习算法。

其目的
是找到最大熵模型，即使得在给定一些约束条件下，所有可能的分类
或预测结果的熵最大的模型。

这个算法最初被用于自然语言处理领域
中的词性标注问题。

最大熵算法的基本思想是一种最小偏差原则，即首先假设一个
“最坏”的情况，然后逐步“修正”直到得到最好的结果。

具体来说，最大熵算法将一个预测问题表示为要求从输入的特征集合中找到最好
的预测模型的问题。

模型的预测结果通常是一个概率分布，最大熵模
型的目标是找到一个概率分布，使得其熵最大，但同时满足一些约束
条件。

最大熵算法的训练需要大量的标记数据和对应的特征提取方法。

其过程包括对特征提取、标记数据的准备及对最大熵模型的训练和评估。

在实际应用中，最大熵分类器有广泛的应用范围，包括自然语言
处理、图像识别、社交网络分析等领域。

3-4 第三章 levinson、最大熵谱估计

1 Burg(功率)谱熵定义： H S ( ) ln S( ) d 2 已知： R(k ), k 0, 1,, p 共2p+1个样本相关函数，使
max H S ( )

问题：求 S ( ) 估计功率谱时，应该使谱熵最大。
约束优化问题： 1 max H S ( ) max 2 1 ˆ 约束条件：R (k ) 2
R(-k - 1) 1 Pk 1 R(1 - k) R(-k) k 1,1 0 R(0) R(-1) k 1,k 0 R(1) R(0) k 1,k 1` 0 R(-k)
ARMA谱估计：差分模型最大熵方法 (MEM: Maximum Entropy Method)：信息论信息量：事件X，事件 X xk 发生时(概率 Pk )，带来的信息
1 I ( xk ) log Pk log Pk
以e为底：nat (奈特)
以2为底：bit (比特)
R (-2) R (-1) R (0)

条件：
R (p - 2)
R (-p) 1 Pp R (1 - p) 1 0 R (2 - p) 2 0 R (0) p 0

S ( )e jk d R(k ), k 0, 1, , p
下其谱熵 H S ( ) 最大。这样估计出来的功率谱称为最大熵谱。
ˆ S ( )
构造目标函数：
1 J S ( ) 2 1 ˆ ln S ( )d kp k Rx (k ) 2

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

功率谱密度为Pn，则数据序列x(n)的功率谱为：
s x ( f ) AR H (e
j 2fT
) Pn
Pn
M
2
即AR谱估计为： s x ( f ) AR
1 a k e j 2fkT
k 1
2 σ 而 Pn σ 2T 2 fc 2T 2
1 a k e j 2fkT
Rx (2)

可见，对同一数据列用AR模型和预测误差滤波所解
得的参数值是完全相同的。
预测误差滤波器是一个白化滤波器，滤波器的系统
函数为： A( z ) 1 ak( M ) z k x(n)的功率谱可求得：S pre ( f )
k 1
M
Pn A(e
j 2 πfkT
)
2

(M ) Pmin T
最大熵（AR模型）谱估计的稳定性和阶数确定
阶数确定：
必须正确选择模型的阶数。阶数M估计得太小，对序列长度N的序列的最大熵谱估计会过分平滑，不能给出足够的分辨率，结果可能仅出现被测信号中最易预测，变化最缓慢的频率点的峰值。阶数M估计得太大，拟合会产生急剧变化和振荡，所得的谱估计具有虚假的细节。在低噪声或无噪声时，AR模型的阶数过分大，将会发生谱线分裂现象。
k 1
M
2
可见，序列的最大熵功率谱和AR模型拟合所对应的
功率谱是等价的，并且 Pn PM T 由于 PM
2 fc g (0)
2
，所以
Pn
1 g (0)
2
PM 2 fc
AR参数和自相关函数Rx(m)之间的关系为：
2 σ (M ) a Rx ( m k ) k k 0 0 M
2. 信息论(AIC)准则 Akaike提出最佳阶次的选择应使下式为最小值：
AIC ( M ) ln P

(M )

2M N
AIC准则和FPE（最终预测误差）准则的关系是：
N
lim FPE ( M ) AIC ( M )
3．自回归(CAT)传递函数准则 parzen提出最佳阶数的选择应使得精确预测滤波
AR模型谱估计的稳定性
AR模型稳定的充要条件是其转移函数
M k 1
1 H ( z) A( z )
的
极点都在单位圆内，即 A( z) 1 ak z k 的根在单位圆内。相关矩阵）是正定的。
( M 1) (M ) AR模型对应的预测滤波器中 0 Pmin Pmin
M * * (M ) E e(n) x (n) E x(n) ak x(n k ) x (n) k 1 (M ) (M ) Rx (0) a1( M ) Rx (1) a2 Rx (2) aM Rx ( M )

阶数最优(用Mopt表示)的选取准则：
1．最终预测误差(FPE)准则
零均值情况下，Akaike给出使FPE最小的估值公式
N M 1 (M ) FPE( M ) P N M 1
M为AR模型的阶数，N为信号采样点数，P(M)为预测误差功率。
非零均值情况下，
N M (M ) FPE ( M ) P N M
器和近似预测滤波器输出的预测误差之差的估值
为最小。即使
1 CAT ( M ) N N m N M ( m) NP ( M ) m 1 NP
M
最小。
结论：
信噪比较高时，上述三种方法确定的阶数M基本一致。当信噪比较低时，三种方法结果不同，给出的 M值偏低，其中以FPE方法较为正确。最优阶数的计算：上述各准则所确定的阶数，都可以在计算预测滤波 (M ) (M ) a Pmin 器参数（ k 、）的每一次递推中求出。由于最大熵谱估计与预测滤波器等价，而对于预测滤波器 (M ) ( M 1) (M ) Pmin 中的 Pmin ，存在 0 Pmin ，因此在算出新值后与以前的值作比较，若新值比以前的值大，则终止迭代，得到最优阶数Mopt。

2 w
A(e )
2 u 2 w
j
A(e )
j
2
2 令 2 B( z)B(z 1) u2 w A( z) A( z 1) ，则
1 B ( z ) B ( z ) 2 S x ( z) σ η A( z ) A( z 1 )
因此可以将x(n)看成一ARMA过程，其等效的白噪声 2 2 2 σ σ 驱动源的平均功率为 η ，既不等于 σ u ，也不等于 w 等效的MA分支为B(z)，与A(z)同阶数但不同参数，因此x(n)是一个ARMA(p,p)过程。若仍对x(n) 数据按AR(p)模型进行谱估计，结果将偏离真实谱 S y (ω) ，得到一个趋于平坦化的谱。这种 2 2 2 σ 平滑现象与 σu / σ w 的大小有关， w 越小，越接近原来 2 2 σ / σ 的AR功率谱； u w 越小，功率谱越平滑。可见，AR 谱估计的分辨率随着信噪比的减小而减小。
主要内容
最大熵谱估计的基本原理最大熵谱估计与AR模型谱估计、预测误差滤波法
等效
最大熵功率谱的计算 (AR模型参数的计算）最大熵谱估计（AR模型）的稳定性和阶数的确定
有附加噪声的AR过程的谱估计
最大熵谱估计的特点
最大熵的基本思想：就是根据已知数据信息，在
不进行任何新的假设(不增加任何虚假信息)的情
Rx (m)
detRx ( M 1) H 0 Rx ( M 1) Rx ( M 1)
Rx (1) Rx (2)
Rx (0) Rx ( M 1) Rx (1) Rx ( M 2) 0 Rx (1)
Rx ( M 1) Rx ( M )
令 PM
2 fc 2 fc g (0) g * (0) g (0) 2

2f 1 * ， GM ( z )GM ( *) c z PM
PM 2 f c 1 am e j 2πmfT
m1 M 2
* AM ( z ) AM (
1 ) * z
最大熵谱估计 S x ( f )
AR谱和最大熵谱估计等价
时间序列功率谱密度和熵率的关系：
1 1 h ln 2 f c 2 4 fc

fc
fc
lns x ( f )df
时间序列的频率范围是[-fc ，fc]
从最大熵原理出发进行谱估计
若已知自相关函数Rx(m)的前2M+1个序列值，则选择未知自相关函数要使： H 0 m M 1
(M ) 1 反射系数 akk
可以证明，此时Yule-Walker方程中系数矩阵（自
有附加噪声的AR过程的谱估计
在原有AR(p)过程 y(n) ak y(n k ) u (n)上附加均值
p
为0，方差为 σ ，并与 y(n) 无关的白噪声。即
x(n) y(n) (n)
2 w
k 1
这时x(n)不再是严格意义上的AR过程，其自相关函
数为
2 Rx (m) E[ y* (n) w* (n)][y(n m) w(n m)] Ry (m) w (m)
2
功率谱为 S x ( ) S y ( )
2 w

2 u j 2
A(e )

nM
j 2fnT c e n
M
fc z m1 整理后得到 Rx (m) j M n dz 0 m M cn z M 1 n M n * c z G ( z ) G ( ) n M M * z 【最小相位(其零点都在单位圆之内) 最大相位】 n M
自协方差矩阵间存在关系：H
1 log10 det c x 2
当时间序列为零均值时，熵和自相关函数之间存在关系： H 1 log10 det R x
2
当过程为无限长时，用熵率作为信息的度量
1 H 1 h lim lim log10 det R x m 1 m m 1 m 2
1 ak e j 2 πfkT
k 1
M
2
(M ) a 利用Yule-Walker方程求解系数 k 很困难，因为要
进行矩阵求逆运算。改进方法包括： Levinson-Durbin递推算法；（需要从时间序列x(n) 的有限个数据得到其自相关函数的估计值 R x (m) ，可能在计算AR参数时引入很大误差，导致谱线分裂与谱峰偏移等现象。） Burg算法；（提出利用前、后向预测误差功率之和最小的方法来求得反射系数，进而求得预测误差滤波器系数。对应于格形滤波器。）
m0 m 1,2, , M
即Yule-Walker方程。AR模型谱估计实质是模型参数
的辨识问题。
预测误差滤波法和最大熵谱估计等价
预测：由随机序列x(n)过去和现在的M个值来预测下
一个取样值x(n+1)。即 x(n 1) ak( M ) x(n 1 k )
k 1

(M ) Rx (m) ak R( m k ) M
简化后，得：
m 0,1,2, , M
最小预测误差功率为：
P
(M ) min
k 1
σ E e( n )
2 p

2

M (M ) * E e(n)(x(n) ak x(n k )) k 1

从而可以外推出Rx(M+1)。并依此类推得到其它自相
关函数值。于是功率谱 s x ( f ) T Rx (m)e j 2πfmT
m
若选择