ARMA模型在传染病预测中的应用

贵州民族学院毕业论文

引言 (1)

第1章 ARMA模型 (2)

1.1 定义 (2)

1.2 建模步骤 (3)

1.3 数据的处理 (3)

1.4 模型的识别、定阶与参数估计 (3)

第2章实证分析 (4)

2.1 平稳性检验 (4)

2.2 白噪声检验 (5)

2.3模型拟合 (6)

2.4模型择优 (11)

2.4.1 根据信息量准则择优 (11)

2.4.2 预测值与实际值的比较 (11)

2.5对2010年发病率的预测 (12)

第3章小结与讨论 (13)

成果声明 (14)

参考文献 (16)

附录： (17)

作者：张齐兰（理学院06级统计班）指导老师：蔡静

ARMA模型在传染病预测中的应用

张齐兰

摘要:探讨ARMA模型在传染病预测中的应用，以1975年至2009年全国肾综合征出血热发病率资料为例，应用平稳时间序列分析方法，选用条件最小二乘估计法，根据信息量准则AIC和SBC确定ARMA 的参数，应用SAS统计软件进行数据处理，并对模型进行分析和预测。

关键词:ARMA模型时间序列发病率

ARMA models in infectious disease prediction

ZHANGQilan

Abstract:ARMA models of infectious disease prediction to the country from 1975 to 2009 the incidence of hemorrhagic fever with renal syndrome information, for example, application of stationary time series analysis method, used conditional least squares estimation method, according to information criteria AIC and SBC to determine the parameters of ARMA, application SAS statistical software for data processing, and analysis and forecasting model.

Keywords:ARMA model time series incidence rate

贵州民族学院——统计学专业——毕业论文：ARMA模型在传染病预测中的应用

引言

在医学卫生领域中，传染病发病会受到许多因素的影响，而且影响因素之间又存在着错综复杂的联系，很难运用结构式的因果模型加以解释。肾综合征出血热是20世纪30年代初被发现和认识的，是危害我国人民身体健康的重要的自然疫源性疾病[1]。肾综合征出血热是由HFRS病毒引起，由鼠类等传播的自然疫源性急性病毒性传染病。以往此病在中国和日本被称为流行性出血热，在朝鲜和韩国被称为朝鲜出血热，在前苏联被称为远东出血热和出血性肾炎。1980年世界卫生组织将其统一命名为什综合征出血热。

流行性出血热又称肾综合证出血热为我国法定乙类传染病,是由汉坦病毒引起的一组以发热、出血及肾功能损害为主要临床表现的急性自然疫源性疾病。该病主要传染源为鼠类,通过皮肤粘膜伤口、吸入被病毒污染的尘埃、食入或饮用被鼠尿、鼠粪污染的食物和水以及鼠蚤、革螨叮咬人体感染。

疫区与疫源地：HFRS疫区分布相当广泛，但有其独特的地理分布特征，特别是鸡鼠型疫区，有沿水系分布的特点。以往认为多在海拔400米以下的地势低洼潮湿杂草灌木丛生的地方，但是1992年以来，研究和事实都证明了在海拔1600m以上，甚至2500米左右的高原地区或高山林地中存在有HFRS的微小疫源地，一定情况下，可引起暴发流行。这为许多旅游胜地做好HFRS的防治工作提供了依据。另外，疫区尚具有相对稳定性和局限性特点。1995年国内对疫区、疫源地的统一命名如下：(1)鸡鼠型疫区;(2)家鼠型疫区；（3）混合型疫区。我国大部分地区的疫区类型为混合型疫区。

传播途径：HFRS是多传播途径的，目前研究认为以气溶胶通过呼吸道传播为主要途径，其他尚其经消化道，经破损皮肤，经虫媒和垂直传播等。另外有人认为其传播途径可能为携带HFRS-V的螨被吸入肺组织内裂解释放出HFRS-V而引起感染。明确某地区HFRS流行的主要传播途径，以便采用针对性的预防措施。

本文采用ARMA模型对全国重点防制的肾综合征出血热发病趋势进行了拟合研究，为深入开展疾病预警预测奠定基础，也为制定防制策略及措施提供理论依据。

作者：张齐兰（理学院06级统计班）指导老师：蔡静

第1章 ARMA 模型

1.1 定义

把具有如下结构的模型称为自回归移动平均模型，简记ARMA(p,q):

?????

s s t t t q p q t q t t p t p t t ,0,0)(,)(,0)(0

,02

11110εεεσεεθφεθεθεφφφε 若0φ=0，该模型称为中心化ARMA(p,q)模型。缺省默认条件，中心化ARMA(p,q)模型可简写为

默认条件与AR 模型、MA 模型相同。

引进延迟算子，ARMA(p,q)模型简写为： t B x B ε

)()(Θ=Φ

式中：

p p B B B φφ---=Φ 11)(，为p 阶自回归系数多项式。 q q B B B θθ---=Θ 11)( ，为q 阶移动平均系数多项式。显然，

当q=0时，ARMA(p,q)模型就退化成了AR(p)模型；当p=0时，ARMA(p,q)模型就退化成了MA(q)模型.

所以，AR(p)模型和MA(q)模型实际上是ARMA(p,q)模型的特例，它们统称为ARMA 模型。而ARMA(p,q)模型的统计性质也正是AR(p)模型和MA(q)模型统计性质的有机组合。

贵州民族学院——统计学专业——毕业论文：ARMA模型在传染病预测中的应用

1.2 建模步骤

假如某个观察值序列通过序列预处理，可以判定为平稳非白噪声序列，我们就可以利用模型对该序列建模。

(1)求出该观察值序列的样本自相关系数（ACF）和样本偏自相关系数（PACF）的值。

(2)根据样本自相关系数和偏自相关系数的性质，选择阶数适当的ARMA(p,q)模型进行拟合。

(3)估计模型中未知参数的值。

(4)检验模型的有效性。如果拟合模型通不过检验，转向步骤(2)，重新选

模型再拟合。

(5)模型优化。如果拟合模型通过检验，仍然转向步骤(2)，充分考虑各种可能，建立多个拟合模型，从所有通过检验的拟合模型中选择最优模型。

(6)利用拟合模型，预测序列的将来走势。

1.3 数据的处理

时间序列的平稳性可通过其时序图和自相关图来判断，如果观察序列的时序图显示出该序列有明显的趋势性或周期性，那它通常不是平稳序列。如果自相关函数在前面少数几个值后下降为0，则序列是平稳的；如果在前面几个值后，自相关函数没有下降为0，而是逐次减少，则序列不平稳。

1.4 模型的识别、定阶与参数估计

对ARMA（p,q）模型的阶数识别，基本采用它的统计性质（拖尾、截尾）。参数估计通常有极大似然估计、最小二乘估计、条件最小二乘估计方法，一般用AIC、SBC准则。

AIC准则是由日本统计学家Akaike于1973年提出

的，它的全称是最小信息量准则。它是拟合精度和参数个数的加权函数:

()()

AIC

模型中未知参数

模型的极大似然函数值2

作者：张齐兰（理学院06级统计班）指导老师：蔡静

为了弥补AIC准则的不足，Akaike于1976年提出BIC准则，而Schwartz在1978年根据Bayes理论也得出同样的判断准则，称为SBC准则：

()()()

S B C ln

模型中未知参数

模型的极大似然函数值n

AIC和SBC函数值达到最小的那个模型作为最终的拟合模型，而这样得到的最优模型就是一个相对最优模型。

第2章实证分析

以1975年至2009年全国肾综合征出血热疫情报告资料[2]为例，数据见表1：

表1 1975-2009年全国肾综合证出血热发病率

2.1 平稳性检验

1、绘制1975-2009年全国肾综合证出血热发病率的自相关图（见图1）。

贵州民族学院——统计学专业——毕业论文：ARMA模型在传染病预测中的应用

图1全国肾综合征出血热序列自相关图

由自相关图（图1）知，自相关系数衰减向零的速度比较快，因而该序列是平稳序列。

2.2 白噪声检验

对1975-2009年全国肾综合证出血热发病率序列做白噪声检验，输出结果如下（见图2）：

图2 白噪声检验结果

该序列白噪声检验输出结果（图2）显示在延迟6阶下LB检验统计量的P 值非常小（<.0001），所以可以断定该序列属于非白噪声序列。综合序列时序图、自相关图和白噪声检验可以断定该序列是平稳非白噪声序列。因此可以对该序列拟合ARMA模型。

作者：张齐兰（理学院06级统计班）指导老师：蔡静

2.3模型拟合

对1975-2009年全国肾综合证出血热发病率序列进行定阶，绘制自相关图、偏自相关图（见图3）

图3 1975-2009年全国肾综合证出血热发病率序列自相关图、偏自相关图

由自相关图及偏自相关图看出：自相关系数为2阶截尾、偏相关系数为1阶截尾。因此可以尝试拟合AR(1)、ARMA(1,1)、AR (2)模型。

（1）选取AR (1)模型对1975-2009年全国肾综合证出血热发病率序列进行拟合,输出的结果如下：

贵州民族学院——统计学专业——毕业论文：ARMA模型在传染病预测中的应用

由上图可知，残差白噪声检验显示延迟6阶、12阶、18阶、24阶LB 检验统计量的p值均显著大于0.05，因此该模型显著有效；在三个参数中常数项的t检验统计量的p值大于0.05，不显著，其他两个参数的t检验统计量的p值小于0.05是显著的，所以要除去常数项。（其中AIC=111.1408，SBC=114.1935）

AR（1）模型除去常数项后运行得如下结果：

作者：张齐兰（理学院06级统计班）指导老师：蔡静

由上结果得知AIC=112.4837,SBC=114.01，参数的t 检验统计量的p 值小于0.05是显著的，残差白噪声检验显示延迟6阶、12阶、18阶、24阶LB 检验统计量的p 值均显著大于0.05，因此该模型显著有效。因此AR (1)模型为：

t t x x ε+=-196488.0

（2）选取ARMA(1,1)模型对1975-2009年全国肾综合证出血热发病率序列进行拟合,输出的结果如下：

贵州民族学院——统计学专业——毕业论文：ARMA模型在传染病预测中的应用

由上图可知，残差白噪声检验显示延迟6阶、12阶、18阶、24阶LB检验统计量的p值均显著大于0.05，因此该模型显著有效。在三个参数中MA1,1的t 检验统计量的p值为0.0618大于0.05，不显著，其他两个参数的t检验统计量的p值均小于0.05是显著的，ARMA(1,1)模型除去不显著的参数后就是AR(1)模型，结果和上个拟合的模型一样。

（3）选取AR(2)模型对1975-2009年全国肾综合证出血热发病率序列进行拟合输出的结果如下：

作者：张齐兰（理学院06级统计班）指导老师：蔡静

由上图可知：参数显著性检验结果显示三参数t 统计量的P 值均小于0.05，然而这三个参数均显著；残差白噪声检验显示延迟6阶、12阶、18阶、24阶LB 检验统计量的p 值均显著大于0.05，因此该模型显著有效的。(其中AIC=108.7482,SBC=113.3273）AR(2)模型为：

t t t t x x x ε+-+=--2135511.023781.163422

贵州民族学院——统计学专业——毕业论文：ARMA 模型在传染病预测中的应用

2.4模型择优

2.4.1 根据信息量准则择优

综上所述，在尝试拟合的模型中有AR(1)、AR(2)显著有效，根据信息量准则，AIC 、SBC 越小越好，通过比较两种模型的AIC 、SBC 值（见表2）可得出最理想的模型为AR （2）模型。AR （2）模型为：

t t t t x x x ε+-+=--2135511.023781.163422.2

表2两种模型的AIC 、SBC 值 2.4.2 预测值与实际值的比较

用AR(1)、AR(2)模型分别对2009年年发病率作出预测，比较实际值与预测值，以了解AR(2)模型的预测精度。

（1）AR(1)模型对2009年年发病率作出的预测，输出结果如下:

由上结果知该模型对2009年年发病率的预测值为0.7578/10万人。

（2）AR （2）模型对2009年年发病率作出的预测，输出结果如下:

作者：张齐兰（理学院06级统计班）指导老师：蔡静

由上知该模型对2009年年发病率的预测值为0.8029/10万人。

在资料的数据表中知2009年年发病率的实际值为0.84/10万，两种模型所得的预测值中与实际值最接近的AR(2)模型（表3），因此AR(2)模型为最理想的模型，其预测值与实际值的相对误差分别为0.0371。AR(2)模型为:

t t t x x x ε+-+=--2135511.023781.163422.2

年度

预测值

实际值

ARMA(1,0)

ARMA(2,0)

2009年

0.7578

0.8029

0.84

表3两种模型预测值与实际值的比较

2.5对2010年发病率的预测

AR （2）模型为：

t t t x x x ε+-+=--2135511.023781.163422.2

2008年、2009年全国肾综合证出血热发病率分别为0.64，0.84。因此可预测2010年肾综合征出血热发病率为3.45/10万人。

贵州民族学院——统计学专业——毕业论文：ARMA模型在传染病预测中的应用

第3章小结与讨论

由于刚才所用的历史资料，主要来源于法定传染病报告系统和死因报告系统，时间跨度大，其间报告系统经历了数次变革，因此应充分考虑其完整性和可信度，对其结果的解释和利用要审慎。

本文对肾综合征出血热进行了“年”发病率的预测，预测精度较大，但肾综合征出血热作为季节性很强的传染病，在实际工作中往往需要以月为单位进行预测，如果预测精度不够大，将失去实际意义。丁守銮[3]采用ARMA方法以月为单位对肾综合征出血热发病率进行预测，实际值与预测值绝对误差最大值达到2.5/10万。随着基础资料质量的提高，以月甚至以周为单位进行预测必然是发展方向。

预报提前期是实际预测的时点距当前最新一个历史值的时间，提前量太短是预测可能在应用中丧失其实际意义[4]。本研究在选取预报提前期时，采取的是经验法，并没有对提前期进行筛选。

综上所述，ARMA模型对样本容量和概率分布没有严格要求，模型简单，是一种预测精度较高的预测模型，适合于流行因素较稳定的疾病进行中短期预测。

作者：张齐兰（理学院06级统计班）指导老师：蔡静

成果声明

本人郑重声明：所呈交的毕业论文是本人在指导老师的指导下独立进行研究所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。本文的研究和撰写对做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。

另外：本文版权属贵州民族学院所有。

论文作者签名：张齐兰日期：2010年6月10日

贵州民族学院——统计学专业——毕业论文：ARMA模型在传染病预测中的应用

致谢

非常感谢蔡静老师在我大学的最后学习阶段——毕业论文阶段给自己的指导，从最初的定题，到资料收集，到写作、修改，到论文定稿，她给了我耐心的指导和无私的帮助。为了指导我们的毕业论文，她放弃了自己的休息时间，她的这种无私奉献的敬业精神令人钦佩，在此我向她表示诚挚的谢意。同时，感谢所有任课老师和所有同学在这四年来给自己的指导和帮助，是他们教会了我专业知识，教会了我如何学习，教会了我如何做人。正是由于他们，我才能在各方面取得显著的进步，在此向他们表示我由衷的谢意，祝老师们身体健康、工作顺利。

论文作者签名：张齐兰日期：2010年6月10日

作者：张齐兰（理学院06级统计班）指导老师：蔡静

参考文献

[1] 耿贯一，流行病学，北京：人民卫生出版社，1996.832—835.

[2] 中国卫生统计年鉴，

[3] 丁守銮，康家琦，王洁贞，ARMA模型在发病率预测中的应用[J].

国医院统计，2003.10 （1）：23-26.

[4] 张晋昕，方积乾，基于预报效果的ARMA模型筛选[J].中国卫生统计，2002. 21（1）：6-9.

[5] 彭志行，鲍昌俊，赵杨，易洪刚，唐少文等.ARIMA乘积季节模型

其在传染病发病预测中的应用.2008.27(3).

[6] 陈叶，白杉，陈慧中等，ARMA模型对肾综合征出血热发病率趋势预测的拟合研究.2008. 35(8).

[7] 肖枝洪，郭明月.时间序列分析与SAS应用.武汉大学出版社.2009:1-107

[8] 王燕.应用时间序列分析.中国人民大学出版社.2005:16-106.

[9] 徐国祥.统计预测和决策.上海财经大学出版社.2008:130-166.

[10] 岳朝龙，黄永兴.SAS与现代经济统计分析.中国科学技术大学出版社.2009:529-571.

贵州民族学院——统计学专业——毕业论文：ARMA模型在传染病预测中的应用

附录：

（1）ARMA(1,0)模型

作者：张齐兰（理学院06级统计班）指导老师：蔡静

（2）ARMA(1,1)模型