中国人口增长预测数学建模论文
高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
参赛队员(打印并签名) :1.
2.
3.
指导教师或指导教师组负责人(打印并签名):
日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):
高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
中国人口增长预测
摘要: 中国作为世界上人口最多的发展中国家,人口问题直接影响着我们国家的
发展。本文运用数学建模的方法,建立了中国人口增长的数学模型,并对未来中国的人口状况做出了预测。
中短期人口模型:我们以莱斯利(Leslie )模型作为理论基础,建立了一个全国人口模型。由于中国城镇化进程不断加快,所以把全国划分为城,镇,乡三个独立子系统建模方法是不可行的。通过对数据进行处理,在得到了全国人口的死亡率和生育率之后,再使用指数平滑的方法,就可以得到一个相对稳定的各个年龄段的死亡率和生育率。如果把中国看作一个独立的人口系统,就可以使用莱斯利模型顺利的建立起全国女性人口模型。建立了全国女性人口模型后,我们引入了两个重要的变量:男女比例矩阵)t (p 和初生男女婴儿比例函数)(t f 。通过这两个变量就可以由全国女性人口模型建立起全国人口的中短期模型。
通过中短期模型,可以分析出我国人口在未来几十年的变化趋势,得出以下结果。在2025年-2030年期间我国人口将达到峰值,然后人口数量就开始下降(参见图1)。而我国的老龄化进程会不断地加剧,在2040年左右将达到人口老龄化的最高峰,并在以后的十几年的时间里保持这种状态,形成一个人口老龄化的高峰平台(参见图2)。有意思的是,性别比例异常也对人口走势产生了影响。性别比例异常不会对人口增长产生特别明显的效果,但在人口衰退期,却对人口数目的减少起到了微妙的作用(参见图4)。
长期人口模型:在长期模型中,我们尝试着模拟未来中国100年的时间里人口总量的变化情况。
我们对莱斯利模型进行了改进,使这个模型能够适用于三个人口子系统(城,镇,乡)之间人口相互转移的情况,从而使长期人口模型在大的时间跨度能够更好的符合实际情况。
我们在模型中引入了迁移率(迁入人口与总人口的比)的概念,使这三个系统之间的迁入迁出关系得到量化。这样通过迁移率将三个相对独立的人口子系统联系起来,就能利用改进的莱斯利模型进行求解。
通过对长期人口模型的分析,我们可以得到未来100年的时间里中国人口总量的变化趋势 (见图5)。在经历了21世纪中叶的人口高峰后,我国人口可能会经历一个长达半个世纪的衰退期.
关键字:莱斯利(Leslie )模型, 城镇化,指数平滑,老龄化,迁移率
1问题重述
中国是一个人口大国,人口问题始终是制约我国发展的关键因素之一。根据已有数据,运用数学建模的方法,对中国人口做出分析和预测是一个重要问题。
近年来中国的人口发展出现了一些新的特点,例如,老龄化进程加速、出生人口性别比持续升高,以及乡村人口城镇化等因素,这些都影响着中国人口的增长。2007年初发布的《国家人口发展战略研究报告》(附录1) 还做出了进一步的分析。
关于中国人口问题已有多方面的研究,并积累了大量数据资料。附录2就是从《中国人口统计年鉴》上收集到的部分数据。
试从中国的实际情况和人口增长的上述特点出发,参考附录2中的相关数据(也可以搜索相关文献和补充新的数据),建立中国人口增长的数学模型,并由此对中国人口增长的中短期和长期趋势做出预测;特别要指出你们模型中的优点与不足之处。
2 模型假设
1、假设在中国在未来会长期保持安定的局面
2、不考虑突发事件(如传染病暴发,战争等)和因不可抗力(地震,海啸等)对人口数量造成的影响。
3、将全中国作为一个独立的人口系统,不考虑迁入迁出,即忽略中国人向海外移民和外国人定居中国对中国人口分布状况和总数的影响.
4、假设在中短期内死亡率和生育率保持相对稳定,
5、假设相同年龄段的人口性别比基本稳定
6、假设计划生育等国家基本政策保持不变,
7、假设人口生育率不受传统观念和个人主观因素的影响,如属相问题等
3 符号说明
T
?:年龄区间
T
m?:妇女能够生存的最大年龄
) (j x
i :第i个年龄组在时刻T
j?的人数
)
(j
x:年龄密度分布i
b:各年龄组生育率i
s:存活率,
G:莱斯利矩阵
i d : 死亡率
城女A :抽样调查到的城市女性总数
镇女A :抽样调查到的城镇女性总数, 乡女A :抽样调查到的乡村女性总数
城女a :城市女性占总女性人数的比例
镇女a :城镇女性占总女性人数的比例 乡女a :乡村女性占总女性人数的比例
i d 女: 女性第i 年龄组死亡率
i d 城女 城市女性第i 年龄组死亡率 i d 镇女:城镇女性第i 年龄组死亡率
i 乡女d :乡村女性第i 年龄组死亡率 女,
b :女婴出生率 城女,
b :城市女婴出生率 镇,女,
b :城镇女婴出生率 乡,女b :乡村女婴出生率
)0(i x 女:在起始时刻女性第i年龄组的人口密度
i ,j x 乡女:第j 数据组年龄为i 的乡村女性人数 i ,j x 城女:第j 数据组年龄为i 的城市女性人数 i ,j x 镇女:第j 数据组年龄为i 的城镇女性人数
i j d ,:第j 数据组年龄为i 的人口死亡率
i j b ,:第j 数据组年龄为i 的人口生育率
c :指数平滑常数
i 女s :第i 年龄组女性存活率
)0(i x 女:全国第i年龄组女性分布率
)t (x 女:第t年女性人数密度分布
)t (女F :第t年女性人数总数
)t (x i 女:第i年龄组第t年全国女性人口率
)(t p :男女比例矩阵
)t (p i :第i 年龄组的男女比例函数,是)(t p 的对角线元素 i j p , :第j 数据组第i 年龄组的男女性别比
)1(,i j p :指数平滑处理过的i j p , )(t f :初生男女婴儿比例函数
)(t F :第t 年全国总人口数
H:第t年全国年龄大于65岁的人口数
)(t
Q:全国老龄化程度
)(t
x
)(t
:第t年城市人口年龄分布
城
x:第t年城市男性人口年龄分布
)t(
城男
x:第t年城市女性人口年龄分布
)t(
城女
:城市男女性别比例矩阵
)t(
p
城
x
)(t
:第t年城镇人口年龄分布
镇
G:城市女性人口的莱斯利矩阵
城女
x:第t年城镇男性人口年龄分布
)t(
镇男
x:第t年城镇女性人口年龄分布
)t(
镇女
:乡村男女性别比例矩阵
p
)t(
乡
x:第t年乡村男性人口年龄分布
)t(
乡男
x:第t年乡村女性人口年龄分布
)t(
乡女
:乡村男女性别比例矩阵
)t(
p
乡
G:乡村女性人口的莱斯利矩阵
乡女
w:乡村向城市迁移的人数占城市总人数的比例(城市迁移率)
城
:
w乡村向城镇迁移的人数占城镇总人数的比例(城镇迁移率)
镇
w:乡村人口外迁人数占总人数的比例(乡村迁移率)
乡
V:转移到城市的人口占转移到城镇和城市总人口的比例)t(
z:城市人口占总人口数的比例
城
z:城镇人口占总人口数的比例
)t(
城
z:乡村人口占总人口数的比例
)t(
城
:第t年城市总人口数
)t(
F
城
:第t年城镇总人口数
)t(
F
镇
F
)t(
:第t年乡村总人口数
乡
F:第t年中国总人口数
)(t
4 问题分析
我们针对中国人口增长的问题,建立了中国人口增长的模型,由此对中国人口增长的中短期和长期趋势做出了预测。我们认为,附录中的数据均是离散化(以一年为单位)的给出,所以这个问题适合用离散模型来解决。
有中国城镇化水平不断提高,城镇化进程不断加快(每年的城镇化水平增加1个百分点,见题目附录1),城,镇,乡之间人口的迁入迁出十分频繁,人口流动量大,故我们认为不能够将城,镇,乡作为三个独立的人口系统来考虑,而应当把整个中国作为一个独立的人口系统。通过附录中给出的城,镇,乡的数据,可以计算出中国作为一个系统所需要的数据。
而且根据题目要求,应当考虑进中国的实际情况和人口增长的一些特点(老龄化进程加速、出生人口性别比持续升高,以及乡村人口城镇化等)。我们考虑可以使用经典的离散化人口模型莱斯利(Leslie )模型来做为描述中国未来人口变化趋势的理论模型。但结合中国人口增长的特点,需要在这个模型的基础上进行改进。考虑到中国老龄化进程加速,应当利用这个模型对中国未来的老龄化进程做出预测。出生人口性别比例持续偏高不可避免的会影响中国未来人口的增长状况。因此在建立模型的过程中,应当考虑性别比例因素,并应该预测出性别比例失调对中国未来人口可能产生的影响。乡村人口城镇化过程在中国是一个不可逆转的趋势,我们建立的模型中还尝试着预测未来中国长期得变化趋势。
5 模型的建立与求解
5.1中短期人口模型
将中国作为一个独立的人口系统,不考虑迁入迁出,在建立中短期人口模型时,将城,镇,乡的各项数据分类进行了处理,忽略了城镇化进程对人口死亡率和生育率的影响,且认为在短期内相同年龄段的人口性别比基本稳定。
5.1.1莱斯利(Leslie )模型 ]1[
将女性按相同的年龄区间T ?划分为1+m 组,各组中女性的年龄在])1(,[T i T i ?+? 之内,,,,2,1,0m i =其中T m ?为妇女能够生存的最大年龄.设每个年龄组组中的妇女有相同的生育率和死亡率。我们考察时间T j t ?=时各年龄组中的人数.设)(j x i 表示第i 个年龄组在时刻T j ?的人数,称其为年龄密度分布,并令T m j x j x j x j x ))(,),(),(()(10 =.又设i b 为第i 组妇女平均每人在T ?时间内生育并成活的婴儿数,i s 为第i 组女性生存到
T i ?+)1(、进入1i +组的人数比例,于是T j T )1j (??+与各组人数之间的关系为
?????
==+=+--=∑m.
,,2,1i ),j (x s )1j (x ),
j (x b )1j (x 1i 1i i
m
i i i 0 1.1) 令
???????
?
??
??????=--0s 0000
s 0000s b b b b G 1m 10m 1m 10 1.2)
G 称为莱斯利矩阵,它可以改写为
)()1(j Gx j x =+
1.3)
显然,由于妇女有一定的生育期,从某个年龄组(如l 组)开始以后各组和某个年龄组(如k 组)之前各组均无生育能力,既当.时,有或0b k i l i i =<> 5.1.2女性人口模型
在Leslie 模型的基础上,我们建立了女性人口模型。在建立模型时,与年龄的离散化相对应,时间也离散为时段,并且时段的间隔与年龄区间大小相等]2[,这样,我们以
1岁为1个年龄组,1年为1个时段,即k 年i 岁的女性人数为)(k x i .假定在短期内女性生育率保持不变,即女性生育率i b 只与年龄有关,其育龄区间为[15,49],同时假设死亡率i d 也只与年龄有关,存活率为i s .则由Leslie 模型,可以得到最近几年的女性人口年龄的密度分布)(j x 有如下递推式: )()1(j Gx j x =+.
1.4) 当初始分布向量)0(x 已知时,则可得
,2,1),0()(==j x G j x j
1.5)
通过)(j x 可以很容易的研究j 时段人口的总数和年龄结构. 5.1.3中短期人口模型
5.1.3.1 模型分析
在5.1.1和5.1.2的基础上,我们就可建立起全国中短期人口模型.在人口总数模型中,我们将中国作为一个独立的系统,不考可虑外界的迁入与迁出对国内人口的影响。这样如果只考虑从女性人口数量出发,就可以建立一个全国的女性人口模型。然后再男女比例矩阵)t (p 和初生男女婴儿函数)(t f ,我们就可以对全国的总人口数和年龄结构进行预测。
在使用女性人口模型时,我们首先需要确定的是女性人口各年龄段的生育率和女性人口各个年龄段的死亡率以及初始全国女性人口的年龄密度分布。
5.1.3.2 模型建立
中短期人口模型中,在短期内,生育率与各年龄阶段的死亡率都不随时间而变化。这样在中短期人口模型中,i d 和i b 都可以通过附录2中给出的统计数据得出。
我们首先根据附录中给出的数据,计算出了全国女性的各个年龄段的生育率和死亡率。
对于2001-2005年的数据,我们以抽样调查到的城市女性总数城女A ,城镇女性
总数镇女A ,乡村女性总数乡女A 的比例作为全国城市女性,城镇女性和乡村女性的比例。即有: 乡女
镇女城女城女
城女A A A A ++=
a 1.6) 乡女
镇女城女镇女
镇女A A A A ++=a 1.7)
乡女
镇女城女乡女乡女A A A A ++=
a
1.8)
可知1a a a =++乡女镇女城女 则全国女性每个年龄段的死亡率
i i i i d a d a d a d 乡女乡女镇女镇女城女城女女++=,
1.9)
全国女性各个年龄段的生育率
i i i i b a b a b a b 乡女乡女镇女镇女城女城女女++= 1.10)
全国女性的年龄密度分布 i ,i ,i ,b a x a x a )0(乡女乡女镇女镇女城女城女女j j j i x ++= 1.11)
在计算各年龄段死亡率i d 和各年龄段生育率i b 时,我们令2001年到2005年的数
据分别为i j d ,和i j b ,,其中j 作为区分年份的下标,4,3,2,1=j 分别对应2001年,2002,2004年和2005年的情况,i 表示年龄,900≤≤i 。但是由于2003年是非典爆发,我们在计算中都没有考虑2003年的情况。
为了能够得到i d ,我们使用了指数平滑的方法。指数平滑法是常用的一种时间序列预测方法。该方法假定未来预测值对过去已知数据有一定关系,近期数据对预测值的影响较大,远期数据对预测值的影响较小,影响力呈几何级数减少。该法如公式1.12)所示:
i ,0(1)
i ,0)1(,1,)1(,d d ,)1(=-+=-其中,i j i j i j d c cd d 1.12) 我们取3
2
=
c ,即近期数据对测量值的影响较大,然后有
90,2,1
,0,)
1(,4 ==i d d i i 女 1.13) 从而有i i d 1女女-=s
1.14) 计算全国女性各个年龄段生育率i b 和年龄密度分布)(j x i 也采用相同的方法 i ,0(1)i ,0)1(,1,)1(,b b ,)1(=-+=-其中i j i j i j b c cb b
1.15)
取3
2
=c 可得
90,2,1
,0,)
1(,4 ==i b b i i 女 1.16)
而对于)0(i x ,因为我们以2005年作为过去和未来的时间分界点,故)0(i x 的初值为
90,,2,1,0i ,b a x a x a )0(i ,5i ,5i ,5 =++=其中,乡女乡女镇女镇女城女城女女i x 1.17)
这样即可得到Leslie 矩阵
?????
??
?????????=0s 00
00s 0
000s b b b b G 89
10
9089,10
女女女女女女女 1.18) 这样,由2.2式可知,
))t (x ,),t (x ),t (x ()t (x ),0(x G )t (x ,9010t
女女女女女女女其中, ==, 1.19)
)t (x 女是从2005年往后第t 年的女性人口年龄密度分布,第t 年的全国女性总人数为
∑==90
0i i )t (x )t (女女F 1.20)
对于男性人口,我们首先引入了一个各个年龄段的男女比例矩阵
????????????=)(00000)(0000)
()(9010t p t p t p t p 1.21) 对于)t (p 对角线中的每一项,有 90i 0,)t (x )
t (x )t (p i ≤≤=其中女男。 1.22)
在计算初始的各年龄段的男女比例时,我们令2001年到2005年的数据为
i j p ,,
其中j 作为区分年份的下标j=1,2,3,4分别对应于2001年,2002年,2004年和2005年的情况,同样不考虑2003年。 对此我们同样采用指数平滑法对2001年,2002年,2004年和2005年的各个年龄
段男女人口比例进行了处理,即有:
i ,0(1)i ,0)1(,1,)1(,p p ,)1(=-+=-其中,i j i j i j p c cp p
1.23)
则对于)(t p 的初始值)0(p ,我们有
90i 0,)0()
1(,4≤≤=其中,
i i p p 1.24)
为了表示未来人口的变化,我们又引入了一个出生男女婴儿比例函数)(t f , 它表示在第t 年的出生男女婴儿比例。其中
)0(p )0(0=f 1.25)
那么在知道了第t 年的女性人口年龄分布函数)t (女x 之后,可以用以下办法求第t 年的男性人口年龄分布函数。
对于
?????
????
???=)(0
00)(0000)()(9010t p t p t p t p 1.26)
当)1t (p )t (p 11i i -=≥-时,i ,而)()t (p 0t f = 1.27)
只要知道了)()t (p 0t f 和,就可以通过递推关系确定任意)(t p 的值。对于)(t f ,将在5.1.4.3中进一步讨论。 这样,由式1.19和式1.27,可以求出以2005年为起始点,第t 年的男性人口年龄分布为
)t (p )t ()t (女男x x =
1.28) 则全国人口的年龄分布函数为
)I )t (p )(t (x )t (x )t (p )t (x )t (x )t ()(+=+=+=女女女女男x t x 1.29)
其中I 为单位阵。 5.1.3 模型的求解
根据附录2中给出的抽样人数和式 1.6-1.8,我们可以得到每年的
乡女镇女城女a ,a ,a (见表1),根据城,镇,乡人口比例关系和式1.12-1.16,可以依次
求出i d 女和i b 女,具体数据见附录(5)。通过式1.17和式1.18可以求出式1.19。
a
2001 2002 2004 2005 城女 0.2467 0.2673 0.2643 0.2798 镇女 0.1305 0.1257 0.155 0.1719 乡女
0.6228
0.607
0.5807
0.5483
表1
对平顶山人口增长的预测 对未来平顶山人口总数的预测
由于出生婴儿男女比例)(t f 受到很多人为因素的干扰,我们几乎不可能找到一个
)(t f 关于时间的函数关系。为了对未来人口的总数做出预测,我们先假定它是一个常数。
由于近几年男女性别比持续偏高,这里我们取值为1.18。同时假设2005年的人口总数为单位1。
这样我们可以通过用matlab 编写程序绘制出中国未来50年中国人口总数的变化趋势图。程序参见附录<1>。
图(1)
从图(1)中可以观测到,在未来的
20-30年间,平顶山人口会一直
保持增长,大约在2025-2030年达到人口高峰。若将2005年的平顶山中国人口总数计算在内,则可以的到未来50年平顶山人口的2005年的人口总数为4932398在未来50年,中国人口将会经历一个先增后减的过
程,这与官方预期估计相吻合。
5.1.4.2 对未来人口老龄化进程的预测
莱斯利模型的一个特点是能够预测人口的年龄结构。我们建立的中短期人口模型
保持了这个特点。由式1.30可知中国各年龄段人口分布。我们以65岁作为老龄化起点年龄,则在第t 年老龄化人口数为
∑==90
65)()(i i t x t H 1.32)
这样可以求出第t 年的老龄化比例为
∑∑=
===
900
90
65)
()
()
()
()(i i
i i t x t x t F t H t Q 1.33)
当]50,1[∈t 时,我们可以求出各年的老龄化比例,用matlab 可以很容易的求出2005年以后50年的老龄化程度,程序见附录(2)。我们将预测出的今后50年的老龄化比例绘制成图(2),以反映今后50年的老龄化进程。
图(2)
通过图(2),我们可以预测到今后30多年我国老龄化程度将不断加剧。在2040
年左右,达到一个老龄化的高峰。在以后的几十年的时间里,虽然老龄化程度略有下降,但始终保持了一个较高且比较稳定的老龄化比例,从而形成一个人口老龄化高峰平台。 5.1.4.3出生性别比对人口的影响
式1.27中,我们给出了男女比例矩阵的求法,即
)1t (p )t (p 11i i -=≥-时,i
它表示的意义是,在第t 年的人口在1岁的年龄段的男女性别比例是第t-1年的0岁年龄段的男女性别比例,2岁年龄段的男女性别比例是第t-1年的1岁年龄段的男女性别比例,往后依次类推。
但对于第t 年的0岁的男女比例,我们引入了男女初生婴儿比例函数)(t f 。从男女比例矩阵中可以看出某一年的男女初生婴儿比例会在以后相当长的一段时间内对比例矩阵产生应影响。在正常情况下,男女出生婴儿比例应当是一个常数,大约在1.03-1.07之间(附录1)。
由)1t (p )t (p 11i i -=≥-时,i 和)()t (p 0t f =可知,男女婴儿初生比例函数会对以后社会男女比例产生重要影响。观察2001-2005年的男女比例数据,如图3所示。
图(3)
通过观察图3可知,图中用A 标出的区域中年龄段的性别比严重失调,根据式
1.27,可知如果这种情况一直得不到纠正,这部分人口进入成年后,男女比例失调的情况有可能对社会稳定 产生消极的影响。
我们可以考查一下对)(t f 产生影响的各个可能因素。首先就是重男轻女思想的影响,导致很多的医学需要的胎儿性别鉴定和非医学需要的选择性别的人工终止妊娠行为,甚至发生了很多溺弃女婴的行为(附录1 )。这就使得男女初生婴儿比例明显偏大。
再次,就是计划生育政策也会对男女性别比例产生一定影响。
最后,国家已经开始关注男女性别比偏高的问题,此后肯定会出台一系列的政策,使男女性别比例逐渐趋于正常水平。但这还要考虑到一个政府政策执行程度的问题。
综合以上各个因素,可知初生婴儿男女性别比的未来变化趋势受人为因素影响很大,无法找一个确定的函数来对其进行预测。我们做了如下两种假设:
1、现有的男女性别比偏高会一直维持下去,并保持在1.18左右,不会进一步恶化即此时有18.1)(1=t f 1.34)
2、现有的男女性别比偏高会在政府的影响下,于2020年左右逐渐趋于正常(附录1 ),这是我们为了便于研究,可以设)(t f 为一个分段函数,即有
???????????>≤<≤<≤<≤<≤≤=15
,06.11512,084.1129,108.196,132.163,156.130,18.1)(2t t t t t t t f 1.35)
我们将这两个函数分别代入式1.27中,用以替换)(t f ,将对式1.31的值产生影
响。我们为了让人便于观测性别比不同对人口总数的影响,我们用matlab 绘制了在未来50年内两种不同的男女初生婴儿比例最人口总数的影响,程序见附录(3)。
图(4)
可以看出男女初生婴儿比例对人口总数会产生一定的影响,但这种影响在人口增长期表现得并不明显,但在人口的衰退期,却会对减缓人口衰退产生一定的影响。
5.2长期人口模型
中国在近期的城镇化进程不断加快,城镇化水平不断提高。由于城,镇,乡三个不同的人口系统的人口生育率和死亡率各不相同,所以在研究中国人口的长期模型时,必须考虑到城镇化进程对中国人口的影响。因此我们把中国人口划分为城市,城镇和乡村三个子系统,并将城镇化进程考虑在内,对中国长期的人口状况进行预测。