您好,欢迎访问三七文档
当前位置:首页 > 生活休闲 > 社会民生 > 基于Logistic回归模型的人口预测分析
-1-基于Logistic回归模型的人口预测分析尹东旭,李阳,马雨晨指导老师:徐慧(空军工程大学,西安XXXXXX)摘要:本文在数值微分法和最小二乘法曲线拟合的基础上对Logistic回归模型进行参数估计,预测了人口城镇化和老龄化两个影响因素以及2016-2030年我国的人口总数以及人口所能达到的最大值并对其加以检验。关键词:Logistic回归模型;数值微分;参数估计;曲线拟合;人口预测1问题重述与社会背景对于中国这样一个人口大国,人口问题始终是制约我们经济、文化等各方面发展的关键因素之一。如何使用数学模型来对我国的人口增长进行准确而有效的预测,关乎我国的人民幸福,更关乎国家的发展大事。近年来中国的人口发展呈现了一些新的特点,比如老龄化进程加速,男女比例失调,以及农村人口城镇化,特别是计划生育政策的施行,这些都不同水平的影响着人口的增长,而这些因素影响着人口增长趋势预测的准确性。为此,如何综合考量各方面的因素,较为精确的刻画出人口增长趋势,是本文的主要目标。经过分析与讨论后,我们着重探讨了以下问题:1.如何从中国的实际情况和人口增长的特点出发,参考表1中的相关数据及其他材料,建立中国人口增长的数学模型;2如何利用建立的数学模型对中国人口增长做出预测并加以检验。-2-2基本假设1.预测时间内没有重大瘟疫、战争、自然灾害等非正常因素影响人口发展。从图1中可以看出2003年60岁以上老人的死亡率因为SARS流行达到五年年来最大值,其余年份假设基本保持平稳。(见图1)图1(数据来源于中国统计年鉴)2.不考虑多胞胎情况。3.忽略人口统计时漏报误报现象。4.假设人口只受我国国内的出生率、死亡率和迁移因素影响,不考虑国家之间的移民。3模型的分析与建立02000400060008000100001200014000200120022003200420052001-2005年各年龄段的死亡率死亡率死亡率死亡率-3-3.1logistic模型的介绍Logistic模型是1938年Verhulst—Pearl在修正非密度方程时提出来的,他认为在一定的环境中种群的增长总存在一个上限,当种群的数量逐渐向着上限上升时实际增长率就要逐渐地缩小,所以也被称为Verhulst—Pearl方程。广义Logistic曲线可以模仿一些情况的人口增长(P)的S形曲线。起初阶段大致是指数增长;然后随着人口开始变得饱和,增加变慢;最后,达到成熟时增加停止,所以又叫sigmoid曲线(S型曲线)。(摘自百度文库)logistic方程即微分方程:(摘自百度百科)众所周知,人口增长呈现指数型增长,但人口是会受到环境最大容纳量、政策变化、经济发展、科技进步等的影响,因此这些影响因素都成为一种阻滞作用,而人口越接近最大值,这种阻滞作用就越大,所以,我们在数值微分和最小二乘法曲线拟合的基础上对Logistic数学模型进行了参数估计,此方法对许多事物如经济、生物种群、医疗卫生的发展和预测具有很大的应用价值。只要满足指数增长的事物(S型曲线),就可以使用这种预测方法。3.2logistic模型建立首先,我们不妨设时刻t的人口总量为𝑥(𝑡),并将𝑥(𝑡)看作连续、可微的函数。记初始时刻(t=0)的人口为𝑥0。规定人口的增长率为常数r,即单位时间内𝑥(𝑡)的增量等于r乘以𝑥(𝑡)。我们考虑t到𝑡+∆𝑡时间内人口的增量,则有x(t+∆t)−x(t)=rx(t)∆t(1)令∆𝑡→0,则得到𝑥(𝑡)满足如下的微分方程-4-dxdt=𝑟𝑥,𝑥(0)=𝑥0(2)对人口的阻滞体现在对r的影响上,表现为r随着人口数量𝑥的增加而下降.我们不妨把人口的增长率r表示为关于人口数量𝑥的函数𝑟(𝑥),显而易见𝑟(𝑥)为减函数,于是(2)式可写为dxdt=𝑟(𝑥)𝑥,𝑥(0)=𝑥0(3)设𝑟(𝑥)是𝑥的线性函数,即r(x)=r−sx(r0,𝑠0)(4)此时r表示当人口数目比较少时(理论上设x=0)的增长率,就是假设此时的人口是不受自然资源等限制的固有增长率。我们要明确参数s的含义,可以引入最大人口环境容纳量𝑥𝑚,即我国在现在及未来国情下所能容纳的最大人口数量。则当𝑥=𝑥𝑚时,人口达到最大,此时人口增长率为0,即增长率𝑟(𝑥𝑚)=𝑟−𝑠𝑥𝑚=0从而得到𝑠=𝑟𝑥𝑚,于是(4)式可改写为𝑟(𝑥)=𝑟(1−𝑥𝑥𝑚)(5)将(5)代入(3)得如下的Logistic模型𝑑𝑥𝑑𝑡=𝑟𝑥(1−𝑥𝑥𝑚),𝑥(0)=𝑥0(6)由分离变量法得方程(6)的通解xxm−x=cert。利用初始条件得c=x0xm−x0。把c代入通解并简化得x(t)=xm1+(xmx0−1)e−rt。(7)(7)式可简写为x=𝑥𝑚1+𝑎𝑒−𝑏𝑡,(8)-5-其中a=xmx0−1,b=r。从(8)式可以看出要想预测出人口数量,需求出参数xm,r或a、b的值。我们采用最小二乘法求E(xm,r)=∑(xm1+(xmx0−1)e−rt−yi)2ni=1的最小值,通过求𝜕𝐸𝜕𝑥𝑚,𝜕𝐸𝜕𝑟并令它们等于零,利用Matlab软件进行处理可以估算𝑥𝑚,r的值,并对解取倒数,得到1x=1xm+(1x0−1xme−rt)。利用等长度时刻t0,t1,t2(t2=2t1)所对应的三个人口数量求得相关参数r=In(x1−x0)x2(x2−x1)x0,Xm=x0(1+ert)(1+x0x1)ert(t=t1−t0=t2−t1)。3.3Logistic回归模型的参数估计对Logistic模型进行参数估计的方法有很多,通常我们使用的方法有Bayes估计、最小二乘法估计、稳健估计等等。这里我们使用数值微分和预测拟合法对logistic模型进行参数估计,并对结果进行合理验证。由解(8)中可知,只要对参数𝑥𝑚,𝑎,𝑏,进行估计即可得出结果,主要方法和步骤如下:(1)首先求𝑥𝑚,对(6)式变形得到𝑑𝑥𝑑𝑡𝑥=𝑟−𝑟𝑥𝑚𝑥(9)设𝑑𝑥𝑑𝑡𝑥=𝑟𝑘为年增长率,根据已经得到的人口总量的数据并且利用数值微分的方法计算得方程的左边就是增长率𝑟𝑘,然后对𝑟𝑘进行线性拟合可以求得𝑟𝑘=𝑐𝑥+𝑑,由此我们可得𝑥𝑚=|𝑑𝑐|。(2)求参数a、b.将(8)式变形为𝑥𝑚𝑥−1=𝑎𝑒−𝑏𝑡(𝑎=𝑥𝑚𝑥0−1,𝑏=𝑟)-6-两边取对数得ln(𝑥𝑚𝑥−1)=ln𝑎−𝑏𝑡,令𝑦=ln(𝑥𝑚𝑥−1),𝐵=ln𝑎,𝐴=−𝑏,就能使复杂的指数形式的解变形为一个线性函数𝑌=𝐴𝑡+𝐵,这时我们可以利用Matlab2013a软件拟合出A与B的值,接着就可以求出𝑎=𝑒𝐵,𝑏=−𝐴的值,从而确定出人口模型解的具体形式。3.4Logistic模型在人口城镇化以及老龄化中的应用根据国家统计局公布的1980年后的人口城乡比以及各年龄段分布,基于上述模型,可以用Matlab仿真模拟出未来的变化趋势(见图2、图3、图4)-7-图2人口城镇化预测从图2可以明显看出我国城镇人口比例正在快速增长,说明我国经济正在飞速发展,拟合曲线与散点图拟合程度高,说明预测结果较为准确。图3农村人口预测从图3可以看出,拟合曲线与散点图拟合程度并不高,说明我国农村人口数会随着政策变化、经济发展等不可控因素发生变化,也从侧面说明人口城镇化正在加速。-8-图4人口老龄化预测从图4可以看出,随着科技的发展,人的寿命越来越长,再加之优生优育的政策,老龄化也随之加剧,老龄化会影响人口的预测,所以这是不得不考虑的一个因素。3.5Logistic模型在人口预测中的应用根据中国统计局在《统计年鉴》中公布的“1949--2008”年人口统计数据(见附录2),为了得到较为准确有效的数据结果,我们选取了1980年到2005年的人口数据加以预测。(1980年以来)年份年末总人口出生率死亡率自然增长率(万人)(‰)(‰)(‰)-9-19809870518.216.3411.87198110007220.916.3614.55198210165422.286.6015.68198310300820.196.9013.29198410435719.906.8213.08198510585121.046.7814.26198610750722.436.8615.57198710930023.336.7216.61198811102622.376.6415.73198911270421.586.5415.04199011433321.066.6714.39199111582319.686.7012.98199211717118.246.6411.60199311851718.096.6411.45199411985017.706.4911.21199512112117.126.5710.55199612238916.986.5610.42199712362616.576.5110.06199812476115.646.509.14199912578614.646.468.18200012674314.036.457.58200112762713.386.436.95200212845312.866.416.45200312922712.416.46.01200412998812.296.425.87200513075612.46.515.89表11980-2005年全国历年主要人口数据首先我们可以求出人口年增长率的值,然后再利用Matlab软件进行拟合,使用Matlab软件可以做出数据的散点图(见图5)我们发现该曲线为单调函数的图像,并且是呈指数型增长的函数,所以可以选用一次多项式进行拟合并仿真。-10-图5人口散点图图6拟合求最大值由表一中的数据可以拟合出𝑥m=15.3535(单位:亿)(见图6),𝑎=0.5726,𝑏=0.05073,可以得到我国人口总数的Logistic回归模型的表达式为:-11-𝑥=15.35351+0.5726𝑒−0.05073𝑡通过Matlab2013a进行数据拟合可以直观且方便地看到人口数值的变化情况(见图7),从图中我们可以发现预测的数据和实际数据曲线拟合得比较好。图7拟合图像与仿真结果于是求出预测中国人口的具体公式𝑥=15.35351+0.5726𝑒−0.05073(𝑡−𝑡0)我们取1980年的人口总数为𝑥0=9.8705(注:单位:亿)据上式可以得出2000和2005年的人口数:-12-当t=20时:𝑁(20)=15.35351+15.3535−9.875015.3535𝑒−0.05073∗20=12.65当t=25时:𝑁(25)=15.35351+15.3535−9.875015.3535𝑒−0.05073∗25=13.14其相对误差分别为|12.65−12.6743|12.6743=0.19%|13.14−13.0756|13.0756=0.492%误差都较小,说明预测结果比较准确。以此类推,我们可以估算出未来几年的中国人口数(见表2)中国未来几年人口预测年份人数(亿)201613.96201714.02201814.08201914.13202014.19-13-202114.24202214.28202314.33202414.38202514.42202615.46202714.50202814.54202914.57203014.61表24该模型的优点与不足【1】Logistic回归模型对人口、资源、环境等的发展和预测具有应用价值,是一种实用价值很高的预测方法,基于此模型计算了我国2001年和2005年总人口数的误差情况,并预测了2016年—2030年我国的人口总数。只要满足呈指数型增长且阻滞作用随着增长加大的事物,就可以使用Logistic函数-14-模型进行预测,而在用Logistic函数进行预测的时候,本
本文标题:基于Logistic回归模型的人口预测分析
链接地址:https://www.777doc.com/doc-5224177 .html