您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > #基于出租车GPS数据分析深圳交通拥堵情况
基于出租车GPS数据分析深圳交通拥堵情况解放军信息工程大学谷继亮、王龙、赵宸立摘要:本文基于出租车GPS数据,从区域交通量OD分布角度出发,结合深圳市交通地图,研究深圳市交通小区的划分,建立载客出租车和人们出行的OD时空分布,分析筛选出拥堵的路段时段以及拥堵的路口时段。本文特点在于把经过处理的数据显示在地里信息系统软件上,并结合马克威分析系统完成小区的划分以及交通拥堵模型的检验。首先,采用随机抽样的方法获取数据样本,并利用C++编程对数据进行优化处理,得到出租车载客起讫点时刻的GPS数据,基于聚类和交通小区划分的相似性原理,利用马克威分析系统中的快速聚类方法进行交通小区的划分,共求得200个小区以及各小区的坐标。其次,利用合理假设,建立交通量OD分布概率模型,采用Bayes方法对模型的参数进行估计、对模型的整体拟合效果进行了检验,利用马克威分析系统处理数据得出小区交通量,进而求解出交通量的OD分布。再次,根据各区域总体居民出行时耗(出行距离)和出行比例的总体分布,将交通小区发生量离散为不同出行时耗(出行距离)区间上的出行量,并将相应区间内的出行量按区间所包含的交通吸引小区的面积及吸引量大小进行分配,得到了人们出行时耗特征图。最后,根据出租车载客后的行驶数据,编写程序筛选出有用的数据,并且把这些数据显示在GIS上,查找车辆比较拥堵的路段以及拥堵的路口时段。通过马克威分析系统软件处理GPS数据,得到各个路段的车辆数据。关键字:交通小区、OD分布概率模型、聚类分析、马克威分析系统一、问题的提出近年来,随着国民经济的快速增长,人流、物流、信息流以前所未有的密度涌向大中城市并向周边辐射,城市化进程明显加快,城市规模不断扩大,人口不断集中。此种状态在带动城市交通需求高速增长,机动车辆快速增加的同时,也促使城市道路负荷加重,交通拥堵现象日益加剧。交通拥堵使交通延误增大,行车速度降低、时间损失、燃料费用增加、排污量增大、城市环境恶化、并诱发交通事故,直接影响人们的工作效率和身体健康。出租车是城市客运交通的重要组成部分,是常规公共交通的重要补充。随着出租车数量的不断增长,出租车交通量已成为城市道路交通总量中的重要组成部分,成为影响城市道路交通分布及分配预测准确性的重要因素之一。由于出租车运行的随机性,没有固定的起讫点和运行线路,给定量分析带来一定的困难。各大城市越来越多的出租车的安装了GPS终端,这些终端能够每隔1分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆GPS实时数据。原始数据主要保存出租车上装配的GPS终端所采集的数据,这些数据包括序号,车牌号码,GPS时间,经度,纬度,车辆状态(空车、重车),车辆速度,车辆方向(8个方向)等信息。这些GPS数据为我们研究出租车交通情况题共了参考和依据。现阶段在交通拥堵方面主要集中在研究某个路口的情况,并且用缓冲区方法,而没有对整个区域有个整体的描述,而对于整个区域的研究则是基于交通需求建立模型,数据采集的精度不高。本文基于出租车GPS数据建立深圳整个区域的交通拥堵模型。二、数据的采集和预处理我们从网络(什么网)上下载了深圳市出租车的GPS数据,由于数据量较大,硬件设备无法对这些数据全部进行处理,我们采取了随机抽样的方式,从一万多辆出租车中随机抽取了100辆出租车的GPS数据进行建模分析。然而,原有的GPS数据中有很多错误数据(一些数据的经纬度超出深圳市范围,还有些车辆的状态明显错误),我们用C++语言编程对数据进行了筛选处理,得到了有效的GPS数据。利用这些数据我们进行了下面的数学建模分析。数据格式见表1。表格1数据格式字段示例备注车牌号日期时间经度纬度运营状态速度方位角粤B00G702011/04/1808:44:27114.04461722.53726815300为空载;1为重载该点车辆的瞬时速度行车方向三、问题的分析和模型的建立3.1划分小区3.1.1处理数据根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并选择小区中的某一点,用其经纬数值作为该小区的坐标。GPS数据中,出租车的状态为0表示载人,为1表示空车。在间隔几分钟后得到的下一数据多和上一数据的状态相同。要得到出租车载客的起讫点,我们需要对数据进行处理,使得到的数据中相邻的出租车运营状态不相同。当运营状态由0变为1时表示出租车由空车到有客人上车,当运营状态由1变为0时表示出租车由载客到客人下车。处理前后的数据见表2、表3:表格2原始数据nametimejdwdstatusvangle粤BA3G242011/04/2418:27:32114.11360222.600800104粤BA3G242011/04/2418:28:27114.11239622.601151160粤BA3G242011/04/2418:29:19114.11261722.6068991377粤BA3G242011/04/2418:29:58114.11261722.6093010230粤BA3G242011/04/2418:30:53114.11256422.609150004粤BA3G242011/04/2418:31:48114.11261722.607683083粤BA3G242011/04/2418:32:44114.11298422.6046160173粤BA3G242011/04/2418:33:38114.11228222.6016671224粤BA3G242011/04/2418:34:33114.11268622.5996671124表格3优化后的数据nametimejdwdstatusvangle粤BA3G242011/04/2418:29:19114.11261722.6068991377粤BA3G242011/04/2418:29:58114.11261722.6093010230粤BA3G242011/04/2418:33:38114.11228222.60166712243.1.2模型建立——K-Means聚类算法经过上一步的数据优化,即可得到由起讫点数据组成的数据集。现在需要对这些数据进行聚类运算:一段时间内的起点或者讫点被划分为若干个区域,每个区域中的点分布紧凑,区域和区域之间自然分开本文采用了K-Means聚类算法。K-Means聚类算法是一种分割式聚类方法,它是数据挖掘技术中一种经典的基于划分的聚类算法。其目的在于从大量数据点中找出具有代表性的数据点,即中心点,然后再根据这些中心点进行后续的处理。K-Means算法采用了迭代更新的运算思想,聚类过程如下:首先从n个数据点随机选择k个点作为初始聚类中心;通过运算其它点和这些聚类中心点的相似度(距离),将其分别分配给和其相似度最高(距离最近)的中心点所在的聚类;然后对划分好后的聚类重新运算聚类中心这一过程不断重复直到标准测度函数开始收敛。设X={nxxx,,,21}R为待聚类样本的全体(称为论域),即道路网络,sTkskkkRxxxx},,,{21为观测样本kx(各个路段)的特征矢量或模式矢量,对应特征空间中的一个对象,kjx为特征矢量kx的第j维特征取值。设c为聚类数,为样本数,聚类中心点集snRpppp},,,{21,且cxnikuUXP][,为硬划分矩阵。若按照最近距离进行样本划分,则样本硬划分矩阵计算如下:cinkddddukpkpkpkpikii,,2,1;,,2,10,,,min121,其它,式中,kpid表示样本kx和中心点ip之间的欧氏距离。若以类内平方误差和最小化为聚类目标函数,则聚类目标函数表示为:n1kc1i2)(min),(kpikiduPUf3.1.3利用马克威分析系统聚类分析利用马克威分析系统,通过聚类分析得到了200个交通小区的坐标,如图表1,各个小区内的交通量和各小区之间的欧氏距离。在GIS上根据各个小区坐标附近点的绘制下图小区大致范围。如图表2。图表1交通小区坐标分布图交通小区坐标分布图22.422.522.622.722.822.92323.123.2113.7113.8113.9114114.1114.2114.3114.4114.5wd图表2小区的大致区域3.2根据小区划分和出租车GPS数据,给出载客出租车的OD时空分布。如:某时刻从坐标(,)ij到(,)ij、(,)ij的出租车有多少辆。3.2.1区域交通量OD分布概率模型假设某一小区交通发生量分布到不同小区的OD量和这些小区的吸引量成正比。这是许多分布模型的基础,不再解释。整个深圳区域共划分为m个小区,则区域交通量OD分布矩阵为:mmmmmmQQQQQQQQQQ...............212222111211Qij表示从小区i到小区j的交通量。设区域交通为Q总,则有:mjiijQQ1,总并记:总QQPijiji,j=1,2,…,m式中Pij表示从i小区到j小区的交通量和整个研究区域的交通量之比。取随机变量x、y分别表示个交通的起点、终点,利用参数Pij可构造(x、y)的联合分布。表格4Pij的联合分布ijpjyixP,0ijPi=1,2,…,m上式为(x,y)de概率分布。3.2.2模型求解把条件概率ixjyP|简记为P(j/I)用来表示区域i的交通生成量和分布到其它各小区之间的关系。由于ixjyPixPjyixPPij|,即:ijPPPiij/ijiijppp/要求解pij就得先求出P{x=i}和pj/i。为讨论方便,将pj/I记为P,取得小区i的交通生成量为Qi,进行全样本抽样,设Xi为小区i的交通生成量,则Xi显然是随机变量,且服从二项分布Bi(Xi,Qi,P),P=P(j/i)i,j=1,2,……,.若仅仅考虑机会均等,P的估计量为p=X/Q,这仅是一个均值,而对j区城和其它各小区的区别未能反映,过去的信息和运行状况未起作用,通过对P采用Bayes估计,就能克服上述缺点。Bayes方法认为参数P不是一个确定的常t,而被看作是xy1,2,…,…,mx=i12…my=jp11,p12,…,p1mp21,p22,…,p2m……pm1,pm2,…,pmmp1,p2,…,pmp1p2…pm一个随机变量P的一个值,因而符合客观实际。3.2.3模型检验根据已获得的关于P的信息,可建立准确程度不同的P先验分布,作为对P进行修正的后脸分布的依据。如果所研究的各个小区的社会经济地理特点没什么大的区别,各区的相对位置近似。基于这样的情况,如果对各区间的交通分布情况了解不多,可假设P的先验分布为均匀分布的,密度函数为:其他当,010,1)(ppfP为交通量,f(p)为密度函数。由概率和前述可知,x的概率函数也服从二项式分布,则有:XQxxiippCpxf)1()/(……式中:X是随机变量(X=0,1,2,…,Qi);Qi是小区I的交通生成量。所以X,P的联合分布为:1)1()/()(),(iiqxxQipCpxfpfpxfX的边缘分布为:dpppCdppxfxgxQxxQmmii)1(),()(10P的后验分布为:xpf=1011)(),(dpppppxgpxfxQixQxxi而P的Bayes估计量就是后验分布的均值:dpxppfdpxppfP102111101QixdpppdpppxQixxQix上式中的P_交通量后验分布均值;x为变量;x为交通生成量。3.2.4利用马克威分析系统处理数据根据第一题有关划分小区的情况,以及出租车GPS数据,利用马克威分析系统软件可以得出区域交通分布情况。如图表4、5、6。表格5部分小区交通量以及所占的交通比例小区小区1小区2小区3小区4小区5小区6交通量270311842106交通比例0.007950.000
本文标题:#基于出租车GPS数据分析深圳交通拥堵情况
链接地址:https://www.777doc.com/doc-5374468 .html