您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 电子设计/PCB > 纽约出租车出行状况调查
龙源期刊网纽约出租车出行状况调查作者:李少泉来源:《今日财富》2018年第25期基于纽约2016年1-6月出租车出行记录,分析了纽约出租车行驶数据,探究出租车每次行程的出行时间与出租车所在公司、乘客人数、上车日期、是否周末以及行驶距离之间的关系。描述性分析部分,首先基于数据进行统计,计算出平均每天出租车出行时间、平均行驶路程、出行高峰期等数据特点,其次利用Arcgis软件,将所有出租车上车下车地点画在纽约市地图上,研究人们送别或迎接亲朋好友的习惯。对于出租车出行时间的预测,本文首先使用了多元线性回归模型,再利用向前向后逐步回归,之后引入主成分分析法,利用六个主成分回归新的线性模型,于是进一步改进使用神经网络拟合,分别建立了Levenberg模型、贝叶斯模型以及量化梯度下降算法,分别都建立了有十个隐含层的神经网络模型,效果有较大改善,平均绝对误差分别为:286s,281s,293s。一、数据来源及说明数据主要来源于机器学习竞赛网站kaggle,分析了2016年1月-6月共计145万条纽约出租车数据。具体如下表:自变量:公司、开车月份、开车日期、开车几点钟、乘客数、上车经度、上车纬度、下车经度、下车纬度。应变量:行驶时长。二、描述性分析该部分主要是对数据进行简单分析处理。将145万条数据进行统计后发现,纽约出租车每天出行平均时间为2136小时,平均载客行驶直线距离为23900公里。曼哈顿的出租车非常密集,几乎占纽约出租车上下车的百分之九十。注意到地图的右下角出租车也较为密集,发现该地点为纽约最大的国际机场:肯尼迪国际机场。挑出该地的数据进行分析。找出飞机场的经纬度,将所有出租车的经纬度挑出与之计算距离,小于5公里定义为在飞机场停车的人们。龙源期刊网发现,目的地是飞机场的出租车明显少于出发地是飞机场的出租车。于是我们提出疑问,是否人们更倾向于使用使用私家车送别亲朋好友,这可以是后续的研究方向。再之后研究了工作日与周末出租车的运行情况。发现周末出租车凌晨发车辆明显高于工作日,甚至周末0点时出租车出发时间为全天最高,说明纽约周末夜生活很丰富。三、数据建模首先直接利用多元线性回归,方程为:得到如下结果,除了公司、乘客数以外,其他都较为显著,模型整体p值也较小。但返回验证后,平均绝对误差为340,较大,该模型效果一般。用向前向后逐步回归后,得到方程为计算后平均绝对误差也为340,效果未得到改善。再建立主成分分析线性模型。方程为:计算后平均绝对误差为340,效果也未得到改善。四、模型改进经过研究认为,出租车行驶时间与各个自变量之间线性关系不强,导致误差较大。又因为神经网络模型可以很好的回归定量数据,于是想到运用神经网络进行改进。主要运用了matlab中的神经网络拟合工具箱,分别使用Levenberg模型,贝叶斯模型以及量化梯度下降算法,都建立了具有10个隐含层的神经网络模型。结果如下表:五、未来研究方向虽然最后使用的神经网络三种算法已经明显改进了算法,但是由于使用的是matlab工具包,无法对模型细节进行更多调节,之后可以尝试用python进行算法的详细构建。(作者单位为北京化工大学)龙源期刊网
本文标题:纽约出租车出行状况调查
链接地址:https://www.777doc.com/doc-4803690 .html