您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 15(薛美根)上海大数据信息挖掘应用34
大数据环境下上海创新交通综合管理的实践与探索执笔:薛美根副院长演讲:陈必壮副所长上海市城乡建设和交通发展研究院xuemeigen2013@126.com一、背景二、数据挖掘技术三、大数据应用四、展望提纲1背景一、开展交通信息数据挖掘的必要性(一)交通信息化迅速发展为信息数据挖掘奠定基础(二)交通信息化数据挖掘是交通调查技术的发展趋势(三)对获得全面、真实的交通数据至关重要(四)对传统人工调查的辅助、补充和校核二、现状数据基础③车牌识别系统数据①用地数据②手机信令数据④运营车辆GPS数据⑤信息平台统计数据⑥交通一卡通数据三、数据挖掘成果在本次交通大调查的应用信息数据挖掘调查共有6个分项,是其他综合交通调查的弥补、辅助校核。1.城市用地2.调查期实有人口3.小客车实有量1.出租汽车出行特征2.货运车辆出行特征3.进出市境车辆出行特征1.区域间人员出行2.外来人员住宿特征1.道路断面流量及车速2.轨道客流进出站及换乘特征3.公共交通方式间客流换乘特征4.潮汐交通特征2信息数据挖掘关键技术一、基于遥感技术的交通相关用地数据挖掘技术解译获得全市23万个分析单元用地信息,是城市用地调查的主要方法。•数据来源:城市信息中心•数据时间:2008年、2013年高分辨率航空遥感用地(解译)房屋建筑(统计)•数据来源:房屋土地资源信息中心、测绘建筑•数据时间:2013年•获取最新上海市市域红外航空遥感影像、遥感影像定位匹配•以住建部《城市用地分类与规划建设用地标准(GB50137-2011)》为指导,对上海市全陆域进行用地分类遥感解译、同步进行外业采样核对•在ArcGIS环境下实施土地利用航空遥感解译制图,并以区县为单位,计算每个区县内所有图斑的面积,按土地利用类型进行面积汇总、特征分析。通过解译,将全市28类用地细分到23万个单位,同时结合房地管理中心房屋建筑信息库、测院数据进行建筑量的校核,得到全市细分为13类的建筑量,是分析人口岗位布局、交通与用地发展的重要基础数据。二、基于手机信令的人员出行特征挖掘技术原始数据主要字段列表字段含义MSID唯一用户标识TIMESTAMP时间戳LAC位置区编号CELL小区编号EVENTID事件类型(位置更新、小区切换、收发短信等)移动基站分布日均1800万移动通信用户的信令数据,辅助校核人口分布、出行分布等人工调查。•数据来源:由市交通信息中心协调获取2013年-2014年移动手机信令数据•基站分布:全市约6万个基站,中心城平均半径约130米,郊区平均半径约360米•采样原理:短信、通话、LAC区切换或每隔1-2小时定时与基站通讯的信令数据基于移动通信用户电子脚印的手机信令数据分析技术•利用地下轨道线路与移动通信LAC区、地下轨道车站与基站的唯一对应关系进行路径识别•将手机检测与申通统计乘距相比对,地下轨道车站比例超过90%的轨道线路看,如2、7、10、13号线,两个渠道数据的绝对差小于5%1、地下轨道车站客流换乘特征分析技术•将移动通信网络的出行轨迹映射至道路网络,并在校核线周边设置100-500米的缓冲区过滤信号漂移产生的影响•对穿越校核线地下轨道断面的样本客流进行扩样,并与申通统计断面客流进行比对,两个渠道数据的绝对差平均为7%。2、校核线手机客流穿越特征分析技术•跟踪一段时期手机数据,按出现天数比例判定分析对象,并按累计停留时间最长为原则判断用户的夜间、白天固定地分布•夜间分布与“六普”数据比对,行政区人口比例的绝对差均在2%以内。3、手机用户昼夜分布分析技术三、基于牌照识别的车辆出行特征挖掘技术市境道口快速路车牌断面•数据来源:市交通信息中心协调获取市交警2013年-2014年车牌识别数据•数据内容:车辆号牌、号牌颜色、途径时间、途径车速、车辆属地及设备断面编号等•市境道口车牌识别车流量与高速收费流量对比,高速道口的平均捕捉精度约93%;•快速路车牌识别车流量与高架线圈相比,车牌设备的平均捕捉率为96%。42个市境道口、343个中心城快速路断面和14个越江桥隧车牌识别数据,辅助校核小客车实有量、车辆出行分布等人工调查。(1)基于停留时长分析的长期在上海使用的外地牌照小客车规模推算技术•一年内累计在上海停留超过180天•单次来沪平均停留时间超过5天市境道口车牌识别交强险停车调查车牌识别年检站居民家访调查车牌识别数据挖掘结果与推荐值绝对误差为5%(2)基于行驶路径整理的车辆出行特征分析技术1、筛选问题车牌•车牌至少有一位被错误识别的概率为6%-12%2、误识别车牌的较正•按断面相近,路径可循,采集时间差合理为原则进行车牌数据校正3、出行链整理•与线圈数据,收费数据相比对,整理路径信息入境车辆基于地带的目的地分布中心城快速路不同号牌车辆行驶特征•市境道口车牌识别车流量与高速收费流量对比,高速道口的平均捕捉精度约93%;•以郊区为目的的入境车辆数量,收费数据和车牌数据推算结果的绝对差为5%•快速路车牌识别车流量与高架线圈相比,车牌识别的平均捕捉率为96%四、基于GPS的车辆出行特征数据挖掘技术出租车轨迹图货车轨迹图2.9万辆出租车,1万辆货车GPS信息,是调查中心城地面道路车速的主要途径,是辅助校核出租车、货运车辆出行特征的主要手段。基于轨迹信息的车辆出行特征分析技术•数据预处理(检验排除数据飘逸、传输延迟等)•地图匹配(50*50米网格)•基于最短距离的出行路径推算•路段行程车速计算(出租车重车)1、基于出租车GPS信息的路段行程车速分析技术•出租车出行OD(利用空、重车状态切换信息)•集装箱卡车出行OD(结合用地、车速、停留时间)2、基于GPS信息的车辆出行OD分析技术𝑉路段=l车辆it车辆i𝑛𝑖=1其中:l车辆i:第i车辆在该路段的行驶距离;t车辆i:第i车辆在该路段的行驶时耗。五、基于交通信息平台的道路交通信息挖掘技术高架快速路线圈(分3种车型车流量、车速等)地面SCATS线圈(机动车流量、饱和度等)高速公路收费站OD(分11种车型机动车流量)478个快速路线圈、3043个地面SCATS线圈和104个高速公路收费站数据,数据甄别、清洗后形成不同空间、时间的统计指标,与人工调查相结合,获得道路交通运行状况。•数据来源:市交通信息中心•时间颗粒度:5分钟六、基于一卡通的交通特征数据挖掘技术日均刷卡约400万张,超过1000万次的交通一卡通数据,辅助校核公共交通客流出行特征。分类指标颗粒度总体指标刷卡量刷卡张数刷卡率换乘优惠次数和刷卡张数消费金额优惠金额老人卡刷卡次数老人卡刷卡张数各方式的刷卡比重分时段刷卡比重全日、早、晚高峰、早平峰、午间平峰、晚间平峰、分方式(轨道、地面公交、出租)轨道交通平均出行时耗平均运距消费金额出行OD全日、早高峰、晚高峰地面公交刷卡量出车数刷卡金额优惠金额分时段、分线路类型换乘换乘量换乘比例轨道与地面公交的换乘时耗高峰时段出行组合刷卡量刷卡张数字段名字段描述数据类型注释tjrlcardno卡号NUMBER(10)tjrlcdcnt卡计数器NUMBER(5)tjrlinsid结算中心代码NUMBER(4)70,77公交21地铁79轮渡76出租51咪表tjrlrseq远程流水号NUMBER(18)tjrlposid设备代码NUMBER(9)tjrlpseq设备流水号NUMBER(18)tjrlrdate交易发生日期NUMBER(9)YYYYMMDDtjrlrtime交易发生时间NUMBER(9)hhmmsstjrltxcode交易代码NUMBER(4)tjrlldate中心日期NUMBER(9)YYYYMMDDtjrlltime中心时间NUMBER(9)hhmmsstjrlsdate结算日期NUMBER(9)YYYYMMDDtjrlcdkind卡类型NUMBER(4)老人卡等tjrlcdstat卡状态NUMBER(9)tjrlcdbal卡余额NUMBER(18)交易前tjrlamt交易金额NUMBER(18)tjrlstatid进/出站代码/线路代码NUMBER(9)tjrlstat交易状态CHAR(2)00-成功tjrlerr错误代码NUMBER(5)内部错误码tjrlsterr灰名单原因NUMBER(5)成功交易填写tjrlrsvd保留使用CHAR(10)tjrlpkgseq包流水号NUMBER(12)tjrlunitid营运公司代码NUMBER(11)tjrltxfg交易性质NUMBER(4)0136(88H)正常交易0153(99H)锁卡更改卡状态交易0152(98H)锁卡清空卡上钱包交易0179(98H)购单程票交易0135(87H)换乘优惠0132(84H)低峰时段优惠0131(83H)节假日优惠tjrlorgamt原交易金额NUMBER(18)对于优惠过的金额的原交易金额tjrloprid操作员号NUMBER(8)轨道交通为SAM卡号tjrltac交易认证码CHAR(8)tjrlinstatid进/出站代码NUMBER(9)轨道交通交易的4位进站代码+4位出站代码交通卡原始刷卡记录字段列表交通信息平台统计指标列表基于刷卡时间间隔的公交客流换乘特征分析技术换乘时耗分布轨道车站公交接驳比例交通卡挖掘结果与推算值绝对误差为4%轨道换乘公交轨道换乘出租公交换乘轨道公交换乘公交3大数据在上海城市综合交通管理中的应用以遥感用地数据挖掘为主,辅以建造量信息统计,获得现状上海用地开发类型、分布及用地强度等指标,并反映历史演变趋势。1、城市用地基本情况2008-2013新增建设用地2008年底建设用地全市2013年建设用地2918平方公里,较08年增加220km2,增幅为8%居住用地占36.2%,工业及物流用地占30%,公共与商业用地占10.0%建设用地中:全市建筑量11.6亿平方米,较08年新增3.4亿平方米。住宅建筑量占新增建筑量的43%,近八成增加在中心区外。商业行政商务办公建筑占新增建筑量的16%,近七成增加在中心城。2013全市居住建筑密度2013年全市非居建筑密度2、城市人口分布充分利用手机信令数据,是校核调查期实有人口分布的重要依据。地带夜间手机人口数(万人)夜间手机人口比例中心区浦西134.211.4%中心区浦东27.42.3%中心区小计161.613.7%外围区浦西279.023.7%外围区浦东120.010.2%外围区小计399.033.9%中心城合计560.647.7%近郊区267.222.7%远郊区348.629.6%合计1176.4100.0%2014年夜间手机人口地带分布比例3、人员出行特征手机数据挖掘成果是校核职住分布的重要依据。另外,综合手机信令、出租车GPS、中心城快速路线圈、轨道闸机数据反映潮汐交通特征。陆家嘴区域人流来向分布人民广场区域人流来向分布中心城浦西:41%中心城浦东:50%郊区:9%中心城浦西:77%中心城浦东:14%郊区:9%职住等刚性出行需求的平均出行距离约为公里,90%的出行在公里以内。早高峰轨道交通(流量)进:出=2:1早高峰道路交通(车速)进:出=0.6:1早高峰进出内环手机用户数进:出=1.5:1•内环线的潮汐交通现象最为明显,内环线、中环线、外环线早高峰以入城客流为主•中心城周边与远郊连接区域出城方向客流略高•苏州河潮汐交通明显,以北向南客流为主•黄浦江潮汐交通不明显,浦东至浦西客流略高。4、小客车实有规模大类小类统计量(辆)道口系统采集的长期在沪的外牌小型车1、仅在郊区出行(未在中心城出行)11万2、在中心城快速路出行95万交强险3、未在道口和中心城快速路出行的车辆6万总计112万小客车(88%)98万根据收费流量数据,小型车中小客车与小货车的比值为88%:12%经本次调查检验,基于车牌识别数据挖掘是今后调查小客车实有规模的主要手段。经综合推算,2014年长期在沪使用的外牌小客车规模约为98万辆。5、道路交通车流特征充分挖掘线圈、车牌识别、出租车GPS和高速公路收费数据反映道路交通车流特征,是调查道路交通运行状况的主要手段,与人工调查相互补充。外牌车辆
本文标题:15(薛美根)上海大数据信息挖掘应用34
链接地址:https://www.777doc.com/doc-24033 .html