您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > L省交通厅-大数据项目V1
CONFIDENTIALL省交通厅大数据平台规划议题1我们对交通大数据平台的理解建设思路12应用规划与部署4总体规划3CONFIDENTIALCONFIDENTIAL智慧交通-大数据方案优势•实时监测、智能监控交通信息,轻松处理海量数据•应用负载适应性强,广泛兼容,易于扩展•交通信息智能处理,及时发布•动态数据整合与共享•高可用性、高稳定性客户价值•海量数据处理和实时分析•全网、全天候覆盖•动态监控、智能导航•交通拥堵侦测与预警•跨地区信息共享、资源整合•显著降低软硬件购置成本Hadoop家族大数据服务交通数据源CONFIDENTIAL浮动车计算分析CONFIDENTIAL出租汽车客流分析议题7我们对交通大数据平台的理解建设思路12应用规划与部署4总体规划38CONFIDENTIAL文件存储分析搜索挖掘数据高铁交换实时数据库监控open-falcon以Hadoop为核心,融合其他技术平台系统,实现超融合一栈式企业级数据分析解决方案。数据存储,数据分析,可视化,运维监控,机器学习,人工智能。全面的一栈式解决方案。实现平台级融合,所有平台一统底层数据交互格式,统一元数据管理,数据治理。全面拥抱开源技术栈。展现9CONFIDENTIAL大数据平台具备的关键能力基础的大数据平台能力:具备管理大数据平台主机集群的能力,能够按照需要,动态分配资源,具备多租户管理能力,数据安全管理能力;同时具备处理海量数据的能力,可以根据需要,对不同业务部门不同的应用,开放不同的数据。能力一大数据采集:大数据平台容纳百亿级数据量,能够从内部和外部的各种数据源中获取数据能力二大数据计算分析:海量数据实时和离线分析计算,秒级响应。能力三10CONFIDENTIAL关键能力一:基础大数据平台管理能力大数据总体架构(数据银行+数据高铁)通过八大类接口实现大数据平台存储能力和计算能力的开放。查询开发框架访问服务(DataBankUI)JDBC/ODBC接口数据服务(DataBankAPI)实时数据数据库搜索引擎认证管理安全/管理权限管理审计管理图形化安装部署工具商业支持报警结构化数据数据库API流传感器半结构化数据非结构化数据日志网页图片二进制视频音频管理API(安装/监控/配置)文档HADOOP-HDFS/YARN/ZOOKEEPER(POWER/EC)数据访问REST-API接口HBASE数据仓库交互分析数据挖掘工作流数据挖掘Spark-SQLkylinphoenixopentsdbSolrelasticsearchMLlibSpark-RRedisHIVESPARKSTORMKAFKAcrate文档解析拼音提示数据同步搜索统计实时接入实时展现统计分析实时预警ETL工作流权限控制增强函数工作流深度学习可视化访问工具开发框架管理工具交互工具展现工具sqoopkettleJAVAwebservicekafkaflumeNIFI结构化数据半结构化数据非结构化数据12CONFIDENTIAL关键能力二:大数据采集数据来源数据存储实时地理信息校验数据拍照数据基础数据定期更新纬表……分布式消息队列Kafkasqoop/kettle/webservice/ftp/JAVAAPI/nifi/restapi数据接入文本数据数据库爬虫数据网络数据接口其它…flume大数据Cluster大数据集群大数据集群13CONFIDENTIAL关键能力三:大数据分析数据来源数据存储实时地理信息校验数据拍照数据基础数据文件其他redis消息GPS用户指标数据适配转换分布式预处理消息解析消息过滤数据转换数据落地消息中间件Storm流处理集群消息解析策略匹配数据清单指标汇总定期更新纬表……分布式缓存定义数据关系数据规则数据实时数据外挂处理程序数据处理实时计算应用层统一接触平台/地理位置信息电子大屏汽车型号用户特征F5代理tomcat1tomcat2tomcat3准时实时接口用户位置用户轨迹疲劳驾驶驾驶速度文本数据数据库爬虫数据网络数据接口其它…sqoop/kettle/webservice/ftp/rdbms/JAVAAPI数据接入大数据集群可视化Echarts议题14我们对运营商大数据平台的理解建设思路12应用规划与部署4总体规划3目录15123架构规划数据接入规划硬件与网络规划16CONFIDENTIAL技术架构路线的选型存在“开源”与“混搭”两种策略可结合各省情况进行选择策略一策略二开源模式(Hadoop)坚持开源技术,自主掌握核心技术混搭模式(Hadoop+MPP+传统数据仓库)按场景选型,混搭架构技术特征1技术特征2技术特征3技术特征XHadoopMysqlDB2/OracleMPP应用场景1应用场景2应用场景N……特点:1,免费使用,拥有自主的知识产权,需要自建运维团队,有一定风险;现有人员需要技术转型,存在技术门槛2,符合互联网精神,汇集众人智慧,正在逐步完善3,Hadoop目前对于多维度数据自助分析、集市等应用场景下的表现逊于MPP4,Hadoop适合大规模集群使用特点:1,需购买闭源的商业软件/运维服务;2,需要根据不同应用场景搭配组合,形成优势互补;3,应用场景并不是一成不变且异构集群将造成额外的数据冗余和数据同步,可能成为系统瓶颈4,MPP在大规模集群(超过100个节点)下的可用性还有待验证17CONFIDENTIAL大数据平台体系架构(Level1)18CONFIDENTIAL借鉴互联网架构,引入成熟开源框架,基于x86平台构建分布式计算与存储平台,在保障系统可靠性(High-Availability)和可水平扩展(Scale-Out)基础上,同时大幅降低系统总拥有成本(TCO)。技术选型及亮点1.采用Kafka消息队列框架,实现地理位置数据采集与解析,30s;2.采用近似实时的flume框架对接Kafka、实现位置信息实时采集入库Hadoop集群,周期性存储数据。3.在1个集群上承载批处理和流处理,基于hadoop资源管理可最大效率利用资源,实现消峰填谷,实现异构集群架构。4.在Hadoop基础上,引入Spark、Storm计算框架,通过Hive,mllib,storm实现海量数据实时计算和历史数据的统计分析;引入Redis内存数据库,结合Storm,实现基于LBS的实时动态感知用户地理位置以及用户统计行为数据,深度挖掘用户价值。5.提供OpenAPI(JDBC/ODBC/RestAPI),制定计算与存储资源共享与开放标准,结合丰富架构和运维经验,基于OpenAPI构建OCIAPI,为后续数据资产运营奠定基础。6,基于echarts的开源框架展现。7,支持弹性扩展架构,可有效保护现有投资;同时,积极的引入nosql数据库hbase,利用分布式数据库优势实现数据快速访问,为未来技术替换缩减投资奠定基础。技术架构设计(流计算场景,需求驱动)19CONFIDENTIAL技术架构关键问题解决方案数据整合关键技术说明1、功能:通过大数据计算高效计算、数据挖掘、复杂事件处理、用户行为识别4大功能模块满足各类业务场景批量数据运算以及实时计算的需求2、技术1)开源技术全面采用开源技术节省成本。依赖于开源社区保障系统安全,社区的高速发展针对现场应用可以快速更新补丁,并且可以根据业务场景的需要有针对性的选择相应技术2)内存计算引入SPARK实现基于内存的计算,通过灵活的scala语言实现小数据集的秒级查询,并于Hadoop完美结合3)统一框架以hadoop技术为核心,基于统一资源调度框架Yarn,集成批处理(hadoop)、内存计算(spark)、实时计算(storm),机器学习(mllib),数据仓库(SQLonHadoop),集群监控运维,数据可视化为一体,简化系统架构实现资源的统一管理。实现真正的一栈式大数据解决方案。数据多样性、高效、高吞吐量、低延迟且支持高可靠性、水平扩展,弹性扩容Hadoop如何做到数据容灾20•hadoop把文件拆成不同的小块,一个块多个副本,分别部署在不同的机器上,而只使用其中的一个块。•datanode定期向管理中心发心跳以确保可用,假如一台机器坏了,或硬盘坏了,调度中心会直接调用其中的一个副本块,同时快速随机选一台可用的机器复制副本。•因为走局域网带宽,可以灵活设置恢复时间,性能几乎不受任何影响21CONFIDENTIAL基于Hadoop框架的开放与共享共享和开放的目的是为了充分利用平台的存储与计算资源,通过开放的API接口调用,实现不同平台的数据交互,满足不同业务的需求。对共享于开放带来的任务管理复杂、多租户资源争用以及安全问题,分别通过任务统一管理、调度,对象管理和用户配合管理以及用户认证和用户权限管理来解决平台(共享、开放)Zookeeper统一管理注销接口统一封装用户(组)操作权限封装LADP、Sentry封装作业管理配额管理监控管理对象管理用户权限管理用户认证接口类别关键技术要求技术架构应对作业管理对作业进行统一操作管理采用Zookeeper技术,实现批处理平台作业的统一注册和注销,并通过Zookeeper实现作业的提交执行和状态监控对象管理可针对HDFS文件、MR任务、Hive数据表和Hbase数据表等对象进行操作通过对HDFS文件、MR任务、Hive数据表和Hbase数据表等对象原生态接口接口的统一封装,实现相关对象的对外操作开放用户权限管理支持用户、用户组创建,并能为用户和用户组分析针对操作对象的各类权限提供创建、注销用户/用户组、加入、剔重、查询用户/用户组;HDFS文件、MR任务、Hive数据表、Hbase数据表授权和权限查询等对外服务接口,以此支撑大数据平台的用户统一权限管理。用户认证支持通过用户名和密码进行用户认证提供LADP对外用户认证接口,平台通信采用Kerberos认证,同时结合Hadoop开源组件Sentry,实现操作对象的细粒度基于角色的安全控制。配额支持对用户/用户组的存储资源分析和计算资源分配引入Yarn技术框架,对存储资源和计算资源的一调配,按用户(组)实现资源隔离,实现多任务高效地运行在一个的集群上监控支持针对设备、平台、作业和对象的全面监控通过Agent方式实时采集监控指标信息,同时开放插件注册API,支持自定义监控指标目录22123架构规划数据接入规划硬件与网络规划23CONFIDENTIAL内部数据接入思路用户移动轨迹识别涉及数据数据域用户资料库GPS电子警察抓拍现状了解建议近期工作重点汽车进入敏感区域识别涉及数据数据类型:敏感区域资料,用户信息库采集周期:按日采集/按日数据库抽取;?已提供数据:文件形式数据(目前)待已接入:GPS位置信息采集周期:30s从价值和用途方面考虑数据接入,现阶段最有价值的数据为用户资料数据,其次是GPS变更数据后期根据业务场景需要,逐步接入其它系统数据。阶段一:GPS数据接入阶段二:用户资料库数据接入阶段一:GPS数据接入;阶段二:敏感区域数据;阶段三:用户资料库数据;暂无。24CONFIDENTIAL外部数据接入思路互联网资源涉及数据数据域互联网数据合作平台现状了解建议近期工作重点第三方合作涉及数据阶段一:运营商数据阶段二:整合数据、客户分析报告、渠道拓展、用户特征,用户移动轨迹等。数据未接入从价值和用途方面考虑数据采集,现阶段最有价值的数据为用户汽车资料库数据,建议优先接入能完善用户标签体库。阶段一:汽车资料库数据;阶段二:用户资料库数据未接入:汽车标签库数据;采集周期:定期采集;后期根据业务场景需要,逐步接入。目录25123架构规划数据接入规划硬件与网络规划26CONFIDENTIAL主机配置原则1.估算建设规模2.梳理各种输入4.确定主机数据数据量计算:根据卡口数据,GPS信息等、接入数据源及数据量,估算系统建设规模(各种数据的日吞吐量和峰值吞吐量)梳理接口数据源与产品模块的对应关系:根据产品模块功能划分,梳理数据流转过程,确定各产品模块的输入数据量大小(包括日吞吐量和峰值吞吐量)3.推算处理能力推算单主机处理能力:根据各卡口和实验室实测和各监控终端的处理
本文标题:L省交通厅-大数据项目V1
链接地址:https://www.777doc.com/doc-219660 .html