您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 京东大数据架构分析20
京东大数据基础架构和实践王彦明京东大数据平台部:新浪微博:微信:wangyanming@jd.com@王彦明Vwangyanming29目录大数据京东大数据平台我们技术突破JDW&JmartJDMP数据挖掘平台展望大数据少说些漂亮话,多做些日常平凡的事情京东大数据平台我们的技术突破•分布式系统技术突破–稳定性、性能、HA、故障恢复、多集群、运维和管理•多用户共用平台–数据安全、隐私保护•数据任务运行监控–每日数万个数据任务、核心任务及时性•挖掘数据价值–数据量大、迭代效率•数据实时化–关系型数据、ADHOC、实时计算•离线、实时平台合并–Hadoop、Spark、StormJDW发展历程MSSQLOracleMySQLHadoopSparkJDW架构-概述JDW调度系统知识管理平台数据集成开发平台京东分析师统一权限管理平台数据质量监控系统JmartJDWEDW的核心数据架构分为四层:缓冲数据层、基础数据层、通用数据层、聚合数据层,其次是临时层和维度层。其示意图如下:JDWFDM存储方案优化在线交易系统、商品中心、用户中心等出于效率的考虑,不会长期保存大量历史数据,而JDW作为企业数据分析及挖掘的基础设施,天生具有保存历史数据的职责,非但如此,如何快速、高效的获取历史上任意一天的快照数据也成为设计历史数据存放方式时的重要考量。通过比较,记录数据的生命周期;能快速还原任意天的历史快照,极大的节省了存储keyA1A2A31AAA2BBB3CCCkeyA1A2A31AAAA2BBB3CCC4DDDkeyA1A2A3start_dateend_date1AAA2014/1/12014/1/21AAAA2014/1/24712/12/312BBB2014/1/14712/12/313CCC2014/1/14712/12/314DDD2014/1/24712/12/312014-01-012014-01-02快照的还原SELECT*FROMt_chainWHEREP_DATE=start_dateANDP_DATEend_date空间节省率Base:基数(十亿级)N:天数C:每日增量(百万级)M:每日变化量(百万级)JDWFDM存储方案优化实际的拉链表的设计更加精巧,充分考虑了京东业务的各种情况。譬如订单表,考虑了其结转特点,充分利用了数据分拣技术,如下是订单表的多分区设计,dp=HISTORY/dt=2014-06-22/end_date=4712-12-31......dp=HISTORY/dt=2014-06-23/end_date=4712-12-31dp=HISTORY/dt=2014-06-24/end_date=4712-12-31......dp=EXPIRED/dt=2013-10-11/end_date=2013-10-11dp=EXPIRED/dt=2013-10-12/end_date=2013-10-12dp=EXPIRED/dt=2013-10-13/end_date=2013-10-13dp=EXPIRED/dt=2013-10-14/end_date=2013-10-14......dp=ACTIVE/dt=4712-12-31/end_date=4712-12-31之前,采取快照累积的方式,订单表加工完成甚至到下午1点,利用该方法后,一般在凌晨3左右点完成。而且在后续的查询上,能充分利用分区裁剪特性,能迅速的返回数据Jmart概述京东数据集市是基于JDW构建的面向条线的数据生产环境,为各条线提供数据应用服务,包含广告、推荐、搜索、财务、营销、运营、BDA、移动、拍拍等数十个部门,上千用户提供数据服务。数据集市广告集市推荐集市搜索集市营销集市……JDMP-大数据挖掘中的“痛点”抽样数据量大迭代机器学习算法门槛JDMP-解决方案抽样分布式计算迭代门槛内存计算通用流程抽象与简化JDMP-支持的算法推荐ALS-MF,FP-Growth,Item/User-CF,RBM分类LR,NB,SVM,gbdt,soft-max回归linear,ridge,lasso聚类k-means主题模型LDA,PLSAJDMP-分布式ALS分布式ALS54231453453()2MinT54231453453迭代JDMP-Graphx图计算Vertices:由顶点、顶点属性构成Edges:由顶点、边属性构成Triplets:由顶点、顶点属性和边属性构成JDMP-Graphx图计算-Hadoop/Hbase/Spark开发-运维工程师-分布式数据仓库工程师-BI工程师-数据挖掘工程师-等等…….简历可发送至:wangyanming@jd.com京东大数据平台我们招聘加入我们招聘详情请关注“京东大数据”微信公众平台谢谢大家!北京市朝阳区北辰西路8号北辰世纪中心A座6层6FBuildingA,North-StarCenturyCenter,8BeichenWestStreet,ChaoyangDistrict,Beijing100101T.010-58951234F.010-58951234E.xingming@jd.comwww.jd.com
本文标题:京东大数据架构分析20
链接地址:https://www.777doc.com/doc-24584 .html