您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 企业大数据平台仓库架构建设思路
企业大数据平台下数仓架构阿里云-飞天一部介然总体思路模型设计数加架构数据治理新环境下的数据应用特征系统耦合多应用深度深数据来源多业务变化快稳定透明丰富可信关键词强大的计算和存储能力;多样的编程接口和框架;丰富的数据采集通道;各种安全和管理措施;大数据平台特征仓库架构设计原则自下而上+自上而下;高容错性;数据质量监控贯穿整个数据流程;不怕数据冗余,利用存储换易用;总体思路模型设计数加架构数据治理维度建模OR实体关系建模维度建模实施简单便于事实数据分析适合业务分析报表和BI实体关系建模实施复杂便于主体数据打通适合复杂数据内容的深度挖掘星型模型AND雪花模型两种模型是并存的星型是雪花的一种,理论上真实数据的模型都为雪花模型,实际数据仓库中两种模型会并存。中间层将雪花转变成星型星型模型相对结构简单,在数据中间层利用数据冗余将雪花转变成星型模型有利于数据应用和减少计算资源消耗。数据分层上下三层结构减少层次结构的目的是为了压缩整体数据处理流程的长度,扁平化的数据处理流程有助于数据质量控制和数据运维流式数据作为数据体系的一部分当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。基础数据层中间层集市层流式数据存通用11数据采集把不同数据源的数据统一采集到一个平台数据结构化对于半结构化或非结构化的数据,进行结构化数据清洗清洗不符合质量要求的数据,避免脏数据参与后续数据计算数据归类建立数据目录,在基础层一般按照来源系统和业务域进行分类数据规范化规范维度标识、统一计量单位基础数据层12用户关系商品围绕实体打通行为当前业务形态下,同一实体的数据可能分散在不同的系统和来源,且这些数据对同一实体的标示符可能不同。中间层最重要的目标是把同一实体不同来源数据打通起来。从行为抽象关系从行为中抽象出来的基础关系,会是未来上层应用一个很重要的数据依赖。如兴趣、偏好、习惯等关系数据是推荐、个性化的基础生产资料。冗余是个好手段在中间层,为了保证主题的完整性或提高数据的易用性,经常会进行适当的数据冗余。比如某一实事数据和两个主题相关但自身又没有成为独立主题,会放在两个主题库中。为了提高单数据表的复用性和减少计算关联,通常会在事实表中冗余部分维度信息。数据中间层需求场景驱动的集市层建设,各集市之间垂直构建集市层深度挖掘数据价值集市层需要能够快速试错数据集市层中间层用户画像风险识别个性化推荐。。。流式数据集需求驱动流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设。包含事实和维度未来保障数据统计的准确度,流式数据集同样包含事实和维度。结构更扁平介于成本较高,流式数据体系的结构更扁平,通常不会设计中间层。应用加工事实数据维度数据总体思路模型设计数加架构数据治理数据整合数据体系数据服务统计服务分析服务标签服务基础数据层中间层集市层流式数据结构化数据日志数据富文本&非结构化同步&结构化17全量采集•每日采集数据库表的快照。•适合数据量较小的数据集。•前端库压力较小,不会影响前端应用,不会占用较大带宽,同步时间不会较长。•采集方式最简单,对库表没有特殊要求,后续使用较简单。增量采集•采集数据集每日变化的数据。•适合数据已经有一定规模,全量采集时间较长且对前端应用产生压力的状况。•前端业务表的设计需包含时间戳字段,且任何对数据的操作都会更新时间戳。•增量采集后一般会和昨日的全量数据merge一个今天的全量数据。实时采集•实时采集数据集的变化数据。•比较适合数据量巨大,增量数据同步资源也消耗严重的情况。•或者后续的数据应用需要用到准实时数据。•实时采集对采集端系统有一定的要求。•采集质量最难控制。结构化数据采集日志结构化•日志采集到平台之前不做结构化•通过换行符分割每条日志,整条日志存储在一个数据表字段•通过UDF或MR计算框架实现日志结构化•日志原始结构越规范,解析的成本越低•并不一定需要完全平铺数据内容,结构化出重要常用字段,为了保障扩展性,利用数据冗余保存原始符合字段,如useragent字段日志结构化数据日志文本parser19语音转文本图片打标图片识别。。。自然语言处理视频识别非结构化数据特征提取数据服务化统计服务偏传统的报表服务,利用大数据平台将数据加工后的结果放入关系型数据库中,由前端的报表系统或业务系统查询。分析服务提供明细的事实数据,利用大数据平台的实时计算能力,允许操作人员自主灵活的进行各种维度的交叉组合查询。能力类似于传统cube提供的内容,但是在大数据平台下不需要预先建好cube,更灵活,更节省成本。标签服务大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据会转换成KV的数据服务,提供前端应用查询。架构设计中一些实用的点巧用虚拟节点多系统数据源同步跨系统间数据传输多应用间数据交互强制分区所有数据表都应该加上时间分区保障每个任务都能够独立重跑不产生数据质量问题所有数据处理过程都需要增加分区裁剪架构设计中一些实用的点计算框架应用日志结构化同类数据计算过程减少数据扫描次数优化关键路径每份数据的产出都有一个关键数据加工路径优化关键路径中耗时最长的任务是最有效的保障数据产出时间的手段对重要数据产出增加基线监控总体思路模型设计数加架构数据治理内容建设•数据架构•模型设计•数据开发•生产运维•数据服务管理•元数据•质量•安全保障•组织•流程•规范数据生命周期管理•合理的数据生命周期管理要保证温热数据占整个数据体系大部分•为了保障数据资产的完整性,对于重要的基础数据会长久保留•对于数据中间计算过程数据,在保障满足绝大部分应用访问历史数据需要的前提下,缩短数据保留周期,有助于降低存储成本•冷备已经成为历史,在大数据平台下不需要单独的冷备设备数加平台••一站式大数据开发、分析及应用平台=a2c0j.7906235.started.1.mIBzT8打通数据生产全链条计算引擎大规模计算实时计算流式计算数据加工SQLMRShell图形化数据分析拖拽ReportDilldown机器学习决策树聚类神经网络支持向量机数据应用广告推荐定向营销医疗体育金融数据采集PCAPPWI-FI基站工业传感器手环手表领先业界3年数加平台Thankyou!
本文标题:企业大数据平台仓库架构建设思路
链接地址:https://www.777doc.com/doc-1438651 .html