您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 设计及方案 > 大数据处理平台构架设计说明书
1/14大数据处理平台及可视化架构设计说明书版本:1.0变更记录序号版本变更说明修改人/日期审批人/日期11.0创建李万鸿2015-3-182/14目录11.文档介绍......................................................................................................................................31.1文档目的......................................................................................................31.2文档范围......................................................................................................31.3读者对象......................................................................................................31.4参考文献......................................................................................................31.5术语与缩写解释...........................................................................................32系统概述...........................................................................................................................................43设计约束...........................................................................................................................................54设计策略...........................................................................................................................................65系统总体结构....................................................................................................................................75.1大数据集成分析平台系统架构设计..............................................................75.2可视化平台系统架构设计...........................................................................116其它.................................................................................................................................................146.1数据库设计................................................................................................146.2系统管理....................................................................................................146.3日志管理....................................................................................................143/1411.文档介绍1.1文档目的设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。设计数据可视化平台,应用于大数据的可视化和互动操作。为此,根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。1.2文档范围大数据的处理,包括ETL、分析、可视化、使用。1.3读者对象管理人员、开发人员1.4参考文献1.5术语与缩写解释缩写、术语解释BDBigdataSD系统设计,SystemDesign…4/142系统概述大数据集成分析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。设计数据可视化平台,分为3个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。5/143设计约束1.系统必须遵循国家软件开发的标准。2.系统用java开发,采用开源的中间件。3.系统必须稳定可靠,性能高,满足每天千万次的访问。4.保证数据的成功抽取、转换、分析,实现高可信和高可用。6/144设计策略1.系统高可用、高性能、易扩展,安全稳定,实用可靠,满足用户的需要。2.系统可以进行扩展,增加数据的种类和数量。3.系统可以复用别的软件和算法。7/145系统总体结构5.1大数据集成分析平台系统架构设计1.逻辑架构2架构说明系统分为9个层次:8/141)数据源:CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网的网页。2)数据获取层:接收数据源的数据和抓取网页,建立知识图谱将网页数据结构化,为人工和机器决策提供依据。3)数据导入层:通过sqoop把数据库的数据导入hbase,用flume、kafka把网页导入hbase。4)数据加工层:对导入的数据进行清洗、抽取、整合,并存入数据核心存储层。5)数据核心存储层:采用hbase、关系数据库保存加工后的数据。6)数据分析处理层:通过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析处理。7)数据服务存储层:存储分析结果,包括Elasticsearch分布式搜索,redis分布式缓存。8)应用层:包括报表引擎、规则引擎、风控搜索引擎、用户认证系统、统计分析接口等。9)服务层:对内的应用服务和对外的应用服务,为用户提供系统功能。系统采用一系列先进的开源技术框架,实现大数据的抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高的结果,高速稳定地响应用户的请求,可对公司的宽系列产品提供高质量的支持。还可建立企业云,把大数据平台放到云上。系统从CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取与金融相关的网页,对这些结构化和非结构化的数据进行抽取、清洗、整合、转换,存入hbase数据库。统计分析程序采用一定的算法和模型通过spark、hadoop的yarn、hive、pig等读取处理数据,结果保存在服务层数据库,为用户提供可信的数据,还可通过可视化以各种统计图展现出来,通过pc、手机可以看到结果。系统提供可视化的操作界面,用户可自己定义统计统计和参数,系统计算分析后给出对应的图表。3.系统的特点9/141、高负载和海量数据处理能力以云存储或本地存储为基石,以云计算或企业服务器为处理核心,建立了海量的数据业务支撑的大数据平台。每天可以承受千万级PV的访问压力,支撑亿级用户及P级各类数据存储如金融数据、网页、日志文件、图片、文档、影音等。基于此大数据支撑平台,不仅可以处理日以继夜增长的TB级数据增量,更能满足各类实时业务需求2、业界领先的实时性在实时处理领域实现秒级突破,可以对各项业务数据惊醒实时查看与统计,方便客户快速做出决策和即时响应,适应当今快节奏发展趋势。如传统监控对年、月、周、日的频次统计,可以实现24小时内的实时监控,和管理当前实时变化的统计仪表盘数据,更能实现7*24的用户实时行为监测及秒级分析。3、全面运营监控指标体系不仅拥有常见的接入站点的运营监控流量指标如UV、PV、IP、新旧访客数,还建立了行为质量指标如用户的请求,统计分析的正确度,并可在此基础之上加入客户行为分析、统计模型调优、算法调优、网站访客背景分析、鼠标点击行为等高智能的分析功能,从而为业务发展及运营策略提供了有力的数据支撑。4、对用户来源和数据的深入挖掘与分析通过该平台不仅可以看到接入网站用户的基本信息(跳出率、回访次数、回访频率、国家分析、省份分析、城市分析、网络位置、浏览器、移动终端等),还可以了解到客户来源(如来源页面、网站、搜索引擎、关键字等)。并且在此基础上可以了解到客户访问路径,对数据进行多维钻取,进而对网站客户数据信息的采集、挖掘更加深入。对大数据进行深入的分析,为提升网站流量、提供科学的推荐依据、实现高质量的客户差异化服务给出有力的数据支撑。5、对用户行为进行实时跟踪、立体分析及即时沟通和个性推荐服务可以针对实时在线的个体用户进行WEBIM即时沟通,提供即时的一对一服务。并可以结合业务需求,在实现客服人员与用户一对一的同时,展现该用户的历史业务操作行为及个性化信息,如用户消费历史记录统计、行为习惯及喜好等。6、统一数据接入平台10/14数据接入层采用sqoop、flume、分布式日志系统,实现推拉模式的各种主流方式,并可按需升级为统一数据接入平台,不仅支持日志及页面源码数据,还可以实现各类接口数据的无缝可视化接入,如关系型和非关系型数据、各种主流非结构化数据等。7、立体推荐及算法可替换平台可以对数据进行多种分析算法和模型的处理,采用mahout、mlib的二元分类、线性回归、聚类、协同过滤、卷积神经网络(CNN)进行机器学习,采用RF(随机森林)、SVM(支持向量机)、半监督学习,通过训练达到权重等参数的最佳化,优化样本空间,并实现完全自动化调参和学习。还可结合用户群体特征、个性行为历史及各种显式、隐式反馈进行人脑分析,实现个体用户和群体用户的立体化推荐和全过程的人工干预。以算法平台为支撑,建立了可视化的算法训练和推荐结构的过滤植入,以增强客户个性化服务配置。实现了各种算法的替换、组合和深度学习,如传统的UCF、ICF及业务创新的二度人脉剪枝算法等,以尽符合人脑思维习惯。8、多种风格统计分析数据展现方式对数据统计分析实现人性化的各种浏览器体验,传统风格如线性、柱形、饼状分析图为企业对不同时段网站访问量、网站不同模块的访问量、针对访客的不同分类进行更加直观的分析。创新风格如热力图,更形象、视觉化的体现网站页面不同位置客户点击密度,实时反映出群体用户的兴趣特征,增强运营。用户可以自定义条件,得到可视化结果。9、主流客户端的全端统计该方案不仅可以统计WINDOWS/MAC/LINUX各类PC用户的主流浏览器客户端(如IE、360、Chrome、Firefox等)的数据,还能针对移动互联网用户统计主流移动客户端(如iphone,ipad,Android手机等)的各类数据,并能根据RESTful接口开发各类所需的各端统计,如WAP手机端,嵌入设备端等。10、操作体验简洁方便该方案秉承了人性化的设计理念。在确保精准、高效的基础上简化
本文标题:大数据处理平台构架设计说明书
链接地址:https://www.777doc.com/doc-4035372 .html