您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 语言学 > 大数据平台的设计与实现--四川大学研究生答辩ppt
大数据平台答辩人:红军专业:***指导老师:***论文题目:大数据平台的设计与实现大数据平台目录研究背景开源技术平台需求平台设计总结展望大数据平台研究背景大数据平台大数据量大•5EB•40ZB多样•结构•非机构高速•产生•处理真实性•质量•价值大数据平台国内•投入•先进•价值企业•政策•开放慢•有障碍政府•落后•概念•希望农业大数据平台国外农业大数据政府开放技术大数据平台开源技术大数据平台开源-收集外部网站文件图片关系数据库内部网站网络爬虫文本收集关系数据同步点击流nutchflumesqooppiwik大数据平台开源-存储超大数据集高吞吐量超大规模HDFS完全分布式面向列非结构化Hbase简单支持集群社区活跃mysql内存KV存储高性能集群redis大数据平台开源-计算yarnsparkMapReducestorm大数据平台平台需求大数据平台整体业务视图基础部署/配置/监控管理服务自动部署服务应用配置服务机器/服务/网络监控报警预警管理列分存储服务文件存储服务关系数据存储内存存储服务消息存储服务数据存储中心流式计算迭代交互计算密集型计算数据计算中心应用服务平台元数据管理任务调度数据可视化网站埋点数据接口用户权限资源空间文本收集关系数据批量收集关系数据实时收集点击流收集移动端收集网页数据收集数据录入数据收集中心三方系统数据用户数据开发平台管理平台开发平台维护三方系统网页APPDB服务器传感器外部接口大数据平台场景-工程师•合理分配资源•数据可管可查•算法被合理执行•简单实现可视化•异常问题可知大数据平台场景-用户•用户查看权限可被管理•查找数据关系描述•数据内容可被搜索•可以查看订阅数据图表大数据平台场景-系统•获取数据成果•输送数据•数据暂存•数据计算大数据平台17平台设计大数据平台设计-架构Flume文本同步SqoopDB同步实时DB同步PIWIK点击流收集移动收集SDK分布式爬虫Redis_clusterMysql_clusterHDFSHbasekafkasparkMap-reducestormhivehbasephoenix元数据管理任务调度服务数据可视化服务埋点服务数据搜索服务数据接口服务自动抽取用户权限资源管理服务器管理自动部署服务应用配置服务应用监控服务预警报警系统大数据平台设计-部署大数据平台设计-收集大数据平台应用-关系大数据平台应用-调度大数据平台应用-可视化服务•业务系统•管理后台•可视引擎•Mysql集群、Redis集群关键术语•业务系统、桌面、报表大数据平台总结展望大数据平台总结•不足不能实现一键平台整体部署;操作复杂,学习门槛高;存在一些bug待修改,存在功能不足待完善;部分流程之前还存在断层;•成果所有系统实现分布式并支持多机房部署;完成收集、存储、计算、展现、管理的打通;实现机构化、非结构化、实时和离线的数据收集;大数据平台展望技术方向结合云计算、资源弹性使用;增加算法库和开放算法平台;开放平台,引入自由开发者;提供离线和在线模式。行业方向行业领域的分析工具和分析服务;建立数据交易共享规则。大数据平台谢谢!
本文标题:大数据平台的设计与实现--四川大学研究生答辩ppt
链接地址:https://www.777doc.com/doc-4312304 .html