您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据与数据挖掘实验系统
大数据与数据挖掘实验系统北京红亚华宇科技有限公司大数据的特点大数据首先是数据量大,典型的大数据系统所管理的数据可达PB级其次大数据的来源复杂,数据质量差异较大最后大数据的数据关系复杂,难以用传统的关系型数据库描述大数据分析的基石数据获取与数据预处理数据统计等基础分析算法聚类分析等高级分析算法数据挖掘算法廉价大数据存储方案可扩展的弹性计算资源调度非结构化数据存储与加工算法并行化分析框架大数据实验系统所支撑的学科与课程•数据挖掘•数据结构与算法•云计算与分布式系统计算机、信管学科•统计与建模•SAS及R语言统计分析•经济数据分析统计与经济学科•数据挖掘•商业数据分析•实战案例分析商科与管理学科大数据与数据挖掘实验类别数据挖掘验证类实验数据挖掘算法设计类实验大数据分析基础类实验大数据分析实战分析实验大数据实验系统整体框架实验室硬件环境学生PC客户端虚拟机实验环境实验数据存储数据挖掘算法执行环境Hadoop服务器集群实验体系行业数据实验零售行业社交网络网络日志大数据分析平台搭建Hive使用日志统计数据挖掘算法R语言环境基本统计分类算法………数据挖掘展示数据分析聚类分析关联分析…实验教材、师资培训实验管理、数据管理与展示大数据与数据挖掘实验基础软件数据挖掘基础语言环境——R语言•最为流行的开源统计与数据挖掘软件•可跨平台运行,高效的脚本语言•为数据分析和显示提供的强大图形功能•丰富的高质量的开源第三方算法软件包大数据分析环境——Hadoop•开源大数据分析的事实标准•大量的互联网公司作为实际生产平台•方便的Java开发环境•不断演进的良好生态环境大数据与数据挖掘实验基础软件最流行的商用数据统计分析软件——SAS•功能强大,统计方法齐全•使用简便,操作灵活简单而强大的通用数据分析软件——Excel•数据统计分析•利用VBA进行数据挖掘分析通用开发语言——Java•数据爬取•自然语言处理大数据实验平台网络拓扑服务器端•R计算服务•Hadoop集群•虚拟化实验台学生端•远程连接•开发环境•测试环境实训平台管理区外部用户外部用户远程互联接入区云实验平台实验室虚拟化设备区云虚拟服务计算资源……云虚拟网络资源…………云虚拟存储设备资源管理控制管理控制计算节点计算节点实验室实体设备区计算节点计算节点云资源云资源……学习实训区……实训展示区大数据实验系统实验内容(1)数据挖掘展示性实验•用于展示常用数据挖掘算法的作用,使用者通过实验系统所提供数据集,直观理解数据挖掘算法的输出结果实验类型实验名称统计与建模方法演示实验统计推断基础统计分布假设检验基本线性回归多变量线性回归广义线性模型实验类型实验名称数据挖掘方法演示实验数据可视化聚类数据降维分类基础决策树分类方法高级分类方法关联分析大数据实验系统实验内容(2)数据挖掘R语言开发实验•利用实验系统提供的R语言环境,学习基本的R语言开发方法,并针对提供的数据集开发数据挖掘算法实验类型实验名称R语言编程基础R语言基础R语言控制语句R语言数据类型R语言常用函数R语言程序调试实验类型实验名称R语言统计与建模R语言统计推断基础R语言统计分布R语言假设检验R语言基本线性回归R语言多变量线性回归R语言广义线性模型实验类型实验名称R语言数据分析综合应用R语言建立信用评分模型R语言预测股票市场收益R语言预测经济指标R语言侦测欺诈交易R语言微阵列样本分类大数据实验系统实验内容(3)数据挖掘SAS开发实验•利用实验系统提供的SAS环境,学习基本的SAS开发方法,并针对提供的数据集开发数据挖掘算法实验类型实验名称SAS基础编程实验SAS基础SAS控制语句SAS数据类型SAS常用函数SAS程序调试实验类型实验名称SAS统计与建模SAS统计推断基础SAS统计分布SAS假设检验SAS线性回归SAS多变量线性回归SAS广义线性模型实验类型实验名称SAS数据挖掘算法SAS数据可视化SAS聚类SAS数据降维SAS分类基础SAS决策树分类方法SAS高级分类方法SAS关联分析实验类型实验名称SAS数据分析综合应用SAS建立信用评分模型SAS预测股票市场收益SAS预测经济指标SAS侦测欺诈交易SAS微阵列样本分类大数据实验系统实验内容(4)基于Hadoop的大数据基础实验•利用实验所提供的环境,学习基本的MapReduce算法,利用提供大数据在Hadoop实现大数据实战分析实验类型实验名称大数据基础实验Hadoop环境的搭建实验基础MapReduce开发实验迭代式MapReduce程序和计数器实验分区、排序和合并算法实验Hive的使用实验类型实验名称大数据实战实验超市零售数据分析实验NetFlix电影数据分析实验新浪微博消息分析实验带有情感标签的微博数据分析实验网络安全日志分析实验出租车GPS位置分析实验社交资源共享站点用户行为分析实验大数据实验系统实验内容(5)与大数据相关的其他实验•实现大数据分析中常用的Excel数据分析、数据爬取、自然语言处理、数据库使用等实验实验类型实验名称Excel数据处理与分析Excel基本操作Excel数据可视化Excel函数与公式Excel透视表Excel数据分析VBA程序基础VBA控制语句VBA常用函数VBA综合应用实验类型实验名称MySQL数据库操作MySQL配置SQL中的DDL语句SQL中的DML语句SQL中的DCL语句MySQL常用函数MySQL存储过程和自定义函数实验类型实验名称JAVA数据爬取抓取网页处理HTML页面非HTML正文抽取设计爬虫队列并行爬虫实验类型实验名称JAVA自然语言处理字符串编码正则表达式自动分词句法分析语义分析实验平台管理方式B/S架构的管理体系,系统分为管理员、教师与学生三种角色管理员管理实验内容以及教师用户注册,教师管理实验开放、实验流程以及学生打分学生用户完成实验内容,提交实验报告虚实结合的实验平台以云计算的方式提供实验开发环境以学生端虚拟化的方式提供本地Hadoop环境以后台服务方式提供R语言自动运行服务以Shell方式提供支持大数据的Hadoop运行环境自动化实验管理平台学生端实验环境自动启动与环境恢复服务端资源自动分配与调度实验数据集自动化准备与初始化实验过程说明(1)数据挖掘展示性实验1•学生在浏览器中阅读实验文档,并下载样例数据集2•学生在样例数据集上做修改,从浏览器提交数据集3•服务器引擎进行计算,学生从浏览器查看分析结果实验过程说明(2)数据挖掘R语言开发实验1•学生在浏览器中阅读实验文档,并启动开发虚拟机2•学生在开发虚拟机中进行R实验3•学生整理实验结果,从浏览器提交实验报告实验过程说明(3)大数据基础实验1•学生在浏览器中阅读实验文档,并启动开发虚拟机和本地Hadoop集群虚拟机2•学生在开发虚拟机中开发Hadoop程序3•学生在本地Hadoop集群测试Hadoop程序4•学生从浏览器提交Hadoop程序5•服务器Hadoop集群进行计算,学生从浏览器查看运行结果6•学生整理实验结果,从浏览器提交实验报告实验过程说明(4)综合性实验1•学生在浏览器中阅读实验文档,并启动开发虚拟机2•学生在开发虚拟机中开发Hadoop程序或用R语言处理数据3•学生启动Shell接口,与服务器Hadoop集群直接互动4•学生整理实验结果,从浏览器提交实验报告谢谢
本文标题:大数据与数据挖掘实验系统
链接地址:https://www.777doc.com/doc-3515671 .html