您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 工程监理 > 广金大数据工具应用第二次实验报告答案
第1页共12页广东金融学院实验报告课程名称:大数据工具应用实验编号及实验名称实验二数据分析入门(一)学院姓名学号班级实验地点新电1001实验日期2018.11.19实验时数2指导老师钟雪灵同组其他成员无成绩一、实验目的及要求通过实验进一步掌握大数据工具的基础知识,独立使用工具获取网页数据并对数据进行预处理。二、实验环境及相关情况(包含使用软件、实验设备、主要仪器及材料等)1.使用软件:Weka2.实验设备:装有Windows7的联网的个人计算机三、实验内容1.完成bank-data.xlsx文件到arff文件的转换。2.对weather.nominal.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。3.生成weather.nominal.arff数据集的决策树。4.对CPU.arff数据集使用M5P分类器进行线性回归。5.使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离,其他参数保持默认值,忽略play属性。6.使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。第2页共12页四、实验结果(对必要的实验步骤进行截图,并加以文字描述)1、完成bank-data.xlsx文件到arff文件的转换。(1)打开“bank-data.xlsx”-点击“文件”-点击“另存为”-保存类型选中“CSV(逗号分隔)”-点击“保存”。(2)打开weka-点击“Tools”-点击“ArffViewer”-点击“File-open”–文件类型选中“所有文件”-选中“bank-data.csv”-“打开”第3页共12页点击“file”-点击“saveas”-文件类型选中“Arffdatafiles”-“保存”2、对weather.nominal.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。(1)打开weka-点击“Explorer”-点击“Openfile”-选中“weather.numeric.arff”-点击“打开”点击“Choose”-选中“Discretize”-点击空白处-在“attributelndices”中输入2,在“bins”中输入3,其他保持不变-点击“OK”,再点击“Apply”第4页共12页为避开可读性较差的问题,先另存为,点击“Save”。(2)打开“word”,打开“weather.numeric.arff”这个文件选中“'\'(-inf-71]\''”,点击“替换”第5页共12页选中“'\'(71-78]\''”,替换成“mild”选中“'\'(78-inf)\''”,替换成“hot”点击“保存”。(3)用weka打开查看第6页共12页3、生成weather.nominal.arff数据集的决策树。(1)打开weka-点击“Explorer”-点击“Openfile”-选中“weather.numinal.arff”-点击“打开”,切换到“Classify”-单击“Choose”-打开“trees”条目-点击“J48”,选择“Usetraningset”,单击“Strart”。(2)在结果列表中右击“J48”条目,选择可视化菜单项“Visualizetree”第7页共12页4.对CPU.arff数据集使用M5P分类器进行线性回归。打开weka-点击“Explorer”-点击“Openfile”-选中“cpu.aff”-点击“打开”,点击“Classify”-“Choose”,打开“function”条目-点击“LinearRegressio”,单击“Strart”。在结果列表中右击条目,选择可视化分类结果误差菜单项“Visualizeclassifiererrors”第8页共12页5.使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离,其他参数保持默认值,忽略play属性。(1)打开weka-点击“Explorer”-点击“Openfile”-选中“weather.numeric.arff”-点击“打开”,切换到“Cluster”-单击“Choose”-选择“SimpleKMeans”,单击文本框-保持默认设置,单击“Ignoreattributes”-选择“play”-单击“select”,单击“Start”。第9页共12页(2)在结果列表中右击条目,选择“Visualizeclusterassignments”(3)单击“Save”,再次打开文件查看第10页共12页6.使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。(1)打开weka-点击“Explorer”-点击“Openfile”-选中“weather.numeric.arff”-点击“打开”,切换到“Cluster”-单击“Choose”-选择“EM”,单击文本框-“numClusters”设置为“2”-其他参数保持不变,选中“Classestoclustersevaluation”,单击“Ignoreattributes”-弹出框中选择“play”-单击“select,”单击“Start”。(2)在结果列表中右击条目,选择“Visualizeclusterassignments”第11页共12页(3)单击“Save”,再次打开文件查看五、实验总结(包括心得体会、问题回答及实验改进意见,可附页)1、这次实验很有难度,基本都要依靠视频,逐步跟进,第一次接触Weka,所以一轮实验过后对weka也只能算是有了接触,还算不上理解。2、决策树较其他几个实验项目易懂,有图形,很形象了然。3、大致懂得分类、聚类的操作步骤,但由于缺乏相应的数学知识储备,相应的计算机第12页共12页术语,不明白结果要如何分析,所以距离用weka做实际分类聚类的应用还很远。4、希望自己有时间的时候能多看点资料,多补充点计算机和数学的知识,多了解软件里各个英文的含义,多去分析分析数据结果。六、教师评语□实验态度端正,实验步骤、结果正确,实验总结认真,评分:优秀□实验态度端正,实验步骤、结果正确,评分:良好□实验步骤、结果正确,评分:中等□能够按照实验步骤完成实验,评分:及格□无法完成实验,评分:不及格指导老师:钟雪灵2018.5
本文标题:广金大数据工具应用第二次实验报告答案
链接地址:https://www.777doc.com/doc-6084500 .html