您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 基于weka的数据分类分析
基于weka的数据分类分析实验题目基于weka的数据分类分析小组合作否姓名班级12级信管班学号一、实验目的1、使用数据挖掘中的分类算法,对数据集进行分类训练并测试;2、应用不同的分类算法,比较他们之间的不同;3、了解Weka平台的基本功能与使用方法。二.实验环境1、win7+eclipse+weak;2、实验室网络环境三、实验内容与步骤(一)数据准备及预处理1、格式转换方式;(二)三种分类方法分析1、决策树分类;2、K最近邻算法分类;3、朴素贝叶斯分类;4、三类分类方法的校验结果比较;四、实验过程与分析(一)数据准备及预处理1、格式转换方式;原始数据是excel文件保存的xlsx格式数据,需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。转换方法:在excel中打开“weather.xlsx”,选择菜单文件-另存为,在弹出的对话框中,文件名输入“weather”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“weather.csv”文件;然后,打开Weka的Exporler,点击Openfile按钮,打开刚才得到的“weather”文件,点击“save”按钮,在弹出的对话框中,文件名输入“weather”,文件类型选择“Arffdatafiles(*.arff)”,这样得到的数据文件为“weather.arff”。(二)三种分类方法分析1、决策树分类:用“Explorer”打开刚才得到的“train-data.arff”,并切换到“Class”。点“Choose”按钮选择“tree(weka.classifiers.trees.j48)”,这是WEKA中实现的决策树算法。选择Cross-Validatioinfolds=10,然后点击“start”按钮:2、K最近邻算法分类:点“Choose”按钮选择“laze-ibk”,这是WEKA中实现的决策树算法。选择Cross-Validatioinfolds=10,然后点击“start”按钮:3、朴素贝叶斯分类;点“Choose”按钮选择“bayes”,这是WEKA中实现的决策树算法。选择Cross-Validatioinfolds=10,然后点击“start”按钮:4、三类分类方法的校验结果比较;据上述数据,虽然朴素贝叶斯分类算法有最高的准确率,而标准误差较高;而决策树的准确率相对较高而标准误差也较高,综合评价可以得知,当前最好的分类算法是KNN算法。五、实验总结通过本次实验,使我对Weka平台有了比较完整和深入的认识,对Weka中进行分类分析的KNN算法、素贝叶斯算法和决策树算法都有了进一步的理解。通过实验,对数据挖掘本身也有了比较直观的认识,同时也深刻体会到数据预处理对于数据挖掘的重要性。
本文标题:基于weka的数据分类分析
链接地址:https://www.777doc.com/doc-4890609 .html