您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > weka数据挖掘实验2报告
数据挖掘实验报告姓名:邢金雁学号:091070106专业:电子商务091070106邢金雁web数据挖掘实验报告页1实验二一、实验名称:基于关联规则的信息获取二、实验目的:通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。三、实验要求1、熟悉Weka平台2、掌握关联规则算法3、对数据进行预处理,利用Weka和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结。四、实验平台新西兰怀卡托大学研制的Weka系统。091070106邢金雁web数据挖掘实验报告页2实验步骤数据实验1.数据准备选择Filter中的Discretize方法,点击Apply,先对ARFF文件进行离散化:用UltraEdit对其进行编辑:@attributechildrennumeric改为:@attributechildren{0,1,2,3}然后用discretize算法对age和income离散化,并删掉id项因为它对关联规则分析无影响,保存文件。图1——first-last离散化091070106邢金雁web数据挖掘实验报告页3图2——UltraEdit编辑图3——针对属性1age和属性4income进行离散化091070106邢金雁web数据挖掘实验报告页42.选择Associate项中的Apriori算法分析进行关联信息获取,并进行参数设置。图4——离散化后的Apriori算法结果图5——变换参数得到不同结果091070106邢金雁web数据挖掘实验报告页5例如:现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前10位的那些关联规则。把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1,“metricType”设为lift,“minMetric”设为1.5,“numRules”设为100。其他选项保持默认。“OK”之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果图6——举例结果091070106邢金雁web数据挖掘实验报告页6实验问题解答1.对于非xls格式的数据如何转换成ARFF数据类型?请给出你了解到的几种数据类型到ARFF的转换方式?答:(1)CSV→ARFF:1)用weka中的ArffView打开csv文件,然后另存为arff文件。2)用weka的“SimpleCLI”模块的命令行功能。在新窗口的最下方输入框输入javaweka.core.converters.CSVLoaderfilename.csvfilename.arff即可完成转换。3)进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。(2)TXT→ARFF:用Excel打开txt文件,然后另存为arff文件(逗号分隔),然后再利用weka将csv文件转化为arff文件(3)C4.5→ARFF:方法同CSV(4)MAT→ARFF:在Matlab中通过命令csvwrite('filename',matrixname)把一个矩阵存成CSV格式,再通过weka把CSV转化为ARFF。需要注意的是,Matlab给出的CSV文件往往没有属性名,因此对于Matlab给出的CSV文件需要用文本编辑软件打开,手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致,仍用逗号隔开。2.在算法出来的lift排前1的规则中,如:age=52_maxsave_act=YEScurrent_act=YES113==income=43759_max61conf:(0.54)lift:(4.05)lev:(0.08)[45]conv:(1.85)请说明其中113、61、conf:(0.54)都表示什么含义?答:113表示项目集{age=52_maxsave_act=YEScurrent_act=YES}出现的次数,61表示事务income=43759_max在前者出现的情况下出现的次数,conf:(0.54)表示:0.54≈61/113,即该条规则的置信度。3.请问:通过在左下方“Resultlist”列出的结果上右击,点“Visualizeclusterassignments”。弹出的窗口是否能给出实例完成后的可视化结果,如果有,请截图,并在实验报告中给出详解。答:右键点击没有“Visualizeclusterassignments”选项,因此不能可视化091070106邢金雁web数据挖掘实验报告页7
本文标题:weka数据挖掘实验2报告
链接地址:https://www.777doc.com/doc-2345887 .html