您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘实验报告-Weka的数据聚类分析
甘肃政法学院本科生实验报告(2)姓名:学院:计算机科学学院专业:信息管理与信息系统班级:实验课程名称:数据挖掘实验日期:指导教师及职称:实验成绩:开课时间:2013—2014学年一学期甘肃政法学院实验管理中心印制实验题目Weka的数据聚类分析小组合作姓名班级学号一、实验目的1、了解和熟悉K均值聚类的步骤2、利用Weka中提供的simpleKmeans方法对数据文件进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。二.实验环境Win7环境下的Eclipse三、实验内容在WEKA中实现K均值的算法,观察实验结果并进行分析。四、实验过程与分析一、实验过程1、添加数据文件打开Weka的Explore,使用Openfile点击打开本次实验所要使用的raff格式数据文件“auto93.raff”2、选择算法类型点击Cluster中的Choose,选择本次实验所要使用的算法类型“SimpleKMeans”3、得出实验结果选中“ClusterMode”的“Usetrainingset”,点击“Start”按钮,观察右边“Clustereroutput”给出的聚类结果如下:===Runinformation===Scheme:weka.clusterers.SimpleKMeans-N2-S10Relation:auto93.namesInstances:93Attributes:23ManufacturerTypeCity_MPGHighway_MPGAir_Bags_standardDrive_train_typeNumber_of_cylindersEngine_sizeHorsepowerRPMEngine_revolutions_per_mileManual_transmission_availableFuel_tank_capacityPassenger_capacityLengthWheelbaseWidthU-turn_spaceRear_seat_roomLuggage_capacityWeightDomesticclassTestmode:evaluateontrainingdata===Modelandevaluationontrainingset===kMeans======Numberofiterations:5Withinclustersumofsquarederrors:282.17934341063733Clustercentroids:Cluster0Mean/Mode:ChevroletMidsize19.073226.3171115.90243.522173.85374965.85371964.2683018.60495.561193.7805108.609872.341541.634129.020215.51783517.561123.4512StdDevs:N/AN/A2.39163.0368N/AN/A1.2610.901550.3232581.2098370.73N/A2.49031.073511.12325.24352.96321.94622.7722.4527358.6609N/A10.2372Cluster1Mean/Mode:FordSmall24.961531.2692014.23011.9942120.15385528.84622622.3077115.13464.7115174.8654100.269267.038536.846226.89112.60692722.3077016.4019StdDevs:N/AN/A6.07465.7467N/AN/A0.73010.504740.8149484.7019377.1753N/A3.02040.84811.25995.57352.49682.3382.77532.3975492.4971N/A7.9863ClusteredInstances041(44%)52(56%)4、修改Seed值5、得出修改Seed值后的实验结果===Runinformation===Scheme:weka.clusterers.SimpleKMeans-N2-S8Relation:auto93.namesInstances:93Attributes:23ManufacturerTypeCity_MPGHighway_MPGAir_Bags_standardDrive_train_typeNumber_of_cylindersEngine_sizeHorsepowerRPMEngine_revolutions_per_mileManual_transmission_availableFuel_tank_capacityPassenger_capacityLengthWheelbaseWidthU-turn_spaceRear_seat_roomLuggage_capacityWeightDomesticclassTestmode:evaluateontrainingdata===Modelandevaluationontrainingset===kMeans======Numberofiterations:6Withinclustersumofsquarederrors:282.17934341063733Clustercentroids:Cluster0Mean/Mode:ChevroletMidsize19.073226.3171115.90243.522173.85374965.85371964.2683018.60495.561193.7805108.609872.341541.634129.020215.51783517.561123.4512StdDevs:N/AN/A2.39163.0368N/AN/A1.2610.901550.3232581.2098370.73N/A2.49031.073511.12325.24352.96321.94622.7722.4527358.6609N/A10.2372Cluster1Mean/Mode:FordSmall24.961531.2692014.23011.9942120.15385528.84622622.3077115.13464.7115174.8654100.269267.038536.846226.89112.60692722.3077016.4019StdDevs:N/AN/A6.07465.7467N/AN/A0.73010.504740.8149484.7019377.1753N/A3.02040.84811.25995.57352.49682.3382.77532.3975492.4971N/A7.9863ClusteredInstances041(44%)152(56%)6、对上述实验结果进行分析7、显示散点图我们在左下方“Resultlist”列出的结果上右击,点“Visualizeclusterassignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的”color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。二、实验分析本次实验采用的数据文件是“1993NewCarData”。通过观察本次实验的实验结果观察,我们可以知道:1、Numberofiterations:5,意味着本次实验把这93条实例聚成了5类,即K=52、Withinclustersumofsquarederrors:282.17934341063733这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个“seed”,并采纳这个数值最小的那个结果。3、Clustercentroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean),如cluster0的数值型变量Manufacturer的均值19.0732;分类型的就是它的众数(Mode),如cluster0的分类型变量Drive_train_type的众数为1,也就是说这个属性上取值为众数值1(有1个孩子)的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(StdDevs)。最后的“ClusteredInstances”是各个簇中实例的数目及百分比。五、实验总结通过本次试验,使我对如何在Weka中进行聚类分析有了更深刻的了解,对Weka中进行聚类分析的simpleKmeans算法也有了进一步的理解,但是实验中所遇到的,有关如何以最快的速度找出最好的聚类方案的相关问题,我还理解和运用的不是非常熟悉。在今后的学习中我将通过查阅文献和咨询老师、同学,对此加以熟悉和改进。
本文标题:数据挖掘实验报告-Weka的数据聚类分析
链接地址:https://www.777doc.com/doc-5118824 .html