您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘导论IrisKDD分析
`题目iris数据集的KDD实验学院名称信息科学与技术学院专业名称计算机科学与技术学生姓名何东升学生学号201413030119指导教师实习地点成都理工大学实习成绩二〇一六年9月iris数据集的KDD实验第1章、实验目的及内容1.1实习目的知识发现(KDD:KnowledgeDiscoveryinDatabase)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。该术语于1989年出现,Fayyad定义为KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。KDD的目的是利用所发现的模式解决实际问题,“可被人理解”的模式帮助人们理解模式中包含的信息,从而更好的评估和利用。1.2算法的核心思想作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤.Fayyad,Piatetsky-Shapiro和Smyth在1996年合作发布的论文FromDataMiningtoknowledgediscovery中总结出了KDD包含的5个最基本步骤(如图).1:selection:在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD工程中.2:pre-processing:当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在的错误以及缺失信息.3:transformation:转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.4:datamining:应用数据挖掘工具.5:interpretation/evaluation:了解以及评估数据挖掘结果.1.3实验软件:Weka3-9.数据集来源:第2章、实验过程2.1数据准备1.从uci的数据集官网下载iris的数据源2.抽取数据,清洗数据,变换数据3.iris的数据集如图Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。2.2实验过程2.2.1.建模(1)C4.5数据挖掘算法使用weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将testoptions设置为Percentagesplit,使用默认百分比66%。选择class作为输出属性。如图所示:2.设置完成后点击start开始执行(2)SimpleKMeans算法1加载数据到Weka,切换到Cluster选项卡,选择SimpleKMeans算法、2.设置算法参数,显示标准差,迭代次数设为5000次,其他默认。簇数选择3,因为花的种类为3。如下图所示3.在ClusterMode面板选择评估数据为Usetraininset,并单击Ignoreattribu,忽略class属性。4.点击start按钮,执行程序第三章实验结果及分析3.1C4.5结果分析1.运行结果===Runinformation===Scheme:weka.classifiers.trees.J48-C0.25-M2Relation:irisInstances:150Attributes:5sepallengthsepalwidthpetallengthpetalwidthclassTestmode:split66.0%train,remaindertest===Classifiermodel(fulltrainingset)===J48prunedtree------------------petalwidth=0.6:Iris-setosa(50.0)petalwidth0.6|petalwidth=1.7||petallength=4.9:Iris-versicolor(48.0/1.0)||petallength4.9|||petalwidth=1.5:Iris-virginica(3.0)|||petalwidth1.5:Iris-versicolor(3.0/1.0)|petalwidth1.7:Iris-virginica(46.0/1.0)NumberofLeaves:5Sizeofthetree:9Timetakentobuildmodel:0.01seconds===Evaluationontestsplit===Timetakentotestmodelontrainingsplit:0seconds===Summary===CorrectlyClassifiedInstances4996.0784%IncorrectlyClassifiedInstances23.9216%Kappastatistic0.9408Meanabsoluteerror0.0396Rootmeansquarederror0.1579Relativeabsoluteerror8.8979%Rootrelativesquarederror33.4091%TotalNumberofInstances51===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureMCCROCAreaPRCAreaClass1.0000.0001.0001.0001.0001.0001.0001.000Iris-setosa1.0000.0630.9051.0000.9500.9210.9690.905Iris-versicolor0.8820.0001.0000.8820.9380.9130.9670.938Iris-virginicaWeightedAvg.0.9610.0230.9650.9610.9610.9420.9770.944===ConfusionMatrix===abc--classifiedas1500|a=Iris-setosa0190|b=Iris-versicolor0215|c=Iris-virginica从上述结果可以看出正确率为96.0784%所以petalwidth和petallength可以很好的判断花的类别。3.1SimpleKMeans算法结果===Runinformation===Scheme:weka.clusterers.SimpleKMeans-init0-max-candidates100-periodic-pruning10000-min-density2.0-t1-1.25-t2-1.0-V-N3-Aweka.core.EuclideanDistance-Rfirst-last-I500-num-slots1-S10Relation:irisInstances:150Attributes:5sepallengthsepalwidthpetallengthpetalwidthIgnored:classTestmode:evaluateontrainingdata===Clusteringmodel(fulltrainingset)===kMeans======Numberofiterations:6Withinclustersumofsquarederrors:6.998114004826762Initialstartingpoints(random):Cluster0:6.1,2.9,4.7,1.4Cluster1:6.2,2.9,4.3,1.3Cluster2:6.9,3.1,5.1,2.3Missingvaluesgloballyreplacedwithmean/modeFinalclustercentroids:Cluster#AttributeFullData012(150.0)(61.0)(50.0)(39.0)===========================================================sepallength5.84335.88855.0066.8462+/-0.8281+/-0.4487+/-0.3525+/-0.5025sepalwidth3.0542.73773.4183.0821+/-0.4336+/-0.2934+/-0.381+/-0.2799petallength3.75874.39671.4645.7026+/-1.7644+/-0.5269+/-0.1735+/-0.5194petalwidth1.19871.4180.2442.0795+/-0.7632+/-0.2723+/-0.1072+/-0.2811Timetakentobuildmodel(fulltrainingdata):0seconds===Modelandevaluationontrainingset===ClusteredInstances061(41%)150(33%)239(26%)从实验结果可以看出分出的类为3个且比例与元数据的class的比例1:1:1的比例不是很相近。从C4.5的结果来看pentalwidth和pentallength更加符合,重新选择属性,仅选择pentalwidth和pentallength结果如下===Runinformation===Scheme:weka.clusterers.SimpleKMeans-init0-max-candidates100-periodic-pruning10000-min-density2.0-t1-1.25-t2-1.0-V-N3-Aweka.core.EuclideanDistance-Rfirst-last-I5009-num-slots1-S10Relation:irisInstances:150Attributes:5petallengthpetalwidthIgnored:sepallengthsepalwidthclassTestmode:evaluateontrainingdata===Clusteringmodel(fulltrainingset)===kMeans======Numberofiterations:6Withinclustersumofsquarederrors:1.7050986081225123Initialstartingpoints(random):Cluster0:4.7,1.4Cluster1:4.3,1.3Cluster2:5.1,2.3Missingvaluesgloballyreplacedwithmean/modeFinalclustercentroids:Cluster#AttributeFullData012(150.0)(52.0)(50.0)(48.0)===========================================================petallength3.75874.29621.4645.5667+/-1.7644+/-0.5053+/-0.1735+/-0.549petalwidth1.19871.3250.2442.0562+/-0.7632+/-0.1856+/-0.1072+/-0.2422Timetakentobuildmodel(fulltrainingdata):0.02seconds===Modelandevaluationontrainingset===ClusteredInstances052(35%)150(33%)248(32%)从结果可以看出pentalwidth和pentallength能够很好的作为分类的属性值第四章心得体会从这次的作业中学习了KDD以及KDD模型过程的建立。也更加深入的了解了C4.5决策树算法和KMeans分类算法以及Wek
本文标题:数据挖掘导论IrisKDD分析
链接地址:https://www.777doc.com/doc-2333877 .html