您好,欢迎访问三七文档
数据挖掘作业一——班级信息的挖掘姓名:韩占堂学号:3114292028日期:2014年12月17日班级:硕4102班代课老师:代文娟一、作业要求Requirement:Usetheclassmates'personalinformationtoexplorethedatacharacters,youcanextendmorefieldsorrecordsofitifnecessary.1.UseDataAuditNodetoanalyzethemissingdatadistributionandinterpolationthemusinganythesemethods:none,nullify,coerced,discard,warn,abort.2.UseMatrixnodetoexploretherelationshipbetweenanytwocategoricalfields3.UseWebnodetoexploretherelationshipamongmultiplecategoricalfields4.UseStatisticsnodetoexploretherelationshipamongmultiplecontinuesfields5.UseMeannodetoexploretherelationshipbetweencategoricalandcontinuesfields6.UseGraphnodetoexploretherelationshipamonganythreefields.二、作业步骤首先通过IBMSpssModeler软件导入班级信息表,表格的数据如下:图如下图1.1所示,可以看见在班级的信息表中:身高、体重、单身、性格四列数据有缺失项,因此,在数据挖掘整个班级信息的前面的时候,需要通过一定的数据挖掘知识填补缺失值。图1.1源文件首先把数据导入到Modeler中的Excel源数据中,然后通过DataAuditNode审核数据,结果如下图1.2所示:图1.2数据审核然后根据帮助文档对源文件缺失的列进行缺失插补,对身高缺失值插入中程数,对体重插入平均值,对身高和性格随机插入。生成如图1.3所示的文件。图1.3缺失插补然后根据要求对信息进行挖掘,并写出关键信息。1、Matrixnode挖掘首先通过挖掘单身和性格之间的关系,结果如图1.4所示。可以看出,外向单身12个,内向单身10个,内向的人更容易拥有爱情。可能是因为外向的人更喜欢张狂,不专一,而内向的人永远只会把内心的话告诉一个人。这样的成功率就会高点。还有班级内向和外向的同学基本平均。图1.4矩阵挖掘2、Webnode挖掘通过对本科专业和性别、性格的分析结果如图1.5所示。可以看出,外向的人并且是男生学习软件工程的专业比较多,这就验证了IT界大多数是男人的事实了。因为软件工程干的活比较累,唯一好处就是比较牛,干好就能赚很多钱。而女生,不怎么适合。图1.5网络挖掘3、Statisticsnode挖掘对于年龄和身高统计,仅仅能知道平均值和其最大值最小值的信息。具体如图1.6所示。1,6统计图4、Meannode对于年龄、身高、体重的均值分析,如图所示1.7所示。在三个连续的列中,班级学生的身高、体重、是最重要的、而年龄不是重要的。同时男的身高比女生平均高10cm左右。而体重高于12kg。同时年龄的方差比较小,分布比较均匀,而身高的方差比较大。图1.7均值挖掘5、Graphnode对于身高和年龄和籍贯进行分析,如图1.8所示。对于年龄比较大的,身高一般,但是大多分布在南方的省会,而北方的同学年龄偏小。身高却同籍贯没有特别的联系。身高集中分布在1.6到1.8之间。
本文标题:数据挖掘作业一
链接地址:https://www.777doc.com/doc-2333422 .html