您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 数据挖掘r语言总结报告
.........专业学习资料.总结报告课程名称:数据挖掘R语言任课教师:姓名:专业:计算机科学与技术班级:学号:成绩:.........专业学习资料.计算机科学与技术学院2018年6月19日一、数据预处理针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。必要时还需对原数据集进行统计变换后形成易于分析的形式。为每条数据添加字段:所属地区。根据下图中划分的美国四大地区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。首先导入数据:gundata-read.csv(d:/gun.csv,sep=,,stringsAsFactors=FALSE,header=TRUE,quote=””)然后将需要的字段取出来,在这里取出了一下几个字段:标号字段名含义数据类型1incident_id犯罪记录idnumeric2date犯罪日期dateTime3state犯罪案件所在的州string4city_or_county犯罪案件所在的市string6n_killed死亡人数numeric7n_injured受伤人数numeric15latitude犯案位置的纬度numeric.........专业学习资料.17longitude犯案位置的经度numericgundata[,c(incident_id,date,state,city_or_county,n_killed,n_injured,congressional_district,latitude,longitude,state_house_district,state_senate_district)]gd-subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed,n_injured,congressional_district,latitude,longitude,state_house_district,state_senate_district))然后根据州字段将所有数据划分为四个地区阿拉巴马州Alabama阿拉斯加州Alaska亚利桑那州Arizona阿肯色州Arkansas加利福尼亚州California科罗拉多州Colorado哥伦比亚特区Columbia康涅狄格州Connecticut特拉华州Delaware佛罗里达州Florida佐治亚州Georgia夏威夷州Hawaii爱达荷州Idaho伊利诺州Illinois.........专业学习资料.印弟安纳州Indiana爱荷华州Iowa堪萨斯州Kansas肯塔基州Kentucky路易斯安那州Louisiana缅因州Maine马里兰州Maryland麻塞诸塞州Massachusetts密歇根州Michigan明尼苏达州Minnesota密西西比州Mississippi密苏里州Missour蒙大拿州Montana内布拉斯加州Nebraska内华达州Nevada新罕布希尔州NewHampshire新泽西州NewJersey新墨西哥州NewMexico纽约州NewYork北卡罗来纳州NorthCarolina北达科他州NorthDakota俄亥俄州Ohio.........专业学习资料.奥克拉荷马州Oklahoma俄勒冈州Oregon宾西法尼亚州Pennsyivania罗德岛州RhodeIsland南卡罗来纳州SouthCarolina南达科他州SouthDakota田纳西州Tennessee德克萨斯州Texas犹他州Utah佛蒙特州Vermont弗吉尼亚州Virgina华盛顿州Washington西佛吉尼亚州WestVirginia威斯康辛州Wisconsin怀俄明州Wyoming东北部Maine,NewHampshire,Vermont,Massachusetts,RhodeIsland,Connecticut,NewYork,Pennsyivania,NewJersey中西部Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,NorthDakota,SouthDakota,Nebraska,Kansas,Minnesota,Iowa.........专业学习资料.南部Delaware,Maryland,DistrictofColumbia,Virgina,WestVirginia,NorthCarolina,SouthCarolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklahoma,Texas,Arkansas,Louisiana西部Iowa,Montana,Wyoming,Nevada,Utah,Colorado,NewMexico,Arizona,Alaska,Washington,Oregon,California,Hawaiifor(iin1:length(gd[,1])){if(gd[i,3]==Maine|gd[i,3]==NewHampshire|gd[i,3]==Vermont|gd[i,3]==Massachusetts|gd[i,3]==RhodeIsland|gd[i,3]==Connecticut|gd[i,3]==NewYork|gd[i,3]==Pennsylvania|gd[i,3]==NewJersey){gd[i,9]=东北部}elseif(gd[i,3]==Wisconsin|gd[i,3]==Michigan|gd[i,3]==Illinois|gd[i,3]==Ohio|gd[i,3]==Indiana|gd[i,3]==Missouri|gd[i,3]==NorthDakota|gd[i,3]==SouthDakota|gd[i,3]==Nebraska|gd[i,3]==Kansas|gd[i,3]==Minnesota|gd[i,3].........专业学习资料.==Iowa){gd[i,9]=中西部}elseif(gd[i,3]==Delaware|gd[i,3]==Maryland|gd[i,3]==DistrictofColumbia|gd[i,3]==Virginia|gd[i,3]==WestVirginia|gd[i,3]==NorthCarolina|gd[i,3]==SouthCarolina|gd[i,3]==Georgia|gd[i,3]==Florida|gd[i,3]==Kentucky|gd[i,3]==Tennessee|gd[i,3]==Mississippi|gd[i,3]==Alabama|gd[i,3]==Oklahoma|gd[i,3]==Texas|gd[i,3]==Arkansas|gd[i,3]==Louisiana){gd[i,9]=南部}elseif(gd[i,3]==Iowa|gd[i,3]==Montana|gd[i,3]==Wyoming|gd[i,3]==Nevada|gd[i,3]==Utah|gd[i,3]==Colorado|gd[i,3]==NewMexico|gd[i,3]==Arizona|gd[i,3]==Alaska|gd[i,3]==Washington|gd[i,3]==Oregon|gd[i,3]==California|gd[i,3]==Hawaii){gd[i,9]=西部}}然后用fix(gd)将第九列的字段修改为part:.........专业学习资料.最后处理完的数据为以下格式:最后将数据存储下来,备用:write.csv(gd,f://GunData.csv,row.names=FALSE).保存的数据格式如下:.........专业学习资料.共有23w多条数据,其中部分数据有字段为空值,将在后续分析中删除。二、基本统计分析1)统计各州发生枪支案件的总数。2)统计各地区发生枪支案件的总数。3)分析各地区枪支案件的分布特征。4)按年度统计各州发生枪支案件的数目。5)分析四大地区的经纬度范围2)推断性统计:选择合适的R函数进行如下假设检验,并得出结论。1)分析死亡人数与受伤人数间是否具有相关性。2)分析南部地区的案件数和其他地区的案件数是否具有显著差异。3)分析死亡人数与案件数是否相关;受伤人数与案件数是否相关。1、统计各州发生枪支案件的总数。.........专业学习资料.建立一个table,可以显示出各州的案件数然后绘制一个直方图,显示出各个州的案件数就可以直观的看出各个州的案件数量。2、统计各地区发生枪支案件的总数:绘制一个条形图,可以直观的看出各个地区的案件总数。首先建立一个table,counts-table(gd$part),然后利用画图函数,绘制条形图barplot(counts,main=gunvolience,xlab=part,ylab=num,col=c(red,yell.........专业学习资料.ow,green,blue),ylim=c(0,120000))结果如下图:可以看出南部人数最多,10w+,其次是中西部,东北部和西部的数量差不多。3、分析各地区枪支案件的分布特征。首先取出数据中东北部地区的数据gd1-g[g[,10]=='东北部',]gd2-g[g[,10]=='南部',]gd3-g[g[,10]=='中西部',]gd4-g[g[,10]=='西部',]然后生成四个tablecount1-table(gd1$state)count2-table(gd2$state)count3-table(gd3$state)count4-table(gd4$state).........专业学习资料.然后绘制各地区的案件分布图.........专业学习资料.分析东北部地区的枪支案件分布,利用barplot函数,barplot(count1,main=东北部,)barplot(count2,main=南部)barplot(count3,main=中西部)barplot(count4,main=西部)可以看出主要集中在纽约和宾夕法尼亚州,西部全部集中在加州,南部分布的还算平均,佛罗里达多一些,中西部集中在波士顿。.........专业学习资料.4、按年度统计各州发生枪支案件的数目。根据日期中的年度,将数据划分为13,14,15,16,17,18六段数据,先将数据排序后,找到每年数据的第一条,然后分片取数据gt13-g[1:276,]gt14-g[277:51813,]gt15-g[51814:105715,]gt16-g[105716:159395,]gt17-g[159396:219007,]gt18-g[219008:231226,]然后统计各年度的受伤人数、死亡人数、案件数。length(gt13[,1])[1]276length(gt14[,1])[1]51537length(gt15[,1])[1]53902length(gt16[,1])[1]53680length(gt17[,1])[1]59612length(gt18[,1])[1]12219.........专业学习资料.可以看出13年犯案数是276例,14年51537,15年53902,16年53680,17年56912,18年12219例。然后分别建立table,然后就可以看到各个州的案件数。Table(gt14$state)Table(gt17$state)5、分析四大地区的经纬度范围将数据根据地区分为四部分,然后根据经度和纬度数据绘制散点图。gd1-g[g[,10]=='东北部',].........专业学习资料.gd2-g[g[,10]=='南部',]gd3-g[g[,10]=='中西部',]gd4-g[g[,10]==西部',]plot(gd1[,9],gd1[,8],col
本文标题:数据挖掘r语言总结报告
链接地址:https://www.777doc.com/doc-6297638 .html