数据挖掘-基于贝叶斯算法及KNN算法

吸氧机，家用吸氧机价格制氧机，鱼跃家庭制氧机数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现（上）本分类器的完整工程可以到点击打开链接下载，详细说明的运行方法，用eclipse可以运行，学习数据挖掘的朋友可以跑一下，有问题可以联系我，欢迎交流：）上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现，下面我们来看看如何实现基于KNN算法的newsgroup文本分类器1KNN算法的描述KNN算法描述如下：STEPONE:文本向量化表示,由特征词的TF*IDF值计算STEPTWO:在新文本到达后，根据特征词确定新文本的向量STEPTHREE:在训练文本集中选出与新文本最相似的K个文本，相似度用向量夹角余弦度量，计算公式为：其中，K值的确定目前没有很好的方法，一般采用先定一个初始值，然后根据实验测试的结果调整K值本项目中K取20STEPFOUR:在新文本的K个邻居中，依次计算每类的权重，每类的权重等于K个邻居中属于该类的训练样本与测试样本的相似度之和。STEPFIVE:比较类的权重，将文本分到权重最大的那个类别中。2文档TF-IDF计算及向量化表示实现KNN算法首先要实现文档的向量化表示计算特征词的TF*IDF，每个文档的向量由包含所有特征词的TF*IDF值组成，每一维对应一个特征词TF及IDF的计算公式如下，分别为特征词的特征项频率和逆文档频率吸氧机，家用吸氧机价格制氧机，鱼跃家庭制氧机文档向量计算类ComputeWordsVector.java如下1.packagecom.pku.yangliu;2.importjava.io.BufferedReader;3.importjava.io.File;4.importjava.io.FileReader;5.importjava.io.FileWriter;6.importjava.io.IOException;7.importjava.util.SortedMap;8.importjava.util.Map;9.importjava.util.Set;10.importjava.util.TreeMap;11.importjava.util.Iterator;12.13./**计算文档的属性向量，将所有文档向量化14.*@authoryangliu15.*@qq77233018416.*@mailyang.liu@pku.edu.cn17.*18.*/19.publicclassComputeWordsVector{20.21./**计算文档的TF属性向量,直接写成二维数组遍历形式即可，没必要递归22.*@paramstrDir处理好的newsgroup文件目录的绝对路径23.*@paramtrainSamplePercent训练样例集占每个类目的比例24.*@paramindexOfSample测试样例集的起始的测试样例编号25.*@paramwordMap属性词典map26.*@throwsIOException27.*/28.publicvoidcomputeTFMultiIDF(StringstrDir,doubletrainSamplePercent,intindexOfSample,MapString,DoubleiDFPerWordMap,MapString,DoublewordMap)throwsIOException{29.FilefileDir=newFile(strDir);30.Stringword;吸氧机，家用吸氧机价格制氧机，鱼跃家庭制氧机31.SortedMapString,DoubleTFPerDocMap=newTreeMapString,Double();32.//注意可以用两个写文件，一个专门写测试样例，一个专门写训练样例，用sampleType的值来表示33.StringtrainFileDir=F:/DataMiningSample/docVector/wordTFIDFMapTrainSample+indexOfSample;34.StringtestFileDir=F:/DataMiningSample/docVector/wordTFIDFMapTestSample+indexOfSample;35.FileWritertsTrainWriter=newFileWriter(newFile(trainFileDir));36.FileWritertsTestWrtier=newFileWriter(newFile(testFileDir));37.FileWritertsWriter=tsTrainWriter;38.File[]sampleDir=fileDir.listFiles();39.for(inti=0;isampleDir.length;i++){40.StringcateShortName=sampleDir[i].getName();41.System.out.println(compute:+cateShortName);42.File[]sample=sampleDir[i].listFiles();43.doubletestBeginIndex=indexOfSample*(sample.length*(1-trainSamplePercent));//测试样例的起始文件序号44.doubletestEndIndex=(indexOfSample+1)*(sample.length*(1-trainSamplePercent));//测试样例集的结束文件序号45.System.out.println(dirName_totallength:+sampleDir[i].getCanonicalPath()+_+sample.length);46.System.out.println(trainSamplePercent+length:+sample.length*trainSamplePercent+testBeginIndex:+testBeginIndex+testEndIndex+testEndIndex);47.for(intj=0;jsample.length;j++){48.TFPerDocMap.clear();49.FileReadersamReader=newFileReader(sample[j]);50.BufferedReadersamBR=newBufferedReader(samReader);51.StringfileShortName=sample[j].getName();52.DoublewordSumPerDoc=0.0;//计算每篇文档的总词数53.while((word=samBR.readLine())!=null){54.if(!word.isEmpty()&&wordMap.containsKey(word)){//必须是属性词典里面的词，去掉的词不考虑55.wordSumPerDoc++;56.if(TFPerDocMap.containsKey(word)){57.Doublecount=TFPerDocMap.get(word);58.TFPerDocMap.put(word,count+1);59.}60.else{61.TFPerDocMap.put(word,1.0);62.}63.}64.}吸氧机，家用吸氧机价格制氧机，鱼跃家庭制氧机65.//遍历一下当前文档的TFmap，除以文档的总词数换成词频,然后将词频乘以词的IDF，得到最终的特征权值，并且输出到文件66.//注意测试样例和训练样例写入的文件不同67.if(j=testBeginIndex&&j=testEndIndex){68.tsWriter=tsTestWrtier;69.}70.else{71.tsWriter=tsTrainWriter;72.}73.DoublewordWeight;74.SetMap.EntryString,DoubletempTF=TFPerDocMap.entrySet();75.for(IteratorMap.EntryString,Doublemt=tempTF.iterator();mt.hasNext();){76.Map.EntryString,Doubleme=mt.next();77.//wordWeight=(me.getValue()/wordSumPerDoc)*IDFPerWordMap.get(me.getKey());78.//这里IDF暂时设为1，具体的计算IDF算法改进和实现见我的博客中关于kmeans聚类的博文79.wordWeight=(me.getValue()/wordSumPerDoc)*1.0;80.TFPerDocMap.put(me.getKey(),wordWeight);81.}82.tsWriter.append(cateShortName+);83.StringkeyWord=fileShortName.substring(0,5);84.tsWriter.append(keyWord+);85.SetMap.EntryString,DoubletempTF2=TFPerDocMap.entrySet();86.for(IteratorMap.EntryString,Doublemt=tempTF2.iterator();mt.hasNext();){87.Map.EntryString,Doublene=mt.next();88.tsWriter.append(ne.getKey()++ne.getValue()+);89.}90.tsWriter.append(\n);91.tsWriter.flush();92.}93.}94.tsTrainWriter.close();95.tsTestWrtier.close();96.tsWriter.close();97.}98.99./**统计每个词的总的出现次数，返回出现次数大于3次的词汇构成最终的属性词典100.*@paramstrDir处理好的newsgroup文件目录的绝对路径吸氧机，家用吸氧机价格制氧机，鱼跃家庭制氧机101.*@throwsIOException102.*/103.publicSortedMapString,DoublecountWords(StringstrDir,MapString,DoublewordMap)throwsIOException{104.FilesampleFile=newFile(strDir);105.File[]sample=sampleFile.listFiles();106.Stringword;107.for(inti=0;isample.length;i++){108.if(!sample[i].isDirectory()){109.if(sample[i].getName().contains(stemed)){110.FileReadersamReader=newFileReader(sample[i]);111.BufferedReadersamBR=newBufferedReader(samReader);112.while((word=samBR.readLine())!=null){113.if(!word.isEmpty()&&wordMap.containsKey(word)){114.doublecount=wordMap.get(word)+1;115.wordMap.put(word,count);116.}117.else{118.wordMap.put(word,1.0);119.}120.}121.}122.}1

数据挖掘-基于贝叶斯算法及KNN算法

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

第8章制作印制电路板

欧美风格家具品牌(经典)

年中国无刷直流电机制造市场监测及发展战略咨询报告

国家发改委版-XXXX年职业技能培训行业风险分析报告

产前筛查管理制度

全球化竞争环境下的企业战略理论分析及应用

述职模板

某再生资源项目简介

灌南县环境保护局行政许可项目及程序

人际沟通艺术(四)情商与压力管理

相关文档

相关搜索