您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 基于朴素贝叶斯分类器的文本分类算法C语言
基于朴素贝叶斯分类器的文本分类算法(C语言)#include<string.h>#include<direct.h>//_getcwd(),_chdir()#include<stdlib.h>//_MAX_PATH,system()#include<io.h>//_finddata_t,_findfirst(),_findnext(),_findclose()charvocabulary[1000][20];/*声明公有二维数组,用来存储分割好的单词*//*=================将要分类的文本分割成单词存储在二维数组vocabulary中================*///@输入参数:要分类的文本//@输出参数:该文本中总单词数intSplitToWord(chartext[]){inti=0;charseps[]=",.\n";/*定义单词的分隔符*/char*substring;/******利用分隔符将文本内容分割成单词并存储******/substring=strtok(text,seps);while(substring!=NULL){strcpy(vocabulary[i],substring);//将单词存储到vocabulary数组中substring=strtok(NULL,seps);i++;}returni;//返回一共多少个单词}/*===============================计算该目录下的文件数================================*///@输入参数:无//@输出参数:该目录下.txt文件数intCountDirectory(){intcount=0;//txt文件计数器longhFile;_finddata_tfileinfo;/********查找.txt文件,记录文件数**********/if((hFile=_findfirst("*.txt",&fileinfo))!=-1L){do{count++;}while(_findnext(hFile,&fileinfo)==0);}returncount;}/*===================================计算某类别中∏P(ai|vj)===================================*///@输入参数:分类文本中单词数//@输出参数:该类别下∏P(ai|vj)floatCalculateWordProbability(intwordCount){intcountSame;//分类文本中的某单词在所有训练样本中出现次数intcountAll=0;//训练样本中总单词数chartoken;FILE*fp;floatwordProbability=1;//为后面联乘做准备inti,j;longhFile;_finddata_tfileinfo;for(j=0;j<wordCount;j++)//对于分类样本中的每一个单词{countSame=0;countAll=0;if((hFile=_findfirst("*.txt",&fileinfo))!=-1L)//对于该类别下每一个.txt文本{do{if((fp=fopen(fileinfo.name,"r"))==NULL)//是否能打开该文本{printf("Sorry!Cannotopenthefile!\n");exit(0);}/********存储此.txt文件中每个单词并与分类文本的单词作比较*******/while((token=fgetc(fp))!=EOF){charkeyword[1024];i=0;keyword[0]=token;//将每个词第一个字符赋给数组第一个元素while((keyword[++i]=fgetc(fp))!=''&&keyword[i]!='\t'&&keyword[i]!=EOF&&keyword[i]!='\n');//开始读字符,直到遇到空白符,说明找到一个词keyword[i]='\0';//加结束符countAll++;if(strcmp(keyword,vocabulary[j])==0)//比较两个单词是否相同countSame++;}fclose(fp);}while(_findnext(hFile,&fileinfo)==0);}wordProbability*=(float)(countSame+1)/(float)(wordCount+countAll)*300;//计算∏P(wj|vi),为了扩大效果而*380}returnwordProbability;}/*============================计算每个类别的最终概率输出结果===============================*///@输入参数:分类文本中单词数voidCalculateProbability(intwordCount){/*********将类别表存储在二维数组中*********/FILE*fp;charclassList[10][20];//类别列表charch;//临时读取字符使用intindex=0;//classList的行标intclassName_c=0;//classList的列标if((fp=fopen("ClassList.txt","r"))==NULL){printf("Failedtoopenthefile:ClassList.txt.\n");}ch=fgetc(fp);while(ch!=EOF){if(ch!='\n'){classList[index][className_c]=ch;className_c++;}else{classList[index][className_c]='\0';index++;className_c=0;}ch=fgetc(fp);}/********计算总文本数和每个类别下的文本数、∏P(ai|vj)********/inttxtCount[10];//每个类别下的训练文本数intcountAll=0;//训练集中总文本数floatwordProbability[10];//每个类别的单词概率,即∏P(ai|vj)if(_chdir("F:\\SogouC\\Sample\\1"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[0]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[0];wordProbability[0]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\2"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[1]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[1];wordProbability[1]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\3"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[2]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[2];wordProbability[2]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\4"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[3]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[3];wordProbability[3]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\5"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[4]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[4];wordProbability[4]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\6"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[5]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[5];wordProbability[5]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\7"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[6]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[6];wordProbability[6]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\8"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[7]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[7];wordProbability[7]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\9"))//更改当前绝对路径printf("系统找不到指定路径!\n");else{txtCount[8]=CountDirectory();//获取该类别下.txt文件数countAll+=txtCount[8];wordProbability[8]=CalculateWordProbability(wordCount);//获取该类别下∏P(wj|vi)}if(_chdir("F:\\SogouC\\Sample\\10"))//更改当前绝对路径printf("系统找不到指定路
本文标题:基于朴素贝叶斯分类器的文本分类算法C语言
链接地址:https://www.777doc.com/doc-3412148 .html