您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 叶志伟数据挖掘实验指导书(算法编程部分)
《数据挖掘与数据仓库》实验指导书2013年计算机学院计算应用实验1Apriori算法实现一、实验目的1、掌握Apriori算法对于关联规则挖掘中频繁集的产生以及关联规则集合的产生过程;2、根据算法描述编程实现算法,调试运行。并结合相关实验数据进行应用,得到分析结果。数据和删除数据的操作。实验类型:综合计划课间:2学时二、实验内容1、频繁项集的生成与Apriori算法实现;2、关联规则的生成过程与Rule-generate算法实现;3、结合样例对算法进行分析;三、实验步骤编写程序完成下列算法:1、Apriori算法输入:数据集D;最小支持数minsup_count;输出:频繁项目集LL1={large1-itemsets}For(k=2;Lk-1≠Φ;k++)Ck=apriori-gen(Lk-1);//Ck是k个元素的候选集Foralltransactionst∈DdobeginCt=subset(Ck,t);//Ct是所有t包含的候选集元素forallcandidatesc∈Ctdoc.count++;endLk={c∈Ck|c.count≧minsup_count}EndL=∪Lk;2、apriori-gen(Lk-1)候选集产生算法输入:(k-1)-频繁项目集Lk-1输出:k-频繁项目集CkForallitemsetp∈Lk-1doForallitemsetq∈Lk-1doIfp.item1=q.item1,p.item2=q.item2,…,p.itemk-2=q.itemk-2,p.itemk-1q.itemk-1thenbeginc=p∞qifhas_infrequent_subset(c,Lk-1)thendeletecelseaddctoCkEndReturnCk3、has_infrequent_subset(c,Lk-1)功能:判断候选集的元素输入:一个k-频繁项目集Lk-1,(k-1)-频繁项目集Lk-1输出:c是否从候选集中删除的布尔判断Forall(k-1)-subsetsofcdoIfNot(S∈Lk-1)THENreturnTRUE;ReturnFALSE;4、Rule-generate(L,minconf)输入:频繁项目集;最小信任度输出:强关联规则算法:FOReachfrequentitemsetlkinLgenerules(lk,lk);5、Genrules递归算法:Genrules(lk:frequentk-itemset,xm:frequentm-itemset)X={(m-1)-itemsetsxm-1|xm-1inxm};Foreachxm-1inXBEGINconf=support(lk)/support(xm-1);IF(conf≧minconf)THENBEGIN输出规则:xm-1-(lk-xm-1),support,confidence;IF(m-1)1)THENgenrules(lk,xm-1);END;END;结合相关样例数据对算法进行调试,并根据相关实验结果对数据进行分析,四、实验报告要求1、用C语言或者其他语言实现上述相关算法。2、实验操作步骤和实验结果,实验中出现的问题和解决方法。五、注意事项1、集合的表示及相关操作的实现;2、项目集的数据结构描述;参考核心代码如下:(相关的测试main函数可以自己书写。根据频繁k项集生成关联规则相对简单,只需要计算最小置信度即可从频繁K项集中找到所有的满足条件的关联规则。)//对事物进行第一次扫描,生成频繁一项集,并返回一项集中个数intinit_pass(char*item,chartran[len_t][len],intlen,charres_item[len_t][len],floatmin_sup){floatt_sup;intnumber=0;for(inti=0;ilen;i++){intcount=0;for(intj=0;jlen_t;j++){for(intk=0;klen;k++)if(item[i]==tran[j][k]){count++;break;}break;}t_sup=count*1.0/len;if(t_sup=min_sup)res_item[number++][0]=item[i];}returnnumber-1;}//生成候选K项集,返回k项集中事物的个数intcandidate_gen(charktran[len][k],charkktran[len][k+1]){chartemp[k],temp1[k],ktemp[k+1];intnumber=0;for(inti=0;ilen;i++){strcpy(temp,ktran[i]);boolflag;for(j=i+1;jlen;j++){strcpy(temp1,ktran[i]);for(intm=0;mk;m++){if((mk-1&&temp[m]==temp1[m])||m==k-1){continue;flag=true;}else{flag=false;break;}}if(flag){if(temp[k-1]temp1[k-1]){strcpy(ktemp,temp1);ktemp[k]=temp[k-1];}else{strcpy(ktemp,temp);ktemp[k]=temp1[k-1]}break;}}flag=judge(kemp,ktran[len][k]);if(flag==true)strcpy(kktran[number++],ktemp);}returnnumber-1;}//判断子集是否在k项集中booljudge(char*srcstr,chardesstr[len][k]){chartemp[k];intcount=0;for(inti=0;ik-1;i++){for(intj=0;ji;j++)temp[j]=srcstr[j];for(intj=i+1;jk+1;j++)temp[j]=srcstr[j];for(intp=0;plen;p++)if(strcmp(temp,desstr[i])==0){count++;break;}}if(count==k-1)returntrue;returnfalse;}//apriori算法intapriori(charitem[len],chartran[length][len],charres_tran[length][len],floatmin_sup){charttran[length][len];intnumber,count,t_num;for(inti=0;ilength;i++)for(intj=0;jlen;j++)ttran[i][j]='0';number=init_pass(item,tran[length][len],len,ttran[length][len],min_sup);for(inti=0ilength;i++)res_tran[i][0]=ttran[i][0];for(intk=2;number!=0;k++){t_num=number;number=candidate_gen(res_item[number][k-1],ttran[number][k]);if(k==2)continue;else{count=0;for(inti=0;inumber;i++){chartemp[k];strcpy(temp,ttran[i]);boolt_flag=false;for(intj=0;jlength;j++){//求出候选K项集中每个事物的支持计数intt_k=0;for(intn=0;nk;n++){boolm_flag=falsefor(intg=t_k;glen;g++){if(temp[k]==tran[j][g]){m_flag=true;t_k=g;break;}}if(m_flag==true&&n==k-1)t_flag=true;}if(t_flag==true)count++;flag=false;}if(count/lengthmin_sup)strcpy(res_item[i],temp);count=0;}}}returnt_num;}实验2-1ID3算法实现一、实验目的通过编程实现决策树算法,信息增益的计算、数据子集划分、决策树的构建过程。加深对相关算法的理解过程。实验类型:综合计划课间:4学时二、实验内容1、分析决策树算法的实现流程;2、分析信息增益的计算、数据子集划分、决策树的构建过程;3、根据算法描述编程实现算法,调试运行;三、实验方法算法描述:以代表训练样本的单个结点开始建树;若样本都在同一个类,则该结点成为树叶,并用该类标记;否则,算法使用信息增益作为启发信息,选择能够最好地将样本分类的属性;对测试属性的每个已知值,创建一个分支,并据此划分样本;算法使用同样的过程,递归形成每个划分上的样本决策树递归划分步骤,当下列条件之一成立时停止:给定结点的所有样本属于同一类;没有剩余属性可以进一步划分样本,在此情况下,采用多数表决进行四、实验步骤1、算法实现过程中需要使用的数据结构描述:Struct{intAttrib_Col;//当前节点对应属性intValue;//对应边值Tree_Node*Left_Node;//子树Tree_Node*Right_Node//同层其他节点BooleanIsLeaf;//是否叶子节点intClassNo;//对应分类标号}Tree_Node;2、整体算法流程主程序:InputData();T=Build_ID3(Data,Record_No,Num_Attrib);OutputRule(T);释放内存;3、相关子函数:3.1、InputData(){输入属性集大小Num_Attrib;输入样本数Num_Record;分配内存Data[Num_Record][Num_Attrib];输入样本数据Data[Num_Record][Num_Attrib];获取类别数C(从最后一列中得到);}3.2、Build_ID3(Data,Record_No,Num_Attrib){IntClass_Distribute[C];If(Record_No==0){returnNull}N=newtree_node();计算Data中各类的分布情况存入Class_DistributeTemp_Num_Attrib=0;For(i=0;iNum_Attrib;i++)If(Data[0][i]=0)Temp_Num_Attrib++;IfTemp_Num_Attrib==0{N-ClassNo=最多的类;N-IsLeaf=TRUE;N-Left_Node=NULL;N-Right_Node=NULL;ReturnN;}IfClass_Distribute中仅一类的分布大于0{N-ClassNo=该类;N-IsLeaf=TRUE;N-Left_Node=NULL;N-Right_Node=NULL;ReturnN;}InforGain=0;CurrentCol=-1;Fori=0;iNum_Attrib-1;i++){TempGain=Compute_InforGain(Data,Record_No,I,Num_Attrib);If(InforGainTempGain){InforGain=TempGain;CurrentCol=I;}}N-Attrib_Col=CurrentCol;//记录CurrentCol所对应的不同值放入DiferentValue[];I=0;Value_No=-1;WhileiRecord_No{Flag=false;For(k=0;kValue_No;k++)if(DiferentValu[k]=Data[i][CurrentCol])flag
本文标题:叶志伟数据挖掘实验指导书(算法编程部分)
链接地址:https://www.777doc.com/doc-1836885 .html