您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 实验报告--关联规则的挖掘
实验题目:关联规则挖掘1问题分析与基本概念关联规则挖掘寻找给定数据集中项之间的有趣联系。蕴含着一种假设:频繁出现的现象表征系统的某种行为,某种规律,而罕见的现象表征着系统的某种质变。对于本实验给定的数据集,是以英文26个字母和单引号和空格组成,由于是一段英文摘录,所以本关联规则挖掘实验对项集的选择是有序的,例如:把ab和ba认为是2种排列组合。2实验步骤2.1算法步骤(1)在第一次迭代中,每个项都是候选1-项集的集合的成员。简单扫描所有的事物,对每个项出现的次数计数。(2)设定最小支持度,确定频繁1-项集的集合。(3)每个候选项集都是由上一次的频繁项集生成,通过自然连接。(4)每个候选集的子集都应该出现在上一次的频繁项集中。(5)知道产生的候选集为空停止。2.2程序流程图3实验结果分析本实验设置最小支持度为4,由于实验结果比较多,此处只显示包括频繁9项集以后的结果。(项集是包括空格和单引号)频繁项集项集支持度计数9-频繁项集{ataminin}{amining}{datamini}{tamining}{thedata}7577410-频繁项集{atamining}{dataminin}{tamining}77511-频繁项集{atamining}{datamining}5712-频繁项集{datamining}5本实验数据是一段英文文摘,很明显都是以单词或者短语的形式出现,所以得到的频繁项集最终也是以单词或者短语的形式出现,从表格中可以看出9-频繁项集以及其之后的频繁项集都是以单词或者短语的一部分出现。从表格中我们还可以发现很多有趣的问题,对比11-频繁项集和12-频繁项集,datamining和datamining的支持度计数不一样。一个之后没有空格,一个带有空格。一般文摘中没有空格的都是句子或者一行的结尾处,也就是说datamining这个短语有2处是在句子或者一行的结尾。由于datamining这个短语出现的频度较高,我们也可以认为整个文摘所讲的内容主要是关于datamining的。4实验心得体会该算法显然耗费的时间和空间都是很大的,每次连接和剪枝都要消耗大量的时间,时间复杂度和空间复杂度都较高。由于该算法可能要生成大量的候选集,会重复的扫描数据库,导致时间和空间的浪费。Apriori算法采用的是逐层搜索的迭代方法,本实验设定了最小支持度阈值,从而也相对的减少了空间和时间复杂度。
本文标题:实验报告--关联规则的挖掘
链接地址:https://www.777doc.com/doc-2634720 .html