您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 数据挖掘-作业1100300814-屈海滨
1、数据库系统中鲁棒的数据加载提出了一个挑战,因为输入数据常常是脏的。在许多情况下,数据记录可能缺少多个值,某些记录可能被污染(即某些数据值不在期望的值域内或具有不同的类型)。设计一种自动数据清理和加载算法,使得有错误的数据被标记,被污染的数据在数据加载时不会错误地插入到数据库中。答:数据加载的方法采用数据预处理,这主要处理错误数据被标记,在数据加载时进行聚类处理和关联规则处理,把整个数据记录空间进行聚类,将数据分成很多个簇,使相似度聚类阀值尽可能的大,这样就能找到很多孤立的点,这些点就是我们想要标记的错误或者异常数据记录。另外我们在采用关联规则进行数据扫描,首先生成最小置信度的关联规则表,然后寻找数据记录中不符合规则的数据记录,并将这些孤立的点进行标记,就是我们所要找的错误或异常数据。完成这项工作后我们还希望错误数据或者脏数据不会被插入到数据库中,那我们就要采取数据清洗这个过程,首先识别完原数据记录中的错误或者不一致数据,对其进行移除或者修正,在加载时就进行数据清洗,合并重复数据项,移除不符合规则或错误数据。然后再加载到数据库,相信脏数据会大大减少。2、假定大型事务数据库DB的频繁项集已经存储。讨论:如果新的事物集△DB(增量地)加进,在相同的最小支持度阈值下,如何有效地挖掘(全局)关联规则?答:如果在原来的数据库中有新的数局加入,那再次挖掘整体的数据关联规则,可以采取一种增量式的方法,主要实现如下:将原有的数据集记为D,新的数据集记为d,则新的事物数据集就是D+d。1)调用apriori算法对新的数据集d生成频繁项目集L(d);2)比较L(d)和原数据集的频繁项目集L(D),把二者相同的部分放入新的频繁项目集L(D+d)中;3)对于剩下的L(D)-L(d)中的频繁项目集l,就去扫描数据集d,获取在d中的支持度,然后根据原有在D的中的支持度,可以得到在D+d中的支持度,计算方式如下所示:Support(D+d)=(supportd*|d|+supportD*|D|)/(|D|+|d|)如果结果大于最小支持度阀值,将其放入L(D+d)中,否则放弃l为频繁项目集。4)对于L(d)-L(D)中的频繁项目集,扫描D,计算它在D的支持度,再根据它在d中的支持度,计算出l在D+d中的支持度,Support(D+d)=(supportd*|d|+supportD*|D|)/(|D|+|d|)如果结果大于最小支持度阀值,将其放入L(D+d)中,否则放弃l为频繁项目集。经过上面的四步就可以找到新的关联规则当新的数据集。
本文标题:数据挖掘-作业1100300814-屈海滨
链接地址:https://www.777doc.com/doc-2307685 .html