您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 数据挖掘的10大算法
数据挖掘的10大经典算法1,Apriori算法•Apriori算法使用的是一种逐层搜索的迭代是方法•首先,通过扫描数据库,累计每个项的个数,并搜集满足最小支持度的项,形成频繁1项集L1。通过L1,在数据库中寻找频繁2项集L2,直至不能找到更多项的平凡项集。最小支持度为22%数据库中有9条数据,最小支持度就是9*22%=2扫描数据库根究最小支持度,得出频繁1项集C1.根据C1扫描数据库得到2项集C2,比较最小支持度,删除不频繁项,得到频繁2项集L2.根据排列组合,3项集应该如第一个集合显示的。如果基数很大的话,组合的数目应该很大。Apriori算法有个规则,如果一个k项集不是频繁项集,那么k+1项集也就不是频繁项集。根据频繁2项集排列组合得出中间的集合,然后扫描数据库,得出频繁3项集。每找一次频繁k项集就要扫描一次数据库,每次都会生成大量的候选项集。2,k-means•选取k个中心点•计算所有数据到中心点的距离(欧几里得距离),并把距某个中心点最近的点归到一类。•计算一个聚类里面的点的平均值,然后把平均值作为新的中心点•重复上面两步,直至收敛。在样本集中随机的选择两个中心点计算到中心点的欧几里得距离,把离同一个中心点最近的点归到一类中,计算聚类中点的平均值,作为新的中心点不停地迭代,直至中心点收敛为止,得到最终的聚类结果•需要提前估计K点,比较困难,选择的不好的话,聚类效果会受到一定的影响。•计算量大,时间消耗比较大。KNN,K最近邻分类法•一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类。•一个数据放到测试数据中,k=3时,计算欧几里得距离,最靠近测试数据的有3个点,红的2个,蓝的一个,我们就把测试数据归到红色的类中•k=5时,计算欧几里得距离,最靠近测试数据的有5个点,红的2个,蓝的3个,我们就把测试数据归到蓝色色的类中•当一个数据v过大时,通过公式v`=(v-min(a))/(max(a)-min(a))保证范围在[0-1]之间•计算量大,空间开销大,当样本不平衡时,在一定情况下,分类结果会出现误差4,NaïveBayes朴素贝叶斯P(A|B,C)=P(B|A)*P(C|A)*P(A)/(P(B)*P(C))•在计算概率的时候,如果某个属性出现的次数0,则在对应得属性出现次数上都加上15,CART•是基于决策树的一种算法,将当前样本集分为两个样本集,使得每个没叶子节点都有两个分支,所以CART算法生成的决策树都是二叉树6,C4.57,Adaboost•是一种迭代算法,核心是针对同一个训练集训练成不同的弱分类器,再把弱分类器组合成一个最终分类器。8,PageRank•PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。一个网页可能只有如链,而出链也是指向自己,这就可能导致最终迭代结果是该页面的pagerank值为1,其他为0一个网页可能只有如链,没有出链,这就可能导致最终迭代结果是所有页面的pagerank值为0•每一步,上网者可能都不想看当前网页了,不看当前网页也就不会点击上面的连接,而上悄悄地在地址栏输入另外一个地址,而在地址栏输入而跳转到各个网页的概率是1/n。假设上网者每一步查看当前网页的概率为a,那么他从浏览器地址栏跳转的概率为(1-a),于是原来的迭代公式转化为:9,最大期望EM•取对数似然函数的最大值,代入1,2迭代直至收敛10,SVM支持向量机•支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。
本文标题:数据挖掘的10大算法
链接地址:https://www.777doc.com/doc-3942439 .html