您好,欢迎访问三七文档
层次聚类的评价---共性分类相关系数(copheneticcorrelationcoeffieient,CPCC)一个聚类树的共性分类相关性是指由聚类树得到的共性分类距离与构造树时的原始距离(相异性)之间的线性相关系数,因此它是对聚类树在多大程度上代表了样本之间相异性的度量。MATLAB中,用cohenetic计算该相关系数,输入参数为pdist函数输出的样本对距离向量Y和由linkage函数输出的层次聚类树Z,相关系数越接近于1,说明聚类效果越好。该系数的计算公式为:其中,ijY是Y中样本i和j之间的距离,ijZ是Z(:,3)中样本i和j的共性分类距离,y和z分别是Y和Z(:,3)的平均值。聚类个数的选择Inconsistent函数用来计算层次聚类树矩阵Z中每次并类得到的链接的不一致系数,输入参数为linkage函数创建的聚类树矩阵Z和计算涉及的链接的层数d,可以理解为计算的深度,d省略时默认为2。输出参数为一个(n-1)*4的矩阵,第4列代表不一致系数。在并类过程中,如果某一次并类所对应的不一致系数较上一次有大幅增加,说明该次并类的效果不好,而它上一次的并类效果是比较好的,不一致系数增加幅度越大,说明上一次并类效果越好。在类的个数尽量少的前提下,可参照不一致系数的变化,确定最终的分类个数。如果最后3次聚类的不一致系数为3.1333,1.2083和2.5671,这说明倒数第一类并类的效果是比较好的,此时原样品被分为2类。聚类效果的评价聚类的有效性可以用凝聚度和分离度来衡量,凝聚度度量的是类中对象如何紧密相关,分离度度量的是某个类不同于其他类的地方。轮廓值(silhouettevalue)方法结合了凝聚度和分离度,它衡量的是某个点和所在类其它点的相似度与其他类点的相似度的比较,定义为min((,:),2)()()max((),min((,:)))biaiSiaibi其中,a(i)是第i个点与所在类中其他点的距离的平均值,b(i,k)是第i个点与另一个类k中的点的距离的平均值,S(i)是第i个点得轮廓值,值域在[-1,1]。我们不希望出现负值,因为负值表示点到类内点的平均距离a(i)大于点到其他类的最小平均距离min(b(i,:))。我们希望轮廓值是正的,越接近1越好,当轮廓值小于0时,明第i个点的分类不合理,还有比目前分类更合理的方案。我们可以简单地取类中点得轮廓值的平均值,计算类的平均轮廓系数。通过计算所有点的平均轮廓系数,可以得到聚类优良性的总度量。MATLAB中通过silhouette函数来计算每个点得轮廓值并用图形演示,输入参数为样本观测值矩阵X和聚类结果Class,可画出轮廓图。不同的聚类方法结果都可以用该指标进行评价。
本文标题:层次聚类的评价
链接地址:https://www.777doc.com/doc-7770337 .html