您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 客户分类和识别潜在客户的方法(1)
975客户分类和识别潜在客户的方法在前一章,我们探讨了利用日常收集的客户数据来获取市场细分的方法。但同时存在许多情况,在试图开拓新型市场时,您更有可能将客户归入现有市场细分中或预定义类别。一般来说,这种要求在您已经运用专用客户信息来定义分类,而这些信息只对一小部分客户是可用的(如客户调查数据或客户忠诚卡信息)的情况下是必要的。您现在可能想将所有客户分成这些类别。但问题在于:凭借手上日常收集到的客户信息,您能把这些客户全部归类吗?或者,您可能已经依据日常收集的数据将客户进行了分类,现在还有一些能与现有客户或潜在新客户相链接的附加数据(如人口统计学数据)。您能单凭人口统计学数据就能发现潜在、能够创造利润的客户吗?本章我们将关注数据挖掘技术,以期能够解决这类问题。985.1业务需求在前几章中,我们探讨了如何从日常收集的数据获得客户细分的问题。凭借分群数据挖掘技术,我们能够明白对不同类型客户没有任何预先认识的情况下也可推断客户细分是如何成为可能的。这是我们在第27页3.3.1节“技术的类型”中所说的探索型数据挖掘的一个例子。我们还提供了现有业务规则细分,并且我们能够展示这些业务规则,即怎样才能将获得的细分映射到我们所发现的分群上。进行有效的映射需要在数个事务上聚集客户事务数据,通过识别号需要某些链接事务的工具。一个显而易见的问题是,是否能使用其它方法使客户与诸如业务规则细分等预定义类别相匹配?如果匹配,则能否应用于单个事务数据?回答是肯定的,我们用以实现该过程的数据挖掘技术称为分类,它隶属于总标题“预测性数据挖掘”。在您的零售机构中有大量用于分类的潜在应用。事实上,在任何已对客户进行分类(或您能想到的其它任何事)的情况下,您都可以使用分类来发现怎样用相关数据对其它客户进行分类,将它们归入相同的类别。有关该过程的示例是通过采用专用信息获得的现有客户细分,如客户调查或焦点人群。收集这种类型的信息往往代价昂贵,并且您可能仅能提供给小部分客户。您也可将对小部分客户有用的日常收集到的数据用于您所有的客户(如事务数据)。如果这些数据能用于决定一个客户从属于哪部分,则毫无疑问您也能用同样的数据为所有的客户进行分类。或者,您可能已通过使用日常收集的数据获得客户细分,就如我们在前一章所做的那样,但现在您想确定能与昀有赢利性的市场细分相匹配的潜在客户。在这种情况下,如果您能获得可用于现有和潜在客户相链接的外部数据(如人口统计学数据),您就可以根据人口统计学数据进行分类,以便确定现有客户的归属,然后用这种方法确定潜在客户是否属于昀有赢利性的细分?99无庸讳言,分类能用来做以上所有事情,但一般来说,该方法不可能100%正确地对所有客户进行分类。这个问题后来成为一个疑问:为了有效使用分类结果,您需要在确定客户属于哪类细分时抱有多大的信心呢?在下面的几个部分中,我们将向您讲述如何运用分类对客户进行归类,如何说明分类器的表现,昀重要的是提出建议以便指导怎样将结果应用到您的业务中,同时通过销售系统点及其它与客户打交道的部门,作为市场营销活动的指导。5.1.1解决方案大纲通用数据挖掘方法的第一阶段这部分也是首先将业务需求转化为可通过数据挖掘得以解决的一系列问题。在进行分类的情况下,可能会运用大量数据挖掘技术。难题在于要因地制宜,为解决该业务需求确定一项昀合适的技术。所有的数据挖掘分类技术都可以构造出数据的数学表述,将客户不同性质的相关变量与已指派给小部分客户的预定义类别联系起来。我们称该数学表述为分类模型。在本章将描述的示例展示了如何构建这种模型,然后将展示其对尚未预定义的客户进行分类。该预定义类别可以是您所选的任何项,比如,我们已经描述过的客户细分,或盈利性类别,或甚至可以是客户会转而投到竞争对手一方的可能性。要阐述进行分类的方法,我们将使用用于忠诚卡客户的预定义业务规则细分,关于忠诚卡客户已在前几章中定义。我们已经知道,如果使用聚集NRS,那么这些客户可被成功地映射到业务规则细分中。我们的问题是:我们能否使用单个销售事务点的数据做同样的事情?如果能,那么因为我们拥有用于所有客户的信息,而不仅仅限于持有忠诚卡的客户,就可以用分类模型在销售点上为全部客户分类,并向他们提供适当的建议。数据挖掘技术能用以决定应该提供什么样的建议,这是第137页第六章所表达的主题“应该向客户推荐哪些产品?”。100要构建分类模型,首先有必要获得已指派给业务细分的客户组数据。我们称这组客户为“训练组”。我们所掌握的该组客户数据将分成我们用以开发分类模型的“训练数据集”,以及用以验证模型的“测试数据集”。在我们的示例中,所需数据是个体事务处理记录,但这与人口统计学数据或能从用于训练组和您想分类的客户组获得的其它信息一样简单。我们称该第二组客户为“目标组”。我们所掌握的目标组数据的类型与训练组的类型一样,但对这些客户我们没有预定义业务类别。我们称这类型数据为“操作数据”,因为这种类型数据是我们在将分类模型应用到业务上时要用到的。分类概念是,我们用客户的训练组构建分类模型,然后用该模型对目标组中的客户进行分类。下图是5-1的示意图。图5-1培训、测试及申请应用分类模型5.2要使用的数据“通用挖掘方法的第二阶段”将确定要用于构建分类模型的数据。在此示例中,我们运用第53页4.2.2节“推荐数据模型”描述的CLA和TLA两种数据模型构建用来将客户归类到预定义业务规则细分的分类模型中。101因为我们的训练组客户昀初是使用CLA模型聚集的NRS被指派到业务细分的,因而我们首先运用数据挖掘分类技术来展示这些数据是如何很好地支持昀初所作的分类。然后使用TLA模型展示目标组客户在单个事务限制使用NRS时是如何很好地将其归到相同的业务细分的。创建分类模型需要扩展CLA和TLA数据模型。在这两种情况下,在训练组中的每个客户记录必须包含业务细分标签,然后才能成为分类的目标变量。同时也有必要创建一些附加变量,以供一些分类模型使用。这些附加变量来自于业务细分,每个附加变量对应相应的业务细分类别(如,一般购物者变量,家庭购物者变量)。如果业务细分标签与变量名称匹配,则每个新变量的值均设置为“1”,如果不匹配,则设置为“0”。当讨论分类模型的构造时,我们使用术语“目标变量”来称呼那些新变量。修改过的CLA和TLA数据模型的结构如图5.2所示:图5-2CLA和TLA数据模型表的结构5.3初始化并预处理数据如果您已经准备好初始化数据以开始细分,则您无需任何附加信息就可以开始通用数据挖掘方法的第三阶段。然而,如我们已经讨论过的,构造分类模型需要创建两个单独的训练组客户数据示例——训练数据集和测试数据集。这需要采取一些特定的预处理步骤。5.3.1创建训练及测试数据集训练集用于开发初始模型。当建立模型后,测试数据集通过测量通常术语称之为“隐性数据”的性能进行验证模型。验证的关键部分是检测看是否出现了未知的“超负荷”现象。超负荷是指只能与训练数据相适应,但无法适应其它数据集的情况。102分层采样如果您拥有大量客户,并在不同细分中客户数目有很大变化的情况下,那么有时需要您在现有的全部数据中进行采样,以开发测试及训练数据集。在这些情况下,在每个细分或类别的客户记录中按一定比例采样是很重要的。该技术称为分层采样。在某些情况下,虽然单个细分或类别名称已被指派到一组客户中,但该细分中客户特点仍存在显著差异。我们在先前第四章中的一般购物者细分的示例中已见过此种状况。在这些例子中,通过首先在某时分群全部来自一个类别的客户,然后再从每个群集中采样。在客户细分并不均匀的情况下,该分层采样比较先进,已证实该分层采样可使分类性能得到显著提高。提示:诸如IMforData这样的数据挖掘产品具有诸多优势,您可挖掘所有数据,在此情况下,可无需分层采样。均衡样本存在一个一般性误解,使得开发分类模型前必须创建所谓的“均衡样本”。该误解主要来自于下述观点,如果在特定的类别或细分中,客户数目记录存在巨大变化,那么有必要通过从每个类别或细分中创建包含相同数目的客户采样标本予以补偿。正如我们将要展示的那样,分类器模型可生成一个输出,其可评估客户从属于某个特定类别的可能性。如果训练组是您客户的典型样本,无任何理由对某个细分或类别特殊对待,那么也就无创建均衡样本的理由。通过考察样本示例,您就可以全面了解其中的情况。想象一下,就其NRS而言,所有客户均具有相同特征,但您却已利用其它信息将其分配到细分和类别中。如果您试图通过NRS数据为这些客户分类,那么很明显,客户相互之间很难分辩彼此。那么他们从属于某特定细分的可能性就是昀初指派到细分中客户数量与客户总数量之比(如果90%的客户是一般购物者,如果在其它量不变化的情况下,客户随机选取一般购物者的可能性比率仍然还是90%)。如果您已使用均衡样本,分类器可能会得出结论,认为可能性对于所有细分(与细分数量成反比)来说都是相等的,这根本就不是一回事。103正常情况下,只有在您知道客户总数,并且训练组本身就是细分和类别的不均衡表现时才可使用均衡样本。例如,您可能知道在客户总数中,每个类中的客户数均相等,但在训练组中,由于某些采样原因样本分布不均匀。在这种情况下,均衡采样可用于解决均衡问题。在其它情况下,均衡可能是适当的,则其风险在于把客户错误地分类到一个类别中,而不是别的什么原因,这点对您来说非常重要。这个问题通过采用称为“出错加权”步骤也能够得以解决,我们将在第104页5.5节“挖掘技术”中探讨分类器的不同类型时详述该问题。在我们举的数据集示例中,因为可挖掘所有数据,故而不需要任何分层采样。我们也知道训练组是客户总数的典型性样本,并且由于在此阶段,我们没有理由特殊对待某一组客户,无需任何形式的均衡样本。因此,可以通过随机分解数据开发测试和训练集,如可以在训练数据集中分解50%的训练组客户,另外的50%则在测试数据集中分解。您需要仔细考虑下列有关预处理步骤的重要事项:与您将使用结果模型进行分类的客户相比,客户的训练组如何具有典型性?您将如何使用分类结果?一个类别是否会比另一个更重要?5.4评估数据数据评估包括运用丢失值、溢出值和多余变量的解决问题。这是通用挖掘方法的第四阶段。因为我们正使用与第四章一样的数据模型,所以应遵循第63页中4.4节“评估数据”所涉及的相同程序。104大部分分类模型对密切相关的特征变量是非常敏感的,因此用我们在第63页4.4节“评估数据”中所描述的步骤去移除或结合这种变量,需根据您将采用的分类技术类型仔细考虑。相关原因将在下一章节讨论。评估阶段的一个重要部分是确保检验和训练数据集准确反映全部客户数据集的统计特征。确认是否正确分割数据的一种好方法是使用单变量统计检查这些数据集(平均值、标准偏差和众数值)的统计,并检查测试与训练集的统计是否仍然与整个数据集统计相匹配。5.5挖掘技术通用数据挖掘方法的第五阶段不仅可确定并选取我们将要使用的适当数据挖掘技术,还将决定针对具体业务需求如何应用这些方法。如果进行客户分类,可以采取多种不同的数据挖掘技术。要决定哪种技术是昀合适的,需要了解不同技术是如何构建分类器模型以及如何对其进行翻译的。本章节将探讨您可能用到的一些技术,以及如何应用它们。5.5.1挖掘技术的分类在进行客户分类时,通常要使用多种技术,然后将结果进行比较或结合,以获得昀佳的整体分类。这样做是因为不同的技术使用不同的方法执行分类任务,正如前一章的分群技术,这在执行中将会导致变化。以下是一些昀常用的技术:决策树神经网络径向基函数在此,我们使用两种具有很大差别的技术:决策树和RBF分类器。决策树的主要优点是可提供良好的性能。其能够执行多重分类,所得结果昀接近,并相对容易解释。相比之下,RBF技术通常提供较好的性能,但结果不容易解释,而且一个类别只能执行一次分类。关注这两种不同方法的原因是要阐明其不同之处,以描述在创建分类模型时将采取的步骤,并展示如何把两种分类技术的结果联系在一起,增加您对昀终结果的信心。1055.5.2决策树分类器决策树分类器是从客户记录的训练数据集中,通过不断地将客户分成更小的组构建而成的
本文标题:客户分类和识别潜在客户的方法(1)
链接地址:https://www.777doc.com/doc-1532181 .html