您好,欢迎访问三七文档
2019/7/311引言业务管理子系统分析管理子系统协作管理子系统应用集成子系统部门级协同级企业级CRM业务管理系统客户数据库的设计和利用客户互动中心EAI,成功实施CRM数据挖掘流程优化与工作流管理CRM四大技术三个层级后续各章2019/7/312第八章商业智能与数据挖掘技术第一节概述第二节关联规则挖掘第三节决策树挖掘技术第四节市场细分与聚类分析2019/7/313第一节概述一、商业智能1、概念:是对商业信息进行加工处理、帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合。2、目标:决策能力、运营能力的提高。①对各种业务系统的多数据源数据进行整合②面向主题的多维度分析③面向高层决策者的快速、及时、正确的决策分析④为各层决策者服务的即时查询⑤对业务模型的深层次分析与预测2019/7/3143、商业智能与数据挖掘2019/7/315惠普公司2007/11表示:正在寻找数据管理软件和商业智能软件公司,交易额可能达3-5亿美元,也可能为50亿-100亿美元。赛门铁克是全球最大的数据管理软件公司之一。2005年,赛门铁克通过并购Veritas进入该市场。在商业智能软件市场,2007年已有过多起并购交易:如IBM并购Cognos,SAP并购BusinessObjects,Oracle并购Hyperion。消息:Oracle2007/4/18以29亿美元收购商业智能软件商HyperionSolutions。它将该公司软件与自己的商业智能和分析工具软件整合起来,以提高客户的规划、预算、运营分析等管理能力。2019/7/316二、商业智能体系的构成1.理论基础,如CRM中的八大理论2.三项技术:数据仓库和数据集市产品,OLAP工具,数据挖掘软件3.应用界面:终端用户查询和报告工具2019/7/318三、数据挖掘概念1.定义:DM就是应用一系列技术从数据仓库中提取人们感兴趣的信息——概念、规则、规律、模式。它是深层次的数据分析,是分析型CRM的核心。DataMiningistheapplicationofartificialintelligence(AI)techniques(Neuralnetwork,fuzzyLogic,geneticarithmetic,etc)tolargequantitiesofdata,todiscoveryhiddentrends,patterns,andrelationships---MetaGroup2019/7/3192.DM与KDD(知识发现)的关系。•KDD:Knowledgediscoveryindatabaseisthenon-trivialprocessofidentifyingvalid,novel,potential,useful,andultimatelyunderstandablepatternindata.•等价:人工智能领域习惯称知识发现,数据库领域称DM。•核心:把DM当作KDD的最核心部分。2019/7/31121.市场营销:预测顾客购买行为,划分顾客群体。2.银行业:侦测欺诈行为;客户信誉度分析。3.零售业:预测销售额;决定库存量,批发点分布。4.制造业:预测机器故障;发现生产力的关键因素。5.经纪业和安全交易:预测债券价格、确定交易时间。6.电信:评估客户群;综合效益分析;网络性能评估。7.经营管理:评估客户信誉、部门业绩、员工业绩等。四、DM的应用2019/7/31131.技术部要求:就某钢种找到一组生产条件,通过调整化学成分或轧制参数,提高断裂延伸率,降低抗拉强度。2.数据预处理:从数据集市中,找出15000条质量记录。3.DM方法:聚类分析。4.结论:(1)钢材两项性能指标与温度和两种元素含量有关。(2)增加该两项元素含量可实现两项目标。5.效益:技术部工程师建议:(1)结合工程现状,保持温度不变。(2)将某一元素(成本高)减少50%以降低成本。(3)另元素含量客户需求加调整。例:宝钢的DM2019/7/3114五、DM技术的分类1.根据发现的知识种类分类(1)总结(summarizing):概括数据,做一般性结论(2)特征(characteristics):描述数据的分布特征。(3)分类(Classification):生成一分类函数或分类树。(4)聚集(Clustering):聚集和分类的区别。(5)数据可视化(DescriptionandVisualization)(6)关联规则(associationrules)(7)序列分析(SequenceAnalysis)(8)偏差分析(DeviationAnalysis)2019/7/3117六、DM在CRM中的作用1、发现最有价值客户和新客户2019/7/31182、使交叉销售更有效率2019/7/31193、客户保持:客户流失预警模型个性化营销和服务2019/7/31204、欺诈发现返回2019/7/3122五、DM的流程(一)一般流程数据准备数据挖掘结果表达和解释转换数据预处理后的数据数据准备数据挖掘结果表达和解释数据预处理数据选择目标数据数据集成数据源数据转换数据挖掘模式结果表达和转换知识数据2019/7/3125(二)CRISP-DM流程简介1、CRISP-DM是CRoss-IndustryStandardProcess-DataMining的缩写,由SPSS、NCR、Daimler-Benz在1996年制定,是数据挖掘的标准之一。2、CRISP-DM过程:2019/7/31261.商业理解2.数据理解3.数据准备4.建立模型5.模型评估6.模型发布返回2019/7/3128第二节关联规则(associationrules)Old=MotoV730Female&Young=SiemensMinnie8008一、实例与问题实例1:关联规则让繁杂的数据指示重要信息.2019/7/3129实例2:某商店出售数码商品:DellD820,SonyBX145,SonyFJ68C,HP1010,HP4300,CanonLBP5200,CanonEOS-20D,CanonIXUS700,SonyDSC-V3。记录如下:购买规律?2019/7/3130商品间不存在关联规则品牌间存在着关联规则2019/7/3131实例3:购物篮里有什么?事务项T100I1,I2,I5,I3T200I2,I4,I1T300I2,I3,I5T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3顾客购物篮中各种商品之间的关系:如买牛奶,也购买面包的可能性有多大?买铁锤的顾客中有多少人同时也买铁钉?数学表达:设事务数据库中有9个事务,如右图。试按最小支持度2次、最小可信度70%的标准寻找关联规则。2019/7/31321.项集:项的集合称为项集。设I={Iı,I2,..,In}是一个项集,其中Ii(i=1,2,3,…,n)可以是购物篮中的一物品,或保险公司的顾客。K项集---包含K个项的项集被成为K项集。2.事务:事务是项的集合,设有事务T,则TI.对应每个事务有唯一的标识,如TID。又设A是I中项的集合,如果AT,则称A为事务T的子集。3.事务集:事务的集合称为事务集。设某事务集为D,则D={T1,T2,…,Tp},4.逻辑蕴涵:AB,其中A,B是项集,AI,BI,A∩B=Ф。二、基本概念2019/7/3133设A,B是项集,对于事务集D,A∈D,B∈D,A∩B=Ф,则5.置信度(Confidence):反映在出现项集A的事务集D中,项集B也同时出现的概率。例如买牛奶顾客中有80%也购买面包,则(牛奶面包)的置信度为80%。6.支持度(Support):描述了A和B这两个项集在所有事务中同时出现的概率。例如某商场某天共有1000笔业务,其中有100笔业务同时买了牛奶和面包,则(牛奶面包)的支持度为10%。两种形式:相对数、绝对数。的事务数包含的事务数和包含:置信度=ABABA事务总数的事务数和包含:支持度=BABA2019/7/31347.关联规则:同时满足最小支持度阈值和最小可信度阈值的逻辑蕴涵式:AB8.寻找强关联规则的步骤(Apriori算法):(1)寻找事务数据库中所有的频繁项集支持度大于最小支持度的项集称为频繁项集。(2)在所有频繁集中寻找强关联规则a.用每一频繁集生成所有逻辑蕴涵式;b.计算每一逻辑蕴涵式的置信度,并判断是否超过阈值。2019/7/313510.关联规则的种类:(1)根据变量类型分为布尔型和数值型。布尔型考虑的是项集是否存在;而数值型则是量化的关系。例如:性别=“女”职业=“秘书”布尔型性别=“女”avg(收入)=2300数值型(2)根据数据的维数分为单维和多维。单维关联规则,只涉及到数据的一个维度,如用户购买的物品。多维关联规则涉及到多个维度。例如:啤酒尿布单维↘↙(物品)性别=“女”职业=“秘书”多维↘↙(性别和职业)2019/7/3136(3)根据是否允许同一维在规则的左右方同时出现,多维关联规则:维间关联规则(不允许)混合维关联规则(允许)年龄(X,“20...30”)∧职业(X,“学生”)==购买(X,“笔记本电脑”)。年龄、职业、购买,没有一个维是重复出现的,故是维间关联规则。年龄(X,“20...30”)∧购买(X,“笔记本电脑”)==购买(X,“打印机”)。年龄、购买,且购买出现过两次,故是混合维关联规则。2019/7/3137三、计算实例P215四、软件实现返回2019/7/3138一、实例ageincomestudentcredit_ratingbuys_computer=30highnofairno=30highnoexcellentno30…40highnofairyes40mediumnofairyes40lowyesfairyes40lowyesexcellentno31…40lowyesexcellentyes=30mediumnofairno=30lowyesfairyes40mediumyesfairyes=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes40mediumnoexcellentno第三节决策树购电脑贷款决策树age?30--40creditrating?noyesfairexcellent=3040nonoyesyesyes根:X根节点、属性枝属性值第二层节点枝属性值叶节点(目标变量)student?2019/7/3140问题:某公司根据以往的销售经验,整理出了关于是否给予客户销售折扣的记录,如表所示。试根据这些记录,运用ID3算法:计算目标变量“是否给予折扣”的信息熵;通过计算确定在根节点上的分割变量;2019/7/3141二、基本概念1.决策树:通过一系列规则对数据进行分类的工具。特点:将数据的分类规则可视化。2.用途:提取分类规则,进行分类预测。例如,金融领域将贷款对象分为低贷款风险与高贷款风险。用决策树可判定申请者是属于哪一类。比如,某人月收入4000元,尽管申请“高贷款”,却被认为属于“低风险”人群。某人月收入1000元,工作年限5年,却属于高风险人群。2019/7/31423.基本思路:决策树构建算法output训练样本集决策树input2019/7/31434.决策树的六要素一个根结点,上有属性(分割变量)若干个枝节点,每一节点代表一个数据集。每节点下有若干条分枝。每个分枝代表分割变量的一个取值(属性值)。最终的节点叫叶节点,表示一个分类(目标变量的一个取值)。2019/7/3144三、实施决策树的过程1.构造数据集市2.数据预处理:离散化、概化3.建立相关属性集4.建立模型–实施分类(ID3)–提取分类规则–评估与修剪:去掉一些可能是噪音或者异常的数据5.使用模型进行分类2019/7/3145
本文标题:CRM-8
链接地址:https://www.777doc.com/doc-3452 .html