您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 数据挖掘与Clementine使用培训(电信)
数据挖掘与Clementine使用培训北京瑞斯泰得数据技术开发有限公司2019/9/17BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385一、数据挖掘概述•什么是数据挖掘•数据挖掘的实现路线和流程•数据挖掘方法论——CRISP-DMBeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385为什么进行数据挖掘?商业观点•业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值–客户信息数据–客户交易行为数据–客户反馈数据–网络数据–……•计算机变得越来越便宜、功能却越来越强大•商业竞争越来越激烈,对客户了解越多就意味着机会越大BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385为什么进行数据挖掘?技术观点•业务中的数据量呈现指数增长(GB/小时)•传统技术难以从这些大量数据中发现有价值的规律•数据挖掘可以帮助我们从大量数据中发现有价值的规律0500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999TheDataGapTotalnewdisk(TB)since1995NumberofanalystsFrom:R.Grossman,C.Kamath,V.Kumar,“DataMiningforScientificandEngineeringApplications”BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385一个市场营销的例子在数据中发现有价值的规则或者模式女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385一个市场营销的例子数据变的复杂会如何?女性对市场活动做出回应,老年男性也可能对市场活动做出回应BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385条规则:1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应……通过数据挖掘发现不回应的5条规则:1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应……BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385的客户发信,得到了90%的收益数据挖掘的意义BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000目的:发现新客户(使响应率从1%提高到1.2%)BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385什么是数据挖掘?•不同的定义–从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程–从大量数据中自动化(或者半自动化)的发现有价值规律的过程•数据挖掘的其他名称–数据库内知识发现(KDD-Knowledgediscoveryindatabases)–数据/模式分析–商业智能–人工智能–……BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385数据挖掘的起源•来源于机器学习/人工智能、模式识别、统计学和数据库•传统技术的局限性–巨量的数据–高维数据–数据分布不理想机器学习/模式识别统计学数据挖掘数据库系统BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385数据挖掘面临的挑战•海量数据•高维数据•数据复杂性•数据质量问题•数据所有权和分布•隐私问题BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385数据挖掘方法论—项目顺利实施的保证•商业理解•数据理解•数据准备•建立模型•模型评估•模型发布BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385商业理解商业理解数据理解数据准备建立模型模型评估结果发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385数据准备商业理解数据理解数据准备建立模型模型评估结果发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385数据挖掘模型的分类•数据描述和汇总(Datadescriptionandsummarization)•细分(Segmentation)•概念描述(Conceptdescriptions)•分类(Classification)•预测(Prediction)•相关分析(Dependencyanalysis)BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385数据挖掘的典型结果——金融•问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少•结果描述:(决策树)收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准BeijingStatsDataMiningCo.Ltd.■Beijing(8610)51722052■Shanghai(8621)53060345■Guangzhou(8620)38240385数据挖掘的典型结果——电信•问题描述:根据客户信息,预测客户流失可能性•结果
本文标题:数据挖掘与Clementine使用培训(电信)
链接地址:https://www.777doc.com/doc-978451 .html