您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > Clementine数据挖掘入门及实战sysu
Clementine数据挖掘入门及实战■Shanghai(8621)53060345■Guangzhou(8620)382403850数据挖掘与SPSSModeler(Clementine)使用目录数据挖掘概述CLEM基本操作建模技术•从整体上了解解数据挖掘-数据挖掘介绍-数据挖掘价值-数据挖掘产品•掌握CLEM常用建模技术-基本建模技术-神经网络-规则归纳-模型比较与合并-KOHONEN网络-关联规则-时序分析实战练习•可初步开展数据挖掘工作-购物蓝分析-时序购买分析-药品使用规则分析-····*根据前面的数据,练习数据分析挖掘过程•掌握CLEM的基本操作-CLEM简介-读取数据文件-数据质量-数据处理介绍-寻找数据之间的关系数据挖掘概述数据挖掘介绍数据挖掘价值数据挖掘产品•不同的定义–从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程–从大量数据中自动化(或者半自动化)的发现有价值规律的过程–按既定业务目标,对大量的企业数据进行探索,揭示隐藏其中的规律性,并进一步将其模型化的先进、有效的方法。什么是数据挖掘?•数据挖掘的其他名称–数据库内知识发现(KDD-Knowledgediscoveryindatabases)–数据/模式分析–商业智能–人工智能–……统计学数据挖掘的起源•来源于机器学习/人工智能、模式识别、统计学和数据库•传统技术的局限性–巨量的数据–高维数据–数据分布不理想数据库系统机器学习/模式识别数据挖掘为什么进行数据挖掘?商业观点•业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值–客户信息数据–客户交易行为数据–客户反馈数据–网络数据–……•计算机变得越来越便宜、功能却越来越强大•商业竞争越来越激烈,对客户了解越多就意味着机会越大为什么进行数据挖掘?技术观点•业务中的数据量呈现指数增长(GB/小时)•传统技术难以从这些大量数据中发现有价值的规律•数据挖掘可以帮助我们从大量数据中发现有价值的规律0500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999TheDataGapTotalnewdisk(TB)since1995NumberofanalystsFrom:R.Grossman,C.Kamath,V.Kumar,“DataMiningforScientificandEngineeringApplications”一个市场营销的例子在数据中发现有价值的规则或者模式女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关一个市场营销的例子数据变的复杂会如何?女性对市场活动做出回应,老年男性也可能对市场活动做出回应一个市场营销的例子数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发现回应的5条规则:1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应……通过数据挖掘发现不回应的5条规则:1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应……数据挖掘技术的分类数据挖掘描述预测统计回归关联规则决策树可视化聚类顺序关联汇总神经网络分类时间序列预测数据挖掘概述数据挖掘介绍数据挖掘价值数据挖掘产品数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000目的:发现新客户(使响应率从1%提高到1.2%)投入减少收益增加数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义利润分析图超额利润盈亏平衡加速亏损成功案例面临问题:怎样扩展和现有客户关系?怎么控制营销费用提升利润?解决方案:建立关联预测模型来发现交叉销售和翻滚销售机会。应用效果:产品销售提高50%营销费用减少30%面临问题:每天都要面临客户流失,怎样减少客户流失,特别是大客户的流失?解决方案:建立流失预警模型,提前识别出有流失倾向的客户,及时采取措施应用效果:降低了15-20%的客户流失率;增长10-20%的底线利润数据挖掘概述数据挖掘介绍数据挖掘价值数据挖掘产品SAS简介SAS(StatisticalAnalysisSystem)是世界上昀著名的统计分析系统之一,具有完备的数据访问、管理、分析和呈现功能,被誉为国际标准统计分析系统。功能(30多个模块):SAS/BASE:数据管理基本模块SAS/STAT:统计功能模块SAS/GRAPH:高分辨率图形模块SAS/ACCESS:数据库接口模块SAS/OR:规划与决策分析模块SAS/EM:企业数据挖掘……行业应用:电信银行业零售业咨询机构保险业医疗保健任何使用数据仓库的人数据访问转换抽样探索修改建模评估应用SEMMA分析流程SPSSMODELER简介SPSSModeler原名Clementine,是一个业界领先的数据挖掘平台。它帮助客户揭示了隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式和趋势,帮助人们改进决策过程。功能:强大的数据读取功能丰富的数据处理方法图形化的数据探索方式核心的数据挖掘算法简洁直观的模型评估多格式的数据导出灵活的产品部署性能卓越的三层体系架构行业应用:通信行业金融行业医药市场调研商业理解数据理解建立模型模型评估模型应用政府行业制造业教育科研连锁零售业和电子商务数据准备分析流程STATISTICA简介STATISTICA是一个优秀的统计分析软件包,包括统计分析、数据可视化、数据管理、数据挖掘等功能。它是一款可靠的商业分析软件,拥有20多年的历史,用户超过1百万。功能:BasicStatisticsandTablesMultipleRegressionMultivariateExploratoryAnalysisIndustrialStatistics&Six-SigmaDataMining……行业应用:AutomotiveManufacturingBankingChemical/PetrochemicalGovernmentAgenciesHedgeFundApplicationsInsuranceMarketingPowerIndustry(Energy&Utilities)Semiconductors……数据探索建模&评估模型应用确定业务问题AlpineDataLabs简介AlpineMiner是一个专注于“大数据”分析的分析软件,它提供可视化的分析过程,并使分析过程流程化。它一直在致力于为用户创造革命性、可扩展且具有成本效益的数据分析解决方案。特点:数据库内执行优秀的多算法支持对海量数据支持集成丰富的分析与挖掘功能直观图形界面灵活的导出和利用功能提供行业解决方案行业应用:政府银行保险零售科研媒体电子商务……抽样测试模型数据库内模型评分数据探索建立模型精炼模型模型发布目录数据挖掘概述CLEM基本操作建模技术•从整体上了解解数据挖掘-数据挖掘介绍-数据挖掘价值-数据挖掘产品•掌握CLEM常用建模技术-基本建模技术-神经网络-规则归纳-模型比较与合并-KOHONEN网络-关联规则-时序分析实战练习•可初步开展数据挖掘工作-双色球红球分析-购物蓝分析-时序购买分析-药品使用规则分析-····*根据前面的数据,练习数据分析挖掘过程•掌握CLEM的基本操作-CLEM简介-读取数据文件-数据质量-数据处理介绍-寻找数据之间的关系Clementine基本操作CLEMTINE简介读取数据文件数据质量数据处理介绍寻找数据之间的关系Clementine简介•内容–熟悉Clementine中的工具和面板–介绍可视化编程的思想•目的–初步了解Clementine的功能•数据–课程的数据文件存放在目录“\省行培训\”中Clementine用户界面数据流区域工具栏菜单栏选项板区节点数据流,输出和模型管理器项目窗口体验-可视化建模过程可视化编程•节点–一个图标代表在Clementine中进行的一个操作•工作流–一系列连接在一起的节点•选项板–包含一系列不同功能的图标选项板•源节点–用来将数据读入Clementine中•记录选项节点–在记录上进行操作–一条记录是一种“情形”或一“行”数据•字段选项节点–在字段上进行操作–一个字段是一个变量•图形节点–在建模之前和之后用来可视化数据•建模节点代表有效建模算法–注意:建模算法产生生成的模型在下面一部分…举例:•增加一个节点•移动一个节点•编辑一个节点•重新命名一个节点•复制一个节点•删除一个节点•注释一个节点•保存一个节点•重新载入一个节点•连接节点•删除节点连接•获得帮助增加一个节点•在选项板上双击节点,自动放置节点到数据流区域注意:它会自动地连接到“中心”节点•将节点从选项板拖放到数据流区域中•在选项板上点击一个节点,然后在数据流区域中点击一下未选择选择•当节点在选项板中被选中后,会变成淡蓝色编辑一个节点•在节点上右击,展开一个节点•点击“编辑”•在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作连接节点•使用鼠标中键来连接节点–在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程)•通过双击来连接节点–双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键未选中的节点(灰白色)被选中的节点(淡蓝色)删除节点之间的连接•在连接箭头的头部按住鼠标右键•选择“删除连接”关于连接节点:源节点•源节点是连接到初始数据源的节点•源节点只能发送数据•不能连接到一个源节点关于连接节点:终端节点•终端节点是生成输出、图形、表格和模型的节点•不能从终端节点连接到任何节点设置目录•为了方便地存取数据文件或流,您可以将目录设定为自己文件的位置•只在本次操作中起作用•通过选择菜单“文件”中“设置目录”选项,然后输入或选择工作目录Clementine客户端和服务器端•Clementine可以运行在客户端和服务器端两种模式下•默认的模式是客户端•在菜单“工具”中选择“服务器登录”•注意Clementine客户端和服务器端版本必须匹配帮助菜单•帮助主题•CRISP-DM帮助•教程–软件使用•辅助选项帮助–键盘代替鼠标操作•这是什么练习:熟悉Clementine的环境•熟悉Clementine的环境:–菜单–帮助•练习在数据流区域加入节点:–选择变项文件节点–从输出选项板中,选择表节点–连接两个节点–编辑变项文件节点–断开节点之间的连接–删除节点Clementine基本操作CLEMTINE简介读取数据文件数据质量数据处理介绍寻找数据之间的关系读取数据文件•内容–Clementine中可以读取的数据格式–读取文本数据文件–读取SPSS数据文件–使用ODBC读取数据库–查看数据–Clementine中的数据类型和字段方向–保存Clementine数据流•目的–介绍数据读入Clementine的一些方法Clementine中读取数据格式•文本文件•SPSS数据文件•ODBC兼容的数据库•SAS数据文件•用户输入文件文本文件•自由字段文本文件是包含分隔符(逗号、制表符、空格或一些其它字符)的数据文件,可以使用可变文件节点读取数据•如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定文件节点读取固定文本文件•样例数据–grantfraudN.db–Fix_telco_Feb.txt读取自由字段文本文件•添加
本文标题:Clementine数据挖掘入门及实战sysu
链接地址:https://www.777doc.com/doc-4604008 .html