您好,欢迎访问三七文档
数据挖掘与决策支持王星wx99scy@sina.com.cnTel:86-10-62511333自我介绍王星,毕业于中国人民大学统计学院,获经济学博士学位。中国人民大学统计学院数据挖掘中心副主任,2003年曾赴台湾辅仁大学管理学院进修3个月。擅长SPSS\Clementine、SAS\EM等软件的使用,具备较强的市场研究和数据分析能力。《数据挖掘-客户关系管理的科学与艺术》的作者,该书于2004年1月出版,中国财政金融出版社。今天我们不得不生活在全球化和信息技术革命影响下的世界,企业要生存,只有两个选择:适应它或被他抛弃。——英特尔公司主席:安德鲁.格鲁夫课程目标1.数据挖掘的产生与发展2.数据挖掘与企业决策支持的关系3.数据挖掘的一些基本工具与算法4.数据挖掘流程5.数据挖掘软件1.数据挖掘的产生与发展数据?文字书籍,期刊,备忘录,…刊载/参考胶卷照片,其它影像广播,电视电话通讯数据库数据挖掘技术的由来从技术的角度来看:数据挖掘被称为继网络之后的下一个技术热点;从生产的角度来看:由于人工费用提升,产品和服务成本降低,管理和服务过程的信息化是必然的。从数据的管理和利用来看:单纯的存取功能不再适应,待管理的数据量正在以指数增长。–《纽约时报》由60年代的10~20版扩张至现在的100~200版,最高曾达1572版;《北京青年报》也已是16~48版;–国家图书馆有1000万册图书,一个公司就可能拥有这些数据;–统计流程控制通过成千上万个传感器不断读取和记录数据;–电话系统,网络系统一个月的记录可能需要1012条记录超过1000gigabyte。数据的突出特点产生的问题信息过量;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理。进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去十年中企业的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“广州分公司去年三月的销售额是多少?”关系数据库RDBMS,结构化查询语言SQL)ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“去年三月深圳的销售是多少?广州据此可得出什么结论?”联机分析处理OLAP多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘正在流行…“下个月广州的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司预测模式数据挖掘的演变过程机器学习类神经网络知识发现数据挖掘60年代70年代80年代90年代数据可以产生商业价值可以想象在老年杂志上登载怎样的广告?如何防止信用卡盗用?地质采矿婴儿纸尿布和啤酒的故事数据挖掘的定义.Dataminingisthenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata.—Fayyad.Dataminingistheprocessofextractingpreviouslyunknown,comprehensible,andactionableinformationformlargedatabasesandusingittomakecrucialbusinessdecisions.—Zekulin远古至今即存在数据挖掘月晕知风晚上起雾第二天晴天看到妈妈拿鞭子逃跑這些在我們的传统用法称之为:–经验法则数据挖掘--从大量数据中寻找规律技术,是统计学、数据库技术和人工智能技术等的综合。数据挖掘的功能分类:DecisionTree,NeuralNetworketc.推估:Regression&NeuralNetworketc.预测:DecisionTree,NeuralNetworketc.关联分组:GRI,Apriorietc.聚类:K-means&KohonenNetwork需要数据挖掘的5条理由–Largenumberofrecords(cases)(108-1012bytes)–Highdimensionaldata(variables)(10-104attributes)–Onlyasmallportion,typically5%to10%,ofthecollecteddataiseveranalyzed.–Datathatmayneverbeexploredcontinuestobecollectedoutoffearthatsomethingthatmayproveimportantinthefuturemaybemissing.–Magnitudeofdataprecludesmosttraditionalanalysis(moreoncomplexitylater).数据挖掘的重要性TechnologyReview杂志2002年公布改变未来的十项新兴趋势:1.–机器与人脑的接口2.–塑料晶体管3.–数据挖掘(Datamining)4.–数字权利管理5.–生物测量学(Biometrics)6.–语音识别处理7.–微光学技术(Microphotonics)8.–破解程序代码(Untanglingcode)9.–机器人设计10.–微应用流体学(Microfluidics)数据挖掘与数据查询表面知识(ShallowKnowledge):可以利用数据库查询语言找到–所有使用信用卡购买烤箱的某大型商场的客户列表。多维的知识(Multidimensionalknowledge):多表的连接操作–跨国电信公司的客户呼叫模式分析:话费清单,客户帐户数据等。隐藏的知识(Hiddenknowledge)–将不良风险的人和能按时还贷的人区分开来。地下知识(Deepknowledge)电信公司的长话业务数据分布数据挖掘与专家系统数据挖掘并不总是有效,特别没有优质的数据来源,数据挖掘可以被由一个或多个模仿专家解决问题的程序部分代替。专家系统数据数据挖掘工具知识,规则2.数据挖掘的应用数据挖掘客户分析析基分因其他保险客户证券客户银行客户电信客户零售客户•信用卡•储蓄卡•存折•按揭•借贷人类基因植物基因动物基因特殊群体基因•基因序列•基因表达谱•基因功能•基因制药………...数据挖掘在中国内地市场规模未来五年内将达百亿科学研究天文学:SKICAT基因工程:GRAIL,GeneID,Geneparser人类基因植物基因动物基因特殊群体基因•基因序列•基因表达谱•基因功能•基因制药………...商业领域的数据挖掘作为研发工具:制药业–predicttheeffectivenessofsurgicalprocedure–medicaltest–medication改进生产过程:6市场营销.客户关系管理.金融投资欺诈甄别EstablishedLoyalsShareofcustomersShareofprofits3%8%DevelopingLoyalsIDevelopingLoyalsIIBorrowingPotentialsMultipleaccountholdingiscommonLongrelationshiptimeHightransactionactivitiesHighphonebankingusageShareofcustomersShareofprofits9%44%Highestassetbalanceacrosssegments25%ofsegmenthashighbankassetsLiabilitieslowShareofcustomersShareofprofits12%13%HighestlevelofmultipledepositaccountholdingAverageaccountbalanceveryhighMeanageis45ShareofcustomersShareofprofits10%12%AllholdcreditcardsMosthaveloansinsmallamountsDepositbalancelow客户细分Web挖掘文档的自动分类帮助寻找用户感兴趣的新闻设计电子新闻和垃圾邮件过滤系统市场营销Marketing-who’slikelytobuy?Forecasts-whatdemandwillwehave?Loyalty-who’slikelytodefect?Credit-whichloanswereprofitable?Fraud-whendiditoccur?数据挖掘与决策支持业务数据交易数据外部数据数据仓库决策支持系统MarketingPhoneCentersalesIVR(MDBMS)数据分析顾客分析行销管理挑选客户名册产品分析应用系统客服行销3.数据挖掘的流程(6步法)如何定义有兴趣的模式从人口数据库中很容易得到如下的知识或规则:如果“某人的家庭角色是丈夫”=“此人的性别是男性”;Datamining=“garbagein,garbageout”?数据挖掘流程与美食制作芦笋百合六步之一:商业理解商业目标问题范围可能的解决方案以及各自的优缺点花费时间:20%~30%重要性:企业问题汇总问题说明目标/困难BQ1如何有效降低客户流失率?原有客户于优惠期满或合约到期后不再续约。希望月流失率由3%降低至1.5%。BQ2如何提升客户服务品质?1.客户满意度调查反映本公司服务品质有待提升2.业务及客服人员无法有效掌握客户信息1.希望将客户分级,以使提供个别化及差异性服务。2.建议建立电话客服中心(CallCenter)。3.建议导入客户关系管理系统(CRM)。电信行业几个重要的营销问题:•个别消费者•通话模式•高利润的服务六步之二:数据理解数据概念描述(格式等);收集数据;数据探索性研究;花费时间:20%~30%重要性:通话明细数据可以从以下几个渠道获得:•直接交换机记录(directswitchrecording)•计费系统的输入数据(inputsintothebillingsystem)。•数据仓储提供的基础数据(Datawarehousefeeds)。•其他有关客户的数据六步之三:数据准备花费时间:50%~70%重要性:数据清理;数据转换;数据整合;格式化数据六步之四:建立模型与模式数据的描述与汇总细分分类预测关联更深层次的问题是:哪些客户对价格比价敏感有监督的数据挖掘(学习)用归纳形成概念模型,使用模型帮助区分结构相似的对象。这类学习称为基于归纳的有指导的概念学习(supervisedlearning)有监督的数据挖掘模型例根据历史行销记录,推测谁最有可能对我们下一次推荐产品做出响应。根据经验,最合适的医疗处方是什么?下一个最有可能被淘汰的机器是哪一种型号?在未来的六个月里,哪些客户最有可能离开?根据历史欺诈,哪些交易行为最有可能发生欺诈?某人申请信用卡或某项保险的资格是否可以获批?PatientIDSoreThroatFeverSwollenGlandsCongestionHeadeacheDiagnosis1YesYesYesYesYesStrepThroat2NoNoNoYesYesAllergy3YesYesNoYesNoCold4YesNoYesNoNoStrepThroat5NoYesNoYesNoCold6NoNoNoYesNoAllergy7NoNoYesNoNoStrepThroat8YesNoNoYesYesAllergy9NoYesNoYesYesCold10YesYesNoYesYesCold11NoNoYesYesYes?12YesYesNo
本文标题:数据挖掘与决策支持
链接地址:https://www.777doc.com/doc-616992 .html