您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > I_数据挖掘与数据挖掘工具
数据挖掘与数据挖掘工具数据挖掘与数据挖掘工具奇奇电视购物您好,陈小姐妳好,我想要先生请先告诉您喔!我的身分证号码是A123456789王先生您好,先跟您核对一下个人资料:您住在民生路二段34号5楼,您家电话是21234567,您的公司电话是29876543,您的移动电话是0915123456。是吗?没错!你怎么知道得这么详细?王先生,因为我们已经联机到『神机妙算客服系统』喔!我想要订购一台室内跑步机送给我老婆当生日礼物王先生,室内跑步机不适合您太太喔。为什么?根据您太太的医疗纪录,她有膝关节疼痛的毛病,不适合做跑步运动那……妳能不能推荐其他的礼物?您可以试试看我们新推出的全方位按摩椅,不必做激烈运动也能达到全身运动的效果,而且您自己也可以使用喔!喔…..妳怎么知道我刚好想买按摩椅呢?因为根据google的使用纪录,您上星期用『按摩椅』这个关键词搜寻了24次喔!可是我怕按摩椅太大,我的卧室会放不下您所住的房子卧室有五坪大,而您只购买过一张双人床和一座四尺宽的衣柜,剩下来的空间放这台按摩椅应该没问题喔!喔!那这台按摩椅要卖多少钱呢?今天我们刚好有做特惠原价一万请问妳们有对不起,要请您用现金付款,因为您的两张信用卡都已经刷爆了,现在还欠银行六万七千八百三十五元喔!那我先去领钱,妳们赶快把按摩椅送过来吧!对不起,您今天提领的现金已经超过提款机的每日提款限额啰喔?我手边的现金应该还够,妳们快把按摩椅送过来吧我们要先安排司机送货路线,最快大约要三小时才能送到,如果您等不及,可以自己开车过来载什么?!您不是刚买了一辆Discovery休旅车,车号是KG‐3838,用这台车载按摩椅刚刚好啊?好吧!那我自己过去载好了好的!我立刻请库房帮您备货。不过,王先生,要请您开慢一点,因为您今年总共已经被开了13张超速罚单了!………………奇奇电视购物您好,敝姓陈,很高兴为您服务。我想要………先生,请先告诉我您的身分证号码34579太大我的卧会放不下椅应该没问题喔!钱呢今天我们刚好有做特惠,原价一万元,现在只卖五千元请问妳们有收信用卡吗?吧!机的每日提款限额啰去载好了罚单了!2运用探勘技术从大量数据中挖掘出数据之间的关连性以及隐藏的知识要实现『神机妙算客服系连性以及隐藏的知识,要实现『神机妙算客服系统』所提供的个人化服务,并非遥不可及!企业现阶段急需运用资料探勘技术,辅助决策者在对的时刻做对的决策!学术界积极培养数据探勘技术应用人才为当务之急!急!3议题缘起何谓资料探勘何谓资料探勘资料探勘的演进数据探勘与其他系统的比较知识发现的过程数据探勘常用的技术数据探勘的模型数据探勘的模型数据探勘的应用数据探勘的工具资料探勘未来的发展与挑战4数据探勘的目的「从大量数据中挖掘有价值的信息,供管理人员做为决策参考,开创新商业契机」成功经验à美国超级市场(Wal-Mart)销售资料分析发现,尿布和啤酒常会一起购买,于是将商品放在一起促销,得到意想不到的业绩成长à美国银行(BankofAmerica)从客户数据中找出既有客户申请贷款的时机从客户数据中,找出既有客户申请贷款的时机,规划全新营销方案;该方案推出后,接受率立即成长两倍以上5数据探勘的应用以类似PC-Home之线上购物商店为例à可获取之资料顾客居住地区、年龄、性别、个人资料、交易纪录à可进行之数据探勘应用:建立个人化营销模式建立个人化营销模式找出潜在的客户名单了解顾客族群的属性预测目前哪些顾客可能流失6资料探勘的兴起归功三项技术的成熟à大量资料的收集技术:à大量资料的收集技术:网络发达、关系数据库(relationaldatabase)应用广泛、整合技术成熟à高效能的多处理器计算机架构平行处理架构,使大量数据处理能在可容忍的时间内完成à数据探勘算法的成熟包括统计学(statistics)人工智慧(artificialintelligence)机包括统计学(statistics)、人工智慧(artificialintelligence)、机器学習(machinelearning)、基因演算法(geneticalgorithms)…等等7数据探勘的功能预测未来的趋势à股市行情预测à天气预测à地震预测à消费行为预测à商品出货量预测…等等找出未知的样式à找出会购买笔记本电脑的顾客特征à依消费习性相近的顾客进行群组à推荐鉴别消费者可能会同时购买的商品组合…等等8议题缘起何谓资料探勘何谓资料探勘资料探勘的演进数据探勘与其他系统的比较知识发现的过程数据探勘常用的技术数据探勘的模型数据探勘的模型数据探勘的应用数据探勘的工具资料探勘未来的发展与挑战9何谓资料探勘(1)学者曾对数据探勘做过的定义àFrawleyàFrawley数据库中挖掘潜在、明确、而且非常有用信息的过程àGrupe&Owrang从已存在的数据库当中挖掘出专家仍未知的新事实àFayyad定义知识发掘(KnowledgeDiscovery)为从大量数据中选取合适的数据进行数据处理转换等工作再进行中选取合适的数据,进行数据处理、转换等工作,再进行数据探勘与结果评估的一系列过程àBerry&Linoff使用自动或半自动的方法,对大量数据分析,找出有意义的关系或法则。10何谓资料探勘(2)资料探勘=数据库之知识发掘(KnowledgeDiscoveryinDatabases简称KDD)DiscoveryinDatabases,简称KDD)à从大型数据库里头所储存的数据当中去萃取出一些有趣的知识「知识」指的就是一些规则大型数据库包括联机操作的数据库(On-lineDatabase)及资料仓储(DataWarehouse)…等等à知识范例「如果顾客的年龄是在三十岁到四十岁之间,而且年收入是在四十万到六十万之间,那么此顾客很有可能会购买笔记本电脑。」11第一章资料探勘简介缘起何谓资料探勘何谓资料探勘资料探勘的演进数据探勘与其他系统的比较知识发现的过程数据探勘常用的技术数据探勘的模型数据探勘的模型数据探勘的应用数据探勘的工具资料探勘未来的发展与挑战12资料探勘历史演进步骤目标企业问题应用技术系统供货商系统特性文件系统“2002年12月笔记型计算机、磁带、磁盘IBM,CDC传递历史性文件系统(1960年代)计算机的销售明细为何?",的静态数据数据库系统(1970年代)“IBMX31笔记型电脑目前的售价是多少?”阶层式数据库(hierarchical]database)、网络式数据库(networkdatabase)、关系型数据库(relationaldatabase)、结构化查询语言(SQL)、开放性数据库链接协议(ODBC)Oracle,Sybase,Informix,IBM,Microsoft传递实时性的单层次动态资料数据仓储系统(1990年代)“去年北部地区笔记型计算机的总销售量在线分析处理(OLAP)、多维度数据模型Pilot,Comshare,ArborCognos传递历史性的多层次动(1990年代)型计算机的总销售量是多少?其中台北市的销售量是多少?”维度数据模型(multidimensionaldatamodel)、资料仓储(datawarehouse)Arbor,Cognos,Microstrategy,Microsoft的多层次动态资料数据探勘系统(现代)“明年笔记本电脑的预估销售量为何?为什么?”进阶算法、多处理器计算机系统、大量数据储存技术、人工智能Pilot,Lockheed,IBM,SGI传递预知的、鉴往知来的信息13资料探勘的演进专家系统知识库系统决策支持系统资料仓储资料探勘信息知识资料分析师管理决策者决策支持系统14数据库资料仓储资料信息数据操作员资料分析师议题缘起何谓资料探勘何谓资料探勘资料探勘的演进数据探勘与其他系统的比较知识发现的过程数据探勘常用的技术数据探勘的模型数据探勘的模型数据探勘的应用数据探勘的工具资料探勘未来的发展与挑战15与决策支持系统的不同点决策支持系统(DecisionSupportSystem,DSS)依决策模型或推论规则提供建议à依决策模型或推论规则、提供建议可以来自于领域专家(DomainExpert)的经验法则可运用知识工程(KnowledgeEngineering)的技术自专家脑中撷取可以用数据探勘技术所分析归纳出来的隐藏规则数据探勘系统数据探勘系统à自动化的数据分析与预测16与在线分析的不同点在线分析(On-LineAnalyticalProcessing,简称OLAP)à对制式化关连性低的数据分析统计数据供决策人员参考à对制式化、关连性低的数据分析,统计数据供决策人员参考让零售业了解不同产品、销售区域对于成本及营业毛利之影响,但无法了解顾客的购买行为模式在线分析处理资料探勘多少人曾购买笔记本电脑?哪些顾客可能会购买笔记本电脑?上个月有多少顾客没有进入网站浏览商品?哪些顾客较有可能在未来三个月内不上站浏览商品?顾客的平均单月消费总金额是多少?哪些顾客下个月的消费有可能会超过一万元?哪些顾客订单超过三天未付款?哪些顾客较有可能延迟付款?电子报的点阅率多少?电子报营销方式对那些会员较有效?去年的销售业绩统计报表明年预期之销售业绩额度。17与统计分析的不同点(1)统计分析(StatisticalAnalysis)à以假设(Hypothesis)及验证(Verification)为基础à以假设(Hypothesis)及验证(Verification)为基础对较少数据,数据间的关连性或统计学上不同标的分析由具专业专家对统计结果加以检测资料探勘à以发现(Discovery)为基础,着重「样式辨认」以发现(y)为础,着「样式辨认」供不具专业背景的使用者(高层决策人员)使用18与统计分析的不同点(2)范例à统计分析统计分析女性和男性消费者个别在本月的消费总额不同网域的消费者在本月的消费总额不同年龄层的消费者在本月的消费总额等à资料探勘找出如下的规则:IF住在台北IF住在台北AND性别是男性AND年龄介于37到42岁之间THEN购买笔记本电脑的可能性是85%19议题缘起何谓资料探勘何谓资料探勘资料探勘的演进数据探勘与其他系统的比较知识发现的过程数据探勘常用的技术数据探勘的模型数据探勘的模型数据探勘的应用数据探勘的工具资料探勘未来的发展与挑战20知识发现的过程结果展示使用者数据仓储建立资料探勘样式评估知识库多维度数据库21数据前置处理数据库原始资料资料收集数据库资料收集知识发现的第一个步骤原始数据源原始数据源à数据库系统àExcel表格à文本文件à因特网à问卷调查…等等22数据前置处理原因真实的数据非常杂乱且收集资料的工具à真实的数据非常杂乱,且收集资料的工具并没有做精确的检查,导致收集到的资料,并不见得全都可用资料探勘有80%时间花费在前置作业à包含资料的净化、格式转换、表格的链接等前置作业23数据仓储的建立决策支持系统的基础含整合数据详细数据总合性含整合数据、详细数据、总合性(summarized)资料、历史性资料、描述数据纲要数据à在线分析处理(On-LineAnalyticalProcessing,OLAP)à统计、分析功能à可由关系数据库建构à可由关系数据库建构Sybase、Oracle、Redbrick等àOLAP提供多维度结构(multidimensionalstructures)用户依据不同维度,例如产品、地区、其它更透彻的观察角度做统计24资料探勘用统计与模型化的方法数据仓储提供的信息供数据探勘做数据仓储所提供的信息,供数据探勘做进ㄧ步挖掘,而萃取隐藏知识后,再转到知识库资料探勘是知识发现的一部分知识发现的过程会影响资料探勘的成功知识发现的过程会影响资料探勘的成功25样式评估样式评估(patternevaluation)评估所挖掘的知识是不是真的有用?à评估所挖掘的知识是不是真的有用
本文标题:I_数据挖掘与数据挖掘工具
链接地址:https://www.777doc.com/doc-4924608 .html