您好,欢迎访问三七文档
Datamining&BusinessIntelligence数据挖掘与商务智能Publicemailaddress:gdutww@126.compassword:gdutww课程内容预备知识1数据挖掘(DM)2商业智能(BI)3数据挖掘的含义&任务数据质量数据预处理汇总统计、数据可视化&OLAP分类、关联分析、聚类分析具体方法各类数据挖掘工具简介BI的含义&案例数据挖掘技术在BI中的应用面向服务架构&BI参考书籍:IntroductiontoDataMining[美]P.N.Tanet.al.参考书籍:“DataMining:ConceptsandTechniques”,2ndedition,J.W.HanandM.Kamber.商务智能与数据挖掘MicrosoftSQLserver应用,谢邦昌课件下载邮箱:gdutww@126.comPsw:gdutww2数据挖掘2.5数据挖掘工具简介典型工具比较各类工具简介各类工具简介目前,世界上比较有影响的典型数据挖掘系统包括:EnterpriseMiner(SAS公司)IntelligentMiner(IBM公司)SetMiner(SGI公司)Clementine(SPSS公司)WarehouseStudio(Sybase公司)See5(RuleQuestResearch公司)CoverStoryEXPLORAKnowledgeDiscoveryWorkbenchDBMinerQuest等2.5.1各类工具简介…该网站提供了许多数据挖掘系统和工具的性能测试报告。2.5.1各类工具简介…IBMIntelligentMinerAwiderangeofdataminingalgorithmsScalableminingalgorithmsToolkits:neuralnetworkalgorithms,statisticalmethods,datapreparation,anddatavisualizationtoolsTightintegrationwithIBM'sDB2relationaldatabasesystemSASEnterpriseMinerAvarietyofstatisticalanalysistoolsDatawarehousetoolsandmultipledataminingalgorithmsMirosoftSQLServer2000IntegrateDBandOLAPwithminingSupportOLEDBforDMstandard2.5.1各类工具简介…SGIMineSetMultipledataminingalgorithmsandadvancedstatisticsAdvancedvisualizationtoolsClementine(SPSS)Anintegrateddataminingdevelopmentenvironmentforend-usersanddevelopersMultipledataminingalgorithmsandvisualizationtoolsDBMiner(DBMinerTechnologyInc.)Multipledataminingmodules:discovery-drivenOLAPanalysis,association,classification,andclusteringEfficient,associationandsequential-patternminingfunctions,andvisualclassificationtoolMiningbothrelationaldatabasesanddatawarehouses2.5.1几种数据挖掘工具比较产品公司主页版本ClementineSPSS.://://://://://平台和数据库连接方式的比较产品单机版C/S版数据源ClementinePC和UNIX无ODBCDarwin无UnixServer/PCClientODBCEnterpriseMinerPCUnixServer/PCClient和NTServer/PCClientODBC和NativeDatabaseDriversIntelligentMinerPCUnixServer/PCClientNativeDatabaseDriversPRWPC无ODBCScenarioPC无仅支持数据库文件(Debase、excel、csv等)2.5.2算法方面的比较算法ClementineDarwinEnterpriseMinerIntelligentMinerPRWScenario决策树有有有有无有神经网络有有有有有无回归分析有无有有有无RadialBasisFunctions无有无有有无最近邻无无有无有无最近均值无无无无有无KohonenSelf-OrganizingMaps有无有无无无聚类有无无有有无关联规则有无无有无无2.5.2易用性方面的比较产品数据装载和操纵模型建立模型理解技术支持总体感觉Clementine+++++++++++++++Darwin+++++++++++EnterpriseMiner++++++++++IntelligentMiner++++++++++PRW+++++++++++++++Scenario+++++++++++++2.5.2其他方面的比较与分析可视化方面,IntelligentMiner、EnterpriseMiner和Scenario都有图形化的树展示,而Clementine和Darwin则提供基于文本的规则说明。此外,对于柱状图、饼图和曲线等这些工具的支持程度也各有不同。在算法参数控制和扩展功能选项方面,对比这些产品可以发现,EnterpriseMiner和PRW对参数控制实现的较好,而IntelligentMiner在这方面较弱。几乎所有的产品都提供对决策树的实数值的处理和图形展示等扩展功能,但只有Clementine和Scenario较好地实现了树的修剪选项功能。此外,神经网络的扩展功能方面也有较大差别。2.5.2Clementine视频数据挖掘的认识误区挖掘出的结果都是正确的数据挖掘得出的结果一般都是经验性的,它并不是一条经过严格数学证明的定理(事实上数据挖掘得出的规则绝大多数不可证明)例如数据挖掘号称能通过历史数据的分析来预测客户的行为,而事实上客户自己可能都不明确自己下一步要作什么。挖掘算法并不保证结果的完全正确,挖掘出的结果只具有概率上的意义,只具有参考价值挖掘获得的模型可普遍适用数据挖掘仅仅根据它所处理的数据得出结果,结果的适用范围受限于数据的选择。我们不能保证一个在美国运行得非常成功的银行信用卡客户信用评级模型在中国也同样可信;当然我们也不能保证一个零售业的客户利润分析模型同时适用于电信行业。数据挖掘的认识误区数据挖掘可以完全自动化当然数据挖掘可以做到完全的自动化,但是,挖掘结果对商业目标的价值不是挖掘算法所能判断的,用户需要在他们能理解的背景环境中,观察挖掘输出的结果并与之交互。很多时候一个挖掘目标的完成需要多次叠代的挖掘过程才能完成。在一定的意义上,一个半自动的数据挖掘环境可能是更好的。数据挖掘是一个工具,而不是魔杖。它不会坐在数据库上一直监视着数据库,然后当发现有意义的模型时给管理者发一封电子邮件。它仍然需要了解用户的业务,理解用户的数据,弄清分析方法。数据挖掘只是帮助专业人士更深入、更容易的分析数据。而无法告知某个模型对企业的实际价值。而且数据挖掘中得到的模型必须在现实生活中进行验证。文献检索的方法:用好校内数据库图书馆页面文献检索的方法:用好google文献检索的方法:用好google课程内容预备知识1数据挖掘(DM)2商业智能(BI)3数据挖掘的含义&任务数据质量数据预处理汇总统计、数据可视化&OLAP分类、关联分析、聚类分析具体方法各类数据挖掘工具简介BI的含义&案例数据挖掘技术在BI中的应用面向服务架构&BI参考书籍:IntroductiontoDataMining[美]P.N.Tanet.al.参考书籍:MaterialsfromtheInternet商务智能与数据挖掘MicrosoftSQLserver应用,谢邦昌引子商务智能(BI)是目前在国外企业界和软件开发界受到广泛关注的一个研究方向,它把先进的信息技术应用到整个企业、不仅为其提供信息获取能力,而且通过对信息的开发,将其转变为企业的竞争优势。因此,越来越多的企业提出他们对BI的需求,把BI作为一种帮助企业达到经营目标的一种有效手段;另一方面,计算机界很多著名公司已经认识到BI巨大的发展潜力,纷纷加入列从事BI研究和软件开发的行列。比如;IBM建立了专门从事BI方案设计的研究中心.Oracle、Microsoft等著名的软件厂商纷纷推出支持BI开发与应用的软件系统。根据国际数据公司(IDC)的一个关于65个公司的案例研究显示,在过去2、3年里,商务智能投资的平均回报超过了400%。3.1.0什么是商务智能(BI)?企业界的观点是…IBM认为商务智能是指一种能力:通过智能的使用你的数据财产来制定更好的商务决策。它的意思是说各种企业的决策人员以企业中的数据仓库(DataWarehouse)为本,经由各式各样的查询分析工具(Query/ReportTools)、联机分析处理(OnlineAnalyticalProcessing简称OLAP)工具、或是数据挖掘(DataMining)工具加上决策规划人员的行业知识(IndustryKnowledge),从数据仓储中获得有利的信息,进而帮助企业提高获利,增加生产力与竞争力。学术界的观点是…BI实际上是帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。3.1.1商务智能的应用领域根据商务智能的当前应用情况,发现商务智能广泛应用在零售、电信和保险、银行等行业。这些行业一般具有以下特征:(1)大量的顾客;这样才能产生足够多的可供分析的数据。(2)非常激烈的竞争并有差异化的需要;这些行业一般提供的都是差异化很小的产品,同时行业内的竞争又非常激烈,从而使差异化的服务成为企业必然选择。(3)能容易地收集到大量的电子数据。这些行业一般都有较完善的电子交易记录系统,可以很方便的收集到大量的电子交易数据。3.1.1商务智能系统的组成建立数据仓库建立数据仓库是处理海量数据的基础。商业智能系统的核心构架是数据仓库,其主要功能既包括传统的联机事务处理(OLAP)及统计查询,又包括决策支持和联机分析处理(OLAP),数据仓库包括数据提取模块、数据清洗模块、数据转换模块,实现数据的提取、净化、过滤及数据标准化
本文标题:4_数据挖掘.
链接地址:https://www.777doc.com/doc-3630012 .html