您好,欢迎访问三七文档
台湾辅仁大学教授谢绑昌先生作的“数据挖掘与统计工作”报告原文数据发掘的工作(DataMining)是近年来数据库应用领域中,相当热门的议题。它是个神奇又时髦的技术,但却也不是什么新东西,因为DataMining使用的分析方法,如预测模型(回归、时间数列)、数据库分割(DatabaseSegmentation)、连接分析(LinkAnalysis)、偏差侦测(DeviationDetection)等;美国政府从第二次世界大战前,就在人口普查以及军事方面使用这些技术,但是信息科技的进展超乎想象,新工具的出现,例如关连式数据库、对象导向数据库、柔性计算理论(包括Neuralnetwork、Fuzzytheory、GeneticAlgorithms、RoughSet等)、人工智能的应用(如知识工程、专家系统),以及网络通讯技术的发展,使从数据堆中挖掘宝藏,常常能超越归纳范围的关系;使DataMining成为企业智慧的一部份。DataMining是一个浮现中的新领域。在范围和定义上、推理和期望上有一些不同。时代不一样了,现在数据来得既多又便宜,多到了没有人有时间去看的程度。挖掘的信息和知识从巨大的数据库而来,它被许多研究者在数据库系统和机器学习当作关键研究议题,而且也被企业体当作主要利基的重要所在。有许多不同领域的专家,对DataMining展现出极大兴趣,例如在信息服务业中,浮现一些应用,如在Internet之数据仓储和在线服务,并且增加企业的许多生机。我们对于这种DataMining的产品应该有一个正确的认知,就是它不是一个无所不能的魔法。它不是在那边监视你的数据的状况,然后告诉你说你的数据库里发生了某种特别的现象。也不是说有了DataMining的工具,就连不了解业务、不了解资料所代表的意义、或是不了解统计原理的人也可以做DataMining。DataMining所挖掘出来的信息,也不是你可以不经确认,就可以照单全收应用到业务上的。事实上,DataMining工具是用来帮助业务分析策画人员从资料中发掘出各种假设(Hypothesis),但是它并不帮你查证(Verify)这些假设,也不帮你判断这些假设对你的价值。TheEvolutionofDataMining何谓DataMiningDataMining是指找寻隐藏在数据中的讯息,如趋势(Trend)、特征(Pattern)及相关性(Relationship)的过程,也就是从数据中发掘信息或知识(有人称为KnowledgeDiscoveryinDatabases,KDD),也有人称为「资料考古学」(DataArchaeology)、「数据样型分析」(DataPatternAnalysis)或「功能相依分析」(FunctionalDependencyAnalysis),目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项增加各企业潜能的重要指标。此领域蓬勃发展的原因:现代的企业体经常搜集了大量资料,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。如果能透过数据发掘技术,从巨量的数据库中,发掘出不同的信息与知识出来,作为决策支持之用,必能产生企业的竞争优势。DataMining可说会合了以下六种领域:●Databasesystems,DataWarehouses,OLAP●Machinelearning●Statisticalanddataanalysismethods●Visualization●Mathematicalprogramming●HighperformancecomputingDataMining应用的行业包括了金融业、电信业、零售商、直效行销、制造业、医疗保健及制药业等等,应用领域如下表:ApplicationsofDataMiningCustomer-focusedOperations-focusedResearch-focused●Life-timeValue●Market-BasketAnalysis●Profiling&Segmentation●Retention●TargetMarket●Acquisition●KnowledgePortal●Cross-Selling●CampaignManagement●E-Commerce●ProfitabilityAnalysis●Pricing●FraudDetection●RiskAssessment●PortfolioManagement●EmployeeTurnover●CashManagement●ProductionEfficiency●NetworkPerformance●NetworkPerformance●ManufacturingProcesses●CombinatorialChemistry●GeneticResearch●Epidemiology现今计算机运算能力的跃进,以及数据储存技术的进步,数据仓储的广泛建置,加上企业行销策略转为针对单一消费者个人行销,更突显DataMining对于企业的迫切性。Whydoweneeddatamining?–Largenumberofrecords(cases)(108-1012bytes)–Highdimensionaldata(variables)(10-104attributes)–Onlyasmallportion,typically5%to10%,ofthecollecteddataiseveranalyzed.–Datathatmayneverbeexploredcontinuestobecollectedoutoffearthatsomethingthatmayproveimportantinthefuturemaybemissing.–Magnitudeofdataprecludesmosttraditionalanalysis(moreoncomplexitylater).DataMining和统计分析有什么不同?硬要去区分DataMining和Statistics的差异其实是没有太大意义的。一般将之定义为DataMining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,DataMining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么DataMining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,DataMining有下列几项特性:1.处理大量实际资料更强势,且无须太专业的统计背景去使用DataMining的工具;2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,DataMining的工具更符合企业需求;3.纯就理论的基础点来看,DataMining和统计分析有应用上的差别,毕竟DataMining目的是方便企业末端用者使用而非给统计学家检测用的。数据仓储、KDD、Datamining的关系若将DataWarehousing(资料仓储)比喻作矿坑,DataMining就是深入矿坑采矿的工作。毕竟DataMining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待DataMining能挖掘出什么有意义的信息的。要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集资料的工具。「数据仓储」,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(DesignSupportSystem)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓储的目标是在组织中,在正确的时间,将正确的数据交给正确的人。许多人对于数据仓储(DataWarehouse)和数据挖掘(DataMining)时常混淆,不知如何分辨。其实,数据仓储是数据库技术的一个新主题,在数据科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。另外,决策支持系统和主管信息系统也日渐普遍,它们操作数据的方式不尽相同,因而有必要把作业性数据库和数据仓储分隔开来,利用不同数据库系统与技术操作,才能达系统最佳化。由于关系型数据库、平行处理及分布式数据库技术的进步,不论是主从式架构或主机型架构的数据库系统,资料仓储技术皆可以利用原有作业中或已有的(Legacy)系统,进而提供一个稳固的基础以支持全公司的决策支持系统(DSS)。数据仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指从在线处理系统(OLTP)所得来的数据。将这些整合过的数据置放于数据仓储中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓储最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓储的重点。也就是,数据仓储应该具有这样的数据:整合性数据(integrateddata)、详细和汇总性的数据(detailedandsummarizeddata)、历史数据、解释数据的数据(Metadata)。如果数据仓储集合具有成功有效率地探测数据的世界,则挖掘出决策有用的数据与知识,是建立数据仓储与使用DataMining的最大目的。而从数据仓储挖掘有用的数据,则是DataMining的研究重点,两者的本质与过程是两码事。换句话说,数据仓储应先行建立完成,Datamining才能有效率的进行,因为数据仓储本身所含数据是「干净」(不会有错误的数据参杂其中)、完整的,而且是整合在一起的。因此,或许可说DataMining是从巨大数据仓储找出有用信息之一种过程与技术。OLAP能不能代替DataMining?所谓OLAP(OnlineAnalyticalProcess)意指由数据库所连结出来的在线查询分析程序。有些人会说:「我已经有OLAP的工具了,所以我不需要DataMining。」事实上两者间是截然不同的,主要差异在于DataMining用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而DataMining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但DataMining是用工具在帮助做探索。举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但DataMining则不然,执行DataMining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。DataMining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以DataMining此种自动找出甚或不会被怀疑过的数据型样与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和DataMining互补,但这项特性是DataMining无法被OLAP取代的。KDD(KnowledgeDiscoveryinDatabase)和DataMining的关系也是需要厘清的,根据Fayyad等人对KDD的定义:「ThenontrivialProcessofidentifyingvalid、novel、potentiallyuseful,andultimatelyunderstandablepatternindata」,其流程步骤是:先理解要应用的领域、熟悉相关知识
本文标题:数据挖掘与统计工作
链接地址:https://www.777doc.com/doc-4194997 .html