您好,欢迎访问三七文档
第1章数据挖掘导论1.1数据挖掘的发展背景1.2数据挖掘定义1.3数据挖掘过程1.4数据挖掘功能1.5数据挖掘应用1.6数据挖掘发展•1.1数据挖掘的发展背景人类已进入一个崭新的信息时代,数据库中存储的数据量急剧膨胀数据库急剧膨胀大量信息在给人们带来方便的同时也带来了一大堆问题:信息过量,难以消化信息真假难以辨识信息安全难以保证信息形式不一致,难以统一处理数据爆炸但知识贫乏随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息数据挖掘产生为了从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(KnowledgeDiscoveryinDatabase),以及相应的数据挖掘(DataMining)理论和技术的研究(侯老师,胡博士,自己)(搞预测很有前途,邵伟华;易经,易学)数据矿山信息金块数据挖掘工具KDD的出现基于数据库的知识发现(KDD)一词首次出现在1989年举行的第十一届AAAI学术会议上。1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD’95)。由KluwersPublishers出版,1997年创刊的《KnowledgeDiscoveryandDataMining》是该领域中的第一本学术刊物。(计算机领域中国的顶级刊物:5个)•1.2数据挖掘定义及过程1.2.1定义数据挖掘是从大量有噪声、不完全,甚至不一致的数据中,利用相应的挖掘方法,提取其中存在有效、新奇、有用、可理解的知识模式,是统计学、数据库技术和人工智能技术的综合。与数据挖掘类似但稍有不同含义的术语有:从数据库中发现知识(KnowledgeDiscoveryfrom/inDatabase,KDD)知识提取(Knowledgeextract)数据/模式分析(Data/Modelanalysis)。数据考古数据捕捞技术上的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。目前公认的定义人们给数据挖掘下过很多定义,内涵也各不相同,目前公认的定义是由UsamaFayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的过程。1.2.2过程数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,数据挖掘过程主要由三个部分组成,即问题定义、数据整理(包括数据收集、数据预处理、数据转换)、数据挖掘实施,以及挖掘结果的解释与评估。1.2.2过程1)定义问题要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么。否则,很难得到正确的结果。数据选择2)数据的选择数据选取的目的是确定目标数据,根据所定义的问题的需要从原始数据库中选取相关数据或样本,并从中选择出适用于数据挖掘应用的数据。目标数据数据目标数据预处理选择3)数据的预处理对步骤2中选出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。已处理数据数据已处理数据目标数据预处理变换选择4)数据的转换数据转换的主要目的就是根据知识发现的任务对经过预处理的数据进行再处理,主要是通过投影或利用数据库的其他操作减少数据量,即要从初始特征中筛选出真正与挖掘任务相关的特征。变换后数据数据已处理数据变换后数据目标数据预处理变换选择数据挖掘5)数据挖掘根据挖掘任务定义及已有的方法(分类、聚类、关联等)选择合适的知识发现算法,包括选取合适的模型和参数,从数据库中挖掘出有关知识,并以一定的方式表示出来(如产生式规则等)是数据挖掘的目的。模式/知识数据已处理数据变换后数据模式/知识目标数据解释/评估预处理变换选择数据挖掘6)解释与评估对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足任务的要求,就需要返回到前面的某些处理步骤中反复提取。知识•1.3数据挖掘主要功能(例子:保险公司客户流失。p9)通过数据挖掘,人们可以预测未来趋势及行为,做出基于知识的决策;或是从数据库中发现隐含的、有意义的知识,主要有六类功能。(1)概念描述(2)关联(3)聚类(4)分类(5)预测(6)偏差的检测(1)概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。对大数据集总体情况的概述。例如:•对电脑的销售数据集:基本上为奔三以上兼容机对于学校教师数据集:基本上讲师占大多数(2)关联数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。例如:每天买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。以零售业为例,体育用品商场通过对销售数据进行关联分析通常可以发现这些数据中常常隐含形式如下的规律——“购买篮球的顾客中有70%的人同时购买运动服,所有交易中有40%的人同时购买篮球和篮球运动服”等等。(3)聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。例如:将申请人分为高度风险申请者、中度风险申请者、低度风险申请者。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术,其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。例如:市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;保险公司:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;(4)分类按照分析对象的属性、特征,建立不同组来描述事物。例如银行部门根据以前的数据将客户分成了不同类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。例如:把客户分为高风险客户和低风险客户(5)预测把握分析对象的发展规律,对未来的趋势做出预见。数据挖掘自动在大型数据库中寻找预测性数据,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子:市场预测问题。数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。(例如,股票。从报表等预测其不久破产)(6)偏差的检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减少以后经营的风险。(如开始几次额度不大,信誉很好,突然一次额度很大)偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中相互联系,发挥作用。1.4数据挖掘应用与发展趋势1.4.1数据挖掘的应用需要强调的是,数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘(datamining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。而数据挖掘的应用则主要集中在以下几个领域:金融服务、市场营销、工程与科学研究、产品制造业、司法。数据挖掘在各个领域中的应用电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析(提问)税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%电信GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务税务局数据挖掘在银行领域的应用金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。(美国的老大地位)数据挖掘在银行领域的应用美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%资料:一个数据挖掘的例子(1讲)银行1.4.2数据挖掘的发展A.数据挖掘的发展趋势视频和音频数据挖掘科学和统计数据挖掘数据挖掘的应用探索可伸缩的数据挖掘方法数据挖掘与数据库系统、数据仓库和Web数据库系统的集成数据挖掘语言的标准化可视化数据挖掘复杂数据类型挖掘的方法Web挖掘数据挖掘中的隐私保护与信息安全可视化数据挖掘数据可视化数据挖掘结果可视化数据挖掘处理过程可视化交互式的可视化挖掘数据可视化数据挖掘结果可视化数据挖掘过程可视化交互式的可视化挖掘B.数据挖掘未来研究方向当前,DM研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使DM的应用得以普遍推广。预计
本文标题:数据挖掘导论
链接地址:https://www.777doc.com/doc-7033013 .html