您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 南理工《数据挖掘》 课件2014(新)
数据挖掘南京理工大学计算机学院徐建dolphin.xu@njust.edu.cn参考教材数据挖掘-概念与技术(原书第三版)(加)JiaweiHanMichelineKamber(著)范明等(译)机械工业出版社第一章引论1、为什么进行数据挖掘网络之后的下一个技术热点数据爆炸但知识贫乏支持数据挖掘技术的基础从商业数据到商业信息的进化网络之后的下一个技术热点网络时代面临的信息问题:›信息过量,难以消化;›信息真假难以辨识;›信息安全难以保证;›信息形式不一致,难以统一处理。“要学会抛弃信息”数据爆炸但知识贫乏数据库的容量已达上万亿水平(T)--1,000,000,000,000个字节,P,Z,E全球信息量以惊人的速度急剧增长--据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据支持数据挖掘技术的基础激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由:超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构;海量数据搜索,对巨大量数据的快速访问;数据挖掘算法。从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息2、数据挖掘的基本概念和定义数据、信息和知识数据:体温37.5信息:›姓名:陈浩男年龄:4岁性别:male›地址:广东省广州市天河区›时间:2014年6月8日13点20分›腋下体温:37.5摄氏度›自述:孩子在楼下玩,回来后看到小脸特别红,测量体温为37.5度知识:›“正常小儿的基础体温为36.9℃~37.5℃。一般当体温超过基础体温1℃以上时,可认为发热。其中,低热是指体温波动于38℃左右,高热时体温在39℃以上。›基础体温是指的直肠温度,一般口腔温度较其低0.3℃~0.5℃,腋下温度又较口腔温度低0.3℃~0.5℃。基本概念数据:是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示,以适合在这个领域中用人工或自然的方式进行保存、传递和处理。信息:具有时效性的有一定含义的,有逻辑的、经过加工处理的、对决策有价值的数据流。知识:›是对信息加工提炼所获得的抽象化产物。›是人们实践经验的结晶且为新的实践所证实的;›是关于事物运动的状态和状态变化的规律;›知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。数据挖掘定义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。〔商业角度的定义〕数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。实施数据挖掘的目的不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。数据挖掘与其他科学的关系数据挖掘数据库系统统计学其他学科算法机器学习可视化数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。数据挖掘与传统数据分析方法区别3、挖掘何种类型的数据关系数据库数据仓库事务数据库高级数据库系统和信息库›空间数据库›时间数据库和时间序列数据库›流数据›多媒体数据库›面向对象数据库和对象-关系数据库›异种数据库和遗产(legacy)数据库›文本数据库和万维网()空间数据库空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型›地理信息系统(GIS)›遥感图像数据›医学图像数据数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索时间数据库和时间序列数据库时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的时间。时间序列数据库存放随时间变化的值序列。对时间数据库和时间序列数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。流数据与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合›网络监控›网页点击流›股票市场›流媒体…等等与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。多媒体数据库多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。面向对象数据库和对象-关系数据库面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。对象-关系数据库基于对象-关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。面向对象数据库和对象-关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。异构数据库和历史(legacy)数据库历史数据库是一系列的异构数据库系统的集合,包括各同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统,实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。WEBSERVICE技术的出现有利于历史数据库数据的重新利用。文本数据库和万维网()文本数据库存储的是对对象的文字性描述。文本数据库的分类›无结构类型(大部分的文本资料和网页)›半结构类型(XML数据)›结构类型(图书馆数据)万维网()可以被看成最大的文本数据库数据挖掘内容›内容检索›WEB访问模式检索4、数据挖掘主要功能预测性数据挖掘描述性数据挖掘概念描述类别描述关联规则挖掘分类与估值聚类时间序列分析。。。概念/类别描述(Concept/ClassDescription)概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:35-50岁,有工作,月收入5000元以上,拥有良好的信用度…;例2:对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80%以上年龄在35-50岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60%以上要么年龄过大要么年龄过小,且月收入2000元以下。概念/类别描述(Concept/ClassDescription)关联分析(AssociationAnalysis)从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性-值条件元组。例如:关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。关联规则示意TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,MilkRulesDiscovered:{Milk}--{Coke}{Diaper,Milk}--{Beer}分类与估值(ClassificationandEstimation)分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。分类问题例子TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundMaritalStatusTaxableIncomeCheatNoSingle75K?YesMarried50K?NoMarried150K?YesDivorced90K?NoSingle40K?NoMarried80K?10TestSetTrainingSetModelLearnClassifier聚类分析(ClusteringAnalysis)聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。聚类示意图EuclideanDistanceBasedClusteringin3-Dspace.IntraclusterdistancesareminimizedInterclusterdistancesaremaximized时间序列分析(Time-SeriesAnalysis)时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。时序挖掘示例(AB)(C)(DE)=ms=xgng=ws(AB)(C)(DE)I
本文标题:南理工《数据挖掘》 课件2014(新)
链接地址:https://www.777doc.com/doc-4002919 .html