您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 1、序论【数据挖掘】
数据挖掘与知识发现主讲教师:王玲教科书和参考书教科书数据挖掘:概念与技术,JiaweiHan和MichelineKamber著,机械工业出版社(2001)参考书数据挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著,机械工业出版社(2003)DataMining:PracticalLearningToolsandTechniqueswithJavaImplementations作者:(新西兰)IanH.Witten,EideFrank这本书是结合开源数据挖掘工具weka编写,用java语言实现,书中描述了怎么去开发,怎么weka的基础上进行二次开发。机器学习(英文版)作者:TomM.Mitchell中文版英文影印版数据挖掘的发展动力---需要是发明之母数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息解决方法:数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据库技术的演化(1)1960s和以前:文件系统1970s:层次数据库和网状数据库1980s早期:关系数据模型,关系数据库管理系统(RDBMS)的实现数据库技术的演化(2)1980s晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)1990s:数据挖掘,数据仓库,多媒体数据库和网络数据库2000s流数据管理和挖掘基于各种应用的数据挖掘XML数据库和整合的信息系统什么是数据挖掘?数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼、数据/模式分析数据考古数据捕捞、信息收获等等。并非所有的东西都是数据挖掘基于数据仓库的OLAP系统OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。机器学习系统,数据统计分析系统这些系统所处理的数据容量往往很有限。信息系统专注于数据的查询处理。相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合数据挖掘应用的应用领域市场分析和管理百货公司、超市、银行、电子商务风险分析和管理电信、保险欺诈检测和异常模式的监测信用卡、警察机关、税务部门其他应用文本挖掘流数据挖掘DNA和生物数据分析数据挖掘应用——市场分析和管理(1)数据从那里来?信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生活方式研究目标市场构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等确定顾客的购买模式交叉市场分析货物销售之间的相互联系和相关性,以及基于这种联系上的预测数据挖掘应用——市场分析和管理(2)顾客分析哪类顾客购买那种商品(聚类分析或分类预测)客户需求分析确定适合不同顾客的最佳商品预测何种因素能够吸引新顾客提供概要信息多维度的综合报告统计概要信息(数据的集中趋势和变化)数据挖掘应用——公司分析和风险管理财务计划现金流转分析和预测交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)资源计划总结和比较资源和花费竞争对竞争者和市场趋势的监控将顾客按等级分组和基于等级的定价过程将定价策略应用于竞争更激烈的市场中数据挖掘应用——欺诈行为检测和异常模式的发现方法:对欺骗行为进行聚类和建模,并进行孤立点分析应用:卫生保健、零售业、信用卡服务、电信等汽车保险:相撞事件的分析洗钱:发现可疑的货币交易行为医疗保险职业病人,医生以及相关数据分析不必要的或相关的测试电信:电话呼叫欺骗行为电话呼叫模型:呼叫目的地,持续时间,日或周呼叫次数.分析该模型发现与期待标准的偏差零售产业分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的反恐怖主义其他应用体育竞赛美国NBA的29个球队中,有25个球队使用了IBM分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。天文学JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星网上冲浪通过将数据挖掘算法应用于网络访问日志,从有市场相关的网页中发现消费者的偏爱和行为,分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究数据挖掘:数据库中的知识挖掘(KDD)数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库任务相关数据选择数据挖掘模式评估KnowledgeDiscoveryinDatabase典型数据挖掘系统的体系结构数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成在何种数据上进行数据挖掘关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和历史(legacy)数据库文本数据库和万维网()空间数据库空间数据库是指在关系型数据库(DBMS-DatabaseManagementSystem)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型地理信息系统(GIS)遥感图像数据医学图像数据数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索时间数据库和时序数据库时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列。对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。流数据与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合网络监控网页点击流股票市场流媒体…等等与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。多媒体数据库多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。面向对象数据库和对象-关系数据库面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。对象-关系数据库基于对象-关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。面向对象数据库和对象-关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。异构数据库和历史(legacy)数据库历史数据库是一系列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统,实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。WEBSERVICE技术的出现有利于历史数据库数据的重新利用。文本数据库和万维网()文本数据库存储的是对对象的文字性描述。文本数据库的分类无结构类型(大部分的文本资料和网页)半结构类型(XML数据)结构类型(图书馆数据)万维网()可以被看成最大的文本数据库数据挖掘内容内容检索WEB访问模式检索数据挖掘的主要功能——可以挖掘哪些模式?一般功能描述性的数据挖掘预测性的数据挖掘通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:概念/类描述:特性化和区分关联分析分类和预测聚类分析孤立点分析趋势和演变分析概念/类描述:特性化和区分概念描述:为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)特征化:提供给定数据集的简洁汇总。例:对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:40-50岁,有固定职业,信誉良好,等等区分:提供两个或多个数据集的比较描述。例:StatusBirth_countryAge_rangeGpaCountGraduateCanada25-30Good90UndergraduateCanada25-30Good210关联分析关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。广泛的用于购物篮或事务数据分析。例:%]70%,20[sup),()48...42,()39...30,(confidenceportcomputerXbuyskkXincomeXage分类和预测根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象类(预测)。比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示:判定树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值例:IFage=“=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“40”ANDcredit_rating=“fair”THENbuys_computer=“no”聚类分析聚类分析:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。最大化类内的相似性和最小化类间的相似性例:对WEB日志的数据进行聚类,以发现相同的用户访问模式孤立点分析孤立点分析孤立点:一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。应用信用卡欺诈检测移动电话欺诈检测客户划分医疗分析(异常)趋势和演变分析描述行为随时间变化的对象的发展规律或趋势(时序数据库)趋势和偏差:回归分析序列模式匹配:周期性分析基于类似性的分析所有模式都是有趣的吗?数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。模式兴趣度的度量一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量:基于所发现模式的结构和关于它们的统计,比如:支持度、置信度等等主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等能够产生所有有趣模式并且仅产生有趣模式吗?找出所有有趣的模式:数据挖掘算法的完全性问题数
本文标题:1、序论【数据挖掘】
链接地址:https://www.777doc.com/doc-6170016 .html