您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > DM 1 概述 数据预处理 QBai 21-08-2006
1数据挖掘概述Dr.QingyuanBaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@fzu.edu.cn2References1.ProceedingsinVLDB,AAAI,IJCAI,SIGMOD/SIGPODS,ICDE/ICDT.2.JiaweiHan(~hanj/)3.DBLP(~ley/db/index.html)4.国内外相关网站/论坛(1)21世纪人工智能论坛()(2)~tszhu/webmining/(3)研学论坛(bbs.matwav.com/index.html)(4)数据挖掘讨论组()3数据挖掘数据挖掘是在数据大量积累,数据丰富,而知识贫乏,希望从数据中发现知识的方法。集数据库、统计学、人工智能等技术形成一个新学科可处理杂乱的数据、定性和定量混合数据、模糊数据、不确定数据和不完整的的数据。机器学习、人工智能用各种方法解决了一些方法问题,但实用性不够(仅在小数量数据实验可行)。4数据挖掘与其他学科的关系5数据挖掘相关的领域KDD(知识发现)机器学习数据库统计学人工智能模糊逻辑方法和粗糙集方法神经元网络模式识别可视技术6数据挖掘希望回答的问题信贷中信用评估、信用卡评级、信用卡欺诈销售一个产品,广告、材料的邮寄对象保留何种客户、争取潜在客户,交叉销售股票违规操作、欺诈行为货架货物的摆放国民经济各指标间的关系疾病、症状、药物、疗效之间的关系DNA序列的相似分析导致各种疾病的特定基因序列模式7数据挖掘发展历程从80年代中后期,数据挖掘和知识发现的方法、技术和系统,从不同角度、不同领域和不同学科进行了研究和实践,主要的学科有数据库、统计学和机器学习。由于知识发现和数据挖掘日益成熟和广泛发展,1989年在美国底特律召开的IJCAI会议上,召开KDDworkshop,1991年MIT出版社出版了一本书“KnowledgeDiscoveryinDatabases”。8此后KDD和DM成为研究的热点,并有很大发展和进步,1994年召开了一个国际会议(KDD94),并于1996年由MIT出版社又出版了一本书“AdvancesinKnowledgeDiscoveryandDataMining”。1996年出第一本专著,97年有6-7本,2006年有几百本,中文(翻译,编著)30本以上,国外各大学研究生、大学生均有数据挖掘课程。我国也陆续出书,开设课程。数据挖掘发展历程9从1995年正式召开第一次国际KDD会议(KDD’95)后,每年召一次。前四次均由美国AAAI组织,1999年提到ACM,成立了SIGKDD。使KDD学术上上了一个档次。亚太地区也紧跟世界潮流,1997年在新加坡召开了第一次亚太KDD会议,其中,1999年4月在北京召开了第三届亚太KDD会议(PAKDD99)。第五届PAKDD2001年4月16日在我国香港召开。第十五届(2011)在深圳召开。数据挖掘发展历程10国外有许多研究小组和机构。自1998年开始,我国许多单位的研究小组开展了KDD的研究与开发工作,我国各大科研资助项目(如“国家自然科学基金”,“973”、“863”、“攻关”)都设立了KDD的研究课题。一些企业也有此类项目研制和开发。数据挖掘发展历程11通用工具(非特定领域)SASEnterpriseMinerMinerSPSSClementineSGIMineSetOracleDarwinIBMIntelligentMinerAngossKnowledgeSeeker综合工具BusinessObjectCognosScenarioDataMining工具、软件、产品12面向应用的工具(特定领域)KD1(重点在零售业)Options&Choise(重点在保险业)HNC(重点在欺诈行为探查)UnicaModel1(重点在市场)IntelligentMiner(数据挖掘,文本挖掘)MinesetDBminerBODataMining工具、软件、产品13有许多预测机构都看好数据挖掘和KDD技术。权威预测机构Gartner报告中列举了在今后3~5年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。世界有名的GartnerGroup咨询公司预计:不久的将来先进大型企业会设置“统一数据分析专家”,数据仓库和数据挖掘一定会扩展开来!微软专家也认为数据挖掘会成为21世纪的重要技术之一,也有研究小组。在中国微软研究院有相应的研究小组。数据挖掘的前景与趋势14金融业(银行信贷、信用评估、信用卡等级、保险、证卷分析、监管、预警,外汇管理……)电信(各通信公司几乎都启动)商场(客户分析、货物摆放、交叉销售…)地税(异常发现…)医疗(医院在HIS基础上除建立全面的电子病例,就是建立数据挖掘系统)客户关系管理(CRM)国内企业数据挖掘项目15数据挖掘概述1.KDD定义、过程、分类2.成功因素3.数据挖掘技术4.数据挖掘的方法论5.应用情况161KDD定义、过程、分类1/7KDD定义KDD过程KDD分类17KDD(KnowledgeDiscoveryinDatabase,)定义:2/7KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘(DM)是KDD中一个重要环节18数据集:是一组事实F(如关系数据库中的记录);模式:是一个用语言L来表示的一个表达式E,它可用来描述数据集F的某个子集FE,E作为一个模式要求它比对数据子集FE的枚举要简洁(所用的描述信息量要少);过程:是指KDD是一个多阶段的过程,包括数据准备、模式搜索、知识评价,以及上述过程的反复求精;该过程是非平凡的,是指整个过程是自动的、智能的(如计算所有数据的总和、平均值都不能算作是一个KDD过程);KDD定义3/719有效性:是指发现的模式应用于新的数据时要具有一定的可信度;新颖性:要求发现的模式应该是新的、用户未知的或未预料到的;潜在有用性:是指发现的知识将来具有实际效用,如用户根据发现的知识进行商业决策可以产生一定的经济效益;最终可理解性:要求所发现的模式容易被用户理解。KDD定义4/720KDD过程5/7KDD过程可分为三个阶段:数据准备(datapreparation)、数据挖掘,以及结果的解释评价(interpretationandevaluation),如图所示。可视化用户界面数据库目标数据预处理好的数据转换后数据挖掘出的知识有用的知识选择/抽样预处理数据转换数据挖掘解释评价21过程6/71.数据的选择与抽样根据用户的需要从数据库中选择或抽样的一部分数据。2.数据预处理(1)数据的过滤:除噪声去冗余(2)数据的添补3.数据转换:数据转换的主要目的是消减数据维数或维数缩减4.数据挖掘:挖掘方法的使用5.结果的评价(1)可视化表示(2)解释(3)知识的使用6.循环22数据挖掘分类7/7(1)根据数据挖掘任务分数据挖掘有如下几种:分类、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系(或依赖模型发现)、异常和趋势发现等等。(2)根据数据挖掘的数据库或数据源分数据挖掘有以下几种:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、以及万维网()。(3)根据数据挖掘所采用的技术分数据挖掘可大致分为:统计方法、机器学习方法、神经网络方法和数据库方法。232.成功因素1/2(1)问题的明确(2)一定数量和质量的数据(3)领域专家的配合(结果的判断)(4)合适的方法和算法(5)决策者的决心242.成功因素2/2问题:1、数据数量与质量(积累、选择、清理)2、解决问题不明确3、领域专家参与不够4、领导决心不够(多人投入,少数人使用)难点:1、数据量大:纪录多、分类多、属性多2、大部分是NP-Hard难解问题3、找出方法,多为启发式方法253.数据挖掘所用的技术1/11数据库技术:1、海量数据的存储2、海量数据的检索统计技术:1、相关分析;2、回归分析(多元回归、自回归等);3、关联规则;4、贝叶斯分析(贝叶斯分类,贝叶斯网络)5、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)6、序列分析、时间序列分析263.数据挖掘所用的技术2/11机器学习技术:1、归纳学习:2、神经网络3、遗传算法4、基于示例的学习(推理)5、聚类数学方法:1、粗糙集(RoughSets)2、模糊逻辑方法;搜索与检索方法:1、有效的搜索引擎2、有效的文本(信息)检索可视化技术WebMining(网络挖掘)TextMining(文本挖掘)273.数据挖掘技术3/11①数据预处理②概念描述③关联规则④分类与预测⑤聚类技术⑥文本挖掘⑦Web挖掘28①数据预处理4/11数据清理:缺值、噪声(不是真正的数据)、数据不完整(缺数据)、数据不一致(计量单位不同,符号不同,同义词)、数据冗余、孤立点(例外,特殊值)数据变换:通过平滑、聚集、概化、规范化等将数据转换成适合数据挖掘的形式数据集成:通过数据去重、清理、规范化,按照要求集合成一个新的数据集。数据归约:通过各种方法使数据集变小,有意义。数据离散化:离散化是将连续属性值化为标号使取值数量减少,或用一个区间代替区间内所有可能的值,虽然离散化失去了细节值,但可使概念更清晰。29②概念描述5/11从数据分析角度看,数据挖掘分描述式数据挖掘和预测式数据挖掘。描述式DM:以简洁概要方式描述数据,并给出数据的一般性质。预测式DM:分析数据,建立一个或一组模型,预测新数据行为。概念描述是描述式DM的最基本形式,它以简洁汇总的形式描述给定的任务相关数据集。概念(类)描述由特征化和比较(区分)组成。特征化给出数据汇集的简洁汇总,有基于立方体的OLAP方法和面向属性的归纳方法。对比给出两个或多个数据汇集的比较,是对两组可比较的类进行概化和特征描述,然后进行比较。30③关联规则6/11通过各种方法找出一些事物与另一些事物的关联,这种关联有一定支持度和一定可信度。如:年收入20万,年龄30-40,无房=购买汽车,购买房子(s=10,c=70)购买鞋,兰球=运动衣,牛奶(s=5,c=50)X=Y(s,c)31④分类与预测7/11用特定的方法把一些数据对象归于预先设定的某一类,或预测某对象的未来值或趋势。这些特定方法是通过对样本数据的学习得到模型或函数,样本数据的类是给定的。分类是有指导的学习。分类方法有:决策树,人工神经网络,k-近邻,贝叶斯方法,案例推理,遗传算法,粗糙集方法,模糊方法。预测方法有:回归方法(线性,非线性,二元或多元回归)。32⑤聚类技术8/11按照对象的特点进行归类,归类的过程称聚类,得到的类,称簇,簇内对象相似性大,簇间相异性大。聚类过程不需要训练,即不需要样例,是无指导的学习。聚类的方法有:①分划方法,②分层方法,③基于密度方法④基于网格方法⑤基于模型方法⑥孤立点分析33⑥文本挖掘9/11对文本文本分类文本摘要文本信息抽取文本特征抽取文本学习模型文本自动分类系统文本自动摘要系统对中文文本分类:分词问题34⑦Web挖掘10/11基于内容挖掘(WebContentsMining)信息过滤、网页分类、信息抽取(InformationExtraction)基于结构挖掘(WebStructureMining)确定一个网络范围、模式集成/匹配基于使用挖掘(WebUsageMining)个性化服务:信息推荐、用户行为分析/预测文本挖掘是Web挖掘的基础。3
本文标题:DM 1 概述 数据预处理 QBai 21-08-2006
链接地址:https://www.777doc.com/doc-3572005 .html