您好,欢迎访问三七文档
2020年2月24日星期一DataMining:ConceptsandTechniques1数据挖掘概念与技术—Chapter1—©JiaweiHanandMichelineKamber2020年2月24日星期一DataMining:ConceptsandTechniques2Chapter1.引言什么激发了数据挖掘,为什么它是重要的?什么是数据挖掘?在何种数据上进行数据挖掘?数据挖掘功能所有模式都是有趣的吗?数据挖掘系统的分类数据挖掘的主要问题2020年2月24日星期一DataMining:ConceptsandTechniques3需要是发明之母数据爆炸问题自动数据收集工具和成熟的数据库技术导致海量数据累积,需要对数据库、数据仓库及其他信息存储设备中的数据进行分析。我们溺死在数据坟墓中,却难以提取有效信息解决方法:数据仓库与数据挖掘数据仓库and联机分析处理(OLAP)在大型数据库数据中挖掘有趣知识(规则,模式,约束)2020年2月24日星期一DataMining:ConceptsandTechniques4数据库技术发展1960s:数据收集,数据创建1970s:关系数据模型,关系数据库管理系统1980s:高级数据模型(扩充关系,面向对象,etc.)面向应用的数据库管理系统(空间的,时间的,知识库,etc.)1990s:数据挖掘,数据仓库,Web数据库2000s面向各种应用的数据挖掘Web技术和全球信息系统2020年2月24日星期一DataMining:ConceptsandTechniques5什么是数据挖掘?数据挖掘(从数据中提取或“挖掘”知识)从大量数据中提取有兴趣(不琐碎的,固有的,先前未知的和潜在有用的)知识数据挖掘:用词不当?同义词数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞注意事项:Iseverything“datamining”?查询处理.专家系统或统计程序2020年2月24日星期一DataMining:ConceptsandTechniques6为什么要数据挖掘?—潜在的应用数据分析与决策支持市场分析和管理目标市场,客户关系管理,市场销售分析,交叉销售,市场分割风险分析和管理预测,消费能力,质量控制,竞争力分析欺骗探测和不寻常行为探测其他应用Web挖掘DNA和生物信息挖掘2020年2月24日星期一DataMining:ConceptsandTechniques7市场分析和管理数据来源?信用卡事务,折扣优待卷,客户投诉电话,公众生活方式调查目标市场发现具有相同特征(兴趣、收入状况、消费习惯等)的消费者模式随着时间发展,决定消费者购买的模式交叉市场分析产品间的销售联系,基于这些联系进行预测消费者类型什么样的消费者买什么样的产品(聚类or分类)消费需求分析为不同消费者提供最好产品预测吸引新消费者的因素提供信息总结多维总结报告分析汇总信息(数据集中趋势和变化)2020年2月24日星期一DataMining:ConceptsandTechniques8公司分析&风险管理经费计划与资产评估现金流转分析和预测临时问题分析进行评估资产交叉组合和时间序列分析(财政比率,趋势分析,etc.)资源计划总结、比较资源花费竞争监控竞争者和市场方向划分消费群和基于分类的定价程序制定具有高度市场竞争力的定价策略2020年2月24日星期一DataMining:ConceptsandTechniques9欺骗探测&挖掘不寻常模式方法:聚类进行欺骗模式构造,孤立点分析应用:卫生保健,零售业,信用卡服务.汽车保险:洗钱:可疑金钱事务医疗保险长途通讯零售产业分析显示:38%的零售收缩归咎于不诚实雇员反对恐怖主义2020年2月24日星期一DataMining:ConceptsandTechniques10其他应用运动IBM高级侦察系统统计NBA比赛天文学喷气推进实验所(JPL)与Palomar天文台在数据挖掘帮助下发现22类星体2020年2月24日星期一DataMining:ConceptsandTechniques11数据挖掘:知识发现过程数据挖掘—知识发现过程的核心清理与集成数据库数据仓库选择与转变数据挖掘评估与表示2020年2月24日星期一DataMining:ConceptsandTechniques12知识发现过程步骤:了解应用领域相关前提知识和应用目标数据清理和数据集成:(可能需要付出60%的努力!)数据选择数据变换选择数据挖掘功能特征化、关联、分类、聚类分析以及演变和偏差分析.选择挖掘算法数据挖掘模式评价和知识表达可视化,转换,排除冗余模式,etc.使用发现知识2020年2月24日星期一DataMining:ConceptsandTechniques13数据挖掘和商业智能IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalystDataAnalystDBA决策知识表示VisualizationTechniques数据挖掘InformationDiscovery数据查询OLAP,MDAStatisticalAnalysis,QueryingandReporting数据仓库/数据集市数据源Paper,Files,InformationProviders,DatabaseSystems,OLTP2020年2月24日星期一DataMining:ConceptsandTechniques14结构:典型数据挖掘系统DataWarehouse数据清理数据集成过虑Databases数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库2020年2月24日星期一DataMining:ConceptsandTechniques15在何种数据上进行数据挖掘关系数据库数据仓库事务数据库高级数据库系统和高级数据库应用面向对象数据库对象关系数据库空间数据库时间数据库和时间序列数据库多媒体数据库异种数据库和遗产数据库数据挖掘功能概念/类描述:特征化和区分归纳,总结,对比数据特征,e.g.,dryvs.wetregions关联分析(相关性和因果关系)DiaperBeer[0.5%,75%]分类和预测模型构造:描述和预测类标记未知的对象类例如,基于气候划分国家,基于汽油消耗定额划分汽车表示:判定树,分类规则,神经网络预测空缺或不知道的数据值2020年2月24日星期一DataMining:ConceptsandTechniques17数据挖掘功能(2)聚类分析类标记是未知的:聚类数据以形成新类标记最大化类内的相似性、最小化类间的相似性孤立点分析孤立点:数据对象与数据的一般行为或模型不一致噪声or异常丢掉?不!在欺骗探测,罕见事件分析中有用演变分析趋势和背离连续时间序列数据分析,周期模式匹配分析基于类似性的数据分析2020年2月24日星期一DataMining:ConceptsandTechniques18所有模式都是有趣的吗数据挖掘会生成很多模式:并不是所有模式都是有趣的建议方法:Human-centered,query-based,focusedmining有趣模式易于被人理解;在某种程度上,对于新的或测试数据是有效的;是潜在有用的;是新颖的。客观vs.主观兴趣度度量客观:基于所发现模式的结构和关于它们的统计,e.g.,support,confidence,etc.主观:基于用户对数据的确信,e.g.,unexpectedness,novelty,actionability,etc.2020年2月24日星期一DataMining:ConceptsandTechniques19我们可以发现所有有趣模式吗?发现所有的兴趣模式:完全的数据挖掘系统可以发现所有有趣模式吗?启发式vs.穷举搜索联合vs.分类vs.聚类仅产生有趣的模式:最优化问题数据挖掘系统能仅产生有趣模式吗?方法首先生成所有模式,然后过虑非兴趣模式.仅生成有趣模式—优化数据挖掘查询2020年2月24日星期一DataMining:ConceptsandTechniques20数据挖掘:多学科汇总数据挖掘数据库技术统计学其他学科可视化信息科学机器学习2020年2月24日星期一DataMining:ConceptsandTechniques21数据挖掘:分类方案一般功能描述性数据挖掘预测性数据挖掘不同的观点,不同的分类根据挖掘的数据类型分类根据挖掘的知识类型分类根据所用的技术分类根据应用分类2020年2月24日星期一DataMining:ConceptsandTechniques22数据挖掘多维角度数据来源Relational,datawarehouse,transactional,stream,object-oriented/relational,active,spatial,time-series,text,multi-media,heterogeneous,legacy,知识被挖掘Characterization,discrimination,association,classification,clustering,trend/deviation,outlieranalysis,etc.不同概念层上多种挖掘功能结合运用技术Database-oriented,datawarehouse(OLAP),machinelearning,statistics,visualization,etc.面向应用Retail,telecommunication,banking,fraudanalysis,bio-datamining,stockmarketanalysis,Webmining,etc.2020年2月24日星期一DataMining:ConceptsandTechniques23数据挖掘的主要问题挖掘方法在数据库中挖掘不同知识,e.g.,bio,stream,Web性能:有效性,可伸缩性,并行处理模式评估:兴趣度问题结合背景知识处理噪声和不完全数据整合从已知信息中发现的知识:knowledgefusion用户交互数据挖掘查询语言表示和可视化数据挖掘结果多个抽象层的交互知识挖掘应用和社会影响特定范围数据挖掘应用保护数据安全性,完整性,保密性2020年2月24日星期一DataMining:ConceptsandTechniques24汇总数据挖掘:从大量数据中发现有趣模式数据库技术在大量需求,广泛应用驱动下自然发展知识发现过程:数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示可以在多种信息存储系统上挖掘数据挖掘功能:数据特征化,数据区分,关联,分类,聚类,孤立点和演变分析.数据挖掘系统和结构数据挖掘的主要问题2020年2月24日星期一DataMining:ConceptsandTechniques25Thankyou!!!
本文标题:数据挖掘介绍资料
链接地址:https://www.777doc.com/doc-3800197 .html