您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > MATLAB技术论坛数据挖掘公开课(一)数据挖掘概论
Matlabsky论坛Matlab数据挖掘公开课王小川同济大学经管学院博士研究生新浪微博:论坛交流地址•发布视频、数据和ppt•交流沟通•我的新浪微博:王小川_matlab•我的论坛ID:Yaksa•说明:本次公开课中的数据挖掘技术不适用于视频和音频数据挖掘。3综合篇•一数据挖掘概论•二数据•三数据可视化•四分类(概念、决策树模型、ANN)•五关联分析(概念、算法)•六聚类分析(概念、算法、实现)•七异常检测4专题篇•神经网络的MATLABGUI实现•决策树的来龙去脉•人人网好友推荐系统•新浪微博营销效果评价系统•信用卡申请者按低、中、高风险分类•电商购物车的那点事•网站优化与数据挖掘•……..5一什么是数据挖掘?数据挖掘是通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。•大量数据•自动或半自动化的工具•探索有意义的模式和规律在大型数据库中,自动地发现有用信息的过程,可以用来探查大型数据库,发现先前未知的有用模式,同时,DM还有预测未来观测结果的能力。•并非所有的信息发现任务都被视为数据挖掘•数据挖掘并非等于机器学习《数据挖掘-客户管理的科学与艺术》《数据挖掘导论》6二数据挖掘能做什么?•分类•估计(回归)•组合或关联法则•聚类•描述和可视化•异常检测72.1分类•先对一个新的客观事物特征进行描述,然后将客观事物的观察值分配到事先确定的类别之中。对不同的类别加以定义训练集模型对未分类数据进行分析应用实例1将网上的每一篇文章按照关键词分在不同类别中;2将信用卡申请者按低、中、高风险分类;3决定哪些家庭的电话线是被用来上网的;4将顾客按照预定的消费能力进行分组。注意:类别已知,并且优先,目的是将任何记录分配在某一类中。处理的结果是离散的结果。82.2估计(回归)•在已知一些输入数据后,我们用估计的方法得到未知的连续型随机变量的某一数值的过程。选择固定指标训练集模型对数据进行预测应用实例1一个家庭中孩子个数的估计;2一个家庭总收入的估计;3一笔不动产价值的估计;注意:多数情况下,分类与估计在一起使用。例如数据挖掘在被用来预测哪些客户对银行信用卡结余转账服务有兴趣时,往往同时需要估计从银行卡向信用卡转账金额的多少。92.3组合或关联法则•组合法的任务是确定哪些事物会一起出现;(超市,购物篮购物车)啤酒+尿布•组合法还可以用来分析交叉购物的机会,以设计有吸引力的多种商品和服务的包装与组合。102.4聚类•聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中。聚类和分类的主要不同是:聚类并不依赖于事先确定好的组别。数据挖掘者决定各类是否有意义,意义是什么。•聚类通常作为数据挖掘或建模过程的第一步工作。应用实例客户喜欢什么样的促销方式?注意:不应简单地采取单一的办法,应该首先按照顾客的购买习惯进行聚类,相近购买习惯的顾客被分为一类中,不同的类别表明不同的购买习惯,然后分别调查了解每一类顾客最喜欢的促销方式。112.5描述与可视化•增进对复杂数据库的了解。•数据可视化是数据挖掘的一种有效性描述性手段。不易,但一幅好的图片确实比成百上千条关联法则的说明更有效。人们习惯于从视觉的感受中抽象出有用的信息。12三数据挖掘的两种类型•自上而下---有监督的数据挖掘方法以预测模型形式表现出来,数据挖掘者知道想要预测的目标是什么。•自下而上---无监督的数据挖掘方法在数据中寻找模式,把产生的结果留给使用者去判断其中哪些模式是重要的。133.1有监督的数据挖掘•使用黑匣子半透明模型来进行数据挖掘有时我们并不关心模型如何运作,那只是黑盒子,我们只关心可能的最优结果有时需要使用模型能够得到与数据相关的重要信息。我们也需要了解模型的运作细节,就好比一组半透明的盒子14•预测的根本在于学习过去,学习的方法使得产生的知识可以用于未来的需要。•注意:最好的模型并非开始构造时,就产生最高的增益。最好的模型是对那些看不见的,未来的数据作用时效果最好的模型。153.2无监督的数据挖掘•在数据中寻找新的模式。更深入的了解数据,了解数据本身就有可能生成有用的信息。•无监督的数据挖掘常用于数据探索阶段。•注意:有些预测建模方法,特别是决策树,在产生模型的时候也解释了建模的过程。使用无监督的数据挖掘要做到人机交互。也就是说,先进的算法可以在数据中找到模式,但是必须由分析员来决定哪些模式是有用的,以及这些模式的含义是什么。16四数据挖掘的循环过程理解企业业务问题,了解数据分析结果的价值体现领域。使用DM方法将数据转换成可执行的决策行动按照决策采取行动评价工作成效,提出数据探索方面的建设性意见17五对企业的提示•哪些问题对企业至关重要•哪些信息,是现在没有得到,一旦得到就行动•要解决的问题一定要数据挖掘吗?•怎样将业内专家的经验和直觉,加入到综合决策中•数据挖掘的核心是将数据转换成可操作的结果18启示•美国著名的摄影大师AnselAdams说过,在摄影艺术中,最大的讽刺是:最自然、最朴实无华的照片恰恰成就与最多的筹备和事先的安排。数据挖掘的成功通过需要事先的规划和对商业问题的理解。最后的作品是美学和技术的完美结合。ThankYou!
本文标题:MATLAB技术论坛数据挖掘公开课(一)数据挖掘概论
链接地址:https://www.777doc.com/doc-5926294 .html