您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 数据挖掘基本概念与算法介绍
数据挖掘基本概念与算法介绍TERADATA2007年5月TeradataConfidential2报告内容数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘的基本概念TeradataConfidential3改变未来世界的十大新兴技术《TechnologyReview》(麻省理工学院2002年1月出刊)机器与人脑的接口塑胶晶体管数据挖掘(DataMining)数字权利管理生物测定学(Biometrics)语言识别处理微光学技术(Microphotonics)解开程序代码(UntanglingCode)机器人设计微应用流体学(Microfluidics)TeradataConfidential4什么是数据挖掘?DataInformationKnowledgeWisdom存在太多数据挖掘的定义,但基本上有这样一种描述结构Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experienceTeradataConfidential5为什么会出现数据挖掘?数据爆炸性增长是数据挖掘技术应运而生的根本原因。只见树木,不见森林(Drowningindatabutstarvingforinformation)计算复杂度数据管理问题数据类型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?TeradataConfidential6其他数据分析方法:统计学从处理数据的角度看、、、数据规模不同数据来源不同:观测数据(SecondaryAnalysis)VS试验数据(PrimaryAnalysis)数据类型不同(结构化数据、半结构化数据、非结构化数据)从分析思想的角度看更关注实证性分析(EmpiricalAnalysis)而非探索性分析(ExploratoryAnalysis)更关注模型(Model)而非算法(Algorithm)但二者具有相当密切的联系从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析!TeradataConfidential7其他数据分析方法:商业智能E.F.Codd的数据分析模型绝对模型(CategoricalModel):依据预定义路径寻找原因,如查询解释模型(ExegeticalModel):依据多层次路径寻找原因,如多维分析思考模型(ContemplativeModel):参数化路径,如场景分析公式模型(FormulaicModel):模型化路径,如数据挖掘ReportingAdHocQueriesPredictiveModelingWhathappened?Whydidithappen?Whatwillhappen?ROI应用复杂性Stage3Stage2Stage1HumanDiscoveryMachine-assistedDiscovery现象=模型+误差数据挖掘寻找的是模型!TeradataConfidential8数据挖掘是一个过程-“fromdataminingtoknowledgediscoveryindatabase”.U.fayyad,G.P.ShapiroandP.Smyth(1996)TeradataConfidential9数据挖掘过程中的数据预处理数据清洗填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析数据离散化数据简化的一部分,但非常重要(尤其对于数值型数据来说)TeradataConfidential10数据挖掘过程中的数据探索探索性数据分析(ExploratoryDataAnalysis,EDA)探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定“玩”数据主要任务数据可视化(apictureisworthathousandwords)残差分析(数据=拟合+残差)数据的重新表达(什么样的尺度-对数抑或平方跟-会简化分析?)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)常见方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼图、直方图、散点图、箱尾图等模型,如聚类TeradataConfidential11什么不是数据挖掘?定量分析(QuantitativeAnalysis)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。简单的报表、图表及多维分析仍是日常分析工作的主要内容小样本数据的分析传统统计分析方法更成熟有效,如趋势预测某些特定业务问题无法用数据挖掘算法加以解决,例如资源最优配置问题是个运筹学问题某些物流管理问题或者供应链管理问题是个随机规划问题营销预演本质是个系统仿真问题TeradataConfidential12报告内容数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘与统计分析TeradataConfidential13统计学与数据挖掘的联系从处理数据数据挖掘中采用了大量统计学的思想、方法和工具聚类分析(无监督学习过程,统计分析中的主要技术)–K-Means–SelfOrganizingMap(SOM)数据分类(有监督学习过程)–统计分类技术:距离判别,费雪判别,贝叶斯判别–数据挖掘中的分类技术:决策树,神经网络其他方法–相关分析–主成分分析–回归分析–序列分析TeradataConfidential14统计学与数据挖掘的区别数据样本数量不同(在统计学中样本数量大于30,则成为大样本)数据来源和质量不同数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据方法数据挖掘的前提是占有大量数据,统计中的实验设计、抽样设计并不适用有些数据挖掘的分析方法是统计学中没有的,如强调实时分析统计分析方法在对大规模数据处理时占用系统的资源和时间太多,不适宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法模型(模式)模型(统计学)VS模式(数据挖掘)统计建模强调模型的普适性,数据挖掘强调从数据中发现模式算法统计学强调模型,运算量居于次要地位数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算法而不是模型方法论统计学:以数学为基础,每种方法有严格的证明体系数据挖掘:采用实验方法,不具有很强的严谨性TeradataConfidential15数据挖掘相对于统计学的特点使用数据挖掘工具无须具备太专业的统计知识,处理大量的实际数据更有优势,使得数据挖掘人员可以集中精力在业务建模方面数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,更能满足企业的需求从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的末端使用者应用,而非为统计学家提供检验工具TeradataConfidential16报告内容数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘的基本算法TeradataConfidential17几个基本概念模型(Model)vs模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出描述型挖掘(Descriptive)vs预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段TeradataConfidential18几类基本的挖掘算法关联规则(模式、描述型)发现数据集中的频繁模式例如:buy(x,”diapers”)buy(x,”beers”)[0.5%,60%]分类与预测(模型、预测型)发现能够区分或预测目标变量(唯一的)的规则或者函数分类的目标变量一般是范畴型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示例如:股票市值的预测,病人病情的判断聚类(模型、描述型)对数据分组以形成新类,类标记是未知的例如:市场细分孤立点探测(OutlierDetection)(模式、预测型)分析异常或噪声数据的行为模式例如:欺诈检测TeradataConfidential19广东移动数据挖掘项目中的数据挖掘算法客户流失(分类模型、Logistic回归算法)彩铃WAP购买倾向预测(分类模型、Logistic回归算法)彩信增量销售预测(分类模型、Logistic回归算法)彩铃用户流失预测(分类模型、Logistic回归算法)客户价值增长预测(分类模型、Logistic回归算法)竞争对手流失预测(分类模型、Logistic回归算法)集团客户分群(聚类模型、K-Means算法)集团客户级别打分(分类模型、Logistic回归算法)产品关联分析(关联规则)个人客户分群分析(聚类模型、K-Means算法)集团客户流失预警模型(AHP方法+Logistic回归算法)TeradataConfidential20分类问题的基本定义给定一数据集合(训练集)数据记录由一系列变量组成其中有一个变量是目标分类标签寻找一模型,使目标分类变量值是其他变量值的一个函数利用上述函数,一未知分类变量值的数据记录能够尽可能准确地被判定到某一类别中去一般会有另一独立地数据集(测试集)用以验证所构建分类函数的准确性,避免过度拟合TeradataConfidential21分类过程示意NAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3noNAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yes训练集分类学习训练集分类器NAMERANKYEARSTENUREDJefProfessor4?IFrank=‘professor’ORyears6THENtenured=‘yes’JefisYES!TeradataConfidential22先回顾简单的二元线性回归问题y=b0+b1x+uy称为被解释变量或者因变量,是一个连续变量X称为解释变量或者自变量,是一个连续变量b0、b1称为回归系数u是随机误差,一般假设服从标准正态分布yxy=b
本文标题:数据挖掘基本概念与算法介绍
链接地址:https://www.777doc.com/doc-3700104 .html