您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 常用数据挖掘算法总结及Python实现
常用数据挖掘算法总结及Python实现V1.0ByXuejunYang2016.09.18目录第一部分数据挖掘与机器学习数学基础..............................................................................................3第一章机器学习的统计基础..........................................................................................................3第二章探索性数据分析(EDA).............................................................................................11第二部分机器学习概述........................................................................................................................14第三章机器学习概述....................................................................................................................14第三部分监督学习---分类与回归......................................................................................................16第四章KNN(k最邻近分类算法)............................................................................................16第五章决策树................................................................................................................................19第六章朴素贝叶斯分类................................................................................................................29第七章Logistic回归...................................................................................................................32第八章SVM支持向量机..............................................................................................................42第九章集成学习(EsembleLearning)............................................................................................43第十一章模型评估........................................................................................................................46第四部分非监督学习---聚类与关联分析..........................................................................................50第十二章Kmeans聚类分析.........................................................................................................50第十三章关联分析Apriori...........................................................................................................52第十四章数据预处理之数据降维................................................................................................54第五部分Python数据预处理...............................................................................................................57第十五章Python数据分析基础...................................................................................................57第十六章Python进行数据清洗...................................................................................................77第六部分数据结构与算法....................................................................................................................82一、二叉树(前、中、后遍历)..................................................................................................82二、几种基本排序方法..................................................................................................................82第七部分SQL知识.............................................................................................................................86第八部分数据挖掘案例分析................................................................................................................87案例一AJourneythroughTitanic597c770e...............................................................................87案例二Analysisforairplane-crashes-since-1908..........................................................................94案例三贷款预测问题....................................................................................................................98案例四KNN算法实现葡萄酒价格模型预测及交叉验证........................................................107第一部分数据挖掘与机器学习数学基础第一章机器学习的统计基础1.1概率论1.概率论基本概念样本空间我们将随机实验E的一切可能基本结果组成的集合称为E的样本空间,记为S。样本空间的元素,即E的每一个可能的结果,称为样本点。样本空间又叫基本事件空间。例:拍拍贷用户的学历S={‘研究生或以上’,‘本科’,‘大专’,‘高中’,‘中专’,‘初中及以下’},A={‘研究生或以上’,‘本科’,‘大专’}事件事件A是样本空间的子集,可分为四种类型空事件:样本空间的空子集;原子事件:仅包含一个元素的样本空间;混合事件:包含多个元素的样本空间;样本空间本身也是一个事件.集合概率论定义概率用来描述一件事的不确定性。假设A是投硬币的一个结果(比如正面朝上),如果重复投硬币很多次,直到A出现的机会逼近一个极限p。那么可以说出现A的概率是p对于事件A和B,联合概率Pr(AB)表示事件A和B同时发生的概率。概率定律事件的概率:P(A)满足:P(A)0;P(S)=1;对于一连串的互斥事件:iiiiAPAP)()(SA条件概率发生事件A的情况下,发生B的概率称作条件概率P(B|A).()(|)()PBAPBAPA独立性事件发生和其它事件无关。如果P(B|A)=P(B),我们称B和A统计独立,当且仅当:()()()PABPAPB如果A和B统计独立,那么B与A也统计独立总概率P(A)=P(𝐴∩𝐵)+P(A∩𝐵̅)=P(A|B)P(B)+P(A|𝐵̅)P(𝐵̅)贝叶斯理论(|)()(|)()PABPBPBAPAP(B):B的先验概率,非条件概率,或者边际概率P(A|B):给定B条件下的A的条件概率,也被称作“似然”P(A):A的边际概率,也作为B的后验概率的归一化常量P(B|A):B的后验概率2.随机变量,期望,方差随机变量X是随机试验的数值型结果相关概念:观测值:其中一个结果成为观测值数据:多个观测值集合为数据总体:所有的结果称为总体有两种类型的随机变量离散变量:值数目可数对于离散型随机变量,我们关心每个特定数值出现的概率eg.客户的婚姻情况连续变量:数值在一定范围内对于连续性变量,某一个特定值出现的概率为0,我们只关心区间的概率Eg.客户的投资金额概率分布随机变量的分布就是它所有可能的输出以及它们的概率集合概率密度函数随机变量的概率密度函数描述该随机变量在某个取值发生的可能性离散变量:P(X=x)=p(x)连续变量:badxxpbXaP)()(累积分布函数x处的累积分布函数是负无穷到x点的概率密度函数的累加和期望期望是指所有可能值的加权和。其权重对于离散值而言就是该值出现的概率,而对于连续值而言就是其密度函数。离散情况:连续情况:xall)()p(xxXEiidxxp(x)XExall)(方差用来描述该随机变量值和平均值的离散程度离散情况连续情况xall2))(()()p(xXExXVariidxp(x)XExXVarxall2))(()(3.常用概率分布离散分布:伯努利分布(二项分布)概率密度函数:xxppxp1)1()(均值:pXE)(方差:)1()(ppXVar连续分布正态分布是最常用的一种连续分布。密度函数的特点是:关于均值μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,图像是一条位于x轴上方的钟形曲线。期望值μ决定了分布的位置,标准差σ决定了分布的幅度。当μ=0,σ^2
本文标题:常用数据挖掘算法总结及Python实现
链接地址:https://www.777doc.com/doc-3521347 .html