您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据应用基础-分类算法115
分类算法大数据应用基础魏炜1大数据复习2大数据的核心是什么•大数据人才可以分为分析人才和架构人才。•其中,需求量最大的是分析人才。•而分析的核心是数据挖掘。•大数据目前的发展重点是怎么对非结构化数据进行数据挖掘。–物联网、智能手机、可穿戴、智能硬件等技术设备将正在让数据成几何倍数增长。3大数据的核心——非结构化数据•结构化数据的分析相对比较成熟,比如Excel、关系型数据库、数据仓库的OLAP在企业中已经无人不知。•对于非结构化数据,难点在于:–数据收集与集成:设法通过各种设备收集数据,并把各种数据来源集成起来。例如,围绕一个人,怎样能从公司内部和外部的各种渠道,收集他多方面的数据,把其中的非结构化数据转化成结构化数据,然后把各种数据集成起来,从而用一个特征向量来表示他的特征。–数据分析:怎样分析这种高维度的数据。非结构化数据的维度是无止境的,比如百度能分析几十亿维的特征。4大数据架构技术的核心•主要有两种计算:•离线分布式计算–这种计算能处理海量数据,并运行复杂的算法,其中包括数据挖掘算法、非结构化数据特征的提取(例如搜索引擎索引的编制)、推荐算法等。–它能充分发挥分布式计算的优点,但是完成所需计算的耗时可能是几分钟、几小时或更长时间,因此有时还需要用在线计算加以补充。–主要的开源技术是Hadoop。这也是最热门的大数据架构技术。–很多算法都有其适合于在Hadoop平台上进行分布式运行的版本。大数据分析人员应能掌握常见算法的分布式版本。•在线分布式计算–可以把一些简单的计算以极快的速度完成。例如,搜索引擎的反应时间、广告交易平台的更新时间都在0.1秒以内。–相关开源技术有Storm、Kafka等。商用方案有IBM的流计算等。5大数据架构技术的核心•此外,还有一种重要技术,叫内存计算。–原理是:在内存里计算比在硬盘里计算快得多。–这种技术使用的前提就是内存足够大。商用方案有SAPHana等。–它可以和分布式计算结合。例如,开源平台Spark就采取这种思路。6大数据技术中的算法•大数据技术中的算法不只是数据挖掘。•除了数据挖掘,典型的计算任务还有:–搜索引擎中的文本特征提取,即相对词频计算–推荐系统中的用户间相似度计算、物品间相似度计算等•不过,数据挖掘无疑是最重要的一大类算法。7数据挖掘的概念辨析•和统计相比,数据挖掘倾向于处理大规模数据,并且其宗旨是减少人工操作。而统计往往有赖于分析人员手工操作。在统计之前,常常对变量间的关系做假设;而数据挖掘的重点在于预测的结果,不一定追究预测的依据。•数据挖掘和人工智能、机器学习的重合度非常高。不过,早先的人工智能侧重于由人工设定规则,而当今越来越重视从数据中自动获得知识、•对于非结构化数据的挖掘,通常需要把非结构化数据转化成结构化的形式,然后再采用数据挖掘算法。•数据挖掘不只是要重视算法,提高数据质量、理解应用领域也是不可或缺的。8数据挖掘的基本流程数据预处理2评估4信息收集31数据挖掘33知识表示359数据挖掘算法分类•有监督学习:分类与回归–有标识。–通过模仿做出正确分类的已有数据,从而能够对新的数据做出比较准确的分类。这就像教小孩学习一样。•无监督学习:聚类、关联规则–无标识–聚类:针对客户特征进行客户群划分。由此,我们可以对不同客户群采取差异化的促销方式。–关联规则:分析发现购买面包的顾客中有很大比例的人同时购买牛奶。由此,我们可以把面包和牛奶摆在同一个货架上。•此外,降维方法经常服务于数据挖掘算法–它把特征维度降低,从而使运算更快。10数据挖掘算法分类•此处观看案例视频11高度重视以下同义词•以下术语大致是同一个意思:•表格中的行:个案=实例=记录=样本点=数据点•表格中的列:属性=特征=字段=维度=预测变量=自变量12数据准备的重要性•没有高质量的数据,就没有高质量的挖掘结果。数据准备工作占用的时间往往在60%以上!13分类模型的评价•模型算法质量的评价是很重要的一部分。对分类模型和聚类模型的评价方法是不同的。•对于分类模型,通常用一些指标来进行模型评价和选择。通常采用的指标有:ROC曲线、Lift曲线。其本质都是与预测的准确性有关的。•分类模型评价的主要宗旨就是:减少误判(假阳性)和漏判(假阴性)。•我们可以对不同的分类算法,设置不同的参数,进行反复比较,根据在多个效果指标(比如ROC曲线的AUC值、Lift曲线)上是否有稳定的好的表现,选择一个最终落地应用的模型。14分类的步骤——数据集的划分•把过去的数据分成两份,其中一份当做训练集,另一份当做测试集(用来模拟“未来的”数据)。通常,我们会将大多数数据作为训练集(比如80%),而少数数据作为测试集。•历史数据中每行都要有输入数据(输入变量值)和输出数据(目标变量值)。15分类的步骤——模型的训练与使用•首先采用训练集进行训练,目的是在已知目标值的情况下,找出输入变量和目标值之间的关系,从而得到经过训练的分类模型。•我们用这个模型对测试集中的目标变量进行预测,然后把目标变量的真实值和预测值进行比较,看看预测精度如何。•我们可以尝试不同的分类算法,并对每个分类算法进行参数调节,经过反复比较后,可以选择一种预测精度最高的分类算法及其参数组合。•之后,就可以对新的真实数据进行分类了。16分类的步骤17复习到此结束•复习到此结束。•现在翻到本幻灯片后面几页,在上一次课的进度基础上继续。18分类算法的核心概念辨析19按目标变量类型把监督学习分为两类•监督学习可分为两类:•回归:针对数值型目标变量的监督学习。–回归也可以称作估计(estimation)•分类:针对分类型目标变量的监督学习。•很多监督学习算法既可以用于分类,也可以用于回归:–例如:支持向量机、人工神经网络、决策树•分类和回归的原理是一致的。20注意回归这一概念的歧义•以上所说的是广义的回归。•狭义的回归则是源于统计学的建模方法,根据目标变量类型的不同,可分为线性回归、逻辑斯蒂回归等。•在监督学习当中,在这些回归模型里,以逻辑斯蒂回归最为常用,其次是线性回归。–逻辑回归是针对分类型目标变量的回归模型。–线性回归是针对连续型目标变量的回归模型。21有监督学习与预测的区别•分类与回归经常被用于对未来进行预测,但它们并不总是用于对未来进行预测。–比如,垃圾邮件识别和异常交易识别就不是预测;而贷款还款风险预估则算是预测。但两者都采用有监督学习。•预测的方法不只有分类和回归,但分类和回归是最主要的预测方法。–基于时间序列的预测也是比较常用的预测方法。22二分类和多分类•除了二分类,很多分类算法也支持多分类。•多分类的输出可以是多个类别中的一个。多分类比二分类要稍微难一点。•基本思路是:将多分类问题转化成一系列二分类问题,从而得以使用二分类模型。23分类算法的典型应用24分类算法的应用——销售•经典应用——响应模型:例如预测顾客是否会响应直接邮寄广告(directmail,直邮)或促销短信,即是否会成为客户。–我们通常会把以前的促销活动的历史消费数据作为训练集。25分类算法的应用——金融•通过风险评估,银行可以减少坏账,增加收益。•经典应用——贷款风险评估:银行贷款部门预测借款人是否有可能拖欠,从而判断是否应接受贷款申请。–我们把以往信用不良的客户的数据作为训练集。•经典应用——信用卡风险评估:判断是否应该批准某顾客的信用卡申请,即通过分析申请人的信用卡使用行为、社交媒体数据、电话使用数据,对未来恶意透支的信用风险进行预测。在这个应用中,用户个人信息很丰富,所以数据维度很多,进而预测精准度比较高。26分类算法的应用——金融•经典应用——欺诈检测:主要有信用卡欺诈交易检测、网上银行交易欺诈、保险索赔的欺诈检测。–通过分析客户基本特征和以往使用行为来检测非法使用。–这种监控可以在线实时进行,也可以定期进行。–客户进行保险投诉时提供的理由的文本也是一种数据来源。–正类(欺诈交易)远不及负类(正常交易)频繁。27保险索赔的欺诈检测28分类算法的应用——电信•经典应用——电信运营商、银行、保险公司等会员制公司的客户流失分析:–通过客户消费数据、客户致电呼叫中心的通话(例如打电话进行投诉或威胁要更换运营商)、微博上的帖子和在搜索引擎上的搜索记录(比如关于“如何取消与中国电信的合约”),预测哪些客户可能要离网或取消账号。–运营商可以对可能流失的顾客采取打折促销等措施。29分类算法的应用——机电设备•经典应用——故障预测:根据传感器数据,预测设备的哪个部位容易出故障。数据实时传回制造商。–对于大型设备,制造商会及时主动上门维修;对家用设备,制造商则通知用户找人维修。•例如:复印机、汽车、飞机、火车、军车、游艇、钻孔设备、发动机30分类算法的应用——沟通交流•经典应用——垃圾邮件过滤:把邮件自动标记为垃圾邮件或正常邮件。31分类算法的应用•从卫星图像检测石油泄漏•预测犯罪可能性•癌症诊断•Web新闻分类•手写字符识别•语音识别32对分类算法的常见应用的小结•营销:响应模型•金融:客户风险评估、欺诈检测•电信:客户流失预测•设备制造:故障预测33常见分类算法34决策树•决策树是最流行的分类方法。•直观上看,其过程是:从根部开始,层层分枝,最终生长出树叶,也就是形成若干叶子结点。•它的每次划分都是基于最显著的特征的。•所分析的数据样本被称作树根,算法从所有特征中选出一个最重要的(即最“具有信息”的,即使得所得到的两个分支的差异最大的特征),用这个特征把样本分割成若干子集。•重复这个过程,直到所有分支下面的实例都是“纯”的,即子集中各个实例都属于同一个类别,这样的分支即可确定为一个叶子节点。在所有子集都变成“纯”的后,树就停止生长了。35决策树•随着决策树不断向下延伸,就好比是用榨汁机不断挤出“知识的果汁”。36决策树的剪枝•如果决策树建得过深,容易导致过度拟合问题。•当每个分枝只对应一个具体的实例(例如一个客户),这个规则就完全失去了概括性。•为了避免生成的树对训练数据过度拟合,必须在树生成之后,对树进行剪枝处理,对节点进行删减,控制树的复杂度。剪枝对提高树对新实例的预测准确性至关重要。–剪枝通常采用自下而上的方式。每次找出训练数据中对预测精度贡献最小的那个分支,剪掉它。37决策树的剪枝•简言之,先让决策树疯狂生长,然后再慢慢往回收缩。•整体上往回缩多少,要根据在测试集上的表现来反复尝试。38决策树的用途•分类树:决策树可以处理二分类、多分类问题。这时它也叫做分类树。•回归树:最早的决策树仅用于分类型的目标值。它已经扩展到可以用于数值型目标变量(比如预测每个人的月收入),这时它也叫回归树。不过,回归树的性能不如回归分析和神经网络。–所以,在估计数值型目标变量时,它很少作为首选算法。•它除了用来分类,也常常用于帮其他算法筛选出一组好的输入变量。所以,即使最终使用的模型是其他模型,分析的初期阶段也经常用决策树。39决策树的优缺点•决策树的最大优点是它所产生的是一系列“如果…那么…”的判断规则,非常直观、通俗易懂,容易被业务人员理解,很多规则能直接拿来应用。–其输出结果很容易可视化展示。•它需要的数据预处理很少。它对数据分布没有严格的要求、不容易受异常值影响、对缺失值很宽容。–由于它没使用数值型特征的实际值,而是对其进行离散化后再使用,所以它对异常值和偏态分布不敏感。–缺失值对它根本不是问题。40决策树的例子——是否去相亲41决策树的例子——判断性别•决策树的输出结果有两种:决策树、规则集•这是用规则集的形式展示的决策树输出结果42决策树例子——是否参加战斗43决策树的其他例子•根据各种用户特征判断该账号是否真实•根据各种天气参数判断是否适合打高尔夫44逻辑回归•逻辑回归是一种常用的分类方法。它非常成熟、应用非常广泛。•它是回归的一种。回归分析也是统计学中应用最广泛的一种分析工具。回归不只可以用于分类,也能用于发现变量间的因果关系。•最主要的回归模型有多元线性回归(Linearregression)和逻辑回归(Logisticregression)。前者适于连续的目标变量,后者适于类别型的目
本文标题:大数据应用基础-分类算法115
链接地址:https://www.777doc.com/doc-27109 .html