大数据应用基础-分类算法115

分类算法大数据应用基础魏炜1大数据复习2大数据的核心是什么•大数据人才可以分为分析人才和架构人才。•其中，需求量最大的是分析人才。•而分析的核心是数据挖掘。•大数据目前的发展重点是怎么对非结构化数据进行数据挖掘。–物联网、智能手机、可穿戴、智能硬件等技术设备将正在让数据成几何倍数增长。3大数据的核心——非结构化数据•结构化数据的分析相对比较成熟，比如Excel、关系型数据库、数据仓库的OLAP在企业中已经无人不知。•对于非结构化数据，难点在于：–数据收集与集成：设法通过各种设备收集数据，并把各种数据来源集成起来。例如，围绕一个人，怎样能从公司内部和外部的各种渠道，收集他多方面的数据，把其中的非结构化数据转化成结构化数据，然后把各种数据集成起来，从而用一个特征向量来表示他的特征。–数据分析：怎样分析这种高维度的数据。非结构化数据的维度是无止境的，比如百度能分析几十亿维的特征。4大数据架构技术的核心•主要有两种计算：•离线分布式计算–这种计算能处理海量数据，并运行复杂的算法，其中包括数据挖掘算法、非结构化数据特征的提取（例如搜索引擎索引的编制）、推荐算法等。–它能充分发挥分布式计算的优点，但是完成所需计算的耗时可能是几分钟、几小时或更长时间，因此有时还需要用在线计算加以补充。–主要的开源技术是Hadoop。这也是最热门的大数据架构技术。–很多算法都有其适合于在Hadoop平台上进行分布式运行的版本。大数据分析人员应能掌握常见算法的分布式版本。•在线分布式计算–可以把一些简单的计算以极快的速度完成。例如，搜索引擎的反应时间、广告交易平台的更新时间都在0.1秒以内。–相关开源技术有Storm、Kafka等。商用方案有IBM的流计算等。5大数据架构技术的核心•此外，还有一种重要技术，叫内存计算。–原理是：在内存里计算比在硬盘里计算快得多。–这种技术使用的前提就是内存足够大。商用方案有SAPHana等。–它可以和分布式计算结合。例如，开源平台Spark就采取这种思路。6大数据技术中的算法•大数据技术中的算法不只是数据挖掘。•除了数据挖掘，典型的计算任务还有：–搜索引擎中的文本特征提取，即相对词频计算–推荐系统中的用户间相似度计算、物品间相似度计算等•不过，数据挖掘无疑是最重要的一大类算法。7数据挖掘的概念辨析•和统计相比，数据挖掘倾向于处理大规模数据，并且其宗旨是减少人工操作。而统计往往有赖于分析人员手工操作。在统计之前，常常对变量间的关系做假设；而数据挖掘的重点在于预测的结果，不一定追究预测的依据。•数据挖掘和人工智能、机器学习的重合度非常高。不过，早先的人工智能侧重于由人工设定规则，而当今越来越重视从数据中自动获得知识、•对于非结构化数据的挖掘，通常需要把非结构化数据转化成结构化的形式，然后再采用数据挖掘算法。•数据挖掘不只是要重视算法，提高数据质量、理解应用领域也是不可或缺的。8数据挖掘的基本流程数据预处理2评估4信息收集31数据挖掘33知识表示359数据挖掘算法分类•有监督学习：分类与回归–有标识。–通过模仿做出正确分类的已有数据，从而能够对新的数据做出比较准确的分类。这就像教小孩学习一样。•无监督学习：聚类、关联规则–无标识–聚类：针对客户特征进行客户群划分。由此，我们可以对不同客户群采取差异化的促销方式。–关联规则：分析发现购买面包的顾客中有很大比例的人同时购买牛奶。由此，我们可以把面包和牛奶摆在同一个货架上。•此外，降维方法经常服务于数据挖掘算法–它把特征维度降低，从而使运算更快。10数据挖掘算法分类•此处观看案例视频11高度重视以下同义词•以下术语大致是同一个意思：•表格中的行：个案=实例=记录=样本点=数据点•表格中的列：属性=特征=字段=维度=预测变量=自变量12数据准备的重要性•没有高质量的数据，就没有高质量的挖掘结果。数据准备工作占用的时间往往在60%以上！13分类模型的评价•模型算法质量的评价是很重要的一部分。对分类模型和聚类模型的评价方法是不同的。•对于分类模型，通常用一些指标来进行模型评价和选择。通常采用的指标有：ROC曲线、Lift曲线。其本质都是与预测的准确性有关的。•分类模型评价的主要宗旨就是：减少误判（假阳性）和漏判（假阴性）。•我们可以对不同的分类算法，设置不同的参数，进行反复比较，根据在多个效果指标（比如ROC曲线的AUC值、Lift曲线）上是否有稳定的好的表现，选择一个最终落地应用的模型。14分类的步骤——数据集的划分•把过去的数据分成两份，其中一份当做训练集，另一份当做测试集（用来模拟“未来的”数据）。通常，我们会将大多数数据作为训练集（比如80%），而少数数据作为测试集。•历史数据中每行都要有输入数据（输入变量值）和输出数据（目标变量值）。15分类的步骤——模型的训练与使用•首先采用训练集进行训练，目的是在已知目标值的情况下，找出输入变量和目标值之间的关系，从而得到经过训练的分类模型。•我们用这个模型对测试集中的目标变量进行预测，然后把目标变量的真实值和预测值进行比较，看看预测精度如何。•我们可以尝试不同的分类算法，并对每个分类算法进行参数调节，经过反复比较后，可以选择一种预测精度最高的分类算法及其参数组合。•之后，就可以对新的真实数据进行分类了。16分类的步骤17复习到此结束•复习到此结束。•现在翻到本幻灯片后面几页，在上一次课的进度基础上继续。18分类算法的核心概念辨析19按目标变量类型把监督学习分为两类•监督学习可分为两类：•回归：针对数值型目标变量的监督学习。–回归也可以称作估计（estimation）•分类：针对分类型目标变量的监督学习。•很多监督学习算法既可以用于分类，也可以用于回归：–例如：支持向量机、人工神经网络、决策树•分类和回归的原理是一致的。20注意回归这一概念的歧义•以上所说的是广义的回归。•狭义的回归则是源于统计学的建模方法，根据目标变量类型的不同，可分为线性回归、逻辑斯蒂回归等。•在监督学习当中，在这些回归模型里，以逻辑斯蒂回归最为常用，其次是线性回归。–逻辑回归是针对分类型目标变量的回归模型。–线性回归是针对连续型目标变量的回归模型。21有监督学习与预测的区别•分类与回归经常被用于对未来进行预测，但它们并不总是用于对未来进行预测。–比如，垃圾邮件识别和异常交易识别就不是预测；而贷款还款风险预估则算是预测。但两者都采用有监督学习。•预测的方法不只有分类和回归，但分类和回归是最主要的预测方法。–基于时间序列的预测也是比较常用的预测方法。22二分类和多分类•除了二分类，很多分类算法也支持多分类。•多分类的输出可以是多个类别中的一个。多分类比二分类要稍微难一点。•基本思路是：将多分类问题转化成一系列二分类问题，从而得以使用二分类模型。23分类算法的典型应用24分类算法的应用——销售•经典应用——响应模型：例如预测顾客是否会响应直接邮寄广告（directmail，直邮）或促销短信，即是否会成为客户。–我们通常会把以前的促销活动的历史消费数据作为训练集。25分类算法的应用——金融•通过风险评估，银行可以减少坏账，增加收益。•经典应用——贷款风险评估：银行贷款部门预测借款人是否有可能拖欠，从而判断是否应接受贷款申请。–我们把以往信用不良的客户的数据作为训练集。•经典应用——信用卡风险评估：判断是否应该批准某顾客的信用卡申请，即通过分析申请人的信用卡使用行为、社交媒体数据、电话使用数据，对未来恶意透支的信用风险进行预测。在这个应用中，用户个人信息很丰富，所以数据维度很多，进而预测精准度比较高。26分类算法的应用——金融•经典应用——欺诈检测：主要有信用卡欺诈交易检测、网上银行交易欺诈、保险索赔的欺诈检测。–通过分析客户基本特征和以往使用行为来检测非法使用。–这种监控可以在线实时进行，也可以定期进行。–客户进行保险投诉时提供的理由的文本也是一种数据来源。–正类（欺诈交易）远不及负类（正常交易）频繁。27保险索赔的欺诈检测28分类算法的应用——电信•经典应用——电信运营商、银行、保险公司等会员制公司的客户流失分析：–通过客户消费数据、客户致电呼叫中心的通话（例如打电话进行投诉或威胁要更换运营商）、微博上的帖子和在搜索引擎上的搜索记录（比如关于“如何取消与中国电信的合约”），预测哪些客户可能要离网或取消账号。–运营商可以对可能流失的顾客采取打折促销等措施。29分类算法的应用——机电设备•经典应用——故障预测：根据传感器数据，预测设备的哪个部位容易出故障。数据实时传回制造商。–对于大型设备，制造商会及时主动上门维修；对家用设备，制造商则通知用户找人维修。•例如：复印机、汽车、飞机、火车、军车、游艇、钻孔设备、发动机30分类算法的应用——沟通交流•经典应用——垃圾邮件过滤：把邮件自动标记为垃圾邮件或正常邮件。31分类算法的应用•从卫星图像检测石油泄漏•预测犯罪可能性•癌症诊断•Web新闻分类•手写字符识别•语音识别32对分类算法的常见应用的小结•营销：响应模型•金融：客户风险评估、欺诈检测•电信：客户流失预测•设备制造：故障预测33常见分类算法34决策树•决策树是最流行的分类方法。•直观上看，其过程是：从根部开始，层层分枝，最终生长出树叶，也就是形成若干叶子结点。•它的每次划分都是基于最显著的特征的。•所分析的数据样本被称作树根，算法从所有特征中选出一个最重要的（即最“具有信息”的，即使得所得到的两个分支的差异最大的特征），用这个特征把样本分割成若干子集。•重复这个过程，直到所有分支下面的实例都是“纯”的，即子集中各个实例都属于同一个类别，这样的分支即可确定为一个叶子节点。在所有子集都变成“纯”的后，树就停止生长了。35决策树•随着决策树不断向下延伸，就好比是用榨汁机不断挤出“知识的果汁”。36决策树的剪枝•如果决策树建得过深，容易导致过度拟合问题。•当每个分枝只对应一个具体的实例（例如一个客户），这个规则就完全失去了概括性。•为了避免生成的树对训练数据过度拟合，必须在树生成之后，对树进行剪枝处理，对节点进行删减，控制树的复杂度。剪枝对提高树对新实例的预测准确性至关重要。–剪枝通常采用自下而上的方式。每次找出训练数据中对预测精度贡献最小的那个分支，剪掉它。37决策树的剪枝•简言之，先让决策树疯狂生长，然后再慢慢往回收缩。•整体上往回缩多少，要根据在测试集上的表现来反复尝试。38决策树的用途•分类树：决策树可以处理二分类、多分类问题。这时它也叫做分类树。•回归树：最早的决策树仅用于分类型的目标值。它已经扩展到可以用于数值型目标变量（比如预测每个人的月收入），这时它也叫回归树。不过，回归树的性能不如回归分析和神经网络。–所以，在估计数值型目标变量时，它很少作为首选算法。•它除了用来分类，也常常用于帮其他算法筛选出一组好的输入变量。所以，即使最终使用的模型是其他模型，分析的初期阶段也经常用决策树。39决策树的优缺点•决策树的最大优点是它所产生的是一系列“如果…那么…”的判断规则，非常直观、通俗易懂，容易被业务人员理解，很多规则能直接拿来应用。–其输出结果很容易可视化展示。•它需要的数据预处理很少。它对数据分布没有严格的要求、不容易受异常值影响、对缺失值很宽容。–由于它没使用数值型特征的实际值，而是对其进行离散化后再使用，所以它对异常值和偏态分布不敏感。–缺失值对它根本不是问题。40决策树的例子——是否去相亲41决策树的例子——判断性别•决策树的输出结果有两种：决策树、规则集•这是用规则集的形式展示的决策树输出结果42决策树例子——是否参加战斗43决策树的其他例子•根据各种用户特征判断该账号是否真实•根据各种天气参数判断是否适合打高尔夫44逻辑回归•逻辑回归是一种常用的分类方法。它非常成熟、应用非常广泛。•它是回归的一种。回归分析也是统计学中应用最广泛的一种分析工具。回归不只可以用于分类，也能用于发现变量间的因果关系。•最主要的回归模型有多元线性回归（Linearregression）和逻辑回归（Logisticregression）。前者适于连续的目标变量，后者适于类别型的目

大数据应用基础-分类算法115

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

15年目睹中国OA之怪现象

减速器三维设计及虚拟装配

个人电脑如何脱机使用超星电子图书

输电线微风振动分析方法能量平衡法的改进研究

【房地产】7、清洁剂使用作业规程

公交候车亭施工组织设计

西南交10秋学期《合同法》离线作业

XXXX各行业品牌份额调查(全面权威)

雅居乐新城品牌提升整合提案_74PPT_天机广告

工程项目之管理概论25

相关文档

相关搜索