您好,欢迎访问三七文档
统计学习:1)统计方法处理过程的三个阶段(1)搜集数据:采样、实验设计(2)分析数据:建模、知识发现、可视化(3)进行推理:预测、分类2)SVM近似线性可分问题3)SVM三种主要的核函数多项式内核、径向基函数内核RBF、Sigmoind内核4)决策树的生成过程强化学习:1)强化学习的四大要素1、策略:从环境感知到的状态到该状态下应该采取的行动映射;2、报酬函数:用来强化学习问题的目标;3、价值函数:与某一时刻(或状态)意义上反应行动结果好坏的报酬函数相对应,价值函数则指定了最终什么是好的;4、环境的模型:这是为模仿环境的举动而建立的.2)蒙特卡罗方法和时序差分学习的主要区别加,该状态对整体的影响越大。资格迹定义方式分为增量型和替代型两类。无监督学习:1)聚类分析的基本步骤(1)对数据集进行表示和预处理,包括数据清洗、特征选择或特征抽取;给定数据之间的相似度或相异度及其定义方法;根据相似度,对数据进行划分,即聚类;对聚类结果进行评估。2)K均值聚类的基本步骤这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:(1)从n个数据对象随机选取k个对象作为初始簇中心。(2)计算每个簇的平均值,并用该平均值代表相应的簇。(3)计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。(4)转步骤(2),重新计算每个(自变化)簇的平均值。这个过程不断重复直到某个准则函数不再明显变化或者聚类的对象不再变化为止。3)基于最短距离法的层次聚类步骤(1)定义样品之间距离,计算样品的两两距离,得一距离阵记为D(0),开始每个样品自成一类,显然这时Dij=dij。(2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个新类,记为Gr,即Gr={Gp,Gq}。(3)按(5.12)计算新类与其它类的距离。(4)重复(2)、(3)两步,直到所有元素。并成一类为止。如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。4)层次聚类的主要问题关联规则:1)关联规则挖掘的两个基本步骤1.找出所有的频繁项集满足最小支持度2.找出所有的强关联规则由频繁项集生成关联规则保留满足最小可信度的规则2)Apriori性质:若A是一个频繁项集,则A的每一个子集都是一个频繁项集3)频繁项集生成过程中心思想:由频繁(k-1)-项集构建候选k-项集方法:找到所有的频繁1-项集扩展频繁(k-1)-项集得到候选k-项集剪除不满足最小支持度的候选项集4)Apriori算法的主要问题Apriori算法有个最大的问题就是要产生大量准频繁项集或者说候选集,效率不高,并且要多次扫描数据库,在后面的PF_growth算法将避免了这两个个问题。深度学习:1)几种经典的深度学习框架(自编码神经网络、限制玻尔兹曼机、深度信念网络、卷积神经网络)大数据挖掘:1)知识发现的技术难点动态变化的数据噪声数据不完整冗余信息数据稀疏超大数据量2)大数据的四个特点大数据是指数据集数据的大小通常超出了常用的软件工具获取、有效、管理和处理的可承受范围的能力。特点:量大(Volume):通过各种设备产生了大量的数据,PB级别是常态;异构(Variety):一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;快速(Velocity):要求快速处理,存在时效性;真实(Veracity):数据不确定性和真实性。
本文标题:机器学习复习2
链接地址:https://www.777doc.com/doc-2325081 .html