您好,欢迎访问三七文档
机器学习的技术分享和讨论长沙爱财网络科技李剑什么是机器学习1.什么是机器学习机器通过分析大量数据来进行学习,不需要编程而从而归纳和识别特定的目标。重在发现数据之间内在的模式(相关性),并做出预测。2.机器学习与人工智能的关系机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。深度学习是机器学习的一个子集,现在兴起的人工智能主要是大规模的深度学习。人工智能的五大流派1.符号主义:使用符号、规则和逻辑来表征知识和进行逻辑推理,代表的算法是:规则和决策树2.贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫3.联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,主要算法是:神经网络4.进化主义:生成变化,然后为特定目标获取其中最优的,代表的算法是:遗传算法5.Analogizer:根据约束条件来优化函数(尽可能走到更高,但同时不要偏离),代表的算法是:支持向量机人工智能的发展历程1980年代-主导流派:符号主义-架构:服务器或大型机-主导理论:知识工程-基本决策逻辑:决策支持系统,实用性有限1990年代到2000年-主导流派:贝叶斯-架构:小型服务器集群-主导理论:概率论-分类:可扩展的比较或对比,对许多任务都足够好了,语音识别2010年代早期到中期-主导流派:联结主义-架构:大型服务器+GPU+云计算-主导理论:神经科学和概率-识别:更加精准的图像和声音识别、翻译、情绪分析等未来的人工智能的发展预测2010年代末期-主导流派:联结主义+符号主义-架构:许多云-主导理论:记忆神经网络、大规模集成、基于知识的推理-简单的问答:范围狭窄的、领域特定的知识共享2020年代+-主导流派:联结主义+符号主义+贝叶斯+……-架构:云计算和雾计算-主导理论:感知的时候有网络,推理和工作的时候有规则-简单感知、推理和行动:有限制的自动化或人机交互2040年代+-主导流派:算法融合-架构:无处不在的服务器-主导理论:最佳组合的元学习-感知和响应:基于通过多种学习方式获得的知识或经验采取行动或做出回答机器学习的通用步骤•选择数据:将你的数据分成三组:训练数据、验证数据和测试数据(训练效果,验证效果,泛化效果)•数据建模:使用训练数据来构建使用相关特征的模型(特征:对分类或者回归结果有影响的数据属性,例如,表的字段)特征工程。•训练模型:使用你的特征数据接入你的算法模型,来确定算法模型的类型,参数等。•测试模型:使用你的测试数据检查被训练并验证的模型的表现(模型的评价标准准确率,精确率,召回率等)•使用模型:使用完全训练好的模型在新数据上做预测•调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现机器学习的位置传统编程:软件工程师编写程序来解决问题。首先存在一些数据→为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做→计算机遵照这一流程执行,然后得出结果统计学:分析并比较变量之间的关系机器学习:数据科学家使用训练数据集来教计算机应该怎么做,然后系统执行该任务。该计算可学习识别数据中的关系、趋势和模式智能应用:智能应用使用人工智能所得到的结果,如图是一个精准农业的应用案例示意,该应用基于无人机所收集到的数据机器学习的分类1、监督式学习工作机制:用有正确答案的数据来训练算法进行机器学习。代表算法:回归、决策树、随机森林、K–近邻算法、逻辑回归,支持向量机等。2、非监督式学习工作机制:训练数据没有标签或者答案,目的是找出数据内部的关联和模式,趋势。代表算法:关联算法和K–均值算法。3、强化学习工作机制:给予算法一个不断试错,并具有奖励机制的场景,最终使算法找到最佳路径或者策略。代表算法:马尔可夫决策过程,AlphaGo+Zero,蒙特卡洛算法4.半监督学习工作机制:训练数据一部分数据为生成数据,一部分数据为监督数据,算法分为生成器和判定器两部分,生成器的目标是使判定器接受自己的数据,判别器是为了最大可能的区分生成数据和监督数据。通过不断的训练使两者都达到最佳性能。代表算法:GANs(生成式对抗网络算法)机器学习的经典算法决策树(DecisionTree)支持向量机(SupportVectorMachine)回归分析(Linear/LogisticRegression)朴素贝叶斯(NaiveBayesClassification)随机森林(Randomforest)K阶近邻(KNearestNeighbor)K均值算法降维算法集成算法决策树算法在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用额度进行分类。(如何找到一个快速准确决策的路径)(特征节点的选择信息熵,信息增益,gini系数,信息论)优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估场景举例:基于规则的信用评估、赛马结果预测支持向量机基于超平面(hyperplane),支持向量机可以对数据群进行分类。用核函数将数据映射到高维度做分类或者回归优点:支持向量机擅长在变量与其它变量之间进行二元分类操作,无论他们之间的关系是否是线性的场景举例:新闻分类、手写识别。回归(REGRESSION)•回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。可以理解成数据拟合得出函数关系。•优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显•场景举例:路面交通流量分析、邮件过滤朴素贝叶斯算法朴素贝叶斯分类器:假定模型的的各个特征变量都是概率独立的,根据训练数据和分类标记的的联合分布概率来判定新数据的分类和回归值。优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类场景举例:情感分析、消费者分类机器学习应用的场景1.风控征信系统2.客户关系与精准营销3.推荐系统4.自动驾驶5.辅助医疗6.人脸识别7.语音识别8.图像识别9.机器翻译10.量化交易11.智能客服12.商业智能BI机器学习算法的项目代码演示Scikit-Learn的简介线性回归算法简介支持向量机算法KNN的算法例子机器学习的入门的资料1.数学基础线性代数,概率论与统计分析,微积分,数值分析,凸优化2.编程语言java,python,C++任何一门语言3.算法学习(可参考知乎问答)统计学习方法(李航)机器学习(周志华)深度学习(Iangoodfellow),数据挖掘基础,机器学习实战4.网上视频教程(可参考知乎问答)CourseraUdacity网易云课堂,网易公开课推荐机器学习斯坦福AndrewNg深度学习courseraAndrewNg网易云课堂5.算法框架(看自己的喜好)sklearn,keras,paddlepaddle,angel,theano,caffe,torch,pytorch,tensorflow,numpy,pandas,matplotlib,mxnet机器学习推荐sklearn,numpy,pandas,matplotlib深度学习推荐keras,pytorch,tensorflow,caffe,mxnet,cntk,angel,paddlepaddle,maxcomputer6.网上一些资料(上有很多资料)scikit-learn的中文文档:机器学习的Awesome系列
本文标题:机器学习入门
链接地址:https://www.777doc.com/doc-3762007 .html