机器学习与数据挖掘

1.1机器学习的概念心理学中对学习的解释是：学习是指（人或动物）依靠经验的获得而使行为持久变化的过程。Simon认为：如果一个系统能够通过执行某种过程而改进它的性能，这就是学习。Minsky认为：学习是在人们头脑中（心理内部）进行有用的变化。TomM.Mitchell在《机器学习》一书中对学习的定义是：对于某类任务T和性能度P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么，我们称这个计算机程序从经验E中学习。当前关于机器学习的许多文献中也大都认为：学习是系统积累经验以改善其自身性能的过程。1机器学习概述总之：①学习与经验有关；②学习可以改善系统性能；③学习是一个有反馈的信息处理与控制过程。因为经验是在系统与环境的交互过程中产生的，而经验中应该包含系统输入、响应和效果等信息。因此经验的积累、性能的完善正是通过重复这一过程而实现的。1.2机器学习系统的基本模型模型中包含学习系统的四个基本组成环节。环境和知识库是以某种知识表示形式表达的信息的集合，分别代表外界信息来源和系统具有的知识。学习环节和执行环节代表两个过程。学习环节处理环境提供的信息，以便改善知识库中的显式知识。执行环节利用知识库中的知识来完成某种任务，并把执行中获得的信息回送给学习环节。1.2机器学习系统的基本模型环境可以是系统的工作对象，也可以包括工作对象和外界条件。例如在医疗系统中，环境就是病人当前的症状、检验的数据和病历。在模式识别中，环境就是待识别的图形或景物。学习环节通过获得外部信息，并将这些信息与执行环节所反馈回的信息进行比较。一般情况下环境提供的信息水平与执行环节所需的信息水平之间往往有差距，经分析、综合、类比、归纳等思维过程，学习环节就要从这些差距中获取相关对象的知识，并将这些知识存入知识库中。1.2机器学习系统的基本模型知识库用于存放由学习环节所学到的知识。影响学习系统设计的第二个因素是知识库的形式和内容。知识库的形式就是知识表示的形式（一阶谓词逻辑、产生式规则、框架、语义网络、类和对象、模糊集合、贝叶斯网络、脚本、过程等）。选择知识表示方法要考虑下列准则：可表达性、推理难度、可修改性和可扩充性。1.2机器学习系统的基本模型执行环节是整个机器学习系统的核心。执行环节用于处理系统面临的现实问题，即应用知识库中所学到的知识求解问题，并对执行的效果进行评价，将评价的结果反馈回学习环节，以便系统进一步的学习。1.2机器学习系统的基本模型1.基于学习策略的分类机械学习传授学习类比学习归纳学习基于解释的学习1.3机器学习的分类机械学习机械学习(RoteLearning)又叫做记忆学习，或死记硬背学习。机械学习就是记忆，把新知识储存起来，需要时对储存的知识进行检索，而不再需要计算和推理。机械学习模式：设系统的输入模式为(X1，X2，…，Xn)，对应的输出模式为(Y1，Y2…，Ym)。把每次的输入输出数据存储起来，形成输入输出模式集合(X1，X2，…，Xn)，(Y1，Y2，…，Ym))，使用时根据给定的输入数据，直接查找、检索输出。传授式学习传授学习(LearningbyBeingTold或LearningbyInstruction)又称为指点学习。这时，环境提供的信息较抽象，水平较高，学习环节把这些信息变换成执行环节使用的较低水平的信息。传授式学习McCarthy1958年计划建立一个接收建议的系统，系统可以接受专家的建议并用于规划某一领域的行动。20世纪70年代后期，开始研究接收专家建议，改进专家系统的工作。1980-1981年HayesRoth提出自动接收建议过程。传授式学习1.要求请求专家提出建议。有时对专家的要求是简单的，即请专家提供一般的建议。有时，对专家的要求是复杂的，即请专家识别知识库的欠缺，并提出修改方法。有些系统是被动的，它消极等待专家提出建议。有些系统是主动的，它把专家注意力引向特定的问题。2.解释这是把专家建议转成内部表示，是知识表示问题。内部表示应包含建议的全部信息。如果用自然语言提出建议，解释过程应包括自然语言理解。传授式学习3.实用化这是传授学习的信息变换过程，它把抽象的建议转成具体的知识。实用化过程类似于自动程序设计。前者由建议得到实用的规则，后者由程序说明得到程序。二者也存在差别。后者要求得到完全正确的程序，强调程序的正确性。前者往往使用弱方法，不保证完全正确。实用化过程有时作试探性的假设和近似，只能要求其合理性。得到的假设还要经过检验和修改。传授式学习4.归并将新知识加入知识库。学习系统往往是非单调系统，新知识加入知识库时，需要检查并保证知识的相容性。5.评价实用化过程得到的新知识往往只是假设，要经过验证和修改，即需要进行评价。如果评价中发现了问题，就需要进行间题分析和知识库修改。实用化是整个学习过程的核心。类比学习类比学习(LearningbyAnalogy)是获取新概念或新技巧的方法，它把类似这些新概念或新技巧的已知知识转换为适于新情况的形式。类比学习的第一步是从记忆中找到类似的概念或技巧，第二步是把它们转换为新形式以便用于新情况。例如人类的一种学习方式是先由老师教学生解例题(先例)，再给学生留习题。学生寻找在例题和习题间的对应关系，利用解决例题的知识去解决习题中的问题。学生经过一般化归纳推出原理，以便以后使用。这种类比学习方式是人类常用的。归纳学习归纳学习的定义（1）归纳（induction）是人类拓展认识能力的重要方法，是一种从个别到一般的，从部分到整体的推理行为。（2）归纳推理是应用归纳方法，从足够多的具体事例中归纳出一般性知识，提取事物的一般规律；它是一种从个别到一般的推理。（3）归纳学习（inductionlearning）是应用归纳推理进行学习的一种方法。根据归纳学习有无教师指导，可把它分为示例学习和观察与发现学习。前者属于有导师学习，后者属于无导师学习。归纳学习示例学习示例学习(LearningFromExamples)，也叫做实例学习，从例子中学习。实例学习是典型的归纳学习，是目前较成熟的学习方法之一。实例学习能从环境获取一些关于某个概念的实例，实例由老师准备好，并根据需要划分为正例和反例，学习系统根据这些实例进行归纳推理，得出关于这个概念的一般性规则(知识)。提供给系统的实例通常是非常具体的、低级的信息，系统经过学习环节归纳出概括的、高水平的信息，即规则(知识)，并能使用学到的知识指导以后的执行行为。归纳学习示例学习例如，如果我们用一批动物作为实例，并且告诉学习系统哪一个动物是“马”，哪一个动物不是，当实例足够多时，学习系统就能一般出关于“马”的概念模型，使自己能识别马，并且能把马与其它动物区别开来，这一学习过程就是实例学习。Simon和Lea1974年提出实例学习的两空间模型：例子空间和规则空间归纳学习观察与发现学习观察发现学习又称为描述性概括，其目标是确定一个定律或理论的一般性描述，刻画观察集，指定某类对象的性质。观察发现学习可分为观察学习与机器发现两种。前者用于对事例进行聚类，形成概念描述；后者用于发现规律，产生定律或规则。归纳学习观察与发现学习概念聚类概念聚类就是一种观察学习；人类观察周围的事物，对比各种物体的特性，把它们划分成动物、植物和非生物，并给出每一类的定义。这种把观察的事物划分成几类并建立相应概念的过程就是概念聚类。发现学习发现学习是由系统的初始知识和观察的数据学习数学、物理和化学等方面的概念和规律。它也使用归纳推理，但是在学习过程中除了初始知识外施教者不进行指导，所以它也是无导师的归纳学习。基于解释的学习基于解释学习(Explanation—BasedLearning)：通过运用相关的领域知识及一个训练实例，对某个目标概念进行学习，最终得到这个目标概念的一般描述(形式化表示的一般知识)。基于解释的学习提出基于解释学习的动因：(1)人们经常能从观察或执行的单个实例中得到一个一般性的概念或规则(2)归纳学习是人类常用的学习方法，但由于归纳方法在学习中，靠领域知识来帮助分析、判断实例的的属性，仅仅通过实例间的比较来提取共性，这是无法保证推理的正确性的原因之一。而基于解释学习在学习过程中运用领域知识对实例进行分析、解释——从而避免类似问题的发生。(3)由于基于解释学习只需要一两个实例，有望提高学习的效率。2.基于学习方式的分类（1）有导师学习（监督学习）：输入数据中有导师信号，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数。（2）无导师学习（非监督学习）：输入数据中无导师信号，采用聚类方法，学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。（3）强化学习（增强学习）：以环境反馈（奖/惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法。3.基于数据形式的分类（1）结构化学习：以结构化数据为输入，以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。（2）非结构化学习：以非结构化数据为输入，典型的非结构化学习有类比学习、案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘等。4.基于学习目标的分类（1）概念学习：即学习的目标和结果为概念，或者说是为了获得概念的一种学习。典型的概念学习有示例学习。（2）规则学习：即学习的目标和结果为规则，或者说是为了获得规则的一种学习。典型的规则学习有决策树学习。（3）函数学习：即学习的目标和结果为规则，或者说是为了获得函数的一种学习。典型的函数学习有神经网络学习。（4）类别学习：即学习的目标和结果为对象类，或者说是为了获得类别的一种学习。典型的类别学习有聚类分析。（5）贝叶斯网络学习：即学习的目标和结果是贝叶斯网络，或者说是为了获得贝叶斯网络的一种学习。其又可分为结构学习和参数学习。2知识发现与数据挖掘数据挖掘（DataMining）从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。知识发现（KnowledgeDiscoveryinDatabases）是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。。DataMining:AKDDProcessDatamining—coreofknowledgediscoveryprocess（数据挖掘——知识挖掘的核心）DataCleaning数据清洗DataIntegration（数据集成）Databases（数据库）DataWarehouse数据仓库Task-relevantData任务相关数据Selection选择DataMining数据挖掘PatternEvaluation模式评估StepsofaKDDProcess了解应用领域创建目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换选择数据挖掘的功能选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示运用发现的知识数据挖掘功能数据挖掘任务有两类：第一类是描述性挖掘任务：刻划数据库中数据的一般特性；第二类是预测性挖掘任务：在当前数据上进行推断，以进行预测。概念/类描述：特征化和区分概念/类描述(class/conceptdescription)：用汇总的、简洁的、精确的方式描述每个类和概念。数据特征化(datacharacterization)：是目标类数据的一般特征或特性的汇总。其中数据特征的输出形式有：饼图、条图、曲线、多维数据立方体、多维表等。数据区分(Datadiscrimination)：是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。关联分析（1）定义：关联分析(associationanalysis)：发现关联规则，这些规则展示“属性—值”频繁地在给定数据集中一起出现的

机器学习与数据挖掘

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

电力营销基本业务讲义

10工程延期管理程序

瘤胃微生物多样性与分析技术的研究进展

触摸显示器用户指南-(SimplifiedChines

600985雷鸣科化XXXX年度股东大会资料

1流体密封技术的发展

中国家电企业物流管理与技术高级研讨会-第三方物流发展

医疗器械注册(备案)管理办法(XXXX年征求意见稿)

经销商商务礼仪培训材料

中国企业战略实施的常见问题

相关文档

相关搜索