您好,欢迎访问三七文档
1.什么是过拟合,泛化性,分析两者的区别和联系?过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合。即使用过多的主成分建立模型,降低了预测能力。泛化能力:经过训练的网络(有限样本)对于不是样本集的输入(其他变量域)的预测能力。也指神经网络对新鲜样本的适应能力,该性质称为泛化能力.过拟合会导致模型的泛化性变弱。2.特征选择和特征提取有何区别两者都是提取有效信息、压缩特征空间的方法。特征提取(extraction):用映射(或变换)的方法把原始特征变换为较少的新特征。特征选择(selection):从原始特征中挑选出一些最有代表性,分类性能最好的特征3.分析回归和分类的区别分类和回归都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。与回归不同的是,分类的输出是离散的类别值,而回归的输出是连续数值。4.LDA和FISHERLDA,以及两者的区别Fisher线性判别的基本原理如下,对于线性判别函数y(x)=ao+alXl+⋯+adXd=aTx+ao(1)可以将d维矢量a=(a1,a2,⋯,ad)T视作特征空间中的以a1,a2,⋯,ad为分量的一个矢量,则aTx表示矢量X在以a为方向的轴上投影的||a||倍.我们希望所求的a使投影后同类样本相距较近,即同类样本密集;不同类样本相距较远.FLD就是求解,满足类间离散度和总类内离散度之比最大的投影方向,然后在一维空间中确定判决规则.Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):y(x)=∑Cjxj然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。LDA和FLD在统计中都是用来寻找特征的某种线性组合,该组合变量可以作为分类的依据,也可以用于数据集的将维处理,为进一步的分类作准备。LDA与方差分析ANOVA及回归分析都是用其他特征或测量值的线性组合来表达一个因变量。不同的是,LDA中涉及的因变量是“分类变量”(如类标号),而后两者都是指具体的数值。LDA、主元分析和因子分析都致力于用变量的线性组合来解释数据。但是LDA更侧重于对不同类数据之间的差别进行建模,而PCA却没有考虑类之间的区别,相比于相似性来说,因子分析考虑更多的是类间区别。判据分析和因子分析有一点是明显不同的:独立变量和因变量必须严格区分。LDA在处理类属变量时可以由DiscriminantCorrespondenceAnalysis来替代。5.有监督学习,无监督学习和半监督学习的区别和联系有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未见示例的标记无监督的学习:无训练样本,仅根据测试样本在特征空间的分布情况来进行标记。半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。他们的联系在于都是在解决类别归属的问题,即给定一些数据,判断每条数据属于哪些类,或者和其他哪些数据属于同一类等等,而有无监督的区别在于“有无标记的数据”。6.论述如何将聚类用于数据预处理和特征选择数据预处理:通过聚类分析检测孤立点,去除噪声。特征选择:将聚类算法应用于特征空间中,对特征进行聚类。比如说采用分层聚类的方法,先使得每一维特征各成一类,然后合并相似度最大的两类,来减少类别数目。7.数据挖掘的完整流程是什么?数据挖掘(Datamining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程,它是用模式识别、统计学、数学等方法过滤存储在数据库中大量的数据来发现新的、有意义的关系、模式和趋势的过程。完整流程如下:广义:1、理解应用和目标;2、得到研究用的数据集(通常来自数据仓库);3、数据清洗和预处理;4、数据降维和投影;5、选择数据挖掘任务;6、选择数据挖掘算法;7、用算法完成任务;8、解释结果,如果需要重复步骤1-7;9、配置:集成进运作的系统。狭义:4、数据降维和投影;5、选择数据挖掘任务;6、选择数据挖掘算法;7、用算法完成任务;8、解释结果。8.请描述EM算法的原理和技术?期望最大化算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。其核心思想就是根据已有的数据来递归估计似然函数。经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。9.决策树算法有哪些种类和改进?决策树有以下几种经典算法:ID3算法:ID3是一种经典的决策树算法,它从根节点开始,根节点被赋予一个最好的属性.随后对该属性的每个取值都生成相应的分支,在每个分支上又生成新的节点.对于最好的属性的选择标准,ID3采用基于信息熵定义的信息增益来选择内节点的测试属性,熵刻画了任意样本集的纯度.C4.5算法:C4.5算法是ID3的改进,其中属性的选择依据同ID3.它对于实值变量的处理与下节论述的CART(ClassificationAndRegressionTrees)算法一致,采用多重分支.C4.5算法能实现基于规则的剪枝.因为算法生成的每个叶子都和一条规则相关联,这个规则可以从树的根节点直到叶节点的路径上以逻辑合取式的形式读出.CART算法:决策树的分类过程就是把训练集划分为越来越小的子集的过程.理想的结果是决策树的叶子节点的样本都有同类标记.如果是这样,显然决策树的分支应该停止了,因为所有的类别己经被分开了.但是,一般情况下,很难一步就达到目标,所以,如果不止一步才能结束的话,这个分类的过程就是一个递归树的生长过程,CART是仅有的一种通用的树生长算法。改进:对任何数量的训练集,总是能找到相应的多个线性判别函数把它分类,但是这样生成的树的深度可能太大.因为,虽然使用了最好的特征进行分类,但还是可能存在一些特征对分类很有用,尽管不是像最好的特征那样有用,却没有用到.一个直觉是:有些特征对某些类别有效,但是对另外一些则无效,甚至可能有副作用,如果能把这些特征选择出来,一次就能最大限度地把多个类别分开.MBDT正是基于这个直觉.MBDT通过在每个子集上选择最能有效分类的那些特征使用马氏距离进行分类.如果某个子集无法有效分类(通过阈值判断),就选择最好的一个进行分类.由于事先需要有标签的分类训练集,所以这是有监督的算法.10.维数灾的来源和后果?维数灾难通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。随着维数的增加,特征空间的体积指数的增加,从而导致各方面的成本增加,例如样本数量,存储空间,计算复杂度等。11.分析K近邻算法的优缺点,并举例K近邻算法:k近邻的方法是在训练数据集中动态的确定和一个新的观测点相近的k个观测点,我们希望用k个观测点去把一个特定的观测点分到某一类中。如果一个样本在特征空间最邻近的k个样本中的大多数属于某一个类别,则该样本也属于这个类别。优点:简单,应用范围广;模型不需要预先构造。缺点:需要大量的训练数据;搜索邻居样本的计算量大,占用大量的内存;距离函数的确定比较困难;分类的结果与参数有关。12.论述聚类算法的各个种类,并列举其各自的代表性算法?1)划分法首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。代表算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;2)层次法这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;3)基于密度的方法基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;4)基于网格的方法首先将对象空间划分为有限个单元以构成网络结构;然后利用网格结构完成聚类。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;5)基于模型的方法基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集。代表算法有:COBWEB算法13.如何改进K均值算法的k的选取问题?原理:k均值算法的核心思想是通过迭代把数据对象划分到不同的簇中,以求目标函数最小化,从而使生成的簇尽可能地紧凑和独立。首先,随机选取K个对象作为初始的k个簇的质心;然后,将其余对象根据其与各个簇质心的距离分配到最近的簇;再求新形成的簇的质心。这个迭代重定位过程不断重复,直到簇不发生变化,目标函数最小化为止。这里两个类间的距离被定义为两个类中所有对象间距离的平均值,所以称作K均值聚类。K值的选定:聚类数的确定没有个确切方法。K值可以先用系统聚类法,看谱系图然后得出大致分几类。然后试多几个k值,确定个最好的。使用遗传算法是解决K均值中K的选取一个比较可行的方法。K均值聚类算法把n个向量Xj(j=1,2,…,n)分成K个类(k=1,2,…,k),每类的所有样本形成一组,求每组的聚类中心,使得非相似性(或距离)指标的价值函数(或目标函数)达到最小。14.联系广义线性判别函数,谈谈你对核方法的理解核方法是解决非线性模式分析问题的一种有效途径。核心思想是:首先,通过某种非线性映射将原始数据嵌入到合适的高维特征空间;然后,利用通用的线性学习器在这个新的空间中分析和处理模式。相对于使用通用非线性学习器直接在原始数据上进行分析的范式,核方法有明显的优势:首先,通用非线性学习器不便反应具体应用问题的特性,而核方法的非线性映射由于面向具体应用问题设计而便于集成问题相关的先验知识。再者,线性学习器相对于非线性学习器有更好的过拟合控制从而可以更好地保证泛化性能。还有,很重要的一点是核方法还是实现高效计算的途径,它能利用核函数将非线性映射隐含在线性学习器中进行同步计算,使得计算复杂度与高维特征空间的维数无关。
本文标题:数据挖掘整理
链接地址:https://www.777doc.com/doc-2333548 .html