您好,欢迎访问三七文档
高斯过程回归1.回归的方法目标在做回归时,为确定映射函数,有一类方法是贝叶斯回归。该方法定义了一个函数分布,赋予每一种可能的函数一个先验概率,可能性越大的函数先验概率越高。但是可能的函数集数量很多,如何选择函数就是高斯过程回归解决的问题。2.高斯过程高斯过程是任意有限个随机变量均具有联合高斯分布的集合,若一个随机过程的变量的随机分布满足高斯分布,则这个随机过程就是高斯过程,其性质完全由均值函数和协方差函数确定。均值函数和协方差函数为:()[()](,')[(()())((')('))]{mxEfxkxxEfxmxfxmx,'dxxR为任意随机变量。因此高斯过程可以定义为()~((),(,'))fxGPmxkxx通常会做预处理,使得其均值函数为0。3.高斯过程回归回归模型如下:()yfx其中x为输入向量,f为函数值,y为受加性噪声污染的观测值。假设噪声服从2~(0,)nN.可以得到观测值y的先验分布为:2~(0,(,))nnyNKXXI观测值y与预测值*f的联合先验分布为:其中(,)()nijKXXKk为n*n阶对称正定的协方差矩阵,矩阵元素(,)ijijkkxx表示,ijxx之间的相关性。**(,)(,)TKXxKxX为测试向量*x与训练集输入X之间的n*1阶协方差矩阵。**(,)kxx为测试点自身的协方差。nI为n维单位矩阵。由此可以计算预测值*f的后验分布:****|,,~(,cov())fXyxNff其中21**(,)[(,)]nnfKxXKXXIy21*****cov()(,)(,)[(,)](,)nnfkxxKxXKXXIKXx*f,*cov()f即为测试点*x的预测值的均值和方差。4.高斯过程回归的训练高斯回归过程可以选择不同的协方差函数,常用的协方差函数是平方指数协方差:211(,')exp((')('))2TfkxxxxMxx其中2()Mdiagl,l为方差尺度,2f为信号方差。参数集合22{,,}fnM为超参数,一般通过极大似然法求得。首先建立训练样本条件概率的负对数似然函数:()log(|,)LpyX对()L求偏导数,然后采样共轭梯度法、牛顿法等优化方法对偏导数进行最小化得到超参数的最优解。这里负对数似然函数()L的形式为:111()log||log2222TnLyCyC其偏导数为:1()1(())2TiiLCtrC其中2211,()nnnnnCKIKIyCy.由上式求得最优超参数后,便可由第3小节得到*x的*f,*cov()f5.高斯回归的优缺点优点:处理高维、小样本、非线性等复杂问题有很好的适应性,泛化能力强与ANN,SVM相比容易实现,超参数自适应获取、非参数推断灵活摒弃了线性模型参数的思想,直接通过核函数建立y之间的关系,从一个有参模型过度到无参模型缺点:计算量大、局限于高斯噪声分布假设(观测数据满足多变量联合高斯分布)6.高斯回归的应用用于时间序列预测分析用于动态系统模型辨识用于系统控制或控制系统设计与贝叶斯滤波方法想结婚SVM回归1.VC维Vapnik-Chervonenkis维度:一个数据集有N个点,这N个点可以用2N种标记方法分成正负例。因此N个数据点就有2N种学习方法。对于N个点的分类,我们都能找到一个假设h将正负例分开,那么我们就说散列N个点。可以被散列的点的最大数量称为的VC维。例如二维线性分类器的VC维是3,因为当有如下的4个点时,无法分类了。VC维越大,学习能力越强,学习越复杂。2.SVM回归假定训练样本集1122{(,),(,)...(,)}nnxyxyxy,其中NixR为输入值iyR为对应的目标值,N为样本数。定义不敏感损失函数为:0|()||()||()||()|yfxyfxyfxyfx其中()fx为通过样本学习构造的回归估计函数,为不敏感损失函数。学习的目的是构造()fx,使之与目标值之间的距离小于,同时函数的VC维最小,这样可以最优地估计出对应的目标值。支持向量机的思想是:通过某一非线性函数()将训练数据x映射到一个高维特征空间中构造回归估计函数,这种非线性变换采用的是核函数(,)ijKxx来实现。估计函数()fx可以表示为:()()fxxb其中为权向量,维数是特征空间维数。SVM回归用不敏感损失函数实现高维空间的线性回归,并且采用结构风险(=经验风险+置信风险)最小原则来减小模型的复杂度,其优化公式为:11min(*)2NTiiiCs.t.iiiyxb*iiixby,*,0,1,2...iiiN其中常数C(C0)表示控制训练误差的代价(惩罚系数);*,ii为松弛变量,表示引入训练集的误差;为不敏感损失函数,表示允许的训练损失。min的优化问题通过引入拉格朗日乘子将其转化为对偶问题:2*****11111||||()()()()2NNNNiiiiiiiiiiiiiiiiiiiiLCyxbyxb对L分别求*,,,iib得偏导,令其等于0,求解上式得:****11111max()()()()2NNNNiijjijiiiiijiixxs.t.**1()0,(0,),(0,)NiiiiiCC其中只有部分参数*()ii不为0,它们对应的ix就是问题中的支持向量。得到权重向量和回归函数为:*1*()Niiiix**1()()Niiiifxxxb也可以用核函数替代:**1()()(,)NiiiifxKxxb*b的计算方法为:****001[()(,)][()(,)]ijjiiiijiiiijiCxSVxSVCNSVbyKxxyKxxN3.SVM回归的优缺点优点:能很好地解决小样本、非线性、高维和局部极小点等问题。基于结构风险最小。泛化能力强。对数据规模和分布限制小缺点:线性SVM比非线性SVM慢。数据量大,训练时间就会较长对缺失数据敏感需要选择合适的核函数4.应用时间序列预测分析光谱定量分析
本文标题:高斯回归SVM回归
链接地址:https://www.777doc.com/doc-1951234 .html