您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 商业计划书 > 偏最小二乘法回归建模案例
《人工智能》课程论文论文题目:偏最小二乘算法(PLS)回归建模学生姓名:张帅帅学号:172341392专业:机械制造及其自动化所在学院:机械工程学院年月日人工智能偏最小二乘法(PLS)-1-目录偏最小二乘回归.......................................-2-摘要.................................................-2-§1偏最小二乘回归原理................................-2-§2一种更简洁的计算方法..............................-6-§3案例分析.........................................-7-致谢................................................-16-附件:..............................................-17-人工智能偏最小二乘法(PLS)-2-偏最小二乘回归摘要在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。本文介绍偏最小二乘回归分析的建模方法;通过例子从预测角度对所建立的回归模型进行比较。关键词:主元分析、主元回归、回归建模1偏最小二乘回归原理考虑p个变量pyyy,...,21与m个自变量mxxx,...,21的建模问题。偏最小二乘回归的基本作法是首先在自变量集中提出第一成分t₁(t₁是mxxx,...,21的线性组合,且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分u₁,并要求t₁与u₁相关程度达到最大。然后建立因变量pyyy,...,21与t₁的回归,如果回归方程已达到满意的精度,则算法中止。否则继续第二对成分的提取,直到能达到满意的精度为止。若最终对自变量集提取r个成分rttt,...,21,偏最小二乘回归将通过建立pyyy,...,21与rttt,...,21的回归式,然后再表示为pyyy,...,21与原自变量的回归方程式,即偏最小二乘回归方程式。为了方便起见,不妨假定p个因变量pyyy,...,21与m个自变量mxxx,...,21均为人工智能偏最小二乘法(PLS)-3-标准化变量。因变量组和自变量组的n次标准化观测数据阵分别记为:nmnmnpnpxxxxyyyyFE..........:..........,............:............1111011110偏最小二乘回归分析建模的具体步骤如下:(1)分别提取两变量组的第一对成分,并使之相关性达最大。(2)假设从两组变量分别提出第一对t₁和u₁,t₁是自变量集TmxxX,...,1,的线性组合:XwxwxwtTmm111111...,u₁是因变量集TpyyY,..,1的线性组合:YvyvyvuTpp111111...。为了回归分析的需要,要求:①t1和u1各自尽可能多地提取所在变量组的变异信息;②t1和u1的相关程度达到最大。由两组变量集的标准化观测数据阵0E和0F,可以计算第一对成分的得分向量,记为1t和1u:1111111111101::.........:.........nmnmnmttwwxxxxwEt1111111111101::..........:..........npnpnpuuvvyyyyvFu第一对成分1t和1u的协方差),(11utCov可用第一对成分的得分向量1t和1u的内积来计算。故而以上两个要求可化为数学上的条件极值问题:1,1max,,21112111001101011vvv乘数法,问题化为求单位向量1w和1v,使10011VFEwTT最大。问题的求解只须通过计算mm矩阵0000EFFEMTT的特征值和特征向量,且M的最大特征值为21,相应的单位特征向量就是所求的解1w,而1v可由1w计算得到100111wEFvT。人工智能偏最小二乘法(PLS)-4-(3)建立pyyy,...,21,对1t的回归及mxx,...,1,对1t的回归。假定回归模型为:11101110FuFEtETT其中TpTm11111111,...,,,...,分别是多对一的回归模型中的参数向量,1E和1F是残差阵。回归系数向量11,的最小二乘估计为:2110121101//ttFttETT称11,为模型效应负荷量。(4)用残差阵1E和1F代替0E和0F重复以上步骤。记,,110110TTtFtE则残差阵001101,FFFEEE。如果残差阵1F中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已满足需要了,可以停止抽取成分。否则用残差阵1E和1F代替0E和0F重复以上步骤即得:TmTmvvv分别为第二对成分的权数。而212211,vFuwEt为第二对成分的得分向量。2221222212/,/ttFttETT分别为X,Y的第二对成分的负荷量。这时有222110222110FttFEttETTTT(5)设n×m数据阵0E的秩为r=min(n-1,m),则存在r个成分rttt,...,21,使得:rTrrTrTrrTFttFEttE.............110110人工智能偏最小二乘法(PLS)-5-把),,...,2,1(...11rkxwxwtmkmkk代入,...11rrttY,即得p个因变量的偏最小二乘回归方程式:),...,2,1(,...11mjxaxaymjmjj(6)交叉有效性检验。一般情况下,偏最小二乘法并不需要选用存在的r个成分pyyy,...,21来建立回归式,而像主成分分析一样,只选用前l个成分(l≤r),即可得到预测能力较好的回归模型。对于建模所需提取的主成分个数l,可以通过交叉有效性检验来确定。每次舍去第i个观测),...2,1(ni,用余下的n-1个观测值按偏最小二乘回归方法建模,并考虑抽取h个成分后拟合的回归式,然后把舍去的第i个观测点代入所拟合的回归方程式,得到在第i个观测点代入所拟合的预测值)()(hyji。对i=1,2,…n重复以上的验证,即得抽取h个成分时第j个因变量),...2,1(pjyj的预测误差平方和为:),...2,1())((21)(jpjhyyhPRESSnijiij)(TpyyY),...,(1的预测误差平方和为:)((1hPRESShPRESSjPi)。另外,再采用所有的样本点,拟合含h个成分的回归方程。这时,记第i个样本点的预测值为)(hyij,则可以定义jy的误差平方和为:21))(((niijijjhyyhSS)定义Y的误差平方和为:)((1hsshSSpjj)当)hPRESS(达到最小值时,对应的h即为所求的成分个数。通常,总有)hPRESS(大于)hSS(,而)hSS(则小于)1(hSS。因此,在提取成分时,总希望比值)hPRESS(,)1(hSS越小越好;一般可设定限制值为0.05,人工智能偏最小二乘法(PLS)-6-即当2295.0)05.01()1(/(hSShPRESS)时,增加成分ht有利于模型精度的提高。或者反过来说,当295.0)1(/(hSShPRESS)时,就认为增加新的成分ht,对减少方程的预测误差无明显的改善作用。为此,定义交叉有效性为),1(/)(12hSShPRESSQh这样,在建模的每一步计算结束前,均进行交叉有效性检验,如果在第h步有),1(/(12hSShPRESSQh)则模型达到精度要求,可停止提取成分;若,0985.095.0122hQ表示第h步提取的ht成分的边际贡献显著,应继续第h+1步计算。§2一种更简洁的计算方法上面介绍的算法原则和推导过程的思路在目前的文献中是最为常见的。然而,还有一种更为简洁的计算方法,即直接在10,...rEE矩阵中提取成分rtt,...0(r≤m)。要求ht能尽可能多地携带X中的信息,同时,ht对因变量系统0F有最大的解释能力。注意,无需在0F中提取成分得分hu,这可以使计算过程大为简化,并且对算法结论的解释也更为方便。偏最小二乘法的简记算法的步骤如下:(1)求矩阵0000EFFETT最大特征值所对应的特征向量,1w求得成分,11XwtT计算成分得分向量,101wEt和残差矩阵,1101TtEE其中21101/ttET。(2)求矩阵0000EFFETT最大特征值,1w所对应的特征向量求得成分,11XwtT计算成分得分向量,和残差矩阵,2212TtEE其中22212/ttET。...人工智能偏最小二乘法(PLS)-7-(r)至第r步,求矩阵1001rTTrEFFE最大特征值所对应的特征向量rw,求得成分,XwtTrr计算成分得分向量rrrwEt1。如果根据交叉有效性,确定共抽取r个成分rttt,...,21可以得到一个满意的预测模型,则求0F在rtt,...,1,上的普通最小二乘回归方程为:rTrrTFttF...110把),...2,1(,...*1*1rjxwxwtmkmkk,代入rrttY...11,即得p个因变量的偏最小二乘回归方程式:),...,2,1(,...11mjxaxaymjmjj这里的*hw满足hhjTjjhhhwwIwwEt11**0)(,。§3案例分析人工智能偏最小二乘法(PLS)-8-本节采用辽宁省给出的关于经济与教育投入历年的数据进行偏最小二乘回归建模。在这个数据系统中被测的样本点,是辽宁省22年的不同教育程度的投资与产业的产出。被测变量分为两组。第一组是自变量包括:L1、L2、L3、L4、K、第二组是因变量包括Y1、Y2、Y3。原始数据见下表1。人工智能偏最小二乘法(PLS)-9-表2给出了这8个变量的简单相关系数矩阵。从相关系数矩阵可以看出,自变量与自变量、自变量与因变量、因变量与因变量之间的关系如下:表2相关系数矩阵10.9846630.873672-0.484660.9446660.8642590.889930.889520.98466310.911658-0.494440.9695170.9087820.9243880.9278210.8736720.9116581-0.619620.8944370.8939550.8786190.886966-0.48466-0.4944
本文标题:偏最小二乘法回归建模案例
链接地址:https://www.777doc.com/doc-3720662 .html