您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 特征波长筛选在近红外光谱测定梨硬度中的应用
第26卷第8期农业工程学报Vol.26No.83682010年8月TransactionsoftheCSAEAug.2010特征波长筛选在近红外光谱测定梨硬度中的应用朱伟兴1,江辉1,陈全胜2※(1.江苏大学电气信息工程学院,镇江212013;2.江苏大学食品与生物工程学院,镇江212013)摘要:为了提高应用近红外光谱分析技术快速测定梨硬度的精度和稳定性,该研究采用联合区间偏最小二乘和遗传算法(siPLS-GA)在校正模型中用来筛选特征光谱区域和波长,通过交互验证法确定模型的主成分因子数和筛选的波长,并以预测均方根误差(RMSEP)和相关系数(Rp)作为模型的评价标准。基于siPLS-GA的最优模型包含4个光谱区、96个变量和10个主成分因子。该模型结果显示:最佳预测模型相关系数(Rp)和RMSEP分别为0.9083和0.5573。研究结果表明,近红外光谱技术结合siPLS-GA建模用于无损、快速测定梨的硬度是可行的。关键词:近红外光谱,联合区间偏最小二乘,遗传算法,硬度,梨doi:10.3969/j.issn.1002-6819.2010.08.062中图分类号:O657.3文献标识码:A文章编号:1002-6819(2010)-08-0368-05朱伟兴,江辉,陈全胜.特征波长筛选在近红外光谱测定梨硬度中的应用[J].农业工程学报,2010,26(8):368-372.ZhuWeixing,JiangHui,ChenQuansheng.Applicationofcharacteristicwavelengthsselectionindeterminationofpearfirmnessbynearinfrared(NIR)spectroscopy[J].TransactionsoftheCSAE,2010,26(8):368-372.(inChinesewithEnglishabstract)0引言梨作为中国优势果品,其分布范围广、产量大,栽培面积和产量均居世界首位。梨硬度(firmness)是指果肉抗压力的强度,通常作为判断梨品质优劣的一个重要指标。目前国家标准(GB/T10650-2008)规定水果硬度检测采用MT穿孔检测方法(Magness-Taylorpuncturetest)。该方法属于有损检测,且检测速度慢,无法满足梨生产和销售过程中的大样本群体的快速检测[1-2]。近年来,近红外光谱检测技术因其快速、无损的优点,在农产品内部品质检测中得到越来越广泛的应用[3]。2007年,邹小波等应用近红外光谱技术检测苹果糖度,通过遗传区间偏最小二乘(intervalpartialleastsquares-geneticalgorithms,iPLS-GA)筛选特征光谱区域并在此基础上采用遗传偏最小二乘法(geneticalgorithms-partialleastsquares,GA-PLS)提取苹果糖度近红外光谱的特征波长,进行苹果糖度预测,结果发现此模型对预测集的预测相关系数提高了近10%;且模型得到了很大的简化[4]。2008年,王加华等应用近红外光谱技术检测苹果糖度,利用遗传算法最为模块进行波段选择,建立了GA-PLS模型,并建立了全光谱和经验谱区的偏最小二乘(PLS)模型与之比较[5]。2009年Cavaco等利用可见近红外光谱技术检测梨的硬度,并通过比较成熟期和非成熟梨硬度值的差异来建立预测模型以提高模型预测精度[6]。2009年,王收稿日期:2009-11-08修订日期:2010-05-20基金项目:国家自然科学基金项目(30800666);江苏省自然科学基金项目(BK2009216)作者简介:朱伟兴(1957-),男,江苏苏州人,教授,博士,博士生导师,主要研究方向:智能检测与控制、人工智能与模式识别和农业信息化技术研究。镇江江苏大学电气信息工程学院,212013。Email:wxzhu@ujs.edu.cn※通信作者:陈全胜(1973-),男,安徽桐城人,副教授,博士,主要研究方向:食品与农产品品质无损检测和生物信息化工程研究。镇江江苏大学食品与生物工程学院,212013。Email:chenjiang0518@yahoo.com.cn加华等应用近红外光谱技术评价西洋梨的糖度,通过遗传算法结合偏最小二乘(GA-PLS)进行波段选择,建立了4种洋梨的GA-PLS模型和全光谱模型,比较得知不仅提高了测量精度,且减少了建模变量[7]。以上研究表明近红外光谱技术检测梨等水果内部品质的可行性。梨的硬度是一个复杂的综合指标,在某些近红外区域,梨的光谱信息与其硬度之间缺乏相关性,这就导致一定程度的噪音信息。在PLS模型建立过程中,这些噪音和冗余信息的介入容易扩大估计方差,降低模型的精度和稳定性。以往研究应用遗传算法优选特征区间后建立PLS模型以降低建模复杂度和提高模型预测精度,但大多没有考虑到在入选的同一个子区间里相邻变量之间可能存在高度相关性。鉴于此,本文研究了利用联合区间偏最小二乘(synergyintervalpartialleastsquare,siPLS)从梨的近红外全光谱中筛选出几个有效的特征光谱区域,然后再通过遗传算法(geneticalgorithms,GA)从这些特征光谱区域中筛选出与梨硬度相关的有效变量来建立PLS模型,这样大大降低了近红外区域内的冗余信息,并减少了大量与梨硬度不相关的噪声信息,提高了模型的预测精度。为突出其优越性,并将它与其他方法建立的模型进行了比较。1材料与方法1.1试验仪器与材料试验使用AntarisⅡ傅立叶变换近红外光谱仪(ThermoScientificCo.,USA)采集光谱,梨硬度的标准参考值通过TA-XT2i物性仪(StableMicroSystemLtd,UK)测量得到。试验的研究对象为江苏的黄冠梨,于2009年8月购于镇江当地超市。梨样本总数为99,从中随机选取66个样本作为校正集,其余33个样本作为预测集。1.2试验方法将黄冠梨分别编号后置于4℃冰柜中贮藏。试验前,第8期朱伟兴等:特征波长筛选在近红外光谱测定梨硬度中的应用369将从冰柜中取出的黄冠梨置于实验室中3h,使其整体温度与环境温度一致(试验环境温度控制为25℃)。每个样品在赤道部位标记3处(间隔约120°),进行光谱扫描和硬度测定。采用近红外光谱仪进行光谱扫描,以仪器内置背景为参比,积分球漫反射,扫描波数范围为4000~10000cm-1,扫描次数16次,分辨率8cm-1。采集黄冠梨3个标记部位的光谱,并将其平均光谱作为该样品的原始光谱。采集完光谱后,将每个样品的3个标记部位去皮,按国家标准(GB/T10650-2008)测定硬度。压缩探头采用的是直径2mm的钢制压头P2,压缩测试的速率为:测前速率0.5mm/s,测试速率0.2mm/s,测后速率0.5mm/s。取3个标记部位的硬度平均值作为整个梨的硬度。表1所列为校正集和预测集样品的硬度测量结果。表1梨硬度在校正集和预测集中的参考测量结果Table1Referencemeasurementresultsofpearfirmnessinthecalibrationandpredictionsets硬度/N样本数平均值最大值最小值标准偏差校正集665.9568.5842.4901.465预测集336.0348.5212.9371.369研究采用siPLS-GA建立梨硬度模型时,利用交互验证(cross-validation)法来优化模型的相关参数,以梨硬度的实测值和NIR预测值相关系数(R)和交互验证均方根误差(rootmeansquareerrorofcross-validation,RMSECV)及预测均方根误差(rootmeansquareerrorofprediction,RMSEP)作为模型的评价标准。本研究所有数据分析是在MatlabR2007a(Mathworks,USA)软件平台上完成的。2结果与分析2.1siPLS-GA模型建立在本研究中,梨的原始光谱经过标准正态变量变换(SNV)预处理后再利用联合区间偏最小二乘法(siPLS)结合遗传算法(GA)来进行特征谱区和波长的筛选。iPLS由Nørgaard于2000年提出的一种波长筛选法。其基本原理将整个光谱区域划分为n个等宽的子区间,然后,在每个子区间上进行偏最小二乘回归,得到n个局部回归模型,以交互验证时的交互验证均方根误差(RMSECV)作为各局部模型的精度衡量标准[8]。联合区间偏最小二乘法(siPLS)是建立在常规区间偏最小二乘法基础上的一种方法,它将同一次区间划分中精度较高的几个局部模型所在的子区间联合起来,共同预测农产品品质指标(称其为联合子区间法)[9]。遗传算法具有全局快速搜索的优点,将遗传算法和偏最小二乘法有机的结合起来,发挥各自的长处,建立更加稳定、简便、预测能力更强的模型[10]。2.1.1联合区间偏最小二乘筛选特征光谱区域在应用联合区间偏最小二乘法对梨的近红外光谱进行筛选时,由于目前尚不能从理论上确定参加联合建模的子区间数,因此本研究先将整个光谱区域分别划分为10、11、12、…、25个子区间,以考察不同数目的子区间划分对模型性能以及最佳波长区间的影响。在数据处理过程中,划分为相同子区间的情况下,又尝试分别联合2、3和4个子区间。表2为梨硬度的联合区间偏最小二乘模型的数据分析结果。表2选择不同子区间数的联合区间偏最小二乘分析模型的结果Table2ResultsofsiPLScalibrationmodelselecteddifferentspectralregions区间划分数主因子数被选区间交互验证均方根误差RMSECV/%1011[4,5,7]0.7130119[4,5,10]0.6905129[4,5]0.67121310[4,5,6,12]0.69651411[5,6,12]0.67311510[5,12,13]0.6658168[5,6,7]0.66091712[2,6,14,17]0.67421811[2,6,14,15]0.68111910[2,7,15,16]0.65652011[2,7,16,17]0.6001218[2,12,17,20]0.6089228[2,8,12,17]0.61302311[2,13,19,23]0.5839248[2,14,19,23]0.6015259[2,9,20,25]0.6169最优的梨硬度siPLS校正模型的联合区间是依据最小RMSECV来选择的。由表2可以看出,当整个光谱区域(1557波数点)划分成23个子区间时获得,此时,前16个子区间有68个波数点,后7个子区间有67个波数点。主成份因子数为11,联合区间为[2,13,19,23],如图1所示。这样,参与模型建立的光谱变量数减少至270个,剔除了大量与梨硬度指标不相关的光谱区间,大大降低了光谱变量数。图1联合区间偏最小二乘模型选择的最佳联合区间[2,13,19,23]Fig.1OptimalspectralregionselectedbysiPLSwithintervalsnumber2,13,19and232.1.2遗传偏最小二乘筛选特征波长尽管通过siPLS算法能筛选出有效的特征光谱区域,370农业工程学报2010年可以剔除了大量无关信息,大大降低参与模型建立的变量数。但是,在入选的某个区间内,由于相邻的变量之间仍然存在高度相关性[11],通过该方法选取的270个变量中仍然存在大量的冗余信息。因而,利用遗传偏最小二乘算法(GA-PLS)再从这些优化了的联合区间[2,13,19,23]中选取特征波长,建立PLS预测模型,以降低最终复杂度。遗传算法的控制参数设定为[12]:初始群体大小为50,最大选取变量数为270,交叉概率pc=0.5,变异概率pm=0.01,遗传迭代次数为100,以RMSECV为适应度函数。遗传迭代终止后,按选取频率重新排列的变量按频数高低逐一顺序加入PLS模型中,再由选取变量数与RMSECV值作图选定最佳变量数,便
本文标题:特征波长筛选在近红外光谱测定梨硬度中的应用
链接地址:https://www.777doc.com/doc-4769348 .html