您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 能源与动力工程 > 基于数据挖掘的SVM短期负荷预测方法研究_牛东晓
基于数据挖掘的SVM短期负荷预测方法研究牛东晓,谷志红,邢棉,王会青(华北电力大学工商管理学院,河北省保定市071003)StudyonForecastingApproachtoShort-termLoadofSVMBasedonDataMiningNIUDong-xiao,GUZhi-hong,XINGMian,WANGHui-qing(SchoolofBusinessAdministration,NorthChinaElectricPowerUniversity,Baoding071003,HebeiProvince,China)第18期牛东晓等:基于数据挖掘的SVM短期负荷预测方法研究7法:先通过天气预报了解预测日的整日气象特征,再利用数据挖掘技术寻找与预测日同等气象类型的多个历史短期负荷,组成具有高度相似气象特征的数据序列,从而减少SVM的训练数据;据此再构建支持向量机预测模型。将该系统应用于某地区短期负荷预测中,与BP神经网络及标准SVM方法相比,得到了较高的预测精度,计算速度也得以提高,从而表明了以数据挖掘技术作为信息预处理的SVM学习系统的优越性。1数据挖掘与SVM简介1.1数据挖掘数据挖掘就是使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程,也就是从海量数据中挖掘出可能有潜在价值的信息技术[9-10]。它可实现以下功能:(1)分类。按分析对象的属性、特征,建立不同的组类来描述事物,用于预测事件所属的类别。(2)聚类。识别出数据分析内在的规则,按照这些规则把对象分成若干类。(3)关联。发现有联系的事件或记录,由此推断事件间潜在的关联,识别可能重复发生的模式。(4)预测。分析掌握对象的发展规律,对未来的趋势做出预见。1.2SVM方法SVM方法是统计学习理论(SLT)的一种成功实现,它建立在SLT的VC(vapnikchervonenkis)理论和结构风险最小化(structuralriskminimization,SRM)原理基础上,根据有限样本信息在模型的复杂性(对特定训练样本的学习精度)和学习能力(无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得更好的泛化能力[11-12]。它有如下特点:(1)实现了SVM原则,它能最小化泛化误差的上界,而不是最小化训练误差,因此具有更好的泛化性能。(2)与神经网络方法相比,SVM有更少的自由参数。在SVM算法中仅有3个自由参数,而神经网络却有大量的自由参数,需要凭经验主观选择。(3)神经网络不一定能收敛到全局最优解,容易陷入局部最优解。而在SVM算法中,训练SVM就等价于解一个具有线性约束的二次凸规划问题,因而它的解是唯一的、全局的和最优的。SVM的缺点是不能确定数据中哪些知识是冗余的,哪些是有用的,哪些作用大,哪些作用小。但由于SVM具有良好的泛化性能,目前已经成功地推广应用到了模式识别、函数逼近、信息融合、时间序列预测等领域。2基于数据挖掘的SVM预测方法2.1数据挖掘预处理根据数据挖掘的基本概念和功能,本文将模糊分类器和灰色关联技术联合起来,设计了一种具有分类和关联功能的数据挖掘技术,步骤如下:(1)短期负荷气象影响模糊分类器。对负荷影响较大且天气预报可以给出的因素有日最高温度、日最低温度、日平均温度和日降雨量,如果条件具备,还可以增加其它因素。以本文实例所用电网为例,为了得到气象因素与负荷变化之间的关系,做散点图如图1。从图1可以看出:电力负荷随着最低温度的变化成非线性规律变化,即最低温度对电力负荷有明显的影响。同样的道理,可以作其他气象因素与历史负荷值散点图。从中可以得出结论:最高气温、最低气温、天气状况、湿度对每日负荷有较明显的影响。现对这4类因素进行模糊赋值分类,对这4类气象因素的模糊性描述语言用数值向量表示出来,分类情况用向量(Z1,Z2,Z3,Z4)表示。Z1、Z2、Z3分别代表日最高温度、日最低温度和日平均温度,由于各地气温的低、中、高标准不同,并且日最高温度是低、中或高也有不同的标准,因此可按本地区的实际情况确定一定的模糊化标准,将三者分类为低、中、高,分别取值1、2、3;Z4代表日降雨量,雨量的小、中、大标准各地也不同,也可按地区特点设定,或采用模糊聚类分析方法确定,可将其分类为无雨、小雨、中雨、大雨,分别取值为0、1、2、3,则可将每日的历史负荷分类如下:121234341,2,31,2,3(,,,)1,2,30,1,2,3ZZZZZZZZ===每日将历史短期负荷曲线96点输入数据库,同时输入每日的气象影响因素的模糊分类标记,例如:昨日最高温度中等,平均温度中等,最低温度高等,有中雨,则昨日的气象模糊分类类别是(2,2,3,2),这样,每日都有一个气象模糊分类标记。如果根据气象预报知道预测日气象类别是(2,2,3,2),则从历史负荷库中反向抽取具有(2,2,3,2)类别特征的历史负荷日,将具有这一气象特PDF文件使用pdfFactoryPro试用版本创建卷征的所有负荷日抽出,形成一个气象模糊分类库,这个库中的所有负荷日都具有(2,2,3,2)这一气象特征。(2)根据灰色关联分析方法选定预测所需负荷日数据。第(1)步所建的同一类别气象模糊分类库中的负荷日只是挖掘出了粗糙相似的气象特征,为了提高预测精度,再运用灰色关联分析理论,在分类库中进一步抽取与预测日具有高度关联的若干历史负荷日,以这些负荷日作为下一步预测建模的历史数据。这些历史负荷日通过联合数据挖掘技术中的分类和关联,达到了在气象特征上与预测日气象特征的高度一致,用此来建模,无疑将较大地提高负荷预测的精度。1)灰色关联分析理论。关联分析是灰色系统理论提出的一种分析系统中各因素关联程度的方法,其基本思想是根据曲线间相似程度来判断关联程度。计算步骤如下:①构造序列矩阵。在通过模糊分类器对历史负荷进行了初步分类挖掘并形成了与预测日具有相似气象特征的历史数据分类库后,进一步进行关联排序分析。参考序列(又称预测日气象特征)用T0表示,若预测日气象预报为最高气温40℃,平均气温30℃,最低气温20℃,雨量15mm,则T0=[T0(1),T0(2),T0(3),T0(4)]=(40,30,20,15)。同理用已得分类库中的每日气象数据组成比较序列,以T1,T2,…,Tn表示,这n+1个序列构成序列矩阵如下:0101201(1)(1)(1)(,,,)()()()nnnTTTTmTmTm…,=||||TTTT(1)②无量纲化。为消除量纲,用初值化方法进行数据处理。采用式(2)得无量纲矩阵如式(3)所示:()()/(1),0,1,2,,;1,2,,iiiT′k=TkTi=…nk=…m(2)0101201(1)(1)(1)(,,,,)()()()nnnTTTTmTmTm′′…′′′′…′=||||′′…′TTTT(3)③计算关联系数。0()iξk=0000minmin()()maxmax()()()()maxmax()()iiikikiiikxkxkxkxkxkxkxkxkρρ−+−−+−(4)式中,i=0,1,2,…,n;k=1,2,…,m,ρ∈[0,1],ρ为分辨系数,通常取ρ=0.5,得关联系数矩阵为010010(1)(1)()()nnmmξξξξ|||(5)④计算关联度。011()miikrkmξ===∑,i=1,2,…,n(6)2)确定预测建模所需历史负荷序列。本文以预测日的气象因素指标向量为参考序列T0,通过模糊分类器所得气象分类库中提供的历史数据中每一日的气象因素指标向量为比较序列Tt,计算T0与Tt之间的关联度rt。设定一阈值α,取关联度rt≥α的负荷日,或给定一n值,一般n取5~7即可够建模使用,按关联度从大到小的顺序取前n个负荷日,然后将这些负荷日按时间先后排序作为新的历史数据序列,这样就完成了挖掘提取工作。最小温度/℃-505101510002000P/MW0图1最小温度与高峰负荷关联散点图Fig.1Diagramofrelationscatterspointsbetweentheminutesttemperatureandpeak-load2.2SVM预测原理用SVM算法估计回归函数时,其基本思想是通过一个非线性映射φ,把输入空间的数据x映射到一个高维特征空间中去,然后在这一高维空间中作线性回归[13-14]。给定一数据点集如下:{()}1,niiiGd==x式中:xi为输入向量;di为望值;n为数据点的总数。SVM采用下式来估计函数:y=f(x)=ωφ(x)+b(7)式中:φ(x)为从输入空间到高维特征空间的非线性映射;系数ω和b通过最小化下式来估计。()2SVM111(),2niiiRccLdbnεφ=∑ωxω(8)式(8)中,采用Vapnik的ε不敏感损失函数为0,(,),dyLdydyεεε−≤−其它其目的是用稀疏数据点来表现由式(7)给出的决策函数。在式(8)给出的正则化风险泛函中,第1部分PDF文件使用pdfFactoryPro试用版本创建期牛东晓等:基于数据挖掘的SVM短期负荷预测方法研究9[]11,niiicLdynε=∑是经验风险,它们由ε不敏感损失函数来度量。第2部分2ω/2是正则化部分,c是正常数,它决定着经验风险与正则化部分之间的平衡。为了寻找系数ω和b,需要引入松驰变量iξ和*iξ,使下式成立:minimize2(*)*11(,)()2nSVMiiiRξcξξ=ω=ω+∑+s.t.()iωφx+ib−id≤ε+*iξ*iξ≥0(9)id−()iωφx−ib≤ε+iξiξ≥0最后,依靠引入拉格朗日乘子iα和*iα,由式(7)给出的决策函数就变成下面的精确形式:**1(,,)()(,)niiiiiiyfxααααkxb===∑−x+(10)对任何i=1,…,n都有等式iα×*iα=0,iα≥0,*iα≥0成立。要使式(9)成立,在引入拉格朗日乘子后,就可以把这一凸优化问题简化为对一个二次优化问题寻找向量ω的问题,在这种情况下,要找到所求的向量:*1()niiiiααx=ω=∑−(11)此时必须找到参数iα和*iα,i=1,…,n,使下式成立:maximize***11(,)()()nniiiiiiiiiRααεααdαα===−∑++∑−−**,11()()(,)2niijjijijααααK=∑−−xx(12)s.t.*11nniiiiαα==∑=∑,0≤iα≤c,0≤*iα≤c通过在二次优化方法中控制c和ε参数,就可以控制(即使在高维空间中)SVM的泛化能力。根据二次规划中的库恩——塔克条件,在式(12)中系数*()iiα−α只有一部分数目是非零值,它们所对应的数据点就是支撑向量。这些数据点位于决策函数的ε边界上或在边界外。在方程(12)中,由于其它数据点的系数*()iiα−α都等于零,从而证实了在所有的数据点中只有支撑向量能够决定决策函数。一般说来,ε值越大,支撑向量数目就越少,因而解的表达就越稀疏。然而,大的ε值也能降低数据点的逼近精度,从这一意义上讲,ε也是解的表达的稀疏程度与数据点的密度之间的平衡因子。在式(12)中,(,)ijKxx称为核函数,核函数的值等于2个向量ix和jx在其特征空间中的像()iφx和()jφx的内积,即:(,)()()ijijKxx=φx×φx(13)任何函数只要满足Mercer条件都可用作核函数,采用不同的函数作为核函数,可以构造实现输入空间中不同类型的非线性决策面的学习机器。2.3基于数据挖掘的SVM预测模型2.3.1基于数据挖掘的SVM结构从前面分析的数据挖掘技术和SVM方法各功能、特点中可发现它们存在2个互补性的差别:(1)SVM处理信息一般不能将输入信息空间维数简化,所以当输入信息空间维数较大时,就会导致SVM训练时间较长,而数据挖掘技术却能够通过发现数据间的关系,既可以去掉数据中的冗余信息,又可以简化输入信息的数据空间维数。(2)数据挖掘技术在实际应用过程中对
本文标题:基于数据挖掘的SVM短期负荷预测方法研究_牛东晓
链接地址:https://www.777doc.com/doc-3370991 .html