您好,欢迎访问三七文档
基于关联规则算法的电站数据挖掘数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是多学科和多种技术交叉结合的新领域,它综合了机器学习、数据库、专家系统、模式识别、统计、管理信息系统、基于知识的系统、可视化等领域的有关技术,因而数据挖掘的方法极其丰富。电厂的历史数据库中存储了大量的数据,这些数据的背后隐藏了许多对提高电厂的生产效率、经济安全性有积极的指导意义的信息。火电厂的过程运行参数具有强关联性,本文用基于关联规则的数据挖掘技术进行数据开采,通过使用weka数据挖掘平台对电厂的实时运行数据进行挖掘,了解数据挖掘的目的、过程,理解数据挖掘的结果,并能够根据所学知识,对挖掘的过程参数和结果数据进行分析,以发现数据隐藏的更深层次的规律,充分发挥大量历史数据对电力生产的指导作用。1关联规则算法描述关联规则的挖掘是数据挖掘领域一个非常重要的研究课题,己经广泛地用于各种数据分析。关联规则挖掘技术用来发现所有可能的规则,用这些规则来解释某些属性的出现和另一些属性的出现的相关性。一条形如X⇒Y”的关联规则表示:对于一部分事务,在特定的概率下属性集X的一个值决定了属性集Y的一个值。这就是说,关联规则目的就是发现数据库属性之间的并发模式。例如,从一家超市的顾客购物数据记录中得出一条关联规则“在10%的事务中,85%的顾客买了牛奶也会买酸乳酪。”1.1基本概念设1{}mIii是项的集合,任务相关的数据D是数据库事务的集合,每个事务T是项的集合,使得T⊆I。每个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当A⊆T。1关联规则是形如A⇒B的蕴含式,其中A⊂I,B⊂I,A∩B=φ。规则A⇒B在事务集D中成立,具有支持度s,其中s是D中事务包含A∪B(即A和B两者)的百分比,它是概率P(A∪B)。规则A⇒B在事务集D中具有置信度c,如果D中包含A的事务同时也包含B的百分比是c,这是条件概率P(B|A),即:()()()(|)ssupportABPABcconfidenceABPBA同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便计,用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。项的集合称为项集(itemset),包含k个项的项集称为k—项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数和计数。项集满足最小支持度min_sup,如果项集的出现频率大于等于min_sup与D中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集(frequentitemset),频繁k-项集的集合通常记为Lk。关联规则的挖掘是一个两步的过程:找出所有频繁项集:这些项集出现的频繁性至少和预定义的最小支持计数一样。由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。1.2关联规则的分类关联规则分类方法包括:根据规则中所处理的值类型:如果规则考虑的关联是项的存在与不存在则它是布尔关联规则。如果描述的是量化的项或属性之间的关联,则它是量化关联规则。根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则。如果规则涉及两个或多个维,则它是多维关联规则。根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽象层发现规则,称所挖掘的规则集由多层关联规则组成。反之,如果在给定2的规则集中,规则不涉及不同抽象层的项或属性,则该集合包含单层关联规则。根据关联挖掘的各种扩充:关联挖掘可以扩充到相关分析,那里可以识别项是否相关,还可以扩充到挖掘最大频繁模式和频繁闭项集。最大模式是频繁模式p,使得p的任何真超模式都不是频繁的,其中如果b是a的子模式,即如果a包含b,称a是b的超模式。如果a真包含b,则称a是b的真超模式。频繁闭项集是一个频繁的闭的项集,其中项集c是闭的,如果不存在c的真超集'c,使得每个包含C的事务也包含'c。使用最大模式的频繁闭项集可以显著地压缩挖掘所产生的频繁项集数。1.3Apriori算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法的名字基于这样的事实:算法使用频繁项集性质的先验知识,它采用一种称作逐层搜索的迭代方法,k—项集用于搜索(k+l)—项集。首先,找出频繁1—项集的集合,该集合记作L1,L1用于找频繁2—项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k—项集。找每个Lk需要一次数据库扫描,为提高频繁项集逐层产生的效率,一种称为Apriori性质的重要性质用于压缩搜索空间。Apriori性质是指:频繁项集的所有非空子集都必须也是频繁的,它基于如下观察:如果项集I不满足最小支持度阈值min_sup,则I不是频繁的,即P(I)min_sup。如果项A添加到I,则结果项集(即I∪A)不可能比I更频繁出现,因此,I∪A也不是频繁的,即P(I∪A)min_sup。该性质属于一种特殊的分类,称作反单调,意指如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。运用Apriori性质来根据Lk−1找Lk,由连接和剪枝两个过程组成:(1)连接采用递推的连接方法求Lk,用Lk-1与自身作连接产生候选k一项集的集合Ck。设I1和I2是Lk-1中的项目集。记I1[j]表示I1的第j项。如果I1和I2的前(k-2)个对应项相等,则I1和I2可连接。如果:12121212([1][1])([2][2])([2][2])([1][1])IIIIIkIkIkIk时,则I1和I2产生新的项目集为:1112[1][2][1][1]IIIKIK,将该项目集加入集合3Ck,直到不能产生新的项目集。(2)剪枝由Apriori性质可知,频繁k—项集的任何子集必须是频繁项目集。设:kkcC,即ck是一个候选k一项集,ck-1是ck的一个(k-l)-项子集,若满足11kkcL,则有:1kkcL,即候选k-项集ck应该从候选k一项集的集合Ck中删除。APrinri算法简要的步骤可以表示为:(1)扫描事务数据库中的每个事务,产生候选1-项集的集合C1;(2)根据最小支持度min_sup,由候选1-项集的集合Cl产生频繁1-项集的L1;(3)对k1,重复执行步骤(4)、(5)、(6);(4)由Lk执行连接和剪枝操作,产生候选(k+l)一项集的集合Ck+1;(5)根据最小支持度min_sup,由候选(k+1)-项集的集合Ck+1产生频繁(k+1)-项集的集合Lk+1;(6)若kL,则k=k+1,跳往步骤(4);否则,跳往步骤(7);(7)根据最小置信度min_conf,由频繁项目集产生强关联规则,结束。2使用关联规则对电站数据分析2.1数据描述本文选取的数据为某电站的实际运行数据。该数据集共有162条记录,每一条记录有17个属性,分别为:序号、开始时间、结束时间、时间长度、负荷特征ID、循环水进口温度、负荷、主蒸汽压力、主蒸汽温度、再热蒸汽温度、再热蒸汽压力、给水温度、排汽压力、排烟温度、凝汽器真空温度和供电煤耗。除了序号、时间和负荷特征ID外,其他数据均保留到小数点后4位。其中,排汽压力和凝汽器真空度为负值。227条记录中:循环水进口温度的最大值为:24.8070,最小值为:13.2708;负荷的最大值为:600.5277,最小值为:300.1253;主蒸汽压力最大值为:17.1801,最小值为:15.1954;主蒸汽温度最大值为:542.7240,最小值为:533.4899;4再热蒸汽温度最大值为:541.0474,最小值为:518.7255;再热蒸汽压力最大值为:3.3629,最小值为:1.5906;给水温度最大值为:279.5667,最小值为:238.3696;排汽压力最大值为:-91.6119,最小值为:-98.1801;排烟温度最大值为:135.4093,最小值为:92.8806;排汽温度最大值为:321.9489,最小值为:306.7930;凝汽器真空度最大值为:-92.4553,最小值为:-98.4330;供电煤耗最大值为:355.9414,最小值为:322.6320;2.2算法选择电站各设备之间的关系在大量的生产历史数据中表现为运行参数、负荷、性能指标等数据项之间的关联关系,将这种关系定量化就得到反映机组运行实际情况的定量关联规则在特定负荷和相同外部条件下,选择相应性能指标最优时机组所对应的运行参数用以指导实际运行,这样得到的参数最优值在实际运行中可以达到或基本达到,也最能反应生产实际运行水平。因此关联规则完全可以作为一种分析电站运行数据的有效方法来为电站经济运行水平分析提供参考根据所选的数据,希望找到提高机组效率的方法,即如何用更少的煤发更多的电,降低煤耗率。煤耗率就是每生产或供应1KW.H电能所需要消耗的燃煤量,而煤耗率与负荷、循环水进口温度、主蒸汽温度、给水温度、排气压力、排烟温度等有关系,因此我们可以使用关联规则的算法对影响煤耗的因素进行分析。2.3数据处理本文主要通过利用Weka中提供的Apriori算法对所给数据进行关联规则分析。这里首先需要将.xlsx格式的excel数据存为.csv文件,因为Weka不识别中文,因此将表格中的循环水进口温度、负荷、主蒸汽压力等均转化为英语描述代替。导入数据:将.csv数据文件导入weka中,可以看出总共有162条记录。5数据预处理:本文采用关联规则挖掘,所以需要对数值型的数据先离散化。去掉无意义的“序号”、“开始时间”、“结束时间”和“时间长度”这些属性,然后将他们离散化为5段,以供电煤耗(Coalconsumption)属性为例,离散化后的结果和柱状图如下所示:6关联规则数据挖掘:采用weka的Apriori关联规则算法进行数据挖掘分析。设置相关参数如下:最小支持度阈值=0.1,最小置信度阈值=0.9,显示规则数量=10软件列出前10条置信度最大的关联规则如下:Bestrulesfound:1.Load='(-inf-360.20578]'81==Reheatsteampressure='(-inf-1.94506]'81conf:(1)2.Fedwatertemperature='(-inf-246.60902]'80==Reheatsteampressure='(-inf-1.94506]'80conf:(1)3.Load='(-inf-360.20578]'Fedwatertemperature='(-inf-246.60902]'79==Reheatsteampressure='(-inf-1.94506]'79conf:(1)4.Fedwatertemperature='(-inf-246.60902]'80==Load='(-inf-360.20578]'79conf:(0.99)5.Reheatsteampressure='(-inf-1.94506]'Fedwatertemperature='(-inf-246.60902]'80==Load='(-inf-360.20578]'79conf:(0.99)6.Fedwatertemperature='(-inf-246.60902]'80==Load='(-inf-360.20578]'Reheatsteampressure='(-inf-1.94506]'79conf:(0.99)7.Load='(-inf-360.20578]'81==Fedwatertemperature='(-inf-246.60902]'79conf:(0.98)8.Load='(-inf-360.20578]'Reheatsteampressure='(-inf-1.94506]'81==Fedwatertemperature='(-inf-246.60902]'79conf:(0.9
本文标题:电站数据分析
链接地址:https://www.777doc.com/doc-2160136 .html