您好,欢迎访问三七文档
1数据仓库与数据挖掘第一章数据仓库与数据挖掘概述第二章数据仓库的分析第三章数据仓库的设计与实施第四章信息分析的基本技术第五章数据挖掘过程第六章数据挖掘基本算法第七章非结构化数据挖掘第八章离群数据挖掘第九章数据挖掘语言与工具的选择第十章知识管理与知识管理系统2第六章数据挖掘基本算法6.1分类规则挖掘6.2预测分析与趋势分析规则6.3数据挖掘的关联算法6.4数据挖掘的聚类算法6.5数据挖掘的统计分析算法6.6数据挖掘的品种优化算法6.7数据挖掘的进化算法36.2预测分析与趋势分析规则6.2.1预言的基本方法6.2.2定量分析预测6.2.3预测的结果分析6.2.4趋势分析挖掘46.2.1预言的基本方法预言(prediction)是一门掌握对象变化动态的科学,它是对对象变动趋势的预见、分析和判断,也是一种动态分析方法。预言的目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。一旦建立了表示数据中固有模式和趋势的模型,那么这个模型就可以成功地用于对未来时间的结果进行预测。56.2.1预言的基本方法预测的基本步骤:(1)确定预测目标,包括预测对象、目的、对象范围;(2)收集分析内部和外部资料;(3)数据的处理及模型的选择;(4)预测模型的分析、修正;(5)确定预测值。66.2.1预言的基本方法预测方法一般有定性分析预测法和定量预测法。定性预测包括:集合意见法、用户意见法(对象调查法)、员工意见法、专家评估法、类推法、判断预测和目标分解法等;定量预测方法包括:情景分析法、时间序列分析法(移动平均,指数平滑,季节系数,DOX-TENKENS法)、因果分析法(线性,回归,非线性模型:含生命周期法,经济计量模型,灰色系统模型,状态转移分析法,模拟法,系统模型)等。76.2.2定量分析预测(1)时间序列分析法(2)回归预测(3)非线性预测(4)灰色预测模型GM(1,1)(5)组合预测8(1)时间序列分析法时间序列分析法的原始数据要求:1)在时间上具有连续性;2)数据之间的可比性;3)可以采取交叉预测。时间序列可划为四种变化特征:趋势性(T)、季节性(S)、周期性(C)、不规则性(I)。可以利用散点图识别来变化特征。时间序列分析法一般有:简单平均、移动平均、加权移动平均、指数平滑、一元线性回归、相关比例推算。9(1)时间序列分析法时间序列定义——从时间序列的角度来看,每个数据单元可以被抽象为一个二元组(t,o)。其中:t为时间变量;o为数据变量,反映数据单元的实际意义,如某种商品的销售金额、股票的价格等。由此,对于时间序列可以给出如下定义:时间序列R是一个有限集{(t1,o1),(t2,o2),⋯,(tn,on)},满足titi+1(i=1,2,⋯,n-1)。由时间序列组成的数据库称为时间序列数据库。针对时间序列数据库的挖掘就是时间序列数据挖掘。时间序列数据挖掘是时间序列数据库中知识挖掘的一个步骤,它发现时间序列数据中的时态模式或模型。10(1)时间序列分析法时间序列挖掘的任务时间序列相似性搜索;时间序列聚类;时间序列分类;时间序列相关规则提取与模式分析;海量时间序列可视化;时间序列预测。典型的应用股票预测、机电系统诊断、医学诊断、生物信息学、营销指导、运动图像分析、生产过程监测等。11(2)回归预测一元线性回归(趋势外推):Y=a0+a1×X多元回归(因果关系):Y=a0+a1×X1+a2×X2+…+an×Xn系数用最小二乘法确定系数:a0,a1,…,an12(3)非线性预测Y=A+B×LOG(X)Y=1/(A+B×EXP(-X)Y=1/(A+B×X)Y=X/(A+B×X)Y=A×X^B,(A0)Y=A×EXP(B×X),(A0)Y=A×EXP(B/X),(A0)Y=A×EXP(B×X^2),(A0)将以上模型进行线性处理再转化为一元回归模型。13(4)灰色预测模型客观世界,既是物质的世界又是信息的世界。它既包含大量的已知信息,也包含大量的未知信息与非确知信息。未知的或非确知的信息称为黑色信息;已知信息称为白色信息。白色系统是指一个系统的内部特征是完全已知的,即系统的信息是完全充分的。黑色系统是指一个系统的内部信息对外界来说是一无所知的,只能通过它与外界的联系来加以观测研究。既含有已知信息又含有未知的、非确知的信息的系统,称为灰色系统。14(4)灰色预测模型在现实世界中,灰色系统是普遍存在的。灰色系统理论,是由我国著名学者邓聚龙先生于80年代初首创的一种系统科学理论。主要包括:灰色系统建模理论、灰色系统控制理论、灰色关联分析方法、灰色预测方法、灰色规划方法、灰色决策方法等。灰色预测法是一种对含有不确定因素的系统进行预测的方法。灰色系统是介于白色系统和黑色系统之间的一种系统。15(4)灰色预测模型灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。其用等时距观测到的反应预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。16(4)灰色预测模型灰色预测的类型①灰色时间序列预测:用观察到的反映预测对象特征的时间序列来构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。②畸变预测:通过灰色模型预测异常值出现的时刻,预测异常值什么时候出现在特定时区内。③系统预测:通过对系统行为特征指标建立一组相互关联的灰色预测模型,预测系统中众多变量间的相互协调关系的变化。④拓扑预测:将原始数据作曲线,在曲线上按定值寻找该定值发生的所有时点,并以该定值为框架构成时点数列,然后建立模型预测该定值所发生的时点。17(4)灰色预测模型为了弱化原始时间序列的随机性,在建立灰色预测模型之前,需先对原始时间序列进行数据处理,经过数据处理后的时间序列即称为生成列。灰色系统常用的数据处理方式有累加和累减两种。累加是将原始序列通过累加得到生成列。累加的规则:将原始序列的第一个数据作为生成列的第一个数据,将原始序列的第二个数据加到原始序列的第一个数据上,其和作为生成列的第二个数据,将原始序列的第三个数据加到生成列的第二个数据上,其和作为生成列的第三个数据,按此规则进行下去,便可得到生成列。18(4)灰色预测模型记原始时间序列为:nXXXXX11111,...3,2,1nXXXXX00000,...3,2,1生成列为:上标1表示一次累加,同理,可作m次累加:kimmiXkX1119(4)灰色预测模型对非负数据,累加次数越多则随机性弱化越多,累加次数足够大后,可认为时间序列已由随机序列变为非随机序列。一般随机序列的多次累加序列,大多可用指数曲线逼近。累减将原始序列前后两个数据相减得到累减生成列,累减是累加的逆运算,累减可将累加生成列还原为非生成列,在建模中获得增量信息。一次累减的公式为:1001kXkXkX20(4)灰色预测模型关联度关联度分析是分析系统中各因素关联程度的方法,在计算关联度之前需先计算关联系数。关联系数设nXXXkX0000ˆ,...,2ˆ,1ˆˆnXXXkX0000,...,2,1则关联系数定义为:kXkXkXkXkXkXkXkXk00000000ˆmaxmaxˆˆmaxmaxˆminmin)(21(4)灰色预测模型式中:0XkXkX00ˆ为第k个点和0ˆX的绝对误差;kXkX00ˆminminkXkX00ˆmaxmax为两级最小差;为两级最大差;ρ称为分辨率,0ρ1,一般取ρ=0.5。对单位不一,初值不同的序列,在计算相关系数前应首先进行初始化,即将该序列所有数据分别除以第一个数据。22(4)灰色预测模型关联度0X和0ˆX的关联度为:nkknr1123(4)灰色预测模型例6.5一个计算关联度的例子工业、农业、运输业、商业各部门的行为数据如下:9.41,3.42,4.43,8.451X工业农业运输业商业参考序列分别为X1,X2,被比较序列为X3,X4,试求关联度。)9.44,9.43,6.41,1.39(2X5.3,5.3,3.3,4.33X7.4,4.5,8.6,7.64X24(4)灰色预测模型以X1为参考序列求关联度。第一步:初始化,即将该序列所有数据分别除以第一个数据。得到:9138.0,9235.0,9475.0,11X1483.1,1227.1,063.1,12X0294.1,0294.1,097,.13X7.0,805.0,0149.1,14X25(4)灰色预测模型第二步:求序列差2335.0,1992.0,1155.0,02第三步:求两极差1146.0,1059.0,0225.0,032148.0,1185.0,0674.0,042335.0maxmaxkMi0minminkmi26(4)灰色预测模型第四步:计算关联系数取ρ=0.5,有:4,3,2,11675.011675.01ikkii从而:1112503.02123695.03123333.041211138384.02135244.0313504.04131114634.02144963.0314352.041427(4)灰色预测模型第五步:求关联度551.041411212kk717.041411313kk621.041411414kk计算结果表明,运输业和工业的关联程度大于农业、商业和工业的关联程度。x2为参考序列时,计算类似,这里略去。28(4)灰色预测模型GM(1,1)模型的建立nXXXX0000,...,2,1设时间序列有n个观察值,通过累加生成新序列则GM(1,1)模型相应的微分方程为:其中:α称为发展灰数;μ称为内生控制灰数。nXXXX1111,...,2,111ddaXtX29(4)灰色预测模型设为待估参数向量,aˆˆ可利用最小二乘法求解。解得:nTTYBBB1ˆ求解微分方程,即可得预测模型:aeaXkXak11ˆ01nk...,2,1,030(4)灰色预测模型模型检验灰色预测检验一般有残差检验、关联度检验和后验差检验。(1)残差检验iX0按预测模型计算并将累减生成然后计算原始序列与的绝对误差序列及相对误差序列。iX1ˆiX0ˆiX0ˆ,ˆ1iXiXiXi000ˆni,...,2,1%10000iXiini,...,2,131(4)灰色预测模型(2)关联度检验根据前面所述关联度的计算方法算出与原始序列的关联系数,然后计算出关联度。根据经验,当ρ=0.5时,关联度大于0.6便满意了。iX0iX0ˆ32(4)灰色预测模型(3)后验差检验a.计算原始序列标准差:b.计算绝对误差序列的标准差:c.计算方差比:12002niS12001nXiXS12SSC33(4)灰色预测模型d.计算小误差概率:1006745.0SiPP00
本文标题:数据挖掘基本算法2
链接地址:https://www.777doc.com/doc-3629391 .html