您好,欢迎访问三七文档
样本熵熵原本是一个热力学概念,是用来描述热力学系统混乱(无序)程度的度量。在信息论建立之后,关于上的概念和理论得到了发展。作为衡量时间序列中新信息发生率的非线性动力学参数,熵在众多的科学领域得到了应用。八十年代最常用的熵的算法是K-S熵及由它发展来的E-R熵,但这两种熵的计算即使对于维数很低的混沌系统也需要上万点的数据,而且它们对于噪声很敏感,时间序列叠加了随机噪声后这两种熵的计算可能不收敛[65]。九十年代初,Pincus提出的近似熵(APEN,AproximateEntropy)主要是从衡量时间序列复杂性的角度来度量信号中产生新模式的概率大小,产生新模式的概率越大,序列的复杂性越大,相应的近似熵也越大。近似熵已成功应用于生理性时间序列的分析,如心率信号,血压信号,男性性激素分泌曲线等时间序列的复杂性研究中,还预示了近似熵表征人的某些生理变化情况的能力[66,67]。样本熵(SampleEntropy)是由Richman和Moornan[12]提出的一种新的时间序列复杂性的度量方法。样本熵在算法上相对于近似熵算法的改进:相对于近似熵而言,样本熵计算的则是和的对数。样本熵旨在降低近似熵的误差,与已知的随机部分有更加紧密的一致性,样本熵是一种与现在的近似熵类似但精度更好的方法。与近似熵相比,样本熵具有两大优势:第一,样本熵不包含自身数据段的比较,它是条件概率的负平均自然对数的精确值,因此样本熵的计算不依赖数据长度;第二,样本熵具有更好的一致性。即如一时间序列比另一时间序列有较高的值的话,那对于其他m和r值,也具有较高的值。样本熵的具体算法设原始数据为长度为N的时间序列,表示为Niiu1:)(。1)构造一组m维空间的向量)1(),...,2(),1(mNXXX,其中.)(),...,1(),()(miuiuiuiX。2)定义向量iX和jX之间的距离jXiXd,为两向量对应元素中差值最大的一个,即:0~1(),()max()().kmdXiXjuikujk3)对于每一个{:11}iiNm,在容许偏差为r的情形下,统计rjXX(i)d)(,的数目,计为)(iNm,并计算此数目与距离总数的比值,计作:mN(i)/NrCmmi4)对所有的i求平均值计作)(rm,即mNimimrCmNr1)(1)(5)将维数m增加1,变成1m重复上述1)-4)过程得到)(1rCmi,)(1rm。)1/()()(11mNiNrCmmi)1(111)()1(1)(mNimimrCmNr6)理论上此序列的样本熵),,(rmNSampEn为:)(/)(1nl),(1rrimrmSampEnmmN实际中N不可能取,当N取有限值时,估计:)(/)(1n),,(1rrrmNSampEnmm),,(rmNSampEn的值与参数N,m,r的选取有关。不同的嵌入维度m和相似容限r对应的样本熵值也不同。Pincus曾指出,r取原始数据标准偏差的25.0~1.0倍,1m或2m时),,(rmNSampEn的值对序列长度N的依赖性最好,此时计算所得的样本熵具有较为合理的统计特性。分析上式子可以看出,样本熵实际上是对数据长度N,相似容限r,m点数据段互相相似情况下1m点数据段互相相似的条件概率CP的负平均自然对数的近似值。样本熵在算法上相对于近似熵算法的改进,具有如下性质:(1)样本熵不包含自身数据段的比较,因此它是条件概率的负平均自然对数的精确值,因此样本熵的计算不依赖数据长度;(2)样本熵具有更好的一致性。即如一时间序列比另一时间序列有较高的值的话,那对于其他m和r值,也具有较高的值;(3)样本熵对于丢失数据不敏感。即使数据丢失多达1/3,对计算值影响依然很小。样本熵的计算可以按照上述定义去进行,但实际上,这些步骤有很多冗余计算,效率低,速度慢,不利于实时运用。洪波,陈天祥等在定义的基础上,引入了二值距离阵的概念,提出了一种使用的快速算法,大致流程如下:第一步:对N点序列,先计算NN二值距离矩阵NNijdD][。.)]),([,0])(),([,1rjXiXdrjXiXddij(第二步,利用矩阵D中的元素,按照行递增的顺序,每两行(当2m时)或每三行(当3m时)的矩阵元素按斜线方向的组合进行“与”运算,把每一行的斜线“与”的结果累加后除以1mN,即可得到rCi2和rCi3。如图1所示。11112.NijijjiddCrNm.122i11113mNdddrCjjiNjiji11d14d13d12d15d21d24d23d22d25d31d34d33d32d35d41d44d43d42d45d51d54d53d52d55d21Cr22Cr23Cr24Cr31Cr32Cr33Cr图1比如,2m时,我们要判断rXXd4),2(是否成立,等价于判断ruud4),2(和ruud5),3(是否同时成立。即1*3524dd是否成立,这就是上述斜线求“与”的过程。实际计算过程中2m和3m可以放在同一个循环中进行,并且只有在2m斜线求“与”结果不为“1”的地方才有必要进行3m的斜线求“与”过程。第三步:由rCi2和rCi3分别计算)(2r和)(3r。第四步:计算),,(rmNSampEn。二、近似熵近似熵使用一个非负数来表示一个时间序列的复杂性,越复杂的时间序列对应的近似熵越大。其具体算法如下:对于给定的长度为N的时间序列1,2,...,uuuN,构造一组m维空间的向量1,2,...,XXXN,其中,1,2,...,1Xiuiuiuiuim。定义向量Xi和Xj之间的距离为[,]dXiXj为两对应元素中差值最大的一个,即:[,]max11,1,2,...,1dXiXjuikujkkm对于每一个11iiNm,定义/1miCrnNm式中n——,dXiXjrXi的的个数。miCr表示以Xi为中心,在窗口长度为m,容许偏差为r的情形下,其余向量Xi与Xj的距离[,]dXiXj小于r的概率,从而表示所有Xj与Xi的关联(规律性)程度ji,定义关联函数:1111lnNmmmiirNmCr近似熵定义为:1,limmmApEnNSmrrr一般而言,此极限以概率1存在。实际工作中N不可能为。当N为有限值时,算得的是ApEnS的估计值,记为:1,,mmApEnSmrNrr
本文标题:样本熵
链接地址:https://www.777doc.com/doc-5082659 .html