您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 基于大数据的数据清洗研究
收稿日期:2018-05-16;修订日期:2018-06-13作者简介:康鲲鹏(1976-),男,副教授,硕士,主要研究方向:智能计算、大数据。基金项目:河南省科技攻关项目(No.182102210486);河南省高等学校重点科研项目(No.18A520008)。第36卷 第4期2018年8月江 西 科 学JIANGXI SCIENCEVol.36No.4Aug.2018 doi:10.13990/j.issn1001-3679.2018.04.024基于大数据的数据清洗研究康 鲲 鹏(商丘师范学院信息技术学院,476000,河南,商丘)摘要:大数据具有体量大、来源和格式多样、增长速度快、价值密度低和处理难度大的特点,即使通过合理设计参数对某段数据进行点估计的结果可能相当令人满意,但通过应用标准统计程序对整个数据体进行精度估计得到的结果,却是差强人意,从而误导人们。目的旨在分析影响大数据清洗的主要因素有哪些,首先回顾了数据获取对时间序列的依赖性并构造了一个大数据模型,然后在列出数据估计时所用的一些属性后,给出了数据清洗时的回归分析,同时探讨回归系数估计的可能影响。最后给出了大数据处理中误差累积的通用表示方法,提出了与时间序列理论中短程和长程依赖之间的区别大致相同的问题。关键词:数据清洗;方差分量;大数据;长程依赖;多级模型;时间序列中图分类号:TP301.6 文献标识码:A 文章编号:1001-3679(2018)04-654-04ResearchonDataCleaningBasedonBigDataKANGKunpeng(SchoolofInformationTechnology,ShangqiuNormalUniversity,476000,Shangqiu,Henan,PRC)Abstract:Bigdatahasthecharacteristicsoflargevolume,diversesourcesandformats,rapidgrowth,lowvaluedensityanddifficultprocessing.Eveniftheresultofapointestimationofapieceofdatawithareasonabledesignparametermaybequitesatisfactory,buttheaccuracyoftheentiredatabodythroughtheapplicationofstandardstatisticalprocedurestoestimatetheresultsmaystillbeunsatisfactory,thusmisleadingpeople.Thepurposeofthispaperistoanalyzethemainfactorsaffectingbigdatacleaning.Thearticlefirstreviewsthedependenceofdataacquisitionontimeseriesandconstructsabigdatamodel.Then,theregressionanalysisofdatacleaningisgivenaftersomepropertiesofdataestimationarelisted.Thepossibleinfluenceofregressioncoefficientestimationisalsodiscussed.Intheend,thegeneralrepresentationmethodoferroraccumulationinbigdataprocessingisgivenandtheproblemthatthedifferencebetweenshortrangeandlongrangedependenceintimeseriestheoryisroughlythesameisproposed.Keywords:datacleaning;variancecomponents;largedata;longrangedependence;multilevelmodel;timeseries0 介绍大数据提出了几个基本的统计学问题。会对数据质量和定义的标准化以及将数据纳入数据库的理由比较关注。同样重要的是,获得数据时对问题的2种调查方式是有所区别的,一种是调查的问题从一开始概念就被泛化;另一种是调查的问题需要进行广泛搜索并关注所有与之相关的信息[1]。这里集中于一个较小的目标。用非常大量的数据,直接使用包括基于模拟方法的标准统计方法,将会产生高精度估计结果[2]。具体大数据研究及应用中,可以用一种清晰的模型来表示变化的主要来源,这样可以有效产生改进的估计值和更精确的评估[3],同时还概括出一些参数和公式,指明了一些误差会随数据体的增大而增大。本文的研究与长程和短程依赖时间序列分析和对比有很强的联系。因此,本文先简要回顾一下这2种区别。1 时间序列分析中的依赖性考虑在零均值连续时间中的平稳时间序列是{Y(t)},而自相关和频谱密度函数分别是[4]:ρ(h)=corr{Y(t),Y(t+h)},f(ω)=(2π)-1∫∝-∝exp(-iωh)ρ(h)dh。如果∫∝0ρ(h)dh是发散的或者f(ω)的初始值是奇异的,则存在长程依赖关系[5]。更具体地说,自相关函数会根据比例,当h值较大时,其在区间0<α<1上取值为hα-1,同样,对于频谱密度函数,如果ω较小时,f(ω)取值为ω-α。后者还会产生长程依赖的替代名称,即1/f噪声,f替代ω表示频率。另一个重要的解释是数据段的均值或总和。令CY,m(t)=∫t+mtY(u)du为长度是m的一个数据段的总和,CY,m(t)表示相应的均值,那么,当有长程依赖产生时,若m取值较大,则var(CY,m(t))中参数m为mα-1,其中0<α<1。同样,存在自相似的属性,即长度为m的相邻数据段的平均值之间的相关性满足:corr{CY,m(t),CY,m(t+m)}=2α-1。2 大数据模型现在用抽象和理想的形式表示数据变异性来源的增加,旨在有针对性地概括说明概率变异源的复杂模式对此类统计数据作为均值和回归系数的精度的影响[6]。具体到对个别应用程序的讨论需要明确识别数据变异源是什么。例如,患有特定慢性病症的患者的数据汇编可以从特定诊所的问诊记录开始,并扩展到其他医院、其它地区和其它国家。随着数据在时间和地理上的演变,与患者特征、测量过程的不完全标准化等相关的额外数据变异源都会加入到数据体中来[7]。大数据是在一种可能的概念时间框架内演化的[8]。在各种时间点上新的数据变异源进入数据体,致使能在越来越长的时间尺度上操作。不同时间尺度上的数据变异源被认为是统计独立的。考虑2种不同的可能性。首先,为了简单起见,考虑不同的变异源具有相同的基本结构,而在第2种情况下,它们在越来越长的时间尺度上操作。假设不同的数据变异源进入时间依赖泊松过程,通常在时间零处具有原子性以表示最初具有相对简单结构的系统。一旦数据变异源进入系统,它将永远作用在系统上,尽管也有其他可能性出现[9]。从每个时间t的单个高斯观察开始,时间被认为是简单的标量。为了方便计算,认为数据是在连续时间状态下定义的。为了实现观察的数据相对独立性和分布的一致性,假设自相关为零,观察的总时间表示样本大小[10]。对于非负数λ,令B(·;λ)是零均值的独立静态高斯过程,单位方差和lag-h自相关ρB(kh)为基本过程。对于前面提到的结构,令k=1,2,…,i.e.,所有的基本过程具有同样的结构。主要变化发生是κ=λ时,于是自相关公式变成了ρB(λh)。认为B(·;λ)在时间λ之前对Y(t)贡献为零,其对Y(t)贡献的标准偏差由σY(λ)表示;用公式表示如下:Y(t)=∫t0B(t;λ)σY(λ)dN(λ),其中N(·)是一个速率为υ(λ)的泊松过程,通常在λ=0处具有原子分量。因此,Y(t)的方差VY(t)为:VY(t)=∫t0σ2Y(λ)v(λ)dλ=∫t0τY(λ)dλ(1)τY(t)是时间t内局部方差的增加率。同样,围绕过程的相关结构,当h0时,有:cov{Y(t),Y(t+h)}=∫t0τY(λ)ρB(kh)dλ(2)如果k=1,则所有基本过程具有相同形式,·556·第4期 康鲲鹏:基于大数据的数据清洗研究变为ρB(h)VY(t)。如果k=λ,ρB(h)近似为khα-1,当h取值较大时,式(2)右侧变为:khα-1∫t0τY(λ)λα-1dλ在很多情况下,τY(·)的运算结果将确保积分是收敛的。3 用来对问题进行估计的一些属性下面一些讨论,假设k=1,从而使得这些基本过程是依赖于λ这个缩放因子的独立相同随机过程。将已知的均值视为零,并根据下面的公式估计时间t之后的平均方差。V~(t)=t-1∫t0Y2(z)dz于是,结合式(1)有E{V~(t)}=1t∫t0du∫u0τY(λ)dλ=V~Y(t),上式是区间(0,t)上Y(·)这个平均方差。现在,通过下式考虑对过程平均值的估计:Y(t0)=1t0∫t00Y(u)du=CY(t0)/t0在写入var{CY(t0)}=VCY(t0)时,有VCY(t0)=∫t00VY(t)dt+2∫t00dt1∫t00VY(t2)ρB(t2-t1)dt2=∫t00VY(t)dt+2∫t00VY(t1)ρB(t0-t1)dt1(3)上式中,基本过程的集成自相关性可以用下面的公式表示:ρB(t)=∫t0ρB(z)dz。现在考虑2个方面的问题,一个是t0方差依赖的一般性质,另一个是给定较大取值的t0方差与独立和相同分布观察的方差之间的特定比较。关于第一个方面的问题,引入拉普拉斯变换方便分析,例如,定义VC(S)=∫∝0exp(-st)VC(t)dt,于是,在使用函数的拉普拉斯变换与其不定积分的拉普拉斯变换之间的关系之后,就可以得出结论如下:VCY(s)=τ(S)S2{1+2ρB(S)}。有大量的理论是讨论前式中参数和拉普拉斯变换中s作用的。注意到,如果当t取值较大时,如果0<a<1,其函数形式为kt-α,那么对于较小的取值s,拉普拉斯变换近似为kSα-1(1-α)。另一方面,如果t的函数快速趋于零,同时a>1或者呈现指数衰减,则拉普拉斯变换在s=0附近有界。需要逆陈述方式来研究VCY(t),同时要注意严格的声明涉及Tauberian理论所需的规律性条件。本质上讲,如果两式∫t0τY(t)和ρB(h)或者其中一个的衰减速度分别比1/t和1/h快,那么,当0<a<1时,var{CY(t0)}增为t2-a0,这使得平均值的方差以速率t-a0衰减比1/t0更慢。第2个问题,与独立随机变量的观察进行比较,结果取决于(3)式中的第2项与第1项的比率。如果比率收敛于正值常数,可以称为简单过度离散,如果极值是负数,就有可能是欠离散了。但是,如果ρB(h)衰减速度比1/h慢,则平均值的方差和独立观察值的方差之间的比为无穷大。4 回归分析现在把讨论扩展到最小二乘回归。进行近似性分析,使得解释变量x(t)可以相对于其他解释变量完全正交化,这样所有底层基本进程可以同时正交化。因此,基于统计量考虑x(t)上y(t)的简单线性回归可用下式表示:CXY(t0)=∫t00X(t)Y(t)dt(4)为了研究这一点,假设X(t)的生成过程具有与Y(t)的生成过程类似的形式,也具有相同的潜在的泊松过程和下式X(t)=∫t0A(t;λ)σX(λ)dN(λ)过程A(·;·)的自相关结构由ρA(·)指定,而由下式表示的交叉相关性ρBA(λ;h)=COV{B(t;λ),A(t-h;λ)}。假设对于所有的λ上式的表示方式相同,而且不同的λ过程独立。对应于该相关的回归系数是:βBA(λ)=ρBA(λ;0)σY(λ)/σX(λ),而E{CXY(t0)}=∫t00(t0-λ)τX(λ)βBA(λ)dλ,回归系数分母的期望值可以表示为:∫t00(t0-λ)τX(λ)
本文标题:基于大数据的数据清洗研究
链接地址:https://www.777doc.com/doc-6003854 .html