您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 一种基于时间序列的RFID供应链数据分析方法
一种基于时间序列的RFID供应链数据分析方法高昕1,3,赵文2,3,叶蔚1,3,张世琨2,3,王立福2,3(1.北京大学信息科学技术学院,北京100871;2.北京大学软件工程国家工程研究中心,北京100871;3.北京大学信息科学技术学院软件研究所高可信软件技术教育部重点实验室,北京100871)摘要:通过挖掘海量RFID(RadioFrequencyIdentification)数据来优化供应链已经成为一个研究热点.本文针对供应链流通中出现的若干周转异常并且难以发现的问题,提出了一种基于时间序列的RFID供应链数据分析方法.将供应链的RFID数据统一成反映各环节周转状况的时间序列格式,然后通过分段趋势分解方法分解提取的时间序列数据,并根据分解后的随机项建立阈值来判断数据是否异常,从而建立相应的时间序列分析模型;最后基于模型检测数据异常.通过多样本和多数据集的实验检测,结果表明这种方法有效并具有较高的效率.关键词:无线射频识别(RFID);RFID数据集;供应链;时间序列中图分类号:TP311文献标识码:A文章编号:03722112(2010)2A02607ADataAnalysisMethodforRFIDSupplyChainBasedonTimeSeriesGAOXin1,3,ZHAOWen2,3,YEWei1,3,ZHANGShikun2,3,WANGLifu2,3(1.SchoolofElectronicsEngineeringandComputerScience,PekingUniversity,Beijing100871,China;2.NationalEngineeringResearchCenterforSoftwareEngineering,PekingUniversity,Beijing100871,China;3.KeyLaboratoryofHighConfidenceSoftwareTechnologies(MinistryofEducation),SchoolofElectronicsEngineeringandComputerScience,PekingUniversity,Beijing100871,China)Abstract:TooptimizeSupplyChainsystembyminingmassRFID(RadioFrequencyIdentification)datahasbeenanimportantresearcharea.Inthispaper,weprovideadataanalysismethodforRFIDsupplychainbasedontimeseriesfortheexceptionslikenoneffectivetransportationandsoon,whicharehardtobedetectedinthecirculationofsupplychain.ThismethodfirstturnsRFIDdataineachtransportationphaseorstoragephaseintotheunifiedformoftimeserieswhichcanreflectthecirculationsituationofeachphase;thencarriestimeseriesanalyzeontheRFIDdatabythemethodofsubsectiontendencyanalyze,buildsthethresholdbytherandomitemsandbuildsthecorrespondingtimeseriesanalysismodel;atlastcheckstheRFIDdataiftheyareabnormalbasedonthesemodels.Throughmultisampleandmultidatasetexperiment,theresultshowsthatourmethodiseffectiveandefficient.Keywords:radiofrequencyidentification(RFID);RFIDdataset;supplychain;timeseries1引言在RFID供应链系统中,存在大量的RFID标签和众多的读写器,因此会产生海量的数据.而在RFID供应链系统中,这些海量的RFID数据包含物品本身的相关信息和物品在流通中的时间与空间信息,通过有效的组织将为供应链系统用户(例如,生产商、物流企业、零售商等)提供众多有价值的信息[1].例如,物品在运输过程中的路径和运输时间、特定时间的位置和运输效率等信息.同时,供应链系统用户更加关注物品在整个流通过程中出现的不符合相关企业的非功能性需求,例如运输延迟、异常行为、物品目录异常和物品丢失等.这些问题会在流通过程中的数据上得到体现,同时相应的数据分析也要面对数据跨多个企业所带来的问题.因此如何有效地分析和挖掘这些信息就成为RFID供应链系统必须要解决的问题.这方面主要有两类方法,一类是通过机器学习等数据挖掘的方式分析RFID数据,另一类是通过定义具体业务规则分析RFID数据.后者更加有效,可以明确地找出异常数据,但由于不是所有的供应链系统环节都可以提供具体的业务规则,所以应用范围比较有限;前者分析数据特征,应用范围较广,但往往存在效率和误差方面的问题.所以在实际的RFID数据分析中,往往要结合这两方面的优势.依靠后者的业务规则来提取数据分析的业务需求和分析收稿日期:20090831;修回日期:20100110基金项目:国家高技术研究发展计划(863)(No.2006AA04A119,No.2006AA04A121);国家重点基础研究发展计划(973)(No.2009CB320706);国家自然科学基金(No.60803014)第2A期2010年2月电子学报ACTAELECTRONICASINICAVol.38No.2AFeb.2010www.srvee.com的角度、规则等,同时基于这些信息设计出相应的数据挖掘方法,从而达到既符合实际业务要求又有较大应用范围的目的.在本文中,通过分析供应链中的业务需求,总结并给出了具体的RFID数据相关业务规则,并将这些信息转化为具体的时间序列模型.然后,基于时间序列模型检测出物品在供应链中流通的异常情况.具体的分析过程是通过收集供应链系统各运输阶段和仓储阶段中的RFID数据,建立学习样本,并基于这些学习样本对供应链系统中各阶段RFID数据进行时间序列分解,获得相应的数据流模型,从而给出一种基于时间序列的RFID数据分析方法来检测反映流通中异常情况的RFID数据.2相关研究RFID数据处理有众多的研究方面,研究主要集中在两方面,包括对从读写器得到的RFID编码进行处理生成相应的RFID数据集以及RFID数据挖掘.2.1RFID数据集当帖有RFID标签的物品进入到RFID读写器的有效范围内时,RFID读写器就会读取标签,生成相应的RFID数据集.从这些XML数据中我们可以抽取出RFID的原始数据集RawDataSet,包括物品的ID、事件和地点,可以用一个三元组来表示(ID,Location,Time)[2].这样供应链系统的数据可以用这种格式的数据集表示,例如一批数量为n的货物在经过m个地点的供应链流程中收集的数据将如表1所示.表1原始RFID数据集RFIDRawDataSet(ID,Location,Time)(i1,l1,t1)(i2,l1,t1),…,(in,l1,t1)(i1,l2,t2)(i2,l2,t2),…,(in,l2,t2)……(i1,lm,tm)(i2,lm,tm),…,(in,lm,tm)在实际过程中,往往由于操作等多种原因,同一货物在相同地点可能被读取多次,造成数据冗余,所以需要对原始数据进行清洗.这样形成RFID数据的四元组(CID,Location,Time-In,Time-Out)的形式,其中Time-In和Time-Out分别代表物品进入和物品离开某地的时间,如表2所示.表2清洗处理后的RFID数据集RFIDDataSeAfterCleaning(CID,Location,TimeIn,Timeout)(i1,l1,t1,t2)(i2,l1,t1,t2),…,(in,l1,t1,t2)(i1,l2,t2,t3)(i2,l2,t2,t3),…,(in,l2,t2,t3)……(i1,lm,tm,tm+1)(i2,lm,tm,tm+1),…,(in,lm,tm,tm+1)从数据中可以看出,一批物品在供应链流通中的相同地点和相同时间会有众多的RFID数据,而且对应实际运输中物品数量的变化,这些数据也会发生变化.所以对收集到的相同时间和相同地点的RFID数据进行聚合,并通过聚合表(SID,Location,Time-In,Time-Out)和映射表Map表示,从而可以挖掘出代表某次物品流通状况的RFID数据集.从而可以将跨多个企业的数据统一成一致的格式进行处理.2.2RFID数据挖掘RFID数据的管理与普通数据管理相比,具有一些明显的特征.RFID数据的海量,冗余,不准确,连续性,实时性等特点都给管理策略提出了很大的挑战.这方面得到众多研究者的关注,文献[3,5]从反映企业业务逻辑的复杂事件的角度在RFID数据中挖掘各种复杂事件的相关信息.文献[4]关注基于RFID数据的收集、转换和重组从而更有效地管理供应链的物品流通.文献[13]利用时态实体关系模型管理供应链中的RFID数据.文献[6]通过一个RFID部署模型分析业务路线和用户行为.文献[7]为了管理海量的RFID数据,提出了路径和工作流两种数据模型来存储和挖掘RFID数据.文献[9]针对供应链中的运输效率低和一些欺诈行为给出相应的异常数据挖掘方法.从数据采集层面上来说,数据的预处理是一个必要的环节.数据预处理主要包括数据清理、数据集成和数据规约.对于RFID数据,其中最主要的工作就是数据清理.其实,数据清理对于一般的数据挖掘任务来说都是很重要的一个环节.而RFID的数据预处理与其它普通任务的区别在于它基于流数据,所以RFID数据具有连续性并要求数据清理策略具有实时处理的能力.在此要求之上,数据清理主要解决三个问题:阅读中丢失数据,阅读中不可靠数据以及数据冗余.然后需要对这些经过预处理的数据进行分析和挖掘.在这个阶段中,机器学习方法扮演了重要的角色.RFID数据是一种特殊的流数据,经过前面的数据预处理和管理,对于上层的分析算法来说,可以当成流数据来处理,而机器学习的有监督学习方法和无监督学习方法成为重要的解决方案.所谓监督学习,是指在学习过程中,每一个训练样本都被赋予了一个标记,学习的目标是从训练样本中归纳出标记的概念,从而能够正确预测未遇见过的样本的标记,典型的监督学习任务有分类和回归;而在非监督学习中,所有样本均无标记,学习是为了发现样本集中的内部结构,例如发现样本的本征维度,聚类就是属于非监督学习.而本文正是基于有监督学习以时间序列分析的方式来建立对RFID数据的异常检测模型,从而从海量RFID数据中分析出异常的数据.72第2A期高昕:一种基于时间序列的RFID供应链数据分析方法www.srvee.com3供应链RFID数据分析方法我们通过抽象RFID的业务需求建立相应的数据分析规则,并转化为相应的时间序列分析规则,从而给出了基于时间序列的数据分析方法.3.1RFID数据分析规则3.1.1RFID供应链业务需求本文中主要关注的供应链系统业务需求[11]如下所示:(1)速度一致性供应链系统中通常需要对物品的流通速度进行限制.在供应链环节中,物品的流通速度设有最大速度和最小速度.速度限制是为了防止运输过程中超出运输机制的许可,而往往出现超出限制的情况是由于流通中出现了差错,例如当重复的标签出现在异地会导致物品的流通速度过快;同时,如果物品流通速度过慢,会导致物品流通的延迟,所以需
本文标题:一种基于时间序列的RFID供应链数据分析方法
链接地址:https://www.777doc.com/doc-21603 .html