您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 基于流量与行为特征的P2P流量识别模型
————————————基金项目基金项目基金项目基金项目::::国家“863”计划基金资助项目(2009AA01Z431);国家自然科学基金资助项目(61103015);湖南省自然科学基金资助项目(09JJ5043)作者简介作者简介作者简介作者简介::::邬书跃(1963-),男,教授,主研方向:网络安全,移动通信;余杰,博士;樊晓平,教授、博士、博士生导师收稿日期收稿日期收稿日期收稿日期::::2011-10-20修回日期修回日期修回日期修回日期::::2011-12-07E-mail::::yj_1325@163.com基于流量与行为特征的基于流量与行为特征的基于流量与行为特征的基于流量与行为特征的P2P流量识别模型流量识别模型流量识别模型流量识别模型邬书跃邬书跃邬书跃邬书跃1,2,,,,余余余余杰杰杰杰3,,,,樊晓平樊晓平樊晓平樊晓平1(1.中南大学信息科学与工程学院,长沙410083;2.湖南涉外经济学院电气与信息工程学院,长沙410205;3.国防科学技术大学计算机学院,长沙410073)摘摘摘摘要要要要::::针对点对点(P2P)用户习惯、运行环境的异构性,提出P2P流量识别的双层模型。该模型由单流内部流量特征的贝叶斯网络识别算法与多流之间行为特征的支持向量机识别算法组成。实验结果表明,相对于统计特征识别方法,该模型检测准确度提高5.4%,且对于不同应用场景具有较好的稳定性。关键词关键词关键词关键词::::流量识别;点对点;双层模型;贝叶斯网络;支持向量机;行为特征P2PTrafficIdentificationModelBasedonTrafficandBehaviorFeatureWUShu-yue1,2,YUJie3,FANXiao-ping1(1.SchoolofInformationScienceandEngineering,CentralSouthUniversity,Changsha410083,China;2.SchoolofElectricalandInformationEngineering,UniversityofHunanInternationalEconomics,Changsha410205,China;3.InstituteofComputers,NationalUniversityofDefenseTechnology,Changsha410073,China)【【【【Abstract】】】】ConsideringtheheterogeneityofPeer-to-Peer(P2P)usershabitandruntimeenvironment,thispaperproposesatwo-layeredmodelofP2PtrafficidentificationtoidentifyandfiltertheP2Ptraffic.ItcombinesbothanidentificationalgorithmofBayesiannetworkbasedonsingletrafficfeaturemethodandanidentificationalgorithmofSupportVectorMachine(SVM)basedonmulti-trafficbehaviormethod.Experimentalresultsshowthatthemethodis5.4%moreaccuratethanthestatisticalfeatureidentifymethod,andithasbetterstabilityindifferentapplicationscenes.【【【【Keywords】】】】trafficidentification;Peer-to-Peer(P2P);two-layeredmodel;Bayesiannetwork;SupportVectorMachine(SVM);behaviorfeatureDOI:10.3969/j.issn.1000-3428.2012.16.047计算机工程ComputerEngineering第38卷第16期Vol.38No.162012年8月August2012····人工智能及识别技术人工智能及识别技术人工智能及识别技术人工智能及识别技术····文章编号文章编号文章编号文章编号::::1000————3428(2012)16————0182————03文献标识码文献标识码文献标识码文献标识码::::A中图分类号中图分类号中图分类号中图分类号::::TP393.081概述概述概述概述目前,点对点(Peer-to-Peer,P2P)流量已经占据了整个Internet流量的40%~70%。这些P2P流量不但给网络运营商增加了极大的负担,还为网络入侵检测系统[1]带来了很大麻烦。首先,P2P流量特征与常见网络行为的差异会误导入侵检测系统(IntrusionDetectionSystem,IDS),增加其误报率;其次,这些P2P流量还会增加IDS的输入流量,尤其在高速网络的入侵检测中,增加了IDS的丢包率,从而进一步增加其漏报率和误报率。P2P应用从最初的采用固定端口发展到使用可变端口甚至使用其他应用的端口进行数据传输,在传输的具体内容方面也从使用明文传输发展到对传输数据进行加密处理,因此,对P2P流量进行识别的技术也随之经历了相应的变化过程:基于端口的[2],基于应用签名的[3],基于统计特征的[4-5]和基于人工智能的[6]识别技术。由于越来越多的P2P软件不再使用已知的固定端口进行通信和数据传输,传统的基于端口的P2P流量识别技术的有效性也越来越低。深度报文检测(DeepPacketInspection,DPI)是一种基于报文内容的业务识别技术。但DPI技术存在如下2个不足:(1)无法识别加密的报文;(2)检测速度慢,无法满足高速网络下实时检测的需求。深度流行为检测(DeepFlowInspection,DFI)关注于网络流量特征的通用性,它不需进行深度报文检测和使用协议还原技术,仅需要获取P2P流量的各项统计参数。目前这方面的研究主要基于统计或人工智能技术,根据报文的流量特征进行P2P流量识别[5-7]。本文在此基础上,提出一种基于流量与行为特征的P2P流量识别模型,旨在提高检测准确度和场景稳定性。2P2P流量双层识别模型流量双层识别模型流量双层识别模型流量双层识别模型2.1模型提出模型提出模型提出模型提出P2P网络中的节点既可以作为服务器向其他对等节点提供服务,又可以作为客户端接收其他对等节点提供的服务。因此,具有不同功能和提供不同服务的节点流量呈现第38卷第16期183邬书跃,余杰,樊晓平:基于流量与行为特征的P2P流量识别模型出有差异的行为特征。为了对比分析基于统计特征/流量特征的识别方法对于不同P2P用户和P2P软件的识别准确度,本文在某校园网内随机抽取了5个用户上4种P2P软件的流量,使用参考文献[5]中的算法(统计特征+神经网络)进行识别,结果如表1所示。表中识别准确度的均值为0.893,方差为0.0176。表表表表1采用流量特征方法的识别准确度采用流量特征方法的识别准确度采用流量特征方法的识别准确度采用流量特征方法的识别准确度(%)软件用户1用户2用户3用户4用户5用户标准方差eMule91.2087.5089.6088.3090.801.41Bittorrent89.7091.8090.3089.6087.601.41PPlive87.3088.2091.3086.5088.701.70PPS90.8091.5085.1089.4090.702.30软件标准方差1.752.222.741.421.56–对比分析可知,由于P2P用户习惯的差异性以及P2P软件所处的运行环境的差异性,造成同一种P2P软件在不同场景具有不同的流量特征。因此,单纯地通过统计特征或流量特征进行P2P流量识别会带来较大的误报率,同时检测结果对于不同软件、不同用户具有较差的稳定性。本文提出建立单流内部的快速流量特征与多流之间的综合行为特征的双层模型进行P2P流量识别。具有不同功能和提供不同服务的P2P节点,通常呈现出类似的行为特征,所以考虑模型通用性和稳定性时,需要选择节点流量的行为特征。在训练阶段,首先对输入的流量逐个抽取流量特征,然后对连续的n个流量抽取行为特征;在检测阶段,首先根据流量特征检测单个流量是否为P2P流量,设检测为P2P流量的概率为Ptraffic;然后根据行为特征检测连续n个流量是否为P2P流量,设检测为P2P流量的概率为Pbehavior。定义当前检测网络流为P2P流量概率P:trafficbehavior(1)PPPαα=×+−×(1)其中,α∈[0,1]为信心因子,默认为0.5,如果对流量特征检测结果更有信心,则可以设置α0.5;反之,设置α0.5。2.2模型建立模型建立模型建立模型建立由于单流自身通常主要具有流量特性,而只有很弱的行为特性,同时,流量特征所属的类别(P2P或非P2P)是容易界定的,因此对其流量负载模型采用全监督的机器学习算法。本文采用基于贝叶斯网络的聚类方法,构造贝叶斯分类器,从而抽取出每个单流的负载特征。用X=x1,x2,…,xn表示单个流量特征样本,S表示所有样本的集合,类变量C的取值范围为{cj|1≤j≤2}(在本文中c1表示P2P流量,c2表示非P2P流量),则给定样本X属于类别cj的最大后验概率可表示如下:MAPargmax((|)),1jjcpcXjm=≤≤(2)多流行为特征面临标记数据困难的问题,因此,本文提出了在少量样本情况下,采用半监督机器学习方法支持向量机(SupportVectorMachine,SVM)分类器来获取行为特征模型。SVM的原理是将低纬空间中的点映射到高维空间中,使它们成为线性可分的,再使用线性划分的原理判断分类边界。SVM的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾”。为了确保在任何情况下都可以将训练数据映射到足够高的维度,使它们成为线性可分的,需要在非线性硬间隔分类机的基础上引入线性软间隔分类机中的松弛变量。用12,,,mYyyy=⋯表示单个行为特征样本,从而分类问题可描述如下。映射:'''1122{(,),(,),,(,)}mmTycycyc=⋯(3)其中,'()iiyyφ=。分类平面为:2',1'1()0,min2s.t.(())1)1,1,2,,liwbiiiiwybwCcwybinξξ=⋅+=+∑⋅++−=ɶɶɶɶɶ⋯≥2.3特征选取特征选取特征选取特征选取选取合适的特征向量是对P2P网络流量进行识别的重要环节。单个流通常由一个或多个报文组成,单流的负载特征可以从时间特征和空间特征2个方面进行描述。使用文献[8]中的方法,通过对某校园网络中近100个用户的流量分析,本文关注的单流特征主要包括:报文到达间隔分布,流的会话时间,报文大小分布,流的字节总数等。因此,贝叶斯网络的输入特征数组由如下7个元素组成:报文到达间隔均值(Interval_AVG),报文到达间隔方差(Interval_STD),流总时长(Interval_SUM),报文大小均值(Packet_AVG),报文大小方差(Packet_STD),报文总数(Packet_NUM),报文总字节数(Packet_SIZE),即X=Interval_AVG,Interval_STD,Interval_SUM,Packet_AVG,Packet_STD,Packet_NUM,Packet_SIZE。实际网络中不同的节点有着不同的功能:有的节点起着服务器的功能,向网络其他节点提供资源传输服务;有的节点起着客户端的功能,接收服务器提供的各项服务。选取P2P流量的行为特征时,需要考虑如下情况:P2P网络中的节点既可以作为服务器向其他对等节点提供服务,又可以作为客户端接收其他对等节点提供的服务,因此
本文标题:基于流量与行为特征的P2P流量识别模型
链接地址:https://www.777doc.com/doc-5189261 .html