您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 网络流量分类研究进展与展望
第1卷第1期2012年5月集成技术JOURNALOFINTEGRATIONTECHNOLOGYVol.1No.1May.2012网络流量分类研究进展与展望 熊 刚1, 2 孟 姣1, 2 曹自刚3 王 勇4 郭 莉1 方滨兴3,11(中国科学院计算技术研究所信息安全研究中心北京100190)2(中国科学院研究生院北京100049)3(北京邮电大学北京100876)4(国家计算机网络应急技术处理协调中心北京100029)摘 要 近年来,随着互联网的迅猛发展,越来越多的新型网络应用逐渐兴起,网络规模不断扩大,网络组成也越来越复杂。网络流量分类技术作为增强网络可控性的基础技术之一,不仅可以帮助网络运营商提供更好的服务质量,而且能够对网络进行有效的监督管理,确保网络安全。本文综述了网络流量分类领域的研究方法及研究成果,对这些传统方法进行比较,分别指出它们的优势和不足。并针对高速网络环境下的实时分类、加密流分类、精细化分类、协议动态变化时的分类等现实挑战,对相关研究进展进行阐述和分析。最后对未来的研究方向进行展望。关键词 流量分类;高速网络;精细化;加密;协议混淆 Research Progress and Prospects of Network Traffic ClassificationXIONGGang1,2MENGJiao1,2CAOZi-gang3WANGYong4GUOLi1FANGBin-xing3,11(ResearchCenterofInformationSecurity,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190)2(GraduateUniversityofChineseAcademyofSciences,Beijing100190)3(BeijingUniversityofPostsandTelecommunications,Beijing100876)4(NationalComputerNetworkEmergencyResponseTechnicalTeam/CoordinationCenterofChina,Beijing100029)AbstractInrecentyears,thenumberofapplicationsandthescalabilityoftheInternethaveexperiencedarapidimprovement.Asoneofthebasictechnologiesforenhancingnetworkcontrollability,trafficclassificationcannotonlyprovidebetterQoSforISPs,butalsosuperviseandmanagenetworkeffectively,whichcanensurethesecurityoftheInternet.Inthispaper,wefirstreviewthemethodologyandachievementsinthefieldoftrafficclassificationbycomparingthesetraditionalmethods,andpointingouttheiradvantagesanddisadvantages.Thenweexplainandanalyzetherelatedresearchprogressaimingatchallengesinrealitysuchasreal-timeclassificationinbackbonenetwork,encryptedtrafficclassification,fine-grainedclassification,andconstantlychangingprotocolsclassificationetc.Finally,welookintothefutureofourresearch.Keywordstrafficclassification;high-speednetwork;fine-grained;encryption;protocolobfuscation基金项目:国家高技术研究发展计划(“863”计划)(2011AA010703)、国家自然科学基金项目(61070184)资助项目。熊刚,高级工程师,研究方向为信息安全。E-mail:xionggang@ict.ac.cn。孟姣,硕士研究生,研究方向为信息安全。E-mail:mengjiao@software.ict.ac.cn。曹自刚,博士研究生。王勇,高级工程师。郭莉,正研级高工。方滨兴,中国工程院院士,北京邮电大学教授,中国科学院计算技术研究所网络方向首席科学家。1 引 言近年来,Internet凭借其开放性、共享性等特点迅速普及并发展壮大,传统的互联网业务已经无法满足人们的需求,越来越多的新型网络应用应运而生。为了有效利用带宽,并提供更好的服务质量(qualityofservice,QoS),需要网络能够针对1期熊刚等:网络流量分类研究进展与展望33元组;(3)Stream-level[3]的流量分类:主要关注主机对及它们之间的应用流量,通常指一个由源IP地址、目的IP地址、应用协议组成的三元组,适用于在一个更粗粒度上研究骨干网的长期流量统计特性。在上述三个层面的流量分类中,使用最广泛的是Flow-level的流量分类。这种以流为单位分析网络中传输数据的方法,是分组交换网络发展的必然需求。流量分类的一个关键度量标准是某个分类技术或分类模型对未知数据对象进行分类的准确率。通常用于衡量分类准确率的评估标准,主要包括以下四个方面:真正(truepositive,TP):表示被分类模型正确预测的正样本数,即属于类别A并被预测为类别A的样本数。假负(falsenegative,FN):表示被分类模型错误预测为负类的正样本数,即属于类别A但被预测为不属于类别A的样本数。假正(falsepositive,FP):表示被分类模型错误预测为正类的负样本数,即不属于类别A但被预测为属于类别A的样本数。真负(truenegative,TN):表示被分类模型正确预测的负样本数,即不属于类别A并被预测为不属于类别A的样本数。此外,基于机器学习的分类方法通常采用另外两种度量标准对其分类结果进行评估,其定义如下:召回率(recall):recall=TP/(TP+FN),表示类别A中被正确预测的样本所占比例。精度(precision):precision=TP/(TP+FP),表示在所有被预测为类别A的样本中,真正属于类别A的样本所占比例。目前,很多流量分类研究都使用流准确率或字节准确率作为其实验结果的度量标准,流准确率表示被正确分类的流所占的比例,而字节准确率则更关注被正确分类的流所携带的字节数。其中,准确率的定义如下:准确率(accuracy):accuracy=(TP+TN)/(TP+TN+FP+FN),表示被分类模型正确预测的样本数在总样本中所占比例。3流量分类研究进展与评述目前,对于网络流量进行分类的研究主要包括四不同应用进行分类。另一方面,Internet的开放性特点也意味着任何符合其技术标准的设备或软件都可以不受限制地接入互联网,导致了Internet的各类安全事件层出不穷,网络安全问题变得日益严重。为了解决当前互联网发展过程中面临的这些问题,在保障网络安全的同时提供更好的服务质量,就需要对网络进行有效的监督和管理,增强网络的可控性。网络流量分类技术作为增强网络可控性的基础技术之一,可以帮助研究人员了解网络上的流量分布,允许网络运营商(internetserviceprovider,ISP)优先一些重要的传输,并且阻止网络犯罪行为的发生。传统的网络流量分类方法对于传统网络应用具有很好的分类效果,然而,随着越来越多新型应用的兴起,该技术也面临着巨大的挑战。例如:许多应用程序使用了私有的应用层协议,用加密的方式保护其数据内容,还有一些应用使用不规则的非标准端口号等。同时,为了更好地分析用户行为,对网络提供及时有效的监督和管理,精细化的流量分类和实时的流量分类思想也显得尤为重要。本文主要介绍了流量分类研究的进展及面临的挑战,并提出了相关挑战的解决方案。全文内容安排如下:第2部分介绍了流量分类的基本概念及评价指标;第3部分介绍了流量分类研究的进展,并对其进行了评述;第4部分介绍了流量分类面临的挑战,对相关研究进展进行阐述和分析;最后,对流量分类技术进行了总结与展望。2流量分类基本概念与评价指标很多网络应用具有自身的特性,对于网络环境的需求也不尽相同,因此只有对网络流量进行及时准确的识别和分类,才能准确地为不同应用提供合适的网络环境,有效利用网络资源,为用户提供更好的服务质量。目前,对网络流量分类的研究很广泛,使用的方法也很多,但主要是基于以下三个层面的:(1)Packet-level[1]的流量分类:主要关注数据包(packet)的特征及其到达过程,如数据包大小分布、数据包到达时间间隔的分布等;(2)Flow-level[2]的流量分类:主要关注流(flow)的特征及其到达过程,可以为一个TCP连接或者一个UDP流。其中,流通常指一个由源IP地址、源端口、目的IP地址、目的端口、应用协议组成的五集成技术2012年34类:基于端口号的分类方法、基于有效负载的分类方法、基于主机行为的分类方法,以及基于机器学习的分类方法。其中,每一类方法又有其不同的实现方法,如图1所示。图1流量分类的方法3.1基于端口号的流量分类方法传统的流分类方法依赖于对TCP或UDP数据包中端口号的分析,将熟知的端口号(IANA[4]指定)进行映射来识别不同的应用类型。位于网络中的分类器只需要找到一次TCP连接中的SYN包,并从这个SYN包中找到目的端口号即可。UDP也使用类似的方法(尽管不像TCP一样具有建立连接和连接状态维护的过程)。这种方法的实现原理简单,适用于高速网络上的实时流分类[5]。然而,它也具有一定限制。例如一些应用可能没有在IANA注册端口号,或者使用熟知端口号以外的端口。尤其是随着P2P应用的出现,它采用动态分配端口的技术,使通过端口号映射的方法检测应用类型受到了阻碍。此外,对于IP层载荷的加密也使得无法获取端口号,致使该方法无法实施。2004年,Sen[6]等人对KazaaP2P协议进行实验,测得默认的P2P端口号只占测试总流量的30%左右。2005年,Moore和Papagiannaki[7]通过实验测得:使用官方的IANA列表进行基于端口号的分类,其准确率不超过70%。Madhukar和Williamson[8]证实了使用端口号分类的方法,对于他们实验时30%-70%的流量都无法识别。3.2基于有效负载的流量分类方法为了避免对端口号的过分依赖,提出了基于有效负载的分析方法。该方法通过分析包的有效负载是否包含已知应用的特殊签名进行流分类,具有较高的准确性。Sen[6]等人使用分析有效负载的方法对P2P流进行分类,有效降低了分类的假负率(FN)和假正率(FP)至实验总流量的5%。虽然该方法具有很高的分类准确率,但分析代价太大。为了降低计算代价,可将其与一些分析代价较低的分类方法结合使用,先过滤出一些很容易分析出的流量,以减少计算开销。Moore和Papagiannaki[7]使用了一种端口号和有效负载相结合的技术来识别网络应用,实验测得69%的流可以通过端口号映射的方式被正确分类,在分析端口号的基础上分析流的前1kByte信息可将分类准确率提高到79%,对于上述两种方式都无法分类的流,分析其负载的全部内容可将其正确分类,分类的准确率接近100%。基于有效负载的分类方法虽然避免了过分依赖端口号所带来的问题,但其自身也存在一定的限制:它只能识别那些已知的非加密流量,而无法分类其他未知流量;它的流量识别过程更加复杂,并需要对应用协议语义的大规模信息保持更新,
本文标题:网络流量分类研究进展与展望
链接地址:https://www.777doc.com/doc-4367605 .html