您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 网页隐藏工具Deogol的检测技术报告
1技术报告项目编号40901040101报告题目网页隐藏工具Deogol的检测技术报告完成单位中国科学技术大学计算机学院完成时间二零一三年五月中图分类号单位编号10358密级2目录1.引言...........................................................................................................................32.Deogol的隐藏原理...................................................................................................53.Deogol的检测方法...................................................................................................63.1SVM分类技术..........................................................................................63.2检测方法描述...........................................................................................63.3最佳属性选择...........................................................................................94实验结果与分析......................................................................................................104.1实验说明.................................................................................................104.2均值距离和方差的分布情况.................................................................104.3使用SVM分类的检测实验..................................................................124.4检测方法的分析和改进.........................................................................136结论..........................................................................................................................147参考文献..................................................................................................................143摘要网页信息隐藏能够在网页中嵌入秘密信息,让第三方浏览网页时觉察不到秘密信息的存在。最近已经有多种实用的工具可以方便地在网页中隐藏信息,尤其对于普遍使用的基于属性顺序的网页信息隐藏工具Degol,目前还没有相应的检测方案。本文档提出了一种有效的检测方案来解决这个问题。为了检测网页中是否隐藏了秘密信息,该方法建立了均值距离和方差这两个统计量,然后利用SVM分类技术来区分正常网页和嵌入秘密信息的网页。实验结果表明该方法能够以高达90%的检测率来有效地判断一个网页是否包含了隐秘信息。关键字:Deogol;网页信息隐藏;检测;统计;SVM分类AbstractSecretmessagescanbeembeddedintoawebpageinwaysthatareimperceptibletohumaneyeviewedwithabrowser.Nowseveralpracticalhtmlsteganographytoolsareavailableonlineforustouse,butthereisstillnocorrespondingdetectionmethodforthewidelyusedhtmlsteganographytoolDeogolwhichisbasedonattributes’order.Inordertosolvethisproblem,thispaperproposedaneffectivemethodtodetectwhetherawebpagecarriessecretmessages.Themethodestablishestwostatisticswhicharemeandistanceandvariance,andthenmakesuseofSVMclassificationtodistinguishanormalwebpageandonethatisembeddedintosecretmessages.Theexperimentalresultsshowthatthedetectionmethodcouldidentifyawebpagebyadetectionrateof90%.Keywords:Deogol;htmlsteganography;detection;statistics;SVMclassification1.引言信息隐藏(informationhiding)技术主要包括隐写术(steganography)和数字水印技术(digitalwatermarking)[1]。计算机中的图像、视频、音频、文本以及网页等载体中通常都会有或多或少的冗余,信息隐藏技术能够充分利用这些冗余,在这些冗余中嵌入秘密信息的同时不会对载体造成感官效果上的改变。隐写4术主要被用来进行隐秘通信,隐写术能够将秘密信息隐藏在载体之中,使得带有秘密信息的载体和正常载体表面上看不出区别,这样就可以隐藏秘密通信存在这一事实,而使用传统的加密手段则会泄露双方正在传输秘密消息这一信息。数字水印技术[16,17]将一些标识信息(数字水印)嵌入到图像、音频、视频、软件或者文档等载体中,且不影响原载体的使用,这些标识信息可以用来确认内容所有者、购买者或者判断载体有没有被篡改等。所以数字水印技术通常被用作数字媒体的版权保护。针对图像、视频、音频以及文本的信息隐藏研究地较多,而网页相关的信息隐藏技术是一个相对较新的研究方向。目前已经有不少网页信息隐藏相关的算法。沈勇等通过在网页中加入空白字符的方法来进行信息隐藏[2]。眭新光等实现了利用网页标记字母的多种状态来嵌入秘密信息的方法[3]。基于网页标签中属性对的顺序可以任意变换这一特性,John设计了一种隐蔽性非常好的网页信息隐藏算法[4]。李建国等则基于网页标记可重复这一特性,设计了一种基于重复标记属性的多网页信息隐藏方法[18]。王长征等基于对超文本标记的分析设计并实现了一种利用网页标记的网页文本信息隐藏技术[19]。在文献[20]中提出了一种防篡改的网页证明水印算法,该算法能够对网页生成水印,防止恶意的篡改。目前网上已经存在不少实用的网页信息隐藏工具,比如,Wbstego[5]和InvisibleSecret[6]利用不可见字符法来进行信息隐藏,它们使用0x20(空格符)和0x09(Tab符)分别代表比特“0”和“1”;Infrihide[7]能够改变标签中字母的大小写,如果想在网页中隐藏信息,可以定义大写字母代表比特“1”,小写字母代表比特“0”;Deogol[8]和HtmlSteganography[9]则利用了网页标签中属性的顺序可以任意改变这一特性,如果预先定义好属性的顺序,秘密信息可以通过改变属性顺序的方法嵌入到网页中。随着网络的普及和快速发展,越来越多的人利用网络联系和沟通。任何人包括犯罪分子都可以轻易地利用这些信息隐藏工具在网上建立隐秘信道来传送信息。因此针对网页信息隐藏的检测技术已经变得非常重要。针对不可见字符和标记大小写变换的网页信息隐藏算法与文本信息隐藏类似,黄华军等人分别提出了相应的检测算法[10,11,12]。然而据我们所知,目前还没有方法能够检测基于属性顺序的网页信息隐藏。由于网页信息隐藏的载体是一个普通的html文件,用嵌入不可见字符法进行信息隐藏会显著地增加文件的大小,通过直接查看网页的源代码,全部选定整个源代码就能发现文档中有很多的空白,这显然是很不正常的书写方式,因此也就暴露了该网页通过嵌入空白字符的方式嵌入了秘密信息。同样的,改变标签中属性大小写的信息隐藏方法,会对载体的html源代码造成明显的改变,会使得嵌入秘密信息后的网页大小写混乱,简单的查看源代码就能发现5异常。所以这两种信息隐藏算法的隐蔽性并不高,相对容易被检测到。然而基于属性顺序的网页信息隐藏算法不会对载体造成明显的改变,它只是改变了网页标签中属性的相对顺序而已,通过简单的查看源代码无法判断原网页是否隐藏了秘密信息,而且标签中属性的顺序本就没有规定,每个人都有自己写代码的方式,这就导致了标签中属性顺序的规律很难被量化的发掘出来。本文档针对基于属性顺序的网页信息隐藏工具Deogol,提出了一个检测方法,并通过实验验证了检测方法的有效性。检测方法结合统计和SVM(supportvectormachine)分类技术来检测网页是否使用了基于属性顺序的网页信息隐藏技术来嵌入秘密信息。实验结果表明,检测方法相当有效,检测率达到了90%。2.Deogol的隐藏原理本节介绍基于属性顺序的网页信息隐藏工具Deogol的具体原理。由于改变网页标签中属性的顺序不会改变网页的显示效果和文件大小,例如以下的两个标签:divid=”container”class=”module”divclass=”module”id=”container”在设计网页时,可以选择上面任何一种方法来表达同一个标签。在这里定义属性class为主属性,id为对应的从属性。如果需要嵌入比特“1”,就把主属性class放在对应的从属性id前面。反之,如果要嵌入比特“0”,从属性id就放在主属性class前面。尽管可以定义多个这样的属性对,但是每个属性对只能隐藏1比特的信息。网页信息隐藏工具Deogol提出了一个具有更高隐藏容量的方法。考虑下面的例子[8]:TDNOWRAPROWSPAN=1COLSPAN=4ALIGN=leftVALIGH=topHEIGHT=40WIDTH=40id=coll这个例子中,TD这个标签有8个属性。这些属性的顺序存在的不同排列数为8!=40320。这就意味着可以用40320个不同的变种来表达相同的内容。通过选择其中一个特定的变种,这个标签可以隐藏log2(8!)≈15.3比特。这样一来,HTML文档中的每个具有两个或者两个以上属性的标签都能隐藏信息。一个具有n个属性的标签可以隐藏log2(n!)比特信息。Deogol的嵌入算法描述如下:首先将秘密信息转换成一个较大的数M,然后一次一个顺序地提取出载体中的标签并对标签进行处理。处理过程中会忽略只有0个或者1个属性的标签(因6为这些标签不能隐藏任何信息)。当碰到一个有n个属性的标签时,计算M’=Mdivn!和p=Mmodn!,其中p是一个介于0到n!-1之间的数。嵌入算法根据p的大小来确定属性的顺序。算法会根据p的值调整属性的顺序并且输出新的标签,同时M取M’的值。按照这样的方法继续处理,直到M=0或者把所有的标签都处理完为止,如果是后一种情况,就表示载体的
本文标题:网页隐藏工具Deogol的检测技术报告
链接地址:https://www.777doc.com/doc-2143530 .html