您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 数据挖掘在信息安全方面的应用网络安全数据集简介及采集
第九章网络安全数据集简介及采集目录•数据集简介•网络数据包采集与回放16/08/022第九章网络安全数据集简介及采集数据集简介1.DARPA入侵检测评估数据集2.KDDCup99与NSL-KDD数据集3.Honeynet数据集4.Challenge2013数据集5.Adult数据集6.恶意软件数据集16/08/023第九章网络安全数据集简介及采集DARPA入侵检测评估数据集•DARPA98:收集了9周时间的TCPDUMP网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段。•DARPA99:包括覆盖了Probe、DoS、R2L、U2R和Data等5大类58种典型攻击方式,是目前最为全面的攻击测试数据集。•DARPA2000:一种深度测试,集中地测试入侵检测系统对于某一种攻击的检测效果,对检测算法和检测机制可以进行深入的分析。·迄今为止网络入侵检测领域的标准数据集16/08/02Challenge2013数据集4第九章网络安全数据集简介及采集DARPA入侵检测评估数据集•DARPA98:收集了9周时间的TCPDUMP网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段。•DARPA99:包括覆盖了Probe、DoS、R2L、U2R和Data等5大类58种典型攻击方式,是目前最为全面的攻击测试数据集。•DARPA2000:一种深度测试,集中地测试入侵检测系统对于某一种攻击的检测效果,对检测算法和检测机制可以进行深入的分析。·迄今为止网络入侵检测领域的标准数据集16/08/02Challenge2013数据集4第九章网络安全数据集简介及采集DARPA入侵检测评估数据集•DARPA98:收集了9周时间的TCPDUMP网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段。•DARPA99:包括覆盖了Probe、DoS、R2L、U2R和Data等5大类58种典型攻击方式,是目前最为全面的攻击测试数据集。•DARPA2000:一种深度测试,集中地测试入侵检测系统对于某一种攻击的检测效果,对检测算法和检测机制可以进行深入的分析。·迄今为止网络入侵检测领域的标准数据集16/08/02Challenge2013数据集4第九章网络安全数据集简介及采集DARPA入侵检测评估数据集•DARPA98:收集了9周时间的TCPDUMP网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段。•DARPA99:包括覆盖了Probe、DoS、R2L、U2R和Data等5大类58种典型攻击方式,是目前最为全面的攻击测试数据集。•DARPA2000:一种深度测试,集中地测试入侵检测系统对于某一种攻击的检测效果,对检测算法和检测机制可以进行深入的分析。·迄今为止网络入侵检测领域的标准数据集16/08/02Challenge2013数据集4第九章网络安全数据集简介及采集KDDCup99与NSL-KDD数据集•KDDCup99数据集•数据来源•KDDCup99数据集是采用数据挖掘等技术对DARPA98和DARPA99数据集进行特征分析和数据预处理,形成的新数据集。•数据范例•数据集中每个连接(*)用41个特征来描述,例如:2,tcp,smtp,SF,1684,363,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,104,66,0.63,0.03,0.01,0.00,0.00,0.00,0.00,0.00,normal.•KDDCup99数据集•NSL-KDD数据集16/08/025第九章网络安全数据集简介及采集KDDCup99数据集•KDDCup99数据集特征分类16/08/026第九章网络安全数据集简介及采集TCP连接基本特征(共9种)•基本连接特征包含了一些连接的基本属性,如连续时间,协议类型,传送的字节数等信息泄露;TCP连接的内容特征(共13种)•为了检测U2R和R2L之类的嵌入在数据包数据负载里面的攻击,从数据内容里面抽取了部分可能反映入侵行为的内容特征,如登录失败的次数等。基于时间的网络流量统计特征(共9种,23~31)•统计当前连接记录与之前一段时间内的连接记录之间存在的某些联系。分为两种集合:“samehost”特征和“sameservice”特征基于主机的网络流量统计特征(共10种,32~41)•按照目标主机进行分类,使用一个具有100个连接的时间窗,统计当前连接之前100个连接记录中与当前连接具有相同目标主机的统计信息。NSL-KDD数据集•除去了KDDCUP99数据集中冗余的数据,克服了分类器偏向于重复出现的记录,学习方法的性能受影响等问题。•对正常和异常的数据比例进行了合适选择,测试和训练数据数量更合理,因此更适合在不同的机器学习技术之间进行有效准确的评估。•对KDDCUP99的改进16/08/027第九章网络安全数据集简介及采集Honeynet数据集•数据来源•包括从2000年4月到2011年2月,累计11个月的Snort报警数据,每月大概60-3000多条Snort报警记录,其网络由8个IP地址通过ISDN连接到ISP。•数据范例•Apr1607:17:06lisasnort[7483]:IDS128/web-cgi-phf:200.190.8.220:55220-172.16.1.107:80,其内容分别是日期、时间、触发的Snort规则号、报警内容、源IP、源端口、目的IP和目的端口。•网络环境图•由HoneyNet组织收集的黑客攻击数据集,能较好地反映黑客攻击模式16/08/028第九章网络安全数据集简介及采集Honeynet数据集•数据来源•包括从2000年4月到2011年2月,累计11个月的Snort报警数据,每月大概60-3000多条Snort报警记录,其网络由8个IP地址通过ISDN连接到ISP。•数据范例•Apr1607:17:06lisasnort[7483]:IDS128/web-cgi-phf:200.190.8.220:55220-172.16.1.107:80,其内容分别是日期、时间、触发的Snort规则号、报警内容、源IP、源端口、目的IP和目的端口。•网络环境图•由HoneyNet组织收集的黑客攻击数据集,能较好地反映黑客攻击模式16/08/028第九章网络安全数据集简介及采集Challenge2013数据集•日志类型(3种)•网络流量Netflow日志数据•BigBrother网络健康数据•BigBrother网络状态数据•日志内容•第一、二周的Netflow和BigBrother日志•第二周的入侵预防系统日志数据•网络环境图•提供了某虚构的跨国公司内部网络两周的运行日志16/08/029第九章网络安全数据集简介及采集Challenge2013数据集•日志类型(3种)•网络流量Netflow日志数据•BigBrother网络健康数据•BigBrother网络状态数据•日志内容•第一、二周的Netflow和BigBrother日志•第二周的入侵预防系统日志数据•网络环境图•提供了某虚构的跨国公司内部网络两周的运行日志16/08/029第九章网络安全数据集简介及采集Challenge2013数据集•数据格式•与原始数据集相比,经过了数据清洗和时间同步,加入了统一的时间戳,数据都已经通过入库程序导入了MySQL数据库,所以这儿提供的数据集是通过SQL语句从MySQL数据库中导出的,并且同时提供数据表结构。(请注意使用MyISAM的表格式,预计需要数据库磁盘空间30G,文件名后缀中a表示第一周,b表示第二周)•导入步骤•先创建对应表,然后导入数据文件,导入数据文件的MySQL语句参考:Loaddatainfile'c:/netflow-origin.txt'intotablenetflow1。•导入MySQL数据库过程16/08/0210第九章网络安全数据集简介及采集Adult数据集•数据来源•该数据集来自UCI,又名人口调查数据集,来自于美国1994年人口调查数据库,共有记录48842条,格式为TEXT,包含14个属性,分别为Age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country。•数据范例•39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,=50K•该数据集适用于机器学习、数据挖掘和隐私保护等16/08/0211第九章网络安全数据集简介及采集恶意软件数据集•用于恶意软件检测用于恶意软件检测•包含50000个实例,一半是恶意软件中提取的特征,一半是良性文件中提取的特征。•通过该数据集,可以在数据挖掘和大数据建模技术的基础上,通过WinAPI调用提取特征集进行恶意软件检测,而我们人看不见的,听不见的,感觉不到的事物或者关系同样是数据,而且很多关键的数据正是隐藏在某些关系之中。•用于基于文件说明的恶意软件聚类•包含69,165个文件样本,其中3095个是恶意软件,22,583个是良性文件,其余45,487个是未知文件。•该数据集由WestVirginiaUniversity的YanfangYe提供16/08/0212第九章网络安全数据集简介及采集网络数据包采集与回放1.TCPDUMP抓包2.Wireshark抓包3.网络数据包回放4.网络抓包编程16/08/0213第九章网络安全数据集简介及采集TCPDUMP抓包•概述•顾名思义,TCPDUMP可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。•不带参数的TCPDUMP会收集网络中所有的信息包头,数据量巨大,必须过滤。•TCPDUMP是一个用于截取网络分组,并输出分组内容的工具,简单说就是数据包抓包工具。16/08/0214第九章网络安全数据集简介及采集TCPDUMP抓包•选项介绍16/08/0215第九章网络安全数据集简介及采集参数简单介绍-A以ASCII格式打印出所有分组,并将链路层的头最小化-c在收到指定的数量的分组后,TCPDUMP就会停止-C在将一个原始分组写入文件之前,检查文件当前的大小是否超过了参数file_size中指定的大小。如果超过了指定大小,则关闭当前文件,然后在打开一个新的文件。参数file_size的单位是兆字节(是1,000,000字节,而不是1,048,576字节)-d将匹配信息包的代码以人们能够理解的汇编格式给出-dd将匹配信息包的代码以c语言程序段的格式给出-ddd将匹配信息包的代码以十进制的形式给出-D打印出系统中所有可以用TCPDUMP截包的网络接口-e在输出行打印出数据链路层的头部信息TCPDUMP抓包•选项介绍16/08/0215第九章网络安全数据集简介及采集参数简单介绍--E用spi@ipaddralgo:secret解密那些以addr作为地址,并且包含了安全参数索引值spi的IPsecESP分组-f将外部的Internet地址以数字的形式打印出来-F从指定的文件中读取表达式,忽略命令行中给出的表达式-i指定监听的网络接口-l使标准输出变为缓冲行形式,可以把数据导出到文件-L列出网络接口的已知数据链路-m从文件module中导入SMIMIB模块定义。该参数可以被使用多次,以导入多个MIB模块-M如果tcp报文中存在TCP-MD5选项,则需要用secret作为共享的验证码用于验证TCP-MD5选选项摘要(详情可参考RFC2385)TCPD
本文标题:数据挖掘在信息安全方面的应用网络安全数据集简介及采集
链接地址:https://www.777doc.com/doc-4433482 .html