logo logo
关于我们

技术分享

技术分享 网络安全数据集

网络安全数据集

2021-06-12



简介

本文主要收录安全相关的数据集,适合初创,中小型企业用于训练和验证自己的机器学习的模型,提高准确率和准确度。
由于数据集可能比较多,一开始也不能全部列举出来,所以后续会慢慢补充,慢慢增加。

数据集

每个数据集都会有简单的介绍,内容类型,是否特征化
以及适用范围

  • 网络流量

  • 主机行为

  • 文件样本

KDD 99

  • KDD CUP 99 dataset 就是KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据。

  • 内容类型: 网络流量,主机行为

  • 是否特征化: 是

  • 适用范围: 主机入侵检测,异常流量监控

  • 下载地址

HTTP DATASET CSIC 2010

  • HTTP DATASET CSIC 2010 包含已经标注过的针对web服务的请求。数据量约5w条。下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据。

  • 内容类型: 网络流量

  • 是否特征化:否

  • 使用范围: WAF类产品,异常流量监控

  • 下载地址

honeypot.json

  • honeypot 是由多种类型的蜜罐采集回来的数据。主要是WEB请求。约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据。

  • 内容类型: 网络流量

  • 是否特征化:否

  • 使用范围: WAF类产品,异常流量监控
    下载地址

Masquerading User Data

  • Masquerading User Data 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集。
    (内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User])
    由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟。

  • 内容类型: 主机行为

  • 是否特征化:否

  • 使用范围: 入侵检测类 用户异常行为识别

  • 下载地址

ADFA IDS Datasets

  • ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为linux(ADFA-LD)和window(ADFA-WD)。

  • 内容类型: 主机行为

  • 是否特征化:是

  • 使用范围: 入侵检测

  • 下载地址

域名相关

  • 正常域名和可疑域名检测。 主要用于DGA的检测。这里直接用Alexa Top 100W 作为正常域名。用其他的开放的DGA数据作为黑样本。

  • 内容类型: 文本样本

  • 是否特征化:否

  • 使用范围: 入侵检测 异常流量 WAF

  • Alexa Top 100W

  • 360DGA

  • zeusDGA

webshell

  • 这里github有一个比较多样本的收集。涵盖了很多的语言。

  • 内容类型: 文本样本

  • 是否特征化:否

  • 使用范围: 入侵检测 异常流量 WAF

  • 下载地址

登录日志

  • auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码

  • 内容类型: 主机行为

  • 是否特征化:否

  • 使用范围: 入侵检测 异常流量 WAF

  • 下载地址

恶意URL

  • malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL

  • 内容类型: 文本样本

  • 是否特征化:否

  • 使用范围: 入侵检测 异常流量 WAF

  • 下载地址

综合数据

  • 在github上有一个叫 Security-Data-Analysis 的项目,里面有4个实验室 每个实验室的数据都不一样,包含http,连接记录,域名,host等等。

  • 内容类型: 网络流量

  • 是否特征化:否

  • 使用范围: 异常流量

  • 下载地址

The Malware Capture Facility Project

  • MCFP 是捷克理工大学 (CTU 好像也叫捷克技工大学..不是很懂翻译)用于捕抓恶意软件的而抓去的网络流量。里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件,日志,DNS请求等

  • 内容类型: 网络流量

  • 是否特征化:否

  • 使用范围: 异常流量 WAF

  • 下载地址

恶意软件数据库

  • MalwareDB 包含了恶意软件列表 hash,检测结果,所属域名等数据

  • 内容类型: 文本样本

  • 使用范围: 特征库 入侵检测

  • 下载地址

云祺备份软件,云祺容灾备份系统,虚拟机备份,数据库备份,文件备份,实时备份,勒索软件,美国,图书馆
  • 标签:
  • 其他

您可能感兴趣的新闻 换一批

现在下载,可享30天免费试用

立即下载

jia7jia_7
请添加好友
为您提供支持

请拨打电话
为您提供支持

400-9955-698