技术分享
网络安全数据集
2021-06-12
简介
本文主要收录安全相关的数据集,适合初创,中小型企业用于训练和验证自己的机器学习的模型,提高准确率和准确度。
由于数据集可能比较多,一开始也不能全部列举出来,所以后续会慢慢补充,慢慢增加。
数据集
每个数据集都会有简单的介绍,内容类型,是否特征化
以及适用范围
网络流量
主机行为
文件样本
KDD 99
KDD CUP 99 dataset 就是KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据。
内容类型: 网络流量,主机行为
是否特征化: 是
适用范围: 主机入侵检测,异常流量监控
HTTP DATASET CSIC 2010
HTTP DATASET CSIC 2010 包含已经标注过的针对web服务的请求。数据量约5w条。下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据。
内容类型: 网络流量
是否特征化:否
使用范围: WAF类产品,异常流量监控
honeypot.json
honeypot 是由多种类型的蜜罐采集回来的数据。主要是WEB请求。约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据。
内容类型: 网络流量
是否特征化:否
使用范围: WAF类产品,异常流量监控
下载地址
Masquerading User Data
Masquerading User Data 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集。
(内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User])
由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟。内容类型: 主机行为
是否特征化:否
使用范围: 入侵检测类 用户异常行为识别
ADFA IDS Datasets
ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为linux(ADFA-LD)和window(ADFA-WD)。
内容类型: 主机行为
是否特征化:是
使用范围: 入侵检测
域名相关
正常域名和可疑域名检测。 主要用于DGA的检测。这里直接用Alexa Top 100W 作为正常域名。用其他的开放的DGA数据作为黑样本。
内容类型: 文本样本
是否特征化:否
使用范围: 入侵检测 异常流量 WAF
webshell
这里github有一个比较多样本的收集。涵盖了很多的语言。
内容类型: 文本样本
是否特征化:否
使用范围: 入侵检测 异常流量 WAF
登录日志
auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码
内容类型: 主机行为
是否特征化:否
使用范围: 入侵检测 异常流量 WAF
恶意URL
malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL
内容类型: 文本样本
是否特征化:否
使用范围: 入侵检测 异常流量 WAF
综合数据
在github上有一个叫 Security-Data-Analysis 的项目,里面有4个实验室 每个实验室的数据都不一样,包含http,连接记录,域名,host等等。
内容类型: 网络流量
是否特征化:否
使用范围: 异常流量
The Malware Capture Facility Project
MCFP 是捷克理工大学 (CTU 好像也叫捷克技工大学..不是很懂翻译)用于捕抓恶意软件的而抓去的网络流量。里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件,日志,DNS请求等
内容类型: 网络流量
是否特征化:否
使用范围: 异常流量 WAF
恶意软件数据库
MalwareDB 包含了恶意软件列表 hash,检测结果,所属域名等数据
内容类型: 文本样本
使用范围: 特征库 入侵检测
- 标签:
-
其他