BigData学习4_内部攻击实验数据集浅析

杨光+吴钰

摘要:获取用户行为数据集是内部威胁研究的前提和基础,该文深度调研了当今公开的内部威胁实验数据集,通过分析KDD99、SEA、WUIL以及CERT-IT四种主流的数据集,提出上述数据集的优缺点,并指出未来数据集构建的研究方向。

关键词:内部威胁;网络安全;安全审计

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)21-0055-02

1 引言

2013年“棱镜门”事件震惊全球,美国安全部门雇员斯诺登利用职务之便窃取大量机密信息,直接揭露了美国历史上最大的网络监控行为。2014年韩国信用机构与英国巴克莱银行的千万条客户信息遭到窃取,其中涉及信用卡号、身份ID、社保号等多项客户隐私数据。2016年,我国某军工企业离职人员利用暗中备份、欺骗同事等手段窃取了大量军工用品数据,大肆出卖给国外间谍机关,最终被依法判处死刑。上述典型的内部威胁攻击案例引起了各国的高度重视,陆续开展了广泛的研究。

当前内部威胁研究集中在检测领域。根据检测方法的不同,我们可以将现有内部威胁检测分为误用检测(Misuse Detection)与异常检测(Anomaly Detection)两类。其中误用检测基于已知攻击特征数据,将新数据与已知特征比较,从而检测已知攻击,其优点是检测效率高、准确度高,然而不足是完全基于已知的攻击特征,需要实时更新特征库,而且无法有效应对新型攻击类型。异常检测基于用户正常行为模型,将新数据与正常行为模型进行比较判断攻击,其实质是“白名单”思想,优点是更加灵活,学术界研究已经证明可以用于检测新型攻击,不足是较高的误报率成为实际应用的主要限制因素。

表征内部用户行为的数据集是内部威胁检测研究的前提,其原因有二:(1)内部正常与恶意用户的行为数据集体现了正常行为与恶意行为的特征,可以由此分析用户行为,建立正常行为模型以进行异常检测;(2)基于领域知识与数据分析建立的异常检测分类器模型只有通过数据实验才能评估其有效性。因此为了开展内部威胁检测研究,研究者需要在模拟环境中构造内部威胁的实现场景,收集实验环境下的行为数据,公开作为内部威胁行为数据集,供所有研究者使用。接下来我们对KDD99、SEA、WUIL与CERT-IT四类现有公开的主要数据集作深入分析,以从中提取出现有数据集的不足,为未来的数据集研究提供方向。

2 KDD99数据集

KDD99数据集最早公开于1999年,当时是作为该年度KDD CUP竞赛的官方指定数据集。其实KDD99原始数据来自于美国国防部高级规划署(DARPA)的入侵检测评估项目的审计数据,主要包括主机和网络两个维度,共收集了9周的系统审计与网络流量数据。其中审计数据遵循基本安全模型(Basic Security Model),以Header和Token的形式组织数据,其中的Header负责描述Token的大小、时间版本以及涉及的系统调用名称等;而Token则负责具体的记录描述,如用户信息(用户与用户组ID)、进程信息(进程ID、会话ID)等。

KDD99网络流量数据来自Tcpdump记录,7周时间收集的约500万条数据网络数据作为训练集,其余2周时间收集的200万条数据作为实验测试。KDD99中每一条数据记录均是包含41个特征的多维特征向量,详细记录了每一次网络连接的对象、时间、协议类型等详细信息,从而细粒度地刻画了四类网络攻击行为,分别是:拒绝服务攻击(DOS)、探测攻击(Probe)、用户提权攻击(U2R)、远程连接攻击(R2L),正因为KDD99数据集刻画了主流的网络攻击行为,因此其成为了当时安全研究人员广为使用的第一个公开数据集。

尽管影响广泛,但是KDD99数据集的不足仍然十分明显,即由于创建时间较早,并且并非专用于内部威胁检测,因此与实际的内部威胁数据差异较大,其应用主要在入侵检测领域,而非内部威胁研究。

3 SEA数据集

2001年Schonlau等人第一次将内部攻击者分类成叛徒(Traitor)与伪装者(Masquerader),其中叛徒指攻击者来源于组织内部,本身是内部合法用户,而伪装者指外部攻击者窃取了内部合法用户的身份凭证,从而利用内部用户身份实施内部攻击。随后该团队构造了一个公开的检测伪装者攻击的数据集SEA,该数据被广泛用于内部伪装者威胁检测研究。

SEA数据集涵盖70多个UNIX系统用户的行为日志,这些数据来自于UNIX系统acct机制记录的用户使用的命令。SEA数据集中每个用户都采集了15000条命令,从用户集合中随机抽取50个用户作为正常用户,剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据。SEA数据集中的用户日志类似于下面的命令序列:

{cpp, sh,cpp, sh, xrdb, mkpts...}

每个用户的数据按照100命令长度分为150个块,前三分之一数据块用作训练该用户正常行为模型,剩余三分之二数据块随机插入了测试用的恶意数据。SEA数据集中恶意数据的分布具有统计规律,任意给定一个测试集命令块,其中含有恶意指令的概率为1%;而当一个命令块中含有恶意指令,则后续命令块也含有恶意指令的概率达到80%。可以看出SEA中的数据集将连续数据块看作一个会话(Session),只能模拟连续会话关联的攻击行为;此外由于缺乏用户详细个人信息(职位、权限等)、数据维度单一(仅有命令信息)以及构造性(恶意数据由人工模拟)等因素,数据集在内部威胁检测研究中作用有限。

4 WUIL数据集

与SEA数据集不同,2014年Camina等人基于Windows系统环境,记录表征用户访问文件的行为。通过借助Windows的审计工具,他们实验记录20个用户的打开文件/目录的行为,每条记录包含事件ID、事件时间以及事件对象及其路径信息(如文件名与文件路径)。此外,为了体现用户的计算机知识背景与技能对文件访问行为的影响,WUIL数据集来自于20个用户,这些用户背景各不相同,如职业,学生、行政人员等。

与SEA数据集相比,WUIL数据集的优势在于恶意数据采集于实际用户操作,实验中系统登录后由攻击者操作,借此模拟内部攻击者伪装其他用户身份未授权进行恶意操作的攻击场景。为了进一步分析攻击者个人知识能力对攻击的影响,工作人员将模拟的攻击分成初级、中级、高级三个层次,每个层次对应着攻击者具备的不同的知识层次、掌握的攻击工具数量以及对计划准备程度,如初级层次的攻击者不仅缺乏相应的攻击工具与技术,也只是偶然使用其他用户的电脑;而高级层次的攻击者不仅携带了USB设备,还准备了自动化脚本搜索系统中的有价值文件,最终安全退出等。WUIL数据集从用户浏览文件系统角度刻画用户行为,以此作为验证用户身份的工具,该数据集不足之处是仅仅采集了用户操作文件系统的行为,维度单一,缺乏全面地反映。

5 CERT-IT数据集

CERT-IT(Insider Threat)数据集来源于卡耐基梅隆大学(CMU)的内部威胁中心,该中心由美国国防部高级研究计划局(DARPA)赞助,与ExactData公司合作从真实企业环境中采集数据构造了一个内部威胁测试集。该数据集模拟了恶意内部人实施的系统破坏、信息窃取与内部欺诈三类主要的攻击行为数据以及大量正常背景数据。

CERT数据集中涉及多个维度的用户行为数据,如文件访问(创建、修改、删除以文件名称、类型等)、邮件收发、设备使用(移动存储设备、打印机等)、HTTP访问以及系统登录等行为,还包括了用户的工作岗位以及工作部门等信息。CERT数据集提供了用户全面的行为观测数据以刻画用户行为模型。

CERT数据集考虑了内部人行为建模多个维度,如关系模型、资产模型、行为模型、心理学模型、以及攻击场景特征等来构造攻击数据,从而达到了内部攻击的全方位模拟,不足之处有两方面:(1)攻击数据来源于人工模拟,与真实攻击数据特征存在偏差;(2)仅仅采集了用户在信息系统中的操作行为,没有考虑用户个体特征的建模(如职位、技术能力、工作绩效等),因此无法避免实际检测中的误报。

6 总结

上述数据集为研究者提供了内部威胁研究的实验数据支撑,但是由于每个数据集在构造时均有一定的局限性,导致实际中部分研究者根据实验需求选择或构造其他的数据集。现有公开的内部威胁数据集一定程度上弥补了实验数据的缺失,促进了内部威胁研究的开展。但是由于其恶意数据多数来源于人工模拟,不可避免地与真实攻击数据存在偏移,因此会影响内部威胁检测研究的实际准确性;此外多数数据来源于用户行为的某个方面(如命令或文件行为),不能全面反映内部攻击者行为特征,因此数据集采集与构造方面均亟须产学研各界予以高度重视,投入足够力量研究更完善的数据集获取方案。本文认为未来数据集获取可以侧重两个方向:一是建立全面、深度地用户行为审计,从进程、机器、用户个体以及网络等四个层次进行立体的行为审计,保证用户行为刻画的全面性;二是延长数据记录的时间周期,从而保证尽可能获取真实攻击数据,并且对真实数据进行匿名化处理,从而可以获取公开的真实攻击行为数据集。

参考文献:

[1] KDD Cup 1999 Data, http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

[2] 张有新,曾华燊,贾磊.入侵检测数据集KDD CUP99研究 [J].计算机工程与设计,2010, 31(22).

[3]Schonlau M. : Masquerading user data (1998), http://www.schonlau.net.


转载自:http://www.fx361.com/page/2016/1018/284843.shtml

数字来自:万方&知网

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读5.3k次,点赞10次,收藏39次。本章详细写了mysql的安装,环境的搭建以及安装时常见的问题和解决办法。_mysql安装及配置超详细教程
文章浏览阅读1.8k次,点赞50次,收藏31次。本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。_直接将第4题的计算结果保存到/user/root/lisi目录中lisipi文件里。
文章浏览阅读7.8k次,点赞9次,收藏34次。ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询)9. 分页10. 聚合查询【内含实际的demo】_es查询语法
文章浏览阅读928次,点赞27次,收藏18次。
文章浏览阅读1.1k次,点赞24次,收藏24次。作用描述分布式协调和一致性协调多个节点的活动,确保一致性和顺序。实现一致性、领导选举、集群管理等功能,确保系统的稳定和可靠性。高可用性和容错性Zookeeper是高可用的分布式系统,通过多个节点提供服务,容忍节点故障并自动进行主从切换。作为其他分布式系统的高可用组件,提供稳定的分布式协调和管理服务,保证系统的连续可用性。配置管理和动态更新作为配置中心,集中管理和分发配置信息。通过订阅机制,实现对配置的动态更新,以适应系统的变化和需求的变化。分布式锁和并发控制。
文章浏览阅读1.5k次,点赞26次,收藏29次。为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
文章浏览阅读1.2k次,点赞26次,收藏28次。在安装Hadoop之前,需要进行以下准备工作:确认操作系统:Hadoop可以运行在多种操作系统上,包括Linux、Windows和Mac OS等。选择适合你的操作系统,并确保操作系统版本符合Hadoop的要求。安装Java环境:Hadoop是基于Java开发的,因此需要先安装和配置Java环境。确保已经安装了符合Hadoop版本要求的Java Development Kit (JDK),并设置好JAVA_HOME环境变量。确认硬件要求:Hadoop是一个分布式系统,因此需要多台计算机组成集群。
文章浏览阅读974次,点赞19次,收藏24次。# 基于大数据的K-means广告效果分析毕业设计 基于大数据的K-means广告效果分析。
文章浏览阅读1.7k次,点赞6次,收藏10次。Hadoop入门理论
文章浏览阅读1.3w次,点赞28次,收藏232次。通过博客和文献调研整理的一些农业病虫害数据集与算法。_病虫害数据集
文章浏览阅读699次,点赞22次,收藏7次。ZooKeeper使用的是Zab(ZooKeeper Atomic Broadcast)协议,其选举过程基于一种名为Fast Leader Election(FLE)的算法进行。:每个参与选举的ZooKeeper服务器称为一个“Follower”或“Candidate”,它们都有一个唯一的标识ID(通常是一个整数),并且都知道集群中其他服务器的ID。总之,ZooKeeper的选举机制确保了在任何时刻集群中只有一个Leader存在,并通过过半原则保证了即使部分服务器宕机也能维持高可用性和一致性。
文章浏览阅读10w+次,点赞62次,收藏73次。informatica 9.x是一款好用且功能强大的数据集成平台,主要进行各类数据库的管理操作,是使用相当广泛的一款ETL工具(注: ETL就是用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程)。本文主要为大家图文详细介绍Windows10下informatica powercenter 9.6.1安装与配置步骤。文章到这里就结束了,本人是在虚拟机中装了一套win10然后在此基础上测试安装的这些软件,因为工作学习要分开嘛哈哈哈。!!!!!_informatica客户端安装教程
文章浏览阅读7.8w次,点赞245次,收藏2.9k次。111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例
文章浏览阅读1.9k次,点赞61次,收藏64次。TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。_星环tdh没有hive
文章浏览阅读836次,点赞21次,收藏19次。
文章浏览阅读1k次,点赞21次,收藏15次。主要介绍ETL相关工作的一些概念和需求点
文章浏览阅读1.4k次。本文以Android、java为开发技术,实现了一个基于Android的博物馆线上导览系统 app。基于Android的博物馆线上导览系统 app的主要使用者分为管理员和用户,app端:首页、菜谱信息、甜品信息、交流论坛、我的,管理员:首页、个人中心、用户管理、菜谱信息管理、菜谱分类管理、甜品信息管理、甜品分类管理、宣传广告管理、交流论坛、系统管理等功能。通过这些功能模块的设计,基本上实现了整个博物馆线上导览的过程。
文章浏览阅读897次,点赞19次,收藏26次。1.背景介绍在当今的数字时代,数据已经成为企业和组织中最宝贵的资源之一。随着互联网、移动互联网和物联网等技术的发展,数据的产生和收集速度也急剧增加。这些数据包括结构化数据(如数据库、 spreadsheet 等)和非结构化数据(如文本、图像、音频、视频等)。这些数据为企业和组织提供了更多的信息和见解,从而帮助他们做出更明智的决策。业务智能(Business Intelligence,BI)...
文章浏览阅读932次,点赞22次,收藏16次。也就是说,一个类应该对自己需要耦合或调用的类知道的最少,类与类之间的关系越密切,耦合度越大,那么类的变化对其耦合的类的影响也会越大,这也是我们面向对象设计的核心原则:低耦合,高内聚。优秀的架构和产品都是一步一步迭代出来的,用户量的不断增大,业务的扩展进行不断地迭代升级,最终演化成优秀的架构。其根本思想是强调了类的松耦合,类之间的耦合越弱,越有利于复用,一个处在弱耦合的类被修改,不会波及有关系的类。缓存,从操作系统到浏览器,从数据库到消息队列,从应用软件到操作系统,从操作系统到CPU,无处不在。
文章浏览阅读937次,点赞22次,收藏23次。大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。大数据可视化的实施是一系列数据的转换过程。