基于异构图卷积网络的网络威胁情报建模

发布时间 2023-12-20 22:38:17作者: 我记得

基于异构图卷积网络的网络威胁情报建模

基本信息

  • 题目:Cyber Threat Intelligence Modeling Based on Heterogeneous Graph Convolutional Network
  • 来源:USENIX Association

摘要

网络威胁情报 (CTI) 作为威胁信息的集合,已在工业中广泛用于防御普遍存在的网络攻击。CTI 通常被表示为入侵指标 (IOC),用于正式确定威胁参与者。然而,目前的 CTI 研究存在三大局限性:一是 IOC 提取的准确性低;其次,孤立的 IOC 很难描述威胁事件的全面情况;第三,异构 IOC 之间的相互依存关系尚未得到探索,这些关系可用于挖掘深入的安全见解。在本文中,我们提出了一种新的 CTI 框架 HINTI,用于对异构 IOC 之间的相互依赖关系进行建模,以量化其相关性。具体而言,我们首先提出了基于多粒度注意力的 IOC 识别方法,以提高 IOC 提取的准确性。然后,我们使用新构建的异构信息网络(HIN)对 IOC 之间的相互依存关系进行建模。为了探索错综复杂的安全知识,我们提出了一种基于图卷积网络的威胁情报计算框架,用于有效的知识发现。实验结果表明,我们提出的 IOC 提取方法优于现有的现有方法,并且 HINTI 可以对异构 IOC 之间的潜在关系进行建模和量化,为不断变化的威胁形势提供新的视角。

提取关键点

  • 目前 CTI 研究三大局限性:一是 IOC 提取的准确性低;其次,孤立的 IOC 很难描述威胁事件的全面情况;第三,异构 IOC 之间的相互依存关系尚未得到探索,这些关系可用于挖掘深入的安全见解
  • 提出新的 CTI 架构 HINTI
    • 首先提出了基于多粒度注意力的 IOC 识别方法,以提高 IOC 提取的准确性
    • 使用新构建的异构信息网络(HIN)对 IOC 之间的相互依存关系进行建模
    • 为了探索错综复杂的安全知识,提出了一种基于图卷积网络的威胁情报计算框架,用于有效的知识发现
  • 结果表明,提出的 IOC 提取方法优于现有的现有方法,并且 HINTI 可以对异构 IOC 之间的潜在关系进行建模和量化,为不断变化的威胁形势提供新的视角

要解决的问题

不同于安全数据库 CVE,CTI 可以帮助组织主动发布更全面、更有价值的威胁警告(例如,恶意 IP、恶意 DNS、恶意软件和攻击模式等)。

当前 IOC 提取的不足之处

  • IOC 提取的准确率较低,不可避免地导致关键威胁对象的遗漏
  • 孤立的 IOC 几乎无法描述威胁事件的全面情况,这使得 CTI 用户几乎不可能全面了解即将到来的威胁。
  • 缺乏有效的计算框架来有效衡量异构 IOC 之间的交互关系。

贡献

  • 基于注意力的多粒度 IOC 识别。我们提出了一种基于多粒度注意力的 IOC 识别方法,从多源威胁文本中自动提取网络威胁对象,从而学习不同尺度特征的重要性。我们的模型在 IOC 识别准确性和召回率方面优于最先进的方法。我们总共从非结构化威胁描述中提取了超过 397,730 个 IOC。
  • 异构威胁情报建模。我们使用异构信息网络 (HIN) 对不同类型的 IOC 进行建模,该网络引入了各种元路径来捕获异构 IOC 之间的相互依赖关系,同时描绘了更全面的网络威胁事件景观。
  • 威胁情报计算框架。我们率先提出了网络威胁情报计算的概念,并设计了一个通用的计算框架,如图 5 所示。该框架首先利用基于权重学习的节点相似度度来量化异构 IOC 之间的相互依赖关系,然后利用基于注意力机制的异构图卷积网络嵌入 IOC 及其交互关系。
  • 威胁情报原型系统。为了评估 HINTI 的有效性,我们实施了 CTI 原型系统。我们的系统识别出攻击者、漏洞、恶意文件、攻击类型、设备和平台等 6 类 IOC 之间的 1,262,258 个关系,并在此基础上利用 IOC 显著性排序、攻击偏好建模和漏洞相似性分析 3 种实际应用进一步评估了 HINTI 的实际适用性。

背景

CTI 包括有关正在发 生或演变的网络攻击的推理、背景、机制、指标、影响 和可操作建议,可用于提前制定预防措施。CTI 允许用户扩大其对快速增长的威胁环境的可见性,并实现对 网络攻击的早期识别和预防。

现有 的大多数方法和框架都利用正则表达式来提取 IOC, 但由于它们无法预处理 IOC,因此准确率可能较低。

研究动机

本研究的主要目标是通过对异构 IOC 之间的相互依存 关系建模,解决现有 CTI 分析框架的局限性

::: block-1
Lotus 利用 CVE-2017-0143 漏洞影响了伊朗更多的 Vista SP2 和 Win7 SP 设备。 CVE-2017-0143 是一个远程代码执行漏洞,包含一个恶 意文件 SMB.bat"。如图 1 所示,大多数现有 CTI 框架 可以提取特定的 IOC,但忽略了它们之间的关系。显然,这些 IOC 无法全面反映威胁的全貌,更不用说量 化它们之间的交互关系以进行深入的安全调查了

:::

与现有的 CTI 框架不同,HINTI 的目标是实现一个 计算 CTI 框架,它不仅能高效地提取 IOC,还能对 IOC 之间的关系进行建模和量化

激励性实例演示 HINTI 在实践中是如何逐步运行的:

1.首先,采用 B- I-O 序列标记法[43]对安全相关的帖子进行注释,如图 2 所示,其中 B-X 表示 X 类型的元素位于片段的开头,I-X 表示属于 X 类型的元素位于片段的中间,O 表示其他类型的非必要元素


(从 5000 个威胁描述文本中标注了 30,000 个这样的训练样本,这些样本是用于构建 IOC 提取模 型的原材料)

2.然后将标记的训练样本输入到如图 6 的神经网络架构中,以训练我们建议的 IOC 提取模型。因此,HINTI 能够使用所提出的基于多粒度注意力的 IOC 提取方法准确识别和提取 IOC(例如,Lotus,SMB.bat)(有关详细信息,请参阅第 4.1 节)。

3.然后,HINTI 利用句法依赖解析器[6](例如,主语-谓语-宾语、归因从句等)来提取 IOC 之间的关联关系,每个 IOC 都表示为一个三元组(IOCi,关系,IOCj)。在这个激励性的例子中,HINTI 提取了涉及(Lotus,exploit,CV E − 2017 − 0143),(CV E − 2017 − 0143,a f f ect,VistaSP2)等的三元组关系。请注意,提取的关系三元组可以增量汇集到 HIN 中,以对 IOC 之间的交互进行建模,以描述更全面的威胁态势。图 3 显示了一个微型图形表示,描述了从示例中提取的 IOC 之间的交互关系。与图 1 相比,很明显,HINTI 可以描绘出比以前的方法更直观、更全面的威胁态势。在本文中,我们主要考虑了 6 种不同类型的 IOC 之间的 9 种关系 (R1∼R9)

4.最后,HINTI 集成了基于异构图卷积网络的 CTI 计算框架,以有效量化 IOC 之间的关系以进行知识发现。特别是,我们提出的 CTI 计算框架在低维嵌入空间中表征了 IOC 及其关系,在此基础上,CTI 用户可以使用任何分类(例如,SVM、朴素贝叶斯)或聚类算法(K-Means、DBSCAN)来获得新的威胁洞察,例如预测哪些攻击者可能会入侵他们的系统,并在没有专业知识的情况下识别哪些漏洞属于同一类别。在这项工作中,我们主要探索了三种实际应用来验证 CTI 计算框架的有效性和效率:IOC 显著性排序(见第 6.1 节)、攻击偏好建模(见第 6.2 节)和漏洞相似性分析(见第 6.3 节)。

序言

关于异构信息网络(HIN)

定义 1 威胁情报异构信息网络 (HINTI) 定义为具有对象类型映射函数 φ : V →M 和链路类型映射函数 Ψ : E→R 的有向图 G = (V, E, T)。每个对象 v ∈ V 属于对象类型集 M: φ(v) ∈ M 中的一个特定对象类型,每个链接 e ∈ E 属于关系类型集 R: Ψ(e)∈R 中的特定关系类型。T 表示节点和关系的类型。

本文重点介绍 6 种常见的 IOC 类型:攻击者(A)、漏洞(V)、设备(D)、平台(P)、恶意文件(F)和攻击类型(T),连接不同对象的链接代表不同的语义关系。为了更好地理解 HINTI 中的对象类型和关系类型,必须提供网络的元级(即模式级)描述。

(a)展示了 HINTI 的网络模式,定义了 IOC 之间的关系模板,以有效指导 HINTI 中的语义探索。
(b)网络架构的具体实例

HINTI 中的元路径

HINTI 结构

从威胁相关描述中提取 IOC,并将异构 IOC 之间的关系形式化,HINT1 的 4 个组件:
(a) 收集与安全有关的数据和提取威胁对象(即 IOC); (b) 将 IOC 之间的相互依存关系建模为异构信息网络;(c)使用基于权重学习的相似性度量将节点嵌入到低维向量空间中;(d)基于图卷积网络和知识挖掘的威胁情报计算。

HINTI 的整体架构。HINTI 由四个主要组成部分组成:

  1. 数据收集和 IOC 识别。首先建立数据收集系统,可自动从博客、黑客论坛帖子、安全新闻和安全公告中捕获与安全相关的数据。该系统利用广度优先搜索来收集 HTML 源代码,然后利用 Xpath(XML 路径语言)提取与威胁相关的描述。之后,我们利用基于注意力的多粒度 IOC 识别方法从收集到的威胁相关描述中提取 IOC

  2. 关系提取和 IOC 建模。HINTI 通过利用异构信息网络解决了 CTI 建模的挑战,该网络可以自然地描述异构 IOC 之间的相互依赖关系。例如,图 4 显示了一个模型,该模型捕获了攻击者、漏洞、恶意文件、攻击类型、平台和设备之间的交互关系

  3. 元路径设计和相似性度量。Metapath 是表达构造 HIN 中 IOC 之间语义关系的有效工具。例如,攻击者利用 → 漏洞利用 −−−−−→ 攻击者,表示两个攻击者通过利用同一漏洞而相互关联。我们设计了 17 种类型的元路径(见表 1)来描述 IOC 之间的相互依赖关系。利用这些元路径,我们提出了一种基于权重学习的节点相似度计算方法,以量化和嵌入关系作为威胁情报计算的前提

  4. 威胁计算和知识挖掘。在该组件中,提出了一种有效的威胁情报计算框架,该框架可以利用图卷积网络 (GCN)量化和衡量 IOC 之间的相关性。我们提出的威胁情报计算框架可以在更全面的威胁环境中揭示更丰富的安全知识。

方法

基于注意力的多粒度 IOC 提取

该框架利用多 粒度注意力机制来表征 IOC。与传统的 BiLSTM+CRF 模型不同,我们引入了不同粒度的新词嵌入特征,以捕捉不同大小的 IOC 的特征。此外,我们利用自注意力机制来学习特征的重要性,以提高 IOC 提取的准确性。我们提出的方法将威胁描述句子 X = (x1, x2, · · · , xi) 作为输入,其中 xi 表示 X 中的第 i 个单词

我们首先将句子分成 n-gram 组件,包括 char-level、1-gram、2-gram 和 3-gram,它们是我们训练模型的输入,写法如下:


通过求解上述目标函数,我们为 n-gram 分量分配了正确的标签,根据这些标签,我们可以识别不同长度的 IOC。我们的基于多粒度注意力的 IOC 提取方法能够识别不同类型的 IOC,其评估在第 5 节中介绍。

CTI 建模

探索不同类型 IOC 的交互关系,模拟 IOC 之间错综复杂的相互依存关系,我们定义了 6 种类型的 IOC 之间的以下 9 种关系

  • R1:为了描述攻击者和被利用漏洞的关系,我们构建了攻击者-利用漏洞矩阵 A。对于每个元素 Ai, j ∈ {0, 1}, Ai, j=1 表示攻击者 i 利用了漏洞 j。
  • R2:为了描述攻击者和设备的关系,我们构建了攻击者入侵设备矩阵 D。对于每个元素 Di, j ∈ {0, 1}, Di, j=1 表示攻击者 i 入侵设备 j。
  • R3:两个攻击者可以合作攻击一个目标。为了研究攻击者-攻击者的关系,我们构建了攻击者-合作-攻击者矩阵 C。对于每个元素 Ci, j ∈ {0, 1}, Ci, j=1 表示攻击者 i 和 j 之间存在合作关系。
  • R4:为了描述漏洞与受影响设备的关系,我们构建了漏洞-影响-设备矩阵 M。对于每个元素 Mi, j ∈ {0, 1}, Mi, j=1 表示漏洞 i 影响设备 j。
  • R5:漏洞通常被常见漏洞和披露 (CVE) 标记为特定攻击类型系统系统 7.为了探究漏洞-攻击类型之间的关系,我们构建了漏洞-归属-攻击类型矩阵 G,其中每个元素 Gi,j∈{0,1}表示漏洞 i 是否属于攻击类型 j。
  • R6:漏洞通常涉及一个或多个恶意文件。为了描述漏洞文件的关系,我们构建了漏洞包含文件矩阵 F。对于每个元素 Fi, j ∈ {0, 1}, Fi, j=1 表示漏洞 i 包括恶意文件 j。
  • R7:恶意文件通常以特定设备为目标。我们建立了文件-目标-设备矩阵 T 来探究文件-设备之间的关系。对于每个元素 Ti, j ∈ {0, 1}, Ti, j=1 表示恶意文件 i 以设备 j 为目标。
  • R8:通常,一个漏洞是从另一个漏洞演变而来的。为了研究脆弱性-脆弱性之间的关系,我们建立了脆弱性-进化-脆弱性矩阵 E,其中每个元素 Ei, j ∈ {0, 1} 表示脆弱性 i 是否从脆弱性 j 演变而来。
  • R9:为了描述设备属于平台的设备-平台关系,我们构建了设备-归属平台矩阵 P,其中每个元素 Pi, j ∈ {0, 1} 说明了设备 i 是否属于平台 j。

基于上述 9 种关系,HINTI 利用语法依存解析器[6]( 如主语-谓语-宾语、属性子句等)自动从威胁描述中提 取 IOC 之间的 9 种关系,每种关系都表示为一个三元组 (IOCi 、关系、IOCj )。例如,给定一个与安全相关 的描述"2017 年 5 月 12 日,WannaCry 利用了 MS17-010 漏洞 以影响更多的 Windows 设备,这是一种通过加密磁盘进 行的勒索软件攻击"。使用语法依存解析器,我们可以提 取以下三元组:

(WannaCry, exploit, MS17-010), (MS17-010, affect, Windows device), (WannaCry, is, ransomware).

威胁情报计算

基于权重学习的威胁情报相似度度量,该度量利用自注意力来提高任意两个 IOC 之间的相似度量的性能。

IOC 实例 hi 和 h j 之间的元路径数量越多,两个 IOC 的相似度就越高,这由语义广度归一化

实验

数据集和设置

我们开发了一个威胁数据收集器,以自动从一组来源收集网络威胁数据,包括 73 个国际安全博客(例如,fireeye,cloudflare),黑客论坛帖子(例如,Blackhat,Hack5),安全公告(例如,Microsoft,Cisco),CVE 详细说明和 ExploitDB。数据源的完整列表显示在百度 cloud8 中。我们设置了一个守护程序来收集每天新生成的安全事件。到目前为止,已经收集了超过 245,786 个描述威胁事件的安全相关数据。为了训练和评估我们提出的 IOC 提取方法,利用 B-I-O 序列标记方法对来自 5,000 个文本的 30,000 个样本进行了注释(示例参见第 2.2 节),注释示例如图 2 所示。对于 30,000 个标记样本,我们随机选择 60% 的样本作为训练集,20% 的样本作为验证集,其余样本作为我们的测试集。基于这些数据集,我们综合评估了 HINTI 在提取 IOC 和威胁情报计算方面的性能。我们在 16 核 Intel(R) Core(TM) i7-6700 CPU @3.40GHz、64GB RAM 和 4× NVIDIA Tesla K80 GPU 上运行所有实验。软件程序在 Ubuntu 16.0.4 上的 TensorFlow-GPU 框架上执行。

结果

最佳参数

不同类型 IOC 识别结果

不同粒度

与其他方法对比

威胁情报计算的应用

我们提出的基于异构图卷积网络的威胁情报计算框架可用于挖掘异构 IOC 背后的新安全知识。我们使用三个实际应用来评估其有效性和适用性:

  1. CTI 威胁分析和排名
  2. 攻击偏好建模
  3. 漏洞相似性分析

表 5 显示了漏洞、攻击者、攻击类型、平台等前 5 个权威排名得分,安全专家可以从中清晰地了解每个 IOC 的影响

图 8 显示了不同类型元路径下的前 3 个聚类结果,其中元路径 AVDPDTVTAT(P17) 在紧凑和分离良好的集群中性能最好,这表明它比其他元路径在描述攻击偏好方面具有更丰富的语义关系。

在攻击建模场景中,我们只关注起始节点和结束节点都是攻击者的元路径。实验结果如表 6 所示。显然,不同的元路径在刻画网络入侵者的攻击偏好方面表现出不同的能力。

由于 P17 包含了 P1、P4、P5 和 P12⋅P15 的语义信息,因此 P17 比其他元路径拥有更多表征网络犯罪分子攻击偏好的有价值信息。

为了进一步验证威胁情报计算框架对漏洞聚类的有效性,我们从每个集群中随机抽取 100 个漏洞进行人工检查,以衡量每个集群中漏洞类型的一致性,结果如表 7 所示。

我们发现这两类漏洞(文件包含和目录遍历)的比例太小(集群 8 为 3.4%,集群 10 为 4.2%),这使得我们的计算框架很可能因数据不足而不适合。

图 9 (c) 显示所有漏洞都使用元路径 V DPDTV T (P16) 聚类到 12 个集群中,这非常接近 CVE details 推荐的分类标准(即 13),CVE details 是一个发布漏洞信息的权威数据库。通过手动分析训练样本,我们发现我们的数据集中没有出现 HTTP 响应拆分漏洞。因此,我们的集群编号(即 12)与 CVE Details11 一致。

总结

本文的工作探索了威胁智能计算的一个新方向,旨在发现不同威胁向量之间关系的新知识。我们提出了一个网络威胁情报框架 HINTI,通过利用异构图卷积网络来建模和量化不同类型 IOC 之间的依赖关系。我们开发了一个多粒度注意力机制来学习不同特征的重要性,并使用 HIN 来建模 IOC 之间的依赖关系。此外,本文提出了威胁智能计算的概念,并设计了一个基于图卷积网络的通用智能计算框架。

实验结果表明,基于多粒度注意力机制的 IOC 提取方法优于现有的先进方法,提出的威胁智能计算框架可以有效挖掘隐藏在 IOC 之间相互依赖关系中的安全知识,使关键的威胁智能应用,如威胁分析和排序、攻击偏好建模和脆弱性相似性分析。

在未来,我们计划开发一个基于 HINTI 的预测和推理模型,并探索预防性的应对措施,以保护网络基础设施免受未来的威胁。我们还计划增加更多类型的 IOC 和关系,以描述一个更全面的威胁环境。此外,我们将利用元路径和元图来表征 IOC 及其交互作用,以进一步提高嵌入性能,并在模型的准确性和计算复杂度之间取得平衡,还将研究基于 HINTI 的安全知识预测的可行性,以推断漏洞和设备之间潜在的潜在关系。

::: block-2
一个只记录最真实学习网络安全历程的小木屋,最新文章会在公众号更新,欢迎各位师傅关注!

公众号名称:奇怪小木屋


图片名称

博客园主页:
博客园-我记得https://www.cnblogs.com/Zyecho/
:::