流量分析

发布时间 2023-03-29 14:40:28作者: MyByte

原文地址:https://heatao.cn/2021/02/12/流量识别概述/#more

只是做一些随笔记录罢了,各位不喜勿喷。

任务定义

流量识别旨在识别流量的意图,类别。在这里,流量指的是在网络中传输的数据包。其源头是应用层的读写操作,经过传输层协议的变换(分片、协议状态机、加密等),流量序列产生一定变化。但是这种变化非常有限,因为流量的发生过程本质是确定性的,随机因素较小,因此对于特定环境中的特定应用(浏览器访问 google.com)各种流量特征体现出相当大的一致性和独特性,这就使“从流量特征识别应用”的监督学习问题成为可能。

根据流量意图的不同,流量在传输过程中会带有很多特征,一些工作利用单个数据包的特征对流量进行识别,一些工作则对整个网络数据包流进行处理,这会根据任务具体的目标不同而有所变化。

进行流量识别的第一步是明确识别的目标,对于不同的任务,由于数据的特点和流量的意图不同,所采用的方法也有所不同。下面我们从任务的目标角度,对常见的流量识别任务进行了划分。

任务分类

应用流量分类

应用流量分类是流量识别中最常见的任务,该任务通常的做法是,对特定领域或者对常用的应用通过流量进行区分。通过对应用流量进行区分,一定程度上可以对用户隐私造成威胁,例如了解用户的医疗状况,性取向或宗教信仰。该任务在一些场景也有特定作用,比如俄罗斯,印度等国的流量审查。同时,由于目前加密流量检测难度的增大,网络黑产利用爬虫,刷流量,撸羊毛,扰乱正常网络秩序,为了解决这一问题,急需要更有效的手段对应用流量进行识别。

网站指纹

网站指纹(website fingerprinting)的目标是根据流量对用户所访问的网页进行识别。最近有很多研究都表明,可以根据访问网站所产生的流量的数据包和大小检测特定的网站信息。

应用行为分类

流量行为分类旨在识别流量的意图,该任务很多时候与应用分类同时进行,后者识别同类型的应用,前者在此基础上识别出应用的行为和步骤。行为分析可以暴露用户的隐私,分析用户的偏好,也可以在流量有一个更为全面的了解,对热点资源进行分析。从安全的角度而言,行为分类还可以识别出具有异常行为的流量,是一个值得研究的问题。

混淆流量识别

很多根据统计特征进行流量识别的方法可以进流量进行很好的分类,暴露隐私,为了避免这一问题,可以采用流量混淆的方式对流量进行伪装,改变原本的特征[Wright2009]。流量混淆的方式包括且不限于:改变数据包大小,将数据包伪装成另外行为或应用的流量,伪装成不同的协议。

恶意流量识别

越来越多的恶意网络服务通过加密和隧道技术绕过防火墙和入侵检测系统,这些恶意流量通过加密。隐藏了通讯内容,导致恶意流量很难被实时监控到,对互联网安全造成了严重的影响,及时发现恶意流量是学术界和工业界面临的一项巨大的挑战。