各位葱友如何看待这类热衷拆包偷窥和流量识别等审查技术的墙国研究？

流量混淆技术及相应识别、追踪技术研究综述
姚忠将，葛敬国，张潇丹，郑宏波，邹壮，孙焜焜，许子豪
https://www.jos.org. cn/html/2018/10/5620.htm#top
审查规避系统(censorship-circumvention system)是协助互联网用户绕过网络审查的流量伪装技术统称, 包括匿名通信网和虚拟专用网(virtual private network, 简称VPN)技术等.在匿名通信网技术方面, 最早的审查规避系统采用Chaum[1]于1981年提出的Mix技术, 通过中间节点扰乱审查者的视线。随后出现了Anonymizer[2]、Crowds[3]、DC-Net[4]、P5[5]、I2P[6]等匿名通信网.目前应用最广泛、关注度最高的是美国海军创建的第一个低时延匿名通信网Tor(the onion routing)。截至2017年11月1日, Tor的全球Tor relay用户达到3 000 000, 使用传输插件(pluggable transport, 简称PT)的Tor Bridge用户有43 000。在虚拟专用网方面, VPN因其部署简单、性能较高等特点而被广泛应用.目前市场上VPN产品种类繁杂, 国外知名的有lantern[7]、Psiphon[8]等30多款，国内有Snap VPN[9]、极速安全VPN[10]、蝙蝠VPN[11]等40多款。据著名市场研究机构Global WebIndex 2017年调查报告估测, 亚洲VPN用户占上网用户的31%[12], 中国VPN用户多达9 000万[13].
审查规避系统若被用于从事商业犯罪和政治犯罪等活动会给社会造成严重的负面影响。据中国互联网违法和不良信息举报中心资料显示，利用境外服务器、VPN等网络资源向中国境内网民实施网络犯罪已成为当前网络犯罪的突出动向[14].ISIS恐怖分子经常使用匿名通信网络内运行的Mail2Tor和SIGAINT邮件服务工具, 通常难以追踪[15]。为了规范网络空间秩序, 加强网络安全治理, 很多国家、组织和公司纷纷出台审查制度, 部署相关审查系统。2012年Twitter宣布，将根据不同国家的要求部署用户信息审查技术[16]。2017年, 我国工信部发布了《工业和信息化部关于清理规范互联网网络接入服务市场的通知》, 在全国范围内对互联网非法网站和VPN开展清理规范工作[17].相应地, 审查规避系统也得以迅速发展。
为了提高审查规避能力, 审查规避系统利用流量混淆技术将非正常流量隐藏于正常流量中, 难以区分。审查规避系统通常在接入匿名通信网的第1跳或连接VPN代理节点之前引入混淆技术。流量混淆技术的不断升级也增强了审查规避系统的抗审查能力。以Tor匿名通信网络为例, 它以传输插件的形式将混淆技术集成到Tor浏览器, 将HTTP报文混淆处理后发送出去。VPN则在VPN客户端将报文混淆处理后发往VPN代理节点。
早期审查规避系统简单地依赖加密报文负载隐藏信息, 但是审查者依靠IP地址、服务端口号等特征可以轻易识别[18].为此, 审查规避系统依靠加密、转换、填充等随机化方法来隐藏指纹信息、长度分布等特征, 如Dust[19]、Obfs[20-22]、Scramble Sui[23]等。考虑到随机化方法难以抵御基于熵测试和启发式检测的组合攻击, 有研究者提出了协议拟态技术, 通过流量整形使非正常流量具备普通流量的指纹、格式等特征, 如FTE[24]伪装成基于HTTP的密文格式、CensorSpoofer[25]模拟加密的VoIP会话、SkypeMorph[26, 27]模仿Skype视频流量等。即便如此, 审查者仍可通过统计分析报文中的URL熵值或长度特征识别拟态混淆流量。隧道技术是一种更强的流量混淆技术, 直接将非正常数据加密封装进普通协议报文中, 达到规避审查的目的, 如CloudTransport[28]、Meek[29]、Decoy-Routing[30]。研究发现, 隧道技术可以依靠流量分析等技术加以识别。本文深入分析了流量混淆技术, 总结其混淆框架并分析其相应的隐蔽性.
对混淆流量的识别技术按照识别特征和方法分为深度包检测技术和基于机器学习的流量识别技术。深度包检测技术针对3种混淆技术分别总结相应识别技术：随机化混淆流量的识别方法主要依靠某字段或报文的熵作为识别依据(如一条Obfs流前2048字节的熵[31]); 拟态混淆流量的识别方法可以依靠识别特征字符(如StegoTorus传输PDF文件时的xref关键字[31])和某字段或报文的熵(如FTE URI的熵[31]); 隧道混淆流量的识别方法比较丰富, 包括基于协议字段(如Meek的TLS加密套件[32])、基于长度(如基于SSL的Tor报文长度[18])、基于熵(如Meek报文间隔分布相对熵[33])、基于行为模式(如Tor的Circuit建立过程状态转换[34]).本文将基于机器学习的流量识别技术按3类混淆技术进行划分:随机化混淆流量和拟态混淆流量可采用kNN、朴素贝叶斯和CART算法利用已知特征识别(如Obfs、FTE); 隧道混淆流量可采用SVM、聚类、决策树等机器学习算法依据提取特征识别和深度神经网络直接依据流量数据识别(如Meek、Tor)。本文分析了深度包检测、机器学习两类流量识别技术根据混淆特征识别混淆流量, 对比相互间识别精度并汇总了混淆流量识别技术.

流量追踪技术可以进一步地发现非正常流量的发送者和接收者.流量追踪技术分为被动关联技术和主动关联技术.被动关联技术通过对采集的流量进行分析来关联具有相似特征的流量, 达到流量追踪的目的.虽然操作简单, 但是数据采集量大, 计算开销大.主动关联技术包括流水印技术和渗透技术.流水印技术在疑似混淆流量中嵌入标记信息并在潜在接收端检测流量, 如果检测出标记信息, 表明追踪成功.主要包括基于流速特征(如DSSS[35])和时间特征(如ICBW[36])的流水印嵌入方法.虽然简单、高效, 但不同的流水印技术抵御丢包、乱序、篡改等干扰的能力参差不齐, 对多流攻击(multi-flow attack, 简称MFA)[37]和均方自相关攻击(mean-square autocorrelation attack, 简称MSAC)[38]的抵抗力较弱.渗透技术应用广泛, 包括中间人攻击、节点发现和重放攻击3类.准确率较高, 但是部署难度大, 成本较高。

Obfs4匿名网络流量识别研究
北京交通大学 | 高睿
https://wap. cnki.net/touch/web/Dissertation/Article/1018144436.nh.html
匿名通讯是通过一定方法隐藏数据流中的通讯关系,使攻击者无法直接获取或推测出双方通讯关系或任意一方的身份信息的技术。它为正常用户的提供了身份隐私服务的同时,也容易被恶意用户利用以隐藏痕迹避免追踪。因此,研究匿名通讯检测技术对改进匿名通讯以及打击利用匿名通讯的犯罪方面具有重要意义。Tor是目前最为广泛使用的匿名通信工具。为了对抗流量分析攻击,Tor采用了多种流量混淆插件。Obfs是Tor的常用混淆插件之一,基于加密和填充达到隐蔽流量特征的目的。Obfs4使用了抗静态特征识别的改进型椭圆加密算法与抗报文长度特征分析的随机填充机制,进一步提高协议匿名性。实现面向真实世界的Obfs4流量检测面临多个挑战:1)全随机性:Obfs4遵循全随机化设计,使用随机椭圆加密和随机填充,拥有极强的抗静态特征检测和抗报文长度特征检测的能力。2)海量流量:检测系统需要能承受海量数据,同时满足高精度和实时性。3)大量相似流量:真实环境存在大量类似Obfs4的混淆协议、以及正常流量中的相似数据。4)高精度与实时性的矛盾:检测算法精度提高,会导致时间效率的下降,同时满足时间和精度的要求面临很大困难。

为了应对这些挑战,本文提出了一种基于多级过滤、动态和静态特征结合的Obfs4流量检测方案,实现了高精度和实时检测的目标。主要工作和贡献如下:(1)针对高精度与实时性的矛盾,提出多级过滤的策略,粗粒度快速过滤方法,细粒度精确识别,实现在保证高精度的同时满足资源占用和时间效率的需求。(2)针对Obfs4抗静态特征的随机化设计以及大量正常通信流量的非随机性特征,提出Obfs4随机性检测方法,将握手包负载进行按位重组后检测其随机性,并根据结果调整偏差函数的阈值。同时,为了控制实际使用中的资源占用,本文对比了不同负载长度对检测结果的影响并选出最优结果,最终达到提高时间效率,降低资源占用的目的。(3)针对大量干扰数据组造成的高误报率,分析Obfs4协议握手的时序特征,选择对Obfs4的握手部分数据包进行重组,根据Obfs4确认包收发时序特征与其他干扰协议进行区分。同时,为了应对在实际环境中对庞大的待检测数据,本文分析Obfs4的用户行为,采用分层次的报文长度过滤的方法,排除了近90%的干扰数据,极大的控制了误报率,并提高了检测效率。(4)经过大量样本数据特征相关性分析和效度分析,提取出包括方向、长度、方差和信息熵在内的4类16种流量特征,同时选用4397条正例与5128条反例,对SVM的惩罚系数、分片大小以及训练模型进行优化,并最终确定最优的特征和模型参数。
实验表明,本方案识别Obfs4的流量的精确率达到了 99%以上,检测时间复杂度低于8000 CPU周期/秒,能满足真实环境对时间复杂度和精度的要求。

各位葱友如何看待这类热衷拆包偷窥和流量识别等审查技术的墙国研究？

9 个回复

发起人

相关主题

推荐

状态