概述
网络异常流量突发是经常困扰运维管理人员的问题之一。突发流量可能会造成网络的拥塞,从而产生丢包、延时和抖动,导致网络服务质量下降;不仅如此,突发流量还可能存在安全风险,例如:DoS攻击、蠕虫、窃密等,会对网络和业务系统造成更大的危害。常规的网络管理和流量监控手段通常仅能够看到流量异常突发的现象,却不能够让管理人员深入分析异常流量产生的原因,无法了解异常流量是哪些IP造成的、是否是恶意攻击行为、异常流量的行为特点、传输内容、对网络和业务有多大影响等,导致难以采用正确的处理措施。
科来回溯分析系统能够透视网络流量、回溯历史通信数据包,从而快速判断异常流量突发的根本原因。以下就是一个通过科来回溯分析系统分析异常流量突发成因的案例。
分析案例
某用户数据中心近期通过网管软件发现有一个重要的业务系统服务器区不定期的会出现流量突发,但用户无法看到是哪台服务器出现异常,也不知道是和谁在通讯。由于这个区域的服务器存储的都是重要的客户信息和计费数据,运维人员非常担心是服务器被渗透造成数据泄密。
为了对突发流量进行精细分析,用户在问题区域部署了科来回溯分析系统进行7×24小时数据采集。设备部署当天我们通过科来回溯分析系统的流量趋势图就观察到了一次持续约10分钟的流量突发,峰值流量达到了其他时段的6倍以上。
通过异常时段的IP会话统计表,我们发现有一个IP会话的流量明显高于其他通讯对,竟然是一台业务服务器(10.199.90.51)与数据中心其他区域的一台主机(10.199.72.168)间的异常通讯造成了流量突发(如图所示)。
用户经过核查确认了10.199.72.168是一台网管系统的主机IP,业务服务器每隔1小时会向网管系统上报日志数据,但每次上报的数据量应该在10MB以下,不应该造成流量突发。
为了进一步分析,我们提取了流量突发时段该异常通讯对数据包通过科来回溯分析系统进行解码分析,还原问题时段突发流量的通讯内容。从两台主机间的数据流内容中,我们看到10.199.90.51在向10.199.72.168发送大量的日志条目,不过这些日志的时间都是一个月以前的,并非最近1小时的日志。
至此,我们初步怀疑是业务服务器上的网管系统插件异常造成了流量突发,可以完全排除网络安全问题导致数据泄密的可能性。网管系统的维护人员根据这一线索对10.199.90.51上的插件进行了排查,发现的确插件程序存在BUG,不定期会上传大量的历史日志。插件BUG修正之后,用户再没有监控到上述的异常流量突发。
案例总结
由于异常流量突发的成因很多,对网络和业务系统的危害程度也不近相同,在运维管理工作中如果不能对异常流量进行快速、深入的分析,往往会无从下手。这个案例中,异常流量突发困扰了用户将近一个月,通过科来回溯分析系统的数据挖掘和数据包回溯功能一天内就准确找到了问题的根源,消除了用户对信息泄密的担忧,并使问题的到了彻底的解决。