NPM,让网络排障变得简单
To网络运维工程师:你今天又被投诉了吗?
有些问题虽然日常,却令运维时时头疼。
网络运维工程师小A刚刚走上“网络背锅侠”的道路没多久,就遇到不少让网络老司机们头疼不已的投诉。对照一下,你是否也经常遇到这些投诉?
网络日常投诉之“邮件去无踪”
第一步,他根据网络拓扑和业务访问逻辑,对关键节点(防火墙前后、光电转换器前后的3个捕获点)进行数据采集和筛选。
第二步,用分析工具打开3个捕获点抓到的数据包,数据分析显示捕获点1、2的丢包数量相同为35且大于捕获点3(20个),因此推断捕获点2与3间有异常。
第三步,用dali软件打开捕获点2、3的数据包,发现某数据在捕获点2上有捕获,在捕获点3上却没有。显然,部分数据在通过捕获点2后没有到达捕获点3。
第四步,为了确定准确的丢包位置,他对数据包TCP标志做精确验证。用dali工具对捕获点3的数据包进行分析,确认丢包位置在捕获点3前。
第五步,定位捕获点2。捕获点3前没有捕获的数据在捕获点2上有数据,根据收集的网络与业务拓扑信息,确认光电转换器存在问题。
最终,他更换了光电转换器。至此,小A松了一口气,脑子里不断回忆KK的排障过程,内心却隐隐担忧。




网络日常投诉之“业务系统慢”
果不其然,没多久小A又收到一起投诉。
业务人员:“刚刚我从业务开通平台访问智能平台,业务开通速度慢到崩溃,你们网络出问题了?快快快,客户可等不了。”
怕耽误业务部门的工作,小A果断寻求老专家KK,却发现他临时出差,只好找了另一位资深前辈Joe。Joe安抚他“别着急,我来看看”:
首先,根据网络和业务拓扑针对合适的数据捕获点进行抓包分析。
其次,用分析工具打开数据包,发现数据包中有上百个会话。他找了一个持续时间较长的会话,发现响应时间较长,而其它会话也是类似情况。
再次,他用Wireshark打开数据包,按数据包间隔时间排序,发现超过1秒时间间隔的非常多,需逐个分析。着重关注服务端(智能平台)的返回间隔,因为开通平台返回间隔长有可能是正常的客户端等待时间。
之后,他又用Dali打开数据包,通过Dali基于数据流的分析,找到服务端返回时间长的时间间隔,直接对其进行配置,将超过1秒通过的用红色标记显示出来。客户端请求数据后,服务器很快返回ACK,证明网络延时正常,过了1秒多,服务端才返回业务数据。
他继续打开其它数据包,发现服务器返回时间间隔较长,再次确认网络延时正常。开通平台访问智能平台慢,是因为智能平台返回时间较慢。最终排除网络问题,是智能平台服务器自身的问题,Joe立即请求对应同事处理。
问题得到了完美解决,小A虽然如释重负,心中却五味杂陈。如果没有专家KK和Joe,该如何解决这些问题呢?
天旦网络性能管理NPM,让网络排障变得简单
Packets never lie(数据包从不说谎)。天旦网络性能管理NPM,基于网络流量进行网络性能监控与分析,赋予运维工程师专家级的网络排障、故障分析能力。
案例一挑战:网络故障的定位分析难
天旦NPM的解决方案:智能化的故障告警与诊断
有效的告警,是高效运维的核心目标之一。独有的专利告警模拟功能,基于大数据分析技术,通过海量历史数据的模拟推演,帮助管理人员快速定义精准的告警阈值,大幅提升运维效率。
有效的告警,是高效运维的核心目标之一。独有的专利告警模拟功能,基于大数据分析技术,通过海量历史数据的模拟推演,帮助管理人员快速定义精准的告警阈值,大幅提升运维效率。

天旦NPM的解决方案:全网流量可视化,使关键线路和设备具有深度可视性
天旦NPM系统使用原始网络数据和高精度的 Xflow 流数据,为企业数据中心的重要链路、关键应用交付设备提供深入、精准的流量、连接、TCP 行为等统计指标,时刻掌握从线路负载到网络服务性能的全面信息。
*秒级刷新的重要TCP指标,如:重传、零窗口等。

在线咨询
马上与我们的销售代表取得联系,
了解更多天旦产品性能以及如何提升您的业务。
或通过以下方式联系我们
微信
