云环境性能监控三步走,你走到了哪一步?

7月14日,中国互联网协会发布了《中国互联网发展报告(2021)》,报告显示我国云计算市场增速明显,同比增长22.6%。由于“云”具有规模大、高扩展、按需服务等特性,云计算、云原生等相关技术发展极快。
与此同时,尽管云计算等相关技术发展较快,但是其在企业IT支出中的比重仍然不高。2020年,云支出在企业IT总支出中的比重仅为9.1%。据Gartner预测,到2024年,云将占全球企业IT总支出市场的14.2%。相较于传统的IT市场,云市场的规模要小得多。更多的企业选择跨云的部署方式,包括跨越公有云与私有云、跨越云环境与传统环境等。因此,如何在跨云的环境里进行有效的性能监控,以实现自主可控的业务保障,是多数企业关注的重点。
性能监控是通过压缩平均恢复时间来减少网络、应用程序、业务的宕机时间,记录从发生问题到恢复正常的耗时,并且能够通过检查与识别性能瓶颈来提高网络、应用程序、业务的性能。随着网络从传统环境,发展至虚拟化、公有云、私有云,甚至容器化环境,云原生网络的复杂性尽管增强了,但性能监控的本质却没有改变。
性能监控的实现方式有多种技术流派,本文仅以网络流量为例,探讨如何在云原生环境里进行可靠的性能监控。
云环境性能监控须要“三步走”
无论是传统环境、云环境还是跨云环境,性能监控都须要通过以下三个步骤进行:

接下来,我们将探讨三大步骤的关键细节、审视每个步骤的重点,助力企业做好云环境网络性能和应用性能的监控。
第1步:对网络数据进行采集、转发与存储
——{英}纪伯伦”
第2步:对网络数据指标进行深度解析
在流量采集的过程中,采集器通常可以通过网络流量来粗略计算部分TCP流级别的网络统计指标。但在大部分场景下,流级别的网络统计指标并不能反映网络的健康状况,更不能发现应用性能的潜在问题。
当谈及网络性能与应用性能监控时,我们更需要“高层视角”的指引。从网络性能管理层面来看,需要会话级别的网络指标和原始数据包;从应用性能管理层面来看,需要对数据包的payload做解析、关联和统计。只有具备对“高层指标”的深度解析能力,才能够将云环境的监控落到实处。

(性能监控指标的不同层级)
- 网络指标深度解析
- 应用与业务指标深度解析
第3步:基于原始数据包分析,实现根因定位
保障业务稳定高效运行,是云环境性能监控的核心目的之一。当深度解析高层指标后,需要通过一定的技术手段对网络数据、网络路径进行分析,最终找到问题根因。
原始数据包分析技术自动梳理流量、IP地址、应用、会话、网段等信息,并构建完整的网络层视图或应用层视图,通过呈现网络指标或应用指标的实时状态,发现异常指标数据,并通过一键钻取、多维统计等功能,帮助运维人员快速找到故障节点、锁定故障根因。
此外,在对原始数据包进行分析的同时,还需要通过设置故障告警进行配合。基于原始数据的深度分析,设置告警基线与告警指标数值,自动监测与智能告警,进一步辅助运维技术人员进行排障等操作。
目前来看,只有具备对原始数据包非常成熟的采集、解码、应用能力的专业厂商才具备。
容器化已经成为云原生时代的标志和象征之一。努力突破云原生环境的束缚,优化性能监控的每个步骤,是云环境性能监控的难点所在。但同时,从流量采集、转发、存储到指标解析再到原始数据包的深度分析,云环境性能监控的流程与本质从未改变。保障企业IT稳定、及时排障、优化性能仍是云原生时代性能监控的主旋律。
在今年举办的华为智慧金融峰会2021上,天旦携手华为发布了《天旦云架构智能业务性能监控方案》,保障企业数据中心业务平稳上云。
关注天旦公众号
跟旦旦一起,
让运维稳定无忧,
运营做你所想。

