1. 首页
  2.  » 
  3. CLOUD
  4.  » 云环境性能监控三步走,你走到了哪一步?

云环境性能监控三步走,你走到了哪一步?

by | Aug 5, 2021

7月14日,中国互联网协会发布了《中国互联网发展报告(2021)》,报告显示我国云计算市场增速明显,同比增长22.6%。由于“云”具有规模大、高扩展、按需服务等特性,云计算、云原生等相关技术发展极快。

与此同时,尽管云计算等相关技术发展较快,但是其在企业IT支出中的比重仍然不高。2020年,云支出在企业IT总支出中的比重仅为9.1%。据Gartner预测,到2024年,云将占全球企业IT总支出市场的14.2%。相较于传统的IT市场,云市场的规模要小得多。更多的企业选择跨云的部署方式,包括跨越公有云与私有云、跨越云环境与传统环境等。因此,如何在跨云的环境里进行有效的性能监控,以实现自主可控的业务保障,是多数企业关注的重点。

性能监控是通过压缩平均恢复时间来减少网络、应用程序、业务的宕机时间,记录从发生问题到恢复正常的耗时,并且能够通过检查与识别性能瓶颈来提高网络、应用程序、业务的性能。随着网络从传统环境,发展至虚拟化、公有云、私有云,甚至容器化环境,云原生网络的复杂性尽管增强了,但性能监控的本质却没有改变。

性能监控的实现方式有多种技术流派,本文仅以网络流量为例,探讨如何在云原生环境里进行可靠的性能监控。

云环境性能监控须要“三步走”

无论是传统环境、云环境还是跨云环境,性能监控都须要通过以下三个步骤进行:

接下来,我们将探讨三大步骤的关键细节、审视每个步骤的重点,助力企业做好云环境网络性能和应用性能的监控。

第1步:对网络数据进行采集、转发与存储

从传统环境到云环境,数据采集的难度大幅上升。过去,网络流量跑在物理网络、服务器等传统设备间,只需要通过TAP或者物理交换机镜像的方式就能进行流量采集;现在,流量开始跑向云端,拥抱虚拟化和容器环境,传统的采集方式统统失效。

由此,市场上出现了这样一种声音:“全流量的网络数据采集与网络关系梳理是进行云环境网络性能和应用性能监控的核心。”

虽然流量采集是进行性能监控的第一步,但并非核心目的。在获取流量后,我们需要更多思考:这些流量数据要如何处理、如何应用,才能为科技管理、企业发展带来价值。如果没有处理数据、应用数据的能力,那么采集再庞大的数据又有何意义呢?因此,在全量采集云环境里的网络数据之后,我们还需要进行全量的转发与存储,拥有对数据指标进行深度解析的能力,最终从数据石油中提炼价值,应用于网络分析、运维保障、业务价值发现等各个维度,这才是全流量采集的意义与价值所在。

“我们已经走得太远,以至于忘记了为什么而出发。

——{英}纪伯伦”

第2步:对网络数据指标进行深度解析

在流量采集的过程中,采集器通常可以通过网络流量来粗略计算部分TCP流级别的网络统计指标。但在大部分场景下,流级别的网络统计指标并不能反映网络的健康状况,更不能发现应用性能的潜在问题。

当谈及网络性能与应用性能监控时,我们更需要“高层视角”的指引。从网络性能管理层面来看,需要会话级别的网络指标和原始数据包;从应用性能管理层面来看,需要对数据包的payload做解析、关联和统计。只有具备对“高层指标”的深度解析能力,才能够将云环境的监控落到实处。

(性能监控指标的不同层级)
  • 网络指标深度解析
一般在进行网络指标解析时,需要利用多种应用识别技术,对性能指标进行收集与导出。同时,汇聚多种数据源进行流量指标计算和应用性能测量,最终输出性能时间和指标至控制器,进行自动优化或策略调整。

  • 应用与业务指标深度解析
协议解码是进行应用与业务指标深度解析的关键。解码器需要对中间件、应用、核心等进行协议解码,通过提取所需字段、自动验证解码结果,并对应用或者业务架构进行有效梳理,辅助后续的原始数据包分析与性能管理。

如果说对网络数据的采集、转发与存储是发现问题(故障)的前提条件,那么,对网络数据指标的深度解析是帮助我们进一步定位问题,甚至解决问题的根本能力。

第3步:基于原始数据包分析,实现根因定位

保障业务稳定高效运行,是云环境性能监控的核心目的之一。当深度解析高层指标后,需要通过一定的技术手段对网络数据、网络路径进行分析,最终找到问题根因。

原始数据包分析技术自动梳理流量、IP地址、应用、会话、网段等信息,并构建完整的网络层视图或应用层视图,通过呈现网络指标或应用指标的实时状态,发现异常指标数据,并通过一键钻取、多维统计等功能,帮助运维人员快速找到故障节点、锁定故障根因。

此外,在对原始数据包进行分析的同时,还需要通过设置故障告警进行配合。基于原始数据的深度分析,设置告警基线与告警指标数值,自动监测与智能告警,进一步辅助运维技术人员进行排障等操作。

目前来看,只有具备对原始数据包非常成熟的采集、解码、应用能力的专业厂商才具备。

容器化已经成为云原生时代的标志和象征之一。努力突破云原生环境的束缚,优化性能监控的每个步骤,是云环境性能监控的难点所在。但同时,从流量采集、转发、存储到指标解析再到原始数据包的深度分析,云环境性能监控的流程与本质从未改变。保障企业IT稳定、及时排障、优化性能仍是云原生时代性能监控的主旋律。

在今年举办的华为智慧金融峰会2021上,天旦携手华为发布了《天旦云架构智能业务性能监控方案》,保障企业数据中心业务平稳上云。

关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。