1. 首页
  2.  » 
  3. CLOUD
  4.  » 混合云环境,流量采集与分析监控分开规划是一个好主意吗?

混合云环境,流量采集与分析监控分开规划是一个好主意吗?

by | Sep 13, 2021

随着越来越多企业的数据中心采用混合云架构,如何在跨云环境里实现统一且有效的性能监控成为保障企业业务自主可控的关键。混合云架构包括公有云、私有云以及本地数据中心之间的混合。由于云环境中的主机、容器具备弹性扩缩等特点,跨云环境的流量采集相较于传统环境而言难度陡升,导致部分企业在规划混合云环境性能监控时,将重点过度聚焦在流量采集环节,采用流量采集与分析监控分开规划、部署的方式。

接下来,我们就分开规划可能出现的几种情况展开讨论,分析部署过程中可能面临的问题与难点,并在最后,附上我们对于企业进行混合云性能监控的建议。

第一种情况:流量采集工具存在缺陷

我们都知道混合云环境的性能监控需要经历以下3个步骤:

第1步,即对网络数据的采集、转发与存储由流量采集工具完成。虽然流量采集并非性能监控的核心目的,但是作为性能监控的第一步,全流量的采集、转发与存储,对后续的应用至关重要。然而,并非所有的流量采集工具都能实现全流量的采集、转发与存储,它们可能会在不同环节出现不同问题,譬如流量采集不全、无法真正实现全流量的转发与存储等

  • 全流量采集,不全

混合云环境的流量采集一般通过以下三种方式:

第一种:在业务虚拟机内部署微探针采集业务流量;

第二种:通过虚拟交换机,经OVS SDN引流,将业务流量从SDN引出;

第三种:在宿主机或容器节点中创建独立的虚拟机或容器部署旁路探针。

一般情况下,通过以上三种形式可以获取较全的网络流量。但是,由于云管平台的存在,部分流量采集工具会将云管平台内的所有资源进行无差别、无筛选采集。这样做看起来流量采地更全了,但却对后续应用无任何帮助,相反会占用资源、消耗性能;此外,还有部分流量采集工具在流量采集结束后,直接进行预设的分析与处理,导致在应用分析环境发现数据指标不全,即使进行全量的转发与存储,后续也无法进行全量数据的追溯分析

  • 无法全量转发与存储

全流量的转发与存储十分考验流量采集工具的性能。一旦进行全量数据的转发与存储,流量传输的性能会受到严重影响,因此部分采集工具会选择性地转发与存储流量。就目前而言,仅有少量技术成熟的性能分析厂商可以做到。

第二种情况:分析监控工具存在缺陷

尽管流量采集、转发与存储是性能监控的前提条件,对数据指标的深度解析与分析应用才是混合云环境性能监控的根本能力。在流量采集的过程中,流量采集工具通常可以通过网络流量粗略计算部分TCP流级别的网络统计指标,但是这些指标并不能反映网络的健康状况。因此,即使流量采集工具再完美,分析监控工具不具备对网络数据指标的深度解析能力与根因分析能力,依然无法做好性能监控

1、不具备“高层指标”的深度解析能力

“高层指标”,即网络指标、应用指标、业务指标。这三类指标构成了性能监控指标的不同层级,也是进行网络性能监控与应用性能监控的关键。从网络性能监控的需求来看,需要会话级别的网络指标与全量的原始数据包;从应用性能监控的需求来看,需要对数据包的payload做解析、关联和统计。因此,如果分析监控工具不具备对各个层级“高层指标”的深度解析能力,流量采集工具的性能再好也于事无补。

(性能监控指标的不同层级)

  • 网络指标的深度解析

网络指标的深度解析需要利用多种应用识别技术,对网络指标进行识别与收集,同时进行指标计算与性能测量,最终输出性能时间和指标至控制器,进行自动化调整与优化。

  • 应用指标的深度解析

应用指标或者说业务指标的深度解析需要强大的协议解码能力。通过对应用或者业务架构进行有效梳理,从而辅助后续的原始数据包分析。

2、缺少原始数据包分析与根因定位能力

原始数据包分析与根因定位能力是排查问题、解决问题的关键,也是分析监控工具最核心的功能。由于原始数据包分析技术可以自动梳理流量、IP地址、应用、会话等信息,并基于流量全路径构建完整的访问视图,因此一旦缺失此项能力,就无法快速发现故障、定位故障,性能监控失去了最基础的价值与意义

第三种情况:选择了最优秀的流量采集工具+分析监控工具,是否可以高枕无忧?

  • 即使流量采集工具性能稳定,分析监控工具功能强大,我们仍然不能完全保障性能监控可以达到预期目标。这是因为在具体的实施过程中:一是两种工具存在适配与兼容问题;二是适配成功后,还需要保障在长久的使用过程中两种工具持续性能稳定不出错、一旦出现问题双方的售后服务都能无障碍协作;三是即便以上问题都能得以解决,也必将以高昂的成本为代价。
    • 对接与兼容性问题来自不同厂商的流量采集工具与分析监控工具,尽管在各自领域功能强大、性能领先,一旦适配就可能引发多种问题。首先,如果两种工具产品采用不同的数据封装格式,那么流量的承接就是首先需要解决的问题;其次,如果两种工具产品采用相同的数据封装格式,流量承接的压力会减少,但是如何保障跨云环境的时间同步仍面临极大挑战;再次,全流量的数据分析对于性能监控十分重要,即便两种工具可以实现理想状态下的完美对接,也无法保障全流量的承接。
    • 售后支持与故障鉴责任何一款成熟的工具/产品都会存在技术创新与版本迭代问题。与客户而言,完善的售后服务极为重要。当流量采集工具与分析监控工具部署在客户侧后,一旦业务运行出现问题,如何快速定位问题与鉴责就成为解决问题的关键。但如果一发生故障,两种产品的服务团队各自为阵、或者互相推诿,会对客户的运维工作产生极大的负面影响。
    • 成本较高我们相信,两种在各自领域成熟、功能强大的产品,在完美适配的同时,拥有及时、高效的售后服务团队,其项目成本一定不会太低。

建议:混合云环境,流量采集与分析监控统一规划

  • 保障业务稳定高效运行,是混合云环境性能监控的核心目的之一。端到端、全链路的性能监控是保障业务稳定运行的关键。无论是传统环境,还是混合云环境,全链路的性能监控都须要构建统一的全业务路径,集流量采集、转发、存储、指标解析、数据包分析于一体,实现全流量采集与分析监控的统一规划与部署

    统一且成熟的性能监控方案除了可以实现全链路监控外,还可以规避适配对接、故障鉴责等一系列问题。当流量采集与分析监控都以最终应用为目标时,在技术更新、产品迭代的过程中仍然以实现整体业务目标为导向,可以减少多供应商之间无法充分协作问题的出现。同时,统一的部署方案搭配统一的售后支持团队,一旦发生故障,可以快速定位故障节点,即刻解决问题。除此之外,统一实施也能在一定程度上降低项目实施的成本与落地风险。

关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。