银行智能运维解决方案

基于网络互联数据,构建全网视角的智能运维方案

银行业智能运维挑战升级

银行线上应用的快速发展,导致整体业务的复杂度逐年加大。

云原生架构正被越来越多的银行客户所采纳。现有IT环境加上云原生环境将会在一段历史时间内共存。在云原生环境下,原有单体应用被拆分为多个微服务,更多的服务间调用依赖于网络,在网络中将传送更多有价值的互联数据,与此同时运维难度也进一步加大了。

提升运维管理效率是保障业务稳定的基础,及时告警、精准故障定位是提高排障效率的前提。

传统的监控方式由于采用不同的数据源,造成监控指标不统一,对快速定位问题、主动排查故障造成干扰。网络互联数据可以为客户提供全网视角的统一化监控指标。因此,拥有全网关键节点网络互联数据的采集能力,才能实现业务指标、网络指标的智能分析。这将是未来银行业智能运维领域领先者的必备能力。

银行业运维面临三大挑战

如何及时发现故障?
如何快速定位故障?
如何实现准确的容量管理?

全网视角采集网络互联数据

云环境、传统环境数据采集方式

采用成熟可靠的交换机镜像、智能分流器,配合先进的云网数据采集技术获取真实业务在各个流经关键节点的网络原始流量。

按阶段完成全网数据采集

  • 数据中心: 双中心或两地三中心或多中心全网数据采集,每个中心的采集区域要包括互联网、外联网、广域网、核心网、服务器区等区域关键节点的网络交换机及宿主机虚拟交换机上交互的互联数据。
  • 分支机构:分行、支行、网点等区域关键节点的网络交换机及宿主机虚拟交换机上交互的互联数据。

智能运维分析平台生成指标数据

通过高性能高可靠的物理网络探针获取真实、准确的网络原始数据包,并运用数据加工引擎将捕获到的原始网络数据转化为准确的指标数据,通过智能运维分析平台对数据进行分析及呈现。

基于互联数据,应对三大运维挑战

智能告警

 

  • 服务水平监测:即阈值告警,用于对业务应用有明确服务水平要求的场景。

  • 可用性监测:针对诸多业务量小、不连续的业务场景,用于监测指标震荡或持续无业务的场景。

  • 异常监测:即智能基线算法,用于监测有规律性重复的业务行为。

  • 突发变化监测:用于监测日常无规律小幅波动属于正常的业务,但大幅波动诸如连续的上升/下滑属于异常。

  • 紧急事件监测:用于监测特定字段值,这些字段值表征明确的关键/严重事件发生,需要更快的发现和作出响应。

智能故障定位

 

智能故障定位的前提是要满足获取到所有关键路径上的关键设备的网络原始数据包,结合逻辑运算自动定位根因节点,快速界定故障问题范围:

  • 是应用问题,还是网络问题?
  • 是运营商线路问题,还是用户数据中心内部问题?
  • 是分行网点问题、分行上联数据中心问题、还是数据中心内部问题?
  • 是银行自建权威DNS问题、负载均衡问题、还是防火墙问题,还是WAF问题?

定位到根因节点后,可以一键生成根因分析报告,获得分析结论。

智能数据分析

 

基于真实、准确的业务层指标数据、网络层指标数据,通过启发式的视图自定义模块,运维人员可以轻松上手,快速构建业务场景、运维场景等分析视图,成为专业互联数据分析师。

典型使用场景

分行线路带宽容量管理

分行有N条连接各个网点的专线线路,包括业务专线、物联网专线等。专线使用费用是一笔不小的开销。 通过定期对专线线路的使用情况进行统计分析,能够合理提出每条专线的扩容或缩容的建议。

秒杀活动容量预估

银行业在做理财促销、纪念币抢购、双十一、双十二等活动时,业务交易量和网络流量都会出现数倍量级的增加。 通过对选取特征、建立模型、历史数据的收集,可建立容量预估模型,在每次活动之前做好容量规划。

关键业务全链路压测

由于在所有关键路径的关键设备上已经部署了数据采集点,所有关键路径上各个组件的业务层指标数据、网络层指标数据都在BPC与NPM上统计分析,为全链路压测所需要呈现的指标数据,做好了覆盖所有组件的监控准备。

联系我们

在线咨询

 马上与我们的销售代表取得联系,
了解更多天旦产品性能以及如何提升您的业务。

或通过以下方式联系我们

微信公众号