1. 首页
  2.  » 
  3. 新闻中心
  4.  » 钢琴键与四宫格,科技与艺术碰撞出BPC精准告警的火花!

钢琴键与四宫格,科技与艺术碰撞出BPC精准告警的火花!

by | Jun 17, 2021

“一切有机体和无机体,一切有形的和形而上的,一切人类的和超人类的东西,一切内心和精神真正的表现形式,都有一个普遍规律,那就是形式总跟随功能。”

——沙利文(美国著名建筑师)

19世纪末,“形式追随功能”的理念出现在建筑设计领域并在社会上广泛传播;20世纪初,洛威提出了“MAYA”(最先进但可接受)理论,认为非常新的技术,应以尽可能熟悉的形式呈现;进入21世纪,软件工程领域出现敏捷开发,认为结构(形式)从实际功能中产生。人们围绕需求、功能与设计三者间的关系争论了数百年,从形式至上、功能至上,到以人为中心,逐渐意识到产品的本质是满足人的需求。

索尼的创始人盛田昭夫先生曾说:“产品的好坏是由用户来决定的,制造商无法评估。”对于产品使用者而言,用户体验即为产品好坏的标准之一。精准告警作为天旦业务性能管理BPC的核心功能和特性,备受用户喜爱。从告警的需求调研、告警的指标设计再到告警形态的呈现,天旦BPC精准告警的背后是一套精准的、以用户为中心的设计思路与理念。

Q1:精准告警的需求从何而来?

A:洞悉运维挑战

金融机构是天旦BPC应用较早且应用规模较大的用户客群。相较于其他行业而言,金融行业的信息系统容灾建设标准极为严格:

  • 2008年,人民银行发布《银行业信息系统灾难恢复管理规范》,要求一类系统RTO<6小时,RPO<15分钟;二类系统RTO<24小时,RPO<120分钟;三类系统RTO<7天;

  • 同年,保监会发布《保险业信息系统灾难恢复管理规范》,要求一类系统RTO<36小时,RPO<8小时;二类系统RTO<72小时,RPO<24小时;三类系统RTO<7天,RPO<24小时;

  • 2011年,银监会发布《商业银行业务连续性监管指引》,原则上要求重要业务恢复时间目标(业务RTO)不得大于4小时,重要业务恢复点目标(业务RPO)不得大于半小时;

  • 2012年,证监会发布《证券期货业信息安全事件报告与调查处理办法》进一步划分了证券期货行业信息安全事件等级,明确了证券期货机构报告信息安全事件的义务。

由于金融行业信息系统容灾建设指标严苛,信息系统的稳定性显得尤为重要。于是,如何通过精准告警及时发现业务系统、应用指标异常,成为金融机构应对强监管的内在需求。

Q2:精准告警的黄金指标从何而来?

A:以业务为中心的监控视角

鉴于监控指标与监控意图的差异,应用性能监控产品的告警逻辑也不尽相同,一般被分为两类:一类被称作“自下而上”式的告警:在数据包头等底层数据中设计告警点,再向上排查应用与服务的利用率等,最后锁定哪些业务出现异常(譬如DNS错误、响应时间慢)等;另一类则被称作“自上而下”式的告警:通过监测业务的应用节点与部分网络节点,设定上层聚合数据的告警指标,从顶层的业务问题出发深入钻取底层数据。由于底层数据误告量大、不易排查,“自下而上”式的告警既耗时又不精准,无法满足金融行业告警准、故障恢复快的监管需求;而“自上而下”式的告警设置可以在系统或服务发生故障的瞬间快速告警,在以业务为核心的运维体系架构中显得尤为重要。

基于强监管对信息系统稳定性的要求,“自上而下”式的告警不仅要快,还要精准。由于数据中心对应用服务负载量、业务健康度以及客户体验极为关注,选择哪些告警指标直接反映以上信息成为关键。通过大量的客户走访与现场调研,天旦的产品专家发现交易量与应用服务负载、交易响应率与业务健康度成正比,交易响应时间与客户体验成反比,并基于金融行业属性,横向比较分析Google黄金指标与RED指标,最终将交易量、响应率、响应时间、成功率与返回码作为天旦BPC的五大黄金指标。

Google   黄金指标

  • 延迟:服务请求响应所需的时间。
  • 通讯量:监控当前系统的流量,用于衡量服务的容量需求。
  • 错误:监控当前系统所有发生的错误请求,衡量当前系统错误发生的速率。
  • 饱和度:衡量当前服务受资源负载量的影响。

RED指标

  • (请求)速率:服务每秒接收的请求数。
  • (请求)错误:每秒失败的请求数。
  • (请求)耗时:每个请求的耗时。

由于天旦BPC在技术上采取“自上而下”式的监控与告警方式,通过关联分析拥有从跨业务条线的宏观业务分析到微观数据包透视能力,端到端的监控视角覆盖让BPC具备对业务应用层数据的深度解析能力。同时,由于BPC采用网络数据作为数据源,通过互联数据技术统一不同应用组件之间不同的“语言”,以业务为导向,统一监控视角、关联业务环节、统一时间戳,充分保证告警指标分析的精准性。

Q3:钢琴键与四宫格从何而来?

A:以用户为中心的设计理念

无论是告警亦或其他功能,产品究其根本是要为使用者赋能,而产品好用、易用则是有效赋能的前提。因此,尽管人们常说形式总是追随功能,好的设计形态在某种程度上却能为功能加分。

用钢琴键代表时间,用四宫格呈现业务关键指标,是天旦BPC精准告警功能的关键设计形态。那么,为什么1个钢琴键代表1分钟?为什么要用四宫格呈现业务运行状态呢?这两个问题背后是天旦以用户体验为中心的设计理念。

为什么1个钢琴键代表1分钟?

金融客户是对业务监控起步早、要求高的典型行业,也是天旦BPC从设计之初到稳定成熟过程中非常重要的用户群体。在BPC的萌芽时期,我们与非常多的金融客户进行了交流与沟通,发现告警的精准度是一门非常重要的课题。

首先,形态设计是为解决功能实用的问题。为了让用户实时感知业务运行的状态,同时又能让重复、紧张的工作尽可能优雅而放松,天旦的产品专家们别出心裁地选择了用钢琴键来代表时间。BPC将一段时间具象为由1分钟片段组成的时间线,通过不同的颜色表达业务状态。当使用者在与信息交互的过程中通过鼠标在钢琴键上移动,时间轴的钢琴键就会平滑过渡,就如同弹奏钢琴一般。但鼠标聚焦到某一个具体的时间片段,琴键随即放大。每一个细微的设计,都是确保用户能够精准获取信息的用心。

其次,采用分钟级的告警设置是为了满足告警实时性与精准性的需求。拿金融领域来说,一方面,无论是金融监管还是数据上报,通常都将分钟作为数据颗粒度规范;另一方面,基于大量金融客户的项目实践,天旦发现使用告警颗粒度过小,告警数量会海量增多,但往往告警事件是重复的;而使用告警颗粒度过大,告警则不及时、甚至出现错漏和滞后。因此,综合金融行业特性与其他各个行业客户的需求与实践,天旦的产品专家最终决定将1分钟设为告警颗粒度,也就意味着1个钢琴键代表1分钟。那么BPC支持秒级颗粒度的告警吗?那是肯定的。比如每年双十一的重保项目,天旦BPC将根据客户需求,将告警的颗粒度精确到秒级,以此保障11月11日0点后的每一秒都尽在掌握。

尽管分钟级的阈值告警可以解决大部分情况下的业务保障需求,但对于某些行业的运维场景来说,依然存在问题。譬如券商的股票交易,由于证券交易比其他金融交易实时性要求更高,当某类特征出现,即视为异常或者故障发生,比如可以将告警的触发条件定义为在1秒内连续出现10次特定事件等等。由此,天旦BPC诞生了第二类告警模式——根据事件特征告警。

业界首创的四宫格展示告警黄金指标

基于以业务为中心的监控视角,“黄金指标”可以让所有专业人士都能看懂业务的运行状态。但站在以用户为中心的设计角度,让使用者专注于指标和组件本身,清晰、直观、迅速地掌控每一项指标可以创造更好的用户体验,为精准告警功能加分。为此,天旦的产品专家与用户体验设计师进行了大量分析、假设、实验与验证,最终诞生了业界首创的四宫格。

四宫格展示的灵感源自天旦联合创始人&首席产品官贺晓麟先生在纽约的现代艺术博物馆的一次参观。在展览中,有一张图呈现了当时美国的地理、人口等信息,通过方格形式清晰的展示指标,再将四个方格组成网格,与应用组件及网络的概念不谋而合。这让我们发现呈现最关键的信息,不在于全、而在于让观看者准确地获取最关键的信息。再放眼观察生活中无处不在的信息导览牌、高速公路指示牌、交通引导符号等。最终结合快速获取告警信息的用户需求与现实的IT环境,设计出了经典的四宫格。

BPC产品“精准”的特性,源于对用户需求精准的理解与产品精准的设计。从金融强监管中洞察精准告警的需求,从功能设计中呈现精准的告警指标,再站在用户体验的角度设计出钢琴键与四宫格,“精准”一词贯穿于天旦BPC产品功能设计的始终。除精准告警外,天旦BPC还有许多备受用户喜爱的产品功能与设计,以人、服务为中心的理念让天旦在创造软件产品的过程中既能理解用户痛点,又能精准地帮助用户使用产品,实现产品功能价值与用户侧价值的统一。

– end –

凝心聚力、志在四方,天旦荣获“华为FPGGP 2022年度最佳贡献奖”

天旦获得华为的高度认可,荣获华为“2022年度FPGGP最佳贡献奖”、解决方案开发基金&营销基金等多项殊荣。

天旦出席全球智慧金融峰会2023,AIOps为智慧金融注入新活力

出席华为Gauss生态圈发布、携手发布“分布式新核心全链路智能运维联合解决方案”,天旦全方位亮相华为智慧金融峰会2023。

天旦出席华为亚太合作伙伴大会2023

5月17日,华为亚太合作伙伴大会2023正式开幕,天旦受邀出席亚太合作伙伴联盟发布仪式,并发表圆桌演讲。

关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。