高效实践|运维指标体系在银行业务的应用实践
背景
银行 IT 系统在云化、容器化、中心化、微服务等架构迭代演化进程中,系统架构和业务调用关系复杂,运维管理难度日益凸显。银行业务系统多采取烟囱式建设方法,数据互通困难,运维团队无法做到及时响应、及时发现并解决问题。目前,银行业整体上已具备结合业务场景收集比较完整的 IT 指标数据的能力,亟待一套指标数据分析体系为 IT 管理与业务分析提供可量化、可视化、集约化的决策支撑。然而,中国银行业在实践指标管理体系的过程中会遇到以下几方面的挑战:
- 统筹全局运维数据源的挑战
此外,对于单个业务部门的指标数据,可以依赖个人对业务场景的经验快速作出判断并应用于 IT 运维管理工作。但银行系统时时刻刻都会产生海量的指标数据,IT 管理人员无法判断指标数据对于业务的重要性、优先级,更无从下手梳理指标数据与业务的关联性,从而无法聚焦某个业务场景内的指标数据,导致指标数据无法发挥出其潜在价值。
- 持续创新智能算法库的挑战
- 跟跑智能运维新理论的挑战
银行指标管理体系落地实战
一套完善的指标管理体系应基于企业业务和 IT 运维管理的顶层规划,将各个业务系统的孤立数据进行分类、分层管理,从而通过更系统、更有层次的方式来展示业务场景的指标数据,使之成为以数据为驱动、面向业务运维监控与管理的落地抓手,让 IT 管理员能够将繁杂的 IT 管理工作升维从简,在改善 IT 管理方式的同时提升企业整体的 IT 运营效率。
文章图片
01 落地实施方案
某银行指标管理体系的实施落地项目基于顶层指标管理驱动,从业务视角切入,以业务场景为主题、以业务连续性为宗旨,通过直面业务场景、正向梳理 IT 调用链、逆向接入数据源等实施步骤,最终构建了一套具备概览所有业务场景健康度、俯瞰多维立体化 IT 指标等能力的指标管理体系。
首先,从银行的核心业务场景开始,通过专业运维数据库平台对应用系统的 IT 数据源及业务数据源进行统一数据采集、指标提取和数据存储;之后,针对银行业务的特点及业务部门的需求,进行指标管理体系咨询、调研,对IT 数据和业务数据进行指标梳理和方案建设,形成指标规范与实施制度;然后,结合指标规范与实施制度进行指标体系管理,最终以功能模块及平台模式的方式完成该银行指标管理体系的建设。同时,根据银行业日常运维场景,在指标管理体系平台的上层应用中实现工作台、可视化管控和AIOps等功能模块的落地。
文章图片
02 指标体系建设
- 业务调研:聚焦业务场景、梳理业务指标
文章图片
- 数据接入:拓扑 IT 调用链、度量技术指标
文章图片
上述各层的技术指标都是一条独立的实时序列数据流,通过银行自动化配置平台的配置项数据建立各层技术指标之间的调用链拓扑关系网,示例如下:
文章图片
- 模型配置:量化业务关注度、建模指标健康度
例如,柜面存款是最核心的基础业务系统,需要从生死线指标、关键指标和标准指标三个维度对柜面存款业务的健康度进行模型配置:
文章图片
- 柜面存款的生死线指标:交易成功率;体现业务可用性的单个指标。
- 交易成功率的计算方式:单位时间内的交易成功数除以相同单位时间的交易总数。
- 柜面存款的关键指标:请求成功率、平均响应时间;直接影响业务态势的一组技术指标。
- 指标解读:当成功率低于预期阈值时,直接说明终端用户在使用柜面存款功能时,业务操作频繁失败,进而影响用户的使用体验,导致客户流失率提升。
- 柜面存款的标准指标:内存使用率、CPU使用率;与业务态势相关的单个监控类技术指标。
- 指标解读:当主机层物理资源的 CPU 使用率、内存使用率突升时,可能会引起 IT 应用系统单节点的不稳定,但在微服务化、分布式架构的背景下该风险不会蔓延影响到业务层。
经过定义健康度、设置权重后,建立起覆盖柜面存款业务的健康度模型,示例如下:
文章图片
文章图片
- 全局概览:工作台概览业务场景、应用墙俯瞰指标态势
- 业务部门的运维视角
文章图片
业务视角-业务子系统依赖拓扑图
文章图片
业务视角-业务子系统运维态势深度分析
- 技术部门的运维视角
文章图片
运维视角-应用系统的立体拓扑图
文章图片
运维视角-实例对象指标态势的深度分析
总结与展望
上述银行指标管理体系实战取得的成果可归纳为如下两方面:
- 通过分层串联调用链的立体化构建理念增强了运维流程的完整度:打通了 IT 运维流程各层级应用系统的调用关联,做到端到端覆盖,保障 IT 系统运维连续性、提升整体系统运维效率。
- 通过结合业务与运维的拓扑可视化设计理念提升了业务运维效率:提高了业务黏合衔接运维的透明度,基于度量驱动流程进行优化,从而建立高效协作、高度授权和持续改进的组织文化。
开源福利 现如今,云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时, FlyFish也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
点击下方地址链接,欢迎大家给FlyFish点赞送 Star。参与组件开发,更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-...
Gitee 地址:https://gitee.com/CloudWise/f...
万元现金福利: http://bbs.aiops.cloudwise.co...
微信扫描识别下方二维码,备注【飞鱼】加入AIOps社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~
【高效实践|运维指标体系在银行业务的应用实践】
文章图片
推荐阅读
- 技术书籍推荐|技术书籍推荐1(Java并发编程的艺术、深入浅出MyBatis技术原理与实战、RabbitMQ实战、微服务架构与实践、架构探险:从零开始写分布式服务框
- 一起玩转树莓派(22)——DS1302硬件时钟实践
- #yyds干货盘点#MySQL主从复制原理分析与实践
- 服务API版本控制设计与实践
- #yyds干货盘点# NGINX架构安装
- Prometheus监控运维实战十八( Alertmanager集群)
- 开源IT服务管理工具iTOP安装实践
- 高效采集数据的背后都有一个DTM
- #yyds干货盘点# Selenium Web端自动化从入门到实践
- 初步配置linux服务器注意要点!!!