数字化时代,如何做好用户体验与应用性能管理
云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps 开发者生态。引言 随着数字化时代的到来,各个行业的应用系统从传统私有化部署逐渐转向公有云、行业云、微服务,这种变迁给运维部门和应用部门均带来了较大的挑战。基于当前企业 IT 运维均为多部门负责,且使用多种运维工具,因此,当业务出现问题时很难快速定位故障根源。而随着业务上云,云平台运维和应用运维的责任归属不同,业务方(租户)只负责云平台之上运维,若是要对业务体验全链路负责,就会导致有责任没手段。同时,容器微服务架构应用后的业务之间的访问关系更加复杂,也会产生应用出现故障后分析困难等问题。基于以上的背景,企业数字化时代应用的健康诊断变得至关重要。
问题及挑战 如下图,当代码量的增长达到100倍,故障被企业 IT 部门察觉前已由用户申报达到80%时,作为企业会非常被动。用户对服务超时非常敏感,当5秒打不开应用时便会直接选择放弃。同时,用户对故障解决时效要求也比较高,75%的用户希望在5分钟内解决业务故障,而业务系统需要超过24小时才能解决的故障占比在25%左右。
文章图片
应用是一个端到端的多技术栈复杂整合环境,用户端包括移动端、浏览器、小程序,网络层包括路由器、防火墙和负载均衡等,后台支撑应用包括中间件、数据库、主机、MQ等。所以如何去高效精细化的实现整个应用端到端的全链路性能问题洞察和诊断、快速找到故障的边界、以及特别是VIP用户出现性能问题如何快速追踪。这些应用的复杂度是企业运维部门和业务部门都需要考虑的问题。
文章图片
传统的监控工具早已无法满足当前企业面临的问题。因为一个应用会涉及到数据库、第三方的API 调用、应用服务器、中间件、Web、网络层等多个链路,因此,当系统慢是无法快速定位就是是拿个环节、组件以及指标导致。日常企业去判断上述问题时,会需要网络团队、开发团队、数据库团队、基础设施团队等多方协助排查,且排查效率较低。
文章图片
解决方案与功能场景介绍 基于以上问题与挑战,云智慧提供了全新一代架构的应用性能管理解决方案。以提升数字化用户体验,帮助企业实现数字化转型赋能为目标,提供了web用户、移动用户、主动拨测、压力测试前端侧性能监控,同时贯穿网络层到后端各个组件的全栈一体化性能监控方案,包含Web服务器支持IIS、Nginx等。此外,应用后端支持市面上主流的开发语言以及微服务容器架构,基于Smart Agent的探针技术,部署在容器宿主机上就可以自动发现容器内部应用拓扑关联关系,实现整体的业务关联快速分析和根因快速诊断。
文章图片
产品技术架构 下图为产品整体的技术架构,主要是分三层:
- 数据采集层:APM产品支持市面上比较主流的开发语言,如Java、PHP、Python等。APP端支持 android 和 iOS 等各种版本。依赖主动拨测,基于全球IDC实现Monitor数据监测。
- 数据存储层:采集到的数据统一放到产品的数据存储层进行数据存储。云智慧产品基于列式存储的技术,在各行业项目上经过大量数据实践,可以实现秒级查询和展示。
- 数据分析与展示层:该层主要提供了具体产品的相关功能。包括拓扑展示,请求分析、用户追踪,代码堆栈详情分析,网页性能分析,页面响应时间分析、可用率分析等相关功能。
文章图片
监控宝:7*24小时主动IT性能监控 云智慧拨测产品监控宝提供7*24小时主动IT性能监控;产品在全球范围内大概有 300 家的 IDC 节点,提供 800 家的服务器,IDC数量决定了数据反馈的全面性,可以有效保障业务在全球的用户体验;国内节点覆盖30多个省份和100多个城市和地区,更能精准的定位问题所在区域。此外,也较为全面的覆盖了多个运营商,包括移动、联通、电信、教育四大运营商。以上三个维度,可以看出云智慧监控宝产品可以为各行业企业提供业务保驾护航的能力。
监控宝平台支持的协议包括http/https、ping、DNS、ftp、traceroute等,支持协议类型种类丰富,满足企业多方面使用需求。功能包括网页性能诊断、CDN评估效果、网络质量探测、网站访问速度、接口服务可用率等。同时,整个产品支持多页面脚本录制,方便企业在大型网站上提供多页面监控能力,以及能够快速发现深层次的页面性能问题。
文章图片
透视宝:端到端全链路应用性能诊断 云智慧APM透视宝产品提供端到端全链路的应用性能诊断。用户体验端包括APP、浏览器、小程序的全栈性能分析和性能探测。后端支持应用拓扑的发现和代码质量的追踪,真正做到端到端一体化,实时掌握前端、透视后端,实现全业务链环节问题监控与分析。
下图为透视宝产品的技术实现原理, APP 端通过嵌入 SDK 实现用户行为和 APP 崩溃卡顿数据的抓取;浏览器通过页面嵌入 JS 方式实现页面详情的分析;主机操作系统通过部署 agent 实现 cpu、内存、网络、io等指标监测;应用后端根据不同开发语言部署不同的探针,在中间件启动脚本里注入参数,重启应用后就可以实现数据的采集,小程序通过mini agent抓取相关数据。
文章图片
应用场景介绍
- 业务服务持续监测与告警
文章图片
- 内外网及网络专线质量监测与告警
文章图片
- 网页用户体验分析与持续优化
文章图片
- 业务流程监测与优化
文章图片
- 应用拓扑自动发现与监控
随着企业应用上云和容器微服务化,应用之间调用关系愈来愈复杂。全局拓扑自动发现与监控是通过将复杂的请求调用关系拓扑图化来帮助运维人员和业务开发人员快速定位性能问题。产品可以直观的通过颜色变化分辨出是缓慢问题还是错误问题。同时拓扑上能发现各个组件的调用情况以及自身应用访问的组件,数据库、MQ、Nosql 和 API 接口情况。此外,通过拓扑可以直观的判断是自身应用问题还是其他应用性能导致的间接问题。此外,产品提供类似时光机的回溯功能,选择一定时间范围可以统计请求次数,缓慢次数、非常缓慢次数和错误次数。
文章图片
- 应用性能问题及故障快速诊断
第二个场景是应用性能问题及故障快速诊断,使用人员通过拓扑发现问题后需要第一时间定位问题,产品提供简单直观的操作界面,在拓扑图上点击应用实例就可以快速跳转到详细问题分析界面,比如上面截图的内容,可以看到后台代码堆栈追踪,慢SQL语句、外部接口详情、自身耗时、请求参数等详细分析问题的指标,性能问题一目了解,问题定位运筹帷幄。
文章图片
- 端到端全链路性能问题追踪
文章图片
案例分享 某银行部署了 APM 整套产品,实现了应用后端整体性能监控,探针数量115个、接入应用数量225个、日均业务请求量1500tps、日均应用请求的落盘数据量150G左右。截止到现在平台稳定7*24小时运行、探针对业务系统资源占用率控制在3%以内。在大量请求并发的情况下,云智慧基于列式存储的技术架构,也能实现页面妙级查询和妙级响应。
文章图片
写在最后 近年来,在AIOps领域快速发展的背景下,IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需求在各行业迸发。基于此,云智慧在2021年8月发布了AIOps社区, 旨在树起一面开源旗帜,为各行业客户、用户、研究者和开发者们构建活跃的用户及开发者社区,共同贡献及解决行业难题、促进该领域技术发展。
社区先后 开源 了数据可视化编排平台-FlyFish、运维管理平台 OMP 、云服务管理平台-摩尔平台、 Hours 算法等产品。
可视化编排平台-FlyFish:
项目介绍:https://www.cloudwise.ai/flyF...
Github地址: https://github.com/CloudWise-...
Gitee地址: https://gitee.com/CloudWise/f...
行业案例:https://www.bilibili.com/vide...
部分大屏案例:
文章图片
请您通过上方链接了解我们,添加小助手(xiaoyuerwie)备注:飞鱼。加入开发者交流群,可与业内大咖进行1V1交流!
【数字化时代,如何做好用户体验与应用性能管理】也可通过小助手获取云智慧AIOps资讯,了解云智慧FlyFish最新进展!
文章图片
推荐阅读
- k8s集群Job负载|k8s集群Job负载 支持多个 Pod 可靠的并发执行,如何权衡利弊选择适合的并行计算模式()
- 不归路之Python|什么是计算机网络(为什么需要网络通信?如何进行网络编程?)
- 历史上的今天|【历史上的今天】3 月 18 日(香农发表划时代论文;微软发布 IE5;早期计算设备先驱出生)
- sd卡有多个android文件夹|sd卡有多个android文件夹,android - 如何adb拉出SD卡中存在的文件夹的所有文件
- 纯后端如何写前端(我用了低代码平台)
- Re:《Unity|Re:《Unity Shader入门精要》13.3全局雾效--如何从深度纹理重构世界坐标
- 如何设计信息安全领域的实时安全基线引擎
- Python中如何处理常见报错
- 避免数字化转型失败的3大破局思路和4点建议 | 亿信华辰推荐
- Angular如何在跨字段验证器中直接调用其它独立的验证器