云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

近日,在云智慧推出数据可视化编排平台FlyFish后,又重磅推出开源运维管理平台OMP(Operation Management Platform)。这款由云智慧自主设计与研发,集轻量级、聚合型、智能运维为一体的综合管理平台,具备纳管、部署、监控、巡检、自愈、备份、恢复等功能,可为用户提供便捷的运维能力和业务管理,在提高运维人员等工作效率的同时,极大提升了业务的连续性和安全性。
云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设
文章图片

GitHub地址: https://github.com/CloudWise-...
Gitee地址:https://gitee.com/CloudWise/OMP
为什么云智慧要推出这款功能如此强大的开源运维管理平台OMP呢?让我们来听听该项目负责人云智慧技术总监Simon的心声:“我们想把云智慧在智能运维领域所积累十余年的创新实践经验,以开源的方式赋能给广大的开发者,通过OMP来真正解决运维人的痛点,让运维工作可以更简单与高效,未来我们期望与行业内所有人一起来推动AIOps社区的发展。”
OMP的初衷:切实解决运维痛点 在数字化转型如火如荼的当下,公司项目与产品都在快速迭代升级。这对软件开发者与客户一线驻守的工程师,在快速安装、快速定位、自动分析、监控告警、故障自愈等方面,都提出了新的需求和挑战。
比如当遇到主机登陆不统一的问题时,有的客户允许SSH直连,有的客户需要跳板机,有的客户却只允许显示器操作。产品上线后往往缺少成熟的保障机制,如果没有精准的监控、告警、自愈系统,一旦遇到异常或故障将会非常被动,很难快速解决问题。 甚至在产品根据前期的规划部署后,由于缺少定期的巡检及分析,运维人员难以快速掌握当前业务系统的运行状态及业务处理能力从而给出优化方案。
以上的这些问题是我们经过多方调研了解到运维人员常会遇到的工作场景,以下是我们简单总结的运维痛点:

  • 主机环境多样性,难以统一管理。如混合云、私有云、跨IDC、虚拟化、容器化等;
  • 业务变更难度较大,自动编排能力较低;
  • 业务监控多平台难以实现数据联动;
  • 业务出现异常难以实现故障自愈;
  • 业务运行状态难以进行评估与分析;
  • 运维知识匮乏,缺少专家指导及专家解决方案。
为了切实帮助运维人员解决以上运维痛点,云智慧以降低交付难度与提升产品的可维护性的设计初衷,打造了OMP(运维管理平台),该平台目前拥有主机纳管、应用管理、应用监控、状态巡检等核心特性。
OMP核心特性 主机纳管 可纳管所有主机资源,并实时监控主机运行状态,支持在线管理。
云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设
文章图片

应用管理 提供常用基础组件、应用服务及符合标准的自研产品,支持安装部署、变更发布、弹性扩缩容、在线配置优化等服务状态管理。
云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设
文章图片

应用监控 涵盖标准监控、定制监控、链路监控、智能监控等多种业务场景,可通过大数据智能测算,感知未来趋势,将异常控制在发生前。
云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设
文章图片

状态巡检 定期进行业务指标、运行状态汇总,可按需自动执行并发送报告。
云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设
文章图片

【云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设】以上这些特性设计源自云智慧多年深耕于运维领域所获的创新理念,更有为广大客户提供专业服务的实践经验。OMP优秀的不止有搭载云智慧高精技术与算法的特性,还有核心技术架构。
OMP核心技术架构 如下面OMP架构图所示,OMP前端基于Ant Design设计的React框架,后端使用Django框架,集成SaltStack等组件,实现基础功能。Agent端通过saltstack agent端实现对服务的安装管控,并自研monitor agent实现对数据的指标采集。
云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设
文章图片

其中监控组件采用了当前比较流行的Prometheus、Grafana、AlertManager、Loki等开源产品。在数据储存方面,OMP使用了MySQL存储持久数据,Redis用于存储临时数据、缓存及简单的消息队列。
OMP未来开源计划 在进一步完善OMP技术架构与核心特性的创新实践中,我们也发现仅有这些特性与功能,或还不足以支持广大开发者对运维的所有需求,因此我们仍在持续开源着OMP其他功能,比如以下这些模块,请大家拭目以待的同时,欢迎给我们提出宝贵的开发建议。
故障自愈: 当业务系统出现异常或故障时,按照预定的自愈策略进行故障治理,极大降低故障对业务影响,减少企业损失。
备份/恢复: 针对核心数据进行备份异地并自动执行并发送备份,达到异地+异地的存储效果,使用户数据足够安全。
精简工具: 搭建运维常用工具、命令、脚本、SQL等,降低误操作及技术门槛,可按需自行维护与扩充工具,为日常运维提供便利。
知识文库: 积累运维常用技术、解决方案、业务功能等知识,按需自行维护并扩充知识内容。
小智解答: 当需要如操作文档、解决方案、常用技术等内容时可快速检索,当需要技术支持时,可申请人工支持。
开源社区加速创新 自今年8月份云智慧成立AIOps社区以来,社区先后分享了数据可视化编排平台-FlyFish、云服务管理平台-摩尔平台、Hours算法等产品。其中业内首次开源的智能运维开源数据集-GAIA数据集,填补了AIOps开源集数据领域的空白,FlyFish开源一周便斩获中国开源云联盟2021优秀开源项目奖。
未来,云智慧将在AIOps社区中更加重视OMP的创新与推广,与广大用户、研究者、开发者一起建设和谐、包容、开放的OMP开发者社区。
如果你想面对面与OMP项目的维护者交流,第一时间知道OMP开源的信息,扫描下方二维码,添加AIOps社区小助手(备注OMP)的微信呦~
云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设
文章图片

    推荐阅读