云服务|深水区:IT运维增速超11.7%,龙头凸显,留给新玩家的时间不多了( 五 )


“现在做AIOps的公司很多,概念已经被泛化了,真正的AIOps是把机器学习的算法用在运维数据的分析上 。斯坦福大学教授、机器学习权威吴恩达在今年提出了著名二八定律:80%的数据+20%的算法=更好的AI 。我比较认同这个看法,AIOps首先做好数据治理,否则就是空中楼阁 。”日志易创始人陈军介绍,日志易有一个数据工厂,专门做数据治理 。
日志易在2020年初推出了基于日志、指标数据、调用链追踪的可观察性产品‘观察易’,并把机器学习算法用于可观察性分析 。有数据做支撑,场景算法可以不断地衍生进化,日志易SPL也提供了几十种经典机器学习算法做更灵活的分析探索 。 
日志易的特点是,自主研发了国内首个高性能高可用性的日志搜索引擎Beaver,每天可处理PB级日志,相比通用开源搜索引擎来说,Beaver性能提升了10倍且硬件成本降低了50% 。此外,日志易自研的低代码编程语言SPL(Search Processing Language)已实现了300多个函数及指令,全面覆盖智能运维分析和安全分析工作需求,对接了后台几十种机器学习算法,实现了智能运维AIOps 。
西骏数据CEO何泽松提出了4个挑战:第一个是没有大数据平台的支撑能力,当客户的各种结构化、非结构化的运维数据被采集的时候,运维平台到底有没有自主能力提供高性能的处理?
第二个是大量异构的数据来源和数据类型,如何采集?已经采集的数据如何进行数据清洗处理?因为每个客户使用的监控工具都有非常大的区别 。需要通过低代码的支持去实现数据的采集和接入,有效地降低在数据采集方面定制化开发的工作量,缩短交付时间 。
第三个是涉及到算法的实时化以及框架化如何处理?通过静态历史数据构建算法模型的方法在实际应用过程中会由于用户的参数调整、系统升级等原因而失效,这时静态算法模型的预测效果就非常差 。
“在实际运维中,经常出现人为操作、业务异常导致采集的数据出现较大异动,使用静态模型预测就好比我们拿一个高速公路的交通数据建模来预测市区的交通情况,差异会比较大 。这就要求我们能够实时根据用户的需求构建模型、进行调参,支持多种算法偏好,并且能帮用户实时分析评估不同算法的预测结果 。”何泽松介绍了三个纯技术性的难题 。
第四个是管理上的难题,客户在尝试AIOps之前已经有很多的运维监控工具,甚至已经投入了几千万、上亿的成本,如何能保证一个新生的AIOps系统,就一定比运行了5年10年的监控系统更有用?这就需要AIOps平台不仅能够采集数据、分析数据、展现结果,还要反向赋能 。
“西骏数据的AIOps是赋能平台,帮助客户更好地使用原来的监控系统、日志分析系统,把我们的分析结果给原来的监控系统分享过去,让客户的监控工具更安全和智能 。与原来的系统变成一种共生关系,而不是替代的关系,这样才能让客户已有的投资保值增值 。否则AIOps在客户那边只能唱独角戏,收获大片的反对声音 。”何泽松说道 。
此外,多位受访人还对第一新声表示,AIOps落地过程中还存在其他的挑战 。
例如擎创科技CEO&创始人杨辰指出,客户群体的成熟度还有待提高,即客户的运维理念、运维管理方式要改变,公司引入的不仅是一款智能运维产品,实际上是引入一种运维观念 。转变就是从原来的监管控体系的传统经典的ITOM的产品演进到以数据来推动运维 。“因为智能运维的本质就是IT运维行业的数字化转型,就应该更理性的去规划建设路线,根据目前的数据条件,然后有序的去治理数据,再根据不同场景利用数据辅以算法处理以发挥更大的价值,甚至于很多场景不一定要利用算法,但是数据仍然推动价值 。这需要至上而下进行,需要管理层主动推动 。”

推荐阅读