如何在IT监控中建立可持续的ML/AI实践
随着越来越多的人在家工作以及IT基础架构的日益复杂,了解利用机器学习(ML)和人工智能(AI)改进IT运营的最佳方法非常重要。ML和AI已承诺给IT运营带来颠覆性变化,许多组织已经决定采用人工智能进行IT运营(AIOps)或很快采用。实施和部署AIOps仍然非常具有挑战性。在这里,我们想提供一些技巧来确保成功实施AIOps。
如何保证AIOps的成功实施?
提示1:数据是金
ML和AI都以对数据的渴望而闻名。没有办法高估数据对成功实施AIOps的重要性。IT监控工具都包含丰富的设备和事件指标,但数字资产库存、组织结构和工作流信息等其他数据可以显着增强AIOps的有效性。
提示2:数据质量仍然很重要
就像数据的数量一样,数据的质量同样重要。尽管ML和AL模型比传统的分析方法更能容忍噪声,但“garbagein,garbageout”这句老话在大多数情况下仍然成立。虚假的警报、过时的信息和杂乱无章的数据只会带来更多的混乱而不是清晰。数据质量,例如准确的时间戳和新鲜度,可以为总体AIOps旅程奠定良好的基础。
技巧3:区分实时和非实时分析
组织数据的一个技巧是将实时数据与非实时数据区分开来。与批处理相比,实时分析需要一整套不同的管道来处理,因此一般来说,在存储、处理和预测方面将实时数据与非实时数据分开是一种很好的做法。当实时数据过时时,可以将其合并为非实时数据,为最新的实时数据留出空间。
提示4:特征工程与模型训练同样重要

提示5:人类经验仍然很重要,但需要编纂
机器学习和人工智能非常强大,但它们并不能取代人类智能。相反,它们的定位是增强人类智能。IT行业积累了大量的最佳实践,在历史上曾多次拯救过我们。这种人类知识的最佳实践一旦被编纂,对于ML和AI模型来说是学习和放大的宝贵资产。
技巧6:从较少的因素开始,逐渐增加复杂性
许多高级机器学习模型可以考虑大量因素并构建非常复杂的模型。有了这种“超级大国”的便利,人们往往倾向于将尽可能多的数据转储到机器中,然后让机器来处理海量的数据。更多的数据并不总是等于更好的结果。没有纪律地将数据转储到机器模型中只能产生复杂的信号。建议从PCS认为最重要的简单模型和限制因素开始。简单的模型可以揭示监测的主要趋势,并且很容易被人脑所理解。通过一小部分因素获得的洞察力,可以通过添加更多因素或与另一个模型连接以进行更高级的分析来增强模型。
技巧7:不要依赖一个模型,而是并行运行多个模型
没有一种模型是万能的。一些模型擅长信息简化,而另一些模型可能擅长信息增强。不同的模型可以从同一组数据中获得不同的见解。训练和部署多个模型有助于提供360度数据视图。不要建立一个包含所有因素的巨型模型,而是建立一个由小模型组成的森林,它们共同可以更强大且更易于管理。
提示8:预测很重要,解释也很重要
机器模型的一个固有缺点是很难解释数据之间的因果关系。了解警报和事件的根本原因对于IT运营至关重要,而这正是人类智能可以发挥作用的地方。可以为模型迭代输入人工评论或历史干预,并使模型越来越可解释。
提示9:不要构建黑盒,而是让工具具有交互性
与解释的主题相关,最好建立一个可以在需要时获得人工干预的流程,并选择调整后的前进路径。经验丰富的IT运营商可以在它们仍然迫在眉睫时挑选一些早期信号,并在可能的情况下建议最佳捷径。对人类预感增强的大量数据进行机器分析可能是惊人的,应该构建工具来适应这种组合。
提示10:数据驱动的思维方式与数据一样重要
最后但同样重要的是,在组织中拥有数据驱动的思维方式对于AIOps部署的成功至关重要。围绕数据从数据生成、存储、细化到回收建立一个规范的流程将最终保证AIOps的成功和持续改进。
本文来源:国外服务器--实施AIOps的10个技巧(asap实施方法论的五个阶段)
本文地址:https://www.idcbaba.com/guowai/2880.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1919100645@qq.com 举报,一经查实,本站将立刻删除。



