对于任何IT团队来说,事件解决后的那一刻可能是最放松的。当您的系统最终正常运行时,它会让整个组织放心,但最艰巨的任务尚未到来:根本原因分析(RCA)。类似于足球队观看以前的比赛以查明改进领域,根本原因分析通过数据并找出最初导致事件的原因。
分析问题的根本原因对组织来说是一项独特的挑战。可能有许多因素使这个过程变得更加困难,从太多的警报到缺乏文档。也许最有害的是没有一个固定的程序。许多组织的事件计划都缺少这一关键步骤。任何好的事件计划都包括一个用于根本原因分析的过程,而不仅仅是一个要求。
请注意,在开始根本原因分析过程之前,在事件解决期间可以做一些事情。这些任务使根本原因分析更容易;例如分配和定义角色、建立最佳实践以及利用可用工具。虽然,每个企业都会根据其功能和规模的不同而有不同的需求。通过明确定义每个角色的角色、功能和范围来避免重大事件。以下是每个组织应具备的几个关键角色:
组织中有效根本原因分析的关键角色
事件线索
事件负责人将充当队长,因为每个事件应该只有一个事件负责人。拥有强大的指挥技能和事件管理经验至关重要。他们还应该能够理解问题的诊断和解决方法。他们的一般知识应该从系统监控和诊断工具扩展到应用程序和基础设施组件,以及可用的工程工具。他们会将资源引导到最需要的地方,并根据需要推动所有问题解决行动。由于这是有效负责的角色,他们将负责收集最终根本原因分析所需的数据。
服务主管
服务主管将帮助指导恢复工作,并根据他们对业务重要性的了解确定优先级。他们应该是经验丰富的工程师或经理,了解受影响服务的系统方面和交付要求。他们还应该熟悉并能够指导服务恢复例程和程序。服务负责人会知道必须考虑和解决的潜在下游影响。此外,他们必须知道必须与哪些业务部门和联系人合作,以最大程度地减少事故处理期间的影响。
技术主管
技术主管是专家或主题专家。这通常是对生产环境有充分了解的高级高级工程师。他们的工作是在他们的组件领域(例如存储、网络、DBMS等)诊断并领导解决问题的工作。整个组织的技术主管必须相互协调和沟通,以解决可能存在于组件区域之间或之外的问题。
根本原因分析的最佳实践
现在已经定义了所有角色,重要的是概述团队在事件解决过程中应遵循的一些最佳实践,以使根本原因分析(RCA)更容易。

管理警报
警报过多会使根本原因分析变得更加困难。有一些方法可以减少可能掩盖事件根本原因的警报噪音量。一般的经验法则是确保活动警报仅针对可操作的项目。
利用操作系统
确保您以最佳方式使用您的工具是加快事件解决和根本原因分析的关键。
根本原因分析对于更快地解决未来事件并防止它们再次发生非常重要。通过在您的解决计划中实施上述内容,它将使组织更加高效和优化。通过其自动报告和集成平台为您提供了轻松实现这一目标的关键。
本文来源:国外服务器--加速IT事件的根本原因分析(加速算法是什么)
本文地址:https://www.idcbaba.com/guowai/4057.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1919100645@qq.com 举报,一经查实,本站将立刻删除。



