网络和系统管理员是任何IT组织的骨干。它们为所有IT资源(无论是网络、SD-WAN、服务器、应用程序还是虚拟和云资源)提供关键监控和支持。在与数百名网络和系统管理员合作后,我们确定了最有效的7个关键习惯。
1.避免数据泛滥
典型的网络或系统管理员每天会收到多达200个警报。其中多达80%可以在正常工作时间内触发。这意味着在10-12小时的工作日内平均需要对160个警报进行分类。这大约每5分钟发出1个警报!
这些警报中的大多数要么是冗余的,要么是较低优先级的,并且可以很容易地进行分类。对它们进行分类仍然需要时间和人工。分类冗余和低优先级警报的任务不仅繁重,而且对网络管理员的工作也有不利影响。
最有效的网络和系统管理员已经意识到,为了让他们的团队变得高效和有用,他们必须直面这个问题。他们的解决方案:
2.部署单一窗格的玻璃仪表板
在任何给定时间,网络或系统管理员必须监控至少10到12种不同类型的资源。正如我们上面提到的,这些包括网络、SD-WAN、服务器工作负载、应用程序以及虚拟化和云资源。最重要的是,每个资源都有自己的工具。例如,网络使用Zabbix和Xymon等网络管理系统,虚拟化服务器工作负载使用vCenter等工具,应用程序使用APM(NewRelic和AppDynamics),以及Meraki等云资源对其硬件有自己的独立视图。
每个工具都有自己的仪表板。许多人声称提供“单一窗格”(SPOG)视图。并非所有人都符合要求。理想情况下,单块玻璃应展示以下三个特征:
例如,这里是一个真正的SPOG应该能够产生的示例屏幕截图。只有少数工具可以声称是真正的SPOG。该领域流行的产品包括IBMTivoli、EMCSmarts和OmniCenter。(我们目前正在撰写一篇方便的博客文章,以帮助您确定您的SPOG是否真的是SPOG。所以请在不久的将来注意这一点。)
3.自动化可重复的任务
询问任何网络或系统管理员他们大部分时间是如何度过的,您会得到的最常见答案是:灭火。
这些人也承认,最紧迫的问题归结为三件事:
我们已经解决了上面的冗余警报问题。对于剩下的两个,自动化是关键。最有效的网络和系统管理员会毫不留情地将所有他们可以做的任务自动化。在他们开始之前,他们需要弄清楚两个基本的事情:
令人惊讶的是,确定要自动化什么几乎和如何做一样复杂。那么,最有效的网络和系统管理员如何构建他们的自动化优先列表?嗯,首先要了解他们的日常活动可以分为四大类:

4.使用模板
今天,每分钟都有新资源上线。为确保它们符合您的信息系统政策,所有资源应:
最有效的网络和系统管理员认识到这些指令的重要性并部署基于模板的解决方案来解决它们。一个很好的例子是监视MicrosoftSQL服务器上的内存使用情况。众所周知,MSSQL系统将使用分配给它们的所有内存。因此,您需要一个适用于SQLServer基础架构的不同模板,而不是运行中间件应用程序的MSWindows服务器。您的SQL服务器具有其他地方没有的特殊操作参数。
模板化并不容易。您必须了解每个模板化资源/工作流程的模式。您还必须将您的公司政策和期望构建到开发的模板中。所有模板都必须自动进行版本控制、保存和备份。
5.加速根本原因分析
如果您已经在使用到目前为止列出的技术,那么您很可能已经消除了50-60%的潜在问题。您也很可能已经被公认为高效的网络或系统管理员,您的同行可能会向您寻求帮助和建议。当您向他们提供建议并讨论IT将在未来5年内经历的变革理念时,又发现了另一个资源故障。它的状态变为红色,警报开始出现。因为您已经消除了80%的冗余警报,并且自动执行了普通管理员必须执行的大量分类工作,所以您知道这个问题不是误报.
整个团队现在都在竞相寻找根本原因。花在解码问题上的每一分钟都意味着多一分钟的中断。你不喜欢它。你的老板不喜欢它。而且,最重要的是,您的客户不喜欢它。作为一名有效的网络或系统管理员,您还有一张王牌。几分钟之内,您就可以准确地知道如何以及在何处查找问题并执行根本原因分析。
除了自动化,最有效的网络和系统管理员明白,能够访问正确的工具,不仅可以显示统一的仪表板,还可以一键向下钻取,是成功和让客户满意的关键(也是让经理满意的关键))。结合适当的单层玻璃,这些工具非常有效,每周可以为您节省10-15小时!(这就像每个工作周都有一天的空闲时间!)这是一个单击向下钻取功能应该如何工作的示例。
6.对需要大量护理和喂食的工具说不
正如我们前面所讨论的,典型的网络或系统管理员有大约10-12种工具可供他们用来监控他们的IT资源。其中至少有一些可能需要几个月的时间来配置、部署和定制。而且,供应商通常不会提及支持其工具所需的大型复杂基础设施。最有效的网络和系统管理员了解此类工具的两个重要方面:
那么,他们如何将这一庞大的工具列表缩减为最高效的工具呢?简单地说,最有效的网络和系统管理员会问供应商一个关键问题,“管理您的管理系统的成本是多少?”然后他们无情地踢出任何有问题的产品。
“违规产品”是指任何违反现代管理平台四项原则的IT管理软件。
7.使用预测性和规范性报告和分析
对于网络和系统管理员拥有的所有工具,用户仍然经常报告故障。之所以会发生这种情况,是因为所有监控工具都超出了资源最终用户以外的其他人设置的阈值。即使是大多数网络或系统管理员也无法完全控制他们必须使用的所有工具的所有阈值。
这会导致以下两种情况之一:
最有效的网络和系统管理员明白解决方案不是简单地调整警报阈值。相反,他们制定了一个全面的策略,从报告失败到预测失败。他们是怎么做到的?通过部署具有内置预测报告功能的解决方案。
使用来自过去负载、阈值和可用资源的数据,预测报告引擎应用机器学习(ML)算法来确定是否存在真正的故障可能性。这是一组预测报告的一个很好的例子。我们之前已经介绍过预测报告,甚至提出了解决方案。请注意,这仍然是一项不断发展的技术。
那是很多信息。如果付诸实践,这七个习惯可以让你的团队从优秀变成优秀!如果您了解更多技术或希望我们更详细地解释任何内容,请在下面发表评论。拥有您所需的工具来做您想做的事。
本文来源:国外服务器--高效网络和系统管理员的7个习惯(网络系统管理员职责)
本文地址:https://www.idcbaba.com/guowai/2650.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1919100645@qq.com 举报,一经查实,本站将立刻删除。



