
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
运维管理是随着软件编程开发行业的不断发展而兴起的一种管理形式,而今天我们就一起来了解一下,软件运维管理应该如何优化软件报警系统。
警值班和报警升级
基于值班表,每天安排两人进行值班处理报警,将值班压力从全团队压缩在两人范围内,从而让团队能够有足够的时间和人力进行优化工作。同时,为了避免两个值班人员都没有响应报警,可以使用报警升级功能,如果一个报警在5min内值班人员均未响应,或者15min内未处理完毕,或者有严重故障发生,都可以将报警进行升级,通告团队其他成员协助处理。
如果公司的监控系统暂不支持值班表功能,则通过人工定期修改报警接收人的方式进行。而对于监控系统不支持报警升级的问题,通过自行开发脚本的方式,也能在一定程度上得到解决。也可以将报警短信发送至商业平台来实现。总之一句话,办法总比问题多。
对于报警值班人员,需要随时携带笔记本以方便处理服务故障,这个要求,和报警数量多少以及报警的自动化处理程度并无关系,仅和服务重要性有关。对于节假日依然需要值班的同学,公司或者部门也应该尽量以各种方式进行补偿。
基于重要性不同,分级应对
一个问题请大家思考一下,如果线上的服务器全部掉电后以短信方式通知值班人员,那么线上一台机器的根分区打满,也通过短信来通知是否有必要。
上述的问题在日常工作也屡屡发生,对于问题、异常和故障,我们采取了同样的处理方式,因此产生了如此多的无效报警。故障自愈
重启作为单机预案,在很多业务线,可以解决至少50%的报警。没有响应,重启试试,请求异常,重启试试,资源占用异常,重启试试,各种问题,重启都屡试不爽。
换言之,针对简单场景具有明确处置方案的报警,自动化是一个比较好的解决方案,能够将人力从大量重复的工作中解放出来。
自动化处理报警的过程中,需要注意以下问题:
自动化处理比例不能超过服务的冗余度(默认串行处理为稳妥)
不能对同一个问题在短时间内重复多次的自动化处理(不断重启某个机器上的特定进程)
在特定情况下可以在全局范围内快速终止自动化处理机制
尽量避免高危操作(如删除操作,重启服务器等操作)
每次执行操作都需要确保上一个操作的结果和效果收集分析完毕(如果一个服务重启需要10min)
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。