运维安全:远离故障的十大原则故障是运维人员永远的痛
相信每一个运维人员的KPI中都有一项:可用性
可用性高就是不出故障,各个公司对可用性和故障评级的标准都不相同,但是避免故障的方法却是殊途同归
我们怎么避免故障,沃趣科技简单列举了以下几条,与大家共勉
1、变更要有回滚,在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障,变更请谨慎7、搭建报警,及时获得出错信息
搭建性能监控,了解历史,获得趋势,预测未来8、自动切换需谨慎9、仔细一点,偏执一点,检查,检查,再检查10、简单即是美
第1条,变更要有回滚,在同样的环境测试过
也是运维最繁琐,最苦逼的地方,所有的变更都必须有回滚的办法,在同样的环境下测试过
没有做过的东西,总是会在你意想不到的地方给你一次痛击,在阿里巴巴的这么多年运维经验告诉我们,所有没有做过的变更,出错的概率最大
所以我们需要给变更以回滚的可能,在各个步骤可能出错的情况下,考虑回滚到最初状态
优秀的运维人员对不考虑回滚的的操作都是敬而远之的
从某种意义上来说,运维是一门经验的学科,是一门试错的学科
第2条,对破坏性的操作谨慎小心
破坏性的操作有哪些列
对数据库来说有:DROPTable,Dropdatabase,truncatetable,deletealldata;这些操作做完了以后几乎无法考虑怎么把数据都回滚回去了
就算回滚,代价也是非常大的
你执行这样的语句非常简单,但是回滚恢复数据缺非常困难
Linux的命令rm可以-r(recursive)递归的删除某一个目录,-f(force)强制删除,但是你有没有删错过文件
我们遇到过一个文件名中末尾有空格的情况,而有的同事rm-r习惯性的会在文件名后面加*,这样就成了rm-raa*,所有当前目录的数据都被删除掉了
经过这次故障