有一些应急场景下需要执行一些平时运维自动化平台或者脚本难以覆盖到的运维命令,需要在服务器上现场敲命令执行,但是情急之下,难免因为粗心大意以及缺少交叉验证(因为人手不是很充足,有时候大家都各忙各的)引发了其他故障,扩大故障影响面。请问大家这种情况怎么能尽量避免呢?因为现阶段运维平台还是难以覆盖到全部场景,我想到的是一个人操作的时候,把要执行的最终命令发到群里让大家看一下,没问题就直接粘进去执行,还有执行前要有灰度操作,或者至少能模拟出执行命令前的大致情况,才能执行。不知道大家对这方面有啥好的想法或者一些实践能指点一下。