Shell脚本异常监控需精准捕获失败、区分错误类型、及时通知到位:用 $? 和 set -e/set-o pipefail 控制执行流,结合 trap 记录上下文日志,并通过邮件/钉钉等精简告警。

Shell脚本运行失败时,光靠肉眼盯日志或手动查退出码,迟早出问题。真正可靠的异常监控,核心就三点:精准捕获失败、区分错误类型、及时通知到位。
用 $? 和 set -e 控制执行流
每个命令执行完,$? 保存它的退出状态。0 表示成功,非0 即失败。别只在最后 echo $? —— 关键步骤后立刻判断,才能准确定位哪一步崩了。
- 写法示例:command1 && command2 || { echo "command2 failed"; exit 1; }
- 更稳妥的做法是加 set -e(遇错即停)+ set -o pipefail(管道中任一环节失败都算整体失败)
- 注意:有些命令天然返回非0(如 grep 找不到内容),要用 || true 或显式判断避免误判
分类记录错误:日志 + 错误码 + 上下文
只记“脚本失败”没用。要留够线索:时间、主机名、脚本名、行号、输入参数、关键变量值、上一条命令输出片段。
- 用 trap 'echo "$(date): ERROR at line $LINENO: $?" >> /var/log/myscript.err' ERR 捕获任意位置错误
- 把 stderr 重定向到日志:2>> /var/log/myscript.log,并加 exec 2>&1 统一输出流
- 对关键步骤打标记,比如 echo "[STEP: backup_db] start" >> log
失败后自动告警:邮件/钉钉/企业微信三选一
告警不是越快越好,而是要让接收人一眼看懂“什么崩了、在哪崩的、大概怎么修”。避免发一堆原始日志。
- 邮件告警:用 mail -s "【ALERT】myscript failed on $(hostname)" admin@example.com
- 钉钉机器人:curl POST JSON,body 包含 text.content 字段,建议高亮错误码和最近10行日志
- 加个开关控制是否告警:[ "$ALERT_ENABLED" = "true" ] && send_alert,方便测试环境关闭
避免重复告警与误报
脚本每分钟跑一次,失败就狂发10条钉钉?没人会理。得加抑制机制。
- 用临时文件锁:失败时生成 /tmp/myscript.last_fail 并写入时间戳,下次运行前检查距上次失败是否
- 对可恢复错误(如网络超时)不告警,只重试3次;对硬错误(如权限拒绝、文件不存在)才触发告警
- 告警消息末尾附上快速诊断命令,例如:"排查建议:tail -20 /var/log/myscript.log"










