先确认服务进程是否运行,用systemctl status检查Active状态,若failed则查journalctl日志定位Permission denied、Address already in use等错误,再验证配置语法、依赖服务及资源就绪情况,最后实施快速回滚或临时绕过策略。

服务进程是否还在运行
先确认服务本身有没有挂掉,这是最基础也最容易被跳过的一步。用 systemctl status 查状态,注意看 Active: 行是不是 active (running),而不是 inactive (dead) 或 failed。
如果显示 failed,别急着重启,先看日志:journalctl -u 。重点扫一眼末尾几行,常见错误如 Permission denied、Address already in use、No such file or directory 都会直接暴露根因。
- 若报
Address already in use,说明端口被占,用ss -tulnp | grep :找出 PID - 若报
Failed to load environment files,检查EnvironmentFile=指向的路径是否存在且可读 - 若日志里有 Python/Java 报错但没堆栈,加
StandardOutput=journal和StandardError=journal到 service 文件再重载
配置文件语法与路径是否正确
很多服务启动失败不是代码问题,而是配置写错了。比如 nginx -t 不通过,或 redis-server /etc/redis.conf 启动时报 Invalid argument,大概率是 conf 里某行格式不对。
关键动作:用服务自带的校验命令验证配置,不要依赖 systemctl 的“看起来启动了”。不同服务的校验方式差异很大:
-
nginx -t:检查语法 + 配置文件路径是否可访问 -
httpd -t或apache2ctl configtest -
redis-server --test-memory 1不适用,得用redis-server /etc/redis.conf --test-conf -
postgresql -c config_file=/etc/postgresql/*/main/postgresql.conf -D /var/lib/postgresql/*/main/ -C shared_buffers可快速验证参数合法性
特别注意:systemd service 文件里的 WorkingDirectory 和 User 会影响配置中相对路径(如 pidfile ./redis.pid)的解析结果,容易导致“配置明明对,就是找不到文件”。
依赖服务或资源是否就绪
服务 A 启动失败,可能只是因为服务 B 没起来,或者磁盘满、DNS 不通、证书过期。别只盯着 A 的日志。
典型排查链路:
- 查磁盘:
df -h /和df -h /var/log,journalctl写不进日志时,df常是第一个线索 - 查网络依赖:
timeout 3 nc -zv,比连上再查更轻量;DNS 问题用5432 dig +short看是否返回空 - 查上游证书:
openssl s_client -connect api.example.com:443 2>/dev/null | openssl x509 -noout -dates,过期时间一目了然 - 查 socket 依赖:比如
php-fpm依赖unix:///run/php/php8.1-fpm.sock,先用ls -l /run/php/确认 sock 文件存在且权限匹配(www-data:www-data类型)
快速回滚与临时绕过策略
线上故障讲究“先恢复,后定位”。有些改动无法秒级撤销(比如刚 reload 了 nginx 配置,但 upstream 全挂了),需要能快速切走流量或降级。
实操建议:
- 提前准备 fallback 配置:比如
/etc/nginx/nginx.conf.bak,故障时cp /etc/nginx/nginx.conf.bak /etc/nginx/nginx.conf && nginx -s reload - 用 iptables 临时拦截异常请求:
iptables -I INPUT -p tcp --dport 8080 -s 192.168.10.5 -j DROP,避免某个客户端触发循环错误 - 数据库连接池打满?临时调高
max_connections不现实,改应用层连接超时更有效:export PGCONNECT_TIMEOUT=5(PostgreSQL)或在 JDBC URL 加connectTimeout=5000 - 证书快过期?用
mktemp -d生成临时目录,把旧证书 cp 过去,改 service 文件里CertificateFile=路径,reload 即可,不用等新证书签发
所有临时操作必须加注释并记录时间戳——没人记得清三天前那条 iptables 是谁加的。










