0

0

Linux系统问题定位方法_从现象到根因解析【教程】

冷漠man

冷漠man

发布时间:2025-12-31 09:49:02

|

762人浏览过

|

来源于php中文网

原创

Linux故障应按资源层→服务层→日志层→网络权限层→系统层级链排查:先用top/htop、free、df、iostat查CPU、内存、磁盘、I/O;再用systemctl、journalctl、ss定位服务与端口;结合dmesg、SELinux、防火墙、权限及strace深入验证。

linux系统问题定位方法_从现象到根因解析【教程】

Linux系统出问题时,别急着重装或重启,大部分故障能通过分层排查快速定位。关键不是“看啥命令”,而是“按什么顺序看”。

先看系统资源是否被耗尽

很多看似奇怪的行为(如命令卡住、SSH连不上、服务响应慢)其实只是内存或CPU被占满。优先确认基础资源水位,避免在错误方向上浪费时间。

  • tophtop 看实时 CPU 和内存占用,注意 %CPURES 列;htop 更直观,但需手动安装
  • free -h 检查 available 是否接近 0;若 available 极低但 cached 很高,可能是内核缓存未及时回收,不一定是真实内存不足
  • df -h 查磁盘空间,重点看 //var/tmp —— 日志打爆 /var 是高频原因
  • iostat -x 1(需 sysstat 包)看 %utilawait,持续 >90% 或 await >100ms 表明 I/O 瓶颈

再查关键进程和依赖服务状态

服务不可用,往往不是它自己崩了,而是上游依赖挂了,比如数据库连不上导致 Web 服务报 502,或者 systemd 里某个单元 failed 导致连锁失败。

  • systemctl list-units --state=failed 直接列出所有失败单元,比翻日志快得多
  • systemctl status service-name 看该服务的最新日志、启动状态、依赖关系(Loaded: 行会显示 unit 文件路径,可确认是否被覆盖或修改)
  • journalctl -u service-name -n 50 --no-pager 查最近 50 行日志;加 -b 可限定当前 boot,避免翻到上次关机前的旧记录
  • 对网络服务,用 ss -tulnp | grep port 确认端口是否真被监听,且是预期进程在监听(ssnetstat 更轻量、更准)

日志里找线索:别从头翻,要带条件过滤

直接 tail -f /var/log/messages 容易漏掉关键上下文,也容易被滚动日志冲走。得用时间、关键词、优先级三重锚定。

BgSub
BgSub

免费的AI图片背景去除工具

下载
  • journalctl --since "2024-06-15 14:30:00" --until "2024-06-15 14:35:00" 锁定故障发生窗口
  • journalctl -p err..alert 只看错误及以上级别;-p warning 可补看预警信息
  • dmesg -T | grep -i "oom\|kill\|fail\|error" 查内核级事件,OOM killer 日志就在这里,Out of memory: Kill process 后面跟着的就是被干掉的进程
  • 应用日志路径不统一?先查 systemctl show -p FragmentPath service-name 看 unit 文件在哪,里面常有 StandardOutputLogPath 提示

网络与权限类问题的快速验证点

网络不通、拒绝连接、Permission denied 这类报错,表面看是配置问题,实际常因 SELinux、防火墙策略或文件权限链断裂引发。

  • getenforce 看 SELinux 是否启用;若为 Enforcing,临时 setenforce 0 测试是否恢复——若恢复,说明是 SELinux 策略限制,而非配置本身错
  • firewall-cmd --list-all(firewalld)或 iptables -L -n -v(iptables)确认端口是否放行;注意 public zone 默认可能没开你用的端口
  • 权限问题先跑 ls -lZ(含 SELinux 上下文)和 ls -ld(父目录权限),常见坑:Web 服务进程用户无法 traverse 上级目录(即缺少执行 x 权限)
  • strace -p pid -e trace=openat,connect,bind 实时抓进程在打开哪些文件、连哪个地址——比猜配置文件路径高效得多
journalctl -u nginx --since "2024-06-15 10:00:00" -p err | grep -E "(connect|permission|denied|failed)"

真正难的不是命令记不住,而是看到一条报错后,不知道该往系统哪一层挖:是硬件层(磁盘坏块)、内核层(OOM、模块异常)、运行时层(cgroup 限流、OOMScoreAdj 设置)、还是应用层(配置错、代码 bug)。每次排查,都得默念一遍这个层级链。

相关专题

更多
scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

184

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

260

2023.10.25

alert怎么实现换行
alert怎么实现换行

alert通过使用br标签来实现换行。更多关于alert相关的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

489

2023.11.07

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

330

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2068

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

346

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

251

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

318

2023.10.09

桌面文件位置介绍
桌面文件位置介绍

本专题整合了桌面文件相关教程,阅读专题下面的文章了解更多内容。

0

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 6.3万人学习

Git 教程
Git 教程

共21课时 | 2.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号