0

0

Linux系统监控重点指标_异常预警解析【教程】

舞姬之光

舞姬之光

发布时间:2026-01-09 20:43:02

|

950人浏览过

|

来源于php中文网

原创

CPU使用率持续高于90%通常表明有进程持续抢占CPU资源,可能引发响应延迟或被OOM Killer终止;需先区分us(用户态)高还是sy(系统态)高,再用top -H、ps -T、perf top等工具定位线程与热点函数。

linux系统监控重点指标_异常预警解析【教程】

CPU使用率持续高于90%意味着什么

这通常不是瞬时抖动,而是有进程在持续抢占CPU资源,可能引发服务响应延迟甚至进程被OOM Killer终止。别急着杀进程,先确认是用户态(us)还是系统态(sy)高——us高大概率是应用逻辑问题或死循环;sy高则要查系统调用、锁竞争或频繁上下文切换。

  • top -H 查看线程级占用,配合 ps -T -p 定位具体线程
  • perf top -g 可定位热点函数(需安装 perf 工具
  • 注意区分“平均负载(load average)”和“CPU使用率”:负载高但CPU使用率低,可能是大量进程在等待I/O

内存中的cached与buffers容易被误判为“被占满”

free -h 输出里的 cachedbuffers 是内核可随时回收的内存,不等于真实压力。真正危险的是 available 值持续低于总内存10%,或 SwapUsed 持续增长。

  • 关注 /proc/meminfo 中的 MemAvailable 字段,比 free 的估算更准
  • cat /proc//status | grep -E "VmRSS|VmSize" 查单个进程实际物理内存占用
  • 如果 kswapd0 进程CPU持续升高,说明内核正在频繁回收内存,此时 PageOutpgmajfault 计数会明显上升

磁盘I/O等待(%iowait)高但util接近100%的典型矛盾

iostat -x 1%iowait 高而 %util 接近100%,说明设备确实饱和;但如果 %iowait 高而 %util 很低(比如

  • 重点看 await(平均IO响应时间)是否突增,>100ms 通常已异常
  • avgqu-sz(平均队列长度)持续 >1 表示IO请求积压,结合 svctm(服务时间)判断是设备慢还是请求太多
  • SSD场景下 %util 失效(因并行能力强),应优先看 r/sw/srkB/swkB/s 是否触及硬件上限

网络连接数监控不能只看netstat的ESTABLISHED

netstat -an | grep :80 | grep ESTABLISHED | wc -l 容易漏掉TIME_WAIT、SYN_RECV,也忽略连接分布。真正要预警的是:单IP连接数突增(可能被CC)、本地端口耗尽(net.ipv4.ip_local_port_range 被打满)、或 netstat -s | grep -i "packet receive errors" 显示接收错误上升。

Runwayml(AI painting)
Runwayml(AI painting)

Runway 平台的文本生成图像AI工具

下载
  • ss -s 看全局连接统计,比 netstat 更快更准
  • 查特定端口连接分布:ss -tn src :80 | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -nr | head -10
  • 观察 /proc/net/sockstatsockets: used 是否持续增长,避免内核socket内存耗尽
watch -n 1 'echo "== CPU =="; mpstat 1 1 | grep all; echo "== MEM =="; free -h; echo "== IO =="; iostat -x 1 1 | grep nvme0n1; echo "== NET =="; ss -s'

监控不是堆指标,而是建立因果链:比如CPU高 → 查哪个进程 → 查它在做什么系统调用 → 查它访问的文件或网络端点是否异常。很多“异常”其实是上游服务慢导致本地线程堆积,最终表现为本地CPU或内存升高。这点最容易被忽略。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

184

2023.09.27

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

383

2023.09.04

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

382

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

567

2023.08.10

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

478

2023.08.10

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1347

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

700

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

294

2023.06.30

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

3

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 6.9万人学习

Git 教程
Git 教程

共21课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号