Python性能监控需聚焦四类指标:运行时资源、请求链路、业务逻辑、异常日志;采用轻量嵌入、分层采集、异步上报、统一收敛策略,结合psutil、装饰器、框架钩子等低侵入方案,通过Pushgateway上报至Prometheus+Grafana实现有效可视化与精准告警。

Python应用的性能监控不是简单加几个print,关键在于采集什么、怎么采集、如何聚合展示。核心思路是:轻量嵌入、分层采集、异步上报、统一收敛。
要采集的关键指标有哪些
不是所有数据都值得监控,重点关注四类基础维度:
- 运行时资源:CPU使用率(进程级)、内存RSS(避免只看VMS)、线程数、GC频率与耗时
- 请求链路:HTTP/WSGI响应时间(P50/P95/P99)、错误率(4xx/5xx)、请求QPS、活跃连接数
- 业务逻辑:关键函数执行耗时(用装饰器或上下文管理器标记)、数据库查询次数与慢查询占比、缓存命中率
- 异常与日志:未捕获异常数量、WARNING及以上日志频次、自定义业务告警计数(如“库存校验失败”)
低侵入采集方案怎么落地
- 用psutil定时采集进程级指标(CPU、内存、IO),每5–10秒采一次,开独立线程,不阻塞主逻辑
- 用time.perf_counter()配合装饰器记录函数耗时,支持按模块开关,不默认开启高开销指标(如调用栈)
- Web框架集成:Flask用before_request/after_request钩子;FastAPI用Middleware;Django用中间件或signals
- 数据库监控:在DB连接池封装层注入计时与错误统计(如SQLAlchemy Engine事件监听on_connect/on_execute)
上报与存储要注意什么
采集只是第一步,上报设计直接影响系统稳定性:
立即学习“Python免费学习笔记(深入)”;
- 本地缓冲+批量上报:避免每条指标都发网络请求,用队列暂存(如queue.Queue + 定时flush),减少IO压力
- 失败自动降级:上报超时或失败时,写入本地临时文件(带时间戳),重启后可补传,避免数据丢失
- 指标命名规范:用snake_case,带服务名、环境、主机标识,例如
web_api_user_login_latency_ms_p95{env="prod",host="srv-03"} - 不直接连Prometheus:Python进程不暴露/metrics端点(易被刷垮),改用Pushgateway或对接StatsD协议转发
可视化与告警怎么配才有效
监控的价值在发现问题,不在堆图表:
- Prometheus + Grafana是主流组合:用Prometheus拉取Pushgateway数据,Grafana建Dashboard,重点看“突变”和“偏离基线”
- 告警规则要具体:比如“过去5分钟内,/pay接口P99延迟 > 2s 且错误率 > 1%”,而不是“CPU > 80%”这种宽泛条件
- 设置静默期与分级通知:首次触发只发企业微信;持续3分钟未恢复,升级电话告警;夜间非核心接口降级告警级别
- 保留原始指标7–15天,聚合指标(如小时平均)保留6个月,平衡存储成本与回溯需求











