Python轻量级自动巡检服务核心是稳、快、可查:用requests+time.sleep实现可控轮询,结构化JSON日志记录全链路信息,按失败程度分级告警,通过配置隔离开发与上线行为。

用 Python 搭一个轻量级自动巡检 Web 服务,核心不是堆框架,而是稳、快、可查——脚本要能定时跑通接口、判状态、抓关键字段;日志得结构化、带上下文、方便回溯;出问题时能快速定位是网络抖动、服务超时,还是返回数据异常。
巡检脚本:用 requests + time.sleep 做最小可靠轮询
不硬套 Celery 或 APScheduler,小规模服务用 while + sleep 更可控。重点是加超时、捕获异常、避免请求堆积:
- requests.get(url, timeout=(3, 7)) —— 分别设连接超时 3 秒、读取超时 7 秒,防卡死
- try/except 包住整个请求+解析逻辑,捕获 requests.exceptions.RequestException 和 JSONDecodeError
- 每次循环后 time.sleep(60),但先检查上一轮是否超时或失败,失败时 sleep 缩短到 10 秒加快重试
- 对关键字段做断言式校验,比如 status_code == 200、"data" in resp_json、resp_json["code"] == 0,不满足就记为“业务异常”而非仅“HTTP 异常”
日志结构化:用 logging + json 写入,字段对齐排查链路
别用 print 或简单 logging.info 拼字符串。每条日志至少含:时间戳、服务名、URL、HTTP 状态码、业务状态码、耗时(ms)、错误类型(如 timeout / 502 / json_error)、简短消息。推荐写法:
- 用 logging.getLogger(__name__) 获取 logger,Handler 设为 FileHandler,格式器 Formatter 输出 JSON 字符串
- 日志内容用字典构造,例如:{"ts": "2024-06-12T14:22:05.123", "svc": "user-api", "url": "/v1/profile", "status": 200, "code": 0, "cost_ms": 42, "error": null, "msg": "ok"}
- 出错时 error 字段填异常类名 + str(e)[:100],避免长 traceback 冲散关键信息
- 日志文件按天滚动,保留 7 天,文件名带日期便于归档,如 monitor_20240612.log
异常分级告警:只在真正需要人看时才发消息
不是每次失败都钉钉/邮件轰炸。按影响程度分三级处理:
立即学习“Python免费学习笔记(深入)”;
- 一级(静默):单次超时、404、429,自动重试 2 次,成功则不记录 error 级日志
- 二级(记录+聚合告警):连续 3 次 5xx 或业务 code != 0,写 error 日志,并缓存最近 5 条失败详情,每 10 分钟汇总发一次钉钉(含失败率、典型错误)
- 三级(立即通知):HTTP 连接全失败(requests.ConnectionError)、DNS 解析失败、或 5 分钟内失败率 > 80%,触发立即告警,附最近一条完整日志 ID 和时间
本地调试与上线隔离:靠配置文件切换行为
开发时想看详细响应体、开 debug 日志、手动触发;上线后要静默、限频、只写 error。用 config.py 统一管理:
- DEBUG = os.getenv("MONITOR_DEBUG", "false").lower() == "true"
- LOG_LEVEL = logging.DEBUG if DEBUG else logging.INFO
- INTERVAL_SEC = 60 if not DEBUG else 10
- ENABLE_ALERT = not DEBUG
- 把 URL、超时、重试次数、钉钉 webhook 地址等全放配置里,启动时加载,不硬编码
基本上就这些。不复杂但容易忽略的是:日志字段统一、失败重试有退避、告警不刷屏。跑稳一周后,你就能从日志里直接看出是 CDN 缓存脏了,还是下游服务悄悄改了返回结构。
以上就是Python构建自动巡检Web服务的监控脚本与日志处理方案【技巧】的详细内容,更多请关注php中文网其它相关文章!