Python网络请求代理管理核心是IP策略:按目标反爬强度动态轮换、验证与兜底;需健康检查自动剔除死IP,请求前随机选IP并设超时,响应后校验内容。

Python做网络请求时用代理,核心不是“怎么设代理”,而是“怎么管代理”——重点在IP策略:什么时候换、换哪个、换完怎么验证、失败了怎么兜底。
代理IP不是越多越好,而是要匹配目标网站的反爬强度
面对普通新闻站,轮换频率低些(比如每10次请求换一次)、IP池5–10个就够;但爬电商详情页或登录态接口,可能需要每请求换一个高匿动态IP,且IP需带地域标签(如北京、上海),否则返回403或验证码。建议先用requests + session发少量测试请求,观察响应头X-Forwarded-For是否被识别、是否有Set-Cookie: __jsluid_s类反爬标识,再决定IP质量要求。
代理池要自带健康检查和自动剔除机制
死IP、延时超2s、返回状态码非200或含“访问异常”字样的IP必须实时下线。可用独立线程每30秒对池中IP发起HEAD请求测通;或在每次请求后记录耗时与响应内容,用滑动窗口统计最近5次成功率,低于60%即标记为待淘汰。示例逻辑:
- 请求前从池中随机取一个IP(避免顺序轮询暴露规律)
- 带上timeout=3,捕获requests.exceptions.Timeout/ConnectionError
- 响应后检查text长度是否
- 不满足任一条件,调用proxy_pool.remove(ip)并重试下一个
Session级代理绑定比全局设置更可控
别用requests.adapters.HTTPAdapter全局挂代理,容易混用失效。推荐为每个业务逻辑建独立session,显式传入proxy:
立即学习“Python免费学习笔记(深入)”;
session = requests.Session()
session.proxies = {"http": "http://user:pass@ip:port", "https": "http://user:pass@ip:port"}
session.headers.update({"User-Agent": "Mozilla/5.0..."})
response = session.get(url)
这样不同账号、不同地域、不同任务可分池管理,出问题也能快速定位是代理问题还是业务逻辑问题。
别忽略User-Agent和Cookie的协同策略
单换IP不换UA,等于“穿新鞋走旧路”。建议IP与UA、Referer、Accept-Language组成指纹组,例如:
- 北京IP + Chrome 120 Win10 UA + 百度首页Referer
- 深圳IP + Safari 17 macOS UA + 知乎首页Referer
每次换IP时同步切换整套请求头,并在session中持久化Cookie(尤其是带jsluid、_ga等字段的),否则目标站会认为是新访客,触发滑块验证。










