重试逻辑必须封装成可取消的函数,接受context.Context参数并检查ctx.Err(),配合指数退避与随机抖动、错误分类判断实现可靠重试。

重试逻辑必须封装成可取消的函数
Go 的 context.Context 是控制重试生命周期的核心。直接用 time.Sleep 循环硬等,会阻塞 goroutine 且无法响应超时或取消信号。所有重试函数都应接受 ctx context.Context 参数,并在每次循环开始前检查 ctx.Err() != nil。
- 重试前先调用
select等待ctx.Done(),避免无效等待 - 不要在重试函数内部新建
context.WithTimeout—— 外层调用者应统一控制总超时 - 若底层操作本身支持
ctx(如http.Client.Do),务必透传,否则重试超时可能失效
指数退避 + 随机抖动是避免雪崩的关键
固定间隔重试(如每次等 1 秒)容易引发下游服务请求洪峰。Go 标准库不提供现成退避工具,需手动实现。推荐使用 time.Sleep 配合 rand.Float64() 加入抖动。
func backoff(n int) time.Duration {
base := time.Second * 2
// 指数增长:1s, 2s, 4s, 8s...
bo := base * time.Duration(1<
-
n 是当前重试次数(从 0 开始),第 1 次重试用 backoff(0)
- 抖动上限建议不超过 0.5 倍基础间隔,否则退避失去意义
- 生产环境务必初始化
rand.New(rand.NewSource(time.Now().UnixNano())),避免多 goroutine 共享默认 seed 导致抖动失效
错误分类决定是否重试
不是所有错误都适合重试。盲目重试 sql.ErrNoRows 或 json.SyntaxError 只会浪费资源。应在重试前做错误判断:
- 网络类错误(
net.OpError、url.Error)通常可重试
- HTTP 5xx 响应(
resp.StatusCode >= 500)可重试;4xx 一般不可重试(如 404、400)
- 自定义错误可通过实现
Temporary() bool 方法标记是否临时性
- 用
errors.As 或 errors.Is 判断错误类型,避免用字符串匹配
简单可靠的重试封装示例
以下是一个最小可用的重试函数,支持最大次数、退避、上下文取消和错误过滤:
立即学习“go语言免费学习笔记(深入)”;
func DoWithRetry(ctx context.Context, fn func() error, maxRetries int, backoffFunc func(int) time.Duration) error {
var err error
for i := 0; i <= maxRetries; i++ {
err = fn()
if err == nil {
return nil
}
if i == maxRetries {
return err
}
select {
case <-time.After(backoffFunc(i)):
case <-ctx.Done():
return ctx.Err()
}
}
return err
}调用时注意:fn 必须是无参闭包,内部自行处理参数和状态;backoffFunc 推荐用上一节的抖动版本;maxRetries 建议设为 3~5,超过仍失败大概率是真故障。
真正难的是判断“这个错误值不值得再试一次”——这没有银弹,得结合业务语义、下游 SLA 和错误日志反复校准。










