如何在Golang中实现错误重试_Golang失败操作自动重试机制

重试逻辑必须封装成可取消的函数,接受context.Context参数并检查ctx.Err(),配合指数退避与随机抖动、错误分类判断实现可靠重试。

重试逻辑必须封装成可取消的函数

Go 的 context.Context 是控制重试生命周期的核心。直接用 time.Sleep 循环硬等,会阻塞 goroutine 且无法响应超时或取消信号。所有重试函数都应接受 ctx context.Context 参数,并在每次循环开始前检查 ctx.Err() != nil

  • 重试前先调用 select 等待 ctx.Done(),避免无效等待
  • 不要在重试函数内部新建 context.WithTimeout —— 外层调用者应统一控制总超时
  • 若底层操作本身支持 ctx(如 http.Client.Do),务必透传,否则重试超时可能失效

指数退避 + 随机抖动是避免雪崩的关键

固定间隔重试(如每次等 1 秒)容易引发下游服务请求洪峰。Go 标准库不提供现成退避工具,需手动实现。推荐使用 time.Sleep 配合 rand.Float64() 加入抖动。

func backoff(n int) time.Duration {
    base := time.Second * 2
    // 指数增长:1s, 2s, 4s, 8s...
    bo := base * time.Duration(1<
  • n 是当前重试次数(从 0 开始),第 1 次重试用 backoff(0)
  • 抖动上限建议不超过 0.5 倍基础间隔,否则退避失去意义
  • 生产环境务必初始化 rand.New(rand.NewSource(time.Now().UnixNano())),避免多 goroutine 共享默认 seed 导致抖动失效

错误分类决定是否重试

不是所有错误都适合重试。盲目重试 sql.ErrNoRowsjson.SyntaxError 只会浪费资源。应在重试前做错误判断:

  • 网络类错误(net.OpErrorurl.Error)通常可重试
  • HTTP 5xx 响应(resp.StatusCode >= 500)可重试;4xx 一般不可重试(如 404、400)
  • 自定义错误可通过实现 Temporary() bool 方法标记是否临时性
  • errors.Aserrors.Is 判断错误类型,避免用字符串匹配

简单可靠的重试封装示例

以下是一个最小可用的重试函数,支持最大次数、退避、上下文取消和错误过滤:

func DoWithRetry(ctx context.Context, fn func() error, maxRetries int, backoffFunc func(int) time.Duration) error {
    var err error
    for i := 0; i <= maxRetries; i++ {
        err = fn()
        if err == nil {
            return nil
        }
        if i == maxRetries {
            return err
        }
        select {
        case <-time.After(backoffFunc(i)):
        case <-ctx.Done():
            return ctx.Err()
        }
    }
    return err
}

调用时注意:fn 必须是无参闭包,内部自行处理参数和状态;backoffFunc 推荐用上一节的抖动版本;maxRetries 建议设为 3~5,超过仍失败大概率是真故障。

真正难的是判断“这个错误值不值得再试一次”——这没有银弹,得结合业务语义、下游 SLA 和错误日志反复校准。