如何在 Go 中选择性地跟随 HTTP 重定向并捕获中间 URL

go 的 `http.client` 允许通过自定义 `checkredirect` 函数中断重定向流程,且在返回错误时仍会返回上一次成功响应(`*http.response`),从而可安全获取重定向链中 paywall 前的最终有效 url。

在构建链接解析器(如 Twitter 链接展开服务)时,常需避免跳转至付费墙(paywall)页面,而保留其前一个公开、可访问的目标 URL。例如,短链 on.ft.com/14pQBYE 可能经由 ft.com/article/xxx → registration.ft.com/... 两次跳转,我们希望在抵达 registration.ft.com 前终止,并拿到 ft.com/article/xxx 这一真实内容地址。

关键在于:http.Client 的设计已支持“错误即信号”模式。根据 官方文档 明确说明:当 CheckRedirect 返回非 nil 错误时,Client.Get() 不会静默失败,而是返回上一次成功请求对应的 *http.Response 和该错误(包装为 *url.Error)。这意味着你无需重写 RoundTripper,也无需手动模拟重定向逻辑——标准客户端完全胜任“选择性跟随 + 中断捕获”。

以下是一个生产就绪的实践示例:

package main

import (
    "errors"
    "fmt"
    "net/http"
    "net/url"
    "strings"
)

// 自定义错误类型,用于语义化标识“应中止且非异常”
var ErrPaywalled = errors.New("redirect would land on paywall")

// 定义需拦截的敏感域名(支持子域名匹配)
var blockedHosts = map[string]struct{}{
    "registration.ft.com": {},
    "login.nytimes.com":   {},
    "account.wsj.com":     {},
}

func isBlockedHost(host string) bool {
    for domain := range blockedHosts {
        if strings.HasSuffix(host, domain) || host == domain {
            return true
        }
    }
    return false
}

var client = &http.Client{
    CheckRedirect: func(req *http.Request, via []*http.Request) error {
        // 防御性检查:避免无限重定向(建议生产环境启用)
        if len(via) > 10 {
            return fmt.Errorf("stopped after 10 redirects")
        }

        if isBlockedHost(req.URL.Host) {
            return ErrPaywalled
        }
        return nil // 继续重定向
    },
}

func resolveURL(target string) (*url.URL, error) {
    resp, err := client.Get(target)
    if err != nil {
        // 区分真正的网络错误与预期的 Paywall 中断
        if urlErr, ok := err.(*url.Error); ok && urlErr.Err == ErrPaywalled {
            // ✅ 成功:resp 是抵达 paywall 前的最后一个有效响应
            return resp.Request.URL, nil
        }
        return nil, err // 其他错误(DNS 失败、超时等)需上报
    }
    defer resp.Body.Close()

    // 若未触发 CheckRedirect 错误,说明全程无拦截,返回最终 URL
    return resp.Request.URL, nil
}

func main() {
    finalURL, err := resolveURL("http://on.ft.com/14pQBYE")
    if err != nil {
        fmt.Printf("Failed to resolve: %v\n", err)
        return
    }
    fmt.Printf("Resolved to: %s\n", finalURL.String())
}

核心要点总结

  • CheckRedirect 返回自定义错误(如 ErrPaywalled)是合法且推荐的控制流手段,不是异常;
  • resp.Request.URL 即为最后一次成功 HTTP 请求所使用的 URL,也就是你想要的“Paywall 前地址”;
  • 务必检查 err 类型和具体值,仅对预期错误(如 ErrPaywalled)做静默处理,其他错误(如连接超时、TLS 握手失败)必须显式处理;
  • 生产环境中应加入重定向循环防护(如限制 len(via) 端口);
  • 若需完整重定向路径,可将 via 切片中的每个 req.URL 记录下来,但注意 via 不包含最终 resp.Request.URL,需手动追加。

这一模式简洁、高效,完全基于标准库,无需引入第三方依赖或复杂封装,是 Go 中实现智能 URL 解析的首选方案。