最稳妥的URL编解码需手动查表:编码保留A-Z、a-z、0-9及-_.~,空格转%20,中文等先转UTF-8再编码;解码须严格校验%XX格式,大小写不敏感,不自动转码。

URL 编码:用 std::ostringstream + 手动查表最稳妥
标准 C++ 没有内置 URL 编码函数,std::urlencode 不存在,别被某些文档误导。最可靠的方式是遍历字符串,对非字母数字及 -_.~ 字符做百分号编码。
注意:RFC 3986 明确规定只保留 A-Z a-z 0-9 - _ . ~ 不编码,空格必须转为 %20(不是 +),这点和 application/x-www-form-urlencoded 不同。
- 不要用
std::hex直接输出小写十六进制——需补前导零并强制大写(如' ' → "%20",不是 "%2") - 中文、emoji 等需先转 UTF-8 字节序列再编码,不能直接 cast
char——否则多字节字符会乱码 - 常见错误:把
'/'或':'漏掉编码,导致生成的 URL 被解析器截断
std::string url_encode(const std::string& s) {
std::ostringstream ret;
for (unsigned char c : s) {
if (std::isalnum(c) || c == '-' || c == '_' || c == '.' || c == '~') {
ret << c;
} else {
ret << '%' << std::uppercase << std::hex << std::setw(2) << std::setfill('0') << (int)c;
}
}
return ret.str();
}URL 解码:逐字节解析 %XX,拒绝无效序列
解码比编码更易出错。核心是识别 % 后跟两个十六进制字符,且必须严格校验——%G1、%1、%123 都应原样保留或报错,不能静默忽略。
UTF-8 安全解码的关键:解码后得到的是 raw bytes,**不自动转码**;若原始是 UTF-8 字符串,解码结果自然仍是合法 UTF-8,无需额外转换。
立即学习“C++免费学习笔记(深入)”;
- 遇到孤立
%或不完整十六进制(如%A),跳过%并保留后续字符,避免崩溃 - 不建议用
std::stoi(..., nullptr, 16)——它会截断非十六进制字符,导致%ZZ变成0 - 大小写不敏感:
%aF和%AF都应解为0xAF
std::string url_decode(const std::string& s) {
std::string ret;
ret.reserve(s.size());
for (size_t i = 0; i < s.size(); ++i) {
if (s[i] == '%' && i + 2 < s.size()) {
int hex_val;
if (std::isxdigit(s[i+1]) && std::isxdigit(s[i+2]) &&
sscanf(s.c_str() + i + 1, "%2x", &hex_val) == 1) {
ret += static_cast(hex_val);
i += 2;
continue;
}
}
ret += s[i];
}
return ret;
} 处理中文和 emoji:必须先 UTF-8 编码再 URL 编码
C++ std::string 本身不区分编码,但 URL 编码操作对象必须是 UTF-8 字节流。如果你拿到的是 std::u8string(C++20)或 std::wstring(Windows 宽字符),得先转 UTF-8。
- Linux/macOS 下,
std::string通常就是 UTF-8,可直接传入url_encode() - Windows 控制台默认是 GBK,读取中文文件或用户输入时,需用
std::wstring_convert<:codecvt_utf8>>(C++17 前)或std::from_bytes(C++23)转 UTF-8 - 别对已编码的字符串重复编码——比如
url_encode(url_encode("你好"))会产生%25E4%25BD%25A0(% 被二次编码)
性能与边界:短字符串用栈,长 URL 避免反复 push_back
URL 编/解码本质是 O(n) 内存拷贝,但高频调用时,std::ostringstream 构造/析构开销明显。对确定长度的短字符串(如 token 参数),可预分配 std::string 并用 reserve() 减少重分配。
- 编码后长度最多是原长 3 倍(如所有字符都编码),解码后 ≤ 原长,预留空间能避免多次内存重分配
- 生产环境若每秒处理万级 URL,建议用无锁静态查表 + SIMD 加速(如 Intel ISA-L),但绝大多数场景没必要
- 永远检查输入是否为空或含嵌入 null 字节(
'\0')——std::string支持 null,但某些 C 接口会截断
实际最难的不是写对逻辑,是搞清你手上的字符串到底是什么编码、从哪来、要交给谁用。URL 编码只是字节搬运工,它不管语义。











