
python默认url编码不转义波浪号`~`,因其属于rfc 3986定义的“未保留字符”,合法存在于url中;若需强制编码为`%7e`,需自定义编码逻辑或显式指定`safe=''`参数。
在Python中使用urllib.parse.quote()进行URL编码时,~(波浪号)默认不会被编码——这并非bug,而是严格遵循URI标准(RFC 3986):~被明确列为未保留字符(unreserved characters),与字母、数字、-, _, ., !, ', (, ), * 等一同允许直接出现在URL中,无需百分号转义。其对应的编码%7E虽语法正确,但非必需。
因此,以下代码行为完全符合规范:
from urllib.parse import quote url = 'https://bla/ble:bli~' print(quote(url)) # 输出: 'https%3A//bla/ble%3Abli~' print(quote(url, safe='~')) # 输出: 'https%3A%2F%2Fbla%2Fble%3Abli~'(仅/被编码,~仍保留)
✅ 正确做法:如无特殊协议要求,应保持~原样——多数Web服务(如REST API、CDN、对象存储)均接受未编码的~,强行编码反而可能引发兼容性问题。
⚠️ 若业务场景强制要求编码所有特殊字符(含~),请避免简单替换(易出错),推荐使用safe=''参数清空安全字符集:
from urllib.parse import quote url = 'https://bla/ble:bli~' encoded = quote(url, safe='') # 显式声明:无字符是“安全”的 print(encoded) # 输出: 'https%3A%2F%2Fbla%2Fble%3Abli%7E'
此时~被编码为%7E,冒号:变为%3A,斜杠/变为%2F,全部符合W3Schools等教程所列编码表。
❌ 不建议手动遍历字符串+ord()+hex()拼接(如原答案中的url_encode()函数),原因包括:
- 无法正确处理Unicode字符(如中文、emoji);
- 忽略了URL各组成部分(scheme、host、path、query)的不同编码规则;
- 重复替换可能导致错误(如%本身被多次编码成%25);
- 违背urllib设计哲学——它已内置RFC合规实现。
? 进阶提示:
- 对完整URL编码,请优先使用urllib.parse.quote_plus()(空格→+)或urllib.parse.quote()(空格→%20);
- 若需编码URL查询参数值(如?name=John Doe&tag=py~dev),应仅对value单独编码:
from urllib.parse import quote params = f"name={quote('John Doe')}&tag={quote('py~dev')}" # → 'name=John%20Doe&tag=py~dev'(~仍不编码,符合惯例) - 第三方库如requests提供requests.utils.requote_uri(),可智能重编码已部分编码的URL,但同样尊重~的未保留地位。
总结:尊重标准比“看起来更编码”更重要。除非服务端文档明确要求~必须为%7E,否则保持默认行为即可——简洁、安全、兼容性强。










