0

0

Django模板中安全地过滤特定HTML标签:使用Bleach库实现内容白名单

聖光之護

聖光之護

发布时间:2025-10-31 13:17:01

|

289人浏览过

|

来源于php中文网

原创

Django模板中安全地过滤特定HTML标签:使用Bleach库实现内容白名单

本文深入探讨如何在django应用中安全地处理用户输入的html内容,以有效防止跨站脚本(xss)攻击,同时仅允许显示预定义的特定html标签。我们将详细介绍如何利用python的`bleach`库,通过构建标签白名单机制,实现对用户输入html的精确净化,确保在前端页面安全、合规地渲染内容。

在现代Web应用中,允许用户输入并显示HTML内容是一种常见需求,例如富文本编辑器或评论区。然而,直接将用户输入的HTML渲染到页面上存在巨大的安全风险,尤其是跨站脚本(XSS)攻击。恶意用户可能会注入

为了解决这一问题,我们需要一种机制来过滤用户输入的HTML,只保留一个预定义的、安全的标签白名单。Python的bleach库正是为此而生,它提供了一个强大而灵活的HTML清洗工具

为什么选择Bleach?

Django自带的safe过滤器仅仅是标记字符串为“安全”,告诉模板引擎不要对其进行HTML转义。这意味着如果用户输入了并使用|safe渲染,该脚本会直接执行。这显然不是我们想要的结果。

bleach库则不同,它是一个专门用于清理和消毒HTML的第三方库。它允许开发者定义一个允许的HTML标签、属性、样式和协议的白名单,然后从输入的HTML中移除所有不在白名单中的内容,从而有效地抵御XSS攻击。

立即学习前端免费学习笔记(深入)”;

安装Bleach

首先,你需要在你的Python环境中安装bleach库。通过pip可以轻松完成:

pip install bleach

使用Bleach进行HTML内容过滤

bleach的核心功能体现在其clean()方法上。以下是如何定义允许的HTML标签并使用bleach.clean()来过滤用户输入的示例:

假设我们只允许用户输入
(换行)、(斜体)、(加粗)、

    (无序列表)和
  • (列表项)这五种HTML标签。

import bleach

# 定义允许的HTML标签白名单
# 注意:bleach默认会移除所有不在白名单中的标签及其内容,
# 但可以通过指定strip=False来保留标签内容,只移除标签本身。
ALLOWED_TAGS = ['br', 'i', 'strong', 'ul', 'li']

# 示例用户输入,包含允许和不允许的标签,以及潜在的恶意脚本
user_input = """

这是一个 示例 内容,包含 斜体
换行。

晓语台
晓语台

晓语台,是一款AI文本创作产品。创作能力主要围绕营销文本的AI创作,晓语台覆盖了品牌与市调、商业媒体、社交媒体、搜索营销、数字广告、职场办公共六类全营销文本

下载
  • 列表项1
  • 列表项2
点击我 """ # 使用bleach.clean()进行过滤 # tags参数接受一个列表,指定允许的HTML标签 # strip参数默认为True,表示移除不允许的标签及其内容。 # 如果想保留内容,只移除标签本身,可以设置为False。 cleaned_user_input = bleach.clean(user_input, tags=ALLOWED_TAGS, strip=True) print("--- 原始输入 ---") print(user_input) print("\n--- 过滤后的输出 ---") print(cleaned_user_input)

输出结果:

--- 原始输入 ---

这是一个 示例 内容,包含 斜体
换行。

  • 列表项1
  • 列表项2
点击我 --- 过滤后的输出 --- 这是一个 示例 内容,包含 斜体
换行。
  • 列表项1
  • 列表项2

从输出可以看出,

标签、

Django中的集成与最佳实践

在Django应用中,你可以在视图函数、表单的clean()方法或自定义模板过滤器中调用bleach.clean()。

1. 在视图函数中处理

# your_app/views.py
from django.shortcuts import render
import bleach

ALLOWED_TAGS = ['br', 'i', 'strong', 'ul', 'li']

def display_user_content(request):
    user_raw_html = request.POST.get('content', '') # 假设从POST请求获取

    # 在传递给模板之前进行清洗
    cleaned_html = bleach.clean(user_raw_html, tags=ALLOWED_TAGS, strip=True)

    context = {
        'safe_content': cleaned_html
    }
    return render(request, 'your_template.html', context)

然后在Django模板中,你可以安全地渲染这个已清洗过的HTML:


用户提交内容:

{{ safe_content|safe }} {# 此时使用|safe是安全的,因为内容已经过bleach清洗 #}

2. 创建自定义模板过滤器

为了更好地复用和保持模板的简洁性,你可以创建一个自定义模板过滤器来封装bleach的逻辑。

首先,在你的Django应用目录下创建一个templatetags文件夹(如果不存在),并在其中创建一个Python文件,例如my_filters.py:

# your_app/templatetags/my_filters.py
from django import template
import bleach

register = template.Library()

ALLOWED_TAGS_FOR_CONTENT = ['br', 'i', 'strong', 'ul', 'li']
# 也可以定义其他用途的标签列表,例如评论区可以允许更少的标签

@register.filter
def bleach_html(value):
    """
    使用bleach清洗HTML内容,只保留预定义的安全标签。
    """
    if not isinstance(value, str):
        return value
    return bleach.clean(value, tags=ALLOWED_TAGS_FOR_CONTENT, strip=True)

# 如果需要更灵活的标签控制,可以考虑传入标签列表作为参数
# 但模板过滤器传参通常只支持一个,复杂场景建议在视图中处理
# @register.filter
# def bleach_html_with_tags(value, tags_str):
#     if not isinstance(value, str):
#         return value
#     allowed_tags = [tag.strip() for tag in tags_str.split(',')]
#     return bleach.clean(value, tags=allowed_tags, strip=True)

然后,在你的Django模板中加载并使用这个过滤器:


{% load my_filters %}

用户提交内容:

{# 假设 user.profile.bio 包含用户输入的HTML #} {{ user.profile.bio|bleach_html|safe }} {# 先清洗,再标记为安全 #}

注意: 即使使用了自定义过滤器,最终渲染时仍然需要加上|safe,因为bleach_html过滤器返回的是一个普通的字符串,Django模板引擎在autoescape模式下依然会对其进行转义。|safe的作用是告诉模板引擎,这个字符串是安全的,可以直接作为HTML输出。

注意事项与总结

  • 白名单原则:始终采用白名单机制,即只允许明确批准的标签和属性,而不是尝试黑名单禁止所有已知恶意内容。黑名单容易遗漏新的攻击向量。
  • 属性和样式:bleach不仅可以过滤标签,还可以通过attributes和styles参数控制允许的HTML属性和CSS样式。例如,bleach.clean(html, tags=['a'], attributes={'a': ['href', 'title']})。
  • 协议:对于href、src等可能包含URL的属性,bleach允许通过protocols参数限制允许的协议(如http, https, mailto),以防止javascript:等恶意协议。
  • 清理时机:HTML清理操作应该在数据存储到数据库之前进行,或者在从数据库读取后、渲染到模板之前进行。通常建议在数据进入应用层时就进行清洗,例如在表单验证或模型保存前。
  • 用户体验:在清理HTML时,如果移除了用户输入的某些标签,最好能给用户一些反馈,例如说明允许的标签列表,或者在前端富文本编辑器中限制可用的功能。

通过bleach库,我们可以有效地在Django应用中实现对用户输入HTML的安全过滤,仅允许特定的HTML标签显示,从而在提供丰富内容展示能力的同时,极大地增强了应用的安全性,有效防范了XSS攻击。这是一个在处理用户生成内容时不可或缺的安全实践。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

706

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

624

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

734

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

616

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1234

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

694

2023.08.11

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

10

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.7万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.6万人学习

CSS教程
CSS教程

共754课时 | 16.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号