禁用外部实体引用可防止XXE攻击,需在Java(DOM/SAX/StAX)、.NET、Python、PHP及Node.js等各平台解析器中分别配置安全选项,如禁用DOCTYPE、关闭外部实体加载、启用安全处理模式等。

如果您在应用程序中使用XML解析器处理不受信任的XML输入,而未禁用外部实体引用,则可能遭受XML外部实体(XXE)攻击。以下是禁用外部实体以防止XXE攻击的多种配置方法:
一、Java DOM解析器配置
Java的DOM解析器默认允许加载外部实体,需显式设置相关属性来禁用该行为。通过DocumentBuilderFactory控制解析器的安全特性可有效阻止XXE。
1、创建DocumentBuilderFactory实例并设置为非验证模式。
2、调用setFeature方法禁用http://apache.org/xml/features/disallow-doctype-decl特性。
3、调用setFeature方法禁用http://xml.org/sax/features/external-general-entities和http://xml.org/sax/features/external-parameter-entities特性。
4、设置http://javax.xml.XMLConstants/feature/secure-processing为true以启用安全处理模式。
5、使用configureFactory获得DocumentBuilder并解析XML输入。
二、Java SAX解析器配置
SAX解析器通过XMLReader或SAXParser控制解析行为,必须在解析前关闭外部实体加载能力,否则将暴露于XXE风险。
1、获取SAXParserFactory实例并调用setFeature方法。
2、禁用http://xml.org/sax/features/external-general-entities特性。
3、禁用http://xml.org/sax/features/external-parameter-entities特性。
4、启用http://javax.xml.XMLConstants/feature/secure-processing特性。
5、使用SAXParser解析XML流时确保上述配置已生效。
三、Java StAX解析器配置
StAX解析器(如Woodstox或Sun's default)需通过XMLInputFactory设置安全属性,防止在事件驱动解析过程中加载外部DTD或实体。
1、调用XMLInputFactory.newInstance()获取工厂实例。
2、设置javax.xml.stream.isSupportingExternalEntities属性为false。
3、设置javax.xml.stream.supportDTD属性为false。
4、若使用Woodstox,额外设置com.ctc.wstx.prop.loadExternalDTD为false。
5、使用createXMLStreamReader创建解析器并传入受控输入源。
四、.NET XmlReader配置
.NET平台中的XmlReader默认启用DTD处理,需显式禁用外部实体解析以规避XXE漏洞。通过XmlReaderSettings对象集中管理安全策略。
1、新建XmlReaderSettings实例并设置DtdProcessing属性为DtdProcessing.Prohibit。
2、将XmlResolver属性设为null以阻止任何外部资源解析。
3、设置IgnoreComments、IgnoreProcessingInstructions和IgnoreWhitespace为true以减少攻击面。
4、启用MaxCharactersFromEntities限制实体展开深度。
5、使用XmlReader.Create方法配合该Settings实例创建安全解析器。
五、Python xml.etree.ElementTree配置
Python标准库中的ElementTree默认不解析DTD,但若与xmlparser配合使用或启用recover模式,仍可能触发外部实体加载。需强制隔离解析上下文。
1、避免使用xml.etree.ElementTree.parse()直接解析不可信输入。
2、改用xml.etree.ElementTree.XMLParser()并传入target=TreeBuilder()。
3、在构造XMLParser时指定resolve_entities=False参数。
4、对输入XML预处理,移除DOCTYPE声明及内部子集中的ENTITY定义。
5、使用defusedxml库替代标准xml模块,其defusedxml.ElementTree.parse()默认禁用全部外部实体。
六、PHP libxml配置
PHP的libxml扩展(如simplexml_load_string、DOMDocument)依赖底层libxml设置。必须在解析前全局或局部禁用外部实体加载功能。
1、调用libxml_disable_entity_loader(true)全局禁用实体加载。
2、若使用DOMDocument,设置$dom->loadXML($xml, LIBXML_NOENT | LIBXML_DTDLOAD)改为仅使用LIBXML_NOENT且不包含LIBXML_DTDLOAD。
3、调用libxml_set_external_entity_loader(null)清除自定义加载器。
4、对simplexml_load_string等函数,确保第二个参数未启用LICENSE_XML_DTD标志。
5、升级libxml至2.9.0以上版本,并确认编译时未启用--with-libxml以外的危险选项。
七、Node.js xmldom或xml2js配置
Node.js生态中常用xmldom或xml2js解析XML,二者均存在默认启用外部实体的风险,需通过选项或补丁方式关闭。
1、使用xmldom时,在创建DOMParser实例时传入{ forbidDTD: true, forbidEntity: true }选项。
2、若使用旧版xmldom,手动重写DOMImplementation.prototype.createDocument以拦截实体解析逻辑。
3、对于xml2js,设置options.explicitRoot = false并启用options.ignoreAttrs = true降低攻击可能性。
4、在xml2js中注入自定义attrValueProcessors,过滤含SYSTEM或PUBLIC关键字的实体声明。
5、优先选用@rgrove/sanitize-xml等专用防护库对输入进行预清洗,移除DOCTYPE及ENTITY节点。










