python富文本XSS过滤器

2021年8月31日08:39:04评论104 views字数 1530阅读5分6秒阅读模式

python做web开发当今已经逐渐成为主流之一，但相关的一些第三方模块和库还没有php和node.js多。

比如XSS过滤组件，PHP下有著名的“HTML Purifier”（http://htmlpurifier.org/ ），还有非著名过滤组件“XssHtml”（http://phith0n.github.io/XssHtml ），当然后者是我自己开发的。

python的pip下也可以安装一款名为“html-purifier”的库，但此purifier和php下的就大不相同了。这个库负责将html中，白名单以外的标签和属性过滤掉。

注意，他并不是过滤XSS的，只是过滤不在白名单内的标签和属性。也就是说，类似<a href="javascript:xxx">等javascript是不会被过滤的。

所以我只好自己开发了一个python xss filter，用在自己以后做的python项目中。

说一下具体实现原理。

解析HTML

解析HTML，使用的是python自带的HTMLParser类。在python2中，名字叫HTMLParser，在python3中叫html.parser。

使用HTMLParser，需要自己的类继承HTMLParser，并实现其中的handle_starttag、handle_startendtag、handle_endtag、handle_data等方法。

如handle_starttag方法，是在进入一个标签的时候被调用的。我们就可以在实现这个方法的时候，就可以获得此时正在处理的标签tag，和所有属性attrs。

我们就可以检查tag、attrs是否在白名单中，并对其中特殊的一些标签和属性做特殊处理，如下：
链接特殊处理

有些属性是可以用javascript伪协议来执行javascript代码的，如a的href，embed的src，所以需要对其进行特殊处理：判断是否以http|https|ftp://开头，如果不是则强制在前面加上http://

通过这个方式，对抗潜在的XSS注入。
embed特殊处理

embed是嵌入swf等媒体文件的标签，理论上有时候我们的富文本编辑器是允许插入flash的。但我们需要保证flash内不能执行任意javascript代码，也不能让他发出一些HTTP请求（容易造成CSRF攻击）。

所以强制设置embed标签的allowscriptaccess=never，allownetworking=none：
拼接标签和属性的时候，防止双引号越出，成为新标签

我曾经在Roundcube Webmail中找到一个XSS漏洞（CVE-2015-1433），导致原因就是因为白名单检测完毕后再拼接html标签和属性的时候没有过滤双引号，导致属性值越出，变成一个新的属性名，导致XSS。

所以我这里使用self.__htmlspecialchars处理属性值，防止越出：

使用也比较方便，最简单的demo如下：

import pxfilter

parser = pxfilter.XssHtml()

parser.feed('<html code>')

parser.close()

html = parser.getHtml()

print html

再根据源码中的说明进行修改即可。github项目地址：https://github.com/phith0n/python-xss-filter

自己用web.py搭了个demo，欢迎测试、提交issues：http://python-xss-filter.leavesongs.com/ ，功能上、安全上都还需要大家给些建议。

本文始发于微信公众号（代码审计）：python富文本XSS过滤器

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

python富文本XSS过滤器

Clash Verge rev提权与命令执行分析

【实战】手把手学习写一个MCP服务，获取热榜文章

借助pikachu和DVWA靶场带你走进跨站请求伪造CSRF攻击

揭露导致组织论坛崩溃的简单错误

深度学习基础架构革新？通过梯度近似寻找Normalization的替代品

栈溢出从复现到挖掘-CVE-2018-18708漏洞复现详解

windows rookit防护-权限提升

通过手机和邮箱查真实姓名-币安

常见的信息泄露漏洞挖掘（第二部分）

实战中踩过的坑：我是如何用Ingram搞定摄像头漏洞扫描的

发表评论

在线咨询

微信