2022年6月14日17:04:26评论688 views字数 819阅读2分43秒阅读模式

0x00 前言

最近在写一个爬虫代码，里面需要使用 get 传参中文，但是如果直接使用中文而不对其编码的话，程序将会报错。

UnicodeEncodeError: 'latin-1' codec can't encode characters in position 38-39: ordinal not in range(256)

0x01 网上的一些解决办法

参考网上的解决办法，比如下面的几种办法。

1、在中文后加上".encode('GBK')"2、在文件头部加上"＃coding = utf-8"3、在中文后加上".encode('utf-8')"

这几种方法在我这里都行不通，抓包也可以看到数据包里的中文并不是我们想象的经过 URL 编码的字符。


GET /test=b'%5Cxe6%5Cxb5%5Cx8b%5Cxe8%5Cxaf%5Cx95' HTTP/1.1

0x02 可行的办法
最后才意识到，其实并不需要对中文进行 GBK、UTF-8 转码，而应该对其进行 URL 编码。
from urllib.parse import quotetext = quote("测试", 'utf-8')

利用 quote 函数对 “测试” 进行 URL 编码后，再次抓包可以看到中文部分已经是 URL 格式了。
GET /test=%E6%B5%8B%E8%AF%95 HTTP/1.1

此时，程序也不再报错，可以顺利执行了。

本文原文地址：https://www.teamssix.com/year/200206-202951.html
参考文章：https://blog.csdn.net/qq_33876553/article/details/79730246


往期推荐
【摘要】漏洞组合拳之XSS+CSRF记录

经验总结 | SQL注入Bypass安全狗360主机卫士

Python Scrapy 爬虫框架 | 6、继续爬虫、终止和重启任务




原文始发于微信公众号（TeamsSix）：【经验总结】Python3 Requests 模块请求内容包含中文报错的解决办法

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【经验总结】Python3 Requests 模块请求内容包含中文报错的解决办法

0x00 前言

0x01 网上的一些解决办法

0x02 可行的办法

代码审计-Dedecms diy_list.php SQL注入

MySQL常用命令？我看是必备生存技能才对！

某OA代码审计之挖掘0day，未公开poc

某CRM系统前台RCE漏洞

一次某info开源系统漏洞挖掘

Java代码审计鉴权绕过

记某微聊源码代码审计过程

安全开发: minifilter的流概念

【PHP代审】最新PHP礼品卡回收商城

API接口深度发现的动态爬虫实现(3. Web框架识别和移除鉴权)

发表评论

在线咨询

微信