lxml 中文乱码解决

独自等待

503
文章

0
评论

2017年5月10日16:23:26评论1,176 views字数 1116阅读3分43秒阅读模式

今天帮群友解决一个lxml抓取所有文本时遇到的问题，lxml抓取中文会乱码，搜索一下，找到如下的解决方案，分享给大家。

1、要保证传给lxml的参数都是unicode

2、用 urlopen() 抓到的 file-like object ，或者用open()打开的硬盘上的 file object 不一定是unicode

3、用 unicode(file-like-object.read(),"utf-8") 能得到肯定是unicode的东西

4、这样处理之后再传给lxml的fromstring

5、xml.etree.ElementTree 也是一样

6、虽然lxml.html.parse()可以接受file-like object 作为参数，但是不要用，因为你传进去一个file-like object 你也不知道是不是unicode，万一有中文就会有乱码。

7、总是用unicode(file-like-object.read(),"utf-8") 这么转换对性能肯定是不好，但目前我也只会这种笨方法

应用到代码中如下，请大家参考：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Date: 2016/2/14
# Created by 独自等待
# 博客 http://www.waitalone.cn/
import urllib2
from lxml import etree
from lxml.html.clean import Cleaner


def getText(url):
    '''
    获取指定url返回页的所有文字
    :param url: 需要抓取的url
    :return: 返回文字
    '''
    page = urllib2.urlopen(url, timeout=10).read()
    page = unicode(page, "utf-8")  # 转换编码,否则会导致输出乱码
    cleaner = Cleaner(style=True, scripts=True, page_structure=False, safe_attrs_only=False)  # 清除掉CSS等
    str = etree.HTML(cleaner.clean_html(page))
    texts = str.xpath('//*/text()')  # 获取所有文本
    for t in texts:
        print t.strip().encode('gbk', 'ignore')


getText('http://www.360.cn/')

参考文章：

lxml 中文乱码

用lxml解析HTML

from www.waitalone.cn.thanks for it.

左青龙
微信扫一扫

右白虎
微信扫一扫

lxml 中文乱码解决

HTML5下的XSS测试代码

phpcmsV9.6.0注入+前台getshell

WAF绕过参考资料

阿里”先知”：白帽子的日常与信仰

mac下安装scrapy的正确姿势

Java反序列化工具

Struts2 S2-045 Jakarta插件远程代码执行漏洞加固方法

Win10配置使用Cisco VPN Client

BurpSuite系列使用视频教程

XSS高级实战教程

发表评论

在线咨询

微信