Python使用BeautifulSoup4修改网页内容实战

admin

145350
文章

119
评论

2023年10月13日23:36:39评论13 views字数 4669阅读15分33秒阅读模式

Python使用BeautifulSoup4修改网页内容实战

最近有个小项目，需要爬取页面上相应的资源数据后，保存到本地，然后将原始的HTML源文件保存下来，对HTML页面的内容进行修改将某些标签整个给替换掉。

对于这类需要对HTML进行操作的需求，最方便的莫过于BeautifulSoup4的库了。

样例的HTML代码如下：

<html>
<body>
    <a class="videoslide" href="http://www.test.com/wp-content/uploads/1020/1381824922.JPG">
       <img src="http://www.test.com/wp-content/uploads/1020/1381824922_zy_compress.JPG" data-zy-media-id="zy_location_201310151613422786"/>
    </a>
    <a href="http://www.test.com/wp-content/uploads/1020/第一张_1381824798.JPG">
       <img data-zy-media-id="zy_image_201310151613169945" src="http://www.test.com/wp-content/uploads/1020/第一张_1381824798_zy_compress.JPG"/></a>
    <a href="http://www.test.com/wp-content/uploads/1020/第二张_1381824796.jpg">
       <img data-zy-media-id="zy_image_201310151613163009" src="http://www.test.com/wp-content/uploads/1020/第二张_1381824796_zy_compress.jpg"/>
    </a>
    <a href="http://www.test.com/wp-content/uploads/1020/第三张.jpg">
       <img data-zy-media-id="zy_image_201312311838584446" src="http://www.test.com/wp-content/uploads/1020/第三张_zy_compress.jpg"/>
    </a>
</body>
</html>

这里主要包括了<a >标签，<a >标签里面嵌入了<img >标签，其中有<a class="videoslide">的标识该标签实际是可以播放动画的。需要根据class="videoslide" 来判断将整个<a >标签换成播放器的<video >标签，将没有class="videoslide" 的<a >标签换成<figure>标签。

也就是将带有的<a class="videoslide" ...><img ... /></a>标签换成

<div class="video">
<video controls width="100%" poster="视频链接的图片地址.jpg">
    <source src="视频文件的静态地址.mp4" type="video/mp4" />
    您的浏览器不支持H5视频，请使用Chrome/Firefox/Edge浏览器。
</video>
</div>

将<a ....><img .../></a>标签换成

<figure>
    < img src="图片地址_compressed.jpg" data-zy-media-id="图片地址.jpg">
    <figcaption>文字说明（如果有）</figcaption>
</figure>

这里通过BeautifulSoup4 的select()方法找到标签，通过get()方法获取标签及标签属性值，通过replaceWith来替换标签，具体代码如下：
首先安装BeautifulSoup4的库，BeautifulSoup4库依赖于lxml库，所以也需要安装lxml库。

1 2	pip install bs4 pip install lxml

具体代码实现如下：

import os
from bs4 import BeautifulSoup
htmlstr='<html><body>' 
        '<a class="videoslide" href="http://www.test.com/wp-content/uploads/1020/1381824922.JPG">' 
        '<img src="http://www.test.com/wp-content/uploads/1020/1381824922_zy_compress.JPG" /></a>' 
        '<a href="http://www.test.com/wp-content/uploads/1020/第一张_1381824798.JPG">' 
        '<img  src="http://www.test.com/wp-content/uploads/1020/第一张_1381824798_zy_compress.JPG"/></a>' 
        '<a href="http://www.test.com/wp-content/uploads/1020/第二张_1381824796.jpg">' 
        '<img  src="http://www.test.com/wp-content/uploads/1020/第二张_1381824796_zy_compress.jpg"/></a>' 
        '<a href="http://www.test.com/wp-content/uploads/1020/第三张.jpg">' 
        '<img  src="http://www.test.com/wp-content/uploads/1020/第三张_zy_compress.jpg"/></a>' 
        '</body></html>'

def procHtml(htmlstr):
    soup = BeautifulSoup(htmlstr, 'lxml')
    a_tags=soup.select('a')
    for a_tag in a_tags:
        a_tag_src = a_tag.get('href')
        a_tag_filename = os.path.basename(a_tag_src)
        a_tag_path = os.path.join('src', a_tag_filename)
        a_tag['href']=a_tag_path
        next_tag=a_tag.next
        #判断是视频还是图片，如果a标签带了class="videoslide" 是视频否则是图片
        if a_tag.get('class') and 'videoslide'==a_tag.get('class')[0]:
            # 处理视频文件
            media_id = next_tag.get('data-zy-media-id')
            if media_id:
                media_url = 'http://www.test.com/travel/show_media/' + str(media_id)+'.mp4'
                media_filename = os.path.basename(media_url)
                media_path = os.path.join('src', media_filename)
                # 将div.video标签替换a标签
                video_html = '<div class="video"><video controls width = "100%" poster = "' + a_tag_path + '" ><source src = "' + media_path + '" type = "video/mp4" /> 您的浏览器不支持H5视频，请使用Chrome / Firefox / Edge浏览器。</video></div>'
                video_soup = BeautifulSoup(video_html, 'lxml')
                a_tag.replaceWith(video_soup.div)
        else:
            #获取图片信息
            if 'img'==next_tag.name:
                img_src=next_tag.get('src')
                # 判断是否路径是否为本地资源 data:image和file:
                if img_src.find('data:image') == -1 and img_src.find('file:') == -1:
                    img_filename = os.path.basename(img_src)
                    img_path = os.path.join('src', img_filename)
                    # 将<figure><img>标签替换a标签
                    figcaption=''
                    figure_html='<figure><img src="'+img_path+'" data-zy-media-id="'+a_tag_path+'"><figcaption>'+figcaption+'</figcaption></figure>'
                    figure_soup = BeautifulSoup(figure_html, 'lxml')
                    a_tag.replaceWith(figure_soup.figure)
    html_content = soup.contents[0]
    return html_content

if __name__ == '__main__':
    pro_html_str=procHtml(htmlstr)
    print(pro_html_str)

结果:

<html>
<body>
<div class="video">
<video controls="" poster="src1381824922.JPG" width="100%">
<source src="srczy_location_201310151613422786.mp4" type="video/mp4"/> 您的浏览器不支持H5视频，请使用Chrome / Firefox / Edge浏览器。
</video>
</div>
<figure>
<img data-zy-media-id="src第一张_1381824798.JPG" src="src第一张_1381824798_zy_compress.JPG"/>
<figcaption></figcaption>
</figure>
<figure>
<img data-zy-media-id="src第二张_1381824796.jpg" src="src第二张_1381824796_zy_compress.jpg"/>
<figcaption></figcaption></figure>
<figure>
<img data-zy-media-id="src第三张.jpg" src="src第三张_zy_compress.jpg"/>
<figcaption></figcaption>
</figure>
</body>
</html>

博客地址：http://xiejava.ishareread.com/

关注：微信公众号,一起学习成长！

原文始发于微信公众号（fullbug）：Python使用BeautifulSoup4修改网页内容实战

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Python使用BeautifulSoup4修改网页内容实战

记一次难忘的net直播审计

开源 | MeiGen-MultiTalk：基于单张照片实现多人互动演绎

Java 安全 | JBossInterceptors1 & JavassistWeld1 链

Java代码审计第七章-任意文件上传漏洞（上）

PHP基础-数组相关函数

javaFx 安全开发三

『每周译Go』Go 新增模糊测试系统的内部原理

炼石计划之50套JavaWeb代码审计（二）：基于SpringBoot架构的OA系统

汇编语言Day04

记一次（咸鱼、转转、交易猫）假客服系统的代码审计

发表评论

在线咨询

微信