目标数据源分析
(function anonymous() {
debugger;
});
https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=47&gids=5&is_good=false&is_hot=false&last_id=6309404&page_size=20&sort_type=2
1
https://bbs-api.mihoyo.com/post/wapi/getPostFull?gids=5&post_id=6270759&read=1
1
整理需求如下:
1.列表页面无法批量生成,需要指定一个起始 ID,下一次的抓取基于该 ID 值;
2.基于列表页接口返回,直接拼接详情页接口;
3.抓取详情页图片数据;
4.保存数据;
5.得到 3000 张图片之后,开始欣赏。
代码实现时间
# 请求函数
def request_get(url, ret_type="text", timeout=5, encoding="utf-8", host="bbs-api.mihoyo.com"):
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36",
"Origin": "https://bbs.mihoyo.com",
"Referer": "https://bbs.mihoyo.com/",
"Host": host
}
res = requests.get(url=url, headers=headers, timeout=timeout)
res.encoding = encoding
if ret_type == "text":
return res.text
elif ret_type == "image":
return res.content
elif ret_type == "json":
return res.json()
从起始种子开始抓起
# 抓取函数
def main(last_id):
# 起始页面
url = f"https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=47&gids=5&is_good=false&last_id={last_id}&is_hot=false&page_size=20&sort_type=2"
res_json = request_get(url, ret_type="json", timeout=5)
if res_json["retcode"] == 0:
for item in res_json["data"]["list"]:
# 抓取内页数据
detail(item["post"]["post_id"])
if __name__ == '__main__':
main(6356513)
调用图片内页接口
# 保存图片
def save_image(image_src):
content = request_get(image_src, "image", host="upload-bbs.mihoyo.com")
with open(f"{str(time.time())}.jpg", "wb") as f:
f.write(content)
global total
total += 1
print(f"保存第{total}张图片")
# 抓取内页数据
def detail(post_id):
url = f"https://bbs-api.mihoyo.com/post/wapi/getPostFull?gids=5&post_id={post_id}&read=1"
res_json = request_get(url, ret_type="json", timeout=5)
if res_json["retcode"] == 0:
image_list = res_json["data"]["post"]["image_list"]
for img in image_list:
img_url = img["url"]
if (img_url.find("weigui")) < 0:
save_image(img_url)
global total
if __name__ == '__main__':
global total
total = 0
main(6356513)
迭代爬取
# 抓取函数
def main(last_id):
# 起始页面
url = f"https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=47&gids=5&is_good=false&last_id={last_id}&is_hot=false&page_size=20&sort_type=2"
res_json = request_get(url, ret_type="json", timeout=5)
if res_json["retcode"] == 0:
for item in res_json["data"]["list"]:
# 抓取内页数据
detail(item["post"]["post_id"])
if res_json["data"]["last_id"] != "":
return main(res_json["data"]["last_id"])
更多教程
-
Python 爬虫环境 -
应用商店排行榜爬取 -
产品经理书单 -
白菜价商品数据 -
爬取课程标题 -
宝可梦数据 -
美食数据 -
微博热搜采集器
本文始发于微信公众号(蓝桥云课精选):通过Python爬虫,发现60%女装大佬游走在cosplay领域…
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论