前段时间在自己又在折腾个人项目,
需要让大模型去理解图片......
图片理解
对话大模型要理解图片,有一个比较简单的方法。因为这种模型只能接收文本输入内容,所以换个思路把图片的内容转为文本即可,即通过一个图片大模型将图片内容讲出来。
AI绘画的步骤是什么,通过传入描述的prompt来生成图片。那么图片理解就是个逆过程,将图片内容转为prompt即可。
Clip Interrogator
直接贴项目链接,这项目可以通过pip进行安装,不过多解释了,都在README中
https://github.com/pharmapsychotic/clip-interrogator
它依赖pytorch,所以如果想要用GPU来处理,那么就装GPU版本的,这个不过多赘述根据自己的CUDA版本进行选择安装
https://pytorch.org/get-started/locally/
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
随后直接pip安装clip interrogator
pip install clip-interrogator
标题三
给一个简单的demo,第一次需要下载模型会耗费一些时间,然后就可以正常使用了,可以直接获取到图片中的内容
from PIL import Image
from clip_interrogator import Config, Interrogator
image = Image.open("test.jpg").convert('RGB')
config = Config(clip_model_name="ViT-L-14/openai")
config.apply_low_vram_defaults()
ci = Interrogator(config)
image_info = ci.interrogate(image)
print(image_info)
原文始发于微信公众号(飞羽技术工坊):分享一个好用的图片理解模型
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论