分享一个好用的图片理解模型

admin 2024年8月2日07:51:06评论13 views字数 868阅读2分53秒阅读模式

前段时间在自己又在折腾个人项目,

需要让大模型去理解图片......

图片理解

对话大模型要理解图片,有一个比较简单的方法。因为这种模型只能接收文本输入内容,所以换个思路把图片的内容转为文本即可,即通过一个图片大模型将图片内容讲出来。

AI绘画的步骤是什么,通过传入描述的prompt来生成图片。那么图片理解就是个逆过程,将图片内容转为prompt即可。

Clip Interrogator

直接贴项目链接,这项目可以通过pip进行安装,不过多解释了,都在README中

https://github.com/pharmapsychotic/clip-interrogator

分享一个好用的图片理解模型

它依赖pytorch,所以如果想要用GPU来处理,那么就装GPU版本的,这个不过多赘述根据自己的CUDA版本进行选择安装

https://pytorch.org/get-started/locally/

分享一个好用的图片理解模型

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

随后直接pip安装clip interrogator

pip install clip-interrogator

标题三

    给一个简单的demo,第一次需要下载模型会耗费一些时间,然后就可以正常使用了,可以直接获取到图片中的内容

from PIL import Imagefrom clip_interrogator import Config, Interrogatorimage = Image.open("test.jpg").convert('RGB')config = Config(clip_model_name="ViT-L-14/openai")config.apply_low_vram_defaults()ci = Interrogator(config)image_info = ci.interrogate(image)print(image_info)

分享一个好用的图片理解模型

分享一个好用的图片理解模型

原文始发于微信公众号(飞羽技术工坊):分享一个好用的图片理解模型

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年8月2日07:51:06
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   分享一个好用的图片理解模型https://cn-sec.com/archives/3024253.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息