分享一个好用的图片理解模型

admin

140862
文章

117
评论

2024年8月2日07:51:06评论16 views字数 868阅读2分53秒阅读模式

前段时间在自己又在折腾个人项目，

需要让大模型去理解图片......

图片理解

对话大模型要理解图片，有一个比较简单的方法。因为这种模型只能接收文本输入内容，所以换个思路把图片的内容转为文本即可，即通过一个图片大模型将图片内容讲出来。

AI绘画的步骤是什么，通过传入描述的prompt来生成图片。那么图片理解就是个逆过程，将图片内容转为prompt即可。

Clip Interrogator

直接贴项目链接，这项目可以通过pip进行安装，不过多解释了，都在README中

https://github.com/pharmapsychotic/clip-interrogator

分享一个好用的图片理解模型

它依赖pytorch，所以如果想要用GPU来处理，那么就装GPU版本的，这个不过多赘述根据自己的CUDA版本进行选择安装

https://pytorch.org/get-started/locally/

分享一个好用的图片理解模型

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

随后直接pip安装clip interrogator

pip install clip-interrogator

标题三

给一个简单的demo，第一次需要下载模型会耗费一些时间，然后就可以正常使用了，可以直接获取到图片中的内容

from PIL import Imagefrom clip_interrogator import Config, Interrogatorimage = Image.open("test.jpg").convert('RGB')config = Config(clip_model_name="ViT-L-14/openai")config.apply_low_vram_defaults()ci = Interrogator(config)image_info = ci.interrogate(image)print(image_info)

原文始发于微信公众号（飞羽技术工坊）：分享一个好用的图片理解模型

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

分享一个好用的图片理解模型

玩转MCP第一弹｜手把手教你将 Figma 设计稿转化为前端代码

【DeepSeek实践】Mcp+DeepSeek的Demo编写体验

Brewer-Nash安全模型介绍

MCP安全最佳实践（官方草案）

提示词注入攻击的检测和数据集介绍

ai攻防应用-基于AE神经网络模型识别检测异常攻击欺诈

针对所有主流大语言模型的新型通用绕过方法

因果推断(Causal Inference)引言

大模型安全攻防

使用 AI 和 Cursor 的高效方法

发表评论

在线咨询

微信