我不属于追赶AI浪潮的人,确实心态不同于20岁时。个人聚焦比较单一,主要关注AI在二进制逆向工程方向的助力效果。像AI文字生图这种事儿,我是真没太多兴趣,也用不起。
关于AI,日常比较关注「宝玉」、「黄健楸」二位。啥东西都是术业有专攻,AI我是超级小白,又不欲被各种营销号带沟里去,关注几个在此领域靠谱、诚信之人,很重要。bluerust倒是靠谱、诚信,但他缺乏降维科普的心,你以AI小白身份问他一个问题,他能给你输出十倍的每个字你都认识但整到一起不明所以的回答,毕竟他智商和动手能力高我一个维度,我受不住这种打击。但前二位不一样,时不时会降维科普一下,注重小白实操性,这点对我很重要。
最近在宝玉的日常分享中看到两则消息。
(1) Gemini有几个模型可以总结YouTube视频
Gemini 2.0 FlashGemini 2.0 Flash Experimental
在aistudio中选中这两个模型之一,输入YouTube视频URL,提问
Summarize this video用中文概述此视频
可分别得到英、中两版概述。
(2) Gemini另有模型可以文字生图
Gemini 2.0 Flash Experimental
在aistudio中选中该模型,输出格式选"Images and text",然后发Prompt让它画图。有个优势是,可对已输出的图片多次对话修正,不是一锤子买卖。
(3) image-fx
我没有作画的本事,用Gemini文字生图后,颇为失望。黄健楸说,免费文字生图工具推荐用Google家另一款工具
https://labs.google/fx/tools/image-fx
他建议向Gemini 2.0 Flash Thinking Experimental或其他模型提问,生成英文版提示词,再贴到image-fx中。
Seed可以锁定,以便生成风格类似的图片。可以选16:9。
不过,知易行难,我并没有得到自己想要的图。作为失败案例,展示一下效果。
向Gemini 2.0 Flash Thinking Experimental或DeepSeek提问生成英文版Prompt:
帮我写一段文字生图的英文版Imagen3 Prompt
画三匹落日下草原上奔弛的骏马。
关于落日下的草原,参照83版射雕英雄传剧照效果。
关于奔弛的骏马,参照草原上野马奔跑的风格,时速60到80km/h,四蹄腾空、四肢舒展,用技术参数具体描述一下骏马奔跑的姿态。
三匹马不要重叠,彼此之间拉开距离。需要远景,从透视原理上看,马不要离我太近,要在大草原的深处、远处。
不要有人出现在马背上或背景中。
超长焦镜头,16:9,远景中骏马从左向右水平奔弛。
整体画风是,广阔的草原,地平线上中间偏右的落日,疾风、追逐、肃穆、萧瑟感。
前两张图是Gemini生成的,第三张图是image-fx生成的。image-fx好像不能多次对话修正?
这些图都不是我想要的。我也不知该如何改进了,整个过程并不丝滑,挫败感强烈。还好,我只是过路的妖精,不是常驻的。
再说个不强相关但也相关的事,ZYP发过一段:
原来老夫说过,但凡可以提升工作效率的东西,最终都是不利于“牛马”的。目前爆火的 AI 也不能例外。同样都是面对DeepSeek,有的人三言两句可以问出结果来,而你可能花了一上午,还在奇怪为什么它根本不明白你在问什么。发现了吗?根源其实在你。作为一个独立个体,你有自己的输入输出系统,这两个系统的KPI分别叫做理解能力和表达能力。在你和AI系统沟通的过程中,你的表达能力和AI的理解能力给最终沟通成效奠定下了基调,也决定了天花板。敞开了想一想就会知道,你平时开个会,跟其他人是不是经常扯不清楚?其实一样的,换个AI,你跟它照样扯不清楚。
我作画失败的主要原因正是,我的表达能力与AI的理解能力不在一个段位上,我太low了。
文生图这个事,肯定有很多成熟的AI方案,上面说的是不限量免费方案,限量免费或付费方案就别来跟我杠了,对我没意义。
再推荐一下aistudio,里面的各种Gemini模型,整体上属于不限量免费方案。较真的话,会限频率,但对普通用户日常使用,相当慷慨。这与当下百舸争流、千帆竞发的局面有关。不知,当局面渐渐明朗时,还会不会有这么多慷慨之事。
马斯克的Grok3也不错,可以联网,我问它github上某个具体py,它回显代码并详细解释,没有幻觉,Grok3是aistudio的有效补充。再次强调,这里说的都是免费方案。
"Gemini 2.0 Flash Thinking Experimental" vs Grok3,不知如何?
早上在朋友圈看到TopGun的一段文字,也FYI一下吧。
原文始发于微信公众号(青衣十三楼飞花堂):一次免费AI文字生图经历
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论