AI作画草案(Draft )实战

admin 2024年3月27日19:20:26评论1 views字数 7348阅读24分29秒阅读模式

     最近AI绘画很火,笔者带着试试的态度,找了一些资料,进行实战,下面就个人实战的一些体验跟大家分享。

1.Draft AI简介

    Draft是一个低门槛ai绘画社区,有丰富的社区素材,轻松上手,一键生成,支持图文生成,图片风格居多,可以轻松获得想要的图片,从众多方案中选择灵感!一款在线AI画作生成工具,它能够以先进的算法识别我们输入的关键词及导入的参考图片,从而生成对应的画作,不仅如此,它提供的社区中有许多人上传自己的作品,所以大家再无思路时也可先进行参考,增加自己的灵感。

2.实际使用

2.1首页地址

https://xiaogaoai.com/personal?id=2092710

AI作画草案(Draft )实战

图1 首页

2.2注册及登录

2.2.1注册

早期可以通过邮箱注册,目前邮箱注册已经关闭。如图2所示,输入邮箱地址后,拖动滑动条后,系统提示“新用户邮箱注册入口已关闭”

AI作画草案(Draft )实战

图2 邮箱地址注册关闭

2.2.2手机号码注册

在前面的界面中单击“手机登录”,输入手机号码,然后拖动滑动条,输入邀请码2092710,然后输入接受到的注册验证码,即可完成注册,每次登录都是通过手机短信来进行验证。

AI作画草案(Draft )实战

图3首次注册

2.2.3.如何查看自己的ID

 查看个人信息,即可获取,比如本人的地址https://xiaogaoai.com/personal?id=2092710,在这个里面可以看到个人的手机号码,其中隐藏了中间四位号码,显示前三位和后四位数字。

AI作画草案(Draft )实战

图4 查看个人信息

2.2开始绘画

2.2.1输入描述的关键字

    本例中输入“古典美女”,单击“一键出图”,大概等待一分钟左右。

AI作画草案(Draft )实战

图5 输入生成的关键字

2.2.2等待绘画结果

1.开始绘制

      系统自动根据默认模型及关键字开始生成,网页会显示进度,如图6所示。

AI作画草案(Draft )实战

图6 绘图进度显示

2.生成结果及反馈

    在生成图等待的同时,图下方有很多已经生成过类似的图片推荐,如图7所示,完成后的古典美女图片。在图片的右下角,系统还自动收集反馈,用于完善大模型,反馈真不错及很一般。

AI作画草案(Draft )实战

图7 生成的古典美女图片

   再次使用关键字“古典美女”生成图片,社区用户已创作89,304,803张作品,图片的结果又不一样了。

AI作画草案(Draft )实战

图8 再次生成图片

3.下载图片

单击下载图片,即可将生成的图片下载到本地。

4.自定义生成图片

AI作画草案(Draft )实战

2.3.1绘画需要消耗金币

 如图所示,单击116的那个图标,可以查看“我的余额”,可以通过支付宝和微信进行充值。比例是5:1。也即1元充值5个比。

AI作画草案(Draft )实战

AI作画草案(Draft )实战

交易记录中可以看到详细的收支记录。新用户注册赠送50D币,每日签到赠送20D币,邀请用户注册赠送50D币。

AI作画草案(Draft )实战

2.3.2通过上传图片来获取D币

1.浏览所有的图片,选择想要生成的图片,其中会显示使用模型收取的D币情况,如图表示使用一次收取2D币。

AI作画草案(Draft )实战

2.AI绘画原理及模型

2.1Draft AI原理

Draft AI作画的原理主要基于人工智能技术,特别是深度学习算法,通过训练模型来理解和生成绘画作品。虽然具体的实现细节可能因不同的AI绘画系统而异,但以下是一般 Draft AI作画所遵循的基本原理:

  1. 数据收集与预处理

    • 数据收集:首先,系统会收集大量的艺术作品,包括各种风格、主题和流派的绘画。这些数据可能来源于公开的艺术数据库、数字化博物馆藏品、网络上的艺术家作品等。

    • 预处理:收集到的图像会经过预处理步骤,如图像质量提升、尺寸标准化、色彩校正等,确保数据集的一致性和可用性。接着,可能进行图像分割(将画面分解成有意义的部分)和特征提取(将视觉信息转化为数值化的向量或矩阵),以便模型能有效地学习和处理这些数据。

  1. 深度学习模型训练

    • 风格迁移模型:使用深度学习中的迁移学习技术,训练模型来识别并提取不同艺术家或艺术风格的独特特征。这些模型能够理解色彩搭配、笔触纹理、构图规则等视觉元素,并学会如何将这些风格要素从一幅作品迁移到另一幅作品上,实现风格转换。

    • 生成模型:常见的生成模型如生成对抗网络(GANs)、变分自编码器(VAEs)、扩散模型(如Stable Diffusion)等。这些模型通过对抗训练、概率建模或扩散过程等方式,学习生成全新、逼真的绘画作品。生成模型不仅能复制已有的艺术风格,还能在给定的约束条件下(如关键词、描述、草图等用户输入)创造出新颖的艺术内容。

  1. 用户交互与创作流程

    • 关键词输入:Draft AI作画系统通常允许用户通过输入关键词、短语或完整的文本描述来指定他们想要的画作风格、主题、情绪等。这些关键词作为模型的输入指令,引导模型生成相应的图像。

    • 迭代调整:一些AI绘画工具还支持用户对初步生成的结果进行反馈和调整,如更改关键词、调整风格强度、细化细节等,通过反复迭代以达到满意的作品。

  1. 图像生成

    • 风格迁移应用:如果用户指定了特定的艺术风格,模型会将该风格迁移到新的图像内容上,生成具有该风格的新作品。

    • 无监督或半监督生成:在没有明确风格要求的情况下,模型可能依据用户提供的关键词或描述,从头开始生成全新的艺术作品。这涉及到模型内部复杂的概率分布采样和图像合成过程。

  1. 后期处理与输出

    • 后处理:生成的图像可能还需要经过后期处理步骤,如色彩校正、锐化、降噪等,以提高图像质量和视觉效果。

    • 输出:最终,系统将生成的绘画作品以数字文件形式(如JPEG、PNG等)提供给用户下载或在线展示。

总结来说,Draft AI作画原理是通过深度学习模型对大量艺术数据的学习,理解并生成绘画作品。用户通过关键词或其他形式的输入与模型交互,指导模型创造出符合其意图的独特艺术图像。这个过程融合了数据驱动的学习、复杂的数学模型、高效的计算技术以及用户交互设计,共同构成了AI作画的核心机制。

2.2开源绘画AI模型

2.2.1GAN模型(Generative Adversarial Networks)

    生成对抗网络(Generative Adversarial Networks,简称GAN)是一种深度学习模型,由Ian Goodfellow于2014年提出。它的主要目标是生成与真实数据分布相似的新数据。GAN的应用十分广泛,如图像生成、图像转换、风格迁移、图像修复等等。

    GAN模型由两个主要的模块组成:生成模型(Generative Model, G)和判别模型(Discriminative Model, D)。生成模型的目标是生成假实例来骗过判别模型,而判别模型的目标是判断一个实例是真实的还是由模型生成的。这两个模型相互对抗,最后达到一个平衡(纳什均衡),即生成模型生成的实例与真实的没有区别,判别模型无法区分输入数据是真实的还是由生成模型生成的。GAN的损失函数可以分为两部分来理解:给定G,找到使V最大化的D;另一部分是给定D,找到使V最小化的G。第一部分是找到使V最大化的D,包括真实数据的概率和假图像的概率。第二部分是找到使V最小化的G,即假图像的概率尽可能大,越大表示D判定假图像为真实数据的概率越大,也就表明生成器G生成的图像效果好,可以成功的骗过D。此外,GAN模型还衍生出了多种变体,如CGAN、LAPGAN、DCGAN、InfoGan、LSGAN、WGAN和CycleGAN等,这些变体在生成器或判别器结构上进行了一系列创新,提高了GAN的性能和应用范围。

这是一种经典的生成式深度学习模型,由两个神经网络(生成器和判别器)相互博弈来不断提升生成图像的质量。开源的GAN模型如DCGAN(Deep Convolutional GAN)等可用于生成各种风格的图像,包括绘画作品。https://github.com/carpedm20/DCGAN-tensorflow?tab=readme-ov-file

更多的信息可以参考:

https://zhuanlan.zhihu.com/p/421332968

2.2.2Pix2Pix模型

     基于条件GAN(Conditional GAN)的框架,适用于图像到图像的翻译任务,如将草图转化为精细的绘画、将黑白照片上色等。Pix2Pix的源代码和预训练模型通常可在GitHub等平台上获取。

AI作画草案(Draft )实战

pix2pix的生成器

通过100000轮训练后效果如下。参考模型利用代码:https://github.com/WeenyJY/pix2pix

AI作画草案(Draft )实战

2.2.3DeepDream

    DeepDream 是 Google 开源的用来分类和整理图像的 AI 程序 Inceptionism 。它不仅可以帮助开发者深入了解深度学习的工作原理,还能生成一些奇特、颇具艺术感的图像。也因此,许多人将 DeepDream 称为 “造梦工具”。Google 把一个人工神经网络项目放到了互联网上 “造梦”,它可以挖掘可视的数据,“增强” 图像中某些部分,而且其特性是依靠自己的数据集来 “识别” 里面(的内容)。出图效果是朦胧的、旋涡状有噪点的彩釉色,里面的物体可以反复变化。

AI作画草案(Draft )实战

https://github.com/google/deepdream

https://gitee.com/mirrors/DeepDream

2.2.4ImageBind

这个模型与众不同之处便是可以将多个数据流连接在一起,它结合了六种数据,即图像、文本、音频、深度、热数据和 IMU 数据,以创建多感官内容。

AI作画草案(Draft )实战

    相比于DALL-E、Stable Diffusion 和 Midjourney 等 AI 图像生成器都依赖于文本和图像链接在一起的系统;ImageBind 的意义在于它能够让机器像人类一样进行整体学习。该技术允许引擎理解和连接不同的信息形式,包括文本、图像、音频、深度、热数据和运动传感器。它无需先针对每一种可能性进行训练,直接预测数据之间的联系,类似于人类感知或者想象环境的方式,无需对每种可能的模态组合进行训练。

ImageBind 可以通过图片生成音频,也可以音频生成图片,或者直接给一个文本,就可以检索相关的图片或者音频内容,你也可以给出一个音频+一张图,如“狗叫声”+海景图

AI作画草案(Draft )实战

喜欢的朋友可以下载源代码自己测试:https://github.com/facebookresearch/ImageBind

2.2.5Stable Diffusion

Stable Diffusion是一种在潜在空间扩散(latent diffusion)的模型。它不是在高维图像空间中操作,而是首先将图像压缩到潜空间(latent space)中。然后,通过在潜空间中应用扩散过程来生成新的图像。

Stable Diffusion能够从文本描述中生成详细的图像,它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。简单地说,我们只要给出想要的图片的文字描述,Stable Diffusion就能生成符合你要求的逼真的图像!

Stable Diffusion将“图像生成”过程转换为逐渐去除噪声的“扩散”过程,整个过程从随机高斯噪声开始,经过训练逐步去除噪声,直到不再有噪声,最终输出更贴近文本描述的图像。然而,这个过程的缺点是去噪过程的时间和内存消耗都非常大,尤其是在生成高分辨率图像时。为了解决这个问题,Stable Diffusion引入了潜在扩散,潜在扩散通过在较低维度的潜在空间上应用扩散过程而不是使用实际像素空间来减少内存和计算成本。

Stable Diffusion是stability.ai开源的图像生成模型,可以说Stable Diffusion的发布将AI图像生成提高到了全新高度,其效果和影响不亚于Open AI发布的ChatGPT。

Stable Diffusion的核心概念包括:自动编码器、U-Net、文本编码器等。

1、自动编码器

自动编码器(VAE)由两个主要部分组成:编码器和解码器。编码器将图像转换为低维潜在表示,该表示将作为输入传递给 U_Net。解码器则相反,它将潜在表示转换回图像。

2、U-Net

U-Net是一种全卷积网络,用于语义分割,它由两个分支组成:编码器和解码器。编码器将输入图像分成大小相等的补丁,然后将这些补丁传递到下一级处理,解码器将这些补丁重新组合成输出图像。U-Net的优点是它可以在不同的尺度上进行预测,并且可以使用较少的训练数据来训练模型 。

3、文本编码器

文本编码器会将输入提示转换为 U-Net 可以理解的嵌入空间,一般是一个简单的基于Transformer的编码器,它将标记序列映射到潜在文本嵌入序列。

官网地址:

https://stable-baselines3.readthedocs.io/en/master/guide/install.html

详细安装可以参考文章:

https://baijiahao.baidu.com/s?id=1762850973453693174&wfr=spider&for=pc

2.2.6Kandinsky 2.2

  Kandinsky 2.2可以看成DALLE2和Latent Diffusion的混合体,Kandinaky2.2和DALLE2采用两阶段生成方案,1.一阶段采用了一个prior模型基于文本生成图像的clip image embedding,2.二阶段使用clip image embedding作为条件生成图像。这里的prior模型是一个基于transformer decoder架构的扩散模型,二阶段的生成模型采用的是一个基于unet的latent diffusion模型。

AI作画草案(Draft )实战

https://github.com/huggingface/diffusers.git

有关该模型更多知识请参考

https://zhuanlan.zhihu.com/p/668853830

2.2.7Fooocus

      开源的AI绘画工具,提供一键部署选项,用户可以利用其强大的图像生成能力根据文本提示创建绘画作品。该项目在GitHub上受到欢迎,表明其在社区内有较高的活跃度和认可度。

     Midjourney是需要付费使用的,而Stable Diffusion需要大量的学习成本,在这种背景下,Fooocus应运而生。

     Fooocus 是一款图像生成软件。Fooocus 是对 Stable Diffusion 和 Midjourney 的融合。学习自Stable Diffusion,该软件是离线、开源、免费的。从Midjourney了解到,不需要手动调整,用户只需关注提示和图像即可。Fooocus 包含并自动化了许多内部优化和质量改进。用户可以忘记所有那些困难的技术参数,只享受人与计算机之间的交互。Fooocus 简化了安装。在按下“下载”和生成第一张图像之间,所需的鼠标点击次数严格限制在 3 次以内。最低 GPU 内存要求为 4GB (Nvidia)。

Fooocus项目原地址:https://github.com/lllyasviel/Fooocus

Stable Diffusion在线地址:https://www.picpik.ai

https://github.com/lllyasviel/Fooocus/releases/download/release/Fooocus_win64_1-1-10.7z

2.3一些比较成功的项目应用

目前,AI绘画领域发展迅速,有多款优秀的AI绘画工具和模型备受关注,以下是一些表现突出的代表:

  1. DALL·E 2

    • 开发者:OpenAI

    • 特点:DALL·E 2是一款基于Transformer架构的文本到图像生成模型,以其出色的细节处理、逼真的质感以及广泛的创意适应性而闻名。用户只需输入自然语言描述,即可生成高质量、多样化且具有艺术感的图像。

  1. Midjourney

    • 开发者:Midjourney, Inc.

    • 特点:Midjourney是一个订阅制的AI绘画平台,其模型擅长生成复杂、精细的图像,尤其是对于科幻、概念艺术等题材的表现力尤为出色。用户通过文本提示进行创作,模型能理解并执行复杂的指令,生成高度定制化的作品。

  1. Stable Diffusion

    • 开发者:Stability AI

    • 特点:Stable Diffusion是一个基于扩散模型的开源AI绘画工具,因其强大的图像生成能力和易用性而广受欢迎。它能根据用户的文本提示快速生成高质量的艺术作品,支持多种风格,并且允许用户调整生成过程中的各种参数以实现精细控制。

  1. Imagen

    • 开发者:Google Research

    • 特点:Imagen是Google推出的文本到图像生成模型,其在COCO基准上的表现超越了DALL-E 2,显示出极高的图像生成质量与文本理解能力。尽管目前尚未公开面向消费者的服务,但其研究成果展示了在逼真度和创意表达方面的前沿水平。

  1. Artbreeder

    • 开发者:Artbreeder.com

    • 特点:Artbreeder是一个交互式的创意平台,允许用户通过混合现有图像或从头开始生成新图像来探索各种艺术风格。其AI模型支持用户逐步调整生成图像的细节,适用于创建独特的人物肖像、风景画和其他艺术作品。

  1. DeepArt/DeepDream

    • 开发者:Google(DeepDream),DeepArt公司(DeepArt应用)

    • 特点:DeepDream最初是由Google开发的一种视觉化技术,通过强化神经网络中的特征来生成超现实艺术效果。DeepArt应用则利用类似的技术,让用户上传自己的照片,然后将其转化为特定艺术风格的作品。

  1. Disco diffusion

    • 开发者:Somnai

    • 特点:Disco Diffusion是一款基于扩散模型的开源AI绘画工具,允许用户通过简单的文本描述和自定义设置来生成艺术作品。它在社交媒体上引发了大量的创作热潮,尤其受到艺术家和业余爱好者的喜爱。

  1. NovelAI

    • 特点:NovelAI专注于基于文本的二次元风格插画生成,特别适用于动漫、游戏美术等场景。用户可以通过输入详细的文本描述来生成高品质的动漫风格插图。

  1. Wombo Dream

    • 特点:Wombo Dream是一款手机应用程序,以其简洁的界面和快速的图像生成而受到用户欢迎。用户只需输入文字描述,即可得到风格多样的艺术作品,适用于轻松娱乐和创意探索。

创作不易,请点赞,收藏,给予作者支持和鼓励。后续还会分享更多的AI应用,欢迎关注公众号“小兵搞安全"。

原文始发于微信公众号(小兵搞安全):AI作画草案(Draft )实战

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年3月27日19:20:26
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   AI作画草案(Draft )实战https://cn-sec.com/archives/2609707.html

发表评论

匿名网友 填写信息