当前位置: 代码网 > it编程>游戏开发>ar > 各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)

各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)

2024年08月02日 ar 我要评论
ERNIE-ViLG , DALL-E ,Cogview , Make-A-Scene , and Parti 、LDM , DALL-E 2 , Imagen等

1 前言

aigc,全名“ai generated content”,又称生成式ai,意为人工智能生成内容。例如ai文本续写,文字转图像的ai图、视频等。

本文主要描述文字生成图片的模型。而且目前扩散模型(diffusion models)流行,所以下面列的大部分是基于扩散模型的,而基于gan(generativeadversarialnetworks,中文叫生成式对抗网络)的较少。

文字生成图片示例如下:

模型汇总如下,时间以论文(arxiv)的时间为主:

模型

公司或机构

时间

备注

dall·e

openai

2021年2月

dvae

glide

openai

2022年3月

指导扩散(guided diffusion)

dall·e2

openai

2022年4月

unclip、扩散模型

imagen

google

2022年5月23日

扩散模型

parti

google

2022年6月

vit-vqgan

stable diffusion

stability ai

2022年4月

开源

midjourney

midjourney

2022年3月

未公开技术

make-a-scene

meta(facebook)

2022年3月

ernie-vilg 2.0

百度

2023年3月

扩散模型

cogview

清华

2021年11月

vq-vae

cogview2

清华

2022年5月

vq-vae

disco diffusion

accomplice

2021年10月

2 openai

2.1 dall·e:

dall-e还没有使用扩散模型,使用的dvae(discrete variational autoencoder离散变分自动编码器)。

详见:dall·e:openai第一代文本生成图片模型dall·e:openai第一代文本生成图片模型_ai强仔的博客-csdn博客

2.2 glide

dall-e 的参数量是 120 亿,而 glide 仅有 35 亿参数。glide指 guided language to image diffusion for generation and editing 。

在新模型 glide 中,openai 将指导扩散(guided diffusion)应用于文本生成图像的问题。首先该研究训练了一个 35 亿参数的扩散模型,使用文本编码器以自然语言描述为条件,然后比较了两种指导扩散模型至文本 prompt 的方法:clip 指导和无分类器指导。通过人工和自动评估,该研究发现无分类器指导能够产生更高质量的图像。

论文地址:《glide: towards photorealistic image generation and editing with text-guided diffusion models 》https://arxiv.org/pdf/2112.10741.pdf

2.3 dall·e 2

dall·e 2:虚线上面部分是clip。虚线之下是我们文本到图像生成过程,一个clip text embedding输入到autoregressive或者扩散模型(prior部分)来生成一个image embedding,然后这个embedding输入到扩散模型decoder,生成最终的图像.

详见:dall·e 2 :openai第二代文本生成图片模型(unclip--基于clip的文本生成图像模型)dall·e 2 :openai第二代文本生成图片模型(unclip--基于clip的文本生成图像模型)_ai强仔的博客-csdn博客

3 google

3.1 imagen

使用了一个文字转图片的diffusion模型,然后使用了2个超分diffusion模型。

3.2 parti

parti,全名叫「pathways autoregressive text-to-image」,是谷歌大脑老大jeff dean提出的多任务ai大模型蓝图pathway的一部分。

parti是文本-图片的序列到序列模型,包括编码器和解码器。

使用 vit-vqgan

4 stability ai

独立研究机构stability ai成立于2020年,背后出资人是数学家,计算机科学家,著名投资人莫斯塔克(emad mostaque)。

stable diffusion让用户使用消费级的显卡便能够迅速实现文生图。stable diffusion 完全免费开源,所有代码均在 github 上公开,任何人都可以拷贝使用。

4.1 stable diffusion(ldm)

stable diffusion是一个基于latent diffusion models(潜在扩散模型,ldms)的文图生成(text-to-image)模型。出自《high-resolution image synthesis with latent diffusion models 》https://arxiv.org/pdf/2112.10752.pdf

模型latent diffusion models (ldms)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。

详见stable diffusion(ldm)--图片生成模型_ai强仔的博客-csdn博客

5 midjourney

midjourney是一款2022年3月面世的ai绘画工具,创始人是david holz。midjourney 正式团队成员十分精简,共 11 人。除了 ceo 之外,有 8 位研究与工程师,2 位财务与法务。

目前采取 saas 订阅制模式,价格为 10 – 60 美元/月。

midjourney 最有力的竞争对手是 stability.ai,与 midjourney 的闭源不同,其模型 stable diffusion 因开源模式受到了广泛关注。

6 meta(facebook)

6.1 make-a-scene

可以在用户创作的粗略草图的基础上,结合文本提示生成具象的图像,即使用者可以通过草图控制最终图像的具体效果。

论文:https://arxiv.org/pdf/2203.13131.pdf

7 百度

7.1 ernie-vilg 2.0

百度文心一言文本生成图像模型。ernie-vilg 2.0是一个大规模中文-图像扩散模型。

参见ernie-vilg 2.0:百度文心一言文本生成图像模型:ernie-vilg 2.0:百度文心一言文本生成图像模型_ai强仔的博客-csdn博客

8 清华大学

8.1 cogview

cogview: mastering text-to-image generation via transformers。清华大学唐杰团队出品。

使用vq-vae将图像压缩为token序列特征,可以输入到transformer中进行生成训练。

论文:https://arxiv.org/pdf/2105.13290.pdf

8.2 cogview2

cogview2来提升cogview的效果,这次的效果也对标dall-e2。相比cogview,cogview2采用分层transformer以及并行自回归的方式进行生成,并且也训练了国产跨模态的生成模型coglm.

论文:https://arxiv.org/pdf/2204.14217.pdf

9 disco diffusion

disco diffusion具有一个强大的开源 clip-guided diffusion 模型,可以创建详细、逼真的图像。上线于2021年10月29日,由accomplice开发,accomplice是一家创立于2016年的公司,致力于帮助每个团队和个人找到适合他们的 ai 驱动的图像工作流程。

10 tiamat

国内首家 ai 生成技术服务商「tiamat」。

青柑,tiamat创始人、ceo。00后创业者,毕业于上海科技大学计算机科学与技术专业。于2021年创立生成式ai平台tiamat,专注ai图像生成领域的应用解决方案。将科技与技术结合的深刻理解付诸实践,致力于通过人工智能生成技术,拓阔人类想象力边界。

11 参考

  1. midjourney:aigc现象级应用,一年实现1000万用户和1亿美元营收 :midjourney:aigc现象级应用,一年实现1000万用户和1亿美元营收_产品化_技术_discord

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com