diffusion model（六）Dalle2技术小结_aigc

dalle2 技术小结

文章目录

dalle2 技术小结

系列阅读

背景

随着aigc概念及diffusion model在视觉领域的发光发热。openai结合clip与diffusion model提出了一个二阶段的文本生成图片范式dalle2[^{1]，能够更精细的从语义层面控制图片的生成效果。得益于其训练范式，dalle2的图片生成的质量不弱于glide[}2],但生成器的多样性有明显提升。下面我们来看它是怎么做的吧！

dalle2的总体架构

dalle2作为一个文到图的生成模型，其输入是文本，其输出是基于该文本对应的图片即 $p (x ∣ y)$ 。dalle2将该过程分为两个阶段

其一是diffusionprior $p(z_i|y)$ ，其作用是获得输入文本 $y$ 对应的clip图片向量 $z_i$ 。

其二是diffusiondecode $p(x|z_i,y)$ ，作用是根据输入的文本 $y$ 和估计的图片向量 $z_i$ 生成图片 $x$ 。下面我们对这两个模块进行详细介绍。

diffusionprior模块

prior模块的作用是给定文本，生成该文本对应的clip模型的图片向量。（generate possible clip image embedding from a given text caption）

前置知识：

diffusion model的原理，可参考博客[^5]。
clip的基本原理[^4]。

训练阶段

训练数据：图片文本对 ${(x_i,y_i)| i=1,2,...,n\}$

对duffusionprior的训练主要包含以下几个步骤：

step1：将图片文本对输入到clip[^4]模型中获得对应的文本向量编码（text embedding）文本中每个token的编码（text encoding）及图像向量编码（image embedding）。这里值得注意的是：clip的模型权重冻结，不参加训练。

step2: 对image embedding（此处的image embedding就是diffusion model中的 $x_0$ ）。随机采样时间步 $t$ ，对 $x_0$ 进行加噪,得到第 $t$ 时刻的noise image embedding $x_t$ 。

step3: 将文本向量编码、文本token编码、时间步向量、 $t$ 时刻的图像向量编码输入到模型中（其本质是一个decode-only transformer with a causal attention mask）。该模型的作用是预测分布 $p(x_{t-1}|x_t)$ 分布的均值。

step4: 计算预测分布与实际分布的kl散度实现训练。

ps：作者训练中用了很多trick，由于本文主要关注在理解dalle2的工作原理，故未详细描述，若想深入了解可参考代码。
在这里插入图片描述

原创图，使用请注明出处

推理阶段

推理阶段主要包含以下步骤：

step1：将文本内容 $y$ 送入到clip模型中得到文本向量文本向量编码（text embedding）文本中每个token的编码（text encoding）。

step2: 从高斯分布中随机采样一组向量作为 $t$ 时刻的图片向量编码。将文本向量编码、文本中每个token的编码、时间步编码、 $t$ 时刻的图片向量编码送入到diffusionpriornetwork中，预测 $t - 1$ 时刻的图片向量编码。

step3: 不断重复步骤2，直至时间步到 $0$ 得到所需的image embedding。

可能会有读者有疑问：clip模型不是已经在文本特征与图片特征对齐了吗？为什么要多此一举设计diffusionprior模块来根据文本embedding来生成图片embedding而不是直接用文本embedding来作为图片embedding。

这是因为虽然clip在训练过程中通过对比损失使得图片特征与文本特征进行对齐，但是模态间还是有存在gap[^6]，prior模块的很大的意义是给定文本embedding，准确预测出其对应clip的image embedding，更有益于重建的效果。如下图将clip的image embedding送入decode生成的图像（第三行）从相关性与质量上明显优于直接送入text embedding的效果（第二行）。

在这里插入图片描述

diffusiondecode 模块

decode部分也是个diffusion model。其主要作用是根据image embedding和文本embedding进行图像重建。这里值得强调的是，之前基于文本生成图片的任务只有文本向量作为条件（condition）。与之不同的是，dalle2生成图片的条件有两个：其一是文本向量；其二是基于prior模块估计的图片向量，这个操作使得它的生成效果更逼真、稳定。
原创图，使用请注明出处

decode模块有两个比较关键训练trick

如何实现classifier-free guidance[^7]

dalle2的实现是每次随机mask掉10%的clip embedding，并且每次随机丢弃50%的text caption。
如何获得更高分辨率的生成图像

dalle2采用了渐进式的生成方法。dalle2训练了两个diffusion upsampler模型，第一个模型从 $64 \times 64$ 采样到 $256 \times 256$ ,第二个进一步采样到 $1024 \times 1024$ 。为了提升upsamper的稳健性，第一个上采样阶段用了高斯模糊；第二个上采样阶段用了多种bsr degradation操作[^8]

最后来看一下dalle2的pipeline

原创图，使用请注明出处

dalle2的生成质量和目前的局限性

dalle2的生成效果

基于ms-coco caption生成效果

other

dalle2的局限性

clip的embedding没有将属性精确的绑定到对象，导致进行解码重建时会混淆属性和对象。

clip的embedding可能没有精确编码渲染文本的拼写信息，导致连续文本的生成会出现问题。

由于解码器是在 $64 \times 64$ 分辨率生成图像，虽有进行上采样，这可能导致难以在复杂场景生成细节。

参考文献

dalle2论文：hierarchical text-conditional image generation with clip latents
glide: towards photorealistic image generation and editing with text-guided diffusion models.
https://github.com/lucidrains/dalle2-pytorch
[learning transferable visual models from natural language supervision](learning transferable visual models from natural language supervision)
ddpm (denoising diffusion probabilistic) 技术小结
mind the gap: understanding the modality gap in multi-modal contrastive representation learning
classifier-free diffusion guidance
high-resolution image synthesis with latent diffusion models

diffusion model（六）Dalle2技术小结

2024年08月01日 • aigc •我要评论

dalle2 技术小结

文章目录

系列阅读

背景

dalle2的总体架构

diffusionprior模块

训练阶段

推理阶段

diffusiondecode 模块

dalle2的生成质量和目前的局限性

dalle2的生成效果

基于ms-coco caption生成效果

other

dalle2的局限性

参考文献

相关文章:

Stable Diffusion【进阶篇】：Inpainting完整指南（上）

【喂饭级AI教程】手把手教你在本机安装Stable Diffusion秋包【附带全套资源】

拒绝低质量！一个技巧，搞定Stable Diffusion高清图片生成

Stable Diffusion【应用篇】【城市地标冰淇淋】：这样的冰淇淋城市地标，谁不爱呢？附教程

Midjourney提示词终极指南(完整版)

Midjourney V5太炸裂：逼真到颤抖！“有图有真相”时代彻底过去画画创作者模特一键淘汰

发表评论


验证码：

diffusion model（六）Dalle2技术小结

2024年08月01日 • aigc •我要评论

dalle2 技术小结

文章目录

系列阅读

背景

dalle2的总体架构

diffusionprior模块

训练阶段

推理阶段

diffusiondecode 模块

dalle2的生成质量和目前的局限性

dalle2的生成效果

基于ms-coco caption生成效果

other

dalle2的局限性

参考文献

相关文章:

Stable Diffusion【进阶篇】：Inpainting完整指南（上）

【喂饭级AI教程】手把手教你在本机安装Stable Diffusion秋包【附带全套资源】

拒绝低质量！一个技巧，搞定Stable Diffusion高清图片生成

Stable Diffusion【应用篇】【城市地标冰淇淋】：这样的冰淇淋城市地标，谁不爱呢？附教程

Midjourney提示词终极指南(完整版)

Midjourney V5太炸裂：逼真到颤抖！“有图有真相”时代彻底过去 画画创作者 模特一键淘汰

发表评论

Midjourney V5太炸裂：逼真到颤抖！“有图有真相”时代彻底过去画画创作者模特一键淘汰