当前位置: 代码网 > it编程>游戏开发>ar > 李沐学AI--DALL·E 2 + Diffusion Model

李沐学AI--DALL·E 2 + Diffusion Model

2024年07月28日 ar 我要评论
DALL·E 2

dall·e 2
dall·e2

clip的一半的反过程
clip是 text–> text feature
image --> image fueture
对比找相似的,就能进行分类任务,将给定的图像与给定的text对应起来。

dall e2是
text – > text feature --> image feature -->(扩散模型)–> image
就能进行图像生成了,就是从text到图像。其中image feature是使用clip监督的。


dall·e2原文讨论了五六个它自己的局限性/可能的发展方向,但这不影响它很强

有意思的局限:

无法很好的理解上下左右的位置关系

无法理解 逻辑关系,可能是因为clip就是找图片-文本对,找文字描述的具有某些物体所对应的图像,而不能理解上下左右等关系?

图片中的文字没有逻辑
图片中的文字没有逻辑。生成的图中的文字是逻辑混乱的。

扩散模型讲解

gan网络模型

gan:

训练不够稳定
尽可能的真实,但是多样性不高,主要是来自于噪声
不是一个概率模型(?),生成都是隐式的,不知道数据的内在分布

ae: auto-encoder

dae: denoising auto-encoder

类似的还有mae:masked auto-encoder
主要就是去学习bottleneck那个特征,拿特征图/向量去做检测分割等任务
但是这个不是随机噪声,是用来重建的一个特征,没办法做生成任务,为什么?

vae: variational auto-encoder

待仔细研读,怎么将其转化为概率模型的?

vqvae: vector quantised variational auto-encoder

diffusion model

再从噪声恢复回去,就是图像生成。

ddpm 思想类似resnet,预测噪声而不是每一步中的图像

扩散模型的分数是
inception score:
is score:
fid score:

improved ddpm

diffusion model beats gan

在这里插入图片描述

dall·e2

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com