Stable Diffusion 3上线：登顶最强开源AI绘画模型，笔电手机都能跑丨大量实测_手机系统

万众瞩目的stable diffusion 3终于正式开源了！

目前开源的是20亿参数的版本，据悉之后还会开源40亿和80亿的“大杯”与“超大杯”。

最近母公司stability ai的坏消息连连，据传账面现金都不够支付算力服务器的租赁费。

欠债一亿美金的ai独角兽，为何仍坚持做「开源英雄」？

今年4月，stable diffusion 3首次对外公开，但那会只开放了api。很快在“人类偏好评估”中力压dall·e 3和midjourney v6，一举成为该领域的sota（现阶段最好的解决方案）。

因为攻克了ai图像生成领域极其困难的「文本生成准确性」，sd3一时名声大噪，引发了极大热度。

可以在图上的指定对象精准生成文字，be like。

在鼎盛时期，stability ai收获过不少的橄榄枝，却断然拒绝被收购。

现如今，欠债累累的公司依然毅然决然走上开源之路。

——强大的架构、更好的明暗对比度、提示遵循、训练结果、模型合并、图像分辨率……sd3的开源给我们带来的贡献可太多了！

所有ai绘图圈的玩家都在翘首以盼。

sd3：源神，启动！

stable diffusion 3的开源，为何意义如此重大？

一位reddit社区的老哥从技术视角帮助我们理解sd3的重要性，以及对ai开源社区的重大影响。

作者表示，stable diffusion 3是如此的重要，它改变了游戏规则。

stability ai发明了一种vae（变分自编码器）非常特殊，因为它提供了16个通道的特征和颜色数据采集器供我们使用，而之前的文生图模型只有4个通道。

下面的四张图对比可以看到通道数的影响有多大。

通道越多，意味着图像模型在训练时会捕获更多细节，也就更容易还原我们想要的高清文字，而不是「鬼画符」。

不仅模型的出图质量会更好，而且可以带来更好的训练效率。

与旧的模型相比，新一代的16通道vae在512x512如此小的分辨率下依然可以捕捉到很好的细节。

为了更容易理解画质的进步，我们用一个示例类比——

如果你是骨灰级游戏玩家肯定见过这几种视频线。

●左：红黄白视频线（composite cables）= sd 1.x vae

●中：s-video视频线 = sdxl vae

●右：红绿蓝视频线（component cables）= sd3 vae

因此，将vae应用到如今我们的ai工作流程中，一切都将变得更加高效。

sd3实战出图

接下来，让我们引用@数字生命卡兹克的出片感受一下。

此前版本的stable diffusio很烦的是，你必须要加一些画质提示词作为提示词后缀，比如best quality, high resolution, 8k之类。

那sd3呢，我不给它添加任何的画质提示词就已经可以实现高质量出图。

咱们直接来看效果——

①长提示语义理解测试

●sd1.5：emmm，怎么裂开两张了，小猫咪看起来不太高兴啊，挎着个脸

●sd2.0：不是，怎么船里长猫了~~

●sdxl：整体还行，但画面有点昏暗，配色不是很舒服。

●sd3：王炸！语义理解能力极强，阳光明媚，美丽的海滩，鲜花等等关键细节什么处理得很好，画面构图也和谐。

②测一下相对位置关系理解，着重考察模型构图能力

●sd1.5：热狗起飞了……

●sd2.0：你以为将热狗放到地上就挑不出毛病了是吧，但是不符合画面表述

●sdxl：基本符合语义，但是狗狗的舌头崩坏了

●sd3：王炸！光效衔接都非常自然，小狗很可爱，热狗也很有食欲

③二次元人物

●sd1.5：脸模过于抽象，细节丢了，学画3月的功力？

●sd2.0：变成了千手观音？

●sdxl：有点感觉了，但是手柄的透视不对

●sd3：从头发到眼镜，从整体画质到细节都是最好的

我们再测一组——

并不意外，sd3依然是最稳定的那个。

④科幻风格

●sd1.5：没有识别出五颜六色

●sd2.0：右边这哥们你的手臂咋掉了

●sdxl：机器人形象模仿了星球大战r2-d2，但是三条腿不对称

●sd3：好家伙，无头机器人，大黄蜂+刑天合体

⑤写实图像，要求在水下

●sd1.5：对人数的认知不对

●sd2.0：好可怕，像泡发的奥特曼

●sdxl：像鬼故事里边的小孩

●sd3：奶思！

再测另一组真人写实成像——

sd3妥妥的完胜！

⑥来一组风景图生成

●sd1.5：还行

●sd2.0：凑合，但是恒星跑到星云外，偏离现实

●sdxl：这个模型版本真的很容易出卡通图

●sd3：兼具艺术感与科幻

⑦最后测试一个sd3的拿手好戏，文字嵌入

在图像上生成准确的文字，目前sd3是独一份的卓越。

经过一番对比，相信家人们已经能够直观感受sd3的威力。也能感知stable diffusion系列迭代的进化史。

我都不敢想象加以高质量的辅助描述提示词，配合ai绘图开源社区的微调模型等强大的应用生态，sd3文生图模型可以变得多强。

最关键的是，它开源的。

所以，免费。现在它可以直接在你的电脑里自由跑了。

sd3对于模型的训练放宽了硬件要求，并针对英伟达与amd的最新gpu、apu进行了专门的推理优化。

本次发布开源的stable diffusion 3 medium版本，这是一个20亿参数的小参数模型，体积小巧，可以在用户的桌面pc消费级显卡、笔记本显卡以及企业级gpu服务器上运行。

乃至经过蒸馏后缩小直接在手机上运行，目前stability ai正在与高通公司开展相关合作。

家人可以通过hugging face在线试玩：

https://huggingface.co/stabilityai/stable-diffusion-3-medium

写在最后

感兴趣的小伙伴，赠送全套aigc学习资料，包含ai绘画、ai人工智能等前沿科技教程和软件工具，具体看这里。

aigc技术的未来发展前景广阔，随着人工智能技术的不断发展，aigc技术也将不断提高。未来，aigc技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，aigc技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，aigc技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述