媲美Midjourney-v6，Kolors最新文生图模型部署_智能机器人

kolors模型是由快手团队开发的大型文本到图像生成模型，专门用于将文本描述转换成高质量的图像。

kolors模型支持中英文双语输入，生成效果与midjourney-v6相媲美，能够处理长达256个字符的文本输入，具备生成中英文文字的能力。

kolors模型的技术优势在于其使用了基于u-net架构的隐空间扩散模型，并引入了大语言模型进行文本表征，这使得它在处理复杂长文本方面表现出色。

kolors模型在图像美感和质量上达到了国际领先水平，这得益于其两阶段的概念学习和美感提升的渐进训练策略以及针对高分辨率图像特性优化的全新加噪策略。

在评测方面，kolors模型在智源flageval文生图模型评测榜单中主观综合评分全球第二，尤其在主观图像质量上表现突出，评分排名第一。

github项目地址：https://github.com/kwai-kolors/kolors。

一、环境安装

1、python环境

建议安装python版本在3.8以上。

2、pip库安装

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install pydantic==1.10.2 protobuf==3.20 tensorboard>=1.15.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

3、kolors模型下载：

git lfs install

git clone https://huggingface.co/kwai-kolors/kolors.git

二、功能测试

1、运行测试：

（1）python调用测试

import torch
from kolors.pipelines.pipeline_stable_diffusion_xl_chatglm_256 import stablediffusionxlpipeline
from kolors.models.modeling_chatglm import chatglmmodel
from kolors.models.tokenization_chatglm import chatglmtokenizer
from diffusers import unet2dconditionmodel, autoencoderkl
from diffusers import eulerdiscretescheduler

# 定义模型权重路径
ckpt_dir = 'kolors'

def infer(prompt):
    # 加载文本编码器模型
    text_encoder = chatglmmodel.from_pretrained(
        f'{ckpt_dir}/text_encoder',
        torch_dtype=torch.float16
    ).half()
    
    # 加载分词器
    tokenizer = chatglmtokenizer.from_pretrained(f'{ckpt_dir}/text_encoder')
    
    # 加载图片解码器 vae
    vae = autoencoderkl.from_pretrained(f"{ckpt_dir}/vae", revision=none).half()
    
    # 加载调度器用于生成步骤
    scheduler = eulerdiscretescheduler.from_pretrained(f"{ckpt_dir}/scheduler")
    
    # 加载 u-net 模型
    unet = unet2dconditionmodel.from_pretrained(f"{ckpt_dir}/unet", revision=none).half()
    
    # 设置图像生成管道
    pipe = stablediffusionxlpipeline(
        vae=vae,
        text_encoder=text_encoder,
        tokenizer=tokenizer,
        unet=unet,
        scheduler=scheduler,
        force_zeros_for_empty_prompt=false
    )
    
    # 将管道模型移至 gpu
    pipe = pipe.to("cuda")
    
    # 启用模型 cpu 卸载功能
    pipe.enable_model_cpu_offload()
    
    # 生成图像
    image = pipe(
        prompt=prompt,
        height=1024,                # 图像高度
        width=1024,                 # 图像宽度
        num_inference_steps=50,     # 推理步数
        guidance_scale=5.0,         # 指导比例
        num_images_per_prompt=1,    # 每个提示生成的图像数量
        generator=torch.generator(pipe.device).manual_seed(66)  # 随机种子
    ).images[0]
    
    # 保存生成的图像
    output_path = 'scripts/outputs/sample_test.jpg'
    image.save(output_path)
    print(f"图像已保存至：{output_path}")

if __name__ == '__main__':
    # 定义生成图像的提示
    prompt = '一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"good"'
    infer(prompt)

（2）web端测试

未完......

更多详细的内容欢迎关注：杰哥新技术

常见大模型对比[ChatGPT（智能聊天机器人）、Newbing(必应)、Bard（巴德）、讯飞星火认知大模型（SparkDesk）、ChatGLM-6B]

2022年7月，李飞飞、PercyLiang等[1]提出“基础模型”(FoundationModels)的概念：基于自监督学习的模型在学习过程中会体现出来各个不同方面的能力，这些能…

2024年07月31日 • 人工智能

【自然语言处理】【大模型】DeepSeek-V2论文解析

论文地址：https://arxiv.org/pdf/2405.04434传统Transformer采用MHA(Multi-Head Attention)，但是kv cache会…

2024年07月31日 • 人工智能

大厂面试：算法考前必看汇总（全）

大厂面试中的算法题大部分情况是力扣原题，并且难度可控，对于经常在力扣刷题的同学一般问题不大。而大厂笔试的算法题则往往是原创题，前几道难度稍微简单，后几道通常得刷... [阅读全文]

【无人机/平衡车/机器人】详解STM32+MPU6050姿态解算—卡尔曼滤波+四元数法+互补滤波（文末附3个算法源码）

详解STM32+MPU6050姿态解算—附3个算法源码—卡尔曼滤波+四元数法+互补滤波——可应用在无人机/平衡车/机器人等方面 [阅读全文]

【面试】2023届秋招自动驾驶决策规划控制岗位面试总结

当时鉴智机器人是最早面试的几个公司之一，所以体验并非很好，不出意外在二面阶段就挂了。暴露出的问题：对基础掌握不扎实，底层不够了解，优缺点也不够了解。亿嘉和的面试... [阅读全文]

大学河北工业大学现代控制原理试题及答案，分享几个实用搜题和学习工具 #职场发展#学习方法#其他

当今社会，随着信息技术的迅猛发展，大学生们在学习过程中面临着各种各样的困难和挑战。而在这些挑战中，面对繁重的作业和复杂的题目，大学生搜题软件应运而生。 [阅读全文]


验证码：

验证码：

媲美Midjourney-v6，Kolors最新文生图模型部署

2024年07月31日 • 智能机器人 •我要评论

一、环境安装

二、功能测试

相关文章:

常见大模型对比[ChatGPT（智能聊天机器人）、Newbing(必应)、Bard（巴德）、讯飞星火认知大模型（SparkDesk）、ChatGLM-6B]

【自然语言处理】【大模型】DeepSeek-V2论文解析

发表评论