利用llama.cpp量化部署Llama-3-Chinese-8B-Instruct大模型_机器学习

相关大模型项目：https://github.com/ymcui/chinese-llama-alpaca-3

量化部署是将机器学习模型压缩以减少内存占用和计算成本的过程。本文将详细介绍如何使用llama.cpp工具进行模型量化并在本地部署。

在这里插入图片描述

环境准备

首先，确保你的系统满足以下要求：

编译工具：
- macos/linux：自带make
- windows：需自行安装cmake
python：
- 建议使用python 3.10及以上版本

此外，推荐使用经过指令精调的llama-3-chinese-instruct模型，并选择6-bit或8-bit的量化版本，以获得最佳效果。

步骤一：克隆和编译llama.cpp

重要提示：llama.cpp在2024年4月30日对llama-3 pre-tokenizer进行了重大改动，请务必拉取最新代码进行编译。

如果你已下载旧版仓库，建议执行以下命令更新代码并清理旧文件：
```
$ git pull
$ make clean
```

克隆最新版llama.cpp仓库代码：

$ git clone https://github.com/ggerganov/llama.cpp

编译llama.cpp项目，生成./main（用于推理）和./quantize（用于量化）二进制文件：
```
$ make
```
启用gpu推理：
- windows/linux用户：可与blas（或cublas）一起编译，以提高处理速度。以下是与cublas一起编译的命令：
```
$ make llama_cuda=1
```
- macos用户：无需额外操作，llama.cpp已对arm neon进行优化，并默认启用blas。m系列芯片用户可使用metal启用gpu推理，只需将编译命令改为：
```
$ llama_metal=1 make
```

步骤二：生成量化版本模型

你可以直接下载已量化好的gguf模型：下载地址。

此外，llama.cpp支持将.safetensors文件和hugging face格式的.bin文件转换为fp16的gguf格式。具体命令如下：

$ python convert-hf-to-gguf.py llama-3-chinese-8b-instruct
$ ./quantize llama-3-chinese-instruct-8b/ggml-model-f16.gguf llama-3-chinese-8b-instruct/ggml-model-q4_0.gguf q4_0

步骤三：加载并启动模型

由于llama-3-chinese-instruct模型使用了原版llama-3-instruct的指令模板，请将scripts/llama_cpp/chat.sh拷贝至llama.cpp的根目录。chat.sh文件内容如下，可根据需要进行修改：

first_instruction=$2
system_prompt="you are a helpful assistant. 你是一个乐于助人的助手。"

./main -m $1 --color -i \
-c 0 -t 6 --temp 0.2 --repeat_penalty 1.1 -ngl 999 \
-r '' \
--in-prefix 'user\n\n' \
--in-suffix 'assistant\n\n' \
-p "system\n\n$system_promptuser\n\n$first_instructionassistant\n\n"

使用以下命令启动聊天：

$ chmod +x chat.sh
$ ./chat.sh ggml-model-q4_0.gguf 你好

在提示符 > 后输入你的prompt，按 cmd/ctrl+c 中断输出，多行信息以\作为行尾。查看帮助和参数说明请执行./main -h命令。

更多详细说明请参考：官方文档。

通过以上步骤，你可以成功在本地量化并部署llama-3模型，享受高效的ai模型推理体验。

AI绘画之Midjourney——提示词结构揭秘

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也…

2024年07月31日 • 人工智能

挑战Midjourney，融合近百个SD大模型的通用模型AlbedoBase XL

2024年07月31日 • 人工智能

笔灵AI去痕：轻松搞定AIGC，让你的论文独一无二

AIGC降痕技术在学术研究中的应用，为解决AI写作痕迹问题提供了新思路。笔灵AI去痕工具通过智能分析和优化，有效降低AIGC率，帮助研究者维护学术诚信，推动学术界健康发展。…

2024年07月31日 • 人工智能

Midjourney发布新特性风格参考

总之，Midjourney再次证明，他们是风格转换方面的最佳工具。现在，用户对生成图像的风格和美感的控制水平和精确度是无与伦比的。作为人工智能艺术爱好者，我非常期待看到AI绘画的下…

2024年07月31日 • 人工智能

探索AIGC：一款强大的软件开发助手

AIGC（Artificial Intelligence Guidance Companion）是一款基于人工智能技术的软件开发助手。它结合了自然语言处理、机器... [阅读全文]

CodeWhisperer——一个十分强大的工具

Amazon CodeWhisperer 是亚⻢逊出品的一款基于机器学习的 AI 编程助手，可实时提供代码建议。现在已正式可用，面向个人提供免费服务，通过在各种流行的 IDE 里集…

2024年07月31日 • 人工智能


验证码：

验证码：

利用llama.cpp量化部署Llama-3-Chinese-8B-Instruct大模型

2024年07月31日 • 机器学习 •我要评论

环境准备

步骤一：克隆和编译llama.cpp

步骤二：生成量化版本模型

步骤三：加载并启动模型

相关文章:

AI绘画之Midjourney——提示词结构揭秘

挑战Midjourney，融合近百个SD大模型的通用模型AlbedoBase XL

笔灵AI去痕：轻松搞定AIGC，让你的论文独一无二

Midjourney发布新特性风格参考

CodeWhisperer——一个十分强大的工具

发表评论