利用llama.cpp量化部署Llama-3-Chinese-8B-Instruct大模型

WAP站长网

2025年6月25日

字数：1661，阅读约6分钟

全屏显示

利用llama.cpp量化部署Llama-3-Chinese-8B-Instruct大模型

SEO教程

正在检查是否收录...

相关大模型项目：https://github.com/ymcui/Chinese-LLaMA-Alpaca-3

量化部署是将机器学习模型压缩以减少内存占用和计算成本的过程。本文将详细介绍如何使用llama.cpp工具进行模型量化并在本地部署。

环境准备

首先，确保你的系统满足以下要求：

编译工具：

MacOS/Linux：自带make Windows：需自行安装cmake

Python：

建议使用Python 3.10及以上版本

此外，推荐使用经过指令精调的Llama-3-Chinese-Instruct模型，并选择6-bit或8-bit的量化版本，以获得最佳效果。

步骤一：克隆和编译llama.cpp

重要提示：llama.cpp在2024年4月30日对Llama-3 pre-tokenizer进行了重大改动，请务必拉取最新代码进行编译。

如果你已下载旧版仓库，建议执行以下命令更新代码并清理旧文件：

$ git pull $ make clean

克隆最新版llama.cpp仓库代码：

$ git clone https://github.com/ggerganov/llama.cpp

编译llama.cpp项目，生成./main（用于推理）和./quantize（用于量化）二进制文件：

$ make

启用GPU推理：

Windows/Linux用户：可与BLAS（或cuBLAS）一起编译，以提高处理速度。以下是与cuBLAS一起编译的命令：

$ make LLAMA_CUDA=1

macOS用户：无需额外操作，llama.cpp已对ARM NEON进行优化，并默认启用BLAS。M系列芯片用户可使用Metal启用GPU推理，只需将编译命令改为：

$ LLAMA_METAL=1 make

步骤二：生成量化版本模型

你可以直接下载已量化好的GGUF模型：下载地址。

此外，llama.cpp支持将.safetensors文件和Hugging Face格式的.bin文件转换为FP16的GGUF格式。具体命令如下：

$ python convert-hf-to-gguf.py llama-3-chinese-8b-instruct $ ./quantize llama-3-chinese-instruct-8b/ggml-model-f16.gguf llama-3-chinese-8b-instruct/ggml-model-q4_0.gguf q4_0

步骤三：加载并启动模型

由于Llama-3-Chinese-Instruct模型使用了原版Llama-3-Instruct的指令模板，请将scripts/llama_cpp/chat.sh拷贝至llama.cpp的根目录。chat.sh文件内容如下，可根据需要进行修改：

FIRST_INSTRUCTION=$2 SYSTEM_PROMPT="You are a helpful assistant. 你是一个乐于助人的助手。" ./main -m $1 --color -i \ -c 0 -t 6 --temp 0.2 --repeat_penalty 1.1 -ngl 999 \ -r '' \ --in-prefix 'user\n\n' \ --in-suffix 'assistant\n\n' \ -p "system\n\n$SYSTEM_PROMPTuser\n\n$FIRST_INSTRUCTIONassistant\n\n"

使用以下命令启动聊天：

$ chmod +x chat.sh $ ./chat.sh ggml-model-q4_0.gguf 你好

在提示符 > 后输入你的prompt，按 cmd/ctrl+c 中断输出，多行信息以\作为行尾。查看帮助和参数说明请执行./main -h命令。

更多详细说明请参考：官方文档。

通过以上步骤，你可以成功在本地量化并部署Llama-3模型，享受高效的AI模型推理体验。

llamagitchatassistantpythonstempromptfixlinuxgpu推理windowsmacosgithubgpumacctrclonescript模型推理token

本文作者：WAP站长网
本文链接： https://wapzz.net/post-17028.html
版权声明：本博客所有文章除特别声明外，均默认采用 CC BY-NC-SA 4.0 许可协议。

本站部分内容来源于网络转载，仅供学习交流使用。如涉及版权问题，请及时联系我们，我们将第一时间处理。

文章很赞！支持一下吧还没有人为TA充电

为TA充电

还没有人为TA充电

支付宝扫一扫
微信扫一扫

感谢支持

文章很赞！支持一下吧

关于作者

WAP站长网

2.8W+

WAP站长官方

最近签到
签到排行

WAP站长网
1个月前
+20
kbx991
1个月前
+30
vPNpL7l4
1个月前
+10

WAP站长网
WAP站长官方
57
kbx991
内卷太严重，已躺平...
6
Cr8M6e32
内卷太严重，已躺平...
5

微博上线“在线状态”功能：支持用户自主选择开启或关闭

TOP3

日均播放量超过25亿，为什么“最流行”的美妆趋势诞生于抖音？

TOP4

雷军说要敢于对标世界第一：只有对标第一才能最终赶超第一

TOP5

标签云

麒麟9020A性能 1

华为Mate70优享版 1

性能提升 1

麒麟9020A 1

Mate70优享版 1

K90 1

Gen5芯片 1

K90系列 1

X9系列 1

荣耀Magic8系列 1

X300系列 1

小米员工处分 1

王腾被辞退 1

泄露公司机密 1

小米员工违规 1

王腾账号注销 1

YU7防护措施 1

小米YU7电池安全 1

防护措施 1

上市咨询 1

电池安全 1

合约机 1

中国联通 1

小米汽车技术解释 1

小米超强钢项目 1

东北大学 1

项目名称 1

超强钢 1

淘宝团购 1

阿里流量入口 1

团购业务 1

跨界月饼 1

月饼邪修 1

创意月饼 1

年轻人消费 1

中秋礼盒 1

月饼测评 1

抖音鸡排哥 1

鸡排哥语录 1

抖音爆火 1

幽默互动 1

网络走红 1

鸡排哥 1

AI稀疏注意力 1

V3.2 1

API成本 1

稀疏注意力 1

照片在线下载 1

10G文件传输 1

在线预览 1