- 使用 LMDeploy部署Llama 3

- 使用 LMDeploy部署Llama 3

    正在检查是否收录...

一.环境,模型准备

# 如果你是InternStudio 可以直接使用 # studio-conda -t lmdeploy -o pytorch-2.1.2 # 初始化环境 conda create -n lmdeploy python=3.10 conda activate lmdeploy conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

安装lmdeploy最新版。

pip install -U lmdeploy[all]

下载llama3请参考上一篇文章CSDN

二. LMDeploy Chat CLI 工具

直接在终端运行

conda activate lmdeploy lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct

运行完之后就可以在命令行直接llama3了,A100卡分配24G显存显示占用91%左右,另外注意要双击enter回答

三.LMDeploy模型量化(lite)

本部分内容主要介绍如何对模型进行量化。主要包括 KV8量化和W4A16量化。

3.1 设置最大KV Cache缓存大小

模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。LMDeploy的KV Cache管理器可以通过设置--cache-max-entry-count参数,控制KV缓存占用剩余显存的最大比例。默认的比例为0.8。

下面通过几个例子,来看一下调整--cache-max-entry-count参数的效果。首先保持不加该参数(默认0.8),运行 Llama3-8b 模型。

lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct/ 

显存占用如下(23G)

下面,改变--cache-max-entry-count参数,设为0.5。

lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct/ --cache-max-entry-count 0.3

显存占用不到20G,如下

再来一波“极限”,把--cache-max-entry-count参数设置为0.01,约等于禁止KV Cache占用显存,显存占用16G,如果你和模型对话,会发现慢一些,这是代价。

3.2 使用W4A16量化

仅需执行一条命令,就可以完成模型量化工作。

lmdeploy lite auto_awq \ /root/model/Meta-Llama-3-8B-Instruct \ --calib-dataset 'ptb' \ --calib-samples 128 \ --calib-seqlen 1024 \ --w-bits 4 \ --w-group-size 128 \ --work-dir /root/model/Meta-Llama-3-8B-Instruct_4bit

运行时间较长,请耐心等待。量化工作结束后,新的HF模型被保存到Meta-Llama-3-8B-Instruct_4bit目录。为了更加明显体会到W4A16的作用,我们将KV Cache比例再次调为0.01,查看显存占用情况。

lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct_4bit --model-format awq --cache-max-entry-count 0.01

可以看到,显存占用变为6582MB,明显降低。

4. LMDeploy服务(serve)

在生产环境下,我们有时会将大模型封装为 API 接口服务,供客户端访问。自 v0.4.0 起,LMDeploy KV 量化方式有原来的离线改为在线。并且,支持两种数值精度 int4、int8。量化方式为 per-head per-token 的非对称量化。

4.1 启动API服务器

通过以下命令启动API服务器,推理Meta-Llama-3-8B-Instruct模型:

lmdeploy serve api_server \ /root/model/Meta-Llama-3-8B-Instruct \ --model-format hf \ --quant-policy 0 \ --server-name 0.0.0.0 \ --server-port 23333 \ --tp 1

其中,model-format、quant-policy这些参数是与第三章中量化推理模型一致的;server-name和server-port表示API服务器的服务IP与服务端口;tp参数表示并行数量(GPU数量)。 通过运行以上指令,我们成功启动了API服务器,请勿关闭该窗口,后面我们要新建客户端连接该服务。 你也可以直接打开http://{host}:23333查看接口的具体使用说明,如下图所示。

4.2 命令行客户端连接API服务器

在“4.1”中,我们在终端里新开了一个API服务器。 本节中,我们要新建一个命令行客户端去连接API服务器。首先通过VS Code新建一个终端: 激活conda环境

conda activate lmdeploy 

运行命令行客户端:

lmdeploy serve api_client http://localhost:23333 

运行后,可以通过命令行窗口直接与模型对话。

4.3 网页客户端连接API服务器

关闭刚刚的VSCode终端,但服务器端的终端不要关闭。 运行之前确保自己的gradio版本低于4.0.0。

pip install gradio==3.50.2

新建一个VSCode终端,激活conda环境。

conda activate lmdeploy 

使用Gradio作为前端,启动网页客户端。

lmdeploy serve gradio http://localhost:23333 \ --server-name 0.0.0.0 \ --server-port 6006

在本地执行如下命令

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p 46965(46965替换为自己的端口)

访问本地http://127.0.0.1:6006/ ,开启web端对话

llamaapi服务器api服务器api服务客户端命令行chatpytorchgradioivacodevscodesshcliweb生产环境大模型tokengpu
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-16319.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

GitHub Copilot插件登录流程

上一篇

Llama 3“智商”测试:英文提示表现亮眼,中文不完美但差强人意!

下一篇
  • 复制图片
按住ctrl可打开默认菜单