【LLAMA3超级课堂-第四节】Llama 3 高效部署实践(LMDeploy 版)

【LLAMA3超级课堂-第四节】Llama 3 高效部署实践(LMDeploy 版)

    正在检查是否收录...

开发机地址:https://studio.intern-ai.org.cn/console/instance

本文内容

环境,模型准备 LMDeploy chat LMDeploy模型量化(lite) LMDeploy服务(serve)

环境准备

环境和模型下载请参考【第一节】

LMDeploy Chat CLI 工具

终端运行

conda activate llama3 lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct 

运行结果

LMDeploy模型量化(lite)

下面通过几个例子,来看一下调整–cache-max-entry-count参数的效果。首先保持不加该参数(默认0.8),运行 Llama3-8b 模型。

设置最大KV Cache缓存大小

未设置最大KV Cache缓存大小

lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct/ 


此时显存占用23120M

设置最大KV Cache缓存大小后

下面,改变–cache-max-entry-count参数,设为0.5。

lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct/ --cache-max-entry-count 0.5 


看到显存明显降低,显存占用20488M
尝试极限值,把–cache-max-entry-count参数设置为0.01,约等于禁止KV Cache占用显存。

lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct/ --cache-max-entry-count 0.01 

然后与模型对话,可以看到,此时显存占用仅为16200M,代价是会降低模型推理速度。

使用W4A16量化

仅需执行一条命令,就可以完成模型量化工作。

lmdeploy lite auto_awq \ /root/model/Meta-Llama-3-8B-Instruct \ --calib-dataset 'ptb' \ --calib-samples 128 \ --calib-seqlen 1024 \ --w-bits 4 \ --w-group-size 128 \ --work-dir /root/model/Meta-Llama-3-8B-Instruct_4bit 

运行时间较长,请耐心等待。量化工作结束后,新的HF模型被保存到Meta-Llama-3-8B-Instruct_4bit目录。下面使用Chat功能运行W4A16量化后的模型。

lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct_4bit --model-format awq 


为了更加明显体会到W4A16的作用,我们将KV Cache比例再次调为0.01,查看显存占用情况。

lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct_4bit --model-format awq --cache-max-entry-count 0.01 


此时显存占用仅有6546M

在线量化 KV

自 v0.4.0 起,LMDeploy KV 量化方式有原来的离线改为在线。并且,支持两种数值精度 int4、int8。量化方式为 per-head per-token 的非对称量化。
它具备以下优势:

量化不需要校准数据集 kv int8 量化精度几乎无损,kv int4 量化精度在可接受范围之内 推理高效,在 llama2-7b 上加入
int8/int4 kv 量化,RPS 相较于 fp16 分别提升近 30% 和 40% 支持 volta架构(sm70)及以上的所有显卡型号:V100、20系列、T4、30系列、40系列、A10、A100 等等 通过 LMDeploy 应用kv 量化非常简单,只需要设定 quant_policy 参数。LMDeploy 规定 qant_policy=4表示 kv int4量化,quant_policy=8 表示 kv int8 量化。

LMDeploy服务(serve)

在生产环境下,我们有时会将大模型封装为 API 接口服务,供客户端访问。

启动API服务器

通过以下命令启动API服务器,推理Meta-Llama-3-8B-Instruct模型:

lmdeploy serve api_server \ /root/model/Meta-Llama-3-8B-Instruct \ --model-format hf \ --quant-policy 0 \ --server-name 0.0.0.0 \ --server-port 23333 \ --tp 1 
server-name和server-port表示API服务器的服务IP与服务端口; tp参数表示并行数量(GPU数量)。

通过运行以上指令,我们成功启动了API服务器,请勿关闭该窗口,后面我们要新建客户端连接该服务。 你也可以直接打开http://{host}:23333查看接口的具体使用说明,如下图所示。

命令行客户端连接API服务器

新建一个命令行客户端去连接API服务器。首先通过VS Code新建一个终端:

lmdeploy serve api_client http://localhost:23333 

运行后,可以通过命令行窗口直接与模型对话

网页客户端连接API服务器

关闭刚刚的VSCode终端,但服务器端的终端不要关闭。

pip install gradio==3.50.2 

使用Gradio作为前端,启动网页客户端。

lmdeploy serve gradio http://localhost:23333 \ --server-name 0.0.0.0 \ --server-port 6006 

打开浏览器,访问地址http://127.0.0.1:6006 然后就可以与模型进行对话了!

参考资料

https://github.com/SmartFlowAI/Llama3-Tutorial/blob/main/docs/lmdeploy.md

llamaapichat服务器api服务api服务器客户端gradio命令行clicodevscodetoken模型推理flowllama2smartvs code生产环境参考资料
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-15553.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

从“采集发布时间”看信息时代的速度与效率

上一篇

探秘论坛自动爬虫:技术机制、应用与挑战

下一篇
  • 复制图片
按住ctrl可打开默认菜单