【个人笔记本】本地化部署详细流程 LLaMA中文模型:Chinese-LLaMA-Alpaca-2

【个人笔记本】本地化部署详细流程 LLaMA中文模型:Chinese-LLaMA-Alpaca-2

    正在检查是否收录...

不推荐小白,环境配置比较复杂

全部流程

下载原始模型:Chinese-LLaMA-Alpaca-2 linux部署llamacpp环境 使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型 windows部署Text generation web UI 环境 使用Text generation web UI 加载模型并进行对话

准备工作

笔记本环境:

操作系统:win11 CPU:AMD R7535HS GPU:笔记本4060显卡 CUDA版本:11.8 VM虚拟机:Ubuntu16

下载模型和部署环境全程需要挂梯子

下载原始模型

原项目链接:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

模型名称 类型 大小 下载地址 Chinese-LLaMA-2-13B 基座模型 24.7 GB [百度] [Google] [?HF] Chinese-LLaMA-2-7B 基座模型 12.9 GB [百度] [Google] [?HF] Chinese-Alpaca-2-13B 指令模型 24.7 GB [百度] [Google] [?HF] Chinese-Alpaca-2-7B 指令模型 12.9 GB [百度] [Google] [?HF]

下载Chinese-Alpaca-2-7B模型即可,百度网盘不需要挂梯子,其他都需要梯子

linux部署llamacpp环境

原项目链接:https://github.com/ggerganov/llama.cpp
原文档链接:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/llamacpp_zh

Step 1: 安装python3.10

sudo apt update sudo apt install python3.10 

Step 2: 克隆和编译llama.cpp

拉取最新版llama.cpp仓库代码

# 要安装git+梯子 git clone https://github.com/ggerganov/llama.cpp 

或者

#浏览器挂梯子打开https://github.com/ggerganov/llama.cpp #下载项目 #解压缩项目到本地 

对llama.cpp项目进行编译,生成./main(用于推理)和./quantize(用于量化)二进制文件

cd 解压缩项目路径 make 

Step 3: 生成量化版本模型

创建目录并拷贝模型到项目目录:zh-models/7B/

将Chinese-LLaMA-Alpaca-2模型转换为gguf模型

#根目录 python convert.py zh-models/7B/ 

将生成的fp16格式的gguf模型进行4-bit量化

./quantize ./zh-models/7B/ggml-model-f16.gguf ./zh-models/7B/ggml-model-q4_0.gguf q4_0 

Step 4: 加载并启动模型

到这一步其实可以用llama.cpp的加载模型方式对话了
但我用的虚拟机,性能有限,故而使用Text generation web UI 加载模型,具体如何加载建议看原文档和项目说明

windows部署Text generation web UI 环境

原项目:https://github.com/oobabooga/text-generation-webui

Step 1: 下载安装Miniconda3_py310

链接:https://repo.anaconda.com/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe

Step 2: 克隆项目到本地

git clone https://github.com/oobabooga/text-generation-webui 

Step 3: 打开Miniconda3命令行,建立新conda环境

conda create -n textgen 

Step 4: 下载安装相关的python各类环境库

有github链接的必须手动下载whl,再pip安装whl的绝对位置

conda activate textgen cd 项目位置 pip install env/bitsandbytes-0.41.1-py3-none-win_amd64.whl pip install E:\AI\环境第三方库\auto_gptq-0.4.2+cu117-cp310-cp310-win_amd64.whl https://github.com/jllllll/exllama/releases/download/0.0.17/exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl pip install E:\AI\环境第三方库\exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl pip install llama-cpp-python==0.1.84 https://github.com/jllllll/llama-cpp-python-cuBLAS-wheels/releases/download/textgen-webui/llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl pip install E:\AI\环境第三方库\llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl https://github.com/jllllll/GPTQ-for-LLaMa-CUDA/releases/download/0.1.0/gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl pip install E:\AI\环境第三方库\gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl https://github.com/jllllll/ctransformers-cuBLAS-wheels/releases/download/AVX2/ctransformers-0.2.25+cu117-py3-none-any.whl pip install E:\AI\环境第三方库\ctransformers-0.2.25+cu117-py3-none-any.whl pip install -r requirements.txt -i 换源 

Step 5: 启动web服务

conda activate textgen cd E:/AI/项目/text-generation-webui-main python server.py 

使用Text generation web UI 加载模型并进行对话

打开生成的url网址 加载本地模型 对话即可

llamacodegitgithubwebpythonalpacaiconwebuigptgooglemacgantransformerstransformerctrwindows笔记本linuxcloneurlivagpu命令行操作系统百度网盘浏览器createcpu
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-253.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

Stable Diffusion出现错误: AttributeError: ‘NoneType‘ object has no attribute ‘keys‘

上一篇

大语言模型之十五-预训练和监督微调中文LLama-2

下一篇
  • 复制图片
按住ctrl可打开默认菜单