【AI】D2000 arm64 aarch64 22.04.3 LTS (Jammy Jellyfish) 编译llama.cpp 使用chinese-alpaca-2-7b模型 CPU版本

【AI】D2000 arm64 aarch64 22.04.3 LTS (Jammy Jellyfish) 编译llama.cpp 使用chinese-alpaca-2-7b模型 CPU版本

    正在检查是否收录...

下载编译llama.cpp

cd ~/Downloads/ai/ git clone --depth=1 https://gh.api.99988866.xyz/https://github.com/ggerganov/llama.cpp cd llma.cpp make -j8

下载模型到/home/yeqiang/Downloads/ai/chinese-alpaca-2-7b目录

hfl/chinese-alpaca-2-7b at main

转换模型

安装venv

sudo apt install python3.10-venv

配置pip国内镜像(阿里云)

创建~/.pip/pip.conf,内容如下

[global] index-url=http://mirrors.aliyun.com/pypi/simple [install] trusted-host=mirror.aliyun.com

安装依赖(失败)

cd ~/Downloads/ai/llama.cpp python3 -m venv venv source venv/bin/activate pip install -r requirements.txt 

没有匹配的版本,为节约时间,放弃在arm64下安装python依赖,回到x86_64 ubuntu上转换模型

生成量化版模型

(venv) yeqiang@yeqiang-MS-7B23:~/Downloads/ai/llama.cpp$ python convert.py ~/Downloads/ai/chinese-alpaca-2-7b/

进一步对FP16模型进行4-bit量化

(venv) yeqiang@yeqiang-MS-7B23:~/Downloads/ai/llama.cpp$ ~/Downloads/ai/llama.cpp/quantize /home/yeqiang/Downloads/ai/chinese-alpaca-2-7b/ggml-model-f16.gguf /home/yeqiang/Downloads/ai/chinese-alpaca-2-7b/ggml-model-f16-q4_0.bin q4_0
 

再生成一个q8_0版本的

(venv) yeqiang@yeqiang-MS-7B23:~/Downloads/ai/llama.cpp$ ~/Downloads/ai/llama.cpp/quantize /home/yeqiang/Downloads/ai/chinese-alpaca-2-7b/ggml-model-f16.gguf /home/yeqiang/Downloads/ai/chinese-alpaca-2-7b/ggml-model-f16-q8_0.bin q8_0
 

拷贝到D2000笔记本上去。

测试

在llama.cpp项目下创建chat.sh

#!/bin/bash # temporary script to chat with Chinese Alpaca-2 model # usage: ./chat.sh alpaca2-ggml-model-path your-first-instruction SYSTEM_PROMPT='You are a helpful assistant. 你是一个乐于助人的助手。' # SYSTEM_PROMPT='You are a helpful assistant. 你是一个乐于助人的助手。请你提供专业、有逻辑、内容真实、有价值的详细回复。' # Try this one, if you prefer longer response. MODEL_PATH=$1 FIRST_INSTRUCTION=$2 ./main -m "$MODEL_PATH" \ --color -i -c 4096 -t 8 --temp 0.5 --top_k 40 --top_p 0.9 --repeat_penalty 1.1 \ --in-prefix-bos --in-prefix ' [INST] ' --in-suffix ' [/INST]' -p \ "[INST] <<SYS>> $SYSTEM_PROMPT <</SYS>> $FIRST_INSTRUCTION [/INST]" 

7b q4_0模型(吃力)

五分钟过去了,还没有回答完

7b q8_0模型(很吃力)

1分钟过去了,第一句话还没有输出完毕

CPU温度飙升!

1.3b q_40模型(速度很快)

下载地址

hfl/chinese-alpaca-2-1.3b at main

速度很快,达到通义千问的响应速度,但是回答的内容很简单

D2000 aarch64比 i5-9600k x86_64速度还快!(前面的模型也是)

1.3b q_80模型(速度很快)

速度与q_40相比没有明显差异,输出内容更详细。

参考:

https://hknaruto.blog.csdn.net/article/details/135643928?spm=1001.2014.3001.5502

alpacacodellamapythonstemfixpromptchaturlgitassistant节约时间clonescriptapicpuivallmgan笔记本githubbash
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-7126.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

Stable Diffusion(SD)核心基础知识——(文生图、图生图)

上一篇

GitHub Copilot使用方法

下一篇
  • 复制图片
按住ctrl可打开默认菜单