第二十篇-推荐-纯CPU(E5-2680)推理-llama.cpp-qwen1_5-72b-chat-q4_k_m.gguf

第二十篇-推荐-纯CPU(E5-2680)推理-llama.cpp-qwen1_5-72b-chat-q4_k_m.gguf

    正在检查是否收录...

环境

系统:CentOS-7
CPU: Intel® Xeon® CPU E5-2680 v4 @ 2.40GHz 14C28T
内存: 48G DDR3

依赖安装

make --version GNU Make 4.3 gcc --version gcc (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9) g++ --version g++ (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9) 

编译

git clone https://github.com/ggerganov/llama.cpp cd llama.cpp make 等待一会 查看 ls -rwxr-xr-x. 1 root root 1.6M Feb 23 07:54 main -rwxr-xr-x. 1 root root 2.6M Feb 23 07:55 server ..... 

下载模型

https://hf-mirror.com/Qwen/Qwen1.5-72B-Chat-GGUF qwen1_5-72b-chat-q4_k_m.gguf.a qwen1_5-72b-chat-q4_k_m.gguf.b 

合并文件

cat qwen1_5-72b-chat-q5_k_m.gguf.* > qwen1_5-72b-chat-q5_k_m.gguf 

启动

./server -m /models/Qwen1.5-72B-Chat-GGUF/qwen1_5-72b-chat-q4_k_m.gguf --host 192.168.31.222 -c 1024 -t 26 我的IP是192.168.31.222 或 ./main -m /models/Qwen1.5-72B-Chat-GGUF/qwen1_5-72b-chat-q4_k_m.gguf -n 512 --color -i -cml -f prompts/chat-with-qwen.txt 

访问

方式1 http://192.168.31.222:8080/ 方式2 curl --request POST \ --url http://192.168.31.222:8080/completion \ --header "Content-Type: application/json" \ --data '{"prompt": "Building a website can be done in 10 simple steps:","n_predict": 128}' 

总结

CPU利用2600%左右,42G内存,如果更强的CPU估计还是能到4倍速度吧 速度 0.6 tokens/s 这个速度还是很慢的,测试一下还是可以的,毕竟是70B的模型呀,继续研究中 print_timings: prompt eval time = 4839.81 ms / 13 tokens ( 372.29 ms per token, 2.69 tokens per second) print_timings: eval time = 214075.61 ms / 128 runs ( 1672.47 ms per token, 0.60 tokens per second) print_timings: total time = 218915.43 ms 

chattokencpupromptllamagiturlgithubganapppromptswebjsonintelclone
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-17633.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

【LLM教程-llama】如何Fine Tuning大语言模型?

上一篇

比尔盖茨最新预言:耳机和眼镜才是AI硬件重点

下一篇
  • 复制图片
按住ctrl可打开默认菜单