使用llama.cpp启动GPU模型计算

使用llama.cpp启动GPU模型计算

    正在检查是否收录...

查询GPU使用状态:

        watch -n 0.5 nvidia-smi

使用GPU编译llama.cpp:

        make LLAMA_CUBLAS=1

        用过make的记得删除项目,重新再以上执行命令,要不还是会使用CPU

两种启动方式(41是GPU启动层数,根据自身配置修改)

        页面访问:./server -m ./models/qwen1_5-1_8b-chat-q8_0.gguf -c 2048 --port 6006 -ngl 41

        命令行访问:./main -m ./models/qwen1_5-14b-chat-q2_k.gguf -n 512 --color -i -cml -f prompts/chat-with-qwen.txt -ngl 41

总结

### 文章总结:
本文介绍了相关于GPU使用管理和使用GPU编译及运行特定程序(如llama.cpp)的步骤和命令。内容分为几个关键部分:
#### 1. 查询GPU使用状态
通过运行`watch -n 0.5 nvidia-smi`命令,可以每0.5秒自动刷新并显示当前NVIDIA GPU的使用状态,包括内存占用、温度等信息,帮助用户实时跟踪和管理GPU资源。
#### 2. 使用GPU编译llama.cpp
编译过程中,为确保使用GPU(而非CPU)进行加速计算,需使用`make LLAMA_CUBLAS=1`命令进行编译。注意,如果之前已通过非此命令进行编译并生成了项目,需先删除原有项目并重新运行上述命令,以避免CPU执行。
#### 3. 程序启动方式
文章介绍了两种启动程序(可能是基于GPU加速的聊天机器人或其他应用的服务器和客户端)的方法:
- **页面访问(服务器模式)**:通过`./server`命令,结合指定模型文件、配置参数如并发数、端口号及GPU启动层数(`-ngl 41`,此处数字需根据实际GPU配置调整),启动一个可通过Web页面访问的服务。

- **命令行访问(客户端或测试模式)**:通过`./main`命令启动,需指定模型文件、数据输入量、颜色模式及相关路径参数等,适用于命令行直接交互或测试场景。同样,`-ngl`参数用于指定GPU启动层数,需根据实际配置调整。
总结来说,文章为用户提供了从检查GPU状态、编译GPU支持的程序到启动服务的全流程指导,其中重点强调了如何确保程序的执行充分利用GPU资源,并提供了两种不同场景的启动命令示例。这些步骤和方法对于需要进行GPU加速开发的用户来说是非常实用的。 gpullama命令行chatcpugpu加速服务器客户端聊天机器人机器人promptpromptswebnvidia gpu
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-18624.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

这5款宝藏国产AI绘画工具,不允许有人还不知道!(建议收藏)

上一篇

阿里云OS Copilot:解锁操作系统运维与编程的智能助手

下一篇
  • 复制图片
按住ctrl可打开默认菜单