llama.cpp部署多模态视觉模型到应用实践

llama.cpp部署多模态视觉模型到应用实践

    正在检查是否收录...

一、安装cmake

https://cmake.org/

因为我使用是win10系统cmake版本是3.26.4,请根据自己系统选择版本。

二、下载源码

git clone https://github.com/ggerganov/llama.cpp.git #进入llama.cpp文件夹 cd llama.cpp mkdir build cd build #编译llama.cpp cmake .. -G "Visual Studio 16 2019" -DLLAMA_CUBLAS=on -DLLAMA_CUDA_F16=1 -DCMAKE_CUDA_ARCHITECTURES=75 -DCMAKE_GENERATOR_TOOLSET="cuda=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.1"

注意:DCMAKE_CUDA_ARCHITECTURES=75,75是显卡算力如果报错请根据自己显卡算力修改这个数值。

三、编译成功样子

在llama.cpp\build\bin\Release

四、gguf模型转换

#下载llava-v1.5-7b模型放在llama.cpp文件夹下 #下载openaiclip-vit-large-patch14-336模型放在llama.cpp文件夹下 cd llama.cpp #模型拆分 python examples/llava/llava-surgery.py -m llava-v1.5-7b #转换为 GGUF python examples/llava/convert-image-encoder-to-gguf.py -m openaiclip-vit-large-patch14-336 --llava-projector llava-v1.5-7b/llava.projector --output-dir llava-v1.5-7b #转换为 GGUF:convert.py python convert.py llava-v1.5-7b --skip-unknown

注意:完成上述步骤后在llava-v1.5-7b文件夹会多出两个文件ggml-model-f16.gguf和mmproj-model-f16.gguf把这两个文件复制到llama.cpp/models就可以运行服务器了。

五、模型转换成功的样子

六、运行刚才转换的模型

#打开命令行进入llama.cpp文件夹 cd llama.cpp #在命令行输入下面命令运行模型服务器 build/bin/Release/server -m models/ggml-model-f16.gguf --mmproj models/mmproj-model-f16.gguf --port 8080 -ngl 35 -t 20

七、模型服务器运行样子

八、前端运行样子

九、模型转换到应用探索结束

如遇编译错误 

已经编译好的版本见知识星球-xingxingyu

llama文件夹gitpython服务器xingclipopenaicli命令行ctogeneratorgithubgannvidia gpugputpucodeclone
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-12151.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

AI帮写会重复吗:探索人工智能写作工具的原创性边界

上一篇

Midjourney绘图欣赏系列(九)

下一篇
  • 复制图片
按住ctrl可打开默认菜单