在2GB DAYU200上本地部署大语言模型

在2GB DAYU200上本地部署大语言模型

    正在检查是否收录...

实现思路和步骤

移植轻量级LLM模型推理框架InferLLM到OpenHarmony标准系统,编译出能在OpenHarmony运行的二进制产物。(InferLLM 是一个简单高效的 LLM CPU 推理框架,可以本地部署 LLM 中的量化模型)

使用OpenHarmony NDK来编译OpenHarmony上的InferLLM可执行文件(具体使用OpenHarmony lycium 交叉编译框架,然后编写一些脚本。然后把其存放在tpc_c_cplusplusSIG仓库。)

在DAYU200上本地部署大语言模型

编译获取InferLLM三方库编译产物

下载OpenHarmony sdk,下载地址:

http://ci.openharmony.cn/workbench/cicd/dailybuild/dailyList

下载本仓库

git clone https://gitee.com/openharmony-sig/tpc_c_cplusplus.git --depth=1
# 设置环境变量 export OHOS_SDK=解压目录/ohos-sdk/linux # 请替换为你自己的解压目录 cd lycium ./build.sh InferLLM

获取InferLLM三方库头文件及生成的库 

在tpc_c_cplusplus/thirdparty/InferLLM/目录下会生成InferLLM-405d866e4c11b884a8072b4b30659c63555be41d目录,该目录下存在已编译完成的32位和64位三方库。(相关编译结果不会被打包进入lycium目录下的usr目录)。

InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/arm64-v8a-build InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/armeabi-v7a-build

将编译产物和模型文件推送至开发板运行

  • 下载模型文件:https://huggingface.co/kewin4933/InferLLM-Model/tree/main
  • 将编译InferLLM生成的llama可执行文件、OpenHarmony sdk中的libc++_shared.so、下载好的模型文件chinese-alpaca-7b-q4.bin 打包成文件夹 llama_file
# 将llama_file文件夹发送到开发板data目录 hdc file send llama_file /data
# hdc shell 进入开发板执行 cd data/llama_file # 在2GB的dayu200上加swap交换空间 # 新建一个空的ram_ohos文件 touch ram_ohos # 创建一个用于交换空间的文件(8GB大小的交换文件) fallocate -l 8G /data/ram_ohos # 设置文件权限,以确保所有用户可以读写该文件: chmod 777 /data/ram_ohos # 将文件设置为交换空间: mkswap /data/ram_ohos # 启用交换空间: swapon /data/ram_ohos # 设置库搜索路径 export LD_LIBRARY_PATH=/data/llama_file:$LD_LIBRARY_PATH # 提升rk3568cpu频率 # 查看 CPU 频率 cat /sys/devices/system/cpu/cpu*/cpufreq/cpuinfo_cur_freq # 查看 CPU 可用频率(不同平台显示的可用频率会有所不同) cat /sys/devices/system/cpu/cpufreq/policy0/scaling_available_frequencies # 将 CPU 调频模式切换为用户空间模式,这意味着用户程序可以手动控制 CPU 的工作频率,而不是由系统自动管理。这样可以提供更大的灵活性和定制性,但需要注意合理调整频率以保持系统稳定性和性能。 echo userspace > /sys/devices/system/cpu/cpufreq/policy0/scaling_governor # 设置rk3568 CPU 频率为1.9GHz echo 1992000 > /sys/devices/system/cpu/cpufreq/policy0/scaling_setspeed # 执行大语言模型 chmod 777 llama ./llama -m chinese-alpaca-7b-q4.bin -t 4

移植InferLLM三方库在OpenHarmmony设备rk3568上部署大语言模型实现人机对话。最后运行效果有些慢,跳出人机对话框也有些慢,请耐心等待。

cpullmcodellamastemsdk大语言模型git语言模型本地部署文件夹可执行文件人机对话alpaca量化模型linuxhuggingfacesharemmo稳定性模型推理shell轻量级cloneurlrmm
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-7655.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

AI的黑暗面 OnlyFake提供15美元AI工具包制作假证件

上一篇

WONDERA官网体验入口 AI驱动的创作娱乐应用免费试用地址

下一篇
  • 复制图片
按住ctrl可打开默认菜单