大模型的学习 LLaMa和ChatGLM,minichatgpt4

大模型的学习 LLaMa和ChatGLM,minichatgpt4

    正在检查是否收录...

LLaMa和ChatGLM,minichatgpt4

什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?

答:Bert 的模型由多层双向的Transformer编码器组成,由12层组成,768隐藏单元,12个head,总参数量110M,约1.15亿参数量。NLU(自然语言理解)任务效果很好,单卡GPU可以部署,速度快,V100GPU下1秒能处理2千条以上。

ChatGLM-6B, LLaMA-7B模型分别是60亿参数量和70亿参数量的大模型,基本可以处理所有NLP任务,效果好,但大模型部署成本高,需要大显存的GPU,并且预测速度慢,V100都需要1秒一条。

微调方法是啥?如何微调?

答:当前主流微调方法分为:Fine-tune和prompt-tune

fine-tune,也叫全参微调,bert微调模型一直用的这种方法,全部参数权重参与更新以适配领域数据,效果好。

prompt-tune, 包括p-tuning、lora、prompt-tuning、adaLoRA等delta tuning方法,部分模型参数参与微调,训练快,显存占用少,效果可能跟FT(fine-tune)比会稍有效果损失,但一般效果能打平。

chatgpu大模型bertpromptllamagpt4chatgpt4elt自然语言理解chatgptnlp语言理解模型部署transformergpt自然语言nlu
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-12970.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

到2028年,智能建筑AI市场规模预计达64.8亿美元

上一篇

探索网络爬虫:技术演进与学习之路

下一篇
  • 复制图片
按住ctrl可打开默认菜单