LLaMA: Open and Efficient Foundation Language Models

LLaMA: Open and Efficient Foundation Language Models

    正在检查是否收录...

背景

用最少的计算资源,解决了LLM大模型预测问题,训练了一些列的LLaMa模型,在参数量比较少的情况下,达到业界大模型效果。
主要贡献就是提升了LLM模型的训练速度和效率,在小容量的基础上,大大提升了模型的效果。
同时由于模型结构更小更简单,大大提升了推理速度。

数据

预训练的数据都是业界公开的数据结合,比较透明。

模型结构

主体模型结构还是transformer经典模型结构,但是进行了优化,比如说不是在每一层的output结果上进行norm正则化,而是在input层进行norm正则化。替换了激活函数等。

优化器

训练加速优化

使用了《SELF-ATTENTION DOES NOT NEED O(n2) MEMORY》思想,对self-attention进行了内存优化,将内存使用量从O(n2)简化到了O(log(n)),大大降低了模型内存占用量,有效提升了长序列处理的能力。

大模型llmtransformerllama预训练计算资源tpuurl
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-2207.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

【Mac安装stable-diffusion-webui报错解决方案】

上一篇

区块链技术与AI技术的融合可以为多个领域带来新的机遇和变革

下一篇
  • 复制图片
按住ctrl可打开默认菜单