Llama 美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm

Llama 美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm

    正在检查是否收录...

Layer Normalization (LayerNorm) Root Mean Square Layer Normalization (RMSNorm) 原理 对特征张量按照某一维度或某几个维度进行0均值,1方差的归一化 操作
LayerNorm 是一种标准化方法,它计算一个样本的均值和方差,然后使用这些来对样本进行归一化。这种方法是独立于批量大小的,使得模型更加稳定。 RMSNorm是对LayerNorm的一个改进,没有做re-center操作(移除了其中的均值项),可以看作LayerNorm在均值为0时的一个特例。论文通过实验证明,re-center操作不重要。
RMSNorm 也是一种标准化方法,但与 LayerNorm 不同,它不是使用整个样本的均值和方差,而是使用平方根的均值来归一化,这样做可以降低噪声的影响。 公式 公式解释 这里的x可以理解为 张量中具体某一维度的所有元素,比如对于 shape 为 (2,2,4) 的张量 input,若指定归一化的操作为第三个维度,则会对第三个维度中的四个张量(2,2,1),各进行上述的一次计算 这里的 ai与Layer Norm中的 x 等价,作者认为这种模式在简化了Layer Norm的同时,可以在各个模型上减少约 7%∼64% 的计算时间

url

  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-302.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

私藏GitHub Copilot:让Visual Studio Code更智能!

上一篇

【送书福利-第八期】《硅基物语.AI大爆炸: ChatGPT→AIGC→GPT-X→AGI进化→魔法时代→人类未来》

下一篇
  • 复制图片
按住ctrl可打开默认菜单