使用 ORPO 微调 Llama 3

使用 ORPO 微调 Llama 3

    正在检查是否收录...

原文地址:https://towardsdatascience.com/fine-tune-llama-3-with-orpo-56cfab2f9ada

更便宜、更快的统一微调技术

2024 年 4 月 19 日

ORPO 是一种新的令人兴奋的微调技术,它将传统的监督微调和偏好校准阶段合并为一个过程。这减少了训练所需的计算资源和时间。此外,经验结果表明,在各种模型大小和基准上,ORPO 都优于其他配准方法。

在本文中,我们将使用 ORPO 和 TRL 库对新的 Llama 3 8B 模型进行微调。

ORPO

指令调整和偏好对齐是使大型语言模型(LLM)适应特定任务的基本技术。传统上,这涉及一个多阶段过程:1/ 对指令进行监督微调 (SFT),使模型适应目标领域;2/偏好调整方法,如人工反馈强化学习 (RLHF) 或直接偏好优化 (DPO),以提高生成首选响应而非拒绝响应的可能性。

不过,研究人员也发现了这种方法的局限性。虽然 SFT 能有效地使模型适应所需的领域,但却无意中增加了在生成首选答案的同时生成不想要的答案的概率。这就是为什么有必要进行偏好调整阶段,以拉大首选输出和拒绝输出的可能性之间的差距。

由 Hong 和 Lee(2024 年)提出的 ORPO 将指令调整和偏好调整结合到一个单一的、整体的训练过程中,为这一问题提供了一个优雅的解决方案。ORPO 修改了标准语言建模目标,将负对数似然损失与几率比(OR)项相结合。这种赔率损失会对被拒绝的反应进行弱惩罚,同时对偏好的反应进行强奖励,从而使模型能够同时学习目标任务并与人类偏好保持一致。

使用 ORPO 微调 Llama 3<

总结

**文章总结:ORPO技术助力更高效微调Llama 3模型**
在最近的研究中,引入了一种名为ORPO(Optimizer Regularized Preference Optimization,优化器正则化偏好优化)的先进微调技术,该技术通过合并传统的监督微调和偏好调整阶段,极大地降低了训练大型语言模型(LLM)时的计算成本和时间需求,并在多个基准测试中展现了其优越性。
具体而言,ORPO技术旨在解决传统方法(如监督微调加偏好调整)中的不足,这些不足主要在于监督微调(SFT)虽能提升模型对目标领域的适应性,但也容易增加生成非偏好答案的概率。为此,常需再通过偏好调整技术(如RLHF或DPO)来拉大首选输出与拒绝输出之间的概率差距。
ORPO创新地将这一过程简化为一个整体式训练过程,它通过修改模型的损失函数,结合负对数似然损失与赔率损失项,有效地对不符合偏好的输出进行轻量级惩罚,同时对符合偏好的输出给予更强有力的奖励。这一机制不仅提升了模型的学习效率,还能够让模型在执行任务时更好地遵循人类的偏好和期望。
本文进一步展示了如何运用ORPO技术及TRL库对新发布的Llama 3 8B模型进行微调。这一实践不仅展示了ORPO在大规模模型应用中的潜力,也预示了未来LLM训练和部署成本控制与性能优化的新方向。 llamallm语言模型2024大型语言模型学习效率人工反馈成本控制人类偏好llm训练研究人员计算资源大规模模型轻量级性能优化强化学习解决方案学习目标
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-19937.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

【专题】中国游戏产业AIGC发展前景报告合集PDF分享(附原数据表)

上一篇

逼真到被打假!OpenAI投的机器人身穿衣服做家务,被怀疑人类套壳拍视频

下一篇
  • 复制图片
按住ctrl可打开默认菜单