每日AIGC最新进展(29):复旦大学提出通过人类反馈来优化语音生成模型SpeechAlign、浙江大学提出跟踪3D空间中的任何2D像素SpatialTracker、西安交大提出动态场景的语义流

每日AIGC最新进展(29):复旦大学提出通过人类反馈来优化语音生成模型SpeechAlign、浙江大学提出跟踪3D空间中的任何2D像素SpatialTracker、西安交大提出动态场景的语义流

    正在检查是否收录...

Diffusion Models专栏文章汇总:入门与实战

SpeechAlign: Aligning Speech Generation to Human Preferences

本文介绍了一种名为SpeechAlign的方法,旨在通过人类反馈来优化语音生成模型,使其更符合人类偏好。作者首先分析了当前语音语言模型中存在的分布差距问题,指出这导致了训练和推理阶段之间的不一致性,进而影响了模型性能。为了解决这一问题,作者提出了一种迭代自我改进策略,通过构建对比真实和合成编码令牌的偏好数据集,并进行偏好优化,从而将弱模型转变为强模型。

SpeechAlign方法通过构建一个偏好编解码器数据集来开始,该数据集将高质量的真实编码令牌与合成令牌进行对比。然后,利用这个数据集进行偏好优化,以改善编解码器语言模型。这一过程包括多种策略,如Chain-of-Hindsight、直接偏好优化(DPO)、基于人类反馈的强化学习&#

数据集语言模型解码器高质量生成模型强化学习语音生成diffusion一致性模型性能人类偏好
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-17167.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

文字游侠:一款全新AI写作模型,每天10分钟一键创作爆文!附渠道和玩法教程!

上一篇

【AI学习】LLaMA 系列模型的进化(一)

下一篇
  • 复制图片
按住ctrl可打开默认菜单