Meta发布全新AI翻译大模型,实时语音转换不超2秒

Meta发布全新AI翻译大模型,实时语音转换不超2秒

    正在检查是否收录...

Meta最新发布了一系列AI翻译大模型,标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个已经在GitHub上开源。这些模型不仅具备跨语言语音复杂性的保留能力,而且能够模仿语气、语速、情感等细致特征,使得AI翻译更富有表现力。

地址:https://ai.meta.com/blog/seamless-communication/

在技术架构方面,Meta采用了非自回归架构,提高了模型的扩展性和鲁棒性,特别适用于流媒体场景。核心算法EMMA能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本,同时采用了UnitY2等新架构来增强语音生成能力。

为了解决翻译准确性的问题,Meta引入了“毒性缓解”技术,在翻译生成过程中自动检测和调整生成的有毒单词,显著减少了翻译的“毒性”。

为了防止滥用风险,Meta还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身,还涵盖元数据、数据和数据对齐工具,其中元数据包括58.5万小时的语音文本对,是目前容量最大、语言覆盖最广的语音语料库之一。

总体而言,Meta的这一系列翻译模型在实时语音翻译领域取得了显著的突破,不仅提升了翻译速度,还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。

aml元数据语音翻译munai翻译unit语料库emma跨语言自动检测git技术创新大模型流媒体准确性unity语音生成github语音转换url
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-3929.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.8W+
9
1
2
WAP站长官方

Midjourney之logo设计(建议收藏)

上一篇

四分钟成功复现诺奖!CMU开发GPT-4化学家,自主编码操控机器人颠覆化学研究登Nature

下一篇
  • 复制图片
按住ctrl可打开默认菜单