Meta AI实验室推三项新AI项目庆祝成立十周年:Ego-Exo4D、Audiobox等

Meta AI实验室推三项新AI项目庆祝成立十周年:Ego-Exo4D、Audiobox等

    正在检查是否收录...

为庆祝Meta基础人工智能研究(FAIR)团队成立十周年,公司隆重推出三个创新的人工智能项目,展示了引人注目的演示。

Ego-Exo4D:

官方项目介绍网址:https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

该项目以数据集及基准测试的形式呈现,旨在支持视频学习和多模态感知的人工智能研究。由Meta的FAIR、Project Aria,以及来自全球15所大学的合作伙伴在两年内共同收集,Ego-Exo4D捕捉了佩戴Project Aria头戴设备的参与者的“自我中心”视角和周围摄像机的“外部中心”视角。

这一数据集聚焦于复杂的人类活动,如运动、音乐、烹饪、舞蹈和自行车维修。Meta认为,该数据集在增强现实系统、机器人学习以及社交网络等领域具有广泛应用前景。1,400多小时的视频数据将于12月以开源形式发布,并计划于明年进行Ego-Exo4D公开基准竞赛。

Seamless Communication:

官方项目介绍网址:https://ai.meta.com/blog/seamless-communication/

该项目旨在通过四个AI研究模型实现更自然、真实的跨语言交流。包括保留语音表达和语境的SeamlessExpressive,以及提供约两秒延迟的语音和文本翻译的SeamlessStreaming。此外,SeamlessM4T v2是一个多语言、多任务的模型,用于轻松实现语音和文本之间的交流。最终,Seamless将集成SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2的功能于一个模型中。

Meta还发布了SeamlessExpressive的演示,用户可以在其中将其语音翻译成其他语言,增强了跨语言沟通的交互性。

官方演示网址:https://seamless.metademolab.com/expressive/

Audiobox:

官方项目介绍网址:https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/

这是Meta全新的音频生成模型,通过结合语音输入和自然语言文本提示,能够生成声音和音效,从而更轻松地创建用于不同用途的定制音频文件。相比其前身Voicebox,Audiobox通过允许用户使用自然语言提示来创建所需的声音或语音类型,提供了更强的可控性。

Meta表示,该模型将首先提供给一组选择的研究人员和学术机构,以推动音频生成研究的发展,并确保人工智能的负责任发展。

这三个项目的推出标志着Meta FAIR团队十年来在人工智能领域取得的巨大成就,并为未来的技术发展和创新奠定了坚实基础。

aml人工智能exo数据集音频生成mun跨语言智能研究自然语言生成模型广泛应用支持视频url语音表达引人注目多语言机器人多模态多任务跨语言沟通ai研究合作伙伴语音翻译语言沟通研究人员prompts增强现实视频学习文本提示语言交流prompt社交网络语音输入文本翻译ide
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-2114.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

验证码安全志:AIGC+集成环境信息信息检测

上一篇

Midjourney Prompt 提示词速查表 v5.2

下一篇
  • 复制图片
按住ctrl可打开默认菜单