Meta AI实验室推三项新AI项目庆祝成立十周年：Ego-Exo4D、Audiobox等

WAP站长网发布于 2025-6-24 16:31 阅读：34 SEO教程

为庆祝Meta基础人工智能研究（FAIR）团队成立十周年，公司隆重推出三个创新的人工智能项目，展示了引人注目的演示。

Ego-Exo4D:

官方项目介绍网址:https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

该项目以数据集及基准测试的形式呈现，旨在支持视频学习和多模态感知的人工智能研究。由Meta的FAIR、Project Aria，以及来自全球15所大学的合作伙伴在两年内共同收集，Ego-Exo4D捕捉了佩戴Project Aria头戴设备的参与者的“自我中心”视角和周围摄像机的“外部中心”视角。

这一数据集聚焦于复杂的人类活动，如运动、音乐、烹饪、舞蹈和自行车维修。Meta认为，该数据集在增强现实系统、机器人学习以及社交网络等领域具有广泛应用前景。1，400多小时的视频数据将于12月以开源形式发布，并计划于明年进行Ego-Exo4D公开基准竞赛。

Seamless Communication:

官方项目介绍网址:https://ai.meta.com/blog/seamless-communication/

该项目旨在通过四个AI研究模型实现更自然、真实的跨语言交流。包括保留语音表达和语境的SeamlessExpressive，以及提供约两秒延迟的语音和文本翻译的SeamlessStreaming。此外，SeamlessM4T v2是一个多语言、多任务的模型，用于轻松实现语音和文本之间的交流。最终，Seamless将集成SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2的功能于一个模型中。

Meta还发布了SeamlessExpressive的演示，用户可以在其中将其语音翻译成其他语言，增强了跨语言沟通的交互性。

官方演示网址:https://seamless.metademolab.com/expressive/

Audiobox:

官方项目介绍网址:https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/

这是Meta全新的音频生成模型，通过结合语音输入和自然语言文本提示，能够生成声音和音效，从而更轻松地创建用于不同用途的定制音频文件。相比其前身Voicebox，Audiobox通过允许用户使用自然语言提示来创建所需的声音或语音类型，提供了更强的可控性。

Meta表示，该模型将首先提供给一组选择的研究人员和学术机构，以推动音频生成研究的发展，并确保人工智能的负责任发展。

这三个项目的推出标志着Meta FAIR团队十年来在人工智能领域取得的巨大成就，并为未来的技术发展和创新奠定了坚实基础。

aml人工智能exo数据集音频生成mun跨语言智能研究自然语言生成模型广泛应用支持视频url语音表达引人注目多语言机器人多模态多任务跨语言沟通ai研究合作伙伴语音翻译语言沟通研究人员prompts增强现实视频学习文本提示语言交流prompt社交网络语音输入文本翻译ide