一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

游客

神秘用户已躺平...

您未登录！
愿美好瞬间与您不期而遇

登录注册

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

WAP站长网

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

2025年6月24日

字数：1947，阅读约7分钟

全屏显示

一张图or文字生成无限3D世界！斯坦福吴佳俊团队新作，让网友直呼“难以置信”

35

0

正在检查是否收录...

斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作！

仅用一张图or一段文字就能沿相机轨迹生成

无限连贯3D场景

：

只需输入一段古诗词，诗中场景立刻映入眼帘：

而且还是来回式的，可以再倒回去的那种：

同一起点可以进入不同场景：

真实场景也可以，其中的人物阴影等细节都毫无违和感：

方块世界更不在话下，仿佛打开了“我的世界”：

这项工作名为

WonderJourney

，由斯坦福吴佳俊团队和谷歌研究院联合打造。

除了可以从任意位置开始，无限生成多样化且连贯的3D场景，WonderJourney根据文本描述生成时，可控性也很高。

只要将鼠标悬停在视频上，就可以暂停自动滑动。

这项工作的发布让网友们直呼“难以置信”?。项目代码还没正式发布，就收获了200+星：

AI研究员Xander Steenbrugge惊讶之余表示：

这是生成式AI和传统3D技术的完美结合。

要知道，之前的工作都是专注于单一类型场景，WonderJourney可谓打开了新世界的大门。

那这究竟是如何做到的？

开启3D奇妙之旅

生成无限连贯3D场景要解决的一大难题是：如何在保持元素多样性的同时，生成符合逻辑的场景元素组合。

这当中需要判断将要生成的元素空间位置的合理性，还需要处理好新旧场景的遮挡关系、视差等几何关系。

可以看到WonderJourney在这方面的处理上非常细致：

无论什么风格都能轻松驾驭：

能够做到这些，关键在于WonderJourney的模块化流程。

总的生成过程分为“确定要生成什么对象”、“把这些对象放在哪里”、“这些场景如何在几何上连接”三步。

需要以下三个模块配合完成：

Scene description generation：使用大语言模型（LLM）根据当前场景生成下一个场景的文本描述。
Visual scene generation：将文本描述转换为3D点云表示的场景。
Visual validation：使用VLM验证生成的场景，检测到不合理的结果启动重新生成。

具体来说，在Scene description generation模块，使用预训练好的LLM输入当前场景描述，通过自回归生成下一个场景，其中包含

风格、物体、背景

三部分的描述。

此外，还要将自然语言描述进行词类过滤，只保留

名词和形容词

；每生成一个新场景描述，会更新场景描述记忆。

在Visual scene generation模块，先是将当前图像/文本转换为3D点云表示。

然后使用depth refinement增强对象边界的depth不连续性，通俗来讲就是让边界两侧的深度对比更加明显，从而使过渡更加逼真。

之后使用text-guided inpainting基于文本描述生成新场景图像。

研究人员还设计了depth consistency loss和re-rendering consistency机制改进新旧场景遮挡和点云对齐。

最后Visual validation模块，使用VLM提示检测生成图像中的不好的结果，比如画框、模糊等，如果检测到则重新生成场景。

值得一提的是，这三个模块都可用最先进的预训练模型实现、替换，所以不需要任何训练。

实验测试

由于连贯3D场景生成是一个没有现有可用数据集的新任务，所以研究人员在实验中使用了自己拍摄的照片、来自在线无版权的照片以及生成的图片进行了评估。

此外，使用了两种最先进的连续视图生成方法作为基准：基于图像的InfiniteNature-Zero和基于文本的SceneScape。

定性结果展示了从不同类型输入生成的连贯3D场景序列效果，表明方法可以从任何输入开始生成：

此外，同一输入可生成不同输出，表明方法具有多样性：

研究人员还从生成效果多样性、视觉质量、场景复杂度和有趣度这4个方面进行了人类偏好评估。

结果WonderJourney方法明显优于InfiniteNature-Zero、SceneScape。

作者简介

该篇论文来自斯坦福大学吴佳俊团队和谷歌研究院。

论文一作俞洪兴，斯坦福大学四年级博士生，导师吴佳俊。

主要研究领域为物理场景理解和动态建模。

俞洪兴曾在谷歌研究院实习，论文部分工作是在实习期间完成。

吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室 (SVL)和斯坦福人工智能实验室 (SAIL)。

在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神之一”。

论文链接：https://arxiv.org/abs/2312.03884

3d场景研究人员多样性斯坦福大学描述生成llm预训练script场景生成图生成研究领域人类偏好人工智能研究员gui多样化urlarxiv无版权3d技术ai研究场景理解奇妙之旅生成效果大语言模型模块化场景图视觉质量ide3d场景生成生成式预训练模型文本转换数据集生成式ai自然语言语言模型无限生成

本文作者：WAP站长网
本文链接： https://wapzz.net/post-3314.html
版权声明：本博客所有文章除特别声明外，均默认采用 CC BY-NC-SA 4.0 许可协议。

本站部分内容来源于网络转载，仅供学习交流使用。如涉及版权问题，请及时联系我们，我们将第一时间处理。

文章很赞！支持一下吧还没有人为TA充电

为TA充电

还没有人为TA充电

0

0

支付宝扫一扫
微信扫一扫

感谢支持

文章很赞！支持一下吧

关于作者

WAP站长网

2.8W+

9

1

2

WAP站长官方

最近签到
签到排行

WAP站长网
1个月前
+20
kbx991
1个月前
+30
vPNpL7l4
1个月前
+10

WAP站长网
WAP站长官方
57
kbx991
内卷太严重，已躺平...
6
Cr8M6e32
内卷太严重，已躺平...
5

热门文章

TOP1

TOP2

日均播放量超过25亿，为什么“最流行”的美妆趋势诞生于抖音？

TOP3

TOP4

TOP5

标签云

麒麟9020A性能 1

华为Mate70优享版 1

性能提升 1

麒麟9020A 1

Mate70优享版 1

K90 1

Gen5芯片 1

K90系列 1

X9系列 1

荣耀Magic8系列 1

X300系列 1

小米员工处分 1

王腾被辞退 1

泄露公司机密 1

小米员工违规 1

王腾账号注销 1

YU7防护措施 1

小米YU7电池安全 1

防护措施 1

上市咨询 1

电池安全 1

合约机 1

中国联通 1

小米汽车技术解释 1

小米超强钢项目 1

东北大学 1

项目名称 1

超强钢 1

淘宝团购 1

阿里流量入口 1

团购业务 1

跨界月饼 1

月饼邪修 1

创意月饼 1

年轻人消费 1

中秋礼盒 1

月饼测评 1

抖音鸡排哥 1

鸡排哥语录 1

抖音爆火 1

幽默互动 1

网络走红 1

鸡排哥 1

AI稀疏注意力 1

V3.2 1

API成本 1

稀疏注意力 1

照片在线下载 1

10G文件传输 1

在线预览 1

复制图片
复制图片地址

深色模式
轉為繁體
前往顶部
前往底部

按住ctrl可打开默认菜单