关于面向机器人操作的世界模型的一点思考

游客

神秘用户已躺平...

您未登录！
愿美好瞬间与您不期而遇

登录注册

关于面向机器人操作的世界模型的一点思考

WAP站长网

关于面向机器人操作的世界模型的一点思考

关于面向机器人操作的世界模型的一点思考

2025年6月24日

字数：1041，阅读约4分钟

全屏显示

关于面向机器人操作的世界模型的一点思考

32

0

正在检查是否收录...

最近世界模型的火热似乎能在机器人操作中起到一些至关重要的作用。而对于具身智能来说，现阶段manipulation是最需要突破的点。特别是针对以下long horizon的任务，如何构建机器人“小脑”，来实现各种复杂的操作要求，是当下最需要解决的问题。

是否需要通过拆分skill为原子操作？

在把LLM应用在机器人上时，比较常用的做法是把各种API提供在context里面，然后让LLM根据任务prompt自动编写planning代码，可以参考文章：

这种方法优点是非常直观，可以比较清晰地把握任务的拆解逻辑，比如移动到A，抓起B，移动到C，放下B。但是这种操作的前提是能够把整个任务拆分成原子操作（移动、抓取、放置等）。但是如果是一些比较复杂的任务，比如叠衣服这种任务，其是天然难以进行任务拆分的，那这个时候应该怎么办？其实对于manipulation来说，我们大量面对的应该是这种

long horizon且难以进行拆分的任务。

世界模型可以作为关键突破点

针对

long horizon且难以进行拆分的manipulation任务

，比较好的处理方法是研究

模仿学习

，比如diffusion policy或者ACT这种，对整个操作trajectory进行建模拟合。但是这种方法都会遇到一个问题，就是没有办法很好的处理累积误差——而这个问题的本质就是缺乏一套有效地

反馈机制

。

还是以叠衣服为例，人在叠衣服的时候，其实会根据视觉获取的衣服变化，不断地调整操作策略，最终将衣服叠到想要的样子。那这个里面其实有一个比较隐含但是非常重要的点：人大概知道什么样的操作，会导致衣物发生什么样的变化。那么进一步，就是人其实具备一个关于

衣物变形的模型

，能够大概知道什么样的输入，会导致状态（衣物摆放）的变化（视觉层面就是像素级别），更加具体的可以表示为：

SORA其实给了一剂强心针，就是只要数据够多，我能用transformer+diffusion layer，硬train一个可以理解并预测变化的模型f。假设我们已经有了一个非常强的预测衣物随操作变化的模型f，那这个时候叠衣服就可以通过像素级别的衣物状态反馈，通过

Model Predictive Control

的思路，构建一个视觉伺服（Visual Servo）的策略，将衣服叠到我们想要的状态。这一点其实在LeCun最近的一些“暴论”上也得到了验证：

如何构建面向机器人操作的世界模型

机器人世界模型llmdiffusionsoraapitransformerpromptcto

本文作者：WAP站长网
本文链接： https://wapzz.net/post-13401.html
版权声明：本博客所有文章除特别声明外，均默认采用 CC BY-NC-SA 4.0 许可协议。

本站部分内容来源于网络转载，仅供学习交流使用。如涉及版权问题，请及时联系我们，我们将第一时间处理。

文章很赞！支持一下吧还没有人为TA充电

为TA充电

还没有人为TA充电

0

0

支付宝扫一扫
微信扫一扫

感谢支持

文章很赞！支持一下吧

关于作者

WAP站长网

2.8W+

9

1

2

WAP站长官方

最近签到
签到排行

WAP站长网
1个月前
+20
kbx991
1个月前
+30
vPNpL7l4
1个月前
+10

WAP站长网
WAP站长官方
57
kbx991
内卷太严重，已躺平...
6
Cr8M6e32
内卷太严重，已躺平...
5

热门文章

TOP1

TOP2

微博上线“在线状态”功能：支持用户自主选择开启或关闭

TOP3

日均播放量超过25亿，为什么“最流行”的美妆趋势诞生于抖音？

TOP4

雷军说要敢于对标世界第一：只有对标第一才能最终赶超第一

TOP5

标签云

麒麟9020A性能 1

华为Mate70优享版 1

性能提升 1

麒麟9020A 1

Mate70优享版 1

K90 1

Gen5芯片 1

K90系列 1

X9系列 1

荣耀Magic8系列 1

X300系列 1

小米员工处分 1

王腾被辞退 1

泄露公司机密 1

小米员工违规 1

王腾账号注销 1

YU7防护措施 1

小米YU7电池安全 1

防护措施 1

上市咨询 1

电池安全 1

合约机 1

中国联通 1

小米汽车技术解释 1

小米超强钢项目 1

东北大学 1

项目名称 1

超强钢 1

淘宝团购 1

阿里流量入口 1

团购业务 1

跨界月饼 1

月饼邪修 1

创意月饼 1

年轻人消费 1

中秋礼盒 1

月饼测评 1

抖音鸡排哥 1

鸡排哥语录 1

抖音爆火 1

幽默互动 1

网络走红 1

鸡排哥 1

AI稀疏注意力 1

V3.2 1

API成本 1

稀疏注意力 1

照片在线下载 1

10G文件传输 1

在线预览 1

复制图片
复制图片地址

深色模式
轉為繁體
前往顶部
前往底部

按住ctrl可打开默认菜单