首页 景点排名文章正文

AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

景点排名 2025年10月07日 01:52 1 admin
AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

曾经有个有趣的婴儿测试:给6个月大的宝宝看桌上的水杯,用木板挡住后再推动木板。

要是木板直接“穿”过水杯的位置,多数宝宝会一脸困惑,这其实是人类对物体持久性的本能认知。

而现在,Meta搞出的V-JEPA模型,居然也有了类似的“物理直觉”。

这事儿得从传统AI的“像素困局”说起,以前的视觉模型,就像死磕细节的强迫症患者。

比如识别郊区街道,它们可能盯着树叶晃动的像素不放,却看不见红绿灯变色。

布朗大学的专家表示:“在像素空间里折腾,纯属跟海量无用细节较劲。”

AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

这话真不假,想想看,自动驾驶要是被路边树枝的影子干扰,那还得了?

扔掉像素,只抓核心

那Meta的V-JEPA是怎么做到的呢?关键就在于它换了套思考方式,不纠结单个像素,而是提炼“核心特征”。

打个比方,看到圆柱体线条图,传统模型记的是每个像素的位置,V-JEPA却只存“高度、宽度、方向”这几个关键数。

这种“潜在表征”的操作,就像把复杂图像压缩成了最简代码。

AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

它的工作流程也挺有意思,分三步:先拿屏蔽了部分像素的视频帧,让编码器1生成“简化版特征”;再把完整帧喂给编码器2,得到“完整版特征”;最后让预测器用前者猜后者。

这过程就像玩拼图,逼着模型忽略树叶这类“干扰项”,专注找车辆、信号灯这些“关键拼图”。

Meta的研究人员说得明白:“这模型就是在主动扔垃圾信息,专挑有用的看。”

更绝的是它的适配能力,预训练时啥物理规则都不教,就靠海量视频自己学。

等要做具体任务了,比如识别动作,只需要给少量带标签的视频,不像传统模型得端到端重训,V-JEPA直接复用编码器,微调一下就行。

AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

这就好比学霸学完基础知识,换门课考试前突击复习下重点就行,效率高得离谱。

V-JEPA的突破与尴尬

去年2月的IntPhys测试,V-JEPA狠狠秀了把肌肉。

这测试专门考AI懂不懂物理逻辑,比如球躲到遮挡物后会不会再出来。

结果它准确率干到98%,而传统像素模型只比瞎猜强点。

这啥概念?相当于AI达到了1岁婴儿的物理认知水平,你说神奇不神奇。

更有意思的是它的“惊讶反应”,研究团队给模型看违背物理规则的视频,比如球消失后不再出现,这时候模型的预测误差会暴增。

AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

这就像婴儿看到木板穿水杯时的愣神,原来AI也会“表示震惊”。

阿姆斯特丹大学的认知科学家就点赞:“婴儿不用学太多就能懂物理,这模型证明AI也能无师自通,牛!”

但V-JEPA2的升级就有点“高开低走”了,参数提到12亿,训了2200万个视频,按说该更强了吧?结果在更难的IntPhys2测试里,它准确率刚过50%,跟瞎蒙差不多。

团队自己都吐槽:“这模型的记忆跟金鱼似的,就记几秒的事。”

AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

伦敦大学的专家还补刀:“它不懂啥叫‘不确定’,要是信息不够,也不知道自己可能猜错了,这跟人类差远了。”

不过在机器人应用上,V-JEPA2还是露了一手。

用60小时的机器人数据微调后,它能规划简单动作,比如收拾桌子时知道杯子不能推到桌边。

但遇到复杂点的物理问题,比如叠书时的重心平衡,就歇菜了,这也印证了它在复杂场景下的短板。

AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

V-JEPA的出现,确实让AI从“看像素”进化到了“懂物理”。

但它的局限也明摆着:记忆短、处理不了复杂逻辑、不会判断不确定性。

未来要是能把这些坑填上,说不定家庭服务机器人真能看懂“杯子不能放桌角”的物理常识,而不是傻呵呵地把杯子推下去。

这么看,AI要想追上人类的物理直觉,路还长着呢。

AI也会“惊讶”?MetaV-JEPA模型:拥有婴儿般的物理直觉

但至少现在,咱们知道了一条新路子,让AI像婴儿一样,从观察中自己悟规律,而不是硬塞一堆公式。

这事儿,想想就挺有意思的。

发表评论

醉苍生 Copyright © 2013-2024 醉苍生. All Rights Reserved. 网站地图