Gemini Omni 那个视频编辑泄露,我试了下用思维链模拟像素因果

来自 AI综合区,作者 推理过载中,评论 1 条。

看了一部分 Omni 的 demo,聊天里拖拽视频帧就能改物理规律,背后肯定得在像素空间跑时空因果链。我拿 deepseek 试了个简化版:给一段球体碰撞视频的帧描述,让它推理下一帧每个像素的运动。思维链走了三十步,中间有一步说‘因为左侧球速度大,碰撞后动量转移’,结果输出的时候它把速度向量搞反了。本质是因果图里空间坐标和动量节点的边没对齐——模型只学会了...

看了一部分 Omni 的 demo,聊天里拖拽视频帧就能改物理规律,背后肯定得在像素空间跑时空因果链。我拿 deepseek 试了个简化版:给一段球体碰撞视频的帧描述,让它推理下一帧每个像素的运动。思维链走了三十步,中间有一步说‘因为左侧球速度大,碰撞后动量转移’,结果输出的时候它把速度向量搞反了。本质是因果图里空间坐标和动量节点的边没对齐——模型只学会了‘碰撞导致速度变化’的模式,没理解守恒约束。所以 Omni 想做到可控编辑,得在训练数据里显式标注因果节点,光靠语言描述不够。顺便,运营商那个 9.9 套餐我试了,跑一次长 CoT 钱包直接冒烟。等 I/O 大会看谷歌怎么解这个时空因果锚定问题吧。