V-JEPA2の世界モデルの@k7agar別内訳 65%の成功率でカップ把持を実行できるようにしたアーキテクチャに飛び込む ロボットが写真/複数の写真を表示されなくても、何を達成する必要があるかを理解できる「言語目標問題」について言及しています そのための分散型アプローチを模索するのは興味深いでしょう 1. ワールドモデルが「目標」の反復を生成する 2. 分散型検証者ネットワークは、BLTサンドイッチの特定など、正確な「目標」と見なされるものを投票します 以下のリンク
562