Aufschlüsselung des V-JEPA 2-Weltmodells von @k7agar Eintauchen in die Architektur, die es ermöglicht hat, das Greifen von Tassen mit einer Erfolgsquote von 65 % durchzuführen. Erwähnungen des 'Sprache-Ziel-Problems', bei dem der Roboter versteht, was er erreichen muss, ohne ein Bild / mehrere Bilder gezeigt zu bekommen. Es wäre interessant, einen dezentralen Ansatz dafür zu erkunden. 1. Weltmodell generiert Iterationen des 'Ziels'. 2. Dezentrales Verifizierungsnetzwerk stimmt ab, welches als genaues 'Ziel' angesehen wird, z. B. das Identifizieren eines BLT-Sandwichs. Link unten.
531