Uppdelning av V-JEPA 2 världsmodell efter @k7agar Dyk in i arkitekturen som gjorde det möjligt för den att utföra koppgrepp med 65% framgångsfrekvens nämner om "språkmålsproblemet" där roboten kan förstå vad den behöver uppnå utan att visas en bild / flera bilder skulle vara intressant att utforska ett decentraliserat tillvägagångssätt för det 1. Världsmodellen genererar iterationer av "mål" 2. decentraliserade verifieringsnätverk röstar om vilket som anses vara ett korrekt "mål", t.ex. att identifiera BLT-smörgås Länk nedan
628