analisi del modello mondiale V-JEPA 2 di @k7agar approfondendo l'architettura che ha reso possibile eseguire la presa della tazza con un tasso di successo del 65% menziona il 'problema dell'obiettivo linguistico' in cui il robot è in grado di capire cosa deve raggiungere senza essere mostrata un'immagine / più immagini sarebbe interessante esplorare un approccio decentralizzato per questo 1. il modello mondiale genera iterazioni dell''obiettivo' 2. una rete di verificatori decentralizzati vota su quale viene considerato un 'obiettivo' accurato, ad esempio identificare un panino BLT link qui sotto
530