Wil je een LLM-agent krijgen om te slagen in een OOD-omgeving? We pakken de moeilijkste case aan met SPA (Self-Play Agent). Geen extra data, tools of sterkere modellen. Pure zelfspel. We internaliseren eerst een wereldmodel via Zelfspel, daarna leren we hoe we kunnen winnen door RL. Zoals een kind dat met de omgeving speelt om simpelweg te leren over "wat als ik dit doe?" Hieronder tonen we onze bevindingen over: Wat is er mis met OOD-omgevingen? Wat zijn de belangrijkste factoren die zelfspel laten slagen? (1/8)