¿Quieres conseguir un agente LLM para tener éxito en un entorno OOD? Abordamos el caso más difícil con SPA (Agente de Auto-Juego). Sin datos adicionales, herramientas o modelos más fuertes. Puro auto-juego. Primero internalizamos un modelo del mundo a través del Auto-Juego, luego aprendemos a ganar mediante RL. Como un niño jugando con el entorno para simplemente aprender sobre "¿qué pasaría si hago esto?" A continuación, mostramos nuestros hallazgos sobre: ¿Qué está mal con los entornos OOD? ¿Cuáles son los factores clave que permiten que el auto-juego tenga éxito? (1/8)