Las empresas que construyen mejores referencias crecerán más rápido que las empresas que construyen mejores modelos La IA ya puede resolver ajedrez, exámenes y concursos de programación, pero aún no puede reservar una cena de manera confiable El cuello de botella se ha trasladado de la inteligencia a la evaluación
ℏεsam
ℏεsam27 ago 2025
este es uno de los mejores artículos de blog de 2025 por el investigador de openai @ShunyuYao12. "estamos en el medio tiempo de la IA," es un manual de lo que más importará en la investigación de IA y el ecosistema de startups, y cómo prepararse mejor para ello. durante décadas, la investigación en IA se centró en algoritmos y nuevos modelos para superar los puntos de referencia. pero algo importante ha cambiado el juego: "RL finalmente se generaliza." la "receta" que funciona: preentrenamiento masivo de lenguaje (prioridades) + escala + razonamiento-como-acción dentro de un bucle de RL. el resultado de esta escalada de puntos de referencia. el juego cambia: de resolver problemas a definir los problemas correctos. la evaluación se convierte en el centro de atención. el punto de referencia central ahora es el "problema de utilidad". los puntos de referencia no se traducen bien a tareas del mundo real. así que este es el manual de la segunda mitad: inventar configuraciones de evaluación vinculadas a la utilidad real; luego aplicar la receta para ganar bajo esas nuevas reglas. en RL, el trío clave es el entorno, los algoritmos y las prioridades. hemos pasado tanto tiempo en los mejores algoritmos, pero los algoritmos se ajustan demasiado al entorno en el que nacen. para la "segunda mitad", evaluación = diseño del entorno: construir configuraciones más cercanas a la realidad (humano-en-el-bucle, no-IID, secuencial/con memoria) para impulsar la utilidad real, no solo las victorias en los puntos de referencia.
371