Las empresas que construyen mejores puntos de referencia crecerán más rápido que las empresas que construyen mejores modelos La IA ya puede resolver ajedrez, exámenes y concursos de codificación, pero aún no puede reservar una cena de manera confiable El cuello de botella ha pasado de la inteligencia a la evaluación
ℏεsam
ℏεsam27 ago 2025
Esta es una de las mejores publicaciones de blog de 2025 del investigador de OpenAI @ShunyuYao12. "estamos en el medio tiempo de AI" es un libro de jugadas de lo que más importará en la investigación de IA y el ecosistema de startups, y cómo prepararse mejor para ello. durante décadas, la investigación de IA se centró en algoritmos y nuevos modelos para superar los puntos de referencia. pero algo importante ha cambiado el juego: "RL finalmente generaliza". la "receta" de trabajo: preentrenamiento masivo del lenguaje (previos) + escala + razonamiento como acción dentro de un bucle de RL. el resultado de este benchmark escalando. El juego cambia: de resolver problemas a definir los problemas correctos. La evaluación se convierte en el centro del escenario. El punto de referencia central ahora es el "problema de la utilidad". Los puntos de referencia realmente no se traducen bien en las tareas del mundo real. Así que este es el libro de jugadas de la segunda mitad: inventar configuraciones de evaluación vinculadas a la utilidad real; Luego aplique la receta para ganar bajo esas nuevas reglas. en RL, el trío clave es el entorno, los algoritmos y los priores. Hemos pasado mucho tiempo en los mejores algoritmos, pero los algoritmos se adaptan demasiado al entorno en el que nacen. para la "segunda mitad", evaluación = diseño del entorno: construir configuraciones más cercanas a la realidad (humano en el bucle, no IID, secuencial / con memoria) para impulsar la utilidad real, no solo las victorias de referencia.
372