Les entreprises qui construisent de meilleurs repères croîtront plus rapidement que celles qui construisent de meilleurs modèles. L'IA peut déjà résoudre des parties d'échecs, des examens et des concours de codage, mais elle ne peut toujours pas réserver de manière fiable une table pour le dîner. Le goulot d'étranglement est passé de l'intelligence à l'évaluation.
ℏεsam
ℏεsam27 août 2025
c'est l'un des meilleurs articles de blog de 2025 par le chercheur d'openai @ShunyuYao12. "nous sommes à la mi-temps de l'IA," c'est un guide sur ce qui comptera le plus dans la recherche en IA et l'écosystème des startups, et comment s'y préparer au mieux. pendant des décennies, la recherche en IA s'est concentrée sur les algorithmes et les nouveaux modèles pour battre les références. mais quelque chose d'important a changé la donne : "RL se généralise enfin." la "recette" qui fonctionne : pré-entraînement massif de langage (prior) + échelle + raisonnement en tant qu'action dans une boucle RL. le résultat de cette montée en référence. le jeu change : de la résolution de problèmes à la définition des bons problèmes. l'évaluation devient centrale. la référence principale est maintenant le "problème d'utilité". les références ne se traduisent pas vraiment bien en tâches du monde réel. donc voici le guide de la seconde moitié : inventer des configurations d'évaluation liées à une véritable utilité ; puis appliquer la recette pour gagner selon ces nouvelles règles. dans RL, le trio clé est environnement, algorithmes et prior. nous avons passé tant de temps sur les meilleurs algos mais les algos s'adaptent trop à l'environnement dans lequel ils naissent. pour la "deuxième moitié", évaluation = conception de l'environnement : construire des configurations plus proches de la réalité (humain dans la boucle, non-IID, séquentiel/avec mémoire) pour générer une véritable utilité, pas seulement des victoires sur les références.
379