J'ai entendu dire que l'apprentissage par renforcement ne fonctionne qu'avec des récompenses vérifiables ? 😛 Félicitations !!
Alexander Wei
Alexander Wei19 juil., 15:50
1/N Je suis ravi de partager que notre dernier LLM expérimental de raisonnement @OpenAI a atteint un défi de longue date en IA : une performance de niveau médaille d'or lors de la compétition mathématique la plus prestigieuse au monde - l'Olympiade Internationale de Mathématiques (IMO).
31,12K