Nouvelle recherche d'Anthropic : « L'échelle inverse dans le calcul au moment du test » Nous avons trouvé des cas où un raisonnement plus long conduit à une précision inférieure. Nos résultats suggèrent qu'une mise à l'échelle naïve du calcul au moment du test peut renforcer involontairement des schémas de raisonnement problématiques. 🧵
143,44K