Il y a quelques jours, j'ai publié sur le phénomène de double descente pour alerter les économistes sur son importance. Pour l'illustrer, j'ai utilisé l'exemple suivant : 1️⃣ Vous voulez trouver la courbe qui « meilleure » approxime une fonction inconnue générant 12 observations. 2️⃣ Je sais que la fonction cible est Y = 2(1 - e^{-|x + \sin(x^2)|}), mais vous ne le savez pas. Vous savez seulement qu'il n'y a pas de bruit dans le problème. 3️⃣ Vous utilisez, comme approximateur, un réseau de neurones à couche cachée unique avec activation ReLU entraîné sur ces 12 observations. 4️⃣ Vous vérifiez ce qui se passe avec l'approximation lorsque vous augmentez le nombre de paramètres dans le réseau de neurones de 4 à 24 001. 🎥 Le gif que mon cher co-auteur @MahdiKahou a préparé illustre les résultats : Cas A. Avec un petit nombre de paramètres (disons, 7), vous ne faites pas bien : la distance ℓ₂ entre votre approximation entraînée (ligne bleue) et la fonction cible (non tracée, seulement les 12 points rouges tirés de celle-ci) est élevée. Cas B. Avec ~1 000 paramètres, vous atteignez le seuil d'interpolation : le réseau s'adapte parfaitement à tous les 12 points, mais la fonction est très ondulée. La distance ℓ₂ est toujours élevée. Cas C. Avec encore plus de paramètres (par exemple, 24 001), l'approximation s'adoucit, et la distance ℓ₂ à la fonction cible devient beaucoup plus petite. ⚡ Points clés : 1️⃣ Ceci n'est qu'un exemple, mais des résultats similaires ont été documentés dans des milliers d'applications. Je ne revendique aucune nouveauté ici. 2️⃣ Le résultat ne dépend pas d'avoir exactement 12 observations (avec plus, la double descente apparaît plus tôt), de l'absence de bruit, ou même de l'utilisation de réseaux de neurones — vous l'obtenez avec de nombreux autres approximateurs paramétriques. 3️⃣ Oui, dans des milliers d'applications économiques, vous souhaitez approximer des fonctions compliquées et de haute dimension avec toutes sortes de formes complexes, et vous ne connaissez que quelques points tirés d'elles. 👉 Pourquoi préférer l'approximation lisse ? Parce que, même si elle est surparamétrée, elle généralise mieux. Si je tire de nouvelles observations de la fonction cible (inconnue pour vous)...