Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Comment les LLM s’entraînent aux LLM, clairement expliqué (avec des visuels) :
Les LLMs apprennent non seulement à partir de textes bruts, mais aussi d'autres modèles.
Les Gemma 2 et 3 de Google, par exemple, ont été distillées à partir du modèle Gemini plus grand.
Aujourd'hui, nous couvrons les trois méthodes de distillation des connaissances les plus courantes.
Plongeons-y ! 🚀
1️⃣ Distillation par étiquettes douces
Générez des probabilités softmax au niveau des tokens sur l'ensemble du corpus en utilisant :
- Un LLM Teacher pré-entraîné et gelé
- Un LLM Student non entraîné
Entraînez le LLM Student pour qu'il corresponde aux probabilités du Teacher.
Regardez ça👇
Dans la distillation à étiquettes douces, avoir accès aux probabilités du Professeur garantit un transfert de connaissances maximal.
Cependant, pour obtenir la distribution de probabilité, vous devez avoir accès aux poids du Professeur.
Même avec cet accès, un autre défi se présente...
Supposons que votre vocabulaire ait 100k tokens et que les données aient 5 trillions de tokens.
Stocker les probabilités softmax sur l'ensemble du vocabulaire pour chaque token d'entrée nécessite 500M Go de mémoire sous précision fp8.
C'est ici que nous passons à notre deuxième technique ...👇
2️⃣ Distillation par étiquetage dur
- Utilisez le LLM Enseignant pour obtenir le token de sortie.
- Obtenez les probabilités softmax du LLM Étudiant.
- Entraînez l'Étudiant à correspondre à la sortie de l'Enseignant.
DeepSeek-R1 a été distillé en Qwen & Llama en utilisant cette technique.
Vérifiez cette visualisation 👇
3️⃣ Co-distillation
- Commencez avec un modèle Teacher et un modèle Student LLM non entraînés.
- Générez des probabilités softmax sur le lot actuel à partir des deux modèles.
- Entraînez le modèle Teacher LLM sur les étiquettes difficiles.
- Entraînez le modèle Student LLM pour correspondre aux probabilités softmax du Teacher.
Vérifiez cette visualisation 👇
Meta a utilisé la co-distillation pour entraîner Llama 4 Scout et Maverick à partir de Llama 4 Behemoth.
Bien sûr, pendant les premières étapes, les étiquettes douces du LLM enseignant ne seront pas précises.
C'est pourquoi le LLM étudiant est entraîné en utilisant à la fois des étiquettes douces et des étiquettes dures de vérité terrain.
Voici les trois techniques pour entraîner un LLM en utilisant un autre.
Nous avons discuté de :
- Distillation par étiquettes douces
- Distillation par étiquettes dures
- Co-distillation
Voici à nouveau le visuel pour votre référence 👇
C'est tout !
Si vous l'avez trouvé instructif, partagez-le avec votre réseau.
Trouvez-moi → @akshay_pachaar ✔️
Pour plus d'informations et de tutoriels sur les LLM, les agents IA et l'apprentissage automatique !

25 juil., 20:38
Comment les LLM s’entraînent aux LLM, clairement expliqué (avec des visuels) :
97,74K
Meilleurs
Classement
Favoris