Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bagaimana LLM melatih LLM, dijelaskan dengan jelas (dengan visual):
LLM belajar tidak hanya dari teks mentah tetapi juga dari model lain.
Gemma 2 dan 3 Google, misalnya, disaring dari model Gemini yang lebih besar.
Hari ini kita bahas, tiga metode distilasi pengetahuan yang paling umum.
Mari selam! 🚀
1️⃣ Distilasi label lunak
Hasilkan probabilitas softmax tingkat token di seluruh korpus menggunakan:
- LLM Guru yang beku dan terlatih sebelumnya
- LLM Mahasiswa yang tidak terlatih
Latih LLM Siswa agar sesuai dengan probabilitas Guru.
Lihat👇 ini
Dalam penyulingan label lunak, memiliki akses ke probabilitas Guru memastikan transfer pengetahuan yang maksimal.
Namun, untuk mendapatkan distribusi probabilitas, Anda harus memiliki akses ke bobot Guru.
Bahkan dengan akses, tantangan lain muncul...
Katakanlah kosakata Anda memiliki 100 ribu token dan data memiliki 5 triliun token.
Menyimpan probabilitas softmax di seluruh kosakata untuk setiap token input membutuhkan memori 500 juta GB di bawah presisi fp8.
Di sinilah kita melompat ke teknik kedua kita ... 👇
2️⃣ Distilasi label keras
- Gunakan LLM Guru untuk mendapatkan token output.
- Dapatkan softmax probs. dari LLM Mahasiswa.
- Latih Siswa agar sesuai dengan output Guru.
DeepSeek-R1 disuling ke dalam Qwen & Llama menggunakan teknik ini.
Periksa visual 👇 ini
3️⃣ Distilasi bersama
- Mulailah dengan LLM Guru dan Siswa yang tidak terlatih.
- Hasilkan softmax probs selama batch saat ini dari kedua model.
- Latih Guru LLM pada label keras.
- Latih LLM Siswa untuk mencocokkan softmax probs Guru.
Periksa visual 👇 ini
Meta menggunakan penyulingan bersama untuk melatih Llama 4 Scout dan Maverick dari Llama 4 Behemoth.
Tentu saja, selama tahap awal, label lunak LLM Guru tidak akan akurat.
Itulah sebabnya LLM Mahasiswa dilatih menggunakan label lunak + label keras kebenaran dasar.
Itulah tiga teknik untuk melatih satu LLM menggunakan LLM lainnya.
Kami membahas:
- Distilasi label lunak
- Distilasi label keras
- Ko-distilasi
Berikut visualnya lagi untuk referensi 👇 Anda
Itu bungkusnya!
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda.
Temukan saya → @akshay_pachaar ✔️
Untuk wawasan dan tutorial lebih lanjut tentang LLM, Agen AI, dan Pembelajaran Mesin!

25 Jul, 20.38
Bagaimana LLM melatih LLM, dijelaskan dengan jelas (dengan visual):
97,75K
Teratas
Peringkat
Favorit