Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformer vs. Campuran Ahli dalam LLM, dijelaskan dengan jelas (dengan visual):
Mixture of Experts (MoE) adalah arsitektur populer yang menggunakan "ahli" yang berbeda untuk meningkatkan model Transformer.
Visual di bawah ini menjelaskan perbedaannya dengan Transformers.
Mari selami untuk mempelajari lebih lanjut tentang Kemendi!
Transformer dan MoE berbeda dalam blok dekoder:
- Transformer menggunakan jaringan feed-forward.
- MoE menggunakan ahli, yang merupakan jaringan feed-forward tetapi lebih kecil dibandingkan dengan yang ada di Transformer.
Selama inferensi, subset ahli dipilih. Ini membuat inferensi lebih cepat di MoE.
Karena jaringan memiliki beberapa lapisan dekoder:
- teks melewati berbagai ahli di seluruh lapisan.
- Ahli yang dipilih juga berbeda antar token.
Tetapi bagaimana model memutuskan ahli mana yang ideal?
Router melakukan itu. Mari kita bahas selanjutnya.
Router ini seperti pengklasifikasi multi-kelas yang menghasilkan skor softmax atas para ahli. Berdasarkan skor, kami memilih ahli K teratas.
Router dilatih dengan jaringan dan belajar memilih ahli terbaik.
Tapi itu tidak mudah. Mari kita bahas tantangannya!
Tantangan 1) Perhatikan pola ini di awal pelatihan:
- Model memilih "Expert 2"
- Ahli menjadi sedikit lebih baik
- Mungkin dipilih lagi
- Ahli belajar lebih banyak
- Itu akan dipilih lagi
- Belajar lebih banyak
- Dan seterusnya!
Banyak ahli yang kurang terlatih!
Kami menyelesaikannya dalam dua langkah:
- Tambahkan noise ke output feed-forward router sehingga ahli lain bisa mendapatkan logit yang lebih tinggi.
- Atur semua log kecuali K teratas ke -infinity. Setelah softmax, skor ini menjadi nol.
Dengan cara ini, ahli lain juga mendapatkan kesempatan untuk berlatih.
Tantangan 2) Beberapa ahli mungkin terpapar lebih banyak token daripada yang lain—yang mengarah ke ahli yang kurang terlatih.
Kami mencegah hal ini dengan membatasi jumlah token yang dapat diproses oleh seorang ahli.
Jika seorang ahli mencapai batas, token input diteruskan ke ahli terbaik berikutnya.
MoE memiliki lebih banyak parameter untuk dimuat. Namun, sebagian kecil dari mereka diaktifkan karena kami hanya memilih beberapa ahli.
Hal ini mengarah pada inferensi yang lebih cepat. Mixtral 8x7B oleh @MistralAI adalah salah satu LLM terkenal yang didasarkan pada MoE.
Berikut adalah visual lagi yang membandingkan Transformers dan MoE!
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda.
Temukan saya → @akshay_pachaar ✔️
Untuk wawasan dan tutorial lebih lanjut tentang LLM, Agen AI, dan Pembelajaran Mesin!

21 Jul, 20.30
Transformer vs. Campuran Ahli dalam LLM, dijelaskan dengan jelas (dengan visual):
228,76K
Teratas
Peringkat
Favorit