Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Max Ryabinin
Pembelajaran mendalam skala besar & penelitian @togethercompute
Penulis Learning@home/Hivemind (DMoE, DeDLOC, SWARM, Kelopak)
PhD dalam DL terdesentralisasi '2023
Jika Anda berada di ICML dan tertarik dengan kesimpulan yang dapat diverifikasi, pastikan untuk mampir ke poster kami!
Kami akan menyajikan TOPLOC, metode hashing aktivasi efisien yang bekerja di berbagai pengaturan, misalnya mengganti pengaturan inferensi atau bahkan model.
16 Juli, 16:30, E-1106
1,4K
Dari pengalaman saya, mendapatkan makalah tentang DL terdesentralisasi yang diterima ke konferensi tingkat atas bisa sangat sulit. Motivasi tidak dikenal oleh banyak pengulas, dan pengaturan eksperimen standar tidak memperhitungkan masalah yang ingin Anda pecahkan.
Oleh karena itu, saya sangat senang melihat perusahaan seperti @PluralisHQ dan @PrimeIntellect menginvestasikan upaya untuk membagikan hasil mereka dan mempublikasikannya di konferensi besar! IMO bahkan mempersiapkan pengiriman memaksa Anda untuk lebih teliti tentang eksperimen Anda + umpan balik dari luar dari pengulas membantu Anda mempertajam pesan makalah.

Alexander Long14 Jul, 08.24
Bagi orang yang tidak terbiasa dengan penerbitan AI; Ada 3 konferensi utama setiap tahun. ICML, ICLR dan NeurIPS. Ini adalah konferensi teknis dan setara dengan jurnal dalam disiplin ilmu lain - mereka adalah tempat penerbitan utama untuk AI. Persaingan untuk memiliki makalah di konferensi ini sekarang berada pada tingkat yang konyol, mendapatkan makalah yang diterima sangat sulit, dan ada banyak kekhawatiran tentang proses peninjauan yang cukup berisik pada saat ini. Makalah yang kuat tanpa kekurangan memiliki peluang sekitar 50% untuk diterima, dan biasanya makalah diserahkan dengan perubahan pengulas beberapa kali sampai diterima. Terlepas dari semua itu, makalah di tempat-tempat ini tetap menjadi cap utama legitimasi di dunia AI, dan mungkin masih merupakan metrik karir utama bagi peneliti ML (meskipun ini melemahkan imo karena begitu banyak penelitian di laboratorium perbatasan tidak dipublikasikan).
Makalah Jalur Utama sangat berbeda dengan makalah lokakarya. Trek utama memiliki tinjauan sejawat yang intens dan serius. Makalah lokakarya adalah untuk pekerjaan pendahuluan, yang memberikan beberapa indikasi hasil yang menarik, tetapi tidak lengkap atau hasilnya tidak cukup signifikan untuk jalur utama. Mereka hanya diharuskan untuk ditinjau oleh kumpulan peninjau lokakarya dan mereka tidak muncul dalam persidangan.
Banyak makalah hebat pertama kali muncul di lokakarya (misalnya grokking) - tetapi lokakarya dan makalah jalur utama pada dasarnya berbeda, dengan tingkat dampak yang berbeda secara fundamental. Satu-satunya dua perusahaan dalam AI terdesentralisasi yang memiliki makalah jalur utama tahun ini adalah @PrimeIntellect dan Pluralis.
7,24K
Max Ryabinin memposting ulang
@gowthami_s @JangLawrenceK @IAmTimNguyen @ishapuri101 Pelatihan Terdistribusi dalam Pembelajaran🌍 Mesin
Bergabunglah dengan kami pada tanggal 12 Juli saat @Ar_Douillard mengeksplorasi metode utama seperti FSDP, Pipeline & Expert Parallelism, ditambah pendekatan baru seperti DiLoCo dan SWARM—mendorong batas pelatihan global yang terdistribusi.
Pelajari lebih lanjut:

7,27K
Terima kasih banyak kepada Ferdinand karena telah menyelenggarakan percakapan ini! Ini adalah kesempatan bagus untuk meninjau semua bagian SWARM dan mendiskusikan motivasi di baliknya secara mendalam.
Saya harap video ini akan membuat DL terdesentralisasi lebih mudah diakses: banyak ide di lapangan lebih sederhana daripada yang terlihat!

Ferdinand Mom12 Jun 2025
Tinjauan video makalah penelitian tentang "Swarm Parallelism" bersama dengan penulis @m_ryabinin, Distinguished Research Scientist @togethercompute sekarang keluar! Tautan di bawah ini 👇
Untuk konteks, sebagian besar pelatihan terdesentralisasi saat ini mengikuti pendekatan gaya DDP yang membutuhkan replikasi model penuh pada setiap node. Meskipun praktis bagi mereka yang memiliki kluster H100 yang mereka miliki, ini tetap di luar jangkauan sebagian besar kontributor potensial, di sinilah SWARM berguna!

3,09K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal