Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Pluralis Research
Pembelajaran Protokol
Pluralis Research memposting ulang
Menggunakan dasbor Grafana yang indah untuk semuanya secara internal, jauh lebih bagus daripada Tensorboard. Wandb masih bagus tetapi tidak benar-benar bekerja dengan pelatihan terdesentralisasi. Membuat saya bertanya-tanya seperti apa perkakas vis internal di openai - pasti luar biasa.




3,04K
Pluralis Research memposting ulang
Mungkin minggu terbesar dalam Pelatihan Terdesentralisasi hingga saat ini setelah ICLR dan lebih banyak lagi yang akan keluar. Ringkasan situasi seperti yang ada saat ini:
1. Pelatihan pasca RL terdesentralisasi jelas bekerja. @gensynai yang terbaru dengan hasil yang bagus di sini. Proses ini mengambil model dasar yang kuat, memberikan salinan kepada peserta yang menghasilkan jejak penalaran yang kemudian dikumpulkan dan digunakan untuk memperbaiki model dasar. Ini jelas bergantung pada model dasar yang tersedia/bobot terbuka, dan secara signifikan lebih murah daripada Pretraining. Node hanya perlu melakukan inferensi. Kekurangannya adalah ada bukti yang meningkat (dan sangat intuitif) bahwa tidak mungkin untuk RL melewati model dasar yang buruk. Jadi Anda mempertahankan ketergantungan. Kita perlu menunggu hasil dari lari ini, tetapi kenyataannya adalah ini akan berhasil dengan satu atau lain cara karena prosesnya sangat sepele.
2. Prapelatihan Data-Parallel (DP) terlihat bagus. Baik @NousResearch dan @PrimeIntellect sudah memiliki hasil di sini pada ukuran model skala 10B. Akan sangat mudah (tetapi mahal bagi operator node) untuk memperluas ini ke casing 100B. Ini karena di DP setiap node menyimpan salinan lengkap model, jadi Anda perlu misalnya 8xh100s untuk berlatih pada ukuran 10b; Anda tidak dapat menggunakan kartu kecil. Jadi, Anda dapat memperluas teknik ini dengan meningkatkan skala node dan melakukan pelatihan kolaboratif lintas pusat data (yaitu setiap node terdiri dari 100 H100 atau lebih, dan Anda melatih >model 100b). Anda juga memiliki masalah bahwa semua orang melihat salinan lengkap model sehingga tidak jelas bagaimana memonetisasi (Pembelajaran Protokol memecahkan ini).
3. Model-Parallel (di mana model itu sendiri dibagi menjadi node - pikirkan 1000 Macbook yang terpisah secara geografis melatih model parameter 100b, di mana setiap perangkat hanya memiliki sebagian kecil dari total model) mulai menunjukkan firasat pertama yang mungkin. Kami (@PluralisHQ) menerbitkan makalah 'Beyond Top k' yang mengompresi komunikasi antar node lebih dari 90%, serta dua karya lain yang menunjukkan Anda dapat menggunakan perangkat heterogen dalam pengaturan Pipeline Parallel (PP). Kami juga memiliki metode Nesterov kami untuk PP yang diterima ke dalam ICML2025, yang sejauh yang saya tahu adalah makalah pertama tentang pelatihan terdesentralisasi yang diterima ke dalam konferensi AI besar sejak makalah SWARM asli, dan harus membantu mengkatalisasi minat dari kalangan AI arus utama.
Apakah model paralel terdesentralisasi diselesaikan → NO. Bandwidth komunikasi jauh lebih buruk dibandingkan dengan pusat data, bahkan 90% pun tidak cukup. Kita perlu mencapai kompresi sekitar 300x untuk mencapai kesetaraan dengan pelatihan terpusat. Masih ada pertanyaan besar apakah ini mungkin - Anda menghancurkan begitu banyak sinyal pelatihan dengan melakukan ini. Ini adalah fokus Pluralis.
Namun, apa yang terjadi jika ini berhasil? Untuk pertama kalinya, Anda dapat melakukan prapelatihan kolaboratif yang nyata. Tidak ada ketergantungan pada deepseek atau Meta. Individu dapat menggabungkan komputasi untuk membuat model pada skala ini, dari awal. Kami mendapatkan inovasi nyata yang digerakkan oleh komunitas yang terjadi di sini dengan cara yang belum pernah ada hingga saat ini. Pasca-pelatihan berbasis RL terdesentralisasi kemudian dapat digunakan untuk membuat model ini lebih baik.
Kenyataannya adalah kita berada di hari-hari awal dari sesuatu yang sangat signifikan terjadi di sini. Ini akan menjadi bidang utama. Perusahaan-perusahaan di atas menembakkan semua silinder, banyak lagi akan segera keluar dari gerbang, dan saya tidak berharap ini akan melambat sama sekali dari sekarang sampai apa pun yang terjadi terjadi. Dan jika Anda membaca ini, Anda lebih awal.
14,21K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal