nanochat sekarang melatih model kemampuan GPT-2 hanya dalam 2 jam pada satu node 8XH100 (turun dari ~3 jam 1 bulan yang lalu). Semakin dekat dengan ~interaktif! Banyak penyetelan dan fitur (fp8) masuk, tetapi perbedaan terbesar adalah peralihan kumpulan data dari FineWeb-edu ke NVIDIA ClimbMix (kerja bagus, NVIDIA!). Saya telah mencoba Olmo, FineWeb, DCLM yang semuanya menyebabkan regresi, ClimbMix bekerja dengan sangat baik di luar kotak (sampai-sampai saya sedikit curiga tentang goodharting, meskipun membaca makalah sepertinya ~ok). Dalam berita lain, setelah mencoba beberapa pendekatan tentang cara menyiapkannya, saya sekarang memiliki Agen AI yang mengulangi nanochat secara otomatis, jadi saya akan membiarkannya berjalan sebentar, bersantai sebentar dan menikmati perasaan :) pasca-agi. Divisualisasikan di sini sebagai contoh: 110 perubahan yang dilakukan selama ~12 jam terakhir, membawa kehilangan validasi sejauh ini dari 0,862415 turun menjadi 0,858039 untuk model d12, tanpa biaya untuk waktu jam dinding. Agen bekerja pada cabang fitur, mencoba ide, menggabungkannya saat bekerja dan menulangi. Lucunya, selama ~2 minggu terakhir saya hampir merasa seperti saya telah mengulangi lebih banyak pada "meta-setup" di mana saya mengoptimalkan dan menyetel aliran agen bahkan lebih banyak daripada repositori nanochat secara langsung.