i open-source autokernel -- riset otomatis untuk kernel GPU Anda memberikannya model pytorch apa pun. Ini membuat profil model, menemukan kernel kemacetan, menulis pengganti triton, dan menjalankan eksperimen dalam semalam. edit satu file, benchmark, simpan atau kembalikan, ulangi selamanya. loop yang sama dengan @karpathy penelitian otomatis, diterapkan pada pengoptimalan kernel 95 percobaan. 18 TFLOPS → 187 TFLOPS. 1.31x vs cuBLAS. Semua otonom 9 jenis kernel (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). Hukum Amdahl memutuskan apa yang akan dioptimalkan selanjutnya. Pemeriksaan kebenaran 5 tahap sebelum percepatan dihitung Agen membaca program.md ("kode organisasi penelitian"), mengedit jalan, dan menyimpan atau mengembalikan. ~ 40 percobaan/jam. ~320 semalam dikirimkan dengan definisi GPT-2, LLaMA, dan BERT mandiri sehingga Anda tidak memerlukan pustaka transformator untuk memulai