Autokernel'ı açık kaynak yaptım -- GPU çekirdekleri için otomatik araştırma Herhangi bir Pytorch modelini veriyorsunuz. Modeli profiller, dar boğaz çekirdeklerini bulur, Triton yerini değiştirir ve gece boyunca deneyler yapar. Bir dosyayı düzenle, kıyasla, sakla veya geri al, sonsuza kadar tekrarla. Aynı döngü @karpathy otomatik araştırma ile çekirdek optimizasyonuna uygulanır 95 deney. 18 TFLOP → 187 TFLOP. 1.31x vs cuBLAS. Tamamen özerk 9 çekirdek tipi (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). Amdahl yasası, sonraki optimize edilecek şeye karar verir. Herhangi bir hızlama saymadan önce 5 aşamalı doğruluk kontrolleri Ajan program.md ("araştırma organizasyonu kodu") okur, düzenler, çalıştırır ve ya saklar ya da geri alır. ~Saatte 40 deney. ~320 gece kendi içinde yeter GPT-2, LLaMA ve BERT tanımlarıyla birlikte gelir, böylece başlamak için transformers kütüphanesine ihtiyacınız olmaz