i open-sourced autokernel -- autocercetare pentru kerneluri GPU I-ai da orice model Pytorch. Profilează modelul, găsește kernel-urile de blocaj, scrie înlocuitori Triton și rulează experimente peste noapte. Editează un fișier, testează, păstrează sau revi, repetă la nesfârșit. aceeași buclă ca @karpathy autocercetare, aplicată optimizării kernel-ului 95 de experimente. 18 TFLOPS → 187 TFLOPS. 1.31x vs cuBLAS. toate autonome 9 tipuri de kernel (matmul, flash attention, mlp fuzionat, layernorm, rmsnorm, softmax, rope, entropie încrucișată, reduce). Legea lui Amdahl decide ce să optimizeze în continuare. Verificări de corectitudine în 5 trepte înainte de orice număr de accelerare agentul citește program.md ("codul organizației de cercetare"), editează rulările și fie păstrează, fie revine. ~40 de experimente/oră. ~320 peste noapte vine cu definiții autonome GPT-2, LLaMA și BERT, deci nu ai nevoie de biblioteca transformers pentru a începe