otworzyłem kod źródłowy autokernel -- autoresearch dla rdzeni GPU dajesz mu dowolny model pytorch. profiluje model, znajduje wąskie gardła rdzeni, pisze zamienniki w tritonie i przeprowadza eksperymenty przez noc. edytujesz jeden plik, benchmarkujesz, zachowujesz lub cofasz, powtarzasz w nieskończoność. ta sama pętla co @karpathy autoresearch, zastosowana do optymalizacji rdzeni 95 eksperymentów. 18 TFLOPS → 187 TFLOPS. 1.31x w porównaniu do cuBLAS. wszystko autonomiczne 9 typów rdzeni (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). prawo amdahla decyduje, co optymalizować następnie. 5-etapowe kontrole poprawności przed tym, jak jakiekolwiek przyspieszenie się liczy agent czyta program.md ("kod organizacji badawczej"), edytuje, uruchamia i albo zachowuje, albo cofa. ~40 eksperymentów/godzinę. ~320 przez noc wysyłany z samodzielnymi definicjami GPT-2, LLaMA i BERT, więc nie potrzebujesz biblioteki transformers, aby zacząć