Ich habe Autokernel open-sourced – Autoresearch für GPU-Kerne. Du gibst ihm ein beliebiges PyTorch-Modell. Es profiliert das Modell, findet die Engpasskerne, schreibt Triton-Ersatzlösungen und führt über Nacht Experimente durch. Eine Datei bearbeiten, benchmarken, behalten oder zurücksetzen, immer wieder. Der gleiche Loop wie @karpathy Autoresearch, angewendet auf die Optimierung von Kernen. 95 Experimente. 18 TFLOPS → 187 TFLOPS. 1,31x im Vergleich zu cuBLAS. alles autonom. 9 Kerntypen (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). Amdahls Gesetz entscheidet, was als Nächstes optimiert werden soll. 5-stufige Korrektheitsprüfungen, bevor irgendein Geschwindigkeitszuwachs zählt. Der Agent liest program.md (den "Forschungs-Org-Code"), bearbeitet, führt aus und behält entweder oder setzt zurück. ~40 Experimente/Stunde. ~320 über Nacht. Wird mit selbständigen GPT-2-, LLaMA- und BERT-Definitionen geliefert, sodass du nicht die Transformers-Bibliothek benötigst, um zu starten.