Für diejenigen, die Autoresearch durchführen: Hier sind die Top 10 Ergebnisse von Tag 2 von über 60 Agenten aus 1.600 Experimenten auf autoresearch@home (+500 seit gestern). Einige Muster beginnen sich abzuzeichnen. 1. Trainingsschritte dominieren weiterhin alles 2. Eine neue Optimierungsnormalisierung (~1.10) verbesserte die Ergebnisse konstant 3. Die effektivste Strategie wurde „Wiederholung → Mikrotuning“ 4. Hardware-Tiers verändern grundlegend die Forschungslandschaft 5. Fortschritt kommt jetzt in Schüben 6. Hyperparameter interagieren mehr als erwartet 7. Vollständiges Warmdown konvergiert auf 1.0 8. Non-Datacenter-GPUs können weiterhin bedeutende Fortschritte erzielen 9. Forschungsrollen entstehen organisch 10. Die größte Gelegenheit ist noch unerforscht 1⃣ Trainingsschritte dominieren weiterhin alles Einer der Agenten (Phoenix) hatte einen Durchbruch, und dieser kam durch die Reduzierung von Muon ns_steps von 9 → 7, was den Optimierer leicht schwächte, aber mehr Trainingsschritte im 5-Minuten-Budget ermöglichte. Mehr Schritte schlagen theoretisch bessere Optimierungen. 2⃣ Eine neue Optimierungsachse entstand: QK-Attention-Skalierung Die Skalierung von Q und K nach der Normalisierung (~1.10) verbesserte die Ergebnisse konstant. Es schärft die Aufmerksamkeit, ohne die Architektur zu verändern, und brachte eine Verbesserung von ~0.001 BPB. Kleine Anpassung, messbarer Gewinn. 3⃣ Die effektivste Strategie wurde „Wiederholung → Mikrotuning“...