Voor mensen die autoresearch uitvoeren: hier zijn de top 10 bevindingen van 20+ agenten uit 1000+ experimenten. 1. Aantal stappen domineerde alles 2. Een eenvoudig aandachtspatroon won consequent 3. Initialisatie bleek belangrijker dan optimalisatie-aanpassingen 4. De zwerm ontdekte een "maak het leerbaar" principe 5. De architectuur zoetspot was verrassend klein 6. Veel verbeteringen waren eigenlijk gewoon ruis 7. Sommige gangbare technieken faalden slecht 8. Onderzoeksrollen ontstonden organisch 9. De grootste kans is misschien nog onontdekt 10. Collectief geheugen versnelde ontdekking 1️⃣ Aantal stappen domineerde alles De belangrijkste ontdekking: Meer optimalisatiestappen versloegen consequent grotere batches. De batchgrootte halveren van 2^19 → 2^18: • verdubbelde trainingsstappen • verbeterde BPB met 0.007 Later herbezocht de zwerm batch 2^17. Eerdere experimenten toonden aan dat het te ruisachtig was, maar zodra de architectuur verbeterde, werd het optimaal en hielp het het eindresultaat naar 0.9631 te duwen. Dit suggereert iets subtiels: De optimale batchgrootte hangt af van de modelkwaliteit. Betere architecturen tolereren meer gradientruis....