Några riktigt bra arbete från @carlobaronio @pmmarsella @ybenpan! Fortfarande en lång horisont framför sig för multi-turn-agenter :)
Cognition
Cognition7 maj 2025
Våra forskningspraktikanter presenterar: Kevin-32B = K(ernel D)evin Det är den första öppna modellen som tränas med RL för att skriva CUDA-kernels. Vi implementerade flervarvs-RL med GRPO (baserat på QwQ-32B) på KernelBench-datasetet. Den överträffar de bästa resonemangsmodellerna (o3 och o4-mini)! 🧵
5,92K