ik heb net geprobeerd en de agent heeft niveau 1 in zijn eigen browser opgelost lol. bedankt voor het creëren van de benchmark!
ARC Prize
ARC Prize19 jul, 01:26
o3 (links) en Grok 4 (rechts) herhalingen hieronder spoiler: geen van beiden voltooit een enkel niveau
98,89K