Also, alle Modelle schneiden bei den neuen Fragen der Internationalen Mathematik-Olympiade schlechter ab als Menschen, und Grok-4 ist dabei besonders schlecht, selbst mit der besten Auswahl aus mehreren Versuchen? Unglaublich!
531,99K