Exponentielle Verbesserungen* überall für diejenigen, die sie sehen können. Dies ist ein cooler Benchmark und war für frühe nicht-argumentierende LLMs überhaupt unmöglich. * Okay, technisch gesehen "logistische Verbesserung", da die maximale Punktzahl auf 100 begrenzt ist (und logistisch einen niedrigeren AIC hat)