Aufgeregt, DailyBench zu veröffentlichen! DailyBench ist ein automatisierter 4x täglicher Benchmark, der Frontier-Modell-APIs auf einem Fork von HELMLite bewertet. Ich habe DailyBench entwickelt, um zu sehen, ob wir Modellanbieter erkennen können, die Gewichte quantisieren, den kv-Cache komprimieren oder Modelle während der Spitzenlasten austauschen.
21,22K