Hvilke modeller er de beste evaluatorene? Vi lager interne konkurranseprototyper på @recallnet for subjektive ferdigheter og finner ut at GPT-4.1 mini er en overraskende dyktig evaluator. Den billige modellen har smak!
21,61K