LLM's worden doorgaans geëvalueerd met automatische metrics op standaard testsets, maar metrics + testsets worden onafhankelijk ontwikkeld. Dit roept een cruciale vraag op: Kunnen we automatische metrics ontwerpen die specifiek uitblinken op de testsets die we prioriteren? Antwoord: Ja!
11,36K