LLM-urile sunt de obicei evaluate cu valori automate pe seturi de testare standard, dar metrici + seturi de testare sunt dezvoltate independent. Acest lucru ridică o întrebare crucială: putem proiecta valori automate special pentru a excela pe seturile de teste pe care le prioritizăm? Răspuns: Da!
11,37K