LLM jsou obvykle vyhodnocovány s automatickými metrikami na standardních testovacích sadách, ale metriky + testovací sady jsou vyvíjeny nezávisle. To vyvolává zásadní otázku: Můžeme navrhnout automatické metriky specificky tak, aby vynikaly v testovacích sadách, které upřednostňujeme? Odpověď: Ano!
11,36K