LLM зазвичай оцінюються за допомогою автоматичних метрик на стандартних тестових наборах, але метрики + тестові набори розробляються незалежно. У зв'язку з цим постає важливе питання: чи можемо ми розробляти автоматичні показники спеціально для того, щоб досягти успіху в тестових наборах, які ми ставимо пріоритетними? Відповідь: Так!
11,35K