LLM-y są zazwyczaj oceniane za pomocą automatycznych metryk na standardowych zestawach testowych, ale metryki i zestawy testowe są opracowywane niezależnie. To rodzi kluczowe pytanie: Czy możemy zaprojektować automatyczne metryki, które będą szczególnie skuteczne na zestawach testowych, które priorytetowo traktujemy? Odpowiedź: Tak!
11,37K