Os LLMs são tipicamente avaliados com métricas automáticas em conjuntos de testes padrão, mas as métricas e os conjuntos de testes são desenvolvidos de forma independente. Isso levanta uma questão crucial: Podemos projetar métricas automáticas especificamente para se destacarem nos conjuntos de testes que priorizamos? Resposta: Sim!
11,36K