大型语言模型(LLMs)通常在标准测试集上使用自动化指标进行评估,但指标和测试集是独立开发的。这引发了一个关键问题:我们能否专门设计自动化指标,以在我们优先考虑的测试集上表现出色?答案是:可以!
11.37K