LLM biasanya dievaluasi dengan metrik otomatis pada set pengujian standar, tetapi metrik + set pengujian dikembangkan secara independen. Ini menimbulkan pertanyaan penting: Bisakah kita merancang metrik otomatis secara khusus untuk unggul dalam set pengujian yang kita prioritaskan? Jawaban: Ya!
11,37K