Các LLM thường được đánh giá bằng các chỉ số tự động trên các bộ dữ liệu kiểm tra tiêu chuẩn, nhưng các chỉ số và bộ dữ liệu kiểm tra được phát triển độc lập. Điều này đặt ra một câu hỏi quan trọng: Chúng ta có thể thiết kế các chỉ số tự động đặc biệt để xuất sắc trên các bộ dữ liệu kiểm tra mà chúng ta ưu tiên không? Câu trả lời: Có!
11,36K