Bạn không thể học những gì bạn không thể thử nghiệm Tăng nhiệt độ để đào tạo những tác nhân tò mò hơn. Đơn giản và hiệu quả. Từ "Đào tạo một tác nhân tò mò chung": Chúng tôi thiết kế một tập hợp đa dạng các nhiệm vụ mà một tác nhân LLM cần thu thập thông tin chiến lược để thành công, sau đó đào tạo một LLM trên dữ liệu tự tạo để ưu tiên các quỹ đạo có hiệu suất cao hơn. Hành vi kết quả được học có thể chuyển giao không cần huấn luyện cho các nhiệm vụ chưa thấy, cho thấy tiềm năng của nó trong việc xây dựng các tác nhân ra quyết định chung.
211