2023: Tại OpenAI, một số nhân vật chủ chốt trong giai đoạn sau đào tạo đã phản đối việc mở rộng RL. 2022: Eric/Yuhuai (hiện tại là xAI) đã viết STaR và tôi đã viết "LLM có thể tự cải thiện". Rõ ràng rằng RL trên các tín hiệu sạch mở khóa bước nhảy vọt tiếp theo. Ranh giới giữa trước/sau đào tạo có thể đã là một sự chậm lại lớn đối với AI.
34,75K