🆕 Đào tạo các lý do tác động Tính năng hôm nay là sự trở lại đầy tự hào của @willccbb trên sân khấu AIE theo dõi RL - giờ đây là một phần của @PrimeIntellect! Nhiều nhà xây dựng tác nhân cơ bản đang thực hiện "RL bằng tay". Anh ấy giải thích ngắn gọn các thuật toán RL hiện tại trong một slide (!) nhưng sau đó lập luận rằng RL - đặc biệt là cho các mô hình mở - đang mắc kẹt trong lĩnh vực toán học và mã Q&A Điều mới mẻ hiện nay là RL tác động đa lượt, và thư viện xác minh mới là bộ công cụ tối ưu để xây dựng một tác nhân và biến nó thành một vòng lặp RL. Nhiều người nên khám phá việc xây dựng các mô hình tác nhân tốt hơn và Will + PI đang tạo điều kiện cho điều đó cho mọi người!
feedsImage
47,6K