Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vừa hợp nhất một PR cho một môi trường nhằm cải thiện LLM như một Thẩm phán cũng như đánh giá các mô hình về khả năng thực hiện các phán quyết!
Bạn có biết rằng tất cả các môi trường RL có thể xác minh đều gần như tương đương với các tiêu chuẩn (và ngược lại!)? Vì vậy, chúng tôi đã thêm một lệnh đánh giá vào cơ sở của Atropos và bây giờ bạn có thể chạy các tiêu chuẩn thông qua các môi trường Atropos.
Chúng tôi đã cảm thấy thất vọng khi làm việc với quá nhiều khung tiêu chuẩn đã lỗi thời hoặc không thể sử dụng, vì vậy chúng tôi đã triển khai chế độ chỉ đánh giá vào Atropos, khung môi trường RL của chúng tôi.
Vì vậy, cổng đầu tiên từ bên ngoài các môi trường hiện có của chúng tôi là Reward-Bench của @natolambert!
Lưu ý: hiện tại nó chỉ hỗ trợ các mô hình thưởng sinh (Thẩm phán LLM thông thường).
Xem PR tại đây:

20,55K
Hàng đầu
Thứ hạng
Yêu thích