Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Atropos v0.3 đã ra mắt!
Khung môi trường RL của chúng tôi đã có nhiều nâng cấp kể từ v0.2 - một số điểm nổi bật:
- Atropos giờ đây có thể được sử dụng như một khung đánh giá và chuẩn hóa bởi @rogershijin, với chuẩn hóa bên ngoài đầu tiên của chúng tôi, Reward-Bench 2!
- Thêm Reasoning Gym, một kho môi trường bên ngoài được chuyển sang Atropos với hơn 100 nhiệm vụ lý luận bởi @neurosp1ke và bạn bè
- @max_paperclips đã tích hợp bootcamp lý luận của @intern_lm, thêm hơn 1000 nhiệm vụ lý luận mới cho RL
- @dmayhem93, kỹ sư trưởng của Atropos, đã thêm hàng chục bản sửa lỗi và các cải tiến về độ tin cậy và khả năng tương thích, hỗ trợ tốt hơn cho nhiều môi trường, và CI/CD
- Nhiều môi trường hackathon của Atropos đã được hợp nhất vào /environments/community - để liệt kê tất cả sẽ chiếm hầu hết không gian màn hình, nhưng một số điểm nổi bật:
VR-CLI bởi @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, thiết kế protein bởi @hallerite, một môi trường định tuyến mô hình bởi @gabinfay, nhiều trên chứng minh lean, đấu trường catbot, pokemon showdown, poker, bác sĩ hữu ích, thơ sanskrit bởi @khoomeik và còn nhiều hơn nữa!
- Các môi trường mới chính thức hỗ trợ đáng chú ý khác bao gồm:
Định dạng câu trả lời theo môi trường
Môi trường Pydantic sang JSON được chuyển từ công việc của @MatternJustus
Theo dõi hướng dẫn được chuyển từ công việc của @natolambert và @allen_ai
Đếm chữ cái
- 47 người đóng góp hoàn toàn mới!
Hãy xem nhật ký thay đổi đầy đủ tại đây:

Teknium (e/λ)03:22 18 thg 7
Vừa hợp nhất một PR cho một môi trường nhằm cải thiện LLM như một Thẩm phán cũng như đánh giá các mô hình về khả năng thực hiện các phán quyết!
Bạn có biết rằng tất cả các môi trường RL có thể xác minh đều gần như tương đương với các tiêu chuẩn (và ngược lại!)? Vì vậy, chúng tôi đã thêm một lệnh đánh giá vào cơ sở của Atropos và bây giờ bạn có thể chạy các tiêu chuẩn thông qua các môi trường Atropos.
Chúng tôi đã cảm thấy thất vọng khi làm việc với quá nhiều khung tiêu chuẩn đã lỗi thời hoặc không thể sử dụng, vì vậy chúng tôi đã triển khai chế độ chỉ đánh giá vào Atropos, khung môi trường RL của chúng tôi.
Vì vậy, cổng đầu tiên từ bên ngoài các môi trường hiện có của chúng tôi là Reward-Bench của @natolambert!
Lưu ý: hiện tại nó chỉ hỗ trợ các mô hình thưởng sinh (Thẩm phán LLM thông thường).
Xem PR tại đây:

24,88K
Nous Research đã đăng lại
Thật vui khi làm việc với đội ngũ @huggingface để biến tính năng này thành hiện thực! Cảm ơn tất cả công sức và sự sáng tạo của các bạn @pcuenq @reach_vb @julien_c @ariG23498 !
Cũng cảm ơn @NousResearch @Teknium1 @Euclaise_ vì đã là những người đầu tiên áp dụng sổ tay mô hình tùy chỉnh và làm việc cùng chúng tôi!
31,37K
Chúng tôi đã thực hiện một số cập nhật cho API và NousChat trong vài tuần qua:
Truy cập vào API Inference của chúng tôi không còn bị giới hạn bởi danh sách chờ: người dùng mới có thể truy cập ngay lập tức
Hermes-3-Llama-3.1-405B hiện đã có sẵn thông qua API (ngoài Hermes-3-Llama-3.1-70B, DeepHermes-3-Llama-3-8B-Preview và DeepHermes-3-Mistral-24B-Preview)
Giới hạn tốc độ API đã được tăng gấp đôi (hiện tại là 100rpm và 80k tpm)
VÀ trải nghiệm trò chuyện mới của chúng tôi đang được triển khai tại
Tài khoản trò chuyện của bạn ở đó được liên kết với tài khoản của bạn tại , vì vậy tín dụng API của bạn có thể được sử dụng để tương tác với trò chuyện.

19,73K
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất