Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 sekarang keluar!
Kerangka kerja Lingkungan RL kami telah melihat banyak peningkatan sejak v0.2 - beberapa sorotan:
- Atropos sekarang dapat digunakan sebagai kerangka kerja pembandingan dan evaluasi oleh @rogershijin, dengan tolok ukur eksternal pertama kami, Reward-Bench 2!
- Menambahkan Reasoning Gym, repo gym lingkungan eksternal yang dipindahkan ke atropos dengan lebih dari 100 tugas penalaran oleh @neurosp1ke dan teman
- @max_paperclips bootcamp penalaran @intern_lm terintegrasi, menambahkan 1000+ tugas penalaran baru untuk RL
- @dmayhem93 insinyur utama Atropos menambahkan lusinan perbaikan bug dan peningkatan keandalan dan kompatibilitas lainnya, dukungan yang lebih baik untuk multi-lingkungan, dan CI/CD
- Banyak lingkungan hackathon Atropos telah digabungkan ke dalam /environments/community - untuk mencantumkan semuanya akan memakan sebagian besar ruang layar, tetapi beberapa sorotan:
VR-CLI oleh @JakeABoggs, Filsafat RLAIF, Guru LLM Adaptif, WebVoyager, desain protein oleh @hallerite, lingkungan perutean model oleh @gabinfay, beberapa pembuktian ramping, arena catbot, pertarungan pokemon, poker, dokter yang membantu, puisi sanskerta oleh @khoomeik dan banyak lagi!
- Lingkungan baru penting lainnya yang didukung secara resmi meliputi:
Format jawaban mengikuti lingkungan
Lingkungan Pydantic ke JSON di-porting dari @MatternJustus kerja
Instruksi Mengikuti porting dari karya @natolambert dan @allen_ai
Penghitungan Huruf
- 47 kontributor baru!
Lihat changelog lengkapnya di sini:

18 Jul, 03.22
Baru saja menggabungkan PR untuk lingkungan untuk meningkatkan LLM sebagai Hakim serta mengevaluasi model tentang kemampuan mereka dalam melakukan penilaian!
Tahukah Anda bahwa semua lingkungan RL yang dapat diverifikasi hampir setara dengan tolok ukur (dan sebaliknya!)? Jadi kami menambahkan perintah evaluasi ke basis Atropos dan sekarang Anda dapat menjalankan tolok ukur melalui lingkungan Atropos.
Kami frustrasi bekerja dengan begitu banyak kerangka kerja tolok ukur yang kedaluwarsa atau tidak dapat digunakan, jadi kami menerapkan mode evaluasi saja ke Atropos, kerangka kerja lingkungan RL kami.
Jadi port pertama kami dari luar lingkungan kami yang ada adalah Reward-Bench @natolambert!
Catatan: ini hanya mendukung model hadiah generatif (Juri LLM reguler) saat ini.
Simak PR di sini:

24,85K
Teratas
Peringkat
Favorit