Atropos v0.3 já está disponível! O nosso framework de Ambientes RL teve muitas atualizações desde a v0.2 - alguns destaques: - Atropos agora pode ser usado como um framework de benchmarking e avaliações por @rogershijin, com o nosso primeiro benchmark externo, Reward-Bench 2! - Adicionado o Reasoning Gym, um repositório de ambientes externos portado para Atropos com mais de 100 tarefas de raciocínio por @neurosp1ke e amigos - @max_paperclips integrou o bootcamp de raciocínio de @intern_lm, adicionando mais de 1000 novas tarefas de raciocínio para RL - @dmayhem93, o engenheiro principal do Atropos, adicionou dezenas de correções de bugs e outras melhorias de confiabilidade e compatibilidade, melhor suporte para múltiplos ambientes e CI/CD - Muitos dos ambientes do hackathon Atropos foram fundidos em /environments/community - listar todos ocuparia a maior parte do espaço da tela, mas alguns destaques: VR-CLI por @JakeABoggs, Filosofia RLAIF, Professores LLM Adaptativos, WebVoyager, design de proteínas por @hallerite, um ambiente de roteamento de modelos por @gabinfay, múltiplas provas lean, a arena catbot, pokemon showdown, poker, médicos úteis, poesia sânscrita por @khoomeik e muito mais! - Outros novos ambientes oficialmente suportados incluem: Formato de resposta seguindo o ambiente Ambiente Pydantic para JSON portado do trabalho de @MatternJustus Seguindo Instruções portado do trabalho de @natolambert e @allen_ai Contagem de Letras - 47 novos colaboradores! Confira o changelog completo aqui:
Teknium (e/λ)
Teknium (e/λ)18/07, 03:22
Just merged a PR for an environment to improve LLM as a Judge as well as evaluate models on their capability of doing judgements! Did you know that all verifiable RL environments are nearly equivalent to benchmarks (and vice-versa!)? So we added an evaluate command to Atropos' base and now you can run benchmarks through Atropos environments. We got frustrated with working with so many benchmark frameworks that were outdated or unusable, so we implemented evaluation-only mode into Atropos, our RL environments framework. So our first port from outside our existing environments was @natolambert's Reward-Bench! Note: it only supports generative reward models (regular LLM Judges) at the moment. Check out the PR here:
24,87K