Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Atropos v0.3 jest już dostępny!
Nasz framework RL Environments przeszedł wiele ulepszeń od v0.2 - oto niektóre z nich:
- Atropos może teraz być używany jako framework do benchmarkingu i oceniania przez @rogershijin, z naszym pierwszym zewnętrznym benchmarkiem, Reward-Bench 2!
- Dodano Reasoning Gym, zewnętrzny repozytor środowisk gym przeniesiony do Atropos z ponad 100 zadaniami związanymi z rozumowaniem od @neurosp1ke i przyjaciół.
- @max_paperclips zintegrował bootcamp rozumowania @intern_lm, dodając ponad 1000 nowych zadań rozumowania dla RL.
- @dmayhem93, główny inżynier Atropos, dodał dziesiątki poprawek błędów oraz inne ulepszenia niezawodności i kompatybilności, lepsze wsparcie dla wielu środowisk oraz CI/CD.
- Wiele środowisk hackathonowych Atropos zostało połączonych w /environments/community - wymienienie ich wszystkich zajęłoby większość miejsca na ekranie, ale oto niektóre z nich:
VR-CLI od @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, projektowanie białek od @hallerite, środowisko routingu modeli od @gabinfay, wiele na dowodzenie lean, arena catbota, pokemon showdown, poker, pomocni lekarze, poezja sanskrycka od @khoomeik i wiele więcej!
- Inne godne uwagi nowo dodane oficjalnie wspierane środowiska to:
Format odpowiedzi zgodny ze środowiskiem
Środowisko Pydantic do JSON przeniesione z pracy @MatternJustus
Podążanie za instrukcjami przeniesione z pracy @natolambert i @allen_ai
Liczenie liter
- 47 zupełnie nowych współpracowników!
Sprawdź pełną listę zmian tutaj:

Teknium (e/λ)18 lip, 03:22
Właśnie połączyłem PR dla środowiska, aby poprawić LLM jako Sędziego oraz oceniać modele pod kątem ich zdolności do wydawania wyroków!
Czy wiesz, że wszystkie weryfikowalne środowiska RL są niemal równoważne benchmarkom (i odwrotnie!)? Dlatego dodaliśmy polecenie oceny do podstawy Atropos i teraz możesz uruchamiać benchmarki przez środowiska Atropos.
Byliśmy sfrustrowani pracą z tak wieloma przestarzałymi lub nieużywalnymi frameworkami benchmarkowymi, więc wdrożyliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL.
Naszym pierwszym portem z zewnątrz naszych istniejących środowisk był Reward-Bench @natolambert!
Uwaga: obecnie obsługuje tylko generatywne modele nagród (zwykli Sędziowie LLM).
Sprawdź PR tutaj:

24,87K
Użytkownik Nous Research udostępnił ponownie
Fajnie było pracować z zespołem @huggingface, aby ta funkcja stała się rzeczywistością! Dziękujemy za całą Twoją pracę i kreatywność @pcuenq @reach_vb @julien_c @ariG23498 !
Podziękowania dla @NousResearch @Teknium1 @Euclaise_ za to, że jako pierwsi użytkownicy niestandardowych modeli notebooków i pracują nad tym z nami!
31,37K
W ciągu ostatnich kilku tygodni wprowadziliśmy kilka aktualizacji do naszego API i NousChat:
Dostęp do naszego interfejsu API wnioskowania nie jest już opóźniony o listę oczekujących: nowi użytkownicy uzyskują natychmiastowy dostęp
Hermes-3-Llama-3.1-405B jest teraz dostępny za pośrednictwem interfejsu API (oprócz Hermes-3-Llama-3.1-70B, DeepHermes-3-Llama-3-8B-Preview i DeepHermes-3-Mistral-24B-Preview)
Limity szybkości API zostały podwojone (teraz 100 obr./min i 80 tys. tpm)
A nasz nowy czat jest wprowadzany pod adresem
Twoje konto czatu jest tam połączone z Twoim kontem pod adresem, dzięki czemu kredyty API mogą być używane do interakcji z czatem .

19,72K
Użytkownik Nous Research udostępnił ponownie
W końcu ukończono i scalono środowisko SWE_RL, które zostało opisane w artykule SWE RL firmy Meta, w Atropos - Naprawdę trudne środowisko, które może nauczyć model, jak być znacznie lepszym agentem kodowania!
Sprawdź PR:
Zapoznaj się z dokumentem SWE-RL firmy Meta:

11,73K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi