Coraz częściej piszę o @Zai_org w ostatnich czasach, ale ich tempo innowacji jest niezwykłe. I oto znowu jesteśmy.... Jeśli śledzisz zasady skalowania, wiesz, że surowa liczba parametrów zaczyna ustępować miejsca efektywności architektonicznej i jakości danych. @Zai_org GLM-5 to mistrzowska lekcja w tej transformacji. Mamy do czynienia z potworem o 744 miliardach Mixture-of-Experts (MoE), który aktywuje tylko 40 miliardów parametrów na token. Jest szczupły tam, gdzie to ważne, i masywny tam, gdzie musi być. W @layerlens_ai aktywnie oceniamy GLM-5 i możesz sam zobaczyć wyniki: Architektura autonomii Wyróżniającą innowacją jest DeepSeek Sparse Attention (DSA) połączona z nowym frameworkiem RL "Slime". W starym paradygmacie, RLHF polegało na uczynieniu modeli "przyjemniejszymi". W GLM-5, uczenie przez wzmocnienie jest używane do zniwelowania różnicy między myśleniem a działaniem. Ten asynchroniczny stos RL pozwala modelowi "bawić się" złożonymi, wieloetapowymi zadaniami inżynieryjnymi, ucząc się na błędach w sposób, który naśladuje starszego inżyniera przeszukującego PR. To nie tylko przewidywanie następnego tokena; to przewidywanie następnego rozwiązania. Benchmarking "Skoku Pokoleniowego" Panel na LayerLens to nie tylko lista liczb; to mapa wysokowymiarowego rozumowania. Oto kluczowe metryki, które definiują to wydanie: Ostatni egzamin ludzkości (HLE) [Wynik: 50.4]: Zaprojektowany jako "ostateczny" benchmark akademicki, HLE składa się z pytań weryfikowanych przez ekspertów, które są celowo "odporne na Google". Przy wyniku 50.4, GLM-5 nie tylko przypomina fakty; przewyższa Claude 4.5 Opus (43.4) i GPT-5.2 (45.5) w syntezie wspomaganej narzędziami. SWE-bench Zweryfikowany [Wynik: 77.8%]: To złoty standard dla rzeczywistego inżynierii oprogramowania. Model musi przeszukać repozytorium, odtworzyć błąd i złożyć funkcjonalne zapytanie o pull. GLM-5 teraz wymienia ciosy z najpotężniejszymi systemami własnościowymi na świecie. BrowseComp (z zarządzaniem kontekstem) [Wynik: 75.9]: Test "agencji kontekstowej". Mierzy zdolność modelu do nawigacji po żywych stronach internetowych i utrzymywania pamięci w długotrwałych historiach interakcji. Wynik GLM-5 prowadzi stawkę, przewyższając GPT-5.2 (65.8). Vending Bench 2 [Zajęte #1]: Roczna symulacja biznesowa mierząca długoterminowe planowanie i podejmowanie decyzji operacyjnych. GLM-5 zakończył z końcowym saldem konta wynoszącym 4,432 USD—najwyższym spośród wszystkich modeli open-source—udowadniając, że może utrzymać spójną strategię przez tysiące tur. τ²-Bench [Wynik: 89.7]: Testując złożone scenariusze agentów wieloetapowych, GLM-5 skutecznie dorównał Claude 4.5 Opus (91.6) i przewyższył GPT-5.2 (85.5), wzmacniając swoją pozycję jako systemu agentowego, a nie chatbota. Suwerenność sprzętowa Jest piękna ironia w historii szkolenia: GLM-5 był szkolony całkowicie na infrastrukturze Huawei Ascend. To przypomnienie, że inteligencja jest niezależna od podłoża. Nie potrzebujesz konkretnej marki krzemu, aby osiągnąć granicę; potrzebujesz odpowiedniej intuicji architektonicznej i góry wysokiej jakości tokenów—dokładnie 28.5T. Dlaczego to ma znaczenie...