DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Me pego escrevendo cada vez mais sobre @Zai_org hoje em dia, mas parece que o ritmo de inovação deles é impressionante. E aqui estamos nós de novo.... Se você tem seguido as leis de escalonamento, sabe que a contagem bruta de parâmetros está começando a prejudicar a eficiência arquitetônica e a qualidade dos dados. @Zai_org GLM-5 é uma aula magistral nessa transição. Estamos diante de uma fera 744B Mistura de Especialistas (MoE) que ativa apenas 40B de parâmetros por token. É magro onde importa e massivo onde precisa estar. Na @layerlens_ai temos avaliado ativamente o GLM-5 e você pode ver os resultados por conta própria: A Arquitetura da Autonomia A inovação de destaque aqui é o DeepSeek Sparse Attention (DSA) combinado com o novo Framework "Slime" RL. No antigo paradigma, o RLHF era sobre tornar os modelos "mais bonitos". No GLM-5, o Aprendizado por Reforço é usado para fazer a ponte entre o pensamento e a ação. Essa pilha de RL assíncrona permite que o modelo "brincasse" com tarefas complexas de engenharia em múltiplas etapas, aprendendo com falhas de uma forma que imita um engenheiro sênior trabalhando em um PR. Não é apenas prever o próximo token; É prever a próxima solução. Benchmarking do "Salto Geracional" O painel do LayerLens não é apenas uma lista de números; É um mapa de raciocínio de alta dimensão. Aqui estão as métricas principais que definem este comunicado: O Último Exame da Humanidade (HLE) [Pontuação: 50,4]: Projetado para ser o "parâmetro acadêmico final", o HLE consiste em questões avaliadas por especialistas que são intencionalmente "à prova de Google". Com 50,4 de altitude, o GLM-5 não está apenas lembrando fatos; ela está superando o Claude 4.5 Opus (43.4) e o GPT-5.2 (45.5) na síntese aumentada por ferramentas. SWE-bench Verified [Pontuação: 77,8%]: Este é o padrão ouro para engenharia de software no mundo real. O modelo deve navegar por um repositório, reproduzir um bug e enviar um pull request funcional. O GLM-5 agora está trocando golpes com os sistemas proprietários mais poderosos do mundo. BrowseComp (com Gerenciamento de Contexto) [Pontuação: 75,9]: Um teste de "agência contextual." Ele mede a capacidade de um modelo navegar em sites ao vivo e manter a memória ao longo de históricos de interação estendidos. A pontuação do GLM-5 lidera o grupo, superando o GPT-5.2 (65,8). Vending Bench 2 [Ranqueado #1]: Uma simulação de negócios de um ano que mede planejamento sustentado e tomada de decisões operacionais. O GLM-5 terminou com um saldo final de conta de $4.432 — o maior entre todos os modelos open-source — provando que pode manter uma estratégia coerente ao longo de milhares de turnos. τ²-Bench [Pontuação: 89,7]: Testando cenários complexos de agentes em múltiplas etapas, o GLM-5 igualou efetivamente o Claude 4.5 Opus (91.6) e superou o GPT-5.2 (85.5), reforçando sua posição como sistema agente, e não como chatbot. A Soberania do Hardware Há uma bela ironia na história do treinamento: o GLM-5 foi treinado inteiramente com a infraestrutura Huawei Ascend. É um lembrete de que a inteligência é independente do substrato. Você não precisa de uma marca específica de silício para chegar à fronteira; você precisa da intuição arquitetônica certa e uma montanha de tokens de alta qualidade — 28,5T, para ser exato. Por que isso importa...

Melhores

Classificação

Favoritos