🧠 Grok 4 by @xai está avançando nos benchmarks de raciocínio, mas a imagem é mais sutil do que as pontuações sugerem. Veja como ele se compara - e o que podemos realmente aprender com seus resultados 🧵 📊 Avaliação completa: 1️⃣ Pontuações do Grok 4: • Desafio de Raciocínio AI2 (Fácil): 98% • AIME 2025 (Matemática): 89% • Auditoria Contábil: 84% • MMLU-Plus: 64% • Data4Health: 55% Essas são pontuações de primeira linha - mas vamos ampliar o que está funcionando e o que ainda falha. 2️⃣ AIME 2025 ✅ Lida com álgebra, geometria, teoria dos números ✅ Segue as regras de formatação do LaTeX ❌ Luta com a lógica de várias etapas ❌ Erros em combinatória ❌ Problemas de precisão de formato (por exemplo, ° ausente) 3️⃣ Auditoria Contábil ✅ Forte em ética e relatórios ✅ Sólida compreensão dos princípios de auditoria ❌ Interpreta erroneamente procedimentos semelhantes ❌ Não consegue detectar diferenças sutis de resposta ❌ Dificuldade em aplicar a teoria a casos do mundo real 4️⃣ O verdadeiro insight? Mesmo um modelo com 98% em algumas tarefas pode falhar muito sob ambiguidade ou estresse de formatação. Benchmarks como AIME e Audit mostram como ele falha, não apenas o quanto ele pontua. 5️⃣ Por que isso importa: Precisamos de uma avaliação transparente por tarefa – não apenas de tabelas de classificação. #Grok4 é poderoso, mas ainda frágil em domínios de alto risco do mundo real. 🧪 Explore o detalhamento completo: #AI #LLMs #Benchmarking
1,03K