Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

489895
Cofundador, CTO-CPO da @SentoraHQ (fmr IntoTheBlock), Cofundador da @layerlens_ai, @faktoryai, @neuralfabric e The Sequence AI, Ensino na Columbia-Wharton
489895 repostou
🧠 Grok 4 by @xai está avançando nos benchmarks de raciocínio, mas a imagem é mais sutil do que as pontuações sugerem.
Veja como ele se compara - e o que podemos realmente aprender com seus resultados 🧵
📊 Avaliação completa:
1️⃣ Pontuações do Grok 4:
• Desafio de Raciocínio AI2 (Fácil): 98%
• AIME 2025 (Matemática): 89%
• Auditoria Contábil: 84%
• MMLU-Plus: 64%
• Data4Health: 55%
Essas são pontuações de primeira linha - mas vamos ampliar o que está funcionando e o que ainda falha.
2️⃣ AIME 2025
✅ Lida com álgebra, geometria, teoria dos números
✅ Segue as regras de formatação do LaTeX
❌ Luta com a lógica de várias etapas
❌ Erros em combinatória
❌ Problemas de precisão de formato (por exemplo, ° ausente)
3️⃣ Auditoria Contábil
✅ Forte em ética e relatórios
✅ Sólida compreensão dos princípios de auditoria
❌ Interpreta erroneamente procedimentos semelhantes
❌ Não consegue detectar diferenças sutis de resposta
❌ Dificuldade em aplicar a teoria a casos do mundo real
4️⃣ O verdadeiro insight?
Mesmo um modelo com 98% em algumas tarefas pode falhar muito sob ambiguidade ou estresse de formatação.
Benchmarks como AIME e Audit mostram como ele falha, não apenas o quanto ele pontua.
5️⃣ Por que isso importa:
Precisamos de uma avaliação transparente por tarefa – não apenas de tabelas de classificação.
#Grok4 é poderoso, mas ainda frágil em domínios de alto risco do mundo real.
🧪 Explore o detalhamento completo:
#AI #LLMs #Benchmarking

1,07K
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável