O Grok 4 está num ponto em que essencialmente nunca erra em questões de matemática/física, a menos que sejam habilidosamente adversariais. Ele pode identificar erros ou ambiguidades nas perguntas, e então corrigir o erro na pergunta ou responder a cada variante de uma pergunta ambígua.
Deedy
Deedy10/07, 14:07
É insano que Elon Musk tenha conseguido novamente, esmagando absolutamente as guerras da IA com o Grok 4. Resumindo os anúncios principais: — Gastos de RL pós-treinamento == gastos de pré-treinamento — $3/M de entrada, $15/M de saída, 256k de contexto, preço 2x além de 128k — #1 no Último Exame da Humanidade (problemas gerais difíceis) 44.4%, #2 é 26.9% — #1 no GPQA (problemas difíceis de pós-graduação) 88.9%. #2 é 86.4% — #1 no AIME 2025 (Matemática) 100%, #2 é 98.4% — #1 na Matemática de Harvard MIT 96.7%, #2 é 82.5% — #1 no USAMO25 (Matemática) 61.9%, #2 é 49.4% — #1 no ARC-AGI-2 (fácil para humanos, difícil para IA) 15.9%, #2 é 8.6% — #1 no LiveCodeBench (Jan-Mai) 79.4%, #2 é 75.8% Grok 4 é “potencialmente melhor do que o nível de doutorado em todas as disciplinas, sem exceção”.. e é bastante barato. Momento massivo nas guerras da IA e Elon veio para jogar.
6,33M