Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Análise independente de modelos de IA e provedores de hospedagem - escolha o melhor modelo e provedor de API para seu caso de uso
O DeepSeek lança a V3.1, unificando a V3 e a R1 em um modelo de raciocínio híbrido com um aumento incremental na inteligência
Aumento incremental da inteligência: Os resultados iniciais do benchmarking para o DeepSeek V3.1 mostram um Índice de Inteligência de Análise Artificial de 60 no modo de raciocínio, acima da pontuação de 59 do R1. No modo sem raciocínio, a V3.1 atinge uma pontuação de 49, um aumento maior em relação à pontuação anterior da V3 0324 de 44. Isso deixa a V3.1 (raciocínio) atrás do mais recente Qwen3 235B 2507 (raciocínio) do Alibaba - o DeepSeek não retomou a liderança.
Raciocínio híbrido: @deepseek_ai mudou para um modelo de raciocínio híbrido pela primeira vez - suportando os modos de raciocínio e não raciocínio. A mudança da DeepSeek para um modelo de raciocínio híbrido unificado imita a abordagem adotada pela OpenAI, Anthropic e Google. É interessante notar, no entanto, que o Alibaba abandonou recentemente a abordagem híbrida que eles preferiam para o Qwen3 com seus lançamentos separados de modelos de raciocínio e instrução do Qwen3 2507.
Chamada de função/uso da ferramenta: Embora o DeepSeek afirme ter melhorado a chamada de função para o modelo, o DeepSeek V3.1 não oferece suporte à chamada de função quando está no modo de raciocínio. É provável que isso limite substancialmente sua capacidade de oferecer suporte a fluxos de trabalho agenciais com requisitos de inteligência, inclusive em agentes de codificação.
Uso de token: o DeepSeek V3.1 tem uma pontuação cada vez mais alta no modo de raciocínio do que o DeepSeek R1 e usa um pouco menos de tokens nas avaliações que usamos para o Índice de Inteligência de Análise Artificial. No modo sem raciocínio, ele usa um pouco mais de tokens do que V3 0324 - mas ainda várias vezes menos do que em seu próprio modo de raciocínio.
API: A API primária do DeepSeek agora atende ao novo modelo DeepSeek V3.1 em seus endpoints de bate-papo e raciocínio - simplesmente alterando se o token de pensamento final </think> é fornecido ao modelo no modelo de bate-papo para controlar se o modelo raciocinará.
Arquitetura: O DeepSeek V3.1 é arquitetonicamente idêntico aos modelos V3 e R1 anteriores, com 671B de parâmetros totais e 37B de parâmetros ativos.
Implicações: Aconselhamos cautela ao fazer qualquer suposição sobre o que este lançamento implica sobre o progresso do DeepSeek em direção a um modelo futuro referido nos rumores como V4 ou R2. Observamos que a DeepSeek lançou anteriormente o modelo final construído em sua arquitetura V2 em 10 de dezembro de 2024, apenas duas semanas antes do lançamento da V3.


70,48K
Anunciando o Raciocínio de Contexto Longo de Análise Artificial (AA-LCR), um novo benchmark para avaliar o desempenho de contexto longo por meio de recursos de raciocínio de teste em vários documentos longos (~ 100 mil tokens)
O foco do AA-LCR é replicar o trabalho de conhecimento real e tarefas de raciocínio, testando a capacidade crítica para aplicativos modernos de IA, abrangendo análise de documentos, compreensão de base de código e fluxos de trabalho complexos de várias etapas.
AA-LCR são 100 perguntas difíceis baseadas em texto que exigem raciocínio em vários documentos do mundo real que representam ~ 100 mil tokens de entrada. As perguntas são projetadas para que as respostas não possam ser encontradas diretamente, mas devem ser fundamentadas a partir de várias fontes de informação, com testes em humanos verificando se cada pergunta requer inferência genuína em vez de recuperação.
Principais conclusões:
➤ Os principais modelos de hoje atingem ~ 70% de precisão: os três primeiros lugares vão para OpenAI o3 (69%), xAI Grok 4 (68%) e Qwen3 235B 2507 Thinking (67%)
👀 ➤ Também já temos resultados gpt-oss! O 120B tem um desempenho próximo ao o4-mini (alto), em linha com as afirmações da OpenAI em relação ao desempenho do modelo. Estaremos acompanhando em breve com um Índice de Inteligência para os modelos.
➤ 100 perguntas baseadas em texto rígido abrangendo 7 categorias de documentos (Relatórios da Empresa, Relatórios do Setor, Consultas Governamentais, Academia, Jurídico, Materiais de Marketing e Relatórios de Pesquisa)
➤ ~ 100 mil tokens de entrada por pergunta, exigindo que os modelos suportem uma janela de contexto mínima de 128 mil para pontuar neste benchmark
➤ ~ 3 milhões de tokens de entrada exclusivos no total, abrangendo ~ 230 documentos para executar o benchmark (os tokens de saída geralmente variam de acordo com o modelo)
➤ O link para o conjunto de dados no 🤗 @HuggingFace está abaixo
Estamos adicionando AA-LCR ao Índice de Inteligência de Análise Artificial e levando o número da versão para a v2.2. O Índice de Inteligência de Análise Artificial v2.2 agora inclui: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode e AA-LCR.
Todos os números estão atualizados no site agora. Descubra quais modelos Índice de Inteligência de Análise Artificial v2.2 👇

28,71K
A Cerebras tem demonstrado sua capacidade de hospedar grandes MoEs em velocidades muito altas esta semana, lançando os endpoints Qwen3 235B 2507 e Qwen3 Coder 480B a > 1.500 tokens de saída / s
➤ @CerebrasSystems agora oferece endpoints para Qwen3 235B 2507 Raciocínio e Não Raciocínio. Ambos os modelos têm parâmetros totais de 235B com 22B ativos.
➤ Qwen 3 235B 2507 O raciocínio oferece inteligência comparável ao o4-mini (alto) e DeepSeek R1 0528. A variante sem raciocínio oferece inteligência comparável ao Kimi K2 e bem acima do GPT-4.1 e do Llama 4 Maverick.
➤ O codificador Qwen3 480B possui 480B de parâmetros totais com 35B ativos. Esse modelo é particularmente forte para codificação agêntica e pode ser usado em uma variedade de ferramentas de agente de codificação, incluindo a CLI do Qwen3-Coder.
Os lançamentos da Cerebras representam a primeira vez que esse nível de inteligência está acessível nessas velocidades de saída e têm o potencial de desbloquear novos casos de uso - como usar um modelo de raciocínio para cada etapa de um agente sem ter que esperar minutos.

25,2K
🇰🇷 A LG lançou recentemente o EXAONE 4.0 32B - ele pontua 62 no Índice de Inteligência de Análise Artificial, a pontuação mais alta para um modelo 32B até agora
O EXAONE 4.0 da @LG_AI_Research é lançado em duas variantes: o modelo de raciocínio híbrido 32B para o qual estamos relatando os resultados do benchmarking aqui e um modelo menor de 1,2B projetado para aplicativos no dispositivo que ainda não comparamos.
Juntamente com o recente lançamento do Solar Pro 2 da Upstage, é emocionante ver os laboratórios de IA coreanos se juntarem aos EUA e à China perto do topo das paradas de inteligência.
Principais resultados:
🧠 ➤ EXAONE 4.0 32B (Raciocínio): No modo de raciocínio, o EXAONE 4.0 pontua 62 no Índice de Inteligência de Análise Artificial. Isso corresponde ao Claude 4 Opus e ao novo Llama Nemotron Super 49B v1.5 da NVIDIA e fica apenas 1 ponto atrás do Gemini 2.5 Flash
⚡ ➤ EXAONE 4.0 32B (Não Raciocínio): No modo sem raciocínio, o EXAONE 4.0 pontua 51 no Índice de Inteligência de Análise Artificial. Ele corresponde a Llama 4 Maverick em inteligência, apesar de ter apenas ~ 1/4 dos parâmetros totais (embora tenha ~ 2x os parâmetros ativos)
⚙️ ➤ Tokens de saída e detalhamento: No modo de raciocínio, o EXAONE 4.0 usou 100 milhões de tokens de saída para o Índice de Inteligência de Análise Artificial. Isso é maior do que alguns outros modelos de fronteira, mas se alinha com as tendências recentes de modelos de raciocínio usando mais tokens de saída para 'pensar mais' - semelhante ao Llama Nemotron Super 49B v1.5, Grok 4 e Qwen3 235B 2507 Reasoning. No modo sem raciocínio, o EXAONE 4.0 usou 15 milhões de tokens - alto para um não raciocinador, mas não tão alto quanto os 30 milhões do Kimi K2.
Detalhes principais:
➤ Raciocínio híbrido: O modelo oferece opcionalidade entre o modo 'raciocínio' e o modo 'não raciocínio'
➤ Disponibilidade: Hospedado pela @friendliai atualmente e com preços competitivos (especialmente em comparação com opções proprietárias) pela FriendliAI a US$ 1 por 1 milhão de tokens de entrada e saída
➤ Pesos abertos: EXAONE 4.0 é um modelo de pesos abertos disponível sob o Contrato de Licença de Modelo EXAONE AI 1.2. A licença limita o uso comercial.
➤ Multimodalidade: entrada e saída somente texto
➤ Janela de contexto: 131k tokens
➤ Parâmetros: 32B parâmetros ativos e totais, disponíveis em precisão de 16 bits e 8 bits (significa que o modelo pode ser executado em um único chip H100 com precisão total)

41,56K
Anunciando a tabela de classificação da Artificial Analysis Music Arena: com >5 mil votos, o Suno v4.5 é o modelo líder de geração de música, seguido pelo FUZZ-1.1 Pro da Riffusion.
O Lyria 2 do Google ocupa o terceiro lugar em nossa tabela de classificação instrumental, e o Allegro v1.5 de Udio ocupa o terceiro lugar em nossa tabela de classificação de vocais.
A Tabela de Classificação Instrumental é a seguinte:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Lyria 2
@udiomusic v1.5 Allegro
@StabilityAI Áudio estável 2.0
@metaai MusicGen
As classificações são baseadas em votos da comunidade em uma ampla gama de gêneros e prompts. Quer ver seu prompt em destaque? Você pode enviar prompts na arena hoje.
👇 Veja abaixo a tabela de classificação de vocais e o link para participar!

22,19K
Mudança na demanda do modelo de 2024 a 2025: Google (+49pts), DeepSeek (+53pts) e xAI (+31pts) alcançaram ganhos maciços na participação da demanda no ano passado
@Google passou de um retardatário de IA para um líder de IA com um aumento de ~ 2,5 vezes na proporção de entrevistados usando ou considerando a série de modelos Gemini. Um dos principais impulsionadores disso foi o Google obter ganhos significativos em inteligência: o Gemini 2.5 Pro agora está em #3 em nosso Índice de Inteligência de Análise Artificial, em comparação com um atraso significativo em relação ao OpenAI e ao Anthropic no início de 2024.
@deepseek_ai no 1º semestre de 2024 lançaram apenas o DeepSeek 67B, um modelo que teve adoção limitada e desempenho inferior ao Llama 3 70B. A DeepSeek viu pela primeira vez alguma aceitação no final de 2024 com os lançamentos de seu modelo V2 e, em seguida, viu uma rápida adoção no início de 2025 com seus modelos V3 e R1 que os levaram à liderança entre os modelos de pesos abertos.
A @xai lançou seu primeiro modelo Grok-1 em meados do H1 2024 e, desde então, subiu rapidamente para a liderança de inteligência em todos os modelos com lançamentos sucessivos, culminando no lançamento do Grok 4 na semana passada.
Fonte: Pesquisa de Adoção de IA de Análise Artificial H1 2025 (relatório disponível no site de Análise Artificial)

389,04K
Provedores Kimi K2: Groq está servindo Kimi K2 a >400 tokens de saída / s, 40 vezes mais rápido que a API primária do Moonshot
Parabéns a vários provedores por serem rápidos no lançamento de APIs para Kimi K2, incluindo @GroqInc, @basetenco, @togethercompute, @FireworksAI_HQ, @parasail_io, @novita_labs, @DeepInfra e, claro, @Kimi_Moonshot. Isso é impressionante, considerando o tamanho do modelo em 1 trilhão de parâmetros totais.
Groq se destaca por sua velocidade extremamente rápida. DeepInfra, Novita e Baseten se destacam por seus preços, sendo os únicos provedores com preços semelhantes ou mais baratos do que a API primária do Moonshot.
Veja abaixo mais comparações entre os provedores. Esperamos aumentos rápidos na velocidade em alguns provedores à medida que as equipes otimizam para o modelo K2 - nossos números abaixo mostram velocidades médias nas últimas 72 horas, mas já estamos vendo o DeepInfra saltar para 62 tokens/s nas medições de hoje

52,3K
Embora o Kimi k2 da Moonshot AI seja o principal modelo de não raciocínio de pesos abertos no Índice de Inteligência de Análise Artificial, ele produz ~ 3x mais tokens do que outros modelos de não raciocínio, borrando as linhas entre raciocínio e não raciocínio
Kimi k2 é o maior modelo de pesos abertos até agora - parâmetros totais de 1T com 32B ativos (isso requer 1 TB de memória no FP8 nativo para manter os pesos). Temos k2 em 57 no Índice de Inteligência de Análise Artificial, uma pontuação impressionante que o coloca acima de modelos como GPT-4.1 e DeepSeek V3, mas atrás dos principais modelos de raciocínio.
Até agora, havia uma distinção clara entre modelos de raciocínio e modelos não racionais em nossas avaliações - definida não apenas pelo fato de o modelo usar <reasoning> tags, mas principalmente pelo uso de tokens. O número médio de tokens usados para responder a todas as avaliações no Índice de Inteligência de Análise Artificial é ~ 10 vezes maior para modelos de raciocínio do que para modelos sem raciocínio.
O Kimi k2 do @Kimi_Moonshot usa ~ 3x o número de tokens que o modelo mediano de não raciocínio usa. Seu uso de token é apenas até 30% menor do que Claude 4 Sonnet e Opus quando executado em seu modo de pensamento estendido de orçamento máximo, e é quase o triplo do uso de token de Claude 4 Sonnet e Opus com o raciocínio desativado.
Portanto, recomendamos que Kimi k2 seja comparado a Claude 4 Sonnet e Opus em seus modos de pensamento estendido de orçamento máximo, não às pontuações de não raciocínio para os modelos Claude 4.
O Kimi k2 está disponível na API primária do @Kimi_Moonshot, bem como no @FireworksAI_HQ, @togethercompute, @novita_labs e @parasail_io.
Veja abaixo e em Análise Artificial para análise 👇 adicional



60,62K
A nova API Deep Research da OpenAI custa até ~ $ 30 por chamada de API! Esses novos endpoints da API Deep Research podem ser apenas a nova maneira mais rápida de gastar dinheiro
Em nossas 10 consultas de teste de pesquisa profunda, gastamos US$ 100 no o3 e US$ 9,18 no o4-mini. Como os custos ficam tão grandes? Preços altos e milhões de tokens.
Esses endpoints são versões do o3 e o4-mini que foram RL'd para tarefas de pesquisa profunda. A disponibilidade via API permite que eles sejam usados com a ferramenta de pesquisa na web da OpenAI e fontes de dados personalizadas por meio de servidores MCP remotos.
O preço do O4-Mini-Deep-Research é 5x menor do que o preço do O3-Deep-Research. Em nossas consultas de teste, o o4-mini também parece usar menos tokens - ele é mais de 10x mais barato no total em nossas 10 consultas de teste.
Precificação:
➤ o3-deep-research custa US$ 10/M de entrada (US$ 2,50 de entrada em cache), US$ 40/M de saída
➤ o4-mini-deep-research custa US$ 2/M de entrada (US$ 0,5 de entrada em cache), US$ 8/M de saída
Esses endpoints são substancialmente mais caros do que os endpoints o3 e o4-mini padrão da OpenAI - eles estão em:
➤ o3: entrada de US$ 2/M (US$ 0,5 em cache), saída de US$ 8/M para o3
➤ o4-mini: entrada de US$ 1,1 /M (0,275 em cache), saída de US$ 4,4/M

37,33K
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável