Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analyse indépendante des modèles d’IA et des fournisseurs d’hébergement - choisissez le meilleur modèle et le meilleur fournisseur d’API pour votre cas d’utilisation
DeepSeek lance V3.1, unifiant V3 et R1 en un modèle de raisonnement hybride avec une augmentation incrémentale de l'intelligence
Augmentation incrémentale de l'intelligence : Les premiers résultats de benchmarking pour DeepSeek V3.1 montrent un indice d'intelligence d'analyse artificielle de 60 en mode raisonnement, contre 59 pour le score de R1. En mode non-raisonnement, V3.1 atteint un score de 49, une augmentation plus importante par rapport au score précédent de V3 0324 qui était de 44. Cela laisse V3.1 (raisonnement) derrière le dernier Qwen3 235B 2507 d'Alibaba (raisonnement) - DeepSeek n'a pas repris la tête.
Raisonnement hybride : @deepseek_ai est passé à un modèle de raisonnement hybride pour la première fois - supportant à la fois les modes de raisonnement et de non-raisonnement. Le passage de DeepSeek à un modèle de raisonnement hybride unifié imite l'approche adoptée par OpenAI, Anthropic et Google. Il est intéressant de noter, cependant, qu'Alibaba a récemment abandonné l'approche hybride qu'il favorisait pour Qwen3 avec ses sorties séparées des modèles de raisonnement et d'instruction de Qwen3 2507.
Appel de fonction / utilisation d'outils : Bien que DeepSeek affirme avoir amélioré l'appel de fonction pour le modèle, DeepSeek V3.1 ne prend pas en charge l'appel de fonction en mode raisonnement. Cela risque de limiter considérablement sa capacité à soutenir des flux de travail agentiques avec des exigences d'intelligence, y compris dans les agents de codage.
Utilisation des tokens : DeepSeek V3.1 obtient des scores légèrement plus élevés en mode raisonnement que DeepSeek R1, et utilise légèrement moins de tokens dans les évaluations que nous utilisons pour l'indice d'intelligence d'analyse artificielle. En mode non-raisonnement, il utilise légèrement plus de tokens que V3 0324 - mais reste plusieurs fois inférieur à son propre mode raisonnement.
API : L'API de première partie de DeepSeek sert désormais le nouveau modèle DeepSeek V3.1 sur ses points de terminaison de chat et de raisonnement - il suffit de changer si le token de pensée finale </think> est fourni au modèle dans le modèle de chat pour contrôler si le modèle va raisonner.
Architecture : DeepSeek V3.1 est architecturale identique aux modèles précédents V3 et R1, avec 671B de paramètres totaux et 37B de paramètres actifs.
Implications : Nous conseillerions la prudence dans toute hypothèse concernant ce que cette sortie implique sur les progrès de DeepSeek vers un futur modèle désigné dans les rumeurs comme V4 ou R2. Nous notons que DeepSeek a précédemment publié le modèle final construit sur leur architecture V2 le 10 décembre 2024, juste deux semaines avant de publier V3.


70,48K
Annonce de l'Analyse Artificielle du Raisonnement sur Long Contexte (AA-LCR), une nouvelle référence pour évaluer la performance sur long contexte en testant les capacités de raisonnement à travers plusieurs documents longs (~100k tokens)
L'objectif de l'AA-LCR est de reproduire le travail de connaissance réel et les tâches de raisonnement, testant des capacités critiques pour les applications modernes d'IA couvrant l'analyse de documents, la compréhension de code et des flux de travail complexes en plusieurs étapes.
L'AA-LCR se compose de 100 questions difficiles basées sur du texte qui nécessitent un raisonnement à travers plusieurs documents du monde réel représentant ~100k tokens d'entrée. Les questions sont conçues de manière à ce que les réponses ne puissent pas être trouvées directement mais doivent être déduites à partir de plusieurs sources d'information, avec des tests humains vérifiant que chaque question nécessite une véritable inférence plutôt qu'une simple récupération.
Points clés :
➤ Les modèles leaders d'aujourd'hui atteignent ~70% de précision : les trois premières places vont à OpenAI o3 (69%), xAI Grok 4 (68%) et Qwen3 235B 2507 Thinking (67%)
➤👀 Nous avons également déjà des résultats gpt-oss ! 120B se rapproche de o4-mini (élevé), en ligne avec les affirmations d'OpenAI concernant la performance des modèles. Nous suivrons bientôt avec un Index d'Intelligence pour les modèles.
➤ 100 questions difficiles basées sur du texte couvrant 7 catégories de documents (Rapports d'Entreprise, Rapports d'Industrie, Consultations Gouvernementales, Académie, Juridique, Matériaux Marketing et Rapports d'Enquête)
➤ ~100k tokens d'entrée par question, nécessitant que les modèles supportent une fenêtre de contexte minimale de 128K pour obtenir un score sur cette référence
➤ ~3M de tokens d'entrée uniques au total couvrant ~230 documents pour exécuter la référence (les tokens de sortie varient généralement selon le modèle)
➤ Lien vers le jeu de données sur 🤗 @HuggingFace ci-dessous
Nous ajoutons l'AA-LCR à l'Index d'Intelligence d'Analyse Artificielle, et faisons passer le numéro de version à v2.2. L'Index d'Intelligence d'Analyse Artificielle v2.2 inclut désormais : MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode et AA-LCR.
Tous les chiffres sont mis à jour sur le site maintenant. Découvrez quels modèles figurent dans l'Index d'Intelligence d'Analyse Artificielle v2.2 👇

28,71K
Cerebras a démontré sa capacité à héberger de grands MoEs à des vitesses très élevées cette semaine, lançant les points de terminaison Qwen3 235B 2507 et Qwen3 Coder 480B à >1 500 tokens de sortie/s
➤ @CerebrasSystems propose désormais des points de terminaison pour Qwen3 235B 2507 Raisonnement & Non-raisonnement. Les deux modèles ont 235B de paramètres au total avec 22B actifs.
➤ Qwen 3 235B 2507 Raisonnement offre une intelligence comparable à o4-mini (élevé) & DeepSeek R1 0528. La variante Non-raisonnement offre une intelligence comparable à Kimi K2 et bien au-dessus de GPT-4.1 et Llama 4 Maverick.
➤ Qwen3 Coder 480B a 480B de paramètres au total avec 35B actifs. Ce modèle est particulièrement puissant pour le codage agentique et peut être utilisé dans une variété d'outils d'agent de codage, y compris le Qwen3-Coder CLI.
Les lancements de Cerebras représentent la première fois que ce niveau d'intelligence a été accessible à ces vitesses de sortie et ont le potentiel de débloquer de nouveaux cas d'utilisation - comme l'utilisation d'un modèle de raisonnement pour chaque étape d'un agent sans avoir à attendre des minutes.

25,2K
🇰🇷 LG a récemment lancé l'EXAONE 4.0 32B - il obtient un score de 62 sur l'Indice d'Analyse de l'Intelligence Artificielle, le score le plus élevé pour un modèle 32B à ce jour.
L'EXAONE 4.0 de @LG_AI_Research est disponible en deux variantes : le modèle hybride de raisonnement 32B dont nous rapportons ici les résultats de benchmark, et un modèle plus petit de 1,2B conçu pour des applications sur appareil que nous n'avons pas encore évalué.
Aux côtés de la récente sortie de Solar Pro 2 d'Upstage, il est excitant de voir les laboratoires d'IA coréens rejoindre les États-Unis et la Chine près du sommet des classements d'intelligence.
Résultats clés :
➤ 🧠 EXAONE 4.0 32B (Raisonnement) : En mode raisonnement, l'EXAONE 4.0 obtient un score de 62 sur l'Indice d'Analyse de l'Intelligence Artificielle. Cela correspond à Claude 4 Opus et au nouveau Llama Nemotron Super 49B v1.5 de NVIDIA, et se situe seulement à 1 point derrière Gemini 2.5 Flash.
➤ ⚡ EXAONE 4.0 32B (Non-Raisonnement) : En mode non-raisonnement, l'EXAONE 4.0 obtient un score de 51 sur l'Indice d'Analyse de l'Intelligence Artificielle. Il correspond à Llama 4 Maverick en intelligence malgré n'avoir qu'environ 1/4 des paramètres totaux (bien qu'il ait environ 2x les paramètres actifs).
➤ ⚙️ Tokens de sortie et verbosité : En mode raisonnement, l'EXAONE 4.0 a utilisé 100M de tokens de sortie pour l'Indice d'Analyse de l'Intelligence Artificielle. C'est plus élevé que certains autres modèles de pointe, mais cela s'aligne avec les tendances récentes des modèles de raisonnement utilisant plus de tokens de sortie pour 'penser plus' - similaire à Llama Nemotron Super 49B v1.5, Grok 4, et Qwen3 235B 2507 Raisonnement. En mode non-raisonnement, l'EXAONE 4.0 a utilisé 15M de tokens - élevé pour un non-raisonneur, mais pas aussi élevé que les 30M de Kimi K2.
Détails clés :
➤ Raisonnement hybride : Le modèle offre une option entre le mode 'raisonnement' et le mode 'non-raisonnement'.
➤ Disponibilité : Hébergé par @friendliai actuellement, et à un prix compétitif (surtout par rapport aux options propriétaires) par FriendliAI à 1 $ par 1M de tokens d'entrée et de sortie.
➤ Poids ouverts : L'EXAONE 4.0 est un modèle à poids ouverts disponible sous l'Accord de Licence du Modèle AI EXAONE 1.2. La licence limite l'utilisation commerciale.
➤ Multimodalité : Entrée et sortie uniquement textuelles.
➤ Fenêtre de contexte : 131k tokens.
➤ Paramètres : 32B de paramètres actifs et totaux, disponibles en précision 16 bits et 8 bits (ce qui signifie que le modèle peut être exécuté sur une seule puce H100 en pleine précision).

41,56K
Annonce du tableau des leaders de l'Arène d'Analyse Musicale Artificielle : avec plus de 5 000 votes, Suno v4.5 est le modèle de génération musicale leader, suivi par le FUZZ-1.1 Pro de Riffusion.
La Lyria 2 de Google se classe troisième dans notre tableau des leaders Instrumental, et l'Allegro v1.5 d'Udio se classe troisième dans notre tableau des leaders Vocals.
Le tableau des leaders Instrumental est le suivant :
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Lyria 2
@udiomusic v1.5 Allegro
@StabilityAI Stable Audio 2.0
@metaai MusicGen
Les classements sont basés sur les votes de la communauté à travers une large gamme de genres et de prompts. Vous souhaitez voir votre prompt mis en avant ? Vous pouvez soumettre des prompts dans l'arène aujourd'hui.
👇 Voir ci-dessous pour le tableau des leaders Vocals et le lien pour participer !

22,18K
Évolution de la demande de modèles de 2024 à 2025 : Google (+49 pts), DeepSeek (+53 pts) et xAI (+31 pts) ont réalisé des gains massifs de part de demande au cours de l’année écoulée
@Google est passé du statut de retardataire de l’IA à celui de chef de file de l’IA, avec une augmentation de ~2,5 fois de la proportion de répondants utilisant ou envisageant la série de modèles Gemini. L’un des principaux facteurs de cette évolution a été les gains significatifs de Google en matière d’intelligence : Gemini 2.5 Pro se trouve désormais au #3 de notre indice d’intelligence d’analyse artificielle, contre un retard significatif derrière OpenAI et Anthropic au début de 2024.
@deepseek_ai au S1 2024 n’avait sorti que le DeepSeek 67B, un modèle qui a connu une adoption limitée et a sous-performé le Llama 3 70B. DeepSeek a d’abord connu une certaine adoption à la fin de 2024 avec les lancements de son modèle V2, puis a connu une adoption rapide au début de 2025 avec ses modèles V3 et R1 qui l’ont propulsé au premier rang des modèles à poids ouverts.
@xai a lancé son premier modèle Grok-1 au milieu du premier semestre 2024 et s’est depuis rapidement hissé au rang de leader du renseignement sur tous les modèles avec des lancements successifs, culminant avec le lancement de Grok 4 la semaine dernière.
Source : Enquête sur l’adoption de l’IA par l’analyse artificielle au 1er semestre 2025 (rapport disponible sur le site Web de l’analyse artificielle)

389,03K
Fournisseurs Kimi K2 : Groq sert Kimi K2 à >400 tokens/s, 40 fois plus rapide que l'API de première partie de Moonshot.
Félicitations à plusieurs fournisseurs pour avoir été rapides à lancer des API pour Kimi K2, y compris @GroqInc, @basetenco, @togethercompute, @FireworksAI_HQ, @parasail_io, @novita_labs, @DeepInfra, et bien sûr @Kimi_Moonshot. C'est impressionnant compte tenu de la taille du modèle avec 1 trillion de paramètres au total.
Groq se distingue par sa vitesse fulgurante. DeepInfra, Novita et Baseten se distinguent par leurs prix, étant les seuls fournisseurs à proposer des prix similaires ou moins chers que l'API de première partie de Moonshot.
Voir ci-dessous pour d'autres comparaisons entre les fournisseurs. Nous nous attendons à des augmentations rapides de la vitesse chez certains fournisseurs alors que les équipes s'optimisent pour le modèle K2 - nos chiffres ci-dessous montrent les vitesses médianes au cours des dernières 72 heures, mais nous voyons déjà DeepInfra atteindre 62 tokens/s dans les mesures d'aujourd'hui.

52,3K
Alors que le Kimi k2 de Moonshot AI est le principal modèle de non-raisonnement à poids ouverts dans l’indice d’intelligence d’analyse artificielle, il produit ~3x plus de jetons que les autres modèles de non-raisonnement, brouillant les frontières entre le raisonnement et le non-raisonnement
Kimi k2 est le plus grand modèle de poids ouvert majeur à ce jour - 1T de paramètres totaux avec 32B actifs (cela nécessite un énorme 1 To de mémoire à FP8 natif pour contenir les poids). Nous avons k2 à 57 dans l’indice d’intelligence d’analyse artificielle, un score impressionnant qui le place au-dessus de modèles comme GPT-4.1 et DeepSeek V3, mais derrière les principaux modèles de raisonnement.
Jusqu’à présent, il y avait une distinction claire entre les modèles de raisonnement et les modèles non raisonnants dans nos évaluations - définies non seulement par l’utilisation ou non de balises par le modèle <reasoning> , mais principalement par l’utilisation de jetons. Le nombre médian de jetons utilisés pour répondre à toutes les évaluations dans l’indice d’intelligence d’analyse artificielle est ~10 fois plus élevé pour les modèles de raisonnement que pour les modèles non raisonnés.
@Kimi_Moonshot Kimi k2 utilise ~3 fois le nombre de jetons utilisé par le modèle médian de non-raisonnement. Son utilisation de jetons n’est que jusqu’à 30 % inférieure à celle de Claude 4 Sonnet et Opus lorsqu’ils sont exécutés en mode de réflexion étendu à budget maximum, et est presque le triple de l’utilisation de jetons de Claude 4 Sonnet et Opus avec le raisonnement désactivé.
Nous recommandons donc que Kimi k2 soit comparé à Claude 4 Sonnet et Opus dans leurs modes de réflexion étendus à budget maximum, et non aux scores de non-raisonnement des modèles Claude 4.
Kimi k2 est disponible sur l’API propriétaire de @Kimi_Moonshot ainsi que sur @FireworksAI_HQ, @togethercompute, @novita_labs et @parasail_io.
Voir ci-dessous et sur l’analyse artificielle pour une analyse 👇 plus approfondie



60,62K
La nouvelle API Deep Research d’OpenAI coûte jusqu’à ~30 $ par appel d’API ! Ces nouveaux points de terminaison de l’API Deep Research pourraient bien être le nouveau moyen le plus rapide de dépenser de l’argent
Sur nos 10 requêtes de test de recherche approfondie, nous avons dépensé 100 $ pour o3 et 9,18 $ pour o4-mini. Comment les coûts deviennent-ils si élevés ? Des prix élevés et des millions de jetons.
Ces points d’extrémité sont des versions d’o3 et d’o4-mini qui ont été RL pour des tâches de recherche approfondies. La disponibilité via l’API leur permet d’être utilisés à la fois avec l’outil de recherche Web d’OpenAI et avec des sources de données personnalisées via des serveurs MCP distants.
Le prix d’O4-mini-deep-research est 5 fois inférieur à celui d’O3-deep-research. Dans nos requêtes de test, o4-mini semble également utiliser moins de jetons - il est arrivé plus de 10 fois moins cher au total sur nos 10 requêtes de test.
Prisée:
➤ o3-deep-research est au prix de 10 $ /M en entrée (2,50 $ en entrée en cache), 40 $ /M en sortie
➤ o4-mini-deep-research est au prix de 2 $ /M d’entrée (0,5 $ d’entrée en cache), 8 $ /M de sortie
Ces points d’extrémité sont tous deux nettement plus coûteux que les points d’extrémité standard o3 et o4-mini d’OpenAI - ceux-ci se trouvent à :
➤ o3 : 2 $/M (0,5 $ en cache) en entrée, 8 $/M en sortie pour o3
➤ o4-mini : 1,1 $/M (0,275 en cache) en entrée, 4,4 $/M en sortie

37,33K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables