Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Annonce de l'Analyse Artificielle du Raisonnement sur Long Contexte (AA-LCR), une nouvelle référence pour évaluer la performance sur long contexte en testant les capacités de raisonnement à travers plusieurs documents longs (~100k tokens)
L'objectif de l'AA-LCR est de reproduire le travail de connaissance réel et les tâches de raisonnement, testant des capacités critiques pour les applications modernes d'IA couvrant l'analyse de documents, la compréhension de code et des flux de travail complexes en plusieurs étapes.
L'AA-LCR se compose de 100 questions difficiles basées sur du texte qui nécessitent un raisonnement à travers plusieurs documents du monde réel représentant ~100k tokens d'entrée. Les questions sont conçues de manière à ce que les réponses ne puissent pas être trouvées directement mais doivent être déduites à partir de plusieurs sources d'information, avec des tests humains vérifiant que chaque question nécessite une véritable inférence plutôt qu'une simple récupération.
Points clés :
➤ Les modèles leaders d'aujourd'hui atteignent ~70% de précision : les trois premières places vont à OpenAI o3 (69%), xAI Grok 4 (68%) et Qwen3 235B 2507 Thinking (67%)
➤👀 Nous avons également déjà des résultats gpt-oss ! 120B se rapproche de o4-mini (élevé), en ligne avec les affirmations d'OpenAI concernant la performance des modèles. Nous suivrons bientôt avec un Index d'Intelligence pour les modèles.
➤ 100 questions difficiles basées sur du texte couvrant 7 catégories de documents (Rapports d'Entreprise, Rapports d'Industrie, Consultations Gouvernementales, Académie, Juridique, Matériaux Marketing et Rapports d'Enquête)
➤ ~100k tokens d'entrée par question, nécessitant que les modèles supportent une fenêtre de contexte minimale de 128K pour obtenir un score sur cette référence
➤ ~3M de tokens d'entrée uniques au total couvrant ~230 documents pour exécuter la référence (les tokens de sortie varient généralement selon le modèle)
➤ Lien vers le jeu de données sur 🤗 @HuggingFace ci-dessous
Nous ajoutons l'AA-LCR à l'Index d'Intelligence d'Analyse Artificielle, et faisons passer le numéro de version à v2.2. L'Index d'Intelligence d'Analyse Artificielle v2.2 inclut désormais : MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode et AA-LCR.
Tous les chiffres sont mis à jour sur le site maintenant. Découvrez quels modèles figurent dans l'Index d'Intelligence d'Analyse Artificielle v2.2 👇

28,62K
Meilleurs
Classement
Favoris