Anunțarea Artificial Analysis Long Context Reasoning (AA-LCR), un nou benchmark pentru evaluarea performanței contextului lung prin testarea capacităților de raționament pe mai multe documente lungi (~100k token-uri) Obiectivul AA-LCR este de a replica sarcinile reale de cunoștințe și raționament, testarea capabilităților critice pentru aplicațiile AI moderne, care acoperă analiza documentelor, înțelegerea bazei de cod și fluxurile de lucru complexe în mai mulți pași. AA-LCR este format din 100 de întrebări bazate pe text care necesită raționament pe mai multe documente din lumea reală care reprezintă ~100k de jetoane de intrare. Întrebările sunt concepute astfel încât răspunsurile să nu poată fi găsite direct, ci trebuie să fie argumentate din mai multe surse de informații, testarea umană verificând că fiecare întrebare necesită o inferență autentică, mai degrabă decât o recuperare. Principalele concluzii: ➤ Modelele de top de astăzi ating o precizie de ~70%: primele trei locuri merg la OpenAI o3 (69%), xAI Grok 4 (68%) și Qwen3 235B 2507 Thinking (67%) ➤ 👀 De asemenea, avem deja rezultate gpt-oss! 120B are performanțe apropiate de o4-mini (ridicat), în conformitate cu afirmațiile OpenAI privind performanța modelului. Vom continua în curând cu un indice de inteligență pentru modele. ➤ 100 de întrebări bazate pe text care acoperă 7 categorii de documente (rapoarte de companie, rapoarte industriale, consultări guvernamentale, mediul academic, juridic, materiale de marketing și rapoarte de sondaj) ➤ ~100k jetoane de intrare pe întrebare, necesitând modelelor să accepte o fereastră de context de minim 128K pentru a obține un scor la acest benchmark ➤ ~ 3 milioane de jetoane de intrare unice în total care se întind pe ~230 de documente pentru a rula benchmark-ul (jetoanele de ieșire variază de obicei în funcție de model) ➤ Link către setul de date de pe 🤗 @HuggingFace este mai jos Adăugăm AA-LCR la Indexul de inteligență de analiză artificială și ducem numărul versiunii la v2.2. Artificial Analysis Intelligence Index v2.2 include acum: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode și AA-LCR. Toate numerele sunt actualizate pe site acum. Aflați ce modele Indicele de inteligență de analiză artificială v2.2 👇
28,71K