DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Vi presenterar Artificial Analysis Long Context Reasoning (AA-LCR), ett nytt riktmärke för att utvärdera prestanda för lång kontext genom att testa resonemangsfunktioner i flera långa dokument (~100k tokens) Fokus för AA-LCR är att replikera verkligt kunskapsarbete och resonemangsuppgifter, testkapacitet som är avgörande för moderna AI-applikationer som spänner över dokumentanalys, kodbasförståelse och komplexa arbetsflöden i flera steg. AA-LCR är 100 hårda textbaserade frågor som kräver resonemang i flera verkliga dokument som representerar ~100k indatatoken. Frågorna är utformade så att svaren inte kan hittas direkt utan måste motiveras utifrån flera informationskällor, med mänskliga tester som verifierar att varje fråga kräver genuin slutsats snarare än hämtning. Viktigt att ta med sig: ➤ Dagens ledande modeller uppnår ~70 % noggrannhet: de tre översta platserna går till OpenAI o3 (69 %), xAI Grok 4 (68 %) och Qwen3 235B 2507 Thinking (67 %) 👀 ➤ Vi har också redan gpt-oss-resultat! 120B presterar nära o4-mini (hög), i linje med OpenAI:s påståenden om modellprestanda. Vi kommer inom kort att följa upp med ett Intelligence Index för modellerna. ➤ 100 hårdtextbaserade frågor som spänner över 7 kategorier av dokument (företagsrapporter, branschrapporter, statliga samråd, akademi, juridik, marknadsföringsmaterial och undersökningsrapporter) ➤ ~100K tokens av input per fråga, vilket kräver att modeller stöder ett minst 128K kontextfönster för att få poäng på detta riktmärke ➤ ~3 miljoner totala unika indatatoken som sträcker sig över ~230 dokument för att köra riktmärket (utdatatoken varierar vanligtvis beroende på modell) ➤ Länk till dataset om 🤗 @HuggingFace finns nedan Vi lägger till AA-LCR i Artificial Analysis Intelligence Index och tar versionsnumret till v2.2. Artificial Analysis Intelligence Index v2.2 inkluderar nu: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode och AA-LCR. Alla siffror är uppdaterade på sajten nu. Ta reda på vilka modeller Artificial Analysis Intelligence Index v2.2 👇

28,72K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda