Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ilmoitamme keinotekoisesta analyysistä Long Context Reasoning (AA-LCR), joka on uusi vertailuarvo pitkän kontekstin suorituskyvyn arvioimiseksi testaamalla päättelykykyä useissa pitkissä asiakirjoissa (~100k tokenia)
AA-LCR:n painopiste on toistaa todellista tietotyötä ja päättelytehtäviä, testauskykyä, jotka ovat kriittisiä nykyaikaisille tekoälysovelluksille, jotka kattavat asiakirja-analyysin, koodikannan ymmärtämisen ja monimutkaiset monivaiheiset työnkulut.
AA-LCR on 100 kovaa tekstipohjaista kysymystä, jotka vaativat päättelyä useissa reaalimaailman asiakirjoissa, jotka edustavat ~100 tuhatta syöttömerkkiä. Kysymykset on suunniteltu siten, että vastauksia ei löydy suoraan, vaan ne on perusteltava useista tietolähteistä, ja ihmistestit varmistavat, että jokainen kysymys vaatii aitoa päättelyä eikä hakua.
Tärkeimmät huomiot:
➤ Nykypäivän johtavat mallit saavuttavat ~70 % tarkkuuden: kolme parasta sijaa menevät OpenAI o3 (69 %), xAI Grok 4 (68 %) ja Qwen3 235B 2507 Thinking (67 %)
➤ 👀 Meillä on myös jo gpt-oss-tuloksia! 120B toimii lähellä o4-miniä (korkea), mikä on linjassa OpenAI:n väitteiden kanssa mallin suorituskyvystä. Seuraamme pian mallien älykkyysindeksillä.
➤ 100 kovaa tekstipohjaista kysymystä, jotka kattavat 7 asiakirjaluokkaa (yritysraportit, toimialaraportit, hallituksen kuulemiset, akateeminen maailma, lakiasiat, markkinointimateriaalit ja tutkimusraportit)
➤ ~100 tuhatta syöttömerkkiä kysymystä kohden, mikä edellyttää, että mallit tukevat vähintään 128 tuhatta kontekstiikkunaa saadakseen pisteitä tässä vertailuarvossa
➤ ~3 miljoonaa ainutlaatuista syöttötunnusta, jotka kattavat ~230 asiakirjaa vertailuarvon suorittamiseksi (lähtötunnukset vaihtelevat tyypillisesti malleittain)
➤ Linkki @HuggingFace tietoaineistoon 🤗 on alla
Lisäämme AA-LCR:n tekoälyindeksiin ja siirrämme versionumeron versioon 2.2. Artificial Analysis Intelligence Index v2.2 sisältää nyt: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode ja AA-LCR.
Kaikki numerot on päivitetty sivustolle nyt. Selvitä, mitkä mallit Artificial Analysis Intelligence Index v2.2 👇

28,72K
Johtavat
Rankkaus
Suosikit