DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Naurettavaa, että OpenAI vaati 74,9 % SWE-Benchissä vain todistaakseen olevansa Opus 4.1:n 74,5 %:n yläpuolella... Suorittamalla sitä 477 tehtävällä täyden 500:n sijaan. Heidän järjestelmäkorttinsa sanoo myös vain 74 %.

Lähde:

Ja kyllä, tiedän, että he ovat aina raportoineet nimittäjästä 477, mutta se EI ole "SWE-Bench verified", se on täysin eri mittari, se on "OpenAI:n SWE Bench Verifiedin osajoukko" ja tätä lukua ei voi verrata

23,45K

Johtavat

Rankkaus

Suosikit

Ketjussa trendaava

Trendaa X:ssä

Viimeisimmät suosituimmat rahoitukset

Merkittävin