Naurettavaa, että OpenAI vaati 74,9 % SWE-Benchissä vain todistaakseen olevansa Opus 4.1:n 74,5 %:n yläpuolella... Suorittamalla sitä 477 tehtävällä täyden 500:n sijaan. Heidän järjestelmäkorttinsa sanoo myös vain 74 %.
Lähde:
Ja kyllä, tiedän, että he ovat aina raportoineet nimittäjästä 477, mutta se EI ole "SWE-Bench verified", se on täysin eri mittari, se on "OpenAI:n SWE Bench Verifiedin osajoukko" ja tätä lukua ei voi verrata
23,45K