Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lächerlich, dass OpenAI 74,9 % auf SWE-Bench behauptet hat, nur um zu beweisen, dass sie über den 74,5 % von Opus 4.1 liegen...
Indem sie es an 477 Problemen statt an den vollen 500 getestet haben.
Ihre Systemkarte sagt auch nur 74 %.

Quelle:
Und ja, ich weiß, dass sie immer über den 477 Nenner berichtet haben, aber das ist NICHT „SWE-Bench verifiziert“, das ist eine ganz andere Kennzahl, es ist „OpenAIs Teilmenge von SWE Bench Verified“ und diese Zahl kann nicht verglichen werden.
23,18K
Top
Ranking
Favoriten