Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ridiculous that OpenAI claimed 74.9% on SWE-Bench just to prove they were above Opus 4.1’s 74.5%…
By running it on 477 problems instead of the full 500.
Their system card only says 74% too.

Nguồn:
Và vâng, tôi biết họ luôn báo cáo về mẫu số 477, nhưng đó KHÔNG phải là "SWE-Bench verified", đó là một chỉ số hoàn toàn khác, đó là "tập con của OpenAI về SWE Bench Verified" và con số đó không thể so sánh.
23,43K
Hàng đầu
Thứ hạng
Yêu thích