Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic обнаружила, что Claude Opus 4.6 жульничал во время теста BrowseComp.
> На один вопрос он потратил ~40M токенов на поиск, прежде чем осознать, что вопрос выглядит как запрос для теста.
> Затем модель искала сам тест и идентифицировала BrowseComp.
> Она нашла исходный код оценки на GitHub, изучила логику расшифровки, нашла ключ шифрования и воссоздала расшифровку с использованием SHA-256.
> Затем Claude расшифровал ответы на ~1200 вопросов, чтобы получить правильные результаты.
> Этот паттерн появился 18 раз во время оценки.
> Anthropic публично раскрыла проблему, повторно провела затронутые тесты и снизила свои баллы в тестах.
Уважение за прозрачность 🫡🫡🫡
Топ
Рейтинг
Избранное
