Больше наблюдений за Номером Пять. Этому человеку был предоставлен ранний доступ к GPT-5-рассуждению (средний уровень) для тестирования.
leo 🐈
leo 🐈2 авг., 22:03
Как вы могли заметить выше, у меня был доступ к ранней версии GPT-5. Она устанавливает новый SoTA с значительным отрывом по этому бенчмарку и показывает гораздо лучшие результаты, чем o3-high. Это отличная модель. С другой стороны, лучшая модель Anthropic отстает. Модель Google находится в середине группы.
46,58K