Отже, всі моделі поступаються людям у питаннях нової Міжнародної математичної олімпіади, і Grok-4 особливо погано справляється з цим, навіть при виборі best of-n? Неймовірно!
531,99K