Grok 4 знаходиться на тому етапі, коли він, по суті, ніколи не помиляється в питаннях іспиту з математики/фізики, якщо тільки вони не є вміло змагальними. Він може виявляти помилки або двозначності в питаннях, потім виправляти помилку в питанні або відповідати на кожен варіант неоднозначного питання.
Deedy
Deedy10 лип., 14:07
Божевільний, що Ілон Маск знову це зробив, абсолютно розгромивши війни ШІ з Grok 4. Узагальнюючи основні заяви: — Витрати на РЛ після тренування == витрати на передтренувальну підготовку — 3 долари США за мільйон вхідних даних, 15 доларів США за мільйон вихідних токів, 256 тис контекст, ціна в 2 рази перевищує 128 тис — #1 на Останньому іспиті людства (загальні важкі задачі) 44.4%, #2 — 26.9% — #1 на GPQA (hard graduate problems) 88,9%. #2 – 86,4% — #1 на AIME 2025 (Math) 100%, #2 — 98.4% — #1 на Гарвардському массачусетському технологічному інституті з математики 96.7%, #2 — 82.5% — #1 на USAMO25 (математика) 61.9%, #2 — 49.4% — #1 на ARC-AGI-2 (легко для людини, важко для ШІ) 15,9%, #2 — 8,6% — #1 на LiveCodeBench (січень-травень) 79,4%, #2 — 75,8% Grok 4 «потенційно кращий, ніж рівень доктора філософії, з усіх предметів, без винятку».. І це досить дешево. Грандіозний момент у війнах штучного інтелекту і Ілон вступив у гру.
6,33M