Щоразу, коли ви читаєте технічний звіт моделі SOTA з відкритим вихідним кодом, який фактично осоромлює 99% моделей Western Labs (крім абсолютних 2 найкращих), він завжди звучить так: «Так, ми в основному відібрали дуже високоякісні дані, ретельно згенерували багато даних [через те, що не були відсталими], а потім ми застосували всі найкращі трюки та речі, які ми бачили за останні 12 місяців для Infra, після тренування і т.д. і придумали одне-два [тому що у нас смак / турбота]" Кількість компаній у США, які могли б це робити, кидаючи їм $$$, і жодна з них насправді ніколи не робила нічого подібного, багато говорить вам про кадровий резерв у цих компаніях
«Ми використовували Muon як оптимізатор, налаштували його та витратили весь наш час на створення конвеєра генерації та перевірки даних. Решта специфічна для нашого # обчислень і конкретної інфра+ всього найкращого в класах, які з нього випадають" Вау
Проти «Ми працюємо над безпечним та прибутковим SuperIntelligence. AGI вже близько. Часи інженерів минули. Наймання на 500 інженерів».
66,96K