Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Директор з робототехніки та заслужений вчений NVIDIA. Співкерівник лабораторії GEAR. Розв'язання фізичного AGI, по одному мотору за раз. Доктор філософії Стенфордського університету, 1-й стажер OpenAI.
Я спостерігаю парадокс міні-Моравеца в робототехніці: складна для людини гімнастика набагато простіша для роботів, ніж «несексуальні» завдання на кшталт приготування їжі, прибирання та складання. Це призводить до когнітивного дисонансу для людей поза полем: «Отже, роботи можуть паркур і брейк-данс, але чому вони не можуть подбати про мою собаку?». Повірте мені, мене про це батьки запитували більше, ніж ви думаєте ...
«Парадокс робота Моравека» також створює ілюзію, що фізичні можливості штучного інтелекту набагато досконаліші, ніж вони є насправді. Я не виділяю Unitree, оскільки він широко застосовується до всіх останніх акробатичних демо-версій в індустрії. Ось простий тест: якщо ви встановите стіну перед роботом, що перевертається вбік, він врізається в нього на повну силу і влаштує видовище. Тому що це просто переоснащення цього єдиного еталонного руху, без будь-якого усвідомлення оточення.
Ось чому і існує парадокс: набагато простіше тренувати «сліпого гімнаста», ніж робота, який бачить і маніпулює. Перший може бути повністю вирішений у симуляції та перенесений нульовий постріл у реальний світ, тоді як другий вимагає надзвичайно реалістичного рендерингу, фізики контактів та безладної динаміки об'єктів у реальному світі – жоден з яких не може бути добре змодельований.
Уявіть, що ви можете тренувати LLM не з Інтернету, а з чисто створеної вручну текстової консольної гри. Робототехнікам пощастило. Нам випало жити у світі, де прискорені фізичні двигуни настільки хороші, що ми можемо обійтися вражаючою акробатикою, використовуючи буквально нульову кількість реальних даних. Але ми ще не виявили такого ж чит-коду для загальної спритності.
До того часу нас все одно будуть допитувати наші розгублені батьки.
351,63K
Мій бар для AGI набагато простіший: штучний інтелект готує смачну вечерю в будь-якому будинку для будь-якої кухні. Фізичний тест Тюрінга, швидше за все, складніший, ніж Нобелівська премія. Парадокс Моравця продовжуватиме переслідувати нас, стаючи все більшими і темнішими, протягом наступного десятиліття.

Thomas Wolf19 лип., 16:06
Моя планка для AGI – це те, що штучний інтелект отримав Нобелівську премію за нову теорію, яку він виник.
99,08K
Останнім часом я трохи мовчав про X. Рік, що минає, став трансформаційним досвідом. Grok-4 і Kimi K2 чудові, але світ робототехніки – це дивовижний Дикий Захід. Це схоже на НЛП у 2018 році, коли був опублікований GPT-1, разом із BERT та тисячею інших квітів, які цвіли. Ніхто не знав, який з них згодом стане ChatGPT. Дебати були запеклими. Ентропія була захмарною. Ідеї були шалено веселими.
Я вважаю, що GPT-1 робототехніки вже десь на Arxiv, але ми не знаємо точно, який саме. Це можуть бути моделі світу, RL, навчання на людському відео, sim2real, real2sim і т.д. і т.д., або будь-яка їх комбінація. Суперечки запеклі. Ентропія захмарна. Ідеї – це шалено весело, замість того, щоб вичавлювати останні кілька % на AIME та GPQA.
Характер робототехніки також сильно ускладнює оформлення простору. На відміну від чистого світу бітів для LLM (текстових рядків), нам, робототехнікам, доводиться мати справу з безладним світом атомів. Зрештою, в шлейфі є шматок програмно-визначеного металу. Можливо, в це важко повірити, але поки що робототехніки все ще не можуть домовитися про еталон! Різні роботи мають різні можливості - одні краще справляються з акробатикою, а інші - з маніпуляціями з об'єктами. Деякі з них призначені для промислового використання, а інші для побутових завдань. Крос-втілення – це не просто новинка в дослідженнях, а важлива характеристика для універсального мозку робота.
Я розмовляв з десятками керівників вищої ланки з різних компаній-виробників роботів, старих і нових. Деякі продають все тіло. Деякі продають такі частини тіла, як спритні руки. Набагато більше інших продають лопати для виробництва нових тіл, створення симуляцій або збору величезних масивів даних. Простір бізнес-ідей такий же дикий, як і саме дослідження. Це нова золота лихоманка, подібної до якої ми не бачили з часів хвилі ChatGPT 2022 року.
Найкращий час для входу – це коли неконсенсус досягає піку. Ми все ще знаходимося на початку кривої втрат - є сильні ознаки життя, але далеко, далеко від зближення. Кожен крок градієнта веде нас у невідоме. Але одне я знаю точно - немає AGI без дотиків, відчуттів і втілення в безладному світі.
На більш особистій ноті - управління дослідницькою лабораторією пов'язане з абсолютно новим рівнем відповідальності. Давати новини безпосередньо генеральному директору компанії за $4T – це, м'яко кажучи, одночасно захоплююче і всепоглинаюче з моєї уваги. Минули ті часи, коли я міг залишатися на вершині та глибоко занурюватися в кожну новину про штучний інтелект.
Я постараюся викроїти час, щоб розповісти більше про свою подорож.

876,97K
Фізичний тест Тюрінга: у вашому домі повний безлад після недільного хакатону. У понеділок увечері ви приходите додому в бездоганну вітальню і вечерю при свічках. І ви не могли сказати, чи там була людина, чи машина. Оманливо простий, шалено жорсткий.
Це наступна Полярна зірка штучного інтелекту. Сон, який не дає мені заснути о 12 годині ночі в лабораторії. Бачення наступної обчислювальної платформи, яка автоматизує шматки атомів замість шматків бітів.
Дякую Sequoia за те, що прийняли мене на AI Ascent! Нижче наведено мій повний виступ про перші принципи вирішення робототехніки загального призначення: як ми думаємо про стратегію даних та закони масштабування. Запевняю вас, це будуть 17 хвилин, про які ви не пошкодуєте!
107,23K
Коли-небудь в наступному десятилітті у нас будуть роботи в кожному будинку, в кожній лікарні і на заводі, які будуть виконувати кожну нудну і небезпечну роботу з надлюдською спритністю. Цей день буде відомий як "четвер". Навіть Тюрінг не наважився б мріяти про наше життя у своїх найсміливіших мріях.

signüll21 квіт. 2025 р.
Ми перетнули тест Тюрінга і ніхто не дав плювати. Ніяких парадів. Жодних заголовків на перших шпальтах. Просто... недбало знизує плечима. На кшталт: «О так, машини досить розумні, щоб обдурити нас зараз. Та й взагалі, що на обід?
Ця тиша говорить вам все про темп, в якому ми рухаємося.
Ще на моїх заняттях з CS до тесту Тюрінга ставилися як до фінального боса. Тепер кожен прорив – це ще один проклятий вівторок.
101,97K
Гуманоїдна Олімпіада у 2030 році стане справжнім видовищем

Jim Fan5 лют. 2025 р.
Ми подарували гуманоїдних роботів Кріштіану Роналду, Леброну Джеймсу та Кобі Байранту! Це нейронні мережі, що працюють на реальному обладнанні в нашій лабораторії GEAR. Більшість демонстрацій роботів, які ви бачите в Інтернеті, прискорюють відео. Ми фактично *сповільнюємо їх*, щоб ви могли насолоджуватися плавними рухами.
Я радий оголосити про "ASAP", модель "real2sim2real", яка освоює надзвичайно плавні та динамічні рухи для гуманоїдного керування всім тілом.
Спочатку ми навчаємо робота моделюванню, але є горезвісна прогалина в «sim2real»: дуже складно, щоб рівняння фізики, сконструйовані вручну, відповідали динаміці реального світу.
Наше рішення просте: просто розгорніть попередньо навчену політику на реальному обладнанні, збирайте дані та відтворюйте рух у симуляторі. Очевидно, що повтор матиме багато помилок, але це дає багатий сигнал, щоб компенсувати розбіжність у фізиці. Використовуйте іншу нейронну мережу для вивчення дельти. По суті, ми «латаємо» традиційний фізичний движок, щоб робот міг сприймати майже реальний світ у масштабі на графічних процесорах.
Майбутнє за гібридною симуляцією: поєднайте в собі потужність класичних симуляторів, удосконалених десятиліттями, і надприродну здатність сучасних NN знімати безладний світ.
45,85K
Ми подарували гуманоїдних роботів Кріштіану Роналду, Леброну Джеймсу та Кобі Байранту! Це нейронні мережі, що працюють на реальному обладнанні в нашій лабораторії GEAR. Більшість демонстрацій роботів, які ви бачите в Інтернеті, прискорюють відео. Ми фактично *сповільнюємо їх*, щоб ви могли насолоджуватися плавними рухами.
Я радий оголосити про "ASAP", модель "real2sim2real", яка освоює надзвичайно плавні та динамічні рухи для гуманоїдного керування всім тілом.
Спочатку ми навчаємо робота моделюванню, але є горезвісна прогалина в «sim2real»: дуже складно, щоб рівняння фізики, сконструйовані вручну, відповідали динаміці реального світу.
Наше рішення просте: просто розгорніть попередньо навчену політику на реальному обладнанні, збирайте дані та відтворюйте рух у симуляторі. Очевидно, що повтор матиме багато помилок, але це дає багатий сигнал, щоб компенсувати розбіжність у фізиці. Використовуйте іншу нейронну мережу для вивчення дельти. По суті, ми «латаємо» традиційний фізичний движок, щоб робот міг сприймати майже реальний світ у масштабі на графічних процесорах.
Майбутнє за гібридною симуляцією: поєднайте в собі потужність класичних симуляторів, удосконалених десятиліттями, і надприродну здатність сучасних NN знімати безладний світ.
543,16K
Те, що *другий* папір із безліччю секретів маховика RL і міркувань у стилі *мультимодального* o1 сьогодні не на моїй картці бінго. Документи Kimi's (ще один стартап) і DeepSeek дивовижним чином зійшлися на схожих висновках:
> Немає потреби в складному пошуку по дереву, як MCTS. Просто лінеаризуйте слід думки і зробіть старе добре авторегресивне передбачення;
> Немає необхідності в ціннісних функціях, які вимагають ще однієї дорогої копії моделі;
> Немає необхідності в щільному моделюванні винагороди. Максимально покладайтеся на правду, кінцевий результат.
Відмінності:
> DeepSeek робить підхід AlphaZero - чисто bootstrap через RL без людського введення, тобто "холодний старт". Кімі використовує підхід AlphaGo-Master: запалює SFT для прогріву за допомогою швидко розроблених трас CoT.
> Ваги DeepSeek мають ліцензію MIT (лідерство думок!); У Kimi поки що немає релізу моделі.
> Kimi демонструє сильну мультимодальну продуктивність (!) на таких бенчмарках, як MathVista, що вимагає візуального розуміння геометрії, тестів IQ тощо.
> документі Kimi є НАБАГАТО більше деталей про дизайн системи: інфраструктура RL, гібридний кластер, пісочниця коду, стратегії паралелізму; та деталі навчання: довгий контекст, стиснення CoT, навчальна програма, стратегія вибірки, генерація тестових випадків тощо.
Бадьорі читання у святковий день!

300,47K
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги