Пішов у лабораторію @DvijKalaria @berkeley_ai і зіграв у пінг-понг проти його робота Орео. У дитинстві я багато грав у пінг-понг. Це здавалося цілком сюрреалістичним і одним із тих моментів «Хотів би я розповісти про це своєму шкільному я». Настільний теніс — один із найскладніших видів спорту для роботів. М'яч може рухатися зі швидкістю до 30+ миль на годину при сильному обертанні, наміри опонента приховані, і все тіло має координуватися між собою. Oreo — це повноцінний гуманоїд, який тримає справжнє весло, і він навчився ключовим рухам, як-от замахи, спостерігаючи, як Двідж демонструє. Жодних тренувальних даних, зібраних роботами. Одна людина показує пропозицію, політика узагальнює. Як це працює, як я це розумів: - Розумна система (ієрархічний планувальник) спочатку визначає, куди полетить м'яч, і обирає найкращий тип удару, наприклад, форхенд або бекхенд. - Цей план допомагає тренувати «мозок» робота (політику RL) у віртуальній симуляції. Мозок навчається методом проб і помилок, отримуючи винагороди, коли імітує кілька прикладів рухів - Після навчання в симуляторі вся система застосовується до фізичного робота, щоб він міг грати по-справжньому. Людські демонстрації — це, по суті, референсні рухи. Вони створюють робота, який бачив більше людських настільних тенісів, ніж будь-яка людина, і використовує це для розробки власної гри. Я все одно виграв. (Ледве. Але це не триватиме довго)
Слідкуйте за роботою Dvij тут: І дякую @hananyss, що дозволили мені приєднатися!
341