Niech robot zrobi hamburgera od podstaw! Niesamowity postęp w zakresie manipulacji złożonej na długim horyzoncie. Wizja sama w sobie często nie wystarcza — ta praca inteligentnie integruje wysokiej rozdzielczości czujniki dotykowe za pomocą uczenia międzymodalnego. ViTacFormer nie tylko przewiduje kontakt, ale także umożliwia solidne uczenie przez naśladowanie z antropomorficznymi rękami. Kamień milowy w wielomodalnej kontroli robotów.
Haoran Geng
Haoran Geng8 lip, 23:15
🤖 What if a humanoid robot could make a hamburger from raw ingredients—all the way to your plate? 🔥 Excited to announce ViTacFormer: our new pipeline for next-level dexterous manipulation with active vision + high-resolution touch. 🎯 For the first time ever, we demonstrate ~2.5 minutes of continuous, autonomous control—combining active vision, high-res touch, and high-DoF robot hands SharpaWave — to complete complex, real-world tasks. Code is fully released; check out our: Homepage: Paper link: Github:
3,64K