¡Deja que el robot haga una hamburguesa desde cero! Increíble progreso en la manipulación hábil a largo plazo. La visión por sí sola a menudo se queda corta: este trabajo integra de manera inteligente la detección táctil de alta resolución a través del aprendizaje intermodal. ViTacFormer no solo anticipa el contacto, sino que también permite un aprendizaje de imitación robusto con manos antropomórficas. Un hito para el control robótico multimodal.
Haoran Geng
Haoran Geng8 jul, 23:15
🤖 What if a humanoid robot could make a hamburger from raw ingredients—all the way to your plate? 🔥 Excited to announce ViTacFormer: our new pipeline for next-level dexterous manipulation with active vision + high-resolution touch. 🎯 For the first time ever, we demonstrate ~2.5 minutes of continuous, autonomous control—combining active vision, high-res touch, and high-DoF robot hands SharpaWave — to complete complex, real-world tasks. Code is fully released; check out our: Homepage: Paper link: Github:
3.64K