Je suis allé au laboratoire de @DvijKalaria @berkeley_ai et j'ai joué au ping-pong contre son robot, Oreo. J'avais beaucoup joué au ping-pong quand j'étais enfant. Cela semblait de manière appropriée surréaliste et c'était un de ces moments "J'aimerais pouvoir en parler à mon moi du lycée". Le tennis de table est l'un des sports les plus difficiles à jouer pour les robots. La balle peut se déplacer à plus de 30 mph avec un fort effet, l'intention de l'adversaire humain est cachée, et tout le corps doit se coordonner. Oreo est un humanoïde complet tenant une vraie raquette, et il a appris des mouvements clés comme les coups en regardant Dvij démontrer. Pas de données d'entraînement collectées par le robot. Une personne montre le mouvement, la politique se généralise. La façon dont cela fonctionne, tel que je l'ai compris : - Un système intelligent (un planificateur hiérarchique) détermine d'abord où la balle va voler et choisit le meilleur type de coup, comme un coup droit ou un revers. - Ce plan aide ensuite à entraîner le "cerveau" du robot (une politique RL) dans une simulation virtuelle. Le cerveau apprend par essais et erreurs, recevant des récompenses lorsqu'il imite quelques mouvements d'exemple. - Une fois entraîné dans la simulation, l'ensemble du système est appliqué au robot physique réel afin qu'il puisse jouer pour de vrai. Les démonstrations humaines sont essentiellement les mouvements de référence. Ils construisent un robot qui a regardé plus de tennis de table humain que n'importe quel humain, et utilise cela pour développer son propre jeu. J'ai quand même gagné. (À peine. Mais ça ne va pas durer)
Suivez le travail de Dvij ici : Et merci à @hananyss de m'avoir permis de l'accompagner !
533