Šel jsem @berkeley_ai do @DvijKalaria laboratoře a hrál ping pong proti jeho robotovi Oreovi. Jako dítě jsem hrál spoustu ping-pongu. Tohle působilo patřičně surrealisticky a jako jeden z těch momentů "přál bych si, abych to mohl říct svému středoškolskému já". Stolní tenis je jedním z nejtěžších sportů pro roboty. Míček může při silné rotaci letět až 30+ mph, úmysl soupeře je skrytý a celé tělo musí koordinovat. Oreo je plnohodnotný humanoid držící opravdovou pádlo, a klíčové pohyby jako houpačky se naučil tím, že sledoval Dvije, jak to předvádí. Žádná trénovací data sbíraná roboty. Jeden člověk předloží návrh, politika zobecňuje. Jak to funguje, jak jsem to pochopil: - Chytrý systém (hierarchický plánovač) nejprve zjistí, kam míč poletí, a vybere nejlepší typ úderu, například forhend nebo backhand. - Tento plán pak pomáhá trénovat robotův "mozek" (RL politiku) ve virtuální simulaci. Mozek se učí metodou pokus-omyl a získává odměny, když napodobí pár příkladových pohybů - Jakmile je natrénován v simulátoru, celé nastavení se aplikuje na skutečného fyzického robota, aby mohl hrát skutečně. Lidské demonstrace jsou v podstatě referenční pohyby. Staví robota, který viděl více lidského stolního tenisu než kterýkoli člověk, a využívá to k vývoji vlastní hry. Stejně jsem vyhrál. (Stěží. Ale to dlouho nevydrží)
Sledujte Dvijovu tvorbu zde: A díky @hananyss, že mě necháte jít s námi!
292