als ik je een RL-brein gaf dat miljarden acties op schaal kon proberen, van zijn fouten kon leren en zich kon aanpassen, maar je moest de omgeving kiezen welke omgeving zou je kiezen?
1,12K