Wenn ich dir ein RL-Gehirn geben würde, das Milliarden von Aktionen im großen Maßstab ausprobieren, aus seinen Fehlern lernen und sich anpassen könnte, aber du müsstest die Umgebung auswählen, welche Umgebung würdest du wählen?
1,09K