如果我給你一個可以在規模上嘗試數十億個行動、從錯誤中學習並適應的強化學習大腦,但你必須選擇環境 你會選擇什麼環境?
1.11K