我看不出在每個 GPU 層級定義批次大小的意義。這意味著在擴大或縮小實驗時需要手動更改批次大小參數。 我想這在歷史上是因為在沒有梯度累積的代碼庫中完成的?
1.58K