Tôi không thấy lý do gì để mã nguồn xác định kích thước lô ở mức độ từng GPU. Điều này có nghĩa là cần phải thay đổi tham số kích thước lô một cách thủ công khi tăng/giảm quy mô thí nghiệm. Tôi đoán điều này đã được thực hiện trong mã nguồn mà không có tích lũy gradient?
1,57K