Non vedo il senso di definire la dimensione del batch a livello di singola GPU nel codice. Questo significa che è necessario cambiare manualmente il parametro della dimensione del batch quando si scala l'esperimento verso l'alto o verso il basso. Immagino che storicamente sia stato fatto in codici che non hanno l'accumulo dei gradienti?
1,57K