Ik zie het nut niet in van het definiëren van de batchgrootte op een per GPU-niveau in de codebase. Dit betekent dat je de batchgrootte parameter handmatig moet aanpassen bij het opschalen of afschalen van het experiment. Ik denk dat dit historisch gezien is gedaan in codebases die geen gradient accumulatie hebben?
1,57K