Cuando lo piensas, el descenso de gradiente estocástico en FP8 es solo yahtzee a escala
1.4K