预训练是一门优雅的科学,由坐在寒冷房间里的数学家们撰写优化理论在黑板上完成,工程师们则完全沉浸在巨型分布式系统中。 后训练则是令人毛骨悚然的牛仔研究,喝着大量健怡可乐的人们在房间里互相大喊要尝试的新超参数。做太多表格了!气氛越来越糟,调低旋钮!检查点 gpt-9-final-v320-restart4 在叫我名字!鹅已经放飞了。
216.75K