トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 勢いのない小ロットのバニラ SGD (つまり、イントロ ML で最初に学ぶオプティマイザー) は、FLOP ごとに LLM 事前トレーニングを行うと AdamW とほぼ同じ速度であることをご存知ですか?📜 1/n

小ロットのLLMトレーニングはFLOPごとに遅いと考えられており、小規模なアカデミックランでも、より大きなバッチをシミュレートする勾配の蓄積を動機付けています。Adam ハイパーパラメーターをスケーリングする単純なルールにより、バッチ サイズ 1 まで効率的な FLOP ごとのトレーニングが可能になることを示します。4/n

スモールバッチの学習は、学習率や運動量などのオプティマイザーのハイパーパラメータに対して非常に堅牢であることがわかります。 これは、固定のハイパーパラメータ調整バジェットでは、スモールバッチレジームでより優れたハイパーパラメータを見つけることができることを意味します。6/n

341.22K
トップ
ランキング
お気に入り