分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ | OKX ウォレット

トレンドトピック

🚨 勢いのない小ロットのバニラ SGD (つまり、イントロ ML で最初に学ぶオプティマイザー) は、FLOP ごとに LLM 事前トレーニングを行うと AdamW とほぼ同じ速度であることをご存知ですか?📜 1/n

小ロットのLLMトレーニングはFLOPごとに遅いと考えられており、小規模なアカデミックランでも、より大きなバッチをシミュレートする勾配の蓄積を動機付けています。Adam ハイパーパラメーターをスケーリングする単純なルールにより、バッチサイズ 1 まで効率的な FLOP ごとのトレーニングが可能になることを示します。4/n

スモールバッチの学習は、学習率や運動量などのオプティマイザーのハイパーパラメータに対して非常に堅牢であることがわかります。これは、固定のハイパーパラメータ調整バジェットでは、スモールバッチレジームでより優れたハイパーパラメータを見つけることができることを意味します。6/n

341.22K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable