Google DeepMindは、Mixture-of-Recursionsと呼ばれるこの新しいLLMモデルアーキテクチャを廃止しました。 推論速度が 2 倍になり、トレーニング FLOP が削減され、KV キャッシュ メモリが ~50% 削減されます。本当に興味深い読み物です。 トランスフォーマーのキラーになる可能性を秘めています。
源:
237.31K