Google DeepMind tocmai a renunțat la această nouă arhitectură de model LLM numită Mixture-of-Recursions. Obține o viteză de inferență de 2x, FLOP-uri de antrenament reduse și ~50% memorie cache KV redusă. Lectură foarte interesantă. Are potențialul de a fi un ucigaș Transformers.
Sursă:
237,23K