Google DeepMind ha appena rilasciato questa nuova architettura di modello LLM chiamata Mixture-of-Recursions. Ottiene una velocità di inferenza 2 volte superiore, FLOPs di addestramento ridotti e ~50% di memoria cache KV ridotta. È davvero una lettura interessante. Ha il potenziale per essere un killer dei Transformers.
Fonte:
237,29K