Google DeepMind heeft zojuist deze nieuwe LLM-modelarchitectuur genaamd Mixture-of-Recursions uitgebracht. Het biedt 2x inferentiesnelheid, verminderde training FLOPs en ~50% verminderde KV-cachegeheugen. Echt interessant om te lezen. Heeft het potentieel om een Transformers-killer te zijn.
Bron:
237,31K