Google DeepMind hat gerade diese neue LLM-Modellarchitektur namens Mixture-of-Recursions veröffentlicht. Sie bietet eine 2x schnellere Inferenzgeschwindigkeit, reduzierte Trainings-FLOPs und ~50% weniger KV-Cache-Speicher. Wirklich interessante Lektüre. Hat das Potenzial, ein Transformers-Killer zu werden.
Quelle:
237,31K