Google DeepMind właśnie zaprezentował nową architekturę modelu LLM o nazwie Mixture-of-Recursions. Oferuje 2x szybsze wnioskowanie, zmniejszone FLOPy podczas treningu oraz około 50% mniejszą pamięć cache KV. Naprawdę interesująca lektura. Ma potencjał, aby stać się zabójcą Transformerów.
Źródło:
237,31K