Google DeepMind vừa công bố kiến trúc mô hình LLM mới có tên là Mixture-of-Recursions. Nó đạt tốc độ suy diễn gấp 2 lần, giảm FLOPs trong quá trình huấn luyện và giảm khoảng 50% bộ nhớ KV cache. Thật sự là một bài đọc thú vị. Có tiềm năng trở thành kẻ hủy diệt Transformers.
Nguồn:
237,27K