Vai trò của bộ nhớ LLM/RAG trong ngắn hạn đến trung hạn là gì khi xét trong bối cảnh dài hạn các cửa sổ ngữ cảnh có thể cực kỳ lớn? Đã có một số thông tin chi tiết từ việc thảo luận về các cửa sổ ngữ cảnh LLM với một thành viên trong nhóm DeepMind. Khi làm việc trên Gemma, họ nhận thấy rằng có thể kéo dài độ dài ngữ cảnh nhưng gặp vấn đề về chất lượng - các token ở đầu và cuối được truy xuất tốt, nhưng các token ở giữa bị mất trong cơ chế chú ý. Quan điểm thú vị của họ: ban đầu họ nghĩ rằng ngữ cảnh dài hơn sẽ giải quyết mọi thứ, nhưng phân tích sâu hơn cho thấy rằng với số lượng tham số cố định, chất lượng không tự nhiên mà có. Mặc dù đã đẩy độ dài ngữ cảnh xa hơn, họ vẫn thấy các phương pháp RAG là cần thiết trong tương lai gần (6-12 tháng) do những thách thức về chất lượng chú ý này. Hiện tại, vấn đề truy xuất chưa được giải quyết hoàn toàn chỉ bằng cách làm cho ngữ cảnh dài hơn. Ngoài ra, việc lấp đầy toàn bộ cửa sổ ngữ cảnh cho các mô hình ngữ cảnh dài chất lượng cao hiện nay có chi phí khoảng ~$1 mỗi lần gọi.
256