Apa peran memori LLM/RAG dalam jangka pendek hingga menengah yang diberikan dalam jendela konteks jangka panjang mungkin sangat besar? Mendapat beberapa wawasan dari mendiskusikan jendela konteks LLM dengan seseorang di tim DeepMind. Mengerjakan Gemma, mereka menemukan bahwa mereka dapat meregangkan panjang konteks tetapi mengalami masalah kualitas - token di awal dan akhir diambil dengan baik, tetapi yang tengah hilang dalam mekanisme perhatian. Pandangan menarik mereka: mereka awalnya berpikir konteks yang lebih panjang hanya akan menyelesaikan segalanya, tetapi analisis yang lebih dalam menunjukkan bahwa dengan jumlah parameter tetap, kualitas tidak datang secara gratis. Meskipun mendorong konteks lebih jauh, mereka masih melihat pendekatan RAG diperlukan untuk masa depan dalam waktu dekat (6-12 bulan) karena tantangan kualitas perhatian ini. Untuk saat ini, masalah pengambilan tidak sepenuhnya diselesaikan hanya dengan membuat konteks lebih panjang. Selain itu, mengisi seluruh jendela konteks untuk model konteks panjang berkualitas tinggi adalah ~$1 per panggilan hari ini.
254