Care este rolul memoriei LLM/RAG pe termen scurt și mediu, având în vedere că ferestrele de context pe termen lung ar putea fi extrem de mari? Am obținut câteva informații discutând despre ferestrele de context LLM cu cineva din echipa DeepMind. Lucrând la Gemma, au descoperit că pot extinde lungimea contextului, dar au probleme de calitate - jetoanele de la început și de la sfârșit sunt recuperate bine, dar cele de mijloc se pierd în mecanismul de atenție. Părerea lor interesantă: inițial au crezut că un context mai lung va rezolva totul, dar o analiză mai profundă a arătat că, cu un număr fix de parametri, calitatea nu este gratuită. În ciuda faptului că împing mai departe lungimea contextului, ei încă văd abordările RAG ca fiind necesare pentru viitorul apropiat (6-12 luni) din cauza acestor provocări de calitate a atenției. Deocamdată, problema recuperării nu este pe deplin rezolvată doar prin alungirea contextelor. În plus, completarea întregii ferestre de context pentru modele de înaltă calitate, cu context lung este de ~ 1 USD pe apel astăzi.
292