Quel est le rôle de la mémoire LLM / RAG à court et moyen terme, étant donné que dans le contexte à long terme, les fenêtres peuvent être extrêmement grandes ? J’ai obtenu quelques informations en discutant des fenêtres contextuelles LLM avec un membre de l’équipe DeepMind. En travaillant sur Gemma, ils ont découvert qu’ils pouvaient étirer la longueur du contexte mais rencontrer des problèmes de qualité - les jetons au début et à la fin sont bien récupérés, mais ceux du milieu se perdent dans le mécanisme d’attention. Leur point de vue intéressant : ils ont d’abord pensé qu’un contexte plus long résoudrait tout, mais une analyse plus approfondie a montré qu’avec un nombre fixe de paramètres, la qualité n’est pas gratuite. Bien qu’ils repoussent les limites de contexte, ils considèrent toujours que les approches RAG sont nécessaires dans un avenir proche (6 à 12 mois) en raison de ces problèmes de qualité de l’attention. Pour l’instant, le problème de la récupération n’est pas entièrement résolu simplement en allongeant les contextes. En outre, le remplissage de toute la fenêtre de contexte pour les modèles de haute qualité à contexte long coûte ~1 $ par appel aujourd’hui.
258