Hva er rollen til LLM-minne / RAG på kort til mellomlang sikt gitt i den langsiktige konteksten vinduer kan være ekstremt store? Fikk litt innsikt fra å diskutere LLM-kontekstvinduer med noen i DeepMind-teamet. Da de jobbet med Gemma, fant de ut at de kunne strekke kontekstlengden, men treffe kvalitetsproblemer - tokens i begynnelsen og slutten blir hentet godt, men de midterste går tapt i oppmerksomhetsmekanismen. Deres interessante oppfatning: de trodde i utgangspunktet at lengre kontekst bare ville løse alt, men dypere analyser viste at med fast antall parametere kommer ikke kvalitet gratis. Til tross for at konteksten skyves lenger, ser de fortsatt på RAG-tilnærminger som nødvendige i nær fremtid (6-12 måneder) på grunn av disse utfordringene med oppmerksomhetskvalitet. Foreløpig er ikke gjenfinningsproblemet helt løst bare ved å gjøre kontekstene lengre. Dessuten er det ~$1 per samtale å fylle ut hele kontekstvinduet for høykvalitetsmodeller med lang kontekst i dag.
252