Vilken roll spelar LLM-minne/RAG på kort till medellång sikt med tanke på att fönstren i det långsiktiga sammanhanget kan vara extremt stora? Fick några insikter från att diskutera LLM-kontextfönster med någon i DeepMind-teamet. När de arbetade med Gemma upptäckte de att de kunde sträcka ut kontextlängden men stöta på kvalitetsproblem - tokens i början och slutet hämtas bra, men de mellersta går förlorade i uppmärksamhetsmekanismen. Deras intressanta uppfattning: de trodde till en början att längre kontext bara skulle lösa allt, men en djupare analys visade att med fast parameterantal kommer kvalitet inte gratis. Trots att de tänjer på kontextlängderna ytterligare, ser de fortfarande RAG-metoder som nödvändiga för den närmaste framtiden (6-12 månader) på grund av dessa utmaningar med uppmärksamhetskvalitet. För närvarande är hämtningsproblemet inte helt löst bara genom att göra kontexterna längre. Dessutom kostar det ~$1 per samtal att fylla i hela kontextfönstret för högkvalitativa, långkontextmodeller idag.
293